CN111552777B - 一种音频识别方法、装置、电子设备及存储介质 - Google Patents
一种音频识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111552777B CN111552777B CN202010335195.0A CN202010335195A CN111552777B CN 111552777 B CN111552777 B CN 111552777B CN 202010335195 A CN202010335195 A CN 202010335195A CN 111552777 B CN111552777 B CN 111552777B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- audio
- granularity
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012216 screening Methods 0.000 claims abstract description 62
- 238000001914 filtration Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000002372 labelling Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 235000003140 Panax quinquefolius Nutrition 0.000 description 10
- 240000005373 Panax quinquefolius Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种音频识别方法、装置、电子设备及存储介质,所述方法包括:获取音频信息并输入到音频识别模型,得到音频对及音频对的开始时间和结束时间及识别文本;将识别文本进行分词后,将分词在基准文件库中匹配搜索;根据音频对在多个基准文件中匹配搜索,筛选出音频对匹配的基准字组,根据基准文件中的基准文本及音频对,对基准字组进行校准处理得到第一粒度的匹配结果;筛选出与识别文本匹配的基准文本,得到第二粒度的匹配结果;利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,利用识别文本、音频对以及歌曲库为基础,对原有文字识别结果进行修正,大大提高了歌曲识别的准确性。
Description
技术领域
本公开涉及音频技术领域,特别涉及一种音频识别方法、装置、电子设备及存储介质。
背景技术
现有的音频识别方法通常是根据由设备采集到的音频信息,通过对音频信息中包含的文字进行识别,得到音频文件对应的音频信息,但因音频信息的不完整导致对于音频的识别成功率往往不高,并且即使通过现有技术识别出了文字,最终识别的准确率也不高。
对于短视频中的音频进行识别,需要在保证实时通用准确率的前提下同时提高准确率,但目前在音频识别领域中还没有针对短视频的音频进行识别的模型或方法,并且在视频平台上对实时音频的字幕需求则更高,现有对于音频的解析存在一定的延时,难以满足进行实时识别及预测的需求。
发明内容
本公开提供的一种音频识别方法、装置、电子设备及存储介质,用于解决音频信息的不完整导致对于音频的识别成功率往往不高,并且即使通过现有技术识别出了文字,最终识别的准确率也不高的问题;
本公开第一方面提供一种音频识别方法,该方法包括:
获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
将所述识别文本进行分词后,利用各分词在基准文件库中进行匹配搜索,根据搜索结果筛选出多个基准文件;
根据所述音频对在筛选出的多个基准文件中进行匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
可选地,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件,包括:
对于各分词,查找基准文件库中出现该分词的基准文本;
根据所有分词的查找结果,利用基准文件中出现分词的个数和或次数对基准文件的筛选。
对于筛选出的多个基准文件,根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
可选地,利用各分词在基准文件库中匹配搜索之前,还包括:
过滤基准文件库中与识别文本无关的非基准文本。
可选地,根据所述音频对在筛选出的多个基准文件中进行匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理,包括:
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频对匹配的基准字组,所述字组的字数大于音频对个数;
根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序;
将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除。
可选地,根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,包括:
确定基准字组仅与一个音频对匹配时,将所述音频对的开始时间标识为所述基准字组的开始时间,将所述音频对的结束时间标识为所述基准字组的结束时间;或,
确定基准字组同时与至少两个音频对匹配时,将所述至少两个音频对的最早开始时间,标识为所述基准字组的开始时间,将所述至少两个音频对的最晚结束时间,标识为所述基准字组的结束时间。
可选地,确定出现乱序的基准字组并删除之后,还包括:
确定开始时间相同的基准字组为重复使用的基准字组,从当前的基准字组中删除重复使用的基准字组,及从划分的字组中删除重复使用的基准字组,并在划分的字组中保留删除的基准字组的位置;
对当前划分的字组从后向前检测,检测到保留的位置可以容纳之后的字组时,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻;
确定当前划分的字组仍存在未被覆盖的保留的位置时,将未被覆盖的保留的位置对应删除的基准字组,按照开始时间回填到当前基准字组中。
可选地,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖n个基准字组位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字数的个数;
将删除的第一个基准字组,按照开始时间回填到当前基准字组中。
可选地,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述之前的连续基准字组删除最后一个基准字组后的基准字数的个数;
将删除的最后一个基准字组,按照开始时间回填到当前基准字组中。
可选地,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
根据当前基准字组的开始时间,过滤开始时间间隔大于设定时间第一阈值的基准字组;
根据当前基准字组的开始时间,过滤开始时间间隔小于设定时间第二阈值的基准字组,所述第一时间阈值大于所述第二时间阈值。
可选地,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
确定当前任一基准字组的开始时间和结束时间大于设定值时,且占据两个基准文本的首尾连接处时,删除该基准字组中占据其中一个基准文本的文字。
可选地,确定出现乱序的基准字组并删除之后,包括:
利用当前基准字组中基准单字在基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
可选地,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
可选地,根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
可选地,根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果,包括:
确定所述识别文本中的整句识别文本,根据所述整句识别文本的多个音频对在多个基准文件中匹配搜索,根据所述多个音频对与整句文本的匹配结果筛选出基准文本。
可选地,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,包括如下至少一个步骤:
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,对所述第一粒度的匹配结果的整句文本中缺少的文字进行填补;
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,确定所述第一粒度的匹配结果中不连续的整句文本,并对缺少的整句文本进行填补。
可选地,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用当前第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注;
根据在基准文本的整句文本的标注结果,确定当前第一粒度的匹配结果中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
可选地,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
可选地,根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
可选地,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准后,确定当前长度最大的基准字组对应的基准文件;
确定获取音频信息的时间与当前时间的时间差值,根据当前长度最大的基准字组在所述基准文件中确定当前对应时间;
根据当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置;
根据当前时间音频组词语文本的时间位置确定当前时间对应预测文本。
本公开第二方面提供一种音频识别装置,该装置包括如下模块:
音频信息获取模块,用于获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
基准文件筛选模块,用于将所述识别文本进行分词后,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件;
第一粒度匹配模块,用于根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
第二粒度匹配模块,用于根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
匹配校准模块,用于利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
基准文件筛选模块,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件,包括:
对于各分词,查找基准文件库中出现该分词的基准文本;
根据所有分词的查找结果,利用基准文件中出现分词的个数和或次数对基准文件进行筛选。
基准文件筛选模块,根据基准文件中出现分词的个数和/或各分词出现的次数进行基准文件的筛选之后,还包括:
根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
无关文本筛选模块,利用各分词在基准文件库中匹配搜索之前,还包括:
过滤基准文件库中与识别文本无关的非基准文本。
第二粒度匹配模块,根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理,包括:
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频对匹配的基准字组,所述字组的字数大于音频对个数;
根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序;
将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除。
第一粒度匹配模块,根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,还包括:
确定基准字组仅与一个音频对匹配时,将所述音频对的开始时间标识为所述基准字组的开始时间,将所述音频对的结束时间标识为所述基准字组的结束时间;或,
确定基准字组同时与至少两个音频对匹配时,将所述至少两个音频对的最早开始时间,标识为所述基准字组的开始时间,将所述至少两个音频对的最晚结束时间,标识为所述基准字组的结束时间。
第二粒度匹配模块,确定出现乱序的基准字组并删除之后,还包括:
确定开始时间相同的基准字组为重复使用的基准字组,从当前的基准字组中删除重复使用的基准字组,及从划分的字组中删除重复使用的基准字组,并在划分的字组中保留删除的基准字组的位置;
对当前划分的字组从后向前检测,检测到保留的位置可以容纳之后的字组时,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻;
确定当前划分的字组仍存在未被覆盖的保留的位置时,将未被覆盖的保留的位置对应删除的基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖n个基准字组位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字数的个数;
将删除的第一个基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述之前的连续基准字组删除最后一个基准字组后的基准字数的个数;
将删除的最后一个基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
根据当前基准字组的开始时间,过滤开始时间间隔大于设定时间第一阈值基准字组;
根据当前基准字组的开始时间,过滤开始时间间隔小于设定时间第二阈值基准字组,所述第一时间阈值大于所述第二时间阈值。
第一粒度匹配模块,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
确定当前任一基准字组的开始时间和结束时间大于设定值时,且占据两个基准文本的首尾连接处时,删除该基准字组中占据其中一个基准文本的文字。
第一粒度匹配模块,确定出现乱序的基准字组并删除之后,包括:
利用当前基准字组中基准单字在基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
第一粒度匹配模块,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
第一粒度匹配模块,根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
第一粒度匹配模块,根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第一粒度的匹配结果,包括:
确定所述识别文本中的整句识别文本,根据所述整句识别文本的多个音频对在多个基准文件中匹配搜索,根据所述多个音频对与整句文本的匹配结果筛选出基准文本。
第二粒度匹配模块,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,包括如下至少一个步骤:
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,对所述第一粒度的匹配结果的整句文本中缺少的文字进行填补;
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,确定所述第二粒度的匹配结果中不连续的整句文本,并对缺少的整句文本进行填补。
匹配校准模块,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用当前第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前第一粒度的匹配结果中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
匹配校准模块,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
匹配校准模块,根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
当前时间预测文本确定模块,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准后,确定当前长度最大的基准字组对应的基准文件;
确定获取音频信息的时间与当前时间的时间差值,根据当前长度最大的基准字组在所述基准文件中确定当前对应时间;
根据当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置;
根据当前时间音频组词语文本的时间位置确定当前时间对应预测文本。
本公开第三方面用于一种音频识别电子设备,所述电子设备包括:存储器和处理器;
其中,所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中的程序,实现本公开第一方面提供的任一项方法。
可选地,所述装置利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件,包括:
对于各分词,查找基准文件库中出现该分词的基准文本;
根据所有分词的查找结果,利用基准文件中出现分词的个数和或次数对基准文件进行筛选。
对于筛选出的多个基准文件,根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
可选地,所述装置利用各分词在基准文件库中匹配搜索之前,还包括:
过滤基准文件库中与识别文本无关的非基准文本。
可选地,所述装置根据所述音频对在筛选出的多个基准文件中进行匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理,包括:
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频对匹配的基准字组,所述字组的字数大于音频对个数;
根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序;
将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除。
可选地,所述装置根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,包括:
确定基准字组仅与一个音频对匹配时,将所述音频对的开始时间标识为所述基准字组的开始时间,将所述音频对的结束时间标识为所述基准字组的结束时间;或,
确定基准字组同时与至少两个音频对匹配时,将所述至少两个音频对的最早开始时间,标识为所述基准字组的开始时间,将所述至少两个音频对的最晚结束时间,标识为所述基准字组的结束时间。
可选地,所述装置确定出现乱序的基准字组并删除之后,包括:
确定开始时间相同的基准字组为重复使用的基准字组,从当前的基准字组中删除重复使用的基准字组,及从划分的字组中删除重复使用的基准字组,并在划分的字组中保留删除的基准字组的位置;
对当前划分的字组从后向前检测,检测到保留的位置可以容纳之后的字组时,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻;
确定当前划分的字组仍存在未被覆盖的保留的位置时,将未被覆盖的保留的位置对应删除的基准字组,按照开始时间回填到当前基准字组中。
可选地,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖n个基准字组位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字数的个数;
将删除的第一个基准字组,按照开始时间回填到当前基准字组中。
可选地,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述之前的连续基准字组删除最后一个基准字组后的基准字数的个数;
将删除的最后一个基准字组,按照开始时间回填到当前基准字组中。
可选地,所述装置确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
根据当前基准字组的开始时间,过滤开始时间间隔大于设定时间第一阈值的基准字组;
根据当前基准字组的开始时间,过滤开始时间间隔小于设定时间第二阈值的基准字组,所述第一时间阈值大于所述第二时间阈值。
可选地,所述装置确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
确定当前任一基准字组的开始时间和结束时间大于设定值时,且占据两个基准文本的首尾连接处时,删除该基准字组中占据其中一个基准文本的文字。
可选地,所述装置确定出现乱序的基准字组并删除之后,包括:
利用当前基准字组中基准单字在基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
可选地,所述装置根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
可选地,所述装置根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
可选地,所述装置根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第一粒度的匹配结果,包括:
确定所述识别文本中的整句识别文本,根据所述整句识别文本的多个音频对在多个基准文件中进行匹配搜索,根据所述多个音频对与整句文本的匹配结果筛选出基准文本。
可选地,所述装置利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,包括如下至少一个步骤:
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,对所述第一粒度的匹配结果的整句文本中缺少的文字进行填补;
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,确定所述第一粒度的匹配结果中不连续的整句文本,并对缺少的整句文本进行填补。
可选地,所述装置利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用当前第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前第一粒度的匹配结果中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
可选地,所述装置根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
可选地,所述装置根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
可选地,所述装置利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准后,确定当前长度最大的基准字组对应的基准文件;
确定获取音频信息的时间与当前时间的时间差值,根据当前长度最大的基准字组在所述基准文件中确定当前对应时间;
根据当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置;
根据当前时间音频组词语文本的时间位置确定当前时间对应预测文本。
本公开第四方面用于一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开第一方面提供的任一项方法。
利用本公开提供的一种音频识别方法、装置、电子设备及存储介质,能利用识别文本、音频对以及歌曲库为基础,对原有的文字识别结果进行修正,大大提高了歌曲识别的准确性。
附图说明
图1为一种音频识别方法的步骤示意图;
图2为一种音频识别方法的完整步骤示意图;
图3为一种音频识别装置的模块示意图;
图4为一种音频识别电子设备的具体示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
为了方便理解,下面对本公开实施例中涉及的名词进行解释:
1)音频识别模型,音频识别模型是语音识别系统中最为重要的部分之一,所述音频识别模型包含声学识别模型以及语言识别模型,主流音频识别模型多采用隐马尔科夫模型进行建模。隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型hmm是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。
2)Lattice网格是一个无环WFSA,结点可以是hmm状态、hmm(音素)词,每个结点是一段音频在某个时间的对齐,用训练好的声学识别模型、现成的语言识别模型和发音字典构建解码网络(WFST),最后将提取的测试集的语音特征输入以上解码网络,得到网格结构(lattice)的语音识别结果。
3)WFST解码,是指一种基于加权有限状态转换器(WFST,Weighted Finaite-StateTransducer)的用于语音识别的解码网络。
实施例1
本公开实施例提供一种音频识别方法,如图1所示,该方法包括如下步骤:
S101,获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
从智能设备中获取音频信息,所述音频信息的格式可以为如下任一种,包括:WAV、ACC、MP3、WMA、APE等,所述音频信息不限于纯音频文件的形式,也可以为根据视频文件转换得到音频格式的文件。
上述智能设备可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备以及5G网络中的移动台或者未来演进的公共陆地移动网(Public LandMobile Network,PLMN)网络中的订阅设备等。
从智能设备中获取音频信息的音频特征,所述音频特征主要为:梅尔频率倒谱系数、音乐能量以及音乐节奏等。
上述的获取音频特征的执行过程可以全部在服务器上执行,也可以全部在智能设备上执行;还可以部分在智能设备上执行,部分在服务器上执行,例如智能设备获取语音信号并发送给服务器进行特征提取等后续过程。以过程在服务器上实现为例,服务器获取音频信息后,对获得的音频信息进行特征提取以得到该音频文件的声学特征信息。服务器对执行特征提取的过程中可以采用本领域常规技术手段来完成,本说明书实施例不对服务器执行声学特征信息提取过程所采用的方法进行限定,例如可以采用线性预测倒谱系数法(LPCC:LinearPrediction Cepstrum Coefficient)、梅尔频率倒谱系数(MFCC:MelFrequency Cepstrum Coefficient)、感知线性预测参数法(PLP:Perceptual LinearPredictive)和梅尔标度滤波法(FBANK:Mel-scale Filter Bank)中的任意一种均可。
根据声学特征信息,通过预先构建的声学模型将音频文件分类为各个类别并确定对应的分类概率;其中,声学模型可以通过本领域常规方法进行预先构建,本实施例中不对构建声学模型的方法进行具体限定,例如可以基于卷积神经网络、循环神经网络、深度神经网络、高斯混合模型和长短期记忆网络中的任一种方法进行声学模型的构建。
预先构建的WFST模块可以是解码器中的预先构建的搜索功能模块,其中,解码器是指将输入的音频信息解码输出对应文字结果的软件程序(如手机应用程序、服务器程序等等)或装置(如独立的语音翻译机)。WFST模块可以包含根据各预定领域、各预定场景和各设定语言模式的声学模型、发音词典和语言模型,分别构建得到的、对应各预定领域、各预定场景和各设定语言模式的各个WFST模块。各预定领域可以是各种学科领域、各类商品领域或其他具体领域,通常每一个预定领域都会有该领域对应的常用词句、专业词句等具有区别性的词句,相应的发音习惯也会有所不同或侧重。各预定场景例如可以是用户常处在的各种生活场景和工作场景等,同样也会具有对应各种场景下的语音特点。各设定语言模式可以是用户自身的语言习惯或语音发音习惯,产生的能够代表该用户个人特征的语言模式,例如用户的口音以及习惯用语等。
目标最佳路径是多个WFST模块对语音信号进行搜索后输出的多个搜索结果中满足要求的一条搜索路径,例如,目标最佳路径可以是权重最高的一个搜索结果所对应的搜索路径,用于最终声学识别结果的确定输出。声学识别结果可以是词序列,也可以是词序列对应控制指令。其中,词序列可以是目标最佳路径对应的具有相应概率、且具有网格结构的字符串。语音识别结果可以直接以文字形式直观地显示语音信号传达的信息内容,本实施例中音频文件最终以文字形式转化为音频文件的音频识别文本信息。
本实施例应用于对中文文本进行文字识别时,在上述识别过程中会得到各音频对的对应的拼音对以及各拼音对的出现时间,举例而言,所述待识别的音频信息内音频对为“你好小快”,经过特征提取后转化为39维的声学特征向量,通过多个HMM音频识别模型得到对应的多个拼音“ni”、“hao”、“xiao”、“kuai”,将各拼音出现间隔小于一定时间阈值的两个拼音组成一个拼音对“ni hao”“、“hao xiao”、“xiao kuai”根据各音频中音频信息确定各拼音对的起始时间与结束时间。
通过预先构建好的声学模型,根据前述获得的声学特征信息对音频信息进行分类计算,结合设定的分类数量和类别等标准,将音频信息分成一定数量的类别并且给出每个类别的对应分类概率。音频识别模型中的各条分类搜索路径包含有对应的权重(概率),通过对各条分类路径的相应权重进行合并,就可以在输出的类别结果同时得到该类别的分类概率。例如该音频信息中的某音频帧被分类到X类的概率为0.4,被分到Y类的概率为0.6等。一定数量的类别例如可以是300到600个类别,其可以根据声学识别技术所需要应用到的常见场景的各种细分类别来进行确定,根据各个类别的语音信号及对应的分类概率,基于预先构建的各个WFST模块分别进行前向搜索,获得目标最佳的Lattice路径;目标最佳路径用于确定语音识别得到的识别文本。
S102,将所述识别文本进行分词后,利用各分词在基准文件库中进行匹配搜索,根据搜索结果筛选出多个基准文件;
对于各分词,查找基准文件库中出现该分词的基准文件;
具体的,将语言识别过程中得到的识别文本划分为多组词语组存在多种划分方式,对划分词语组的文字个数以及各词语是否可以被重复划分,这里不做限制,例如语言识别过程中得到的识别文本为:“你好小快”,以字数为两个且文字可重复使用的方式进行划分,划分得到的分词组为,“你好”、“好小”、“小快”,具体的划分方式也和在基准文件库中进行匹配时基准文件库中的词语长度有关,这里不再赘述;
根据所有分词的查找结果,利用基准文件中出现分词的个数和或次数对基准文件进行筛选。
将划分好的各分词映射到基准文件库中,其中,因本公开的主要应用场景为歌曲识别领域,故基准文件库中主要存储歌曲文本,但该基准文件库中存储文件格式不限于歌曲类别,本实施例仅示出了一个示例,还可以使用其他类型,如:有声小说、影视字幕、朗读等类别,这里不做限制。
查找基准文件库中出现该分词的基准文件,可以采用倒排链方式,将分词的映射到基准文件库中,对基准文件中包含的各分词进行映射,得到各基准文件被分词的映射次数;例如将“你好”、“好小”、“小快”映射到基准文件中,并设定映射次数阈值为5次,将基准文件中出现上述三个分词的总次数超过五次的基准文件进行基准文件筛选,确定为对应的基准文本,利用基准文件中出现分词的个数和或次数对基准文件进行筛选,可以对按照基准文件是否出现该分词方式查找的大量基准文件进行精简,一方面减少了后续的计算量,另一方面由于采用按照出现分词次数进行匹配筛选,可以保证筛选出的基准文件的匹配率高于被筛选掉的基准文件,不会出现基准文件的漏选和错选。
根据基准文件中出现分词的个数和/或各分词出现的次数进行基准文件的筛选之后,还可以采用如下方式,进一步从对应的基准文本筛选出更小范围的音频文件对应的基准文件:
对于筛选出的多个基准文件,根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
在得到筛选出的多个基准文件后,根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件,其中各分词在基准文件中的相对位置、排列顺序以及连续程度都会影响最终的相似度判断,例如:当至少两个分词在基准文件中同时出现,且出现的空间顺序与基准文件的空间顺序相同时,相似度也会相应的增加,其中各因素对于相似度的影响系数是根据预先设定的相似度检测模型进行计算,相似度检测模型既可以为通过机器学习预先训练得到的,还可以为由本领域技术人员预先设置的,这里不做限制,根据筛选出的多个基准文件的相似度与相似度阈值的关系,进一步筛选出相似度高于设定阈值的多个基准文件。
过滤基准文件库中与识别文本无关的非基准文本:具体为,将基准文件库中与搜索音频无关的,例如,作词作曲者、歌曲名称等其他信息进行过滤删除,最终仅保留基准文件库中与歌曲歌词有关的文字,以根据所述音频在筛选出的多个基准文件中匹配搜索,可以减少作词作曲者、歌曲名称等其他信息对于基准字标注产生的误差。
S103,根据所述音频在筛选出的多个基准文件中匹配搜索,筛选出与任一音频匹配的基准字组,并根据基准文件中的基准文本及所述音频的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频匹配的基准字组,所述字组的字数大于音频字个数;
具体的,在过滤后的基准文件库各基准文件中,将各基准文件中的基准文本从前向后进行划分得到划分字组,其中划分的方式存在多种,以每次移动一个字的方式从前向后将三个字划分为一个字组,当然,字组中字数的个数不限于三个字,例如基准文本为“祝你生日快乐”,划分后的字组为“祝你生”、“你生日”、“生日快”、“日快乐”,在划分得到划分字组之后筛选出与任一音频对匹配的基准字组;
根据所述音频的开始时间和结束时间,标识与所述音频匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序;
具体的,根据所述音频的开始时间和结束时间,标识与所述音频匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序,所述字组的字数大于音频中拼音个数以确保各匹配的基准字组都有对应的开始时间和结束时间。
作为一种可选的实施方式,确定基准字组仅与一个音频匹配时,将所述音频的开始时间标识为所述基准字组的开始时间,将所述音频的结束时间标识为所述基准字组的结束时间,例如,基准字组为“祝你生”,该基准字组仅与音频“zhu ni”匹配,则将音频“zhuni”的开始时间标识为“祝你生”的开始时间,将音频“zhu ni”的结束时间标识为“祝你生”的结束时间。
作为另一种可选的实施方式,确定基准字组同时与至少两个音频匹配时,将所述至少两个音频的最早开始时间,标识为所述基准字组的开始时间,将所述至少两个音频的最晚结束时间,标识为所述基准字组的结束时间,例如,基准字组为“祝你生”,该基准字组与音频“zhu ni”、“ni sheng”都匹配,根据两个音频“zhu ni”、“ni sheng”中音频的最早开始时间,标识为“祝你生”的开始时间,根据两个音频“zhu ni”、“ni sheng”中音频的最晚结束时间,标识为“祝你生”的结束时间。
将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除。
具体的,将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除,在排序后的基准字组中存在与划分的字组顺序不符或乱序的基准字组时,删除出现乱序的基准字组,划分的字组的排列顺序为“祝你生”→“你生日”→“生日快”→“日快乐”,排序后的基准字组为“祝你生”→“日快乐”→“你生日”→“生日快”,确定“日快乐”出现乱序,该基准字组应在“生日快”之后,故删除该基准字组,最终得到最终排列顺序“祝你生”→“你生日”→“生日快”。
步骤S104,根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
确定所述识别文本中的整句识别文本,根据所述整句识别文本的多个音频在多个基准文件中匹配搜索,根据所述多个音频与整句文本的匹配结果筛选出基准文本。
具体的,根据由语言识别过程中得到的识别文本确定其中的整句识别文本,并将整句的识别文本对应的字符发音在基准文件中匹配搜索,根据识别文本对应的音频筛选得到匹配音频的基准文本为第一粒度的匹配结果对应的基准文本。
步骤S105,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,对所述第一粒度的匹配结果的整句文本中缺少的文字进行填补;
具体的,将各基准文件对应的第二粒度的匹配结果的基准文本与各基准文件对应的第一粒度的匹配结果的基准文本进行对比,以第二粒度的匹配结果的基准文本为标准,将第一粒度的匹配结果的基准文本中的整句文本中缺少的文字进行填补,例如第二粒度的匹配结果的基准文本对应的整句文本为“祝你生日快乐”,第一粒度的匹配结果的基准文本对应的整句文本为“祝你生日快乐”,其中包含下划线的为被标注的基准单字,利用第二粒度的匹配结果对第一粒度的匹配中确少标注的文字进行填补。
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,确定所述第一粒度的匹配结果中不连续的整句文本,并缺少的整句文本进行填补;
具体的,将各基准文件对应的第二粒度的匹配结果的基准文本与各基准文件对应的第一粒度的匹配结果的基准文本进行对比,以第二粒度的匹配结果的基准文本为标准,确定第一粒度的匹配结果中不连续的整句文本,将相比于第二粒度的匹配结果的整句文本进行填补。例如,第二粒度匹配结果的基准文本中标注整句文本为“ABCDE”,第一粒度的匹配结果的基准文本中标注整句文本为“A()()DE”,将并缺少的整句文本“BC”进行填补。
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准后,在整句文本进行填补后确定当前长度最大的基准字组对应的基准文件为音频信息对应的基准文件,在音频信息对应的基准文件中确定音频信息预测文本。
采用本公开实施例提供的音频识别方法,可以通过音频信息,以歌曲库歌曲为基础,对原有的文字识别结果进行修正,并通过音频识别结果与文字识别结果,来区分音频是否为歌曲,大大提高了歌曲识别的准确性,并且有很高的召回度。
存在另一种实时识别音频信息的方法,可以根据获取音频信息的时间与当前时间,获取当前时间对应的预测文本。
具体的,首先确定获取音频信息的时间与当前时间的时间差值,根据当前长度最大的基准字组在所述基准文件中确定当前对应时间;
根据当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置;
根据当前时间音频组词语文本的时间位置确定当前时间对应预测文本。
具体的,根据获取音频信息的时间与当前时间确定当前时间与获取音频信息时间差值,并根据当前长度最大的基准字组在音频信息对应的基准文件中的位置,确定获取的音频信息在基准文件中的对应时间,将当前对应时间加所述时间差值,得到当前时间音频组词语文本的时间位置,最终根据当前时间音频组词语文本的时间位置,确定当前时间对应的预测文本。
通过音频信息确定的基准文件,以及音频信息对应的预测文本可以预测当前时间的歌词,以此可以实现对于歌曲的实时的识别。
实施例2
作为一种可选的实施方式,实施例1提供的第二粒度的校准处理方式还包括以下几种,具体第二粒度的校准的方式包括执行如下至少一个步骤,各步骤的执行顺序也不限于实施例描述的顺序,这里不做限制。
(1)确定开始时间相同的基准字组为重复使用的基准字组,从当前的基准字组中删除重复使用的基准字组,及从划分的字组中删除重复使用的基准字组,并在划分的字组中保留删除的基准字组的位置;
对当前划分的字组从后向前检测,检测到保留的位置可以容纳之后的字组时,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻;
将保留的位置对应删除的基准字组,按照开始时间回填到当前基准字组中。
具体的,在音频匹配到基准字组时,多个基准字组中存在相同的基准字匹配相同的音频,从而导致基准字组标注的开始时间均为同一个音频的起始时间,当检测到开始时间相同的基准字组时,从当前的基准字组中删除重复使用的基准字组,并从划分的字组中删除重复使用的基准字组,同时保留删除的基准字组的在原字组序列中的位置;
将当前划分的字组从后向前检测,检测到可以容纳后方的基准字组的空位时,将后方的基准字组向前移动覆盖,至与最近的基准字组相邻。
将对应保留的位置对应删除的基准字组,按开始时间回填当前基准字组中。
例如,当前的基准字组“祝你生”→“生日快”→“生日快”→“日快乐”中“生日快”的开始时间相同,从当前的基准字组中及从划分的字组中删除重复的基准字组,并保留删除的基准字组的位置,当前的基准字组为“祝你生”→()→()→“日快乐”,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻“祝你生”→“日快乐”,将对应保留的位置对应删除的基准字组“你生日”→“生日快”按开始时间回填到当前基准字组中,得到“祝你生”→“你生日”→“日快乐”。
(2)通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;其中根据划分字组的字组位置与当前基准字组的字组位置,确定在划分的字组中基准字组的间隔大于预设的基准字组间隔,这里对基准字组间隔不做限制,其中基准字组间隔可以为基准字组间的起始时间间隔大小,或基准字组间的基准字的数量。
作为一种可选的实施方式,确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖n个基准字组位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字组的个数;
确定间隔的字组数超过预设个数的不连续的基准字组时,根据不连续的基准字组的位置,确定不连续的基准字组前的连续基准字组以及不连续的基准字组后的连续基准字组,将不连续的基准字组后的连续基准字组中的第一个基准字组删除,并将删除后基准字组的连续基准字组向前移动覆盖n个基准字组的位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字组的个数,例如,当前基准字组为“abc e e g abc”,划分的字组为“abcdeabcdefghabc”每个字母代表一个基准字组,其中“eg”的间隔大于预设的基准字组间隔,在划分的字组中不连续的基准字组前的连续基准字组为“abc”,不连续的基准字组后的连续基准字组为“abc”,不连续的基准字组之前和之后的连续基准字组之间的基准字组的个数为两个,将不连续的基准字组后的连续基准字组为“abc”中第一个基准字组“a”删除,将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖2个基准字组位置,得到“abceabc”;
作为另一种可选的实施方式,确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述不连续的基准字组之前和之后的连续基准字组之间的基准字组的个数,其中具体的实施方式相似,这里不再赘述,利用上述方法,可以使得在比对基准字组时,删除间隔的字组数超过预设个数的不连续的基准字组,以减少不连续字组给标注带来的误差;
(3)根据当前基准字组的开始时间,过滤开始时间间隔大于设定时间高阈值的基准字组;
根据各个基准字组的开始时间,确定检测到邻近基准字组的开始时间间隔大于第一时间阈值时,删除邻近的基准字组。
(4)根据当前基准字组的开始时间,过滤开始时间间隔小于设定第二时间阈值的基准字组。
根据各个基准字组的开始时间,确定检测到基准字组的开始时间间隔小于时间第二阈值时,删除小于时间第二阈值的基准字组,所述第一时间阈值大于所述第二时间阈值,通过过滤不满足时间阈值的字组,可以过滤掉时间间隔过大,或存在重叠标注内的基准字组。
(5)利用当前基准字组中基准单字在基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
当确定当前基准字组中存在冗余部分时,作为一种可选的实施方式,确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;
具体的,基准字组被拆分为多个基准单字,将基准单字在基准文本中进行标注,将基准文本中同时被多次标注的基准单字进行合并处理,最终将标注多次的基准单字合并为标注一次基准单字,例如,将基准字组“祝你生”“你生日”拆分为多个基准单字,将多个基准单字在基准文本“祝你生日快乐”中进行标注,其中“你”“生”的基准单字被多次标注,将其标注次数合并为一次,最终基准字组中被标注的基准单字为“祝你生日”。
作为另一种可选的实施方式,确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字;
具体的,在基准文本中存在被标注的多句整句文本,当检测到被标注的整句文本与多个连续被标注的整句文本距离超过设定的距离时,所述距离可以为句间的字数大小也可以为句间的起始时间的时间间隔,删除标注该整句文本的基准单字,例如,基准文本中存在被标注的多句整句文本“AB C D E”,其中“B C D E”连续被标注,且“A”与“B C D E”的距离超过设定的距离,将整句文本“A”删除。
当确定当前基准字组中存在整句文本的匹配度小于设定阈值时,确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字;
具体的,将基准字组拆分为多个基准单字标注在基准文本的整句文本中,检测各个整句文本的标注比例,当基准单字标注的文字长度或个数占整句文本的文字长度或个数的比例低于设定比例值时,删除标注在整句文本中的基准单字,例如某句整句文本为“祝你生日快乐”,其中包含下划线的为被标注的基准单字,被标注的比例低于设定比例值,删除标注在整句文本中的基准单字“你”、“日”,若被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,则说明整句文本为不符合与基准字组匹配的文本内容,则不予其标注,进一步的降低了标注时的误差。
实施例3
作为一种可选的实施方式,实施例1提供的利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,还包括:
利用当前第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前第一粒度的匹配结果中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤,因存在多次重复标注的文本,会给最终的音频信息预测文本判断带来误差,如相同的文字重复标准,使得匹配程度增大,标注文本变长,故对冗余部分及与整句文本的匹配度小于设定阈值的部分进行过滤。
具体的,利用第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注,当检测到被第二粒度的匹配结果中的单字标注后的第一粒度的匹配结果对应的基准文本存在冗余部分时,作为一种可选的实施方式,确定基准文本中的整句文本被重复标注时,将第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的标注中多次标注的基准单字进行合并处理,最终将多次标注的基准单字合并为标注一次的基准单字。
作为另一种可选的实施方式,确定被标注的整句文本中,当检测到被第二粒度的匹配结果中的单字标注后的第一粒度的匹配结果对应的基准文本存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字;
具体的,在基准文本中存在被标注的多句整句文本,当检测到被标注的整句文本与多个连续被标注的整句文本距离超过设定的距离时,所述距离可以为句间的字数大小也可以为句间的起始时间的时间间隔,删除标注该整句文本的基准单字。
如图2所示,为一种音频识别的完整步骤流程图;
步骤S201,获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
步骤S202,将所述识别文本进行分词后,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件;
步骤S203,根据搜索结果筛选出多个基准文件中识别文本无关的非基准文本进行过滤;
步骤S204,根据所述音频在筛选出的多个基准文件中匹配搜索,筛选出与任一音频匹配的基准字组,并根据基准文件中的基准文本及所述音频的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
步骤S205,根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
步骤S206,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度;
步骤S207,根据音频信息预测文本确定音频信息对应的基准文件,确定获取音频信息的时间与当前时间的时间差值,并根据音频信息预测文本在所述基准文件中确定当前对应时间,当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置,根据时间位置确定当前时间对应预测文本。
实施例4
本公开实施例提供一种音频识别的装置,该装置如图3所示,所述装置包括如下模块:
音频信息获取模块301,用于获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
基准文件筛选模块302,用于将所述识别文本进行分词后,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件;
第一粒度匹配模块303,用于根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
第二粒度匹配模块304,用于根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
匹配校准模块305,用于利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
基准文件筛选模块302,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件,包括:
对于各分词,查找基准文件库中出现该分词的基准文本;
根据所有分词的查找结果,利用基准文件中出现分词的个数和或次数对基准文件进行筛选。
对于筛选出的多个基准文件,根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
无关文本筛选模块306,利用各分词在基准文件库中匹配搜索之前,还包括:
过滤基准文件库中与识别文本无关的非基准文本。
第二粒度匹配模块304,根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理,包括:
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频对匹配的基准字组,所述字组的字数大于音频对个数;
根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序;
将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除。
第一粒度匹配模块303,根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,包括:
确定基准字组仅与一个音频对匹配时,将所述音频对的开始时间标识为所述基准字组的开始时间,将所述音频对的结束时间标识为所述基准字组的结束时间;或,
确定基准字组同时与至少两个音频对匹配时,将所述至少两个音频对的最早开始时间,标识为所述基准字组的开始时间,将所述至少两个音频对的最晚结束时间,标识为所述基准字组的结束时间。
第二粒度匹配模块304,确定出现乱序的基准字组并删除之后,包括:
确定开始时间相同的基准字组为重复使用的基准字组,从当前的基准字组中删除重复使用的基准字组,及从划分的字组中删除重复使用的基准字组,并在划分的字组中保留删除的基准字组的位置;
对当前划分的字组从后向前检测,检测到保留的位置可以容纳之后的字组时,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻;
确定当前划分的字组仍存在未被覆盖的保留的位置时,将未被覆盖的保留的位置对应删除的基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块303,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖n个基准字组位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字数的个数;
将删除的第一个基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块303,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述之前的连续基准字组删除最后一个基准字组后的基准字数的个数;
将删除的最后一个基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块303,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述之前的连续基准字组删除最后一个基准字组后的基准字数的个数;
将删除的最后一个基准字组,按照开始时间回填到当前基准字组中。
第一粒度匹配模块303,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
根据当前基准字组的开始时间,过滤开始时间间隔大于设定第一时间阈值的基准字组;
根据当前基准字组的开始时间,过滤开始时间间隔小于设定第二时间阈值的基准字组。
第一粒度匹配模块303,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
确定当前任一基准字组的开始时间和结束时间大于设定值时,且占据两个基准文本的首尾连接处时,删除该基准字组中占据其中一个基准文本的文字。
第一粒度匹配模块303,确定出现乱序的基准字组并删除之后,包括:
利用当前基准字组中基准单字在基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
第一粒度匹配模块303,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
第一粒度匹配模块303,根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
第二粒度匹配模块304,根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果,包括:
确定所述识别文本中的整句识别文本,根据所述整句识别文本的多个音频对在多个基准文件中匹配搜索,根据所述多个音频对与整句文本的匹配结果筛选出基准文本。
第二粒度匹配模块304,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,包括如下至少一个步骤:
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,对所述第一粒度的匹配结果的整句文本中缺少的文字进行填补;
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,确定所述第一粒度的匹配结果中不连续的整句文本,并对缺少的整句文本进行填补。
匹配校准模块305,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用当前第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前第一粒度的匹配结果中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
匹配校准模块305,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分并进行过滤,包括:
确定基准文本中的整句文本被重复标注时,将重复标注整句文本的基准单字合并处理;和/或
确定被标注的整句文本中,是否存在与多个连续被标注的整句文本之间的间隔超过设定距离的整句文本时,若是,删除标注该整句文本的基准单字。
匹配校准模块305,根据在基准文本的整句文本的标注结果,确定当前基准字组中与整句文本的匹配度小于设定阈值的部分并进行过滤,包括:
确定被标注的整句文本中,被基准单字标注的文字长度与整句文本的长度占比低于设定比例值时,删除标注该整句文本的基准单字。
当前时间预测文本确定模块307,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准后,确定当前长度最大的基准字组对应的基准文件;
确定获取音频信息的时间与当前时间的时间差值,根据当前长度最大的基准字组在所述基准文件中确定当前对应时间;
根据当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置;
根据当前时间音频组词语文本的时间位置确定当前时间对应预测文本。
实施例5
本公开提供一种音频识别电子设备,包括:存储器和处理器;
其中,所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中的程序,用于执行获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
将所述识别文本进行分词后,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件;
根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
图4是本公开实施例提供的一种音频识别电子设备,该电子设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(英文全称:centralprocessing units,英文简称:CPU)401(例如,一个或一个以上处理器)和存储器402,一个或一个以上存储应用程序404或数据406的存储介质403(例如一个或一个以上海量存储设备)。其中,存储器402和存储介质403可以是短暂存储或持久存储。存储在存储介质403的程序可以包括一个或一个以上模块(图示没标出),更进一步地,处理器401可以设置为与存储介质403通信,在电子设备400上执行存储介质403中的一系列指令操作。
电子设备400还可以包括一个或一个以上电源409,一个或一个以上有线或无线网络接口407,一个或一个以上输入输出接口408,和/或,一个或一个以上操作系统405,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等。
实施例6
本公开实施例提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1提供的任一项所述一种音频识别方法。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
Claims (16)
1.一种音频识别方法,其特征在于,该方法包括:
获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
将所述识别文本进行分词后,利用各分词在基准文件库中进行匹配搜索,根据搜索结果筛选出多个基准文件;
根据所述音频对在筛选出的多个基准文件中进行匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
2.根据权利要求1所述的方法,其特征在于,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件,包括:
对于各分词,查找基准文件库中出现该分词的基准文本;
根据所有分词的查找结果,利用基准文件中出现分词的个数和/或次数对基准文件进行筛选;
对于筛选出的多个基准文件,根据分词在各基准文本中的位置、顺序、是否连续来判断与该基准文本对应的基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
3.根据权利要求1所述的方法,其特征在于,利用各分词在基准文件库中匹配搜索之前,还包括:
过滤基准文件库中与识别文本无关的非基准文本。
4.根据权利要求1所述的方法,其特征在于,根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理,包括:
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频对匹配的基准字组,所述字组的字数大于音频对个数;
根据所述音频对的开始时间和结束时间,标识与所述音频对匹配的基准字组的开始时间和结束时间,并根据标识的基准字组的开始时间的先后顺序,对筛选出来的基准字组进行排序;
将排序后的基准字组与划分的字组的顺序进行比较,确定出现乱序的基准字组并删除。
5.根据权利要求4所述的方法,其特征在于,确定出现乱序的基准字组并删除之后,还包括:
确定开始时间相同的基准字组为重复使用的基准字组,从当前的基准字组中删除重复使用的基准字组,及从划分的字组中删除重复使用的基准字组,并在划分的字组中保留删除的基准字组的位置;
对当前划分的字组从后向前检测,检测到保留的位置可以容纳之后的字组时,将之后的字组向前移动覆盖所述保留的位置至与最近的字组相邻;
确定当前划分的字组仍存在未被覆盖的保留的位置时,将未被覆盖的保留的位置对应删除的基准字组,按照开始时间回填到当前基准字组中。
6.根据权利要求5所述的方法,其特征在于,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之后的连续基准字组的第一个基准字组删除后向前移动覆盖n个基准字组位置,n为所述之后的连续基准字组删除第一个基准字组后的基准字数的个数;
将删除的第一个基准字组,按照开始时间回填到当前基准字组中。
7.根据权利要求5所述的方法,其特征在于,确定出现乱序的基准字组并删除之后,包括:
通过比较当前基准字组与划分的字组,确定间隔的字组数超过预设个数的不连续的基准字组;
确定所述不连续的基准字组之前和之后的连续基准字组,并将所述之前的连续基准字组的最后一个基准字组删除后向后移动覆盖n个基准字组位置,n为所述之前的连续基准字组删除最后一个基准字组后的基准字数的个数;
将删除的最后一个基准字组,按照开始时间回填到当前基准字组中。
8.根据权利要求4所述的方法,其特征在于,确定出现乱序的基准字组并删除之后,包括如下至少一个步骤:
根据当前基准字组的开始时间,过滤开始时间间隔大于设定第一时间阈值的基准字组;
根据当前基准字组的开始时间,过滤开始时间间隔小于设定第二时间阈值的基准字组,所述第一时间阈值大于所述第二时间阈值。
9.根据权利要求4所述的方法,其特征在于,确定出现乱序的基准字组并删除之后,包括:
利用当前基准字组中基准单字在基准文本中进行标注,根据在基准文本的整句文本的标注结果,确定当前基准字组中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
10.根据权利要求1所述的方法,其特征在于,根据所述识别文本在筛选出的多个基准文件的文本中进行匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果,包括:
确定所述识别文本中的整句识别文本,根据所述整句识别文本的多个音频对在多个基准文件中匹配搜索,根据所述多个音频对与整句文本的匹配结果筛选出基准文本。
11.根据权利要求1所述的方法,其特征在于,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,包括如下至少一个步骤:
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,对所述第一粒度的匹配结果的整句文本中缺少的文字进行填补;
将利用第二粒度的匹配结果对第一粒度的匹配结果进行对比,确定所述第一粒度的匹配结果中不连续的整句文本,并对缺少的整句文本进行填补。
12.根据权利要求1所述的方法,其特征在于,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用当前第二粒度的匹配结果中的单字在第一粒度的匹配结果对应的基准文本中进行标注;
根据在基准文本的整句文本的标注结果,确定当前第一粒度的匹配结果中冗余部分及与整句文本的匹配度小于设定阈值的部分并进行过滤。
13.根据权利要求1~12任一所述的方法,其特征在于,利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,包括:
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准后,确定当前长度最大的基准字组对应的基准文件;
确定获取音频信息的时间与当前时间的时间差值,根据当前长度最大的基准字组在所述基准文件中确定当前对应时间;
根据当前对应时间加所述时间差值得到当前时间音频组词语文本的时间位置;
根据当前时间音频组词语文本的时间位置确定当前时间对应预测文本。
14.一种音频识别装置,其特征在于,该装置包括如下模块:
音频信息获取模块,用于获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
基准文件筛选模块,用于将所述识别文本进行分词后,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件;
第一粒度匹配模块,用于根据所述音频对在筛选出的多个基准文件中匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
第二粒度匹配模块,用于根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
匹配校准模块,用于利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
15.一种音频识别电子设备,其特征在于,所述电子设备包括:存储器和处理器;
其中,所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器中的程序,实现如权利要求1~12任一所述的方法。
16.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1~12任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010335195.0A CN111552777B (zh) | 2020-04-24 | 2020-04-24 | 一种音频识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010335195.0A CN111552777B (zh) | 2020-04-24 | 2020-04-24 | 一种音频识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111552777A CN111552777A (zh) | 2020-08-18 |
CN111552777B true CN111552777B (zh) | 2023-09-26 |
Family
ID=72003115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010335195.0A Active CN111552777B (zh) | 2020-04-24 | 2020-04-24 | 一种音频识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552777B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199499B (zh) * | 2020-09-29 | 2024-06-18 | 京东方科技集团股份有限公司 | 文本划分方法、文本分类方法、装置、设备及存储介质 |
CN112584062B (zh) * | 2020-12-10 | 2023-08-08 | 上海幻电信息科技有限公司 | 背景音频构建方法及装置 |
CN112580340A (zh) * | 2020-12-30 | 2021-03-30 | 网易(杭州)网络有限公司 | 逐字歌词生成方法及装置、存储介质和电子设备 |
CN113611036B (zh) * | 2021-07-15 | 2022-12-06 | 珠海市运泰利自动化设备有限公司 | 一种精密测试自动校准方法 |
CN113658594A (zh) * | 2021-08-16 | 2021-11-16 | 北京百度网讯科技有限公司 | 歌词识别方法、装置、设备、存储介质及产品 |
CN114020959B (zh) * | 2021-11-02 | 2024-09-17 | 广州艾美网络科技有限公司 | 歌曲文件的歌词匹配方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145571A (zh) * | 2017-05-05 | 2017-09-08 | 广东艾檬电子科技有限公司 | 一种搜索方法及装置 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110503956A (zh) * | 2019-09-17 | 2019-11-26 | 平安科技(深圳)有限公司 | 语音识别方法、装置、介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102281882B1 (ko) * | 2018-03-23 | 2021-07-27 | 엔이디엘.콤 잉크. | 실-시간 오디오 스트림 검색 및 제시 시스템 |
-
2020
- 2020-04-24 CN CN202010335195.0A patent/CN111552777B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145571A (zh) * | 2017-05-05 | 2017-09-08 | 广东艾檬电子科技有限公司 | 一种搜索方法及装置 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110503956A (zh) * | 2019-09-17 | 2019-11-26 | 平安科技(深圳)有限公司 | 语音识别方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111552777A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111552777B (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
CN110211565B (zh) | 方言识别方法、装置及计算机可读存储介质 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN103956169B (zh) | 一种语音输入方法、装置和系统 | |
JP7200405B2 (ja) | 音声認識のためのコンテキストバイアス | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US8504367B2 (en) | Speech retrieval apparatus and speech retrieval method | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
US20110131038A1 (en) | Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
JPWO2012073275A1 (ja) | 音声認識装置及びナビゲーション装置 | |
CN109979257B (zh) | 一种基于英语朗读自动打分进行分拆运算精准矫正的方法 | |
CN111462748B (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN115116428B (zh) | 韵律边界标注方法、装置、设备、介质及程序产品 | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
CN112259083A (zh) | 音频处理方法及装置 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
JP2004094257A (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
JP2005257954A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
Ghannay et al. | A study of continuous space word and sentence representations applied to ASR error detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |