CN112767925B - 语音信息识别方法及装置 - Google Patents
语音信息识别方法及装置 Download PDFInfo
- Publication number
- CN112767925B CN112767925B CN202011552655.1A CN202011552655A CN112767925B CN 112767925 B CN112767925 B CN 112767925B CN 202011552655 A CN202011552655 A CN 202011552655A CN 112767925 B CN112767925 B CN 112767925B
- Authority
- CN
- China
- Prior art keywords
- feature
- pinyin
- keyword
- keywords
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 230000003321 amplification Effects 0.000 claims abstract description 99
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 99
- 230000003416 augmentation Effects 0.000 claims description 140
- 230000003190 augmentative effect Effects 0.000 claims description 76
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 241001122315 Polites Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/33—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using fuzzy logic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语音信息识别方法及装置,该方法包括:接收输入的原始语音识别文本,对原始语音识别文本进行扩增得到扩增语音识别文本;接收输入的至少一种语言特征的特征关键词,对特征关键词进行扩增得到扩增关键词;将各个语言特征的扩增关键词分别在扩增语音识别文本中进行搜索得到对应于各个语言特征的模糊匹配分数;根据各个语言特征的匹配分数得到原始语音识别文本是否符合各个语言特征的结果;其中,匹配分数包括模糊匹配分数。本发明提供的语音信息识别方法及装置,通过对特征关键词及原始语音识别文本进行扩增后匹配,根据匹配分数得到原始语音识别文本是否符合各个语言特征的结果,提高了语音信息识别的准确性及通用性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音信息识别方法及装置。
背景技术
随着深度学习技术的推广,当前的语音识别技术相较于传统方法已经有了很大的改善。然而由于训练数据的局限,以及不同场景下先验知识的不同,通用的语音识别模型在许多特定场景下,实用性仍然受到制约。
在某些情况下,比如受制于技术能力,或人力不足等原因,个人或组织常常没有足够的人力物力训练服务于特定场景的客制化语音识别模型。因此,如何提出一种语音信息识别方法,作为通用语音识别模型的补充,提高各种不同场景下的语音信息识别能力,成为亟待解决的问题。
发明内容
针对现有技术存在的问题,本发明提供一种语音信息识别方法及装置。
本发明提供一种语音信息识别方法,包括:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
根据本发明提供的一种语音信息识别方法,所述根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果,具体包括:若所述模糊匹配分数大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
根据本发明提供的一种语音信息识别方法,所述将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数,具体包括:将各个所述语言特征的所述扩增关键词在所述扩增语音识别文本中进行搜索,得到不同类型所述扩增关键词在所述扩增语音识别文本中的所述第一匹配结果;根据所述第一匹配结果获取匹配成功的所述扩增关键词;根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数。
根据本发明提供的一种语音信息识别方法,所述根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数,表示为:
其中,score1表示所述模糊匹配分数,i表示匹配成功的所述扩增关键词的序号,m表示匹配成功的所述扩增关键词的数量,C表示所述模糊系数,di表示与匹配成功的序号为i的所述扩增关键词与所述特征关键词的所述特征匹配距离。
根据本发明提供的一种语音信息识别方法,所述扩增语音识别文本包括所述原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;其中,所述文本拼音是基于所述原始语音识别文本进行有音调拼音提取得到的,所述文本无音调拼音是基于所述原始语音识别文本进行无音调拼音提取得到的。
根据本发明提供的一种语音信息识别方法,所述扩增关键词包括所述特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种;其中,所述特征增广关键词是基于所述特征关键词进行近义词扩充得到的;所述特征关键词拼音是基于所述特征关键词进行有音调拼音提取得到的;所述特征增广关键词拼音是基于所述特征增广关键词进行有音调拼音提取得到的;所述特征关键词无音调拼音是基于所述特征关键词拼音进行无音调处理得到的;所述特征关键词增广拼音是基于所述特征关键词无音调拼音进行拼音扩增得到的;所述特征增广关键词无音调拼音是基于所述特征增广关键词拼音进行无音调处理得到的;所述特征增广关键词增广拼音是基于所述特征增广关键词无音调拼音进行拼音扩增得到的。
根据本发明提供的一种语音信息识别方法,所述扩增关键词与所述特征关键词的所述特征匹配距离和所述扩增关键词与所述特征关键词的接近程度关联。
根据本发明提供的一种语音信息识别方法,所述特征关键词、所述特征增广关键词、所述特征关键词拼音、所述特征增广关键词拼音、所述特征关键词无音调拼音、所述特征关键词增广拼音、所述特征增广关键词无音调拼音及所述特征增广关键词增广拼音与所述特征关键词的所述特征匹配距离分别为0、1、1、2、2、3、3、4。
根据本发明提供的一种语音信息识别方法,所述进行拼音扩增,具体包括:声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种。
根据本发明提供的一种语音信息识别方法,所述方法还包括:将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数;所述匹配分数还包括所述完整匹配分数。
根据本发明提供的一种语音信息识别方法,所述根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果,具体包括:若所述模糊匹配分数及所述完整匹配分数中的任意一个大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
根据本发明提供的一种语音信息识别方法,所述将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数,具体包括:将各个所述语言特征的所述特征关键词在所述原始语音识别文本中进行搜索,得到所述特征关键词在所述原始语音识别文本中的所述第二匹配结果;根据所述第二匹配结果获取匹配成功的所述特征关键词;根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数。
根据本发明提供的一种语音信息识别方法,所述根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数,表示为:
其中,score2表示所述完整匹配分数,j表示匹配成功的所述特征关键词的序号,n表示匹配成功的所述特征关键词的数量,C表示所述模糊系数,d表示所述扩增关键词与所述特征关键词的所述特征匹配距离,其中,所述扩增关键词的类型为所述特征关键词。
本发明还提供一种语音信息识别装置,包括:扩增语音识别文本获取模块,用于:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;扩增关键词获取模块,用于:接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;模糊搜索模块,用于:将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;语音信息识别模块,用于:根据匹配分数得到所述原始语音识别文本是否符合相应所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
根据本发明提供的一种语音信息识别装置,所述语音信息识别模块在用于根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果时,具体用于:若所述模糊匹配分数大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
根据本发明提供的一种语音信息识别装置,所述模糊搜索模块具体用于:将各个所述语言特征的所述扩增关键词在所述扩增语音识别文本中进行搜索,得到不同类型所述扩增关键词在所述扩增语音识别文本中的所述第一匹配结果;根据所述第一匹配结果获取匹配成功的所述扩增关键词;根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数。
根据本发明提供的一种语音信息识别装置,所述根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数,表示为:
其中,score1表示所述模糊匹配分数,i表示匹配成功的所述扩增关键词的序号,m表示匹配成功的所述扩增关键词的数量,C表示所述模糊系数,di表示与匹配成功的序号为i的所述扩增关键词与所述特征关键词的所述特征匹配距离。
根据本发明提供的一种语音信息识别装置,所述扩增语音识别文本包括所述原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;其中,所述文本拼音是基于所述原始语音识别文本进行有音调拼音提取得到的,所述文本无音调拼音是基于所述原始语音识别文本进行无音调拼音提取得到的。
根据本发明提供的一种语音信息识别装置,所述扩增关键词包括所述特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种;其中,所述特征增广关键词是基于所述特征关键词进行近义词扩充得到的;所述特征关键词拼音是基于所述特征关键词进行有音调拼音提取得到的;所述特征增广关键词拼音是基于所述特征增广关键词进行有音调拼音提取得到的;所述特征关键词无音调拼音是基于所述特征关键词拼音进行无音调处理得到的;所述特征关键词增广拼音是基于所述特征关键词无音调拼音进行拼音扩增得到的;所述特征增广关键词无音调拼音是基于所述特征增广关键词拼音进行无音调处理得到的;所述特征增广关键词增广拼音是基于所述特征增广关键词无音调拼音进行拼音扩增得到的。
根据本发明提供的一种语音信息识别装置,所述扩增关键词与所述特征关键词的所述特征匹配距离和所述扩增关键词与所述特征关键词的接近程度关联。
根据本发明提供的一种语音信息识别装置,所述特征关键词、所述特征增广关键词、所述特征关键词拼音、所述特征增广关键词拼音、所述特征关键词无音调拼音、所述特征关键词增广拼音、所述特征增广关键词无音调拼音及所述特征增广关键词增广拼音与所述特征关键词的所述特征匹配距离分别为0、1、1、2、2、3、3、4。
根据本发明提供的一种语音信息识别装置,所述进行拼音扩增,具体包括:声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种。
根据本发明提供的一种语音信息识别装置,所述装置还包括完整匹配模块,所述完整匹配模块用于:将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数;所述匹配分数还包括所述完整匹配分数。
根据本发明提供的一种语音信息识别装置,所述语音信息识别模块在用于根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果时,具体用于:若所述模糊匹配分数及所述完整匹配分数中的任意一个大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
根据本发明提供的一种语音信息识别装置,所述完整匹配模块在用于将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数时,具体用于:将各个所述语言特征的所述特征关键词在所述原始语音识别文本中进行搜索,得到所述特征关键词在所述原始语音识别文本中的所述第二匹配结果;根据所述第二匹配结果获取匹配成功的所述特征关键词;根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数。
根据本发明提供的一种语音信息识别装置,所述根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数,表示为:
其中,score2表示所述完整匹配分数,j表示匹配成功的所述特征关键词的序号,n表示匹配成功的所述特征关键词的数量,C表示所述模糊系数,d表示所述扩增关键词与所述特征关键词的所述特征匹配距离,其中,所述扩增关键词的类型为所述特征关键词。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音信息识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音信息识别方法的步骤。
本发明提供的语音信息识别方法及装置,通过设置语言特征及包含的特征关键词,分别对特征关键词及原始语音识别文本进行扩增后匹配,根据匹配分数得到原始语音识别文本是否符合各个语言特征的结果,提高了语音信息识别的准确性及通用性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音信息识别方法的流程示意图;
图2是本发明提供的语音信息识别方法中语言特征的特征关键词示意图;
图3是本发明提供的语音信息识别方法中扩增关键词的示意图;
图4是本发明提供的语音信息识别方法的原理示意图;
图5是本发明提供的语音信息识别方法的输出结果样例图;
图6是本发明提供的语音信息识别装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明的语音信息识别方法及装置。
图1是本发明提供的语音信息识别方法的流程示意图。如图1所示,所述方法包括:
步骤101、接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本。
原始语音识别文本可以是通用的语音识别模型输出的文本。由于语音识别的过程可能会发生转写错误,可能会导致原始语音识别文本出现错别字、错音字、近音字等情况。通过对原始语音识别文本进行扩增得到扩增语音识别文本,有利于提高语音识别准确率。
步骤102、接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词。
本发明提供的语音信息识别方法是为了识别出语音中是否具有符合设定的语言特征的词汇。根据查找需求不同,语言特征可以设置为多个。每种语言特征包括设置好的特征关键词,这些特征关键词均具有相应的语言特征。语音信息识别装置接收输入的至少一种语言特征的特征关键词。便可以识别语音信息是否符合各个语言特征,或者说原始语音识别文本是否符合各个语言特征。
图2是本发明提供的语音信息识别方法中语言特征的特征关键词示意图。如图2所示,示出了rule_0、rule_1和rule_2三个语言特征的特征关键词。其中,rule_0的语言特征为:礼貌用语-使用方言或口头语;其所包含的特征关键词包括:“嘛?嘿”,“老实说”等。rule_1的语言特征为:礼貌用语-使用不严谨、不确定、模棱两可的语言;其所包含的特征关键词包括:“可能”、“应该”等。rule_2的语言特征为:推诿问题;其所包含的特征关键词包括:“不知道”、“自己去看”等。
当然,根据查找目的可以设定相应的语言特征。比如,要搜索语音信息中是否讨论了房价有关的话题,可以设置语言特征的关键词包括:“房价”、“价格”等。
由于如上的特征关键词是人为预先设定的,然而由于人力所限,实际工作中几乎没有可能枚举出所有满足或不满足某一特征的所有特征关键词。因此,可以进一步通过对特征关键词进行扩增,得到扩增关键词。利用扩增关键词来表示各个语言特征,有利于提高关键词的全面性,从而提高识别准确率。而且,通过考虑到方言等各种情况扩增关键词,也有益于提高语音识别的通用性。
步骤103、将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数。
将各个语言特征的扩增关键词分别在扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个语言特征的模糊匹配分数。第一匹配结果包括各个语言特征的特征关键词是否在扩增语音识别文本中匹配成功的结果。
步骤104、根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合相应所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
根据各个语言特征的匹配分数得到原始语音识别文本是否符合相应语言特征的结果的规则可以根据需要而定。比如,可以设定一个分数阈值,当匹配分数超过分数阈值的时候,说明语音信息中符合相应语言特征。在另一种应用中,比如,搜索语音中更偏向于积极的语音信息还是更偏向于消极的语音信息,这时,可以设置对应于积极的语言特征的特征关键词,以及对应于消极的语言特征的关键词,扩增后匹配,根据匹配结果,则哪个匹配分数的分值更高则说明语音信息更具有哪种感情色彩。因此,根据各个语言特征的匹配分数得到原始语音识别文本是否符合相应语言特征的结果的规则可以是根据实际需要灵活设置的。
匹配分数的影响因子包括上述得到的模糊匹配分数,可以直接通过模糊匹配分数进行语音信息识别的结果判断。
本发明提供的语音信息识别方法,通过设置语言特征及包含的特征关键词,分别对特征关键词及原始语音识别文本进行扩增后匹配,根据匹配分数得到原始语音识别文本是否符合各个语言特征的结果,提高了语音信息识别的准确性及通用性。
根据本发明提供的一种语音信息识别方法,所述根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果,具体包括:若所述模糊匹配分数大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
在根据各个语言特征的匹配分数得到原始语音识别文本是否符合各个语言特征的结果时,可以通过设定预设分数阈值实现。若模糊匹配分数大于或等于预设分数阈值,则表示原始语音识别文本符合相应语言特征。若模糊匹配分数小于预设分数阈值,表示原始语音识别文本不符合相应语言特征。可以设置预设分数阈值为1。比如,在判断语音中是否使用了方言或口头语时,若匹配分数为1或大于1,则表示使用了方言或口头语;若匹配分数小于1,则表示未使用方言或口头语。
本发明提供的语音信息识别方法,通过若模糊匹配分数大于或等于预设分数阈值,则表示原始语音识别文本符合相应语言特征,提高了语音识别结果判断的快速性。
根据本发明提供的一种语音信息识别方法,所述将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数,具体包括:将各个所述语言特征的所述扩增关键词在所述扩增语音识别文本中进行搜索,得到不同类型所述扩增关键词在所述扩增语音识别文本中的所述第一匹配结果;根据所述第一匹配结果获取匹配成功的所述扩增关键词;根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数。
扩增关键词具有多种类型,其中特征关键词是一种类型的扩增关键词。基于特征关键词通过不同的扩增方式进行扩增可以得到多种其他类型的扩增关键词。将各个语言特征的扩增关键词在扩增语音识别文本中进行搜索,得到不同类型扩增关键词在扩增语音识别文本中的第一匹配结果。第一匹配结果包含不同类型扩增关键词的匹配结果。根据第一匹配结果获取匹配成功的扩增关键词,由此可以获知匹配成功的扩增关键词的数量及每种扩增关键词的类型。
根据匹配成功的扩增关键词的数量、与不同类型扩增关键词对应的特征匹配距离及预设的模糊系数得到模糊匹配分数。特征匹配距离表示某种类型的扩增关键词和特征关键词的接近程度。比如,特征关键词本身由于未发生任何改变,因此对应的特征匹配距离可以设置为0。另外,可以依次设置其他类型的扩增关键词对应的特征匹配距离。匹配成功的扩增关键词的数量也可以反映是否符合某一语言特征的程度。可以根据匹配成功的扩增关键词的数量、与不同类型扩增关键词对应的特征匹配距离及预设的模糊系数得到模糊匹配分数。
本发明提供的语音信息识别方法,通过根据匹配成功的扩增关键词的数量、与不同类型扩增关键词对应的特征匹配距离及预设的模糊系数得到模糊匹配分数,提高了模糊匹配分数的准确性。
根据本发明提供的一种语音信息识别方法,所述根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数,表示为:
其中,score1表示所述模糊匹配分数,i表示匹配成功的所述扩增关键词的序号,m表示匹配成功的所述扩增关键词的数量,C表示所述模糊系数,di表示与匹配成功的序号为i的所述扩增关键词与所述特征关键词的所述特征匹配距离。
本发明提供的语音信息识别方法,通过给出根据匹配成功的扩增关键词的数量、与不同类型扩增关键词对应的特征匹配距离及预设的模糊系数得到模糊匹配分数的具体公式,进一步提高了模糊匹配分数的准确性。
根据本发明提供的一种语音信息识别方法,所述扩增语音识别文本包括所述原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;其中,所述文本拼音是基于所述原始语音识别文本进行有音调拼音提取得到的,所述文本无音调拼音是基于所述原始语音识别文本进行无音调拼音提取得到的。
由于原始语音识别文本是语音识别的结果,因此在扩增原始语音识别文本时可以通过提取拼音信息实现。提取拼音信息可以通过提取有音调的拼音,也可以通过提取无音调的拼音实现。因此,扩增语音识别文本包括原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;其中,文本拼音是基于原始语音识别文本进行有音调拼音提取得到的,文本无音调拼音是基于原始语音识别文本进行无音调拼音提取得到的(也可以基于文本拼音进行无音调处理实现)。
本发明提供的语音信息识别方法,通过令扩增语音识别文本包括原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种,扩增了原始语音识别文本,同时有助于提高语音识别的准确性。
根据本发明提供的一种语音信息识别方法,所述扩增关键词包括所述特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种;其中,所述特征增广关键词是基于所述特征关键词进行近义词扩充得到的;所述特征关键词拼音是基于所述特征关键词进行有音调拼音提取得到的;所述特征增广关键词拼音是基于所述特征增广关键词进行有音调拼音提取得到的;所述特征关键词无音调拼音是基于所述特征关键词拼音进行无音调处理得到的;所述特征关键词增广拼音是基于所述特征关键词无音调拼音进行拼音扩增得到的;所述特征增广关键词无音调拼音是基于所述特征增广关键词拼音进行无音调处理得到的;所述特征增广关键词增广拼音是基于所述特征增广关键词无音调拼音进行拼音扩增得到的。
由于人力所限,实际工作中几乎没有可能枚举出所有满足或不满足某一语言特征的所有特征关键词。因此可以采用深度学习训练词向量(Skip-Gram)的方法,预先在大规模语料上训练一批词语的词向量。实际使用时,当接收到特征关键词的信息之后,针对每一个特征关键词,在词库中寻找与之距离小于某一阈值的词语,并纳入增广关键词集合中。使用时应针对具体场景,设定合适的阈值,来保证模糊程度适中。将近义词纳入评价体系可以有效减少人力枚举的难度,并提高识别准确性。
由于语音识别的过程可能会发生转写错误,导致出现错别字、错音字、近音字等情况,使得关键词匹配方法失效,因此还可以加入音节音素层面的匹配。首先,将特征关键词集合和特征增广关键词集合中的词语转化成拼音,例如将“应该”转化为“ying1 gai1”;其中的“1”表示声调,也即得到了有音调的拼音。之后,还会将该目标词转化为无音调拼音,例如“ying gai”;最后会通过设定规则将无音调拼音进行扩增。例如“yin gai”是“ying gai”的扩增。
图3是本发明提供的语音信息识别方法中扩增关键词的示意图。如图3所示,展示了对“应该”的特征关键词扩增结果,可以看到算法找到了“应当”、“不应”、“无论如何”、“一定会”、“必须”、“必要”等大量近义词语;并且展示了对不同词语的拼音转化和拼音扩增结果。
因此,扩增关键词除了包括特征关键词之外,还可包括通过扩增得到的特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种。其中,特征增广关键词是基于特征关键词进行近义词扩充得到的;特征关键词拼音是基于特征关键词进行有音调拼音提取得到的;特征增广关键词拼音是基于特征增广关键词进行有音调拼音提取得到的;特征关键词无音调拼音是基于特征关键词拼音进行无音调处理得到的;特征关键词增广拼音是基于特征关键词无音调拼音进行拼音扩增得到的;特征增广关键词无音调拼音是基于特征增广关键词拼音进行无音调处理得到的;特征增广关键词增广拼音是基于特征增广关键词无音调拼音进行拼音扩增得到的。
本发明提供的语音信息识别方法,通过令扩增关键词包括特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种,提高了扩增关键词的全面性,从而进一步提高了语音信息识别的准确性。
根据本发明提供的一种语音信息识别方法,所述扩增关键词与所述特征关键词的所述特征匹配距离和所述扩增关键词与所述特征关键词的接近程度关联。
特征匹配距离反映的是不同扩增关键词在匹配时的可信程度,而预先设置好的特征关键词的匹配结果是可信的。因此,在设置不同类型扩增关键词对应的特征匹配距离时,可以通过不同类型扩增关键词与特征关键词的接近程度进行确定。扩增关键词与特征关键词越接近,扩增关键词与特征关键词的特征匹配距离越小。
本发明提供的语音信息识别方法,通过设置特征匹配距离与不同类型扩增关键词与特征关键词的接近程度关联,提高了特征匹配距离设置的合理性,从而进一步提高了语音信息识别的准确性。
根据本发明提供的一种语音信息识别方法,所述特征关键词、所述特征增广关键词、所述特征关键词拼音、所述特征增广关键词拼音、所述特征关键词无音调拼音、所述特征关键词增广拼音、所述特征增广关键词无音调拼音及所述特征增广关键词增广拼音与所述特征关键词的所述特征匹配距离分别为0、1、1、2、2、3、3、4。
如前所述,特征匹配距离可以反映不同类型扩增关键词和特征关键词的接近程度。这种接近程度可以通过基于特征关键词进行扩增的次数体现。由于特征关键词本身未发生任何变化,因此特征关键词对应的特征匹配距离可以设置为0。特征增广关键词属于对特征关键词做了一次近义词扩增,可以设置对应的特征匹配距离为1。特征关键词拼音属于对特征关键词进行拼音提取实现,可以设置对应的特征匹配距离为1。特征增广关键词拼音,属于对特征增广关键词进一步提取拼音实现的,可以设置对应的特征匹配距离为2。特征关键词无音调拼音属于对特征关键词拼音进行无音调处理实现,可以设置对应的特征匹配距离为2。特征关键词增广拼音属于对特征关键词无音调拼音进行拼音扩增实现,可以设置对应的特征匹配距离为3。特征增广关键词无音调拼音,属于对特征增广关键词拼音进行无音调处理实现,可以设置对应的特征匹配距离为3。特征增广关键词增广拼音属于对特征增广关键词无音调拼音进行拼音扩增实现,可以设置对应的特征匹配距离为4。
本发明提供的语音信息识别方法,通过设置特征关键词、特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音及特征增广关键词增广拼音对应的特征匹配距离分别为0、1、1、2、2、3、3、4,提高了特征匹配距离设置的合理性,由此提高了语音信息识别结果的准确性。
根据本发明提供的一种语音信息识别方法,所述进行拼音扩增,具体包括:声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种。
在基于特征关键词无音调拼音进行拼音扩增得到特征关键词增广拼音以及基于特征增广关键词无音调拼音进行拼音扩增得到特征增广关键词增广拼音时,可以通过声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种进行拼音扩增。
本发明提供的语音信息识别方法,通过声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种进行拼音扩增,提高了拼音扩增的准确性,由此进一步提高了语音识别结果的准确性。
根据本发明提供的一种语音信息识别方法,所述方法还包括:将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数;所述匹配分数还包括所述完整匹配分数。
特征关键词是预先设置好的、未经过计算机扩增处理的对应于语言特征的关键词。原始语音识别文本是未经过扩增处理的语音识别文本。可以直接利用特征关键词原始语音识别文本中进行搜索匹配。将各个语言特征的特征关键词分别在原始语音识别文本中进行搜索,可以得到包含各个特征关键词的匹配结果的第二匹配结果,根据搜索得到的第二匹配结果得到对应于各个语言特征的完整匹配分数。
在根据各个语言特征的匹配分数得到原始语音识别文本是否符合各个语言特征的结果时,其中的匹配分数可以包括完整匹配分数和模糊匹配分数,由二者共同确定语音识别结果。在根据完整匹配分数和模糊匹配分数得到原始语音识别文本是否符合各个语言特征的结果时,可以根据实际需要设置不同的规则,如可以设置为给完整匹配分数和模糊匹配分数设置不同的权重,通过加权求和得到匹配分数。
并且,由于C0=1,在将特征关键词对应的特征匹配距离设置为0时,可以根据完整匹配分数获知有几个特征关键词匹配成功。
本发明提供的语音信息识别方法,将各个语言特征的特征关键词分别在原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个语言特征的完整匹配分数,基于完整匹配分数和模糊匹配分数得到原始语音识别文本是否符合各个语言特征的结果,提高了语音信息识别的灵活性。
根据本发明提供的一种语音信息识别方法,所述根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果,具体包括:若所述模糊匹配分数及所述完整匹配分数中的任意一个大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
在根据各个语言特征的匹配分数得到原始语音识别文本是否符合各个语言特征的结果时,还可以是在模糊匹配分数及完整匹配分数中的任意一个大于或等于预设分数阈值时,则表示原始语音识别文本符合相应语言特征。比如,如图2所示,预设分数阈值设置为1,特征关键词对应的特征匹配距离设置为0,当一句话中包含小于1个特征关键词时,表示这句话不具备相应的语言特征;如果这句话含有一个或以上的特征关键词,则说明该句话具备相应的语言特征,如使用了方言或口头语。当一句话中包含小于1个特征关键词时,若模糊匹配分数大于预设分数阈值,则也认为这句话具备相应的语言特征。
本发明提供的语音信息识别方法,通过若模糊匹配分数及完整匹配分数中的任意一个大于或等于预设分数阈值,则表示原始语音识别文本符合相应语言特征,提高了语音信息识别的简便性。
根据本发明提供的一种语音信息识别方法,所述将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数,具体包括:将各个所述语言特征的所述特征关键词在所述原始语音识别文本中进行搜索,得到所述特征关键词在所述原始语音识别文本中的所述第二匹配结果;根据所述第二匹配结果获取匹配成功的所述特征关键词;根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数。
在将各个语言特征的特征关键词分别在原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个语言特征的完整匹配分数时,将各个语言特征的特征关键词在原始语音识别文本中进行搜索,得到特征关键词在原始语音识别文本中的第二匹配结果;第二匹配结果包括各个特征关键词的匹配情况。根据第二匹配结果获取匹配成功的特征关键词;根据匹配成功的特征关键词的数量、特征关键词对应的特征匹配距离及预设的模糊系数得到完整匹配分数。
本发明提供的语音信息识别方法,通过根据匹配成功的特征关键词的数量、特征关键词对应的特征匹配距离及预设的模糊系数得到完整匹配分数,提高了完整匹配分数的准确性,从而进一步提高了语音识别结果的准确性。
根据本发明提供的语音信息识别方法,所述根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数,表示为:
其中,score2表示所述完整匹配分数,j表示匹配成功的所述特征关键词的序号,n表示匹配成功的所述特征关键词的数量,C表示所述模糊系数,d表示所述扩增关键词与所述特征关键词的所述特征匹配距离,其中,所述扩增关键词的类型为所述特征关键词。
本发明提供的语音信息识别方法,通过给出根据匹配成功的特征关键词的数量、特征关键词对应的特征匹配距离及预设的模糊系数得到完整匹配分数的具体公式,进一步提高了完整匹配分数的准确性。
本发明提供的语音信息识别方法,针对已经使用通用语音模型完成转写的文本信息,模糊地搜索满足特定特征的关键词,并对每个特征给出可靠的评分。首先,由于“满足特定特征的关键词”是人为给出的,因此模型将首先对关键词进行增扩。可以使用基于深度学习的词向量训练方法,设计并制作近义词搜索算法。对于所有给出的关键词,寻找它们的近义词,并将词向量距离小于一定阈值的新词纳入“增广关键词”集合中。
由于语音模型转写的文本规则化程度较低,存在很多错别字和错识别的“错音字”,“近音字”等。因此,对于所有在关键词集合和增广关键词集合中的词,分别做四级搜索:1.文本匹配搜索;2.拼音(含标准五声音调)匹配搜索;3.拼音(不含标准五声音调)匹配搜索;4.拼音模糊匹配搜索。并分别给出基于完整匹配和模糊匹配的两个分数,综合地给出一系列可靠的,针对不同特征的评分结果。
图4是本发明提供的语音信息识别方法的原理示意图。如图4所示,本发明提供的语音信息识别方法中,输入的关键字和语音识别文本将经过关键词扩增、拼音识别和扩增和信息匹配三个主要的步骤,并最终得出针对不同特征的得分。图4概括了整个识别算法的主要过程。算法的输入有三项:特征关键词,语音识别输出文本和模糊系数。
图2展示了一种典型的特征输入方式。图2中共输入了三条特征,每条特征包含四项内容:1.特征名称;2.运算逻辑;3.运算阈值;4.关键词列表。例如第一条特征的名称是“礼貌用语-使用方言或口头语”,小于阈值时,表示通过(如未使用方言或口头语)。大于阈值时,表示这句话含有一个或以上的关键词,如说明该段话使用了方言或口头语。利用特征关键词进行匹配属于完整匹配。
可以结合完整匹配和模糊匹配的结果进行语音信息的识别。对于每个特征的原始关键词通过近义扩增、拼音(含五声音调)提取、拼音(不含五声音调)提取、模糊拼音提取(对不含五声音调的拼音再进行拼音扩增)得到五级关键词信息,其中包括原始关键词信息、扩增关键词信息(这里实际指的是通过近义扩增得到的特征增广关键词)、关键词/扩增关键词拼音信息、关键词/扩增关键词无音调拼音信息、关键词/扩增关键词模糊拼音信息。对语音识别输出文本进行拼音(含五声音调)提取及拼音(不含五声音调)提取,从而得到语音识别输出文本三级关键词信息,包括原始文本信息、文本拼音信息及文本无音调拼音信息。
通过将原始关键词信息在原始文本信息中进行匹配,得到完整匹配分数,通过将特征的五级关键词信息在文本的三级关键词信息中进行匹配,得到模糊匹配分数,根据完整匹配分数和模糊匹配分数综合判断语音识别输出文本是否符合某一语言特征。
图5是本发明提供的语音信息识别方法的输出结果样例图。下面结合图5进一步通过具体的实例说明本发明提供的语音信息识别方法的处理流程。
在确定好特征之后,算法就可以批量地对输入文本进行识别了。首先,对于输入文本,算法会转化得到其拼音和无音调拼音。之后算法会在输入文本和输入文本的拼音中分别搜索各个关键词、增广关键词、拼音、无音调拼音、增广拼音,并按照表1计算出特征匹配距离。
表1特征匹配距离
得到特征匹配距离后,会根据输入的模糊系数,使用如下公式计算模糊匹配得分(模糊匹配得分基于表1所有搜索目标的匹配结果计算):
其中,score1表示模糊匹配分数,i表示匹配成功的扩增关键词的序号,m表示匹配成功的扩增关键词数量,C表示模糊系数,di表示与匹配成功的序号为i的扩增关键词的类型对应的特征匹配距离。
例如:特征关键词集合为{“大概”,“应该”},扩增后得到的增广关键词集合为{[“大概”,“有可能”],[“应该”,“应当”]},输入的语音转写文本为“今天由可能下雨”,模糊系数为0.6,那么这句话的匹配到特征增广关键词拼音,特征匹配距离为2,模糊匹配得分为0.6的2次方等于0.36。
除了模糊匹配得分外,还会计算完整匹配得分,既仅考虑特征关键词匹配(距离等于0的情况)得到的分数。计算公式如下:
其中,score2表示完整匹配分数,j表示匹配成功的特征关键词的序号,n表示匹配成功的特征关键词的数量,C表示模糊系数,d表示与扩增关键词的类型对应的特征匹配距离,其中,扩增关键词的类型为特征关键词。
完整匹配分数和模糊匹配分数共同作为输出。如果分数不满足特征逻辑(根据输入的逻辑符号和阈值计算),那么该特征不通过。
图5给出了一个基于图2特征关键词样例的匹配结果。可以看到输入的文本中包含一些不严谨用语和推诿问题的表达,但文本中包含错别字比如“每办法”,以及不包含在特征关键词中的一些特征词比如“可能”,“自己去问”等等。算法的模糊系数设定为0.6,在给出的结果中,对于“礼貌用语-使用不严谨、不确定、模棱两可的语言”的特征,算法匹配到特征关键词1处(关键词:大概,匹配词:大概),特征增广关键词1处(关键词:应该,匹配词:可能),完整匹配得分等于1,模糊匹配得分等于1.6,该特征得分大于1,未通过;对于“推诿问题”的特征,算法匹配到特征关键词0处,特征增广关键词3处(关键词1:没办法,匹配词1:mei ban fa;关键词2:自己去看,匹配词2:zi ji qu;关键词3:不能,匹配词3:已经),完整匹配得分等于0,模糊匹配得分等于1.176,该特征得分大于1,未通过。
本发明提供的语音信息识别方法,计算准确度高,运算速度快,在34816条平均长度6456.71个字符,正负样本比例10:1的语音识别结果的测试集上,平均每条结果计算时间为0.0133秒。
下面对本发明提供的语音信息识别装置进行描述,下文描述的语音信息识别装置与上文描述的语音信息识别方法可相互对应参照。
图6是本发明提供的语音信息识别装置的结构示意图。如图6所示,所述装置包括扩增语音识别文本获取模块10、扩增关键词获取模块20、模糊搜索模块30及语音信息识别模块40,其中:扩增语音识别文本获取模块10用于:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;扩增关键词获取模块20用于:接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;模糊搜索模块30用于:将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;语音信息识别模块40用于:根据匹配分数得到所述原始语音识别文本是否符合相应所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
本发明提供的语音信息识别装置,通过设置语言特征及包含的特征关键词,分别对特征关键词及原始语音识别文本进行扩增后匹配,根据匹配分数得到原始语音识别文本是否符合各个语言特征的结果,提高了语音信息识别的准确性及通用性。
根据本发明提供的语音信息识别装置,语音信息识别模块40在用于根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果时,具体用于:若所述模糊匹配分数大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
本发明提供的语音信息识别装置,通过若模糊匹配分数大于或等于预设分数阈值,则表示原始语音识别文本符合相应语言特征,提高了语音识别结果判断的快速性。
根据本发明提供的语音信息识别装置,模糊搜索模块30具体用于:将各个所述语言特征的所述扩增关键词在所述扩增语音识别文本中进行搜索,得到不同类型所述扩增关键词在所述扩增语音识别文本中的所述第一匹配结果;根据所述第一匹配结果获取匹配成功的所述扩增关键词;根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数。
本发明提供的语音信息识别装置,通过根据匹配成功的扩增关键词的数量、与不同类型扩增关键词对应的特征匹配距离及预设的模糊系数得到模糊匹配分数,提高了模糊匹配分数的准确性。
根据本发明提供的语音信息识别装置,所述根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数,表示为:
其中,score1表示所述模糊匹配分数,i表示匹配成功的所述扩增关键词的序号,m表示匹配成功的所述扩增关键词的数量,C表示所述模糊系数,di表示与匹配成功的序号为i的所述扩增关键词与所述特征关键词的所述特征匹配距离。
本发明提供的语音信息识别装置,通过给出根据匹配成功的扩增关键词的数量、与不同类型扩增关键词对应的特征匹配距离及预设的模糊系数得到模糊匹配分数的具体公式,进一步提高了模糊匹配分数的准确性。
根据本发明提供的语音信息识别装置,所述扩增语音识别文本包括所述原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;其中,所述文本拼音是基于所述原始语音识别文本进行有音调拼音提取得到的,所述文本无音调拼音是基于所述原始语音识别文本进行无音调拼音提取得到的。
本发明提供的语音信息识别装置,通过令扩增语音识别文本包括原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种,扩增了原始语音识别文本,同时有助于提高语音识别的准确性。
根据本发明提供的语音信息识别装置,所述扩增关键词包括所述特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种;其中,所述特征增广关键词是基于所述特征关键词进行近义词扩充得到的;所述特征关键词拼音是基于所述特征关键词进行有音调拼音提取得到的;所述特征增广关键词拼音是基于所述特征增广关键词进行有音调拼音提取得到的;所述特征关键词无音调拼音是基于所述特征关键词拼音进行无音调处理得到的;所述特征关键词增广拼音是基于所述特征关键词无音调拼音进行拼音扩增得到的;所述特征增广关键词无音调拼音是基于所述特征增广关键词拼音进行无音调处理得到的;所述特征增广关键词增广拼音是基于所述特征增广关键词无音调拼音进行拼音扩增得到的。
本发明提供的语音信息识别装置,通过令扩增关键词包括特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种,提高了扩增关键词的全面性,从而进一步提高了语音信息识别的准确性。
根据本发明提供的语音信息识别装置,所述扩增关键词与所述特征关键词的所述特征匹配距离和所述扩增关键词与所述特征关键词的接近程度关联。
本发明提供的语音信息识别装置,通过设置特征匹配距离与不同类型扩增关键词与特征关键词的接近程度关联,提高了特征匹配距离设置的合理性,从而进一步提高了语音信息识别的准确性。
根据本发明提供的语音信息识别装置,所述特征关键词、所述特征增广关键词、所述特征关键词拼音、所述特征增广关键词拼音、所述特征关键词无音调拼音、所述特征关键词增广拼音、所述特征增广关键词无音调拼音及所述特征增广关键词增广拼音与所述特征关键词的所述特征匹配距离分别为0、1、1、2、2、3、3、4。
本发明提供的语音信息识别装置,通过设置特征关键词、特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音及特征增广关键词增广拼音对应的特征匹配距离分别为0、1、1、2、2、3、3、4,提高了特征匹配距离设置的合理性,由此提高了语音信息识别结果的准确性。
根据本发明提供的语音信息识别装置,所述进行拼音扩增,具体包括:声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种。
本发明提供的语音信息识别装置,通过声母l和声母n互换、平翘舌互换及前后鼻音互换中的至少一种进行拼音扩增,提高了拼音扩增的准确性,由此进一步提高了语音识别结果的准确性。
根据本发明提供的语音信息识别装置,所述装置还包括完整匹配模块,所述完整匹配模块用于:将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数;所述匹配分数还包括所述完整匹配分数。
本发明提供的语音信息识别装置,将各个语言特征的特征关键词分别在原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个语言特征的完整匹配分数,基于完整匹配分数和模糊匹配分数得到原始语音识别文本是否符合各个语言特征的结果,提高了语音信息识别的灵活性。
根据本发明提供的语音信息识别装置,语音信息识别模块40在用于根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果时,具体用于:若所述模糊匹配分数及所述完整匹配分数中的任意一个大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
本发明提供的语音信息识别装置,通过若模糊匹配分数及完整匹配分数中的任意一个大于或等于预设分数阈值,则表示原始语音识别文本符合相应语言特征,提高了语音信息识别的简便性。
根据本发明提供的语音信息识别装置,完整匹配模块在用于将各个所述语言特征的所述特征关键词分别在所述原始语音识别文本中进行搜索,根据搜索得到的第二匹配结果得到对应于各个所述语言特征的完整匹配分数时,具体用于:将各个所述语言特征的所述特征关键词在所述原始语音识别文本中进行搜索,得到所述特征关键词在所述原始语音识别文本中的所述第二匹配结果;根据所述第二匹配结果获取匹配成功的所述特征关键词;根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数。
本发明提供的语音信息识别装置,通过根据匹配成功的特征关键词的数量、特征关键词对应的特征匹配距离及预设的模糊系数得到完整匹配分数,提高了完整匹配分数的准确性,从而进一步提高了语音识别结果的准确性。
根据本发明提供的语音信息识别装置,所述根据匹配成功的所述特征关键词的数量、所述特征关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述完整匹配分数,表示为:
其中,score2表示所述完整匹配分数,j表示匹配成功的所述特征关键词的序号,n表示匹配成功的所述特征关键词的数量,C表示所述模糊系数,d表示所述扩增关键词与所述特征关键词的所述特征匹配距离,其中,所述扩增关键词的类型为所述特征关键词。
本发明提供的语音信息识别装置,通过给出根据匹配成功的特征关键词的数量、特征关键词对应的特征匹配距离及预设的模糊系数得到完整匹配分数的具体公式,进一步提高了完整匹配分数的准确性。
图7是本发明提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行语音信息识别方法,该方法包括:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音信息识别方法,该方法包括:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音信息识别方法,该方法包括:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种语音信息识别方法,其特征在于,包括:
接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;
接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;
将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;
根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数;
所述将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数,具体包括:
将各个所述语言特征的所述扩增关键词在所述扩增语音识别文本中进行搜索,得到不同类型所述扩增关键词在所述扩增语音识别文本中的所述第一匹配结果;
根据所述第一匹配结果获取匹配成功的所述扩增关键词;
根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数;
所述根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数,表示为:
其中,score1表示所述模糊匹配分数,i表示匹配成功的所述扩增关键词的序号,m表示匹配成功的所述扩增关键词的数量,C表示所述模糊系数,di表示匹配成功的序号为i的所述扩增关键词与所述特征关键词的所述特征匹配距离;所述扩增关键词与所述特征关键词的所述特征匹配距离和所述扩增关键词与所述特征关键词的接近程度关联,所述接近程度通过基于特征关键词进行扩增的次数体现;
所述扩增语音识别文本包括所述原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;
其中,所述文本拼音是基于所述原始语音识别文本进行有音调拼音提取得到的,所述文本无音调拼音是基于所述原始语音识别文本进行无音调拼音提取得到的;
所述扩增关键词包括所述特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种;
其中,所述特征增广关键词是基于所述特征关键词进行近义词扩充得到的;所述特征关键词拼音是基于所述特征关键词进行有音调拼音提取得到的;所述特征增广关键词拼音是基于所述特征增广关键词进行有音调拼音提取得到的;所述特征关键词无音调拼音是基于所述特征关键词拼音进行无音调处理得到的;所述特征关键词增广拼音是基于所述特征关键词无音调拼音进行拼音扩增得到的;所述特征增广关键词无音调拼音是基于所述特征增广关键词拼音进行无音调处理得到的;所述特征增广关键词增广拼音是基于所述特征增广关键词无音调拼音进行拼音扩增得到的。
2.根据权利要求1所述的语音信息识别方法,其特征在于,所述根据各个所述语言特征的匹配分数得到所述原始语音识别文本是否符合各个所述语言特征的结果,具体包括:
若所述模糊匹配分数大于或等于预设分数阈值,则表示所述原始语音识别文本符合相应所述语言特征。
3.一种语音信息识别装置,其特征在于,包括:
扩增语音识别文本获取模块,用于:接收输入的原始语音识别文本,对所述原始语音识别文本进行扩增得到扩增语音识别文本;
扩增关键词获取模块,用于:接收输入的至少一种语言特征的特征关键词,对所述特征关键词进行扩增,得到扩增关键词;
模糊搜索模块,用于:将各个所述语言特征的所述扩增关键词分别在所述扩增语音识别文本中进行搜索,根据搜索得到的第一匹配结果得到对应于各个所述语言特征的模糊匹配分数;
语音信息识别模块,用于:根据匹配分数得到所述原始语音识别文本是否符合相应所述语言特征的结果;其中,所述匹配分数包括所述模糊匹配分数;
所述模糊搜索模块具体用于:将各个所述语言特征的所述扩增关键词在所述扩增语音识别文本中进行搜索,得到不同类型所述扩增关键词在所述扩增语音识别文本中的所述第一匹配结果;根据所述第一匹配结果获取匹配成功的所述扩增关键词;根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数;
所述根据匹配成功的所述扩增关键词的数量、不同类型所述扩增关键词与所述特征关键词的特征匹配距离及预设的模糊系数得到所述模糊匹配分数,表示为:
其中,score1表示所述模糊匹配分数,i表示匹配成功的所述扩增关键词的序号,m表示匹配成功的所述扩增关键词的数量,C表示所述模糊系数,di表示匹配成功的序号为i的所述扩增关键词与所述特征关键词的所述特征匹配距离;所述扩增关键词与所述特征关键词的所述特征匹配距离和所述扩增关键词与所述特征关键词的接近程度关联,所述接近程度通过基于特征关键词进行扩增的次数体现;
所述扩增语音识别文本包括所述原始语音识别文本,还包括文本拼音及文本无音调拼音中的至少一种;其中,所述文本拼音是基于所述原始语音识别文本进行有音调拼音提取得到的,所述文本无音调拼音是基于所述原始语音识别文本进行无音调拼音提取得到的;
所述扩增关键词包括所述特征关键词,还包括特征增广关键词、特征关键词拼音、特征增广关键词拼音、特征关键词无音调拼音、特征关键词增广拼音、特征增广关键词无音调拼音、特征增广关键词增广拼音中至少一种;其中,所述特征增广关键词是基于所述特征关键词进行近义词扩充得到的;所述特征关键词拼音是基于所述特征关键词进行有音调拼音提取得到的;所述特征增广关键词拼音是基于所述特征增广关键词进行有音调拼音提取得到的;所述特征关键词无音调拼音是基于所述特征关键词拼音进行无音调处理得到的;所述特征关键词增广拼音是基于所述特征关键词无音调拼音进行拼音扩增得到的;所述特征增广关键词无音调拼音是基于所述特征增广关键词拼音进行无音调处理得到的;所述特征增广关键词增广拼音是基于所述特征增广关键词无音调拼音进行拼音扩增得到的。
4.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述语音信息识别方法的步骤。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1或2所述语音信息识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552655.1A CN112767925B (zh) | 2020-12-24 | 2020-12-24 | 语音信息识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552655.1A CN112767925B (zh) | 2020-12-24 | 2020-12-24 | 语音信息识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767925A CN112767925A (zh) | 2021-05-07 |
CN112767925B true CN112767925B (zh) | 2023-02-17 |
Family
ID=75694101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011552655.1A Active CN112767925B (zh) | 2020-12-24 | 2020-12-24 | 语音信息识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767925B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299293A (zh) * | 2021-05-25 | 2021-08-24 | 阿波罗智联(北京)科技有限公司 | 语音识别结果处理方法和装置、电子设备、计算机介质 |
CN113326279A (zh) * | 2021-05-27 | 2021-08-31 | 阿波罗智联(北京)科技有限公司 | 语音搜索方法和装置、电子设备、计算机可读介质 |
CN113506584B (zh) * | 2021-07-06 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法以及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793474A (zh) * | 2014-01-04 | 2014-05-14 | 北京理工大学 | 一种面向知识管理的自定义知识分类方法 |
JP2016186768A (ja) * | 2015-03-27 | 2016-10-27 | 日本放送協会 | 候補キーワード評価装置及び候補キーワード評価プログラム |
CN106294396A (zh) * | 2015-05-20 | 2017-01-04 | 北京大学 | 关键词扩展方法和关键词扩展系统 |
CN106847288A (zh) * | 2017-02-17 | 2017-06-13 | 上海创米科技有限公司 | 语音识别文本的纠错方法与装置 |
CN108629046A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
CN110895555A (zh) * | 2018-09-13 | 2020-03-20 | 深圳市蓝灯鱼智能科技有限公司 | 数据检索方法和装置、存储介质及电子装置 |
-
2020
- 2020-12-24 CN CN202011552655.1A patent/CN112767925B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793474A (zh) * | 2014-01-04 | 2014-05-14 | 北京理工大学 | 一种面向知识管理的自定义知识分类方法 |
JP2016186768A (ja) * | 2015-03-27 | 2016-10-27 | 日本放送協会 | 候補キーワード評価装置及び候補キーワード評価プログラム |
CN106294396A (zh) * | 2015-05-20 | 2017-01-04 | 北京大学 | 关键词扩展方法和关键词扩展系统 |
CN106847288A (zh) * | 2017-02-17 | 2017-06-13 | 上海创米科技有限公司 | 语音识别文本的纠错方法与装置 |
CN108629046A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
CN110895555A (zh) * | 2018-09-13 | 2020-03-20 | 深圳市蓝灯鱼智能科技有限公司 | 数据检索方法和装置、存储介质及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112767925A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767925B (zh) | 语音信息识别方法及装置 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN110895932B (zh) | 基于语言种类和语音内容协同分类的多语言语音识别方法 | |
WO2019196314A1 (zh) | 文本信息相似度匹配方法、装置、计算机设备及存储介质 | |
CN110164447B (zh) | 一种口语评分方法及装置 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
CN111883137A (zh) | 基于语音识别的文本处理方法及装置 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN112489655A (zh) | 一种特定领域的语音识别文本纠错方法、系统和存储介质 | |
CN114694643A (zh) | 一种基于融合相似度计算的语音指令映射方法及系统 | |
CN112395866B (zh) | 报关单数据匹配方法及装置 | |
CN112182159B (zh) | 一种基于语义表示的个性化检索式对话方法和系统 | |
CN115859999B (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 | |
CN114722153A (zh) | 一种意图分类的方法和装置 | |
CN114186020A (zh) | 一种语义联想方法 | |
JP3080066B2 (ja) | 文字認識装置、方法及び記憶媒体 | |
CN115081441A (zh) | 运维指令意图识别方法、装置、电子设备和存储介质 | |
CN114444491A (zh) | 新词识别方法和装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP2965529B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |