CN109871528A - 语音数据的语义识别方法及装置、存储介质、计算机设备 - Google Patents
语音数据的语义识别方法及装置、存储介质、计算机设备 Download PDFInfo
- Publication number
- CN109871528A CN109871528A CN201711259753.4A CN201711259753A CN109871528A CN 109871528 A CN109871528 A CN 109871528A CN 201711259753 A CN201711259753 A CN 201711259753A CN 109871528 A CN109871528 A CN 109871528A
- Authority
- CN
- China
- Prior art keywords
- word
- voice identifier
- sound
- word voice
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
一种语音数据的语义识别方法及装置、存储介质、计算机设备,语音数据的语义识别方法包括:将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配,以得到文字文本。对所述文字文本进行语义理解处理,以得到所述语音数据的语义。通过本发明技术方案可以提高语音识别的准确性。本发明实施例采用上述匹配方式可以提高匹配效率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音数据的语义识别方法及装置、存储介质、计算机设备。
背景技术
随着语音识别技术的发展,语音识别在许多领域都得到了应用。通常基于语音交互的语义理解方法和系统是针对输入的语音输出应答,以便用户进行进一步的操作。
在现有技术中,语音识别处理过程与语义理解处理过程串行且相互独立。语音识别负责利用语音识别技术将交互语音识别成为文字文本,语义理解负责利用语义理解技术,根据语音识别的文字文本给出语义理解应答。具体地,在语音识别处理过程中,将语音数据识别为单字,以形成文字文本;然后在语义理解过程中,利用分词词典将文字文本进行词语匹配,再进行语义理解。
但是,在现有的基于语音交互的语义理解方法和系统对语音数据的输出结果中,仍然存在语义理解偏差的问题。
发明内容
本发明解决的技术问题是如何提高语音识别的准确性。
为解决上述技术问题,本发明实施例提供一种语音数据的语义识别方法,语音数据的语义识别方法包括:将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;
确定所述音学文本中的字语音标识在预设词典中所属的近音词类,其中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重;
选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配;
如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的字语音标识所属的近音词类中依次选取近音字语音标识,将选取的近音字语音标识与预设词典中的字语音标识进行匹配,直至匹配结果为一致,并将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词,以得到文字文本;
对所述文字文本进行语义理解处理,以得到所述语音数据的语义。
可选的,所述近音字语音标识包括标准字语音标识以及与所述标准字语音标识发音相似的相似字语音标识。
可选的,所述预设词典为分词词典,所述分词词典包括针对所有语义标识词的字语音标识。
可选的,所述字语音标识为汉字的拼音,所述预设语义标识词为汉语词语。可选的,还包括:所述字语音标识所属的近音词类中权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,如果匹配结果为一致,则将匹配的字语音标识对应的词语义标识作为与所述音学文本中的字语音标识匹配的语义标识词。
本发明实施例还公开了一种语音数据的语义识别装置,其特征在于,包括:
转换模块,用以将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;
词类确定模块,用以确定所述音学文本中的字语音标识在预设词典中所属的近音词类;其中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重;
第一近音字语音标识选取模块,用以选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配;
第二近音字语音标识选取模块,用以如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的字语音标识所属的近音词类中依次选取近音字语音标识;
第三语义标识词确定模块,用以将选取的近音字语音标识与预设词典中的字语音标识进行匹配,直至匹配结果为一致,并将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词,以得到文字文本,以得到文字文本;
语义理解模块,用以对所述文字文本进行语义理解处理,以得到所述语音数据的语义。
可选地,所述近音字语音标识包括标准字语音标识以及与所述标准字语音标识发音相似的相似字语音标识。
可选地,还包括:
第二表义词确定单元,用以在所述第一近音字语音标识选取模块中的所述字语音标识所属的近音词类中权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,如果匹配结果为一致,则将匹配的字语音标识对应的词语义标识作为与所述音学文本中的字语音标识匹配的语义标识词,以得到文字文本。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述语音数据的语义识别方法的步骤。
本发明实施例还公开了一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述语音数据的语义识别方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;利用所述音学文本中的字语音标识进行词语匹配,以得到文字文本,所述文字文本中包括与所述字语音标识匹配的语义标识词;对所述文字文本进行语义理解处理,以得到所述语音数据的语义。相对于现有技术中将语音数据转换为包括单字的文字文本,再进行分词,本发明技术方案直接利用音学文本中的字语音标识进行词语匹配,得到包括与所述字语音标识匹配的语义标识词的文字文本,文字转换和分词操作同时完成,避免了字语音标识转换为字语义标识时的误差,还避免了字语义标识分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。
进一步,所述利用所述音学文本中的字语音标识进行词语匹配包括:利用所述音学文本中的字语音标识与包括字语音标识索引的预设词典进行词语匹配。本发明技术方案通过预先在预设词典中建立字语音标识索引,从而可以利用字语音标识索引与音学文本中的字语音标识进行匹配,确定包括语义标识词的文字文本。
进一步,所述利用所述音学文本进行词语匹配包括:确定所述音学文本中的字语音标识在预设词典中所属的近音词类;其中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重;选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配;如果匹配结果为一致,则将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词。本发明技术方案通过在预设词典中配置近音词类,从而可以在字语音标识进行词语匹配时,可以根据近音词类中权重值最大的近音字语音标识进行匹配,可以在音学文本的字语音标识不正确的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等的情况下,可以匹配到正确的语义标识词;也就是说,通过词语音标识类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。确定所述音学文本中的字语音标识在预设词典中所属的近音词类;选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配,优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配,本发明实施例采用上述匹配方式可以提高匹配效率。。
附图说明
图1是本发明实施例一种语音数据的语义识别方法的流程图;
图2是本发明另一实施例一种语音数据的语义识别方法的流程图;
图3是采用本发明实施例的一个典型的应用场景的示意图;
图4是本发明实施例一种语音数据的语义识别装置的结构示意图。
图5是本发明另一实施例一种语音数据的语义识别装置的结构示意图。
具体实施方式
如背景技术中所述,在现有的基于语音交互的语义理解方法和系统对语音数据的输出结果中,仍然存在语义理解偏差的问题。
本申请发明人基于对现有的基于语音交互的语义理解方法和系统的观察研究发现,除语义理解过程本身偏差外,大多数语义理解偏差主要源自以下两个方面:一、语音本身的发音特征,例如,平舌和卷舌等近似音素,造成语音识别过程无法得到正确的音学文本;二、语言中存在大量的多音字、同音字、近音字等音学特征,导致从音学文本到文字文本转换的过程中,无法实现准确匹配。
本发明技术方案基于上述观察研究发现,对现有的基于语音交互的自然语义理解方法和系统进行改进,直接利用音学文本中的字语音标识进行词语匹配,得到包括与所述字语音标识匹配的语义标识词的文字文本,文字转换和分词操作同时完成,避免了字语音标识转换为字语义标识时的误差,还避免了字语义标识分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种语音数据的语义识别方法的流程图。
图1所示的语音数据的语义识别方法可以包括以下步骤:
步骤S101:将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;
步骤S102:确定所述音学文本中的字语音标识在预设词典中所属的近音词类。
步骤S103:选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配。
具体而言,为了兼顾音学文本中的字语音标识匹配的准确性与速度,可以选取权重值最大的近音字语音标识与该字语音标识进行匹配。
步骤S104:如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的字语音标识所属的近音词类中依次选取近音字语音标识,将选取的近音字语音标识与预设词典中的字语音标识进行匹配,直至匹配结果为一致,并将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词,以得到文字文本。
本实施例中,优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。
本发明实施例通过在预设词典中配置近音词类,从而可以在字语音标识进行词语匹配时,可以根据近音词类中权重值最大的近音字语音标识进行匹配,可以在音学文本的字语音标识发音不标准的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等,可以匹配到正确的语义标识词;也就是说,通过词语音标识类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。
步骤S105:对所述文字文本进行语义理解处理,以得到所述语音数据的语义。
具体实施中,在步骤S101中,可以将语音数据转换为对应的字语音标识,以得到音学文本。具体而言,语音数据可以是音频格式,例如mp3、wav、wma等;经过转换后的音学文本中包括至少一个字语音标识,音学文本可以是文本格式,例如txt、doc、docx、wps等,以便于进行后续步骤的处理。
本领域技术人员可以理解的是,从语音转换为音学文本可以采用任意可实施的方式,本发明实施例对此不做限制。
具体实施中,在步骤S102中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重。具体而言,近音字语音标识可以表示多个发音相近的字语音标识,例如,平舌音与卷舌音,前鼻音与后鼻音;每一近音字语音标识的预设权重可以表示该近音字语音标识在预设词典所在领域中的使用频次。
进一步而言,近音词类可以是预先设置在预设词典中的。近音词类可以具备词类名。在确定音学文本中的字语音标识在预设词典中所属的近音词类时,可以计算音学文本中的字语音标识与所述词类名的相似度;也可以是确定包括音学文本中的字语音标识的近音词类为该字语音标识所属的近音词类。
在步骤S130-140中,利用所述音学文本中的字语音标识进行词语匹配,可以确定与所述字语音标识匹配的语义标识词,以得到文字文本。具体而言,语义标识词可以是一个词语,可以包括至少一个字语义标识。其中,字语音标识可以是字语义标识的发音,字语义标识可以表示字语音标识的语义。例如,在汉语中,字语音标识为拼音,字语义标识为汉字;在英语中,字语音标识为音标,字语义标识为单词;其他语言环境中的字语音标识和字语义标识可以此类推,本发明实施例对此不做限制。
进一步而言,经过步骤S102得到的文字文本可以是经过分词操作后的文本。也就是说,文字文本中是包括语义标识词的,而不是未经分词的独立的单个字语义标识。所述文字文本可以直接用于语义理解过程,不需要再进行一次分词操作。
进而,在步骤S105中,可以对分词后的所述文字文本进行语义理解处理,从而获得语音数据的语义。
具体实施中,语音数据的语义可以是指语音数据所表达的内容的含义。具体而言,语音数据的语义可以采用关键词来表示,也可以采用关键句子或段落来表示。例如,语音数据的语义可以是疑问句,指令、陈述句、语义表达式等。
更进一步而言,对文字文本进行语义理解处理的过程可以是基于文字文本的上下文语境,来确定的文字文本的整体语义。
本发明实施例在语音识别过程通过音学文本匹配,直接利用语音数据转换的音学文本中的字语音标识进行词语匹配,得到包括与所述字语音标识匹配的语义标识词的文字文本,文字转换和分词操作同时完成,避免了字语音标识转换为字语义标识时的误差,还避免了字语义标识分词时的二次误差,从而提高了语音识别的准确性。确定所述音学文本中的字语音标识在预设词典中所属的近音词类;选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配,优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。
优选地,本实施例中,预设词典可以预先配置字语音标识索引,预设词典可以包括多个词语。具体而言,字语音标识索引可以是预设词典中词语对应的字语音标识。则通过字语音标识索引可以将音学文本中的字语音标识与预设词典中的词语进行关联,进而可以利用音学文本中的字语音标识和字语音标识索引进行词语匹配,以得到文字文本。
进一步地,所述利用所述音学文本中的字语音标识进行词语匹配可以包括以下步骤:将所述音学文本中的字语音标识与所述预设词典中各个预设语义标识词的字语音标识进行匹配,其中,所述预设词典中包括至少一个字语音标识、多个语义标识词,以及每个预设语义标识词与相应字语音标识的对应关系;将匹配的预设语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词。
本实施例中,预设词典中可以包括至少一个字语音标识、多个语义标识词,以及每个预设语义标识词与相应字语音标识的对应关系。字语音标识索引可以包括至少一个字语音标识以及每个预设语义标识词与相应字语音标识的对应关系。也就是说,通过将音学文本中的字语音标识与预设词典中的字语音标识进行匹配,然后根据匹配得到的预设词典中的字语音标识以及上述对应关系确定对应的预设语义标识词,则可以确定该预设语义标识词为音学文本中的字语音标识匹配的语义标识词。将音学文本中的所有字语音标识均经过上述匹配过程后,可以得到音学文本相匹配的文字文本。
进一步地,所述将所述音学文本中的字语音标识与所述预设词典中各个预设语义标识词的字语音标识进行匹配包括:按照在所述预设词典中出现频率递减的方式选取预设语义标识词;将选取的预设语义标识词的字语音标识与所述音学文本中的字语音标识进行匹配,直至所述音学文本中的所有字语音标识匹配完成。
本实施例中,每个预设语义标识词在所述预设词典中具备出现频率(也可以称为频次),出现频率较高的预设语义标识词为常用词。为了提高字语音标识匹配的准确性,可以先将音学文本中的字语音标识与出现频率较高的预设语义标识词进行匹配,直至音学文本中的所有字语音标识匹配到语义标识词。
具体而言,通过采用预设词典中的常用词与音学文本中的字语音标识进行匹配的方式,可以在保证匹配准确性的基础上,提高匹配的速度。此外,所述预设词典通常是针对特定领域,所述预设词典中的预设语义标识词的数量是有限的,则通过频率递减的方式选取的预设语义标识词的数量也是有限的,不会对字语音标识的匹配过程增加计算量。
在本发明实施例的一个变化例中,所述将所述音学文本中的字语音标识与所述预设词典中各个预设语义标识词的字语音标识进行匹配包括:将所述音学文本中的字语音标识或字语音标识组合与所述预设词典中各个预设语义标识词的字语音标识进行匹配,直至所述音学文本中的所有字语音标识匹配完成。
具体实施中,音学文本可以包括单个字语音标识或字语音标识组合。则可以将单个字语音标识或者字语音标识组合直接与预设词典中各个预设语义标识词对应的字语音标识进行匹配,如果匹配结果一致,则该预设语义标识词为字语音标识或者字语音标识组合匹配的语义标识词。本领域技术人员可以理解的是,音学文本中的字语音标识组合可以是常用词对应的词语音标识,是在从语义数据转换为音学文本的过程中进行组合形成的。
如图2所示,在本发明一实施例中,在步骤S103之后,判断匹配结果是否一致,如果是,则进入步骤S106,否则进入步骤S104。
在步骤S106中,如果匹配结果一致,则将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词。
本实施例中,优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。
本发明实施例通过在预设词典中配置近音词类,从而可以在字语音标识进行词语匹配时,可以根据近音词类中权重值最大的近音字语音标识进行匹配,可以在音学文本的字语音标识发音不标准的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等,可以匹配到正确的语义标识词;也就是说,通过词语音标识类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。
进一步地,所述近音字语音标识可以包括标准字语音标识以及与所述标准字语音标识发音相似的相似字语音标识。具体而言,标准字语音标识是指发音正确的字语音标识。相似字语音标识是指与标准字语音标识发音相似的字语音标识,在不同的语言环境中可以有不同的形式,例如在汉语言环境中,相似字语音标识可以是包括平舌音z、c、s的字语音标识和包括卷舌音(也可以称为翘舌音)zh、ch、sh、r的字语音标识;或者,包括前鼻音an、ian、uan、ü、an、en、in、uen、ün的字语音标识和包括后鼻音ang、iang、uang、eng、ing、ueng、ong、iong的字语音标识。
优选地,所述字语音标识为汉字的拼音,所述预设语义标识词为汉语词语。
优选地,图1所示的语音数据的语义识别方法还可以包括以下步骤:将所述语音数据的语义与知识库中的知识点进行匹配;输出与所述语音数据的语义相匹配的知识点中的答案(图中未示出)。
具体实施中,知识库可以存储多个知识点,每个知识点包括一个或多个预设的问题以及对应的答案信息。其中,所述问题不仅限于疑问句,可以为一个指令、陈述句、语义表达式等,用以与用户输入的问题进行匹配。所述答案信息为针对所述多个问题的应答。进一步而言,所述知识点包括标准问和多个扩展问,扩展问可以为用以表示该知识点语义的语义表达式和自然语句中的至少一种。
具体实施中,语音数据的语义与知识库中的知识点进行匹配的过程,可以是计算语音数据的语义与知识库中的知识点的标准问的语义相似度的过程。当所述语义相似度达到设定阈值时,则表示语音数据与知识库中的知识点相匹配,则可以输出与所述语音数据的语义相匹配的知识点中的答案。例如,语音数据的语义为“查余额”,并确定与语音数据的语义相似度最高的知识库中标准问为“剩余金额”,则将该标准问“剩余金额”对应的答案输出。
更具体而言,语音数据的语义与知识库中的知识点的语义相似度可以通过相关性得分(relevance score)来衡量,分数越高则语义相似度越高。可以采用TF-IDF算法计算语义相似度,此时词频(Term Frequency)和文档频率(Document Frequency)是影响语义相似度的因素。还可以进行笛卡尔积计算,然后采用编辑距离或Jaccard距离计算相似度。优选的,可以分别采用编辑距离和Jaccard距离计算相似度,并选取数值最大的相似度作为语义相似度。
图3是本发明实施例语音数据的语义识别方法的一个典型的应用场景的示意图。
在本应用场景中,虚线框内所示步骤S302至步骤S307可以是语音数据的语义识别方法的具体实施步骤。本实施例以汉语言环境为例进行说明,其他语言环境下可以以此类推,本发明实施例对此不做限制。
在步骤S301中,用户输入语音,该语音通常为音频格式。在步骤S302中,对输入的语音进行语音处理,可以得到音学文本,音学文本可以包括对应语音的多个拼音。在步骤S303中,利用音学文本中的拼音与分词词典中的词语进行匹配,可以得到与音学文本中的拼音匹配的多个词语,也即文字文本。在步骤S304中,利用文字文本中的词语进行过滤纠错,以实现对文字文本的进一步完善。在步骤S305中,对纠错后的文字文本进行词法分析,例如可以是词性或词语语义的确定等。在步骤S306中,对词法分析后的文字文本进行上下文处理,也即结合文字文本的上下文环境,以得到更加完善的文字文本的语义。进而在步骤S307中,利用文字文本的语义与知识库中的知识点进行匹配,以得到答案。最后在步骤S308中,输出该答案。
本领域技术人员可以理解的是,步骤S304至步骤S307的可采用现有技术中任意可实施的具体实施方式,本发明实施例对此不做限制。
在本实施例中,取消了语音处理过程中从拼音转换为包括单个字的文字文本过程,而在语义理解过程中增加音学文本匹配环节,则语义理解过程可以直接利用语音处理得到的音学文本,从而化语音识别偏差,规避语言处理偏差,提升基于语音交互的语义理解应答效果。
进一步而言,本实施例中的语音数据的语义识别方法可以用于智能问答场景,可以提高问答准确性。
图4是本发明实施例一种语音数据的语义识别装置的结构示意图。
图4所示的语音数据的语义识别装置40可以包括转换模块401、词类确定模块402、第一近音字语音标识选取模块403、第二近音字语音标识选取模块404和语义理解模块405。
其中,转换模块401用以将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;词类确定模块402,用以确定所述音学文本中的字语音标识在预设词典中所属的近音词类。第一近音字语音标识选取模块403用以对选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配。第二近音字语音标识选取模块404,用以如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的字语音标识所属的近音词类中依次选取近音字语音标识,将选取的近音字语音标识与预设词典中的字语音标识进行匹配,直至匹配结果为一致,并将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词,以得到文字文本。语义理解模块405,用以对所述文字文本进行语义理解处理,以得到所述语音数据的语义。
具体实施中,词类确定模块402所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重。具体而言,近音字语音标识可以表示多个发音相近的字语音标识,例如,平舌音与卷舌音,前鼻音与后鼻音;每一近音字语音标识的预设权重可以表示该近音字语音标识在预设词典所在领域中的使用频次。
进一步而言,近音词类可以是预先设置在预设词典中的。近音词类可以具备词类名。在确定音学文本中的字语音标识在预设词典中所属的近音词类时,可以计算音学文本中的字语音标识与所述词类名的相似度;也可以是确定包括音学文本中的字语音标识的近音词类为该字语音标识所属的近音词类。
在第一近音字语音标识选取模块403和第二近音字语音标识选取模块404中,利用所述音学文本中的字语音标识进行词语匹配,可以确定与所述字语音标识匹配的语义标识词,以得到文字文本。具体而言,语义标识词可以是一个词语,可以包括至少一个字语义标识。其中,字语音标识可以是字语义标识的发音,字语义标识可以表示字语音标识的语义。例如,在汉语中,字语音标识为拼音,字语义标识为汉字;在英语中,字语音标识为音标,字语义标识为单词;其他语言环境中的字语音标识和字语义标识可以此类推,本发明实施例对此不做限制。
进一步而言,词类确定模块402得到的文字文本可以是经过分词操作后的文本。也就是说,文字文本中是包括语义标识词的,而不是未经分词的独立的单个字语义标识。所述文字文本可以直接用于语义理解过程,不需要再进行一次分词操作。
进而,语义理解模块405可以对分词后的所述文字文本进行语义理解处理,从而获得语音数据的语义。
具体实施中,语音数据的语义可以是指语音数据所表达的内容的含义。具体而言,语音数据的语义可以采用关键词来表示,也可以采用关键句子或段落来表示。例如,语音数据的语义可以是疑问句,指令、陈述句、语义表达式等。
更进一步而言,对文字文本进行语义理解处理的过程可以是基于文字文本的上下文语境,来确定的文字文本的整体语义。
本发明实施例直接利用音学文本中的字语音标识进行词语匹配,得到包括与所述字语音标识匹配的语义标识词的文字文本,文字转换和分词操作同时完成,避免了字语音标识转换为字语义标识时的误差,还避免了字语义标识分词时的二次误差,从而提高了语音识别的准确性。此外,本发明技术方案通过节省步骤,还可以提高语音识别的识别效率。
优选地,匹配模块402利用所述音学文本中的字语音标识与包括字语音标识索引的预设词典进行词语匹配。
本实施例中,预设词典可以预先配置字语音标识索引,预设词典可以包括多个词语。具体而言,字语音标识索引可以是预设词典中词语对应的字语音标识。则通过字语音标识索引可以将音学文本中的字语音标识与预设词典中的词语进行关联,进而可以利用音学文本中的字语音标识和字语音标识索引进行词语匹配,以得到文字文本。
本发明实施例利用所述音学文本中的字语音标识与包括字语音标识索引的预设词典进行词语匹配,通过预先在预设词典中建立字语音标识索引,从而可以利用字语音标识索引与音学文本中的字语音标识进行匹配,确定包括语义标识词的文字文本。
本实施例中,每个预设语义标识词在所述预设词典中具备出现频率(也可以称为频次),出现频率较高的预设语义标识词为常用词。为了提高字语音标识匹配的准确性,可以先将音学文本中的字语音标识与出现频率较高的预设语义标识词进行匹配,直至音学文本中的所有字语音标识匹配到语义标识词。
具体而言,通过采用预设词典中的常用词与音学文本中的字语音标识进行匹配的方式,可以在保证匹配准确性的基础上,提高匹配的速度。此外,所述预设词典通常是针对特定领域,所述预设词典中的预设语义标识词的数量是有限的,则通过频率递减的方式选取的预设语义标识词的数量也是有限的,不会对字语音标识的匹配过程增加计算量。
可选地,具体实施中,音学文本可以包括单个字语音标识或字语音标识组合。则可以将单个字语音标识或者字语音标识组合直接与预设词典中各个预设语义标识词对应的字语音标识进行匹配,如果匹配结果一致,则该预设语义标识词为字语音标识或者字语音标识组合匹配的语义标识词。本领域技术人员可以理解的是,音学文本中的字语音标识组合可以是常用词对应的词语音标识,是在从语义数据转换为音学文本的过程中进行组合形成的。
如附图5所示,本发明的一实施例中还包括7语义标识词确定单元406用以如果匹配结果为一致,则将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词。
具体实施中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重。具体而言,近音字语音标识可以表示多个发音相近的字语音标识,例如,平舌音与卷舌音,前鼻音与后鼻音;每一近音字语音标识的预设权重可以表示该近音字语音标识在预设词典所在领域中的使用频次。
进一步而言,近音词类可以是预先设置在预设词典中的。近音词类可以具备词类名。在确定音学文本中的字语音标识在预设词典中所属的近音词类时,可以计算音学文本中的字语音标识与所述词类名的相似度;也可以是确定包括音学文本中的字语音标识的近音词类为该字语音标识所属的近音词类。具体而言,为了兼顾音学文本中的字语音标识匹配的准确性与速度,可以选取权重值最大的近音字语音标识与该字语音标识进行匹配。
本实施例中,优先使用权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,权重值最大的近音字语音标识与预设词典中的字语音标识不匹配的情况下,再使用所述近音词类中其他权重的近音字语音标识与预设词典中的字语音标识进行匹配。本发明实施例采用上述匹配方式可以提高匹配效率。
本发明实施例通过在预设词典中配置近音词类,从而可以在字语音标识进行词语匹配时,可以根据近音词类中权重值最大的近音字语音标识进行匹配,可以在音学文本的字语音标识发音不标准的情况下,例如混淆平舌音和卷舌音,或者前鼻音和后鼻音等,可以匹配到正确的语义标识词;也就是说,通过词语音标识类可以矫正用户发音错误导致的分词错误,从而进一步提高了语音识别的准确性。
进一步地,所述近音字语音标识包括标准字语音标识以及与所述标准字语音标识发音相似的相似字语音标识。具体而言,标准字语音标识是指发音正确的字语音标识。相似字语音标识是指与标准字语音标识发音相似的字语音标识,在不同的语言环境中可以有不同的形式,例如在汉语言环境中,相似字语音标识可以是包括平舌音z、c、s的字语音标识和包括卷舌音(也可以称为翘舌音)zh、ch、sh、r的字语音标识;或者,包括前鼻音an、ian、uan、ü、an、en、in、uen、ün的字语音标识和包括后鼻音ang、iang、uang、eng、ing、ueng、ong、iong的字语音标识。
优选地,所述预设词典为分词词典,所述分词词典包括针对所有语义标识词的字语音标识。
优选地,所述字语音标识为汉字的拼音,所述预设语义标识词为汉语词语。
优选地,图5所示的语音数据的语义识别装置40还可以包括答案输出模块407。答案输出模块407,用以输出与所述语音数据的语义相匹配的知识点中的答案。具体实施中,知识库可以存储多个知识点,每个知识点包括一个或多个预设的问题以及对应的答案信息。其中,所述问题不仅限于疑问句,可以为一个指令、陈述句、语义表达式等,用以与用户输入的问题进行匹配。所述答案信息为针对所述多个问题的应答。进一步而言,所述知识点包括标准问和多个扩展问,扩展问可以为用以表示该知识点语义的语义表达式和自然语句中的至少一种。
具体实施中,语音数据的语义与知识库中的知识点进行匹配的过程,可以是计算语音数据的语义与知识库中的知识点的标准问的语义相似度的过程。当所述语义相似度达到设定阈值时,则表示语音数据与知识库中的知识点相匹配,则可以输出与所述语音数据的语义相匹配的知识点中的答案。例如,语音数据的语义为“查余额”,并确定与语音数据的语义相似度最高的知识库中标准问为“剩余金额”,则将该标准问“剩余金额”对应的答案输出。
更具体而言,语音数据的语义与知识库中的知识点的语义相似度可以通过相关性得分(relevance score)来衡量,分数越高则语义相似度越高。可以采用TF-IDF算法计算语义相似度,此时词频(Term Frequency)和文档频率(Document Frequency)是影响语义相似度的因素。还可以进行笛卡尔积计算,然后采用编辑距离或Jaccard距离计算相似度。优选的,可以分别采用编辑距离和Jaccard距离计算相似度,并选取数值最大的相似度作为语义相似度。
关于所述语音数据的语义识别装置40的工作原理、工作方式的更多内容,可以参照对图1至图2所示实施例的相关描述,这里不再赘述。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1或图2中所示的语音数据的语义识别方法的步骤。所述存储介质可以是计算机存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。
本发明实施例还公开了一种计算机设备,所述计算机设备可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1或图2中所示的语音数据的语义识别方法的步骤。所述用户设备包括但不限于手机、计算机、平板电脑等计算机设备。
应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品,但是本发明的实施方式的方法或装置可以通过软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当理解,尽管在上文的详细描述中提及了装置的若干模块或单元,但是这种划分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现,反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外,上文描述的某些模块/单元在某些应用场景下可被省略。
应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音数据的语义识别方法,其特征在于,包括:
将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;
确定所述音学文本中的字语音标识在预设词典中所属的近音词类,其中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重;
选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配;
如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的字语音标识所属的近音词类中依次选取近音字语音标识,将选取的近音字语音标识与预设词典中的字语音标识进行匹配,直至匹配结果为一致,并将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词,以得到文字文本;
对所述文字文本进行语义理解处理,以得到所述语音数据的语义。
2.根据权利要求1所述的语音数据的语义识别方法,其特征在于,所述近音字语音标识包括标准字语音标识以及与所述标准字语音标识发音相似的相似字语音标识。
3.根据权利要求1所述的语音数据的语义识别方法,其特征在于,所述预设词典为分词词典,所述分词词典包括针对所有语义标识词的字语音标识。
4.根据权利要求1所述的语音数据的语义识别方法,其特征在于,所述字语音标识为汉字的拼音,所述预设语义标识词为汉语词语。
5.根据权利要求1所述的语音数据的语义识别方法,其特征在于,还包括:
所述字语音标识所属的近音词类中权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,如果匹配结果为一致,则将匹配的字语音标识对应的词语义标识作为与所述音学文本中的字语音标识匹配的语义标识词。
6.一种语音数据的语义识别装置,其特征在于,包括:
转换模块,用以将获取到的语音数据转换为音学文本,所述音学文本中包括至少一个字语音标识;
词类确定模块,用以确定所述音学文本中的字语音标识在预设词典中所属的近音词类;其中,所述预设词典中包括至少一个字语音标识、多个语义标识词、每个预设语义标识词与相应字语音标识的对应关系以及至少一个近音词类,每一近音词类包括多个近音字语音标识以及针对每一近音字语音标识的预设权重;
第一近音字语音标识选取模块,用以选取所述音学文本中的字语音标识所属的近音词类中权重值最大的近音字语音标识,将其与预设词典中的字语音标识进行匹配;
第二近音字语音标识选取模块,用以如果匹配结果为不一致,则按照权重值递减的方式,在所述音学文本中的字语音标识所属的近音词类中依次选取近音字语音标识,将选取的近音字语音标识与预设词典中的字语音标识进行匹配,直至匹配结果为一致,并将匹配的字语音标识对应的语义标识词作为与所述音学文本中的字语音标识匹配的语义标识词;
语义理解模块,用以对所述文字文本进行语义理解处理,以得到所述语音数据的语义。
7.根据权利要求6所述的语音数据的语义识别装置,其特征在于,所述近音字语音标识包括标准字语音标识以及与所述标准字语音标识发音相似的相似字语音标识。
8.根据权利要求6所述的语音数据的语义识别装置,其特征在于,还包括:
第二表义词确定单元,用以在所述第一近音字语音标识选取模块中的所述字语音标识所属的近音词类中权重值最大的近音字语音标识与预设词典中的字语音标识进行匹配,如果匹配结果为一致,则将匹配的字语音标识对应的词语义标识作为与所述音学文本中的字语音标识匹配的语义标识词。
9.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至5中任一项所述语音数据的语义识别方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至5中任一项所述语音数据的语义识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711259753.4A CN109871528A (zh) | 2017-12-04 | 2017-12-04 | 语音数据的语义识别方法及装置、存储介质、计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711259753.4A CN109871528A (zh) | 2017-12-04 | 2017-12-04 | 语音数据的语义识别方法及装置、存储介质、计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109871528A true CN109871528A (zh) | 2019-06-11 |
Family
ID=66915654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711259753.4A Pending CN109871528A (zh) | 2017-12-04 | 2017-12-04 | 语音数据的语义识别方法及装置、存储介质、计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871528A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053362A (zh) * | 2021-03-30 | 2021-06-29 | 建信金融科技有限责任公司 | 语音识别的方法、装置、设备和计算机可读介质 |
CN113221580A (zh) * | 2021-07-08 | 2021-08-06 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
-
2017
- 2017-12-04 CN CN201711259753.4A patent/CN109871528A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053362A (zh) * | 2021-03-30 | 2021-06-29 | 建信金融科技有限责任公司 | 语音识别的方法、装置、设备和计算机可读介质 |
CN113221580A (zh) * | 2021-07-08 | 2021-08-06 | 广州小鹏汽车科技有限公司 | 语义拒识方法、语义拒识装置、交通工具及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107451119A (zh) | 基于语音交互的语义识别方法及装置、存储介质、计算机设备 | |
CN107564511B (zh) | 电子装置、语音合成方法和计算机可读存储介质 | |
CN106710592A (zh) | 一种智能硬件设备中的语音识别纠错方法和装置 | |
CN109686361B (zh) | 一种语音合成的方法、装置、计算设备及计算机存储介质 | |
CN106649825B (zh) | 语音交互系统及其创建方法和装置 | |
US20190005951A1 (en) | Method of processing dialogue based on dialog act information | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
WO2021179701A1 (zh) | 多语种语音识别方法、装置及电子设备 | |
US20150248898A1 (en) | Computer-Implemented Systems and Methods for Determining an Intelligibility Score for Speech | |
CN108682420A (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN109545183A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
WO2020199600A1 (zh) | 情感极性分析方法及相关装置 | |
CN108446278B (zh) | 一种基于自然语言的语义理解系统及方法 | |
US20190164555A1 (en) | Apparatus, method, and non-transitory computer readable storage medium thereof for generatiing control instructions based on text | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN109166569B (zh) | 音素误标注的检测方法和装置 | |
CN112634892B (zh) | 一种语音处理方法、装置、可读存储介质和电子设备 | |
KR20210059995A (ko) | 학습 기반의 외국어 말하기 평가 방법 및 그 시스템 | |
CN105183716B (zh) | 一种基于抽象语义的智能交互方法 | |
CN109872718A (zh) | 语音数据的答案获取方法及装置、存储介质、计算机设备 | |
WO2023045186A1 (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN109871528A (zh) | 语音数据的语义识别方法及装置、存储介质、计算机设备 | |
Saunders et al. | Towards using prosody to scaffold lexical meaning in robots | |
CN115345177A (zh) | 意图识别模型训练方法和对话方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190611 |