CN107220235A - 基于人工智能的语音识别纠错方法、装置及存储介质 - Google Patents
基于人工智能的语音识别纠错方法、装置及存储介质 Download PDFInfo
- Publication number
- CN107220235A CN107220235A CN201710367038.6A CN201710367038A CN107220235A CN 107220235 A CN107220235 A CN 107220235A CN 201710367038 A CN201710367038 A CN 201710367038A CN 107220235 A CN107220235 A CN 107220235A
- Authority
- CN
- China
- Prior art keywords
- error correction
- resource
- word
- identification result
- voice identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 500
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 16
- 239000002245 particle Substances 0.000 claims description 33
- 238000003062 neural network model Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 241000894007 species Species 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000686 essence Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 240000005049 Prunus salicina Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 235000009018 li Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于人工智能的语音识别纠错方法、装置及存储介质,其中方法包括:获取用户输入的第二语音query的第二语音识别结果;根据第二语音识别结果进行纠错意图识别;若确定用户具有纠错意图,则从第二语音识别结果中提取出纠错信息;根据纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,第一语音识别结果为在第二语音query之前输入的第一语音query的语音识别结果。应用本发明所述方案,能够提高纠错结果的准确性并降低纠错难度等。
Description
【技术领域】
本发明涉及计算机应用技术,特别涉及基于人工智能的语音识别纠错方法、装置及存储介质。
【背景技术】
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着语音及自然语言处理相关技术的发展,越来越多的应用场景提供语音方式同用户进行交互。
但是,在用户输入语音query后,对用户的语音query进行识别时,得到的语音识别结果中很可能会出现错误。比如,对于长度较大的语音query,语音识别结果中很容易出现错误片段,当语音query中涉及实体名称时,对实体名称的识别会很容易出现错误,又或者,用户在输入时带有口音、口误或比较特殊的表述习惯等,均可能造成识别错误。
现有技术中,针对用户输入的语音query的语音识别结果,可利用背景知识及统计方法等进行计算,从而找出可能错误的地方并进行替换,但这种纠错方式的纠错效果很差,且很多场景下均无法识别出错误。比如,用户通过语音query输入搜索对象“陈育娟”,语音识别结果出现错误,将“陈育娟”识别为“陈玉娟”,那么利用现有的纠错方式则无法对这种错误进行纠正,只能通过用户的手动输入进行修改,从而为用户带来了很大的不便,尤其是在一些体积较小的穿戴、车载等设备使用中,文字输入非常不便,从而增大了纠错难度。
可见,采用现有的纠错方式,会导致纠错结果的准确性较低,并增大了纠错难度。
【发明内容】
有鉴于此,本发明提供了基于人工智能的语音识别纠错方法、装置及存储介质,能够提高纠错结果的准确性并降低纠错难度。
具体技术方案如下:
一种基于人工智能的语音识别纠错方法包括:
获取用户输入的第二语音query的第二语音识别结果;
根据所述第二语音识别结果进行纠错意图识别;
若确定用户具有纠错意图,则从所述第二语音识别结果中提取出纠错信息;
根据所述纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,所述第一语音识别结果为在所述第二语音query之前输入的第一语音query的语音识别结果。
根据本发明一优选实施例,所述根据所述第二语音识别结果进行纠错意图识别包括:
确定所述第二语音识别结果是否与预先设定的M个纠错意图模板中的至少一个相匹配,M为正整数;
若是,则确定用户具有纠错意图;
若否,则利用深度神经网络模型对所述第二语音识别结果进行意图分类,分类结果包括具有纠错意图以及不具有纠错意图。
根据本发明一优选实施例,所述从所述第二语音识别结果中提取出纠错信息包括:
若利用所述纠错意图模板确定出用户具有纠错意图,则通过所述纠错意图模板的槽位信息确定出所述纠错信息;
若利用所述深度神经网络模型确定出用户具有纠错意图,则通过序列标注模型,分别对所述第二语音识别结果中的每个字进行标注,利用标注为属于纠错信息的字组成所述纠错信息。
根据本发明一优选实施例,当纠错资源的种类为拆字资源时,该方法进一步包括:
针对每个纠错资源,分别将所述纠错资源中的每个字转为对应的拼音,并根据所述纠错资源中的各个字及拼音,生成所述纠错资源的key;
建立key与对应的纠错资源之间的倒排索引;
所述根据所述纠错信息对各纠错资源进行筛选包括:
将所述纠错信息中的每个字分别转为对应的拼音;
确定所述纠错信息中的各个字是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源;
确定所述纠错信息中的各个字对应的拼音是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源。
根据本发明一优选实施例,所述生成所述纠错资源的key包括:
针对所述纠错资源中的各个字,分别以连续i个term为最小粒度得到连续kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以连续i个term为最小粒度得到连续kgram集合,i为正整数,且2≤i≤N,N为所述纠错资源中包括的字数;
针对所述纠错资源中的各个字,分别以j个term为最小粒度得到不连续的跳跃kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以j个term为最小粒度得到不连续的跳跃kgram集合,j为正整数,且2≤j≤N-1。
将所述连续kgram集合以及所述跳跃kgram集合中的元素分别作为所述纠错资源的key。
根据本发明一优选实施例,所述利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错包括:
针对筛选出的每个纠错资源,分别计算所述纠错资源中的各个字的拼音所组成的字符串与所述纠错信息中的各个字的拼音所组成的字符串之间的带权编辑距离;
将计算出的带权编辑距离最小的纠错资源作为所述最为匹配的纠错资源,利用所述最为匹配的纠错资源对所述第一语音识别结果进行纠错。
根据本发明一优选实施例,所述计算带权编辑距离包括:
在计算编辑距离时,对于增加和删除两种操作,编辑距离均为1,对于替换操作,计算两个音节之间的发音距离,发音距离越近,产生的编辑距离增加量越小。
一种基于人工智能的语音识别纠错装置,包括:纠错意图识别单元、纠错信息提取单元以及纠错资源匹配单元;
所述纠错意图识别单元,用于获取用户输入的第二语音query的第二语音识别结果,并根据所述第二语音识别结果进行纠错意图识别;
所述纠错信息提取单元,用于当所述纠错意图识别单元识别出用户具有纠错意图时,从所述第二语音识别结果中提取出纠错信息;
所述纠错资源匹配单元,用于根据所述纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,所述第一语音识别结果为在所述第二语音query之前输入的第一语音query的语音识别结果。
根据本发明一优选实施例,所述纠错意图识别单元确定所述第二语音识别结果是否与预先设定的M个纠错意图模板中的至少一个相匹配,M为正整数;若是,则确定用户具有纠错意图;若否,则利用深度神经网络模型对所述第二语音识别结果进行意图分类,分类结果包括具有纠错意图以及不具有纠错意图。
根据本发明一优选实施例,
若所述纠错意图识别单元利用所述纠错意图模板确定出用户具有纠错意图,则所述纠错信息提取单元通过所述纠错意图模板的槽位信息确定出所述纠错信息;
若所述纠错意图识别单元利用所述深度神经网络模型确定出用户具有纠错意图,则所述纠错信息提取单元通过序列标注模型,分别对所述第二语音识别结果中的每个字进行标注,利用标注为属于纠错信息的字组成所述纠错信息。
根据本发明一优选实施例,所述装置中进一步包括:预处理单元;
所述预处理单元,用于当纠错资源的种类为拆字资源时,针对每个纠错资源,分别将所述纠错资源中的每个字转为对应的拼音,并根据所述纠错资源中的各个字及拼音,生成所述纠错资源的key;建立key与对应的纠错资源之间的倒排索引;
所述纠错资源匹配单元将所述纠错信息中的每个字分别转为对应的拼音;确定所述纠错信息中的各个字是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源;确定所述纠错信息中的各个字对应的拼音是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源。
根据本发明一优选实施例,
所述预处理单元针对所述纠错资源中的各个字,分别以连续i个term为最小粒度得到连续kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以连续i个term为最小粒度得到连续kgram集合,i为正整数,且2≤i≤N,N为所述纠错资源中包括的字数;
针对所述纠错资源中的各个字,分别以j个term为最小粒度得到不连续的跳跃kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以j个term为最小粒度得到不连续的跳跃kgram集合,j为正整数,且2≤j≤N-1。
将所述连续kgram集合以及所述跳跃kgram集合中的元素分别作为所述纠错资源的key。
根据本发明一优选实施例,所述纠错资源匹配单元针对筛选出的每个纠错资源,分别计算所述纠错资源中的各个字的拼音所组成的字符串与所述纠错信息中的各个字的拼音所组成的字符串之间的带权编辑距离;将计算出的带权编辑距离最小的纠错资源作为所述最为匹配的纠错资源,利用所述最为匹配的纠错资源对所述第一语音识别结果进行纠错。
根据本发明一优选实施例,所述纠错资源匹配单元在计算编辑距离时,对于增加和删除两种操作,编辑距离均为1,对于替换操作,计算两个音节之间的发音距离,发音距离越近,产生的编辑距离增加量越小。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,获取用户输入的第二语音识别结果,并根据第二语音识别结果进行纠错意图识别,如果确定用户具有纠错意图,则可从第二语音识别结果中提取出纠错信息,并根据纠错信息对各纠错资源进行筛选,从而利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,对于用户来说,可以像人与人之间对话时一样,描述错误或强调正解,相应地,可根据用户的描述对语音识别结果进行修正,从而实现了对于语音识别结果的准确纠错,即提高了纠错结果的准确性,并且,用户只需要通过语音的方式发出纠错指令即可,无需进行手动输入操作,从而对于用户来说降低了纠错难度。
【附图说明】
图1为本发明所述基于人工智能的语音识别纠错方法实施例的流程图。
图2为本发明所述第一语音识别结果“陈玉娟”的输入界面示意图。
图3为本发明所述第一语音识别结果“陈玉娟”对应的搜索结果的界面示意图。
图4为本发明所述第二语音识别结果“下面是一个月的育”的输入界面示意图。
图5为本发明所述纠错后的第一语音识别结果“陈育娟”对应的搜索结果的界面示意图。
图6为本发明所述深度神经网络模型的框架示意图。
图7为本发明所述序列标注模型的框架示意图。
图8为本发明所述基于人工智能的语音识别纠错装置实施例的组成结构示意图。
图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述基于人工智能的语音识别纠错方法实施例的流程图,如图1所示,包括以下具体实现方式。
在101中,获取用户输入的第二语音query的第二语音识别结果。
在102中,根据第二语音识别结果进行纠错意图识别。
在103中,若确定用户具有纠错意图,则从第二语音识别结果中提取出纠错信息。
在104中,根据获取到的纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错。
其中,第一语音识别结果为在第二语音query之前输入的第一语音query的语音识别结果。
比如,在进行搜索时,用户通过第一语音query输入搜索对象“陈育娟”,第一语音识别结果出现错误,将“陈育娟”识别为“陈玉娟”,相应地,则会为用户展示“陈玉娟”的搜索结果,这种情况下,用户则可输入第二语音query,如“下面是一个月的育”,从而对第一语音识别结果进行纠错,进而可按照纠错后的第一语音识别结果为用户展示搜索结果,如图2~5所示。
图2为本发明所述第一语音识别结果“陈玉娟”的输入界面示意图,图3为本发明所述第一语音识别结果“陈玉娟”对应的搜索结果的界面示意图,图4为本发明所述第二语音识别结果“下面是一个月的育”的输入界面示意图,图5为本发明所述纠错后的第一语音识别结果“陈育娟”对应的搜索结果的界面示意图。
可以看出,图1所示实施例中提出了一种基于多轮对话的交互式语音识别纠错方式,整个纠错流程可主要分为三个阶段,分别为:纠错意图识别、纠错信息提取以及纠错资源匹配,通过这三个阶段,对用户在语音query中提供的信息进行递进式的判别、挖掘和利用,从而帮助用户实现纠错意图。
以下分别对上述各阶段的具体实现进行详细说明。
1)纠错意图识别
在接收到用户输入的第二语音query之后,可首先按照现有技术对其进行语音识别,从而得到第二语音识别结果。
之后,可根据第二语音识别结果进行纠错意图识别,即确定用户是否具有纠错意图,确定用户具有纠错意图之后,才会进行后续的纠错流程。
考虑到不同的用户可能会采用不同的表达方式,有的表达方式比较明确,可以比较容易地识别出用户的纠错意图,而有的表达方式则比较复杂,识别起来比较困难,因此,本实施例中提供了两种识别方式,即基于规则的纠错意图识别方式以及基于统计的纠错意图识别方式,两种方式可结合使用。
其中,基于规则的纠错意图识别方式可以是指预先生成M个纠错意图模板,M为正整数,具体取值可根据实际需要而定,通常大于一,这样,当获取到第二语音识别结果之后,可确定其是否与M个纠错意图模板中的至少一个相匹配,如果是,则可确定用户具有纠错意图。
第二语音识别结果与纠错意图模板可如表一所示:
模板示例 | 第二语音识别结果 |
是[偏旁]的[字] | 我要的是单人旁的倒 |
是[声调]的那个[字] | 是三声的那个倒 |
表一第二语音识别结果与纠错意图模板
如果第二语音识别结果与任一纠错意图模板均不匹配,那么可进一步采用基于统计的纠错意图识别方式对第二语音识别结果进行识别。
比如,可利用深度神经网络模型对第二语音识别结果进行意图分类,分类结果包括具有纠错意图以及不具有纠错意图。
图6为本发明所述深度神经网络模型的框架示意图,如图6所示,可采用词向量特征与统计特征相结合的方式,利用embedding及长短时间记忆网络(LSTM,Long Short TermMemory Networks)分别得到第二语音识别结果中的每个字的词向量,并针对第二语音识别结果中的每个字,开发特征工程用以提取统计特征,二者相结合确定意图分类结果,分类结果包括具有纠错意图以及不具有纠错意图。
具体提取哪些统计特征可根据实际需要而定,比如可包括拼音特征、发音距离特征以及规则特征等。
2)纠错信息提取
在确定用户具有纠错意图之后,并不能直接利用第二语音识别结果来对第一语音识别结果进行纠错,因为第二语音识别结果中不但包含纠错信息,还包含其它噪声信息,因此需要对有用的纠错信息进行提取,去除无关信息,才能完成后续的纠错处理。
根据在对第二语音识别结果进行纠错意图识别时所采用的识别方式的不同,从第二语音识别结果中提取纠错信息的方式也会不同。
其中,若利用纠错意图模板确定出用户具有纠错意图,那么可直接通过纠错意图模板的槽位信息来提取出纠错信息。
比如,第二语音识别结果为“我要的是单人旁的倒”,相匹配的纠错意图模板为“是[偏旁]的[字]”,那么提取出纠错信息则为[偏旁:单人旁]、[字:倒]。
若利用深度神经网络模型确定出用户具有纠错意图,那么则可通过序列标注模型,分别对第二语音识别结果中的每个字进行标注,利用标注为属于纠错信息的字组成纠错信息。
即利用序列标注模型,对第二语音识别结果中的不同类别信息进行标注,从而确定有用信息。不同于传统的命名实体识别(NER,Named Entity Recognition)序列标注,对第二语音识别结果的标注需要以字粒度进行,因此难度更大、精度要求更高。
图7为本发明所述序列标注模型的框架示意图,如图7所示,可采用词向量特征与统计特征相结合的方式来对第二语音识别结果中的每个字进行标注,词向量方面,实验显示,采用广义回归神经网络(GRNN,General Regression Neural Network)的效果更优,特征工程对每个字生成统计特征,每个字的统计特征与词向量合并得到字特征,再通过全连接的神经网络进行标注,对于每个字来说,其能够体现纠错信息或不能够体现纠错信息,即属于纠错信息或不属于纠错信息,利用能够体现纠错信息的各个字即可组成所需的纠错信息。
比如,“我要的是单人旁的倒”中的“单”字,其用于描述字的偏旁,因此能够体现纠错信息。
3)纠错资源匹配
在获取到纠错信息之后,即可利用纠错信息来与各纠错资源进行匹配,以确定纠错信息所描述的对象,即用户通过描述想要找到的是哪个字。
纠错资源的种类很多,比如使用偏旁部首资源和拆字资源等,偏方部首资源即指(偏旁:字)的kv对,如(单人旁:倒),拆字资源即描述字的拆解信息及原字,如(人到:倒)。
以下以拆字资源为例,说明如何根据纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错。
由于针对的是语音query,所以不能直接通过文字信息来索引资源,因为第二语音识别结果中也可能会出现错误,如将“人到:倒”识别为“人道:倒”或“人到:到”等,需要转为对应的拼音,以解决第二语音识别结果中的识别错误问题。
另外,还会存在其它问题,比如,纠错资源(日四又:曼),第二语音识别结果可能为“上面是四字下面又的那个曼”,提取到的纠错信息为[四又:曼],因此需要计算纠错信息与纠错资源的相似度,获取相似度最高的纠错资源作为最终的匹配结果,但线性的相似度计算耗时太大,无法接受,因此本实施例中提出,可按照key的kgram集合来对纠错资源进行倒排拉链,从而减少相似度计算量。
为此,针对每个纠错资源,可分别将该纠错资源中的每个字转为对应的拼音,并根据该纠错资源中的各个字及拼音,生成该纠错资源的key,所述key可为kgram key,进而可建立key与对应的纠错资源之间的倒排索引。
这样,在根据纠错信息对各纠错资源进行筛选时,可首先将纠错信息中的每个字分别转为对应的拼音,之后,确定纠错信息中的各个字是否组成一个key,如果是,则将这个key对应的纠错资源作为筛选出的纠错资源,并确定纠错信息中的各个字对应的拼音是否组成一个key,如果是,则将这个key对应的纠错资源作为筛选出的纠错资源。
具体地,对于每个纠错资源,可分别按照以下方式确定出该纠错资源的key:
针对该纠错资源中的各个字,分别以连续i个term为最小粒度得到连续kgram集合,并针对该纠错资源中的各个字对应的拼音,分别以连续i个term为最小粒度得到连续kgram集合,i为正整数,且2≤i≤N,N为该纠错资源中包括的字数;
针对该纠错资源中的各个字,分别以j个term为最小粒度得到不连续的跳跃kgram集合,并针对该纠错资源中的各个字对应的拼音,分别以j个term为最小粒度得到不连续的跳跃kgram集合,j为正整数,且2≤j≤N-1。
将各连续kgram集合以及各跳跃kgram集合中的元素分别作为该纠错资源的key。
举例说明:
假设纠错资源为(日四又:曼);
以连续2个term为最小粒度得到的连续kgram集合为{日四,四又,又曼};
以连续3个term为最小粒度得到的连续kgram集合为{日四又,四又曼};
以连续4个term为最小粒度得到的连续kgram集合为{日四又曼};
以2个term为最小粒度得到的不连续的跳跃kgram集合为{日又,日曼,四曼};
以3个term为最小粒度得到的不连续的跳跃kgram集合为{日又曼,日四曼};
相应地,对于纠错资源的拼音(ri’si’you:man);
以连续2个term为最小粒度得到的连续kgram集合为{ri,si,si’you,you’man};
以连续3个term为最小粒度得到的连续kgram集合为{ri’si’you,si’you’man};
以连续4个term为最小粒度得到的连续kgram集合为{ri’si’you’man};
以2个term为最小粒度得到的不连续的跳跃kgram集合为{ri’you,ri’man,si’man};
以3个term为最小粒度得到的不连续的跳跃kgram集合为{ri’you’man,ri’si’man};
上述各连续kgram集合以及各跳跃kgram集合中的元素均为纠错资源(日四又:曼)的key,通过任一key拉取的list中均将包含纠错资源(日四又:曼),比如,“日四”是一个key,“四又曼”也是一个key,通过“日四”拉取的list中将包含纠错资源(日四又:曼),同样,通过“四又曼”拉取的list中也将包含纠错资源(日四又:曼)。
假设第二语音识别结果为“上面是四字下面又的那个曼”,提取到的纠错信息为[四又:曼],那么根据该纠错信息可组成两个key,分别为“四又曼”和“si’you’man”,将“四又曼”和“si’you’man”这两个key对应的纠错资源作为筛选出的纠错资源,其中包含了纠错资源(日四又:曼),也可能包含了其它纠错资源。
之后,可从筛选出的各纠错资源中进一步选出与纠错信息最为匹配的纠错资源,并利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错。
具体地,针对筛选出的每个纠错资源,可分别计算该纠错资源中的各个字的拼音所组成的字符串与纠错信息中的各个字的拼音所组成的字符串之间的带权编辑距离,进而将计算出的带权编辑距离最小的纠错资源作为最为匹配的纠错资源,利用最为匹配的纠错资源对第一语音识别结果进行纠错。
编辑距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数,许可的编辑操作包括将一个字符替换成另一个字符,增加(插入)一个字符,删除一个字符。一般来说,编辑距离越小,两个字符串的相似度越大。
本实施例中,在计算编辑距离时,对于增加和删除两种操作,编辑距离均可与传统的编辑距离度量方式相同,为1,而对于替换操作,可计算两个音节之间的发音距离,发音距离越近,产生的编辑距离增加量越小。
以上是以纠错资源的种类为拆字资源为例,对如何根据纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错进行说明,对于其它种类,本发明所述方案同样适用,只是具体实现上可能会有所不同。
比如,对于偏旁部首资源,针对每个纠错资源,可分别将其中的每个字转为对应的拼音,假设纠错信息为(单人旁:倒),同样地,可将纠错信息中的每个字分别转为对应的拼音,并根据拼音,查找与纠错信息完全匹配的纠错资源,如果只有一个,该纠错资源即为最为匹配的纠错资源,如果有多个,可按照预定方式,比如使用频率、上下文信息等进一步从中选出最为匹配的纠错资源。
另外,还可通过词语或声调等来进行纠错。
比如,用户输入的第一语音query为“李烁”,第一语音识别结果出现错误,识别为“李树”,那么用户可进一步输入第二语音query“第二个字是闪烁的烁”,从而来对第一语音识别结果进行纠错。
总之,采用上述实施例所述方案,可获取用户输入的第二语音识别结果,并根据第二语音识别结果进行纠错意图识别,如果确定用户具有纠错意图,则可从第二语音识别结果中提取出纠错信息,并根据纠错信息对各纠错资源进行筛选,从而利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,对于用户来说,可以像人与人之间对话时一样,描述错误或强调正解,相应地,可根据用户的描述对语音识别结果进行修正,从而实现了对于语音识别结果的准确纠错,即提高了纠错结果的准确性,并且,用户只需要通过语音的方式发出纠错指令即可,无需进行手动输入操作,从而对于用户来说降低了纠错难度。
另外,采用上述实施例所述方案,可通过将纠错信息等转为拼音来进行纠错资源的筛选,从而尽可能地确保了在第二语音识别结果出现错误时,仍能准确地对第一语音识别结果进行纠错。
再有,采用上述实施例所述方案,可为纠错资源通过kgram集合建立倒排索引,从而减少了相似度计算量,进而节省了计算资源。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图8为本发明所述基于人工智能的语音识别纠错装置实施例的组成结构示意图,如图8所示,包括:纠错意图识别单元801、纠错信息提取单元802以及纠错资源匹配单元803。
纠错意图识别单元801,用于获取用户输入的第二语音query的第二语音识别结果,并根据第二语音识别结果进行纠错意图识别。
纠错信息提取单元802,用于当纠错意图识别单元801识别出用户具有纠错意图时,从第二语音识别结果中提取出纠错信息。
纠错资源匹配单元803,用于根据纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,第一语音识别结果为在第二语音query之前输入的第一语音query的语音识别结果。
纠错意图识别单元801在接收到用户输入的第二语音query之后,可首先按照现有技术对其进行语音识别,从而得到第二语音识别结果。
之后,纠错意图识别单元801可根据第二语音识别结果进行纠错意图识别,即确定用户是否具有纠错意图,确定用户具有纠错意图之后,才会进行后续的纠错流程。
考虑到不同的用户可能会采用不同的表达方式,有的表达方式比较明确,可以比较容易地识别出用户的纠错意图,而有的表达方式则比较复杂,识别起来比较困难,因此,本实施例中提供了两种识别方式,即基于规则的纠错意图识别方式以及基于统计的纠错意图识别方式,两种方式可结合使用。
其中,基于规则的纠错意图识别方式可以是指预先生成M个纠错意图模板,M为正整数,具体取值可根据实际需要而定,通常大于一,这样,纠错意图识别单元801在获取到第二语音识别结果之后,可确定其是否与M个纠错意图模板中的至少一个相匹配,如果是,则可确定用户具有纠错意图。
如果第二语音识别结果与任一纠错意图模板均不匹配,那么可进一步采用基于统计的纠错意图识别方式对第二语音识别结果进行识别。
比如,纠错意图识别单元801可利用深度神经网络模型对第二语音识别结果进行意图分类,分类结果包括具有纠错意图以及不具有纠错意图。
深度神经网络模型的框架可如图6所示。
在确定用户具有纠错意图之后,并不能直接利用第二语音识别结果来对第一语音识别结果进行纠错,因为第二语音识别结果中不但包含纠错信息,还包含其它噪声信息,因此需要对有用的纠错信息进行提取,去除无关信息,才能完成后续的纠错处理。
根据在对第二语音识别结果进行纠错意图识别时所采用的识别方式的不同,从第二语音识别结果中提取纠错信息的方式也会不同。
其中,若纠错意图识别单元801利用纠错意图模板确定出用户具有纠错意图,那么纠错信息提取单元802可通过纠错意图模板的槽位信息确定出纠错信息。
若纠错意图识别单元801利用深度神经网络模型确定出用户具有纠错意图,那么纠错信息提取单元802可通过序列标注模型,分别对第二语音识别结果中的每个字进行标注,利用标注为属于纠错信息的字组成纠错信息。
序列标注模型的框架可如图7所示。
在获取到纠错信息之后,即可利用纠错信息来与各纠错资源进行匹配,以确定纠错信息所描述的对象,即用户通过描述想要找到的是哪个字。
纠错资源的种类很多,比如使用偏旁部首资源和拆字资源等,偏方部首资源即指(偏旁:字)的kv对,如(单人旁:倒),拆字资源即描述字的拆解信息及原字,如(人到:倒)。
以下以拆字资源为例,对纠错资源匹配单元803的具体工作方式进行说明。
相应地,如图8所示,本实施例所述装置中还可进一步包括:预处理单元800。
预处理单元800,用于当纠错资源的种类为拆字资源时,针对每个纠错资源,分别将纠错资源中的每个字转为对应的拼音,并根据纠错资源中的各个字及拼音,生成纠错资源的key;建立key与对应的纠错资源之间的倒排索引。
纠错资源匹配单元803可将纠错信息中的每个字分别转为对应的拼音;确定纠错信息中的各个字是否组成一个key,如果是,则将key对应的纠错资源作为筛选出的纠错资源;确定纠错信息中的各个字对应的拼音是否组成一个key,如果是,则将key对应的纠错资源作为筛选出的纠错资源。
具体地,对于每个纠错资源,预处理单元800可分别按照以下方式确定出该纠错资源的key:
针对纠错资源中的各个字,分别以连续i个term为最小粒度得到连续kgram集合,并针对纠错资源中的各个字对应的拼音,分别以连续i个term为最小粒度得到连续kgram集合,i为正整数,且2≤i≤N,N为纠错资源中包括的字数;
针对纠错资源中的各个字,分别以j个term为最小粒度得到不连续的跳跃kgram集合,并针对纠错资源中的各个字对应的拼音,分别以j个term为最小粒度得到不连续的跳跃kgram集合,j为正整数,且2≤j≤N-1。
将连续kgram集合以及跳跃kgram集合中的元素分别作为纠错资源的key。
之后,纠错资源匹配单元803可从筛选出的各纠错资源中进一步选出与纠错信息最为匹配的纠错资源,并利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错。
具体地,纠错资源匹配单元803可针对筛选出的每个纠错资源,分别计算纠错资源中的各个字的拼音所组成的字符串与纠错信息中的各个字的拼音所组成的字符串之间的带权编辑距离;将计算出的带权编辑距离最小的纠错资源作为最为匹配的纠错资源,利用最为匹配的纠错资源对第一语音识别结果进行纠错。
其中,在计算编辑距离时,对于增加和删除两种操作,编辑距离均为1,对于替换操作,可计算两个音节之间的发音距离,发音距离越近,产生的编辑距离增加量越小。
图8所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
图9示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图9显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如
CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1所示实施例中的方法,即获取用户输入的第二语音query的第二语音识别结果,根据第二语音识别结果进行纠错意图识别,若确定用户具有纠错意图,则从第二语音识别结果中提取出纠错信息,根据纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,第一语音识别结果为在第二语音query之前输入的第一语音query的语音识别结果。
具体实现请参照前述各实施例中的相关说明,不再赘述。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (16)
1.一种基于人工智能的语音识别纠错方法,其特征在于,包括:
获取用户输入的第二语音query的第二语音识别结果;
根据所述第二语音识别结果进行纠错意图识别;
若确定用户具有纠错意图,则从所述第二语音识别结果中提取出纠错信息;
根据所述纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,所述第一语音识别结果为在所述第二语音query之前输入的第一语音query的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述第二语音识别结果进行纠错意图识别包括:
确定所述第二语音识别结果是否与预先设定的M个纠错意图模板中的至少一个相匹配,M为正整数;
若是,则确定用户具有纠错意图;
若否,则利用深度神经网络模型对所述第二语音识别结果进行意图分类,分类结果包括具有纠错意图以及不具有纠错意图。
3.根据权利要求2所述的方法,其特征在于,
所述从所述第二语音识别结果中提取出纠错信息包括:
若利用所述纠错意图模板确定出用户具有纠错意图,则通过所述纠错意图模板的槽位信息确定出所述纠错信息;
若利用所述深度神经网络模型确定出用户具有纠错意图,则通过序列标注模型,分别对所述第二语音识别结果中的每个字进行标注,利用标注为属于纠错信息的字组成所述纠错信息。
4.根据权利要求1所述的方法,其特征在于,
当纠错资源的种类为拆字资源时,该方法进一步包括:
针对每个纠错资源,分别将所述纠错资源中的每个字转为对应的拼音,并根据所述纠错资源中的各个字及拼音,生成所述纠错资源的key;
建立key与对应的纠错资源之间的倒排索引;
所述根据所述纠错信息对各纠错资源进行筛选包括:
将所述纠错信息中的每个字分别转为对应的拼音;
确定所述纠错信息中的各个字是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源;
确定所述纠错信息中的各个字对应的拼音是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源。
5.根据权利要求4所述的方法,其特征在于,
所述生成所述纠错资源的key包括:
针对所述纠错资源中的各个字,分别以连续i个term为最小粒度得到连续kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以连续i个term为最小粒度得到连续kgram集合,i为正整数,且2≤i≤N,N为所述纠错资源中包括的字数;
针对所述纠错资源中的各个字,分别以j个term为最小粒度得到不连续的跳跃kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以j个term为最小粒度得到不连续的跳跃kgram集合,j为正整数,且2≤j≤N-1。
将所述连续kgram集合以及所述跳跃kgram集合中的元素分别作为所述纠错资源的key。
6.根据权利要求4所述的方法,其特征在于,
所述利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错包括:
针对筛选出的每个纠错资源,分别计算所述纠错资源中的各个字的拼音所组成的字符串与所述纠错信息中的各个字的拼音所组成的字符串之间的带权编辑距离;
将计算出的带权编辑距离最小的纠错资源作为所述最为匹配的纠错资源,利用所述最为匹配的纠错资源对所述第一语音识别结果进行纠错。
7.根据权利要求6所述的方法,其特征在于,
所述计算带权编辑距离包括:
在计算编辑距离时,对于增加和删除两种操作,编辑距离均为1,对于替换操作,计算两个音节之间的发音距离,发音距离越近,产生的编辑距离增加量越小。
8.一种基于人工智能的语音识别纠错装置,其特征在于,包括:纠错意图识别单元、纠错信息提取单元以及纠错资源匹配单元;
所述纠错意图识别单元,用于获取用户输入的第二语音query的第二语音识别结果,并根据所述第二语音识别结果进行纠错意图识别;
所述纠错信息提取单元,用于当所述纠错意图识别单元识别出用户具有纠错意图时,从所述第二语音识别结果中提取出纠错信息;
所述纠错资源匹配单元,用于根据所述纠错信息对各纠错资源进行筛选,利用选出的最为匹配的纠错资源对第一语音识别结果进行纠错,所述第一语音识别结果为在所述第二语音query之前输入的第一语音query的语音识别结果。
9.根据权利要求8所述的装置,其特征在于,
所述纠错意图识别单元确定所述第二语音识别结果是否与预先设定的M个纠错意图模板中的至少一个相匹配,M为正整数;若是,则确定用户具有纠错意图;若否,则利用深度神经网络模型对所述第二语音识别结果进行意图分类,分类结果包括具有纠错意图以及不具有纠错意图。
10.根据权利要求9所述的装置,其特征在于,
若所述纠错意图识别单元利用所述纠错意图模板确定出用户具有纠错意图,则所述纠错信息提取单元通过所述纠错意图模板的槽位信息确定出所述纠错信息;
若所述纠错意图识别单元利用所述深度神经网络模型确定出用户具有纠错意图,则所述纠错信息提取单元通过序列标注模型,分别对所述第二语音识别结果中的每个字进行标注,利用标注为属于纠错信息的字组成所述纠错信息。
11.根据权利要求8所述的装置,其特征在于,
所述装置中进一步包括:预处理单元;
所述预处理单元,用于当纠错资源的种类为拆字资源时,针对每个纠错资源,分别将所述纠错资源中的每个字转为对应的拼音,并根据所述纠错资源中的各个字及拼音,生成所述纠错资源的key;建立key与对应的纠错资源之间的倒排索引;
所述纠错资源匹配单元将所述纠错信息中的每个字分别转为对应的拼音;确定所述纠错信息中的各个字是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源;确定所述纠错信息中的各个字对应的拼音是否组成一个key,如果是,则将所述key对应的纠错资源作为筛选出的纠错资源。
12.根据权利要求11所述的装置,其特征在于,
所述预处理单元针对所述纠错资源中的各个字,分别以连续i个term为最小粒度得到连续kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以连续i个term为最小粒度得到连续kgram集合,i为正整数,且2≤i≤N,N为所述纠错资源中包括的字数;
针对所述纠错资源中的各个字,分别以j个term为最小粒度得到不连续的跳跃kgram集合,并针对所述纠错资源中的各个字对应的拼音,分别以j个term为最小粒度得到不连续的跳跃kgram集合,j为正整数,且2≤j≤N-1。
将所述连续kgram集合以及所述跳跃kgram集合中的元素分别作为所述纠错资源的key。
13.根据权利要求11所述的装置,其特征在于,
所述纠错资源匹配单元针对筛选出的每个纠错资源,分别计算所述纠错资源中的各个字的拼音所组成的字符串与所述纠错信息中的各个字的拼音所组成的字符串之间的带权编辑距离;将计算出的带权编辑距离最小的纠错资源作为所述最为匹配的纠错资源,利用所述最为匹配的纠错资源对所述第一语音识别结果进行纠错。
14.根据权利要求13所述的装置,其特征在于,
所述纠错资源匹配单元在计算编辑距离时,对于增加和删除两种操作,编辑距离均为1,对于替换操作,计算两个音节之间的发音距离,发音距离越近,产生的编辑距离增加量越小。
15.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710367038.6A CN107220235B (zh) | 2017-05-23 | 2017-05-23 | 基于人工智能的语音识别纠错方法、装置及存储介质 |
US15/986,273 US10699696B2 (en) | 2017-05-23 | 2018-05-22 | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710367038.6A CN107220235B (zh) | 2017-05-23 | 2017-05-23 | 基于人工智能的语音识别纠错方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107220235A true CN107220235A (zh) | 2017-09-29 |
CN107220235B CN107220235B (zh) | 2021-01-22 |
Family
ID=59944384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710367038.6A Active CN107220235B (zh) | 2017-05-23 | 2017-05-23 | 基于人工智能的语音识别纠错方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10699696B2 (zh) |
CN (1) | CN107220235B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108509416A (zh) * | 2018-03-20 | 2018-09-07 | 京东方科技集团股份有限公司 | 句意识别方法及装置、设备和存储介质 |
CN109063221A (zh) * | 2018-11-02 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于混合策略的查询意图识别方法和装置 |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN110033769A (zh) * | 2019-04-23 | 2019-07-19 | 努比亚技术有限公司 | 一种录入语音处理方法、终端及计算机可读存储介质 |
CN110168535A (zh) * | 2017-10-31 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
CN110399608A (zh) * | 2019-06-04 | 2019-11-01 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于拼音的对话系统文本纠错系统及方法 |
CN111091120A (zh) * | 2019-07-02 | 2020-05-01 | 广东小天才科技有限公司 | 一种听写批改方法及电子设备 |
CN111241814A (zh) * | 2019-12-31 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
CN111243593A (zh) * | 2018-11-09 | 2020-06-05 | 奇酷互联网络科技(深圳)有限公司 | 语音识别纠错方法、移动终端和计算机可读存储介质 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
CN112466295A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 语言模型训练方法、应用方法、装置、设备及存储介质 |
CN113438492A (zh) * | 2021-06-02 | 2021-09-24 | 广州方硅信息技术有限公司 | 直播中的题目生成方法、系统、计算机设备及存储介质 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220380A (zh) * | 2017-06-27 | 2017-09-29 | 北京百度网讯科技有限公司 | 基于人工智能的问答推荐方法、装置和计算机设备 |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话系统 |
CN111462748B (zh) * | 2019-01-22 | 2023-09-26 | 北京猎户星空科技有限公司 | 语音识别处理方法、装置、电子设备及存储介质 |
CN109960728B (zh) * | 2019-03-11 | 2021-01-22 | 北京市科学技术情报研究所(北京市科学技术信息中心) | 一种开放域会议信息命名实体识别方法及系统 |
CN109922371B (zh) * | 2019-03-11 | 2021-07-09 | 海信视像科技股份有限公司 | 自然语言处理方法、设备及存储介质 |
CN110147550A (zh) * | 2019-04-23 | 2019-08-20 | 南京邮电大学 | 基于神经网络的发音特征融合方法 |
KR20210016975A (ko) * | 2019-08-06 | 2021-02-17 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
US11257484B2 (en) * | 2019-08-21 | 2022-02-22 | Microsoft Technology Licensing, Llc | Data-driven and rule-based speech recognition output enhancement |
US11263198B2 (en) | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
EP3790000A1 (en) * | 2019-09-05 | 2021-03-10 | SoundHound, Inc. | System and method for detection and correction of a speech query |
US11935521B2 (en) * | 2019-09-12 | 2024-03-19 | Oracle International Corporation | Real-time feedback for efficient dialog processing |
CN111128185B (zh) * | 2019-12-25 | 2022-10-21 | 北京声智科技有限公司 | 一种语音转文字的方法、装置、终端及存储介质 |
CN112380333B (zh) * | 2020-12-04 | 2024-03-29 | 北京中科凡语科技有限公司 | 用于问答系统的基于拼音概率的文本纠错方法 |
CN112669840A (zh) * | 2020-12-17 | 2021-04-16 | 北京梧桐车联科技有限责任公司 | 一种语音处理方法、装置、设备及存储介质 |
CN112862507A (zh) * | 2021-03-15 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 网约车司乘纠纷的制止方法、装置、设备、介质以及产品 |
CN113158649B (zh) * | 2021-05-27 | 2023-04-21 | 广州广电运通智能科技有限公司 | 一种用于地铁站点名识别的纠错方法、设备、介质及产品 |
CN113642316B (zh) * | 2021-07-28 | 2023-11-28 | 平安国际智慧城市科技股份有限公司 | 中文文本纠错方法、装置、电子设备及存储介质 |
CN113822049B (zh) * | 2021-09-29 | 2023-08-25 | 平安银行股份有限公司 | 基于人工智能的地址审核方法、装置、设备及存储介质 |
WO2023146416A1 (en) * | 2022-01-28 | 2023-08-03 | John Chu | Character retrieval method and apparatus, electronic device and medium |
US11657803B1 (en) * | 2022-11-02 | 2023-05-23 | Actionpower Corp. | Method for speech recognition by using feedback information |
CN116127953B (zh) * | 2023-04-18 | 2023-07-25 | 之江实验室 | 一种基于对比学习的中文拼写纠错方法、装置和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103000176A (zh) * | 2012-12-28 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN103021412A (zh) * | 2012-12-28 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN105206260A (zh) * | 2015-08-31 | 2015-12-30 | 努比亚技术有限公司 | 一种终端语音播报方法、装置及终端语音操作方法 |
CN106098060A (zh) * | 2016-05-19 | 2016-11-09 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101394253B1 (ko) * | 2012-05-16 | 2014-05-13 | 광주과학기술원 | 음성 인식 오류 보정 장치 |
KR101364774B1 (ko) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
-
2017
- 2017-05-23 CN CN201710367038.6A patent/CN107220235B/zh active Active
-
2018
- 2018-05-22 US US15/986,273 patent/US10699696B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103000176A (zh) * | 2012-12-28 | 2013-03-27 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN103021412A (zh) * | 2012-12-28 | 2013-04-03 | 安徽科大讯飞信息科技股份有限公司 | 语音识别方法和系统 |
CN105206260A (zh) * | 2015-08-31 | 2015-12-30 | 努比亚技术有限公司 | 一种终端语音播报方法、装置及终端语音操作方法 |
CN106098060A (zh) * | 2016-05-19 | 2016-11-09 | 北京搜狗科技发展有限公司 | 语音的纠错处理方法和装置、用于语音的纠错处理的装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168535A (zh) * | 2017-10-31 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
US11645517B2 (en) | 2017-10-31 | 2023-05-09 | Tencent Technology (Shenzhen) Company Limited | Information processing method and terminal, and computer storage medium |
CN110168535B (zh) * | 2017-10-31 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
CN109992765A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 文本纠错方法及装置、存储介质和电子设备 |
CN108304385A (zh) * | 2018-02-09 | 2018-07-20 | 叶伟 | 一种语音识别文本纠错方法及装置 |
CN108509416A (zh) * | 2018-03-20 | 2018-09-07 | 京东方科技集团股份有限公司 | 句意识别方法及装置、设备和存储介质 |
CN109063221A (zh) * | 2018-11-02 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于混合策略的查询意图识别方法和装置 |
CN111243593A (zh) * | 2018-11-09 | 2020-06-05 | 奇酷互联网络科技(深圳)有限公司 | 语音识别纠错方法、移动终端和计算机可读存储介质 |
CN110033769A (zh) * | 2019-04-23 | 2019-07-19 | 努比亚技术有限公司 | 一种录入语音处理方法、终端及计算机可读存储介质 |
CN110399608B (zh) * | 2019-06-04 | 2023-04-25 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于拼音的对话系统文本纠错系统及方法 |
CN110399608A (zh) * | 2019-06-04 | 2019-11-01 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于拼音的对话系统文本纠错系统及方法 |
CN111091120A (zh) * | 2019-07-02 | 2020-05-01 | 广东小天才科技有限公司 | 一种听写批改方法及电子设备 |
CN111091120B (zh) * | 2019-07-02 | 2023-05-26 | 广东小天才科技有限公司 | 一种听写批改方法及电子设备 |
CN111241814A (zh) * | 2019-12-31 | 2020-06-05 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
CN111241814B (zh) * | 2019-12-31 | 2023-04-28 | 中移(杭州)信息技术有限公司 | 语音识别文本的纠错方法、装置、电子设备及存储介质 |
CN111931490A (zh) * | 2020-09-27 | 2020-11-13 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
CN112466295A (zh) * | 2020-11-24 | 2021-03-09 | 北京百度网讯科技有限公司 | 语言模型训练方法、应用方法、装置、设备及存储介质 |
CN113438492A (zh) * | 2021-06-02 | 2021-09-24 | 广州方硅信息技术有限公司 | 直播中的题目生成方法、系统、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107220235B (zh) | 2021-01-22 |
US20180342233A1 (en) | 2018-11-29 |
US10699696B2 (en) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235A (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN108288468B (zh) | 语音识别方法及装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN107193805A (zh) | 基于人工智能的文章价值评估方法、装置及存储介质 | |
CN108091328A (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN108847241A (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN107291828A (zh) | 基于人工智能的口语查询解析方法、装置及存储介质 | |
CN107301170A (zh) | 基于人工智能的切分语句的方法和装置 | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
CN109523989A (zh) | 语音合成方法、语音合成装置、存储介质及电子设备 | |
CN107240395A (zh) | 一种声学模型训练方法和装置、计算机设备、存储介质 | |
CN107003998A (zh) | 任意语言资产和资源的本地化复杂度 | |
CN108399923A (zh) | 多人发言中发言人识别方法以及装置 | |
CN110197658A (zh) | 语音处理方法、装置以及电子设备 | |
CN110377905A (zh) | 语句的语义表示处理方法及装置、计算机设备及可读介质 | |
CN109992765A (zh) | 文本纠错方法及装置、存储介质和电子设备 | |
CN107544726A (zh) | 基于人工智能的语音识别结果纠错方法、装置及存储介质 | |
CN110444229A (zh) | 基于语音识别的通信服务方法、装置、计算机设备及存储介质 | |
Baur et al. | eXplainable cooperative machine learning with NOVA | |
CN113420556B (zh) | 基于多模态信号的情感识别方法、装置、设备及存储介质 | |
CN110473571A (zh) | 基于短视频语音的情感识别方法和装置 | |
CN111144102A (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN110032736A (zh) | 一种文本分析方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |