CN107750378A - 用于语音识别结果后处理的方法和系统 - Google Patents
用于语音识别结果后处理的方法和系统 Download PDFInfo
- Publication number
- CN107750378A CN107750378A CN201680024074.6A CN201680024074A CN107750378A CN 107750378 A CN107750378 A CN 107750378A CN 201680024074 A CN201680024074 A CN 201680024074A CN 107750378 A CN107750378 A CN 107750378A
- Authority
- CN
- China
- Prior art keywords
- result
- post
- effective
- step iii
- validation test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本发明涉及一种用于语音识别结果(100)的后处理的方法,所述结果(100)包括开头(111)、结尾(112)和多个元素(113),所述方法包括以下步骤:读取所述结果(100);选定其中一个元素(113);确定其是否有效;重复选择元素(113)并确定其是否有效的步骤;并且如果至少一个元素(113)已被确定为有效,则通过重新使用至少一个这样的有效元素(113)来确定后处理解决方案(200)。本发明的方法的特征在于:所述元素(113)以相继的方式从结果(100)的所述结尾(112)至所述开头(111)中选定。
Description
技术领域
根据第一方面,本发明涉及一种对语音识别结果进行后处理的方法。根据第二方面,本发明涉及一种对语音识别结果进行后处理的系统(或设备)。根据第三方面,本发明涉及一种程序。根据第四方面,本发明涉及一种包括指令的存储介质(例如:USB记忆棒、CD-ROM或DVD光盘)。
背景技术
语音识别引擎允许从语音或音频信息生成通常为可由机器处理的文本或代码形式的结果。该项技术目前被广泛使用,并且被认为是非常有用的文献US 6754629B1中特别教导了语音识别的各种应用。
为改进语音识别引擎所提供结果而进行的研究一直存在。例如,公开文献US2014/0278418A1提出利用说话者的身份来相应适配语音识别引擎的语音识别算法。该算法的这种适配在相同的语音识别引擎内进行,例如,通过修改其语音字典以考虑说话者或用户说话的方式。
语音识别结果通常包括由静音分割的一系列元素,例如单词。该结果由开头和结尾表征,并且其元素在时间上分布在该开头和结结尾之间。
语音识别引擎所提供的结果可以用于例如将信息输入到计算机系统中,例如,商品编号或要执行的任何指令。该结果有时会经过一个或多个后处理操作,而不是原始的语音识别结果,以便从中提取后处理解决方案。例如,如果知道有用信息不包括多于五个元素(例如,一个元素为一个单词),则可以从开头到结尾浏览语音识别结果并且保留例如被认为是有效的前五个元素。实际上,知道有用信息(例如,代码)不包括超过五个单词(例如,五个数字)),则有时将决定仅保留来自语音识别结果的前五个有效元素。任何额外的后续元素相对于预期信息均被认为是冗余的,因此被认为是无效的。
这样的后处理方法并不总是提供可接受的解决方案。因此,发明人已经发现,在某些情况下,这种方法可能导致产生错误的后处理解决方案,即,与说话者实际提供的信息不匹配的解决方案。因此,这种后处理方法是不够可靠的。
发明内容
根据第一方面,本发明的目的之一是提供一种对语音识别结果进行后处理的更可靠的方法。为此,发明人提出了以下方法。用于对语音识别结果进行后处理的方法,所述结果包括开头、结尾以及分布在所述开头和所述结尾之间的多个元素,所述后处理方法包括以下步骤:
i)接收所述结果;
ii)孤立(或考虑、选定)未经过步骤iii.a)的验证测试的所述多个元素的元素;
iii)然后,
a)如果在步骤ii)中一元素已被孤立,则通过使用验证测试来确定所述元素是否有效;
b.否则,直接行进至步骤v);
iv)重复步骤ii)和iii)(按照以下顺序:步骤ii),然后步骤iii));
v)如果至少一个元素在步骤iii.a)中被确定为有效,则使用(或重新使用)在步骤iii.a)确定为有效的至少一个元素来确定后处理解决方案;
其特征在于:在步骤ii)中孤立的每个元素以相继的方式(或以连续的方式,即不跳过元素)从结果的所述结尾至所述开头中选定。
利用本发明的方法,从结尾至开头浏览语音识别结果。事实上,发明人已经发现,向语音识别引擎发出信息的人在开头而不是结尾时具有更大的犹豫和/或犯错倾向。通过从结尾而不是从开头开始处理语音识别结果,本发明的方法有利于获得正确信息的机会更大的结果部分。最后,这种方法更可靠。
考虑下面的示例。假设要读取的代码是:4531。话务员员在阅读代码时说:“5,4,嗯,4,5,3,1”。通常,语音识别引擎将提供“5,4,1,4,5,3,1”或“5,4,4,5,3,1”的结果。在第一种情况下,“嗯”与“1”相关联,在第二种情况下,引擎不为“嗯”提供结果。假设后处理系统(其可以被集成到语音识别引擎中)知道结果不得超过四个好的元素(在这种情况下为数字),从结果的开头至结尾对结果进行浏览的后处理系统将提供以下后处理解决方案:5414或5445(而不是4531)。本发明的方法将提供4531,即正确的解决方案。
本发明人已经指出,以这个示例说明的情况,即话务员在记录序列的开头时比结尾更容易犹豫或犯错的事实,比其它方式更加的常见。因此,总的来说,本发明的方法更可靠,因为它提供较少的错误结果。通过本发明的方法获得正确的后处理解决方案的机会也更高。因此,其也更有效率。
本发明的方法具有其它优点。其容易实施。具体地,其无需许多实施步骤。实施步骤也很简单。这些方面便于将本发明的方法集成到例如使用语音识别结果的计算机系统中或者集成到例如语音识别引擎上。
本发明的后处理方法可以看作是对语音识别结果进行滤波的方法。实际上,无效元素不用于确定后处理解决方案。
语音识别结果通常是可由机器读取的文本或代码的形式。结果的元素表示来自结果的信息项,其由沿与结果相关联的时间标度t的两个不同时刻所限定,并且不被认为是静音或背景噪声。通常,元素为一组音素。音素是本领域技术人员的公知常识。优选地,元素为单词。元素也可以是一个组单词或单词的组合。单词组合的一示例是“取消操作(canceloperation)”。
在本发明的范围内,可以有不同类型的语音识别结果。根据第一可能的示例,语音识别结果表示根据由用户或说话者所说的信息由语音识别引擎提供的假设(hypothesis)。通常,语音识别引擎根据用户所说的信息提供多个(例如,三个)假设。在这种情况下,其还通常为每个假设提供分数(可以根据语言识别引擎的类型的功能以各种单位表示)。然后,优选地,本发明的后处理方法包括预先步骤:仅选择具有大于或等于预定分数的分数的假设。例如,如果使用的语音识别引擎是Nuance的3200V3.14型号,则所述预定分数为4000。然后,上述步骤(步骤i)、ii)、iii)、iv)、v))仅应用于具有大于或等于所述预定分数的分数的结果。
根据另一可能的示例,语音识别结果为一解决方案,通常包括多个元素,所述多个元素从应用于由语音识别引擎提供的一个或多个假设的一个或多个后处理操作获得。在后一示例中,语音识别结果因此源于语音识别模块和源于用于对由语音识别引擎提供的一个或多个假设进行后处理的一个或多个模块。
如果在步骤iii.a)中没有元素被确定为有效,则步骤v)优选地包括提供另一后处理解决方案的子步骤。优选地,该另一后处理解决方案对应于不包括所述结果的元素的后处理解决方案。在该优选的变型中,当在步骤iii.a)中没有元素被确定为有效时,后处理解决方案的各种示例为:空消息,即不包括元素(例如,没有单词),表示后处理失败的信息。根据另一可能的变型,如果在步骤iii.a)中没有元素被确定为有效,则该另一后处理解决方案对应于语音识别结果(不对结果进行滤波)。
沿与结果相关联的时间标度t(例如,参见图1和图2),结果的开头在结果的结尾之前。
优选地,元素为单词。单词的示例为:一、二、车、雨伞。根据该优选的变型,本发明方法提供更好的结果。每个单词是经由使用字典的语音识别引擎根据用户说出的信息来确定的。语法规则可允许减少字典中可能单词的选择。
优选地,如果经过步骤iii.a)验证测试的元素未被确定为有效的,步骤iii.a)还包括直接行进至步骤v)的指令。根据该优选的变型,在步骤iii.a)中至少一个元素被确定为有效的后处理解决方案仅包括语音识别引擎的相继的有效元素。然后,该方法的可靠性进一步得到提高,因为只保留了一系列有效的相继元素。
优选地,本发明的方法还包括以下步骤:vi)确定步骤v)的所述后处理解决方案是否满足语法规则。通过使用语法规则,可进一步提高本发明方法的可靠性。具体地,可以更好地过滤异常结果。语法规则的一个示例为后处理解决方案所允许的一定数量的单词。例如,语法规则可以限定为:后处理解决方案必须含有3至6个单词。
优选地,当使用语法规则时,本发明的方法还包括以下步骤:
vii.
a.如果对步骤vi)的测试的响应为肯定的,则提供所述后处理解决方案;
b.否则,提供所述语音识别结果。
根据另一可能的变型,当使用语法规则时,本发明的方法包括以下步骤:
vii.
a.如果对步骤vi)的测试的响应为肯定的(即后处理解决方案满足语法规则),则提供所述后处理解决方案;
b.如果对步骤vi)的测试的响应为否定的(即,后处理解决方案不满足语法规则),则不提供后处理解决方案,或提供空信息,或提供表明不能确定令人满意的后处理解决方案的信息。
可以为步骤iii.a)设计各种验证测试。例如,步骤iii.a)的验证测试可以包括步骤:如果元素的时长大于或等于下限阈值时长,则认为元素是有效的。
结果的每个元素具有通常由语音识别引擎提供的对应的时长或时间间隔。利用该优选实施例,可以更有效地避免短时长元素,例如,可能源于机器的杂散噪声。
根据另一示例,步骤iii.a)的验证测试包括步骤:如果元素的时长小于或等于上限阈值时长,则认为元素是有效的。利用该优选实施例,可以更有效地避免长时长的元素,例如,说话者的犹豫,例如说“嗯”,但是语音识别引擎为此提供单词“二”(例如,因为它们所使用的预定义语法规则规定只提供数字)。通过使用该优选的实施例,将更容易地消除该无效单词“二”。
根据另一示例,步骤iii.a)的所述验证测试包括步骤:如果元素的置信因数大于或等于最小置信因数,则认为元素是有效的。
在这种情况下,该方法的可靠性将得到进一步提高。
根据另一示例,步骤iii.a)的所述验证测试包括步骤:如果将元素与另一紧邻元素朝向结果的所述结尾分隔的时间间隔大于或等于最小时间间隔,则认为元素是有效的。
通过这个优选的变型,可以更有效地排除任何不是由人产生而是由机器产生的元素,例如,其在时间上非常的接近。
优选地,步骤iii.a)的所述验证测试包括步骤:如果将元素与另一紧邻元素朝向结果的所述结尾分隔的时间间隔小于或等于最大时间间隔,则认为元素是有效的。通过该变型,可以更有效地排除任何在时间上彼此相距较远的元素。
根据本发明方法的另一个可能的变型,步骤iii.a)的所述验证测试包括步骤:如果将元素与另一紧邻元素朝向结果的所述开头分隔的时间间隔大于最小(时间)间隔,则认为元素是有效的。
根据本发明方法的另一个可能的变型,步骤iii.a)的所述验证测试包括步骤:如果将元素与另一紧邻元素朝向结果的所述开头分隔的时间间隔小于最大(时间)间隔,则认为元素是有效的。
优选地,步骤iii.a)的所述验证测试包括步骤:如果与该元素相关联的统计信息在一近程的范围内符合对应该同一元素和给定说话者所预定义的统计信息,则认为针对给定说话者的所述结果的元素是有效的。
与所述元素相关联的统计信息(或语音识别统计信息)通常由语音识别引擎提供。与元素相关联的统计信息的示例为:元素的时长、元素的置信因数。其它的示例是可能的。可以针对不同的元素和不同的说话者(或话务员)记录这样的统计信息,例如,在预先登记步骤期间。如果所记录的与由语音识别引擎提供的结果相对应的语句的说话者的身份已知,则可以将与所述结果的各个元素相关联的统计信息与这些元素和该说话者的预定义统计信息进行比较。在这种情况下,本发明的方法因此优选地包括附加步骤:确定说话者的身份。
通过该优选的实施例,可以进一步提高可靠性和效率,因为可以考虑说话者的声音特征。
优选地,在步骤iii.a)中确定为有效的所有元素被重新用于确定步骤v)的所述后处理解决方案。
本发明人还提出了一种用于从第一和第二语音识别结果提供优化解决方案的优化方法,包括以下步骤:
A.将上述后处理方法中的任何一种应用于所述第一结果;
B.将上述后处理方法中的任何一种应用于所述第二结果;
C.根据一个或多个元素确定所述优化解决方案,该一个或多个元素属于所述第一和第二结果的一个或多个结果并且已经通过步骤iii.a)的验证步骤确定为有效。
根据第二方面,本发明涉及一种用于对语音识别结果进行后处理的系统(或设备),所述结果包括开头、结尾以及分布在所述开头和所述结尾之间的多个元素,所述后处理系统包括以下步骤:
-获取装置,用于读取所述结果;
-处理装置:
+用于反复执行以下步骤:
·对先前未经过所述处理装置所要求的验证测试的所述多个元素的元素进行孤立;
·使用验证测试确定被孤立元素是否有效;并且
+用于通过重新使用确定为有效的至少一个元素来确定后处理解决方案;
其特征在于:由所述处理装置孤立的每个元素以相继的方式从结果的所述结尾至所述开头中选定。
与根据本发明第一方面的方法相关的优点适用于本发明的系统,比照适用。因此,具体地,利用本发明的系统可以具有更可靠的后处理解决方案。还可以具有一个更有效的系统来提供正确的后处理解决方案。针对根据本发明的第一方面的方法所呈现的各个实施例可以适用于本发明的系统,比照适用。
根据第三方面,本发明涉及一种用于处理语音识别结果的程序(优选为计算机程序),所述结果包括开头、结尾以及分布在所述开头和所述结尾之间的多个元素,所述程序包括代码以使设备(例如,语音识别引擎、能够与语音识别引擎通信的计算机)执行以下步骤:
i)读取语音识别结果;
ii)孤立未经过步骤iii.a)的验证测试的所述多个元素的元素;
iii)然后,
a.如果在步骤ii)中一元素已被孤立,则通过使用验证测试来确定所述元素是否有效;
b.否则,直接行进至步骤v);
iv)重复步骤ii)和iii);
v)如果至少一个元素在步骤iii.a)中被确定为有效,则通过重新使用在步骤iii.a)确定为有效的至少一个元素来确定后处理解决方案;
其特征在于:在步骤ii)中孤立的每个元素以相继的方式从结果的所述结尾至结果的所述开头中选定。
与根据本发明第一和第二方面的方法和系统相关的优点适用于本发明的程序,比照适用。因此,具体地,利用本发明的程序可以具有更可靠的后处理解决方案。还可以具有一个更有效的程序来确定正确的后处理解决方案。针对根据本发明的第一方面的方法所呈现的各个实施例可以适用于本发明的程序,比照适用。
如果在步骤iii.a)中没有元素被确定为有效,则步骤v)优选地包括以下子步骤:确定后处理解决方案,该后处理解决方案不包括所述结果的元素。在该优选的变型中,当在步骤iii.a)中没有元素被确定为有效时,后处理解决方案的各种示例为:空消息,即不包括元素(例如,没有单词),表明后处理失败的信息,结果由语音识别引擎提供。
根据第四方面,本发明涉及一种存储介质(或记录介质),其可以连接至设备(例如,语音识别引擎,能够与语音识别引擎通信的计算机)并且包括指令,其中,当指令被读取时,使所述设备处理语音识别结果,所述结果包括开头、结尾以及分布在所述开头和所述结尾之间的多个元素,所述指令确保所述设备执行以下步骤:
i)读取所述结果;
ii)孤立未经过步骤iii.a)的验证测试的所述多个元素的元素;
iii)然后,
a.如果在步骤ii)中一元素已被孤立,则通过使用验证测试来确定所述元素是否有效;
b.否则,直接行进至步骤v);
iv)重复步骤ii)和iii);
v)如果至少一个元素在步骤iii.a)中被确定为有效,则通过重新使用在步骤iii.a)确定为有效的至少一个元素来确定后处理解决方案;
其特征在于:在步骤ii)中孤立的每个元素以相继的方式从结果的所述结尾至结果的所述开头中选定。
与根据本发明第一和第二方面的方法和系统相关的优点适用于本发明的存储介质,比照适用。因此,具体地,可以具有更可靠的后处理解决方案。还可以更有效地确定正确的后处理解决方案。针对根据本发明的第一方面的方法所呈现的各个实施例可以适用于本发明的存储介质,比照适用。
如果在步骤iii.a)中没有元素被确定为有效,则步骤v)优选地包括以下子步骤:确定后处理解决方案,该后处理解决方案不包括所述结果的元素。在该优选的变型中,当在步骤iii.a)中没有元素被确定为有效时,后处理解决方案的各种示例为:空消息,即不包括元素(例如,没有单词),表明后处理失败的信息,结果由语音识别引擎提供。
附图说明
本发明的这些方面和其它方面将在参照附图对本发明的特定实施例的详细描述中变得显而易见,其中:
图1示意性地示出了说话者说出信息,该信息由语音识别引擎进行处理;
图2示意性地示出了语音识别结果的示例;
图3示意性地示出了本发明方法的优选变型的各个步骤及其相互作用;
图4示意性地示出了根据本发明的后处理系统的示例。
附图的图纸不是按比例绘制的。通常,在附图中用相似的附图标记表示相似的元素。附图中的附图标记的存在不能被认为是限制性的,即使这些数字在权利要求中标示。
具体实施方式
图1示出了说话者40(用户40)对麦克风5说出信息50。然后,该信息50被传送至本领域技术人员公知的语音识别引擎10。市场上有各种型号和各种品牌。通常,麦克风5形成为语音识别引擎10的一部分。该语音识别引擎例如使用基于隐马尔可夫模型(HMM)的语音识别算法处理信息50。这导致语音识别结果100。结果100的一示例是由语音识别引擎10生成的假设。结果100的另一示例是从语音识别算法和后处理操作获得的解决方案,其被应用于例如由语音识别引擎10生成的一个或多个假设。用于提供这种解决方案的后处理模块可以形成为语音识别引擎10的一部分。结果100通常是文本的形式,其可以由例如机器、计算机或处理单元来解码。结果100由开头111和结尾112表征。开头111沿时间标度t在所述结尾112之前。结果100包括在时间上分布在开头111和结尾112之间的多个元素113。元素113表示沿时间标度t在两个不同时刻之间包含的信息项。通常,各个元素113由表示静音、背景噪声或时间间隔的结果100的部分分开,在该部分期间,语音识别引擎10不识别元素113(例如,单词)。
本发明的方法涉及语音识别结果100的后处理。换句话说,本发明方法的输入对应于从应用于由说话者40(或用户40)所说出的信息50的语音识别算法获得的结果100。图2示出语音识别结果100。在其开头111与其结尾112之间,结果100包括多个元素113,在图2所示的情况下为7个元素。在该图中,元素113被示出为时间t(横坐标)的函数。纵坐标C代表置信水平或置信因数。该概念是本领域技术人员的公知常识。其通常涉及与每个元素113相关联的属性或统计信息,并且其通常由语音识别引擎10提供。通常,置信因数表示由语音识别引擎10从语音元素确定的语音识别结果的元素是正确的元素的概率。该属性是本领域技术人员的公知常识。语音识别引擎的一个例子是Nuance的3200V3.14型号。在这种情况下,置信因数在0和10000之间变化。值0表示置信因数的最小值(语音识别结果的元素是正确元素的概率非常低),而10000表示置信因数的最大值(语音识别结果的元素是正确元素的概率非常高)。在图2中,元素113的高度表示其置信因数160的高低。
本发明方法的第一步,步骤i)包括接收结果100。然后,从结尾112开始,该方法将孤立第一元素113。因此,本发明的方法将首先沿时间标度t将结果的最后一个元素113孤立。一旦选定该元素113,该方法通过使用验证测试来确定其是否有效。验证测试的各种示例将在下文呈现。然后,该方法对从结尾112开始的第二元素113进行,依此类推。根据本发明方法的可能版本,从而以图2的顶部所示箭头的方向对结果100的所有元素113进行浏览,并且当沿时间标度t的第一元素113被确定为有效或无效时停止。根据另一个优选的变型,一旦检测到无效元素113,则停止以图2的顶部的箭头的方向对结果100的元素113进行的浏览。然后,通过重新使用被确定为有效的元素113,优选地通过再使用已被确定为有效的所有元素113来确定后处理解决方案200。当确定后处理解决方案200时,必须保持沿时间标度t选定的各个元素113的正确顺序。因此,考虑到这个事实是重要的:由本发明的方法处理的第一元素113表示信息100的最后一个元素113,因此,如果其被确定为有效,则在后处理解决方案200中其必须处于最后的位置。通常,语音识别引擎10提供与信息100的各个元素113关联的时间信息,例如每个元素113的开头和结尾。该关联的时间信息可用于以正确的顺序,即以递增的时间顺序对在步骤iii.a)中被确定为有效的元素进行分类。
优选地,本发明的方法包括步骤:验证后处理解决方案200满足语法规则。语法规则的一个示例是多个单词。如果后处理解决方案200不满足这样的语法规则,则可以做出不提供所述解决方案的决定。在这种情况下,有时优选提供语音识别引擎10的结果100。如果后处理解决方案200满足这样的语法规则,则优选提供所述解决方案。
图3示意性地示出了本发明方法的优选版本,其中:
-停止对附加元素113的孤立(或选定),使得当检测到无效元素113时,可以进行验证测试;其中,
-验证后处理解决方案200以确定其是否满足语法规则(步骤vi);其中,
-如果满足所述语法规则,则提供后处理解决方案200;其中,
-如果后处理解决方案200不满足所述语法规则,则提供语音识别引擎10的结果100。
步骤iii.a)包括通过使用验证测试来确定步骤ii)中选定的元素113是否有效。该测试可以采取多种形式。
元素113由开头111和结尾112表征。因此其具有一定的时长150。根据可能的变型,验证测试包括步骤:如果元素113的时长150大于或等于下限时长阈值,则认为元素113是有效的。例如,下限时长阈值在50至160毫秒之间。优选地,下限时长阈值为120毫秒。下限时长阈值可以动态调整。根据另一可能的变型,验证测试包括步骤:如果元素113的时长150小于或等于上限时长阈值,则认为元素113是有效的。例如,上限时长阈值在400至800毫秒之间。优选地,上限时长阈值为600毫秒。上限时长阈值可以动态调整。优选地,下限时长阈值和/或上限时长阈值由语法规则确定。
通常,置信因数160与每个元素113相关联。根据另一可能的变型,验证测试包括步骤:如果元素113的置信因数160大于或等于最小置信因数161,则认为元素113是有效的。优选地,该最小置信因数161可动态变化。在这种情况下,用于确定一元素113是否有效的最小置信因数16不同于用于确定另一元素113是否有效的最小置信因数161是可能的。发明人已经发现,在3500和5000之间的最小置信因数161提供了良好的结果,甚至更优选的值为4000(这是Nuance的3200V3.14型号的值,但可应用于其它型号的语音识别引擎)。
根据另一可能的变型,验证测试包括步骤:如果将元素113与另一紧邻元素113朝向结果100的结尾112分隔的时间间隔170大于或等于最小时间间隔,则认为元素113是有效的。这样的最小时间间隔例如在0至50毫秒之间。根据另一可能的变型,验证测试包括步骤:如果将元素113与另一紧邻元素113朝向结果100的结尾112分隔的时间间隔170小于或等于最大时间间隔,则认为元素113是有效的。这样的最大时间间隔例如在300至600毫秒之间,优选值为400毫秒。对于验证测试的这两个示例,可以认为时间间隔170将元素113与其紧邻的邻居朝向图2的右侧进行分隔。换句话说,可以认为时间间隔将元素113与其紧邻的右侧邻居(即沿时间标度t的其随后的邻居)进行分隔。分隔两个元素113的时间间隔例如为语音识别引擎10不识别元素113的时间间隔,例如,没有单词。
根据另一可能的变型,验证测试适于被记录信息50的说话者40(或用户)。每个人以特定的方式发音元素113或单词。例如,有些人发音缓慢,而另一些人则发音快速。类似地,与单词相关联并由语音识别引擎10提供的置信因数160通常取决于发音这个单词的说话者40。如果对于给定的说话者40,与各个元素113相关联的一个或多个统计信息是已知的,则可以在步骤iii.a)的验证测试期间使用它们来确定元素113是否有效。例如,如果与该元素113相关联的一个或多个统计信息在一近程的误差范围(例如,10%)内符合对应所述说话者的所述元素所预定义的同一统计信息,则可认为给定说话者40所说出的元素113是有效的。验证测试的这个优选变型需要知道说话者40的身份。例如,这可以由语音识别引擎10提供。根据另一可能性,本发明的后处理方法包括步骤:识别说话者40。
在图2中,被认为是有效的元素113由实线限定,而不被认为是有效的元素由虚线限定。例如,从结尾112开始的第四元素113被认为是无效的,因为其时长150短于下限时长阈值。例如,从结尾112开始的第五元素113被认为是无效的,因为其置信因数160小于最小置信因数161。
本发明人还提出了一种用于从第一和第二语音识别结果100生成优化解决方案的方法,包括以下步骤:
A.将根据本发明的第一方面的后处理方法应用于所述第一结果100;
B.将根据本发明的第一方面的后处理方法应用于所述第二结果100;
C.根据一个或多个元素113确定所述优化解决方案,该一个或多个元素113属于所述第一和第二结果100的一个或多个结果100并且已经通过步骤iii.a)的验证步骤确定为有效。
根据第二方面,本发明涉及一种后处理系统11或一种用于对语音识别结果100进行后处理的设备。图4示意性地示出了与语音识别引擎10和屏幕20组合的这种后处理系统11。在该图中,后处理系统11和语音识别引擎10是两个分开的设备。根据另一可能的版本,后处理系统11被集成到语音识别引擎10中,使得它们不能被区分。在这种情况下,传统的语音识别引擎10被修改或适于能够执行下文描述的后处理系统11的功能。
后处理系统11的示例为:计算机、适于或编程为能够执行根据本发明的第一方面的后处理方法语音识别引擎10、语音识别引擎10的硬件模块、能够与语音识别引擎10通信的硬件模块。然而,其它的示例是可能的。后处理系统11包括用于接收和读取语音识别结果100的获取装置12。获取装置12的示例为:后处理系统11的输入端口,例如,USB端口、以太网端口、无线端口(例如,Wi-Fi)。然而,获取装置12的其它示例是可能的。后处理系统11还包括处理装置13,用于反复执行以下步骤:从结果100的开头112至结尾111,对先前未经过处理装置13验证测试的结果100的元素113进行孤立,通过使用验证测试来确定所述元素是否有效,通过重新使用由所述处理装置13确定为有效的至少一个元素113来确定后处理解决方案200。优选地,所述处理装置13通过重新使用由所述处理装置13确定为有效的所有元素113来确定后处理解决方案200。优选地,后处理系统11能够将后处理解决方案200发送至屏幕20以便显示所述解决方案。
处理装置13的示例是:控制单元、处理器或中央处理单元、控制器、芯片、微芯片、集成电路、多核处理器。然而,本领域技术人员公知的其它示例是可能的。根据一个可能的版本,处理装置13包括用于执行上述结合这些处理装置13规定的各个步骤(孤立元素113、确定其是否有效、确定后处理解决方案200)的各个单元。
根据第三方面,本发明涉及一种程序,优选地涉及一种计算机程序。优选地,该程序形成为人机语音接口的一部分。
根据第四方面,本发明涉及一种存储介质,其可以连接至能够与语音识别引擎10通信的设备,例如,计算机。根据另一可能的变型,该设备为语音识别引擎10。根据本发明的存储介质的示例为:USB记忆棒、移动硬盘、CD-ROM。然而,其它的示例是可能的。
已经针对具体实施例对本发明进行了描述,这些具体实施例仅仅是为了说明的目的,而不能被认为是限制性的。通常,本发明不限于上述示出和/或描述的示例。动词“包括”、“包含”、“在于”的使用或任何其它变型以及它们的词形变化,并不排除除了所提及的元素之外的元素的存在。使用不定冠词“a”,“an”或定冠词“the”来介绍元素并不排除多个这些元素的存在。权利要求中的附图标记并不限制其范围。
总之,本发明也可以如下描述:用于后处理语音识别结果100的方法,所述结果100包括开头111、结尾112和多个元素113,所述方法包括以下步骤:读取所述结果100;选定其中一个元素113;确定所述元素是否有效;重复选择元素113并确定其是否有效的步骤;并且如果至少一个元素113已被确定为有效,则通过重新使用被确定为有效的至少一个元素113来确定后处理解决方案200。本发明的方法的特征在于:每个元素113以相继的方式从结果100的所述结尾112至所述开头111中选定。
Claims (15)
1.用于对语音识别结果(100)进行后处理的方法,所述结果(100)包括开头(111)、结尾(112)以及分布在所述开头(111)和所述结尾(112)之间的多个元素(113),所述后处理方法包括以下步骤:
i.接收所述结果(100);
ii.孤立未经过步骤iii.a的验证测试的所述多个元素(113)的元素(113);
iii.然后,
a.如果在步骤ii.中一元素(113)已被孤立,则通过使用验证测试来确定所述元素是否有效;
b.否则,直接行进至步骤v;
iv.重复步骤ii.和步骤iii.;
v.如果至少一个元素(113)在步骤iii.a中被确定为有效,则使用在步骤iii.a确定为有效的至少一个元素(113)来确定后处理解决方案(200);
其特征在于:在步骤ii.中孤立的每个元素(113)以相继的方式从结果(100)的所述结尾(112)至结果(100)的所述开头(111)中选定。
2.根据权利要求1所述的方法,其特征在于:所述元素(113)为单词。
3.根据权利要求1或2所述的方法,其特征在于:如果经过步骤iii.a的验证测试的元素(113)未被确定为有效的,步骤iii.a还包括直接行进至步骤v.的指令。
4.根据前述权利要求中任一项所述的方法,其特征在于:还包括以下步骤:
vi.确定步骤v.的所述后处理解决方案(200)是否满足语法规则。
5.根据前述权利要求所述的方法,其特征在于:还包括以下步骤:
vii.
a.如果对步骤vi.的测试的响应为肯定的,则提供所述后处理解决方案(200);
b.否则,提供所述语音识别结果(100)。
6.根据前述权利要求中任一项所述的方法,其特征在于:步骤iii.a的所述验证测试包括步骤:如果元素的时长大于或等于下限时长阈值,则认为元素(113)是有效的。
7.根据前述权利要求中任一项所述的方法,其特征在于:步骤iii.a的所述验证测试包括步骤:如果元素的时长小于或等于上限时长阈值,则认为元素(113)是有效的。
8.根据前述权利要求中任一项所述的方法,其特征在于:所述结果(100)的每个元素(113)由置信因数(160)表征,并且步骤iii.a的所述验证测试包括步骤:如果元素的置信因数(160)大于或等于最小置信因数(161),则认为元素(113)是有效的。
9.根据前述权利要求中任一项所述的方法,其特征在于:步骤iii.a的所述验证测试包括步骤:如果将元素(113)与另一紧邻元素(113)朝向结果(100)的所述结尾(112)分隔的时间间隔(170)大于或等于最小时间间隔,则认为元素(113)是有效的。
10.根据前述权利要求中任一项所述的方法,其特征在于:步骤iii.a的所述验证测试包括步骤:如果与所述元素(113)相关联的统计信息在一近程的范围内符合对应该同一元素(113)和给定说话者(40)所预定义的统计信息,则认为针对给定说话者(40)的所述结果(100)的元素(113)是有效的。
11.根据前述权利要求中任一项所述的方法,其特征在于:在步骤iii.a中确定为有效的所有元素(113)被重新用于确定步骤v.的所述后处理解决方案(200)。
12.用于从第一和第二语音识别结果(100)确定优化解决方案的方法,包括以下步骤:
A.将根据前述权利要求中任一项的后处理方法应用于所述第一结果(100);
B.将根据前述权利要求中任一项的后处理方法应用于所述第二结果(100);
C.根据一个或多个元素(113)确定所述优化解决方案,该一个或多个元素(113)属于所述第一和第二结果(100)的一个或多个结果(100)并且已经通过步骤iii.a的验证测试确定为有效。
13.用于对语音识别结果(100)进行后处理的系统(11),所述结果(100)包括开头(111)、结尾(112)以及分布在所述开头(111)和所述结尾(112)之间的多个元素(113),所述后处理系统(11)包括:
-获取装置(12),用于读取所述结果(100);
-处理装置(13):
+用于反复执行以下步骤:
·对先前未经过所述处理装置(13)所要求的验证测试的所述多个元素(113)的元素(113)进行孤立;
·使用验证测试确定被孤立元素(113)是否有效;并且
+用于通过重新使用确定为有效的至少一个元素(113)来确定后处理解决方案(200);
其特征在于:由所述处理装置(113)孤立的每个元素(113)以相继的方式从结果(100)的所述结尾(112)至结果(100)的所述开头(111)中选定。
14.用于对语音识别结果(100)进行处理的程序,所述结果(100)包括开头(111)、结尾(112)以及分布在所述开头(111)和所述结尾(112)之间的多个元素(113),所述程序包括代码以使设备执行以下步骤:
i.读取语音识别结果(100);
ii.孤立未经过步骤iii.a的验证测试的所述多个元素(113)的元素(113);
iii.然后,
a.如果在步骤ii.中一元素(113)已被孤立,则通过使用验证测试来确定所述元素是否有效;
b.否则,直接行进至步骤v.;
iv.重复步骤ii.和步骤iii.;
v.如果至少一个元素(113)在步骤iii.a中被确定为有效,则通过重新使用在步骤iii.a确定为有效的至少一个元素(113)来确定后处理解决方案(200);
其特征在于:在步骤ii.中孤立的每个元素(113)以相继的方式从结果(100)的所述结尾(112)至结果(100)的所述开头(111)中选定。
15.存储介质,其能够连接至设备并且包括指令,其中,当所述指令被读取时,使所述设备处理语音识别结果(100),所述结果(100)包括开头(111)、结尾(112)以及分布在所述开头(111)和所述结尾(112)之间的多个元素(113),所述指令确保所述设备执行以下步骤:
i.读取所述结果(100);
ii.孤立未经过步骤iii.a的验证测试的所述多个元素(113)的元素(113);
iii.然后,
a.如果在步骤ii.中一元素(113)已被孤立,则通过使用验证测试来确定所述元素是否有效;
b.否则,直接行进至步骤v;
iv.重复步骤ii.和步骤iii.;
v.如果至少一个元素(113)在步骤iii.a中被确定为有效,则通过重新使用在步骤iii.a确定为有效的至少一个元素(113)来确定后处理解决方案(200);
其特征在于:在步骤ii.中孤立的每个元素(113)以相继的方式从结果(100)的所述结尾(112)至结果(100)的所述开头(111)中选定。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15157919.0 | 2015-03-06 | ||
EP15157919.0A EP3065131B1 (fr) | 2015-03-06 | 2015-03-06 | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
PCT/EP2016/054425 WO2016142235A1 (fr) | 2015-03-06 | 2016-03-02 | Méthode et système de post-traitement d'un résultat de reconnaissance vocale |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107750378A true CN107750378A (zh) | 2018-03-02 |
Family
ID=52627082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680024074.6A Pending CN107750378A (zh) | 2015-03-06 | 2016-03-02 | 用于语音识别结果后处理的方法和系统 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20180151175A1 (zh) |
EP (1) | EP3065131B1 (zh) |
JP (1) | JP6768715B2 (zh) |
CN (1) | CN107750378A (zh) |
BE (1) | BE1023435B1 (zh) |
ES (1) | ES2811771T3 (zh) |
PL (1) | PL3065131T3 (zh) |
PT (1) | PT3065131T (zh) |
WO (1) | WO2016142235A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
US20050209849A1 (en) * | 2004-03-22 | 2005-09-22 | Sony Corporation And Sony Electronics Inc. | System and method for automatically cataloguing data by utilizing speech recognition procedures |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
CN1920948A (zh) * | 2005-08-24 | 2007-02-28 | 富士通株式会社 | 语音识别系统及语音处理系统 |
CN101286170A (zh) * | 2007-04-10 | 2008-10-15 | 三菱电机株式会社 | 声音检索装置 |
US20140249817A1 (en) * | 2013-03-04 | 2014-09-04 | Rawles Llc | Identification using Audio Signatures and Additional Characteristics |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07272447A (ja) * | 1994-03-25 | 1995-10-20 | Toppan Printing Co Ltd | 音声データ編集システム |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
US6912498B2 (en) * | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
US6754629B1 (en) | 2000-09-08 | 2004-06-22 | Qualcomm Incorporated | System and method for automatic voice recognition using mapping |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
JP4220151B2 (ja) * | 2001-11-26 | 2009-02-04 | 株式会社豊田中央研究所 | 音声対話装置 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2010079092A (ja) * | 2008-09-26 | 2010-04-08 | Toshiba Corp | 音声認識装置及び方法 |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
JP2014081441A (ja) * | 2012-10-15 | 2014-05-08 | Sharp Corp | コマンド判定装置およびその制御方法、コマンド判定プログラム |
TWI475558B (zh) * | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
US20140278418A1 (en) | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Speaker-identification-assisted downlink speech processing systems and methods |
-
2015
- 2015-03-06 PL PL15157919T patent/PL3065131T3/pl unknown
- 2015-03-06 PT PT151579190T patent/PT3065131T/pt unknown
- 2015-03-06 EP EP15157919.0A patent/EP3065131B1/fr active Active
- 2015-03-06 ES ES15157919T patent/ES2811771T3/es active Active
-
2016
- 2016-03-02 CN CN201680024074.6A patent/CN107750378A/zh active Pending
- 2016-03-02 JP JP2017564802A patent/JP6768715B2/ja active Active
- 2016-03-02 US US15/554,957 patent/US20180151175A1/en not_active Abandoned
- 2016-03-02 WO PCT/EP2016/054425 patent/WO2016142235A1/fr active Application Filing
- 2016-03-02 BE BE2016/5152A patent/BE1023435B1/fr active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
US7181399B1 (en) * | 1999-05-19 | 2007-02-20 | At&T Corp. | Recognizing the numeric language in natural spoken dialogue |
JP2004101963A (ja) * | 2002-09-10 | 2004-04-02 | Advanced Telecommunication Research Institute International | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム |
US20050209849A1 (en) * | 2004-03-22 | 2005-09-22 | Sony Corporation And Sony Electronics Inc. | System and method for automatically cataloguing data by utilizing speech recognition procedures |
CN1920948A (zh) * | 2005-08-24 | 2007-02-28 | 富士通株式会社 | 语音识别系统及语音处理系统 |
CN101286170A (zh) * | 2007-04-10 | 2008-10-15 | 三菱电机株式会社 | 声音检索装置 |
US20140249817A1 (en) * | 2013-03-04 | 2014-09-04 | Rawles Llc | Identification using Audio Signatures and Additional Characteristics |
Also Published As
Publication number | Publication date |
---|---|
EP3065131A1 (fr) | 2016-09-07 |
BE1023435B1 (fr) | 2017-03-20 |
ES2811771T3 (es) | 2021-03-15 |
BE1023435A1 (fr) | 2017-03-20 |
US20180151175A1 (en) | 2018-05-31 |
JP2018507446A (ja) | 2018-03-15 |
JP6768715B2 (ja) | 2020-10-14 |
PT3065131T (pt) | 2020-08-27 |
PL3065131T3 (pl) | 2021-01-25 |
EP3065131B1 (fr) | 2020-05-20 |
WO2016142235A1 (fr) | 2016-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6857699B2 (ja) | 音声対話設備のウェイクアップ方法、装置、設備、記憶媒体、及びプログラム | |
JP6394709B2 (ja) | 話者識別装置および話者識別用の登録音声の特徴量登録方法 | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US11037553B2 (en) | Learning-type interactive device | |
CN108986826A (zh) | 自动生成会议记录的方法、电子装置及可读存储介质 | |
CN105185379B (zh) | 声纹认证方法和装置 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN111916070A (zh) | 经由深度前馈神经网络使用自然语言理解相关知识的语音识别 | |
KR20190082900A (ko) | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN108538293B (zh) | 语音唤醒方法、装置及智能设备 | |
EP1906386A1 (en) | Using child directed speech to bootstrap a model based speech segmentation and recognition system | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
US6499012B1 (en) | Method and apparatus for hierarchical training of speech models for use in speaker verification | |
US10930283B2 (en) | Sound recognition device and sound recognition method applied therein | |
WO2017024835A1 (zh) | 语音识别方法及装置 | |
JP2008145989A (ja) | 音声識別装置および音声識別方法 | |
CN107750378A (zh) | 用于语音识别结果后处理的方法和系统 | |
US8600750B2 (en) | Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition) | |
KR102415519B1 (ko) | 인공지능 음성의 컴퓨팅 탐지 장치 | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP2019132997A (ja) | 音声処理装置、方法およびプログラム | |
JP2000099090A (ja) | 記号列を用いた話者認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180302 |