CN101266792B - 语音识别系统和语音识别方法 - Google Patents
语音识别系统和语音识别方法 Download PDFInfo
- Publication number
- CN101266792B CN101266792B CN2008100860661A CN200810086066A CN101266792B CN 101266792 B CN101266792 B CN 101266792B CN 2008100860661 A CN2008100860661 A CN 2008100860661A CN 200810086066 A CN200810086066 A CN 200810086066A CN 101266792 B CN101266792 B CN 101266792B
- Authority
- CN
- China
- Prior art keywords
- optimum solution
- language
- degree
- unit
- optimum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000003860 storage Methods 0.000 claims abstract description 103
- 239000000284 extract Substances 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 89
- 230000002123 temporal effect Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 16
- 239000003607 modifier Substances 0.000 claims 2
- 230000004048 modification Effects 0.000 description 32
- 238000012986 modification Methods 0.000 description 32
- 238000012545 processing Methods 0.000 description 25
- 230000008859 change Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 11
- 230000000052 comparative effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 206010048865 Hypoacusis Diseases 0.000 description 1
- 244000188472 Ilex paraguariensis Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供语音识别系统和语音识别方法。提供了识别结果提取单元和一致确定单元。所述识别结果提取单元从识别结果存储单元中提取N个最佳解A和通过话语B获得的N个最佳解B。所述话语B跟随在与N个最佳解A相对应的话语A之后,并且由与所述话语A的讲话者不同的讲话者b发出。在重复话语确定单元确定所述N个最佳解B为通过根据与所述N个最佳解A相对应的所述话语A的重复话语B而获得的N个最佳解的情况下,当所述最佳解A和B彼此不同时,所述一致确定单元确定可以用所述N个最佳解B中的一部分或全部来替换所述N个最佳解A中的一部分或全部。
Description
技术领域
本发明涉及能够识别话语(utterance)的语音识别系统和语音识别方法。
背景技术
近年来,例如如下情况开始变得普遍,即当通过电话来接受用户关于购买产品的调查、投诉、咨询请求等时,建立了呼叫中心,其中给所述呼叫中心分配了应答用户的电话呼叫的接线员。给呼叫中心分配适当数目的接线员,以便迅速应答用户的电话呼叫。
一般来说,在这种呼叫中心中,使用语音识别系统来识别接线员与用户之间的对话,以作为识别的结果而记录所述对话。在接线员的个人计算机的显示屏上显示所记录的对话。例如,当记录了接线员与用户之间的对话时,可以分析用户想要了解的信息。例如,可利用分析的结果作为未来商业运作的线索。此外,通过将分析的结果合并到接线员持有的手册中,可将该分析结果用于接线员的顺利操作。
在语音识别系统中,如果错误识别接线员与用户之间的对话,则会基于错误识别的结果来记录对话的内容。如果对话的内容是基于错误识别的结果而记录的,则不能执行准确的分析。因此,需要纠正语音识别系统的错误识别。例如,已知下面描述的日本特开平11-149294号公报和日本特开2005-123869号公报为用于纠正语音识别系统的错误识别的方法。
在日本特开平11-149294号公报中,公开了一种方法,所述方法用于在语音识别系统错误地识别了用户的话语时,通过用户重述(复述)来纠正语音识别系统的错误识别。具体的是,当复述确定单元确定用户的重述是复述的话语时,识别处理单元使用存储在识别候选记录单元中的以前的识别候选和在当前处理中获得的识别候选来输出经调整的识别候选。因此,当用户能够识别出错误识别时,可以通过复述的话语来纠正所述错误识别。
此外,在日本特开2005-123869号公报中,公开了一种呼叫内容转录系统,所述呼叫内容转录系统便于通过将经由电话听筒发送和接收的呼叫内容分离为呼叫方部分和被叫方部分来进行识别结果的确认和纠正。具体的是,通过第一语音识别装置识别来自呼叫方侧的声道的语音,并且通过第二语音识别装置识别来自被叫方侧的声道的语音。通过第一语音识别装置和第二语音识别装置识别的语音由字符串转换装置转换成字符串以便在显示装置上显示。使用输入装置(例如键盘)来编辑通过显示装置显示的字符串。因此,由于按时间顺序显示呼叫方和被叫方的呼叫的内容,所以编辑者可以容易地转录呼叫的内容。
在呼叫中心中,可以将对接线员与用户之间的对话的识别结果显示在接线员的个人计算机的显示屏上。因此,接线员可以检查识别结果是否正确。相反,用户不能检查识别结果。就是说,在很多情况下,用户并未意识到接线员与他之间的对话被语音识别系统识别,并且其对话作为识别结果被记录。因此,即使当识别系统错误识别了接线员与用户之间的对话时,该用户仍继续说话而不会复述话语。因此,日本特开平11-149294号公报中公开的用于纠正错误识别的方法不能应用于上述情况。
另一方面,当语音识别系统已经错误识别了接线员与用户之间的对话时,接线员需要纠正错误识别的结果。具体的是,接线员通过操作键盘来纠正个人计算机的显示屏上显示的错误识别的结果。然而,很难在不中断接线员与用户之间的对话的情况下,通过操作键盘来纠正错误识别的结果。因此,要在接线员与用户之间的对话完成之后通过操作键盘来纠正错误识别的结果。然而,在这种情况下,接线员需要记住发生错误识别结果的位置、正确识别的结果等。此外,当对接线员与用户之间的对话进行了记录时,接线员不需要记住发生错误识别的结果的位置、正确识别的结果等。然而,这要花费很多时间和努力来重听记录的对话。因此,日本特开2005-123869号公报中公开的用于纠正错误识别的方法不能应用于上述情况。
发明内容
考虑到前述问题,本发明的目的是提供一种语音识别系统和语音识别程序,其中,在至少两个讲话者之间的对话中,当一个讲话者的话语被错误识别时,能够在所述一个讲话者未意识到纠正行为,无需通过另一个讲话者对输入装置(例如键盘)进行操作,并且在不中断所述对话的情况下纠正所述错误识别的结果。
为了实现前述目的,本发明的语音识别系统包括:输入标识单元,其标识发出话语的讲话者;识别结果存储单元,假设具有在通过将话语与多个识别单词或词语相比较而计算出的识别分数中的最高识别分数的识别单词或词语是最佳解,所述标识结果存储单元将从所述最佳解开始的具有较高识别分数的头N(N大于或等于1)个识别单词或词语存储作为N个最佳解;识别结果提取单元,假设从识别结果存储单元中提取的N个最佳解是前N个最佳解,所述识别结果提取单元从识别结果存储单元中提取通过按时间顺序接在与前N个最佳解相对应的话语后面并且由与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出的话语来获得的N个最佳解,作为后N个最佳解;关联度计算单元,其计算表示后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性的关联度;应答话语确定单元,当关联度大于或等于阈值时,所述应答话语确定单元确定后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获得的N个最佳解;重复话语确定单元,当应答话语确定单元确定后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获得的N个最佳解时,所述重复话语确定单元确定后N个最佳解是否为通过应答与前N个最佳解的话语相对应的重复话语而获得的N个最佳解;以及一致确定单元,当重复话语确定单元确定后N个最佳解为通过应答与前N个最佳解相对应的话语的重复话语而获得的N个最佳解时,假设前N个最佳解中的最佳解为前最佳解而后N个最佳解中的最佳解为后最佳解,所述一致确定单元确定前最佳解和后最佳解是否彼此一致,并且当前最佳解和后最佳解不一致时,所述一致确定单元确定可以用后N个最佳解的一部分或全部来替换前N个最佳解的一部分或全部。
在本发明的所述语音识别系统中,所述关联度计算单元计算如下关联度,所述关联度表示所述后N个最佳解是通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性。在这种情况下,所述后N个最佳解为通过按时间顺序接在对应于前N个最佳解的话语后面并且由与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出的话语来获得的N个最佳解。例如,与所述前N个最佳解相对应的话语可以为用户发出的话语,而与所述后N个最佳解相对应的话语可以为呼叫中心中的接线员发出的话语。在这种情况下,当所述关联度大于或等于所述阈值时,所述应答话语确定单元确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解。所述重复话语确定单元确定所述后N个最佳解是否为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解。当重复话语确定单元确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的最佳解时,所述一致确定单元确定所述前最佳解和所述后最佳解是否彼此一致。当所述前最佳解和所述后最佳解彼此不一致时,所述一致确定单元确定所述前最佳解不正确。
在前述情况下,一般来说,接线员经常接受培训,从而他们与用户相比讲话清晰。此外,接线员可以有意识地讲话,使得能够获得识别的正确结果。此外,在呼叫中心中提供所述语音识别系统的情况下,通过电话线识别用户发出的话语,而不通过电话线识别接线员发出的话语,所以与接线员发出的话语的信息相比较,用户发出的话语的信息可能由于电话线中噪音的侵扰或者各种滤波器的干预而被严重劣化。因为这个原因,根据本发明的所述一致确定单元确定可以用所述后N个最佳解中的一部分或全部来替换所述前N个最佳解中的一部分或全部。因此,在用户与接线员之间的对话中,当所述用户的话语被错误识别时,可以在所述用户未意识到该动作,无需所述接线员通过输入装置(例如键盘)进行操作,并且无需中断所述对话的情况下纠正错误识别的结果。
在这种情况下,所述前N个最佳解中的N可以与所述后N个最佳解中的N相同或不同。
本发明中的所述语音识别系统优选地还包括:识别结果纠正单元,当所述一致确定单元确定所述前最佳解和所述后最佳解彼此不一致时,所述识别结果纠正单元将其中存储所述前N个最佳解的所述识别结果存储单元中的所述前最佳解更新为所述后最佳解;以及结果输出单元,其输出由所述识别结果纠正单元更新的所述后最佳解。
在前述设置中,所述识别结果纠正单元将其中存储所述前N个最佳解的所述识别结果存储单元中的所述前最佳解更新为所述后最佳解。因此,所述结果输出单元可以输出经更新的后最佳解。
本发明中的所述语音识别系统优选地还包括:纠正历史记录生成单元,所述纠正历史记录生成单元生成表示所述识别结果纠正单元实施更新的历史记录的历史记录数据;以及输出呈现单元,所述输出呈现单元呈现由所述纠正历史记录生成单元生成的所述历史记录数据。
在前述设置中,所述纠正历史记录生成单元生成表示更新历史记录的历史记录数据。所述输出呈现单元呈现所述历史记录数据。因此,例如接线员可以检查表示已经纠正的错误识别的结果的历史记录。
在本发明中的所述语音识别系统中,在所述应答话语确定单元确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的情况下,当所述后N个最佳解中的所述后最佳解的识别分数大于或等于预定识别分数时并且当同时满足下面描述的(1)和(2)时,所述重复话语确定单元优选地确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解。
(1)所述前N个最佳解中的一解与所述后N个最佳解中的所述后最佳解一致。
(2)所述前N个最佳解中与所述后最佳解一致的前述解的识别分数大于或等于预定的识别分数,或者所述前N个最佳解中的前述解被置于相对于所述前最佳解的预置排序或更高排序处,前述解与所述后最佳解一致。
在前述设置中,当满足前述条件时,所述重复话语确定单元可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解。
本发明中的所述语音识别系统优选地还包括:存储共现信息的共现信息存储单元和/或存储语义属性的语义属性存储单元,所述共现信息表示识别词语之间的共现关系,所述语义属性表示识别词语的意思;以及比较处理改变单元,当所述一致确定单元确定所述前最佳解和所述后最佳解相互一致时,所述比较处理改变单元基于所述共现信息和/或所述语义属性来改变用于将话语与多个识别词语相比较的方法。
在这种情况下,当所述前最佳解与所述后最佳解彼此一致时,所述解的可靠性较高。因此,在这种情况下,所述比较处理改变单元基于所述共现信息和/或所述语义属性来改变用于将话语与多个识别词语相比较的方法。
在一示例中,比较处理改变单元改变所述比较方法,从而使得具有所述前最佳解与所述后最佳解的共现关系的识别词语的识别分数或者具有与所述前最佳解和所述后最佳解相关的意思的识别词语的识别分数比除了这些识别词语之外的其它识别词语的识别分数高。具体来说,例如当所述前最佳解和所述后最佳解为“PC”时,预定的识别分数被分配给与计算机术语相关的识别词语,使得关于计算机术语的具有与“PC”相关意思的识别词语的识别分数比计算机术语之外的其它识别词语的识别分数高。就是说,当通过用户发出的话语获得的所述前最佳解和通过接线员发出的话语获得的所述后最佳解为“PC”时,可以确定识别结果的可靠性非常高。因此,可以确定对话内容也与计算机相关。而且,随后话语的内容与计算机相关的可能性较高。因此,当比较处理改变单元改变比较方法,以将预定的识别分数分配给与计算机术语相关的识别词语时,能够提高所述语音识别系统的识别准确率。
在另一示例中,比较处理改变单元改变比较方法,以便将具有所述前最佳解与所述后最佳解的共现相关性的识别词语或者具有与所述前最佳解和所述后最佳解相关的意思的识别词语设置为进行比较的识别词语,而将其他识别词语设置为不进行比较的识别词语。具体来说,当所述前最佳解和所述后最佳解为“PC”时,改变所述比较方法,以便将关于计算机术语的具有与“PC”相关的意思的识别词语设置为进行比较的识别词语,而将其他识别词语设置为不进行比较的识别词语。就是说,当通过用户发出的话语获得的所述前最佳解和通过接线员发出的话语获得的所述后最佳解为“PC”时,能够确定识别结果的可靠性非常高。因此,可以确定对话内容也与计算机相关。而且,随后话语的内容与计算机相关的可能性较高。因此,当比较处理改变单元改变比较方法,以将关于计算机术语的识别词语设置为进行比较的识别词语并将其他识别词语设置为不进行比较的识别词语时,能够提高所述语音识别系统的识别准确率。
根据权利要求1到4中的任一项所述的语音识别系统,其中,所述关联度计算单元基于以下(1)到(4)中的至少一个来计算关联度:
(1)所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解的数目;
(2)对于所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解,在所述前N个最佳解中基于识别分数的排序和在所述后N个最佳解中基于识别分数的排序之间的差;
(3)输出所述前N个最佳解的时间和输出所述后N个最佳解的时间之间的时间差;
(4)在通过比较第一话语和多个识别词语来获得多组所述前N个最佳解并且通过比较由与所述第一话语的讲话者不同的讲话者发出的第二话语和所述多个识别词语来获得多组所述后N个最佳解的情况下,所述多组前N个最佳解在时间序列上的出现位置和所述多组后N个最佳解的在时间序列上的出现位置之间的差。
在前述设置中,关联度计算单元可以基于上面描述的(1)到(4)中的至少一个来计算关联度。
在本发明中的所述语音识别系统内,优选的是,所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解的数目越大,并且对于所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解,在所述前N个最佳解中基于识别分数的排序和在所述后N个最佳解中基于识别分数的排序之间的差越小,则所述关联度计算装置计算出的所述关联度越高。
在这种情况下,解的数目越大并且排序之间的差越小,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的应答话语获得的N个最佳解的可能性越高。因此,在这种情况下,所述关联度计算单元计算出较高的关联度。另一方面,相反,解的数目越小并且排序之间的差越大,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语获得的N个最佳解的可能性越低。因此,在这种情况下,所述关联度计算单元计算出较小的关联度。因此,当关联度大于或等于阈值时,所述应答话语确定单元可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语获得的N个最佳解。
本发明中的所述语音识别系统优选地还包括时间信息控制单元,所述时间信息控制装置将表示当前时间的时间信息分配给所述N个最佳解,并且将已经分配了时间信息的所述N个最佳解写到所述识别结果存储单元中。优选的是,分配给所述前N个最佳解的时间信息表示的当前时间与分配给所述后N个最佳解的时间信息表示的当前时间之间的时间差越小,则所述关联度计算单元计算出的所述关联度越高。
在这种情况下,所述时间差越小,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性越高。因此,在这种情况下,所述关联度计算单元计算出较高的关联度。另一方面,相反,所述时间差越大,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性越低。因此,在这种情况下,所述关联度计算单元计算出较小的关联度。因此,当关联度大于或等于阈值时,所述应答话语确定单元可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解。
在本发明中所述的语音识别系统内,优选的是,在通过比较第一话语和多个识别词语来获得多组所述前N个最佳解并且通过比较由与所述第一话语的讲话者不同的讲话者发出的第二话语和多组所述多个识别词语来获得多组所述后N个最佳解的情况下,所述多组前N个最佳解在时间序列上的出现位置和所述多组后N个最佳解在时间序列上的出现位置之间的差越小,则所述关联度计算装置计算出的所述关联度越高。
在这种情况下,所述位置之间的差越小,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性越高。因此,在这种情况下,所述关联度计算单元计算出较高的关联度。另一方面,相反,所述位置之间的差越大,则所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性越低。因此,在这种情况下,所述关联度计算单元计算出较小的关联度。因此,当关联度大于或等于阈值时,所述应答话语确定单元可以确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解。
在本发明中的所述语音识别系统还优选地包括功能字典,所述功能字典与话语的出现位置相关联地存储表示所述位置的功能单词。当所述多组后N个最佳解中的任一组后N个最佳解中的后最佳解与功能单词一致时,所述关联度计算单元优选地将所述功能单词表示的位置设置为在时间顺序上紧接在包括与所述功能单词一致的所述后最佳解的所述任一组后N个最佳解后的一组后N个最佳解的出现位置。
在前述设置中,当所述多组后N个最佳解中的任一组后N个最佳解中的后最佳解与功能单词一致时,所述关联度计算单元将所述功能单词表示的位置设置为在时间顺序上紧接在与包括与所述功能单词一致的所述后最佳解的所述任一组后N个最佳解后的一组后N个最佳解的出现位置。在这种情况下,功能单词表示话语的出现位置。例如,功能单词“Mazu”(日语单词,意思是“第一”)表示位置1。此外,功能单词“Tsugi”(日语单词,意思是“下一个”)表示位置2。因此,相对于基于所述时间序列上的位置之间的差来简单地计算关联度的模式,可以更准确地计算关联度。
本发明中的所述语音识别系统优选地还包括功能单词提取单元,所述功能单词提取单元从所述功能字典中提取与所述多组前N个最佳解在时间序列上的出现位置相对应的功能单词。所述输出呈现单元优选地与所述多组前N个最佳解的各个前最佳解相关联地呈现由所述功能单词提取单元提取的功能单词。
在前述设置中,所述功能单词提取单元从所述功能字典中提取与多组所述前N个最佳解在时间序列上的出现位置相对应的功能单词。所述输出呈现单元与所述多组前N个最佳解的各个前最佳解相关联地提取的所述功能单词。在这种情况下,例如,当在所述输出呈现单元上呈现的所述前最佳解不正确时,接线员可以在讲出对与所述前最佳解相关联地呈现的功能单词之后立即重复话语,从而纠正已被错误识别的所述前最佳解。因此,例如,即使在所述接线员重复讲出所述正确的前最佳解之前,所述接线员已经发出另一话语的情况下,当接线员在讲出所述功能单词后立即重复讲所述正确的前最佳解时,包括所述不正确的前最佳解的所述前N个最佳解在时间序列上的出现位置和通过所述接线员发出的重复话语而获得的后N个最佳解的出现位置相同。因此,所述关联度计算单元可以计算最大关联度。因此,所述应答话语确定单元能够可靠地确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解。
为了获得前述目的,本发明的语音识别程序使计算机执行若干步骤,所述计算机包括识别结果存储单元,所述识别结果存储单元用于在假设具有在通过比较话语和多个识别词语而计算出的识别分数中的最高识别分数的识别词语是最佳解的情况下,存储从所述最佳解开始的具有较高识别分数的前N个识别词语作为N个最佳解(N是大于或者等于1的整数),所述语音识别程序使计算机执行如下步骤:输入标识步骤,其标识发出话语的讲话者;识别结果提取步骤,其在假设从所述识别结果存储单元中提取的N个最佳解是前N个最佳解的情况下,从所述识别结果存储单元中提取通过在时间顺序上紧跟在与所述前N个最佳解相对应的话语之后并且已经由与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出的话语而获得的N个最佳解作为后N个最佳解;关联度计算步骤,其计算表示后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性的关联度;应答话语确定步骤、其在关联度大于或等于阈值时,确定后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获得的N个最佳解;重复话语确定步骤,其在应答话语确定步骤确定后N个最佳解为通过应答与前N个最佳解相对应的话语的应答话语而获得的N个最佳解时,确定后N个最佳解是否为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解;以及一致确定步骤,其在重复话语确定步骤确定后N个最佳解为通过应答与前N个最佳解相对应的话语的重复话语而获得的N个最佳解,且假设前N个最佳解的最佳解为前最佳解并且后N个最佳解的最佳解为后最佳解时,确定所述前最佳解和所述后最佳解是否彼此一致,并且当所述前最佳解和所述后最佳解彼此不一致时,确定可以用所述后N个最佳解的一部分或全部来替换所述前N个最佳解的一部分或全部。
在本发明的语音识别程序中,可以获得与前述语音识别系统中类似的优点。
附图说明
图1是示出根据本发明的实施方式的语音识别系统的总体结构的示意性框图;
图2示出语音识别系统中的识别结果存储单元中的数据结构的示例;
图3示出在通过语音识别系统中的识别结果纠正单元更新了所述识别结果存储单元中的数据之后的所述数据的结构的示例;
图4是示出在语音识别系统中的输出呈现单元上呈现的显示画面的示例的示意图;
图5是示出语音识别系统的操作的示例的流程图;
图6是示出根据本发明的第三修改例的语音识别系统的总体结构的框图;
图7示出语音识别系统中的功能字典内的数据结构的示例;
图8示出语音识别系统中的识别结果存储单元内的数据结构的示例;
图9示出在讲话者b发出话语B之前而在讲话者a发出话语A之后的识别结果存储单元中的数据结构的示例;以及
图10是示出在讲话者b发出话语B之前而在讲话者a发出话语A之后的在语音识别系统中的输出呈现单元上呈现的显示画面的示例的示意图。
具体实施方式
现在将参照附图详细描述根据本发明的具体实施方式。
图1是示出根据本实施方式的语音识别系统1的总体结构的框图。在本实施方式中,描述了如下情况作为示例,即在呼叫中心中提供了语音识别系统1,并且作为用户的讲话者a和作为接线员的讲话者b通过电话进行会话(呼叫)的情况。具体来说,将描述如下情况,即在讲话者a发出话语A“PC Nitsuite Oshiete.Ato Internet Mo.”(日语短语,意思是“为我讲解PC以及因特网”)之后,讲话者b发出话语B“Mazu PC NitusuiteDesuga”(日语短语,意思是“首先,让我从PC开始”)。
在下面的描述中,在描述N个最佳解和最佳解的情况下,仅当需要做出具体区分时,才以添加下标来标识它们中的每一个(例如N个最佳解A1)的方式来进行说明;而当不需要做出具体区分时或者当总称它们时,在不添加下标的情况下进行描述,例如N个最佳解A。
[语音识别系统的结构]
根据本实施方式的语音识别系统1包括语音输入单元11、输入标识单元12、声音处理单元13、声音模型存储单元14、语言模型存储单元15、比较单元16、时间信息控制单元17、识别结果存储单元18、识别结果提取单元19、同义词信息存储单元20、关联度计算单元21、应答话语确定单元22、重复话语确定单元23、一致确定单元24、识别结果纠正单元25、输出生成单元26、输出呈现单元27、比较处理改变单元28、共现信息存储单元29以及语义属性存储单元30。
语音输入单元11接受两个讲话者之间的对话,即讲话者a发出的话语A和讲话者b发出的话语B。语音输入单元11进一步将讲话者a发出的话语A转换成话语数据A,并将讲话者b发出的话语B转换成话语数据B。语音输入单元11将通过转换获得的话语数据A和话语数据B输出到输入标识单元12。例如,语音输入单元11除了接受前述的两个讲话者之间的对话,还可以接受单个用户和多个接线员之间的对话。另选的是,语音输入单元11可以接受多个用户与单个接线员之间的对话。又另选的是,语音输入单元11可以接受多个用户与多个接线员之间的对话。语音输入单元11可以接受预先记录的对话日志而不是实时的对话。
输入标识单元12标识发出话语的讲话者。具体来说,输入标识单元12标识从语音输入单元11输出的话语数据A和话语数据B,并且将话语A特有的话语号分配给话语数据A,并将话语B特有的话语号分配给话语数据B。在这种情况下,输入标识单元12可以例如使用用于分别记录电话接收信号和发射信号的已知技术、确定性别的处理或者标识讲话者的处理来标识从语音输入单元11输出的话语数据A和话语数据B。在本实施方式中,输入标识单元12将话语号A01分配给从语音输入单元11输出的表示“PC Nitsuite Oshiete.Ato Internet Mo”的话语数据A。输入标识单元12还将话语号B01分配给表示“Mazu PC Nitsuite Desuga”的话语数据B。在这种情况下,当讲话者a和讲话者b之间的对话继续时,按顺序将话语号A02、A03、A04,...以及话语号B02、B03、B04,...分别分配给讲话者a的话语数据和讲话者b的话语数据。输入标识单元12将已经分配了话语号的话语数据A和已经分配了话语号的话语数据B输出到声音处理单元13。
声音处理单元13将从输入标识单元12输出的话语数据A转换成特征A,并将从输入标识单元12输出的话语数据B转换成特征B。可使用包括MFCC(Mel频率倒谱系数)、LPC倒谱、幂(频谱的积分)或者线性或二次回归系数的多维向量作为特征。此外,利用例如主分量分析或判别分析来减少MFCC、LPC倒谱、幂或者线性或二次回归系数的维而获得的多维向量也可被用作特征。在这种情况下,特征并不限于特定类型。声音处理单元13将通过转换获得的特征A和特征B输出到比较单元16。声音处理单元13可以包括用于存储通过转换获得的特征A和特征B的存储器。
声音模型存储单元14存储通过对关于什么音素趋于具有什么特征的信息进行统计建模而获得的数据。声音模型存储单元14的示例包括隐马尔可夫模型(HMM)和动态编程(DP)。
语言模型存储单元15存储多个识别词语和关于所述多个识别词语的信息。例如,关于识别词语的信息包括唯一分配给识别词语的ID、表达以及发音(例如在音素序列中定义的)。关于识别词语的信息还可以包括预定信息,例如计算识别分数和规则(语法信息)时针对识别词语之间的联系添加的每个词语的权重的信息。
比较单元16基于话语A和存储在语言模型存储单元15中的多个识别词语,使用通过声音处理单元13转换而获得的特征A来计算识别分数。识别分数可以称为一致度、可能性或者置信度。作为识别分数的计算结果,假设具有最高识别分数的识别词语为最佳解A,则比较单元16将从最佳解A开始的具有较高识别分数的头N(N是大于或等于1的整数)个识别词语输出为N个最佳解A。此外,比较单元16基于话语B和存储在语言模型存储单元15中的多个识别词语,使用通过声音处理单元13的转换而获得的特征B来计算识别分数。作为识别分数的计算结果,假设具有最高识别分数的识别词语为最佳解B,则比较单元16将从最佳解B开始的具有较高识别分数的头N(N是大于或等于1的整数)个识别词语输出为N个最佳解B。
具体来说,比较单元16从通过声音处理单元13的转换而获得的特征A中提取P(P大于或等于1)个话语段。比较单元16通过将提取的话语段与存储在声音模型存储单元14中的数据进行比较来为P个话语段中的每一个提取音素序列(符号序列)。比较单元16通过将提取的音素序列与存储在语言模型存储单元15中的多个识别词语进行比较来输出对应于P个话语段中的每一个的N个最佳解A。此外,比较单元16从通过声音处理单元13的转换而获得的特征B提取Q(Q大于或等于1)个话语段。比较单元16通过将提取的话语段与存储在声音模型存储单元14中的数据进行比较来为Q个话语段中的每一个提取音素序列(符号序列)。比较单元16通过将提取的音素序列与存储在语言模型存储单元15中的多个识别词语进行比较来输出对应于Q个话语段中的每一个的N个最佳解B。
实际上,在这种情况下,比较单元16从表示“PC Nitsuite Oshiete.AtoInternet Mo.”的特征A中提取话语A中的所有话语部分,例如“PC”、“Nitsuite”、“Oshiete”、“Ato”、“Internet”以及“Mo”。然而,在本实施方式中,为了简化描述,假设比较单元16从特征A中提取“PC”和“Internet”两个话语段来进行描述。具体来说,比较单元16通过将提取的“PC”和“Internet”话语段与存储在声音模型存储单元14中的数据进行比较来提取针对“PC”和“Internet”的音素序列。比较单元16通过将提取的针对“PC”和“Internet”的音素序列与存储在语言模型存储单元15中的多个识别词语进行比较来输出对应于“PC”和“Internet”两个话语段中的每一个的N个最佳解A。
此外,实际上,比较单元16从表示“Mazu PC Nitsuite Desuga.”的特征B中提取话语B中的所有话语部分,例如“Mazu”、“PC”、“Nitsuite”以及“Desuga”。然而,在本实施方式中,为了简化描述,假设比较单元16仅从特征B中提取单个话语段“PC”来进行描述。具体来说,比较单元16通过将提取的“PC”话语段与存储在声音模型存储单元14中的数据进行比较来提取针对“PC”的音素序列。比较单元16通过将提取的针对“PC”的音素序列与存储在语言模型存储单元15中的多个识别词语进行比较来输出对应于“PC”话语段的N个最佳解B。
在图1示出的情况中,描述了这样的示例,其中上面描述的语音输入单元11、输入标识单元12、声音处理单元13以及比较单元16中的每一个都包括单个模块。然而,本发明并不限于这种情况。即,上面描述的语音输入单元11、输入标识单元12、声音处理单元13以及比较单元16中的每一个例如可以包括用于各个讲话者的多个模块。
时间信息控制单元17将表示当前时间的时间信息分配给从比较单元16输出的N个最佳解A。此外,时间信息控制单元17将表示当前时间的时间信息分配给从比较单元16输出的N个最佳解B。时间信息控制单元17将已经分配了时间信息的N个最佳解A写到识别结果存储单元18。此外,时间信息控制单元17将已经分配了时间信息的N个最佳解B写到识别结果存储单元18。
识别结果存储单元18存储时间信息控制单元17写入的N个最佳解A和N个最佳解B。图2示出了识别结果存储单元18中的数据结构的示例。具体来说,识别结果存储单元18将N个最佳解A和N个最佳解B存储为识别结果存储表18a。在图2中示出的示例中,话语号、时间以及N个最佳解被存储在识别结果存储表18a中。具体来说,表示“PC NitsuiteOshiete.Ato Internet Mo.”的A01和表示“Mazu PC Nitsuite Desuga.”的B01作为话语号被存储在识别结果存储表18a中。
与“PC”话语段相对应的N个最佳解A1和与“Internet”话语段相对应的N个最佳解A2被与话语号A01相关联。识别分数0.95、0.93、0.82、0.81以及0.78分别与N个最佳解A1“CD”、“PC”、“GC”、“OC”以及“GCC”相关联。识别分数0.86、0.84,...分别与N个最佳解A2“Internet”、“intranet”,...相关联。即,在N个最佳解A1和N个最佳解A2中的每一个中,按识别分数的降序列出五个(N=5)识别词语。在图2中示出的例子中,N个最佳解A1中的最佳解A1(具有最高识别分数的识别词语)为“CD”(识别分数为0.95)。即,即使讲话者讲出“PC”,最佳解A1也为“CD”,因而识别结果不正确。此外,N个最佳解A2中的最佳解A2(具有最高识别分数的识别词语)为“Internet”(识别分数为0.86)。此外,时间信息控制单元17分配的时间“10:00:00”(十时,零分,零秒)与N个最佳解A1相关联。时间信息控制单元17分配的时间“10:00:01”(十时,零分,一秒)与N个最佳解A2相关联。
与“PC”话语段相对应的N个最佳解B1与话语号B01相关联。识别分数0.96、0.91、0.82、0.78以及0.71分别与N个最佳解B1“PC”、“CD”、“GCC”、“KC”以及“KD”相关联。即,在N个最佳解B1中,按识别分数的降序列出五个(N=5)识别词语。在图2中示出的例子中,N个最佳解B1中的最佳解B1(具有最高识别分数的识别词语)为“PC”(识别分数为0.96)。此外,时间信息控制单元17分配的时间“10:00:05”(十时,零分,五秒)与N个最佳解B1相关联。
识别结果提取单元19从识别结果存储单元18中提取N个最佳解A(前N个最佳解)和通过话语B获得的N个最佳解B(后N个最佳解)。话语B按时间顺序接在与N个最佳解A相对应的话语A后,并且由与对应于N个最佳解A的话语A的讲话者不同的讲话者发出。在本实施方式中,假设识别结果提取单元19从识别结果存储单元18中提取与“PC”话语段相对应的N个最佳解A1,和与“PC”话语段相对应的N个最佳解B1。识别结果提取单元19将提取的N个最佳解A1和N个最佳解B1输出到关联度计算单元21。
同义词信息存储单元20存储关于识别词语的同义词的信息。同义词是具有与识别词语相同意思而与该识别词语发音不同的单词。例如,在同义词信息存储单元20中存储有针对识别词语“PC”的同义词“Pasokon”(日语词,意思是“个人计算机”)和“个人计算机”。此外,例如,在同义信息存储单元20中存储有针对识别词语“Internet”的同义词“Net”。
关联度计算单元21计算如下关联度,所述关联度表示N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解的可能性。具体来说,关联度计算单元21基于N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的解的数目,并且基于关于其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的解依据N个最佳解A1中的识别分数的排序与依据N个最佳解B1中的识别分数的排序之间的差,来计算关联度。在这种情况下,当确定N个最佳解A1中的各个解是否与N个最佳解B1中的各个解一致时,关联度计算单元21优选地参考同义词信息存储单元20。在这种设置下,即使在对应解彼此不同的情况下,当所述对应解之一与其它解的同义词一致时或者当所述对应解的同义词彼此一致时,关联度计算单元21可以确定所述对应解彼此一致。
在本实施方式中,其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的解为三个解“CD”、“PC”以及“GCC”。此外,在N个最佳解A1中,“CD”排第一,“PC”排第二,“GCC”排第五。此外,在N个最佳解B1中,“PC”排第一,“CD”排第二,“GCC”排第三。在这种情况下,在本实施方式中,关联度计算单元21使用下面描述的等式1计算关联度。在下面描述的等式1中,X、Y以及Z表示预定的正的常量。在这种情况下,在下面描述等式1中,可以采用使诸如X>Y>Z的关系成立的设置。此外,‖表示绝对值。如果N个最佳解A1中的“CD”的排序和N个最佳解B1中的“CD”的排序相同,则在下面描述的等式1中将用零除X,从而关联度为无穷大。因此,在这种情况下,在本实施方式中,用1.5X替换X/0。类似的是,当“PC”或“GCC”的排序之间不存在差时,相应的是,用1.5Y替换Y/0,或者用1.5Z替换Z/0。
[等式1]
关联度=X/(|“CD”的排序之间的差|)+Y/(|“PC”的排序之间的差|)+Z/(“GCC”的排序之间的差)
在本实施方式中,根据上面描述的等式1,关联度为X+Y+Z/2。即,上面描述的等式1是其中上面描述的解的数目越大并且上面描述的排序之间的差越小,则关联度越高的等式。另一方面,相反,上面描述的等式1是其中上面描述的解的数目越小并且上面描述的排序之间的差越大,则关联度越低的等式。在这种情况下,在上面描述的等式1中,当其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的解的数目为零时,关联度为零。关联度计算单元21将计算出的关联度输出到应答话语确定单元22。
在前述的描述中,描述了其中关联度计算单元21基于其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的解的数目并且基于关于其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的那些解依据N个最佳解A1中的识别分数的排序与依据N个最佳解B1中的识别分数的排序之间的差来计算关联度的情况。然而,本发明并不限于这种情况。即,关联度计算单元21可以基于其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的解的数目来计算关联度。另选的是,关联度计算单元21可以基于关于其中N个最佳解A1中的各个解与N个最佳解B1中的各个解一致的那些解依据N个最佳解A1中的识别分数的排序与依据N个最佳解B1中的识别分数的排序之间的差来计算关联度。
在前述描述中,描述了其中关联度计算单元21利用上面描述的等式1计算关联度的情况。然而,本发明并不限于此情况。例如,关联度计算单元21可以使用下面描述的等式1-a(其中使用了指数函数)来计算关联度。在这种情况下,在下面描述的等式1-a中,A表示预定的正的常量。即,只要关联度计算单元21可以使用其中上面描述的解的数目越大且上面描述的排序之间的差越小则关联度越高以及上面描述的解的数目越小且上面描述的排序之间的差越大则关联度越低的等式来计算关联度,则关联度计算单元21可以使用任何等式。
[等式1-a]
关联度=(X/A“CD”的排序之间的差)+(Y/A“PC”的排序之间的差)+(Z/A“GCC”的排序之间的差)
X、Y以及Z:任意正的常量。
当关联度计算单元21计算的关联度大于或等于阈值时,应答话语确定单元22确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解。在这种情况下,所述阈值被预先记录在应答话语确定单元22中设置的存储器内。该阈值由语音识别系统1的管理员设置。在本实施方式中,假设关联度计算单元21计算的关联度大于或等于阈值。因此,应答话语确定单元22确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解。
当应答话语确定单元22确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解时,重复话语确定单元23确定N个最佳解B1是否为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解。具体来说,当N个最佳解B1中的最佳解B1的识别分数大于或等于预定的识别分数时并且当满足下面描述的(1)和(2)时,重复话语确定单元23确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解。在这种情况下,在重复话语确定单元23中设置的存储器内预先记录预定的识别分数和预置的排序。预定的识别分数和预置的排序由语音识别系统1的管理员设置。
(1)N个最佳解A1中的解与N个最佳解B1中的最佳解B1一致。
(2)N个最佳解A1中与最佳解B1一致的前述解的识别分数大于或等于预定的识别分数,或者N个最佳解A1中的与最佳解B1一致的前述解位于相对于最佳解A1的预置排序或更高排序处。
在本实施方式中,最佳解B1“PC”的识别分数为0.96。在本实施方式中,假设最佳解B1“PC”的识别分数0.96大于或等于预定的识别分数。此外,在本实施方式中,最佳解B1“PC”与N个最佳解A1中的解“PC”(该解排第二)一致。即,满足前述的(1)。此外,在本实施方式中,N个最佳解A1中的解“PC”的识别分数为0.93,并且N个最佳解A1中的解“PC”排第二。在本实施方式中,假设针对N个最佳解A1中的解“PC”的识别分数0.93大于或等于预定的识别分数,并且第二排序高于或等于预置的排序。即,满足前述的(2)。因此,重复话语确定单元23确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解。
在这种情况下,当确定N个最佳解B1是否为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解时,重复话语确定单元23优选地参考同义词信息存储单元20。在这种设置中,即使在对应解彼此不同的情况下,当对应解之一与其它解的同义词一致时或者当对应解的同义词彼此一致时,重复话语确定单元23可以确定对应解彼此一致。
当重复话语确定单元23确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解时,一致确定单元24确定最佳解A1和最佳解B1是否彼此一致。当最佳解A1和最佳解B1彼此不一致时,一致确定单元24确定最佳解A1不正确。具体来说,一致确定单元24确定可以用N个最佳解B1中的一部分或全部来替换N个最佳解A1中的一部分或全部。在本实施方式中,由于最佳解A1“CD”与最佳解B1“PC”不一致,所以一致确定单元24确定可以用N个最佳解B1中的一部分或全部来替换N个最佳解A1中的一部分或全部。一致确定单元24将确定的结果输出到识别结果纠正单元25和比较处理改变单元28。
当一致确定单元24确定最佳解A1和最佳解B1彼此不一致时,识别结果纠正单元25将识别结果存储单元18(其中存储了N个最佳解A1)中的最佳解A1更新为最佳解B1。
在本实施方式中,识别结果纠正单元25将识别结果存储单元18(其中存储了N个最佳解A1)中的最佳解A1“CD”更新为最佳解B1“PC”。具体来说,识别结果纠正单元25为N个最佳解A1中的解“PC”的识别分数0.93分配权重,使得N个最佳解A1中的解“PC”的识别分数0.93大于最佳解A1“CD”的识别分数0.95。例如,识别结果纠正单元25将权重0.05加到N个最佳解A1中的解“PC”的识别分数0.93上。所以,N个最佳解A1中的解“PC”的识别分数变为0.98。识别结果纠正单元25将最佳解A1“CD”和识别分数0.95更新为最佳解A1“PC”和识别分数0.98。识别结果纠正单元25还将已经作为最佳解A1并且识别分数0.95的“CD”降为第二排序。图3示出识别结果纠正单元25更新数据之后的识别结果存储单元18中的数据结构的示例。如图3中所示出,识别结果纠正单元25将最佳解A1从“CD”更新为“PC”。
在前述描述中,描述了其中识别结果纠正单元25为N个最佳解A1中的解“PC”的识别分数0.93分配权重,使得N个最佳解A1中的解“PC”的识别分数0.93大于最佳解A1“CD”的识别分数0.95的情况。然而,本发明并不限于这种情况。例如,识别结果纠正单元25可以简单地用最佳解B1“PC”替换最佳解A1“CD”。在这种设置中,与执行加权的情况相比较,可以减小语音识别系统1的计算成本。
此外,即使当已经将最佳解A1从“CD”更新为“PC”时,识别结果纠正单元25也可以在存储器中如执行加权之前的原样来记录解“PC”和识别分数0.93。这是因为语音识别系统1的管理员可能要使用如执行加权之前的原样的解“PC”和识别分数0.93。
此外,识别结果纠正单元25可以不将识别结果存储单元18(其中存储了N个最佳解A1)中的最佳解A1“CD”更新为最佳解B1“PC”,并且可以将纠正的最佳解A1“PC”和最佳解B1“PC”输出到输出呈现单元27。
输出生成单元26包括结果输出单元26a和纠正历史记录生成单元26b。
结果输出单元26a提取识别结果存储单元18中存储的最佳解A1、最佳解A2以及最佳解B1。在本实施方式中,结果输出单元26a提取已经被识别结果纠正单元25更新的最佳解A1“PC”、最佳解A2“Internet”以及最佳解B1“PC”。结果输出单元26a将已经提取的最佳解A1“PC”、最佳解A2“Internet”以及最佳解B1“PC”输出到输出呈现单元27。
纠正历史记录生成单元26b生成表示通过识别结果纠正单元25施加的更新的历史记录的历史记录数据。在本实施方式中,识别结果纠正单元25将最佳解A1从“CD”更新为“PC”。因此,纠正历史记录生成单元26b生成表示了示出最佳解A1已经从“CD”更新为“PC”的历史记录的历史记录数据。纠正历史记录生成单元26b将生成的历史记录数据输出到输出呈现单元27。
输出呈现单元27向讲话者b(接线员)展示最佳解A1“PC”、最佳解A2“Internet”、最佳解B1“PC”以及从输出生成单元26输出的历史记录数据。图4是示出在输出呈现单元27上呈现(显示)的显示画面的示例的示意图。如图4中所示,话语A特有的话语号A01、最佳解A1“PC”、最佳解A2“Internet”、话语B特有的话语号B01以及最佳解B1“PC”被显示在输出呈现单元27上。此外,在输出呈现单元27上显示出“CD→PC”,所述“CD→PC”表示示出了最佳解已经从“CD”被纠正为“PC”的历史记录。因此,讲话者b可以查看错误识别结果的纠正的历史记录。在这种情况下,输出呈现单元27可以通过闪烁或加亮表示所述历史记录的“CD→PC”的显示来使讲话者易于看到所述历史记录。例如,输出呈现单元27包括液晶显示器、有机EL显示器、等离子显示器、CRT显示器、扬声器或者语音合成器。
在这种情况下,可以提供讲话者b借助输入装置(未示出)的操作将已经被识别结果纠正单元25从“CD”更新为“PC”的最佳解A1恢复到它的初始状态的功能(撤消功能)。具体来说,在讲话者b发出指令来执行撤消功能后,通过讲话者b对输入装置(未示出)的操作来将最佳解A1从更新之后的“PC”恢复为更新之前的“CD”。通过该操作在输出呈现单元27上将“CD→PC”的显示改变成“CD”的显示。
当一致确定单元24确定最佳解A1和最佳解B1彼此一致时,比较处理改变单元28基于共现信息和/或语义属性来改变比较单元16使用的比较方法。当最佳解A1与最佳解B1彼此一致时,解的可靠性较高。在这种情况下,共现信息是表示识别词语之间的共现关系的信息。共现关系表示可能在语句中同时出现的识别词语的组以及识别词语之间的关系。语义属性是表示识别词语的意思的属性。共现信息被预先存储在共现信息存储单元29中。语义属性被预先存储在语义属性存储单元30中。
在本实施方式中,最佳解A1“CD”和最佳解B1“PC”彼此不一致(见图2)。因此,在本实施方式中,比较处理改变单元28不执行前述处理。在本实施方式中,如果最佳解A1为“PC”,则最佳解A1“PC”与最佳解B1“PC”彼此一致。在这种情况下,比较处理改变单元28基于共现信息和/或语义属性改变比较单元16使用的比较方法。
在一例子中,比较处理改变单元28基于语义属性来改变比较单元16使用的比较方法,从而使得具有与最佳解A1与最佳解B1“PC”相关的意思的识别词语的识别分数比这些识别词语之外的其它识别词语的识别分数高。在这种情况下,假设具有与“PC”相关的意思的识别词语为与计算机术语相关的识别词语。具体来说,比较处理改变单元28向比较单元16发送指令,以例如向与计算机术语相关的识别词语分配预定的识别分数,使得与计算机术语相关的识别词语的识别分数比计算机术语之外的其它识别词语的识别分数高。即,在讲话者a与讲话者b之间的对话中,当最佳解A1和最佳解B1为“PC”时,可以确定识别结果的可靠性非常高。因此,可以确定对话内容也与计算机相关。此外,随后话语的内容与计算机相关的可能性较高。因此,当比较处理改变单元28向比较单元16发送指令以向与计算机术语相关的识别词语分配预定的识别分数时,可提高比较单元16识别的准确率。
此外,在另一例子中,比较处理改变单元28基于语义属性来改变比较单元16使用的比较方法,使得具有与最佳解A1和最佳解B1“PC”相关的意思的识别词语被设置为进行比较的识别词语,而其它识别词语被设置为不进行比较的识别词语。具体来说,比较处理改变单元28向比较单元16发送指令以将与计算机术语相关的识别词语设置为进行比较的识别词语,而将其它识别词语设置为不进行比较的识别词语。即,在讲话者a与讲话者b之间的对话中,当最佳解A1和最佳解B1为“PC”时,可以确定识别结果的可靠性非常高。因此,可以确定对话内容也与计算机相关。此外,随后话语的内容与计算机相关的可能性较高。因此,当比较处理改变单元28向比较单元16发送指令以将与计算机术语相关的识别词语设置为进行比较的识别词语,而将其它识别词语设置为不进行比较的识别词语时,可以提高比较单元16识别的准确率。
在这种情况下,在发出执行撤消功能的指令之后,讲话者b可以通过操作输入装置(未示出)来撤消由比较处理改变单元28进行的对比较单元16使用的比较方法的改变。
还可以通过在任意计算机(例如个人计算机)中安装程序来实现前述语音识别系统1。即,可通过计算机中的CPU根据执行这些组件的功能的程序进行操作来实现上面描述的语音输入单元11、输入标识单元12、声音处理单元13、比较单元16、时间信息控制单元17、识别结果提取单元19、关联度计算单元21、应答话语确定单元22、重复话语确定单元23、一致确定单元24、识别结果纠正单元25、输出生成单元26、输出呈现单元27以及比较处理改变单元28。因此,本发明的实施方式包括程序或其中记录了程序的记录介质。所述程序执行语音输入单元11、输入标识单元12、声音处理单元13、比较单元16、时间信息控制单元17、识别结果提取单元19、关联度计算单元21、应答话语确定单元22、重复话语确定单元23、一致确定单元24、识别结果纠正单元25、输出生成单元26、输出呈现单元27以及比较处理改变单元28的功能。此外,通过计算机中包括的存储单元或可以从计算机访问的存储单元实现声音模型存储单元14、语言模型存储单元15、识别结果存储单元18、同义词信息存储单元20、共现信息存储单元29以及语义属性存储单元30。
在前述语音识别系统1中,可以采用其中讲话者b可以通过操作输入装置(未示出)来发出指令以启用或禁用识别结果纠正单元25和比较处理改变单元28的功能的设置。
[语音识别系统的操作]
现在将参照图5描述与前述结构相关的语音识别系统1中的处理。
图5是示出语音识别系统1中的处理的概况的流程图。如图5中所示,当语音输入单元11已经接受两个讲话者(即讲话者a和讲话者b)之间的对话时,语音输入单元11将讲话者a发出的话语A转换成话语数据A,并且将讲话者b发出的话语B转换成话语数据B(操作Op1)。输入标识单元12将话语号A01分配给通过操作Op1中的转换获得的话语数据A,并将话语号B01分配给通过操作Op1中的转换获得的话语数据B(操作Op2)。声音处理单元13将从输入标识单元12输出的话语数据A转换成特征A,并将从输入标识单元12输出的话语数据B转换成特征B(操作Op3)。
然后,比较单元16执行前述的比较处理(操作Op4)。具体来说,比较单元16基于话语A和存储在语言模型存储单元15中的多个识别词语,利用通过操作Op3中的转换获得的特征A,来计算识别分数。作为识别分数的计算结果,假设具有最高识别分数的识别词语为最佳解A,比较单元16将从最佳解A开始的具有较高识别分数的头N(N是大于或等于1的整数)个识别词语输出为N个最佳解A。此外,比较单元16基于话语B和存储在语言模型存储单元15中的多个识别词语,利用通过操作Op3中的转换获得的特征B,来计算识别分数。作为识别分数的计算结果,假设具有最高识别分数的识别词语为最佳解B,比较单元16将从最佳解B开始的具有较高识别分数的头N(N是大于或等于1的整数)个识别词语输出为N个最佳解B。
时间信息控制单元17将表示当前时间的时间信息分配给在操作Op4中输出的N个最佳解A,并将表示当前时间的时间信息分配给在操作Op4中输出的N个最佳解B(操作Op5)。如图2中所示,已经在操作Op5中分配了时间信息的N个最佳解A和N个最佳解B被存储在识别结果存储单元18中。
然后,识别结果提取单元19从识别结果存储单元18中提取N个最佳解A和通过话语B获得的N个最佳解B。话语B按时间顺序跟随在对应于所述前N个最佳解A的话语A之后并且由与对应于所述N个最佳解A的话语A的讲话者不同的讲话者b发出。在这种情况下,假设识别结果提取单元19从识别结果存储单元18(见图2)中提取对应于“PC”话语段的N个最佳解A1和对应于“PC”话语段的N个最佳解B1。
关联度计算单元21计算表示在操作Op6中提取的N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解的可能性的关联度(操作Op7)。在这种情况下,关联度计算单元21使用前述方法计算关联度。当在操作Op7中计算的关联度大于或等于阈值时(操作Op8中为是),应答话语确定单元22确定在操作Op6中提取的N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解。然后,处理前进到操作Op9。另一方面,当在操作Op7中计算的关联度小于阈值(操作Op8中为否)时,应答话语确定单元22确定在操作Op6中提取的N个最佳解B1不是通过应答与N个最佳解A1相对应的话语A的应答话语B而获得的N个最佳解。然后,图5中的处理完成。
当重复话语确定单元23确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解时(操作Op9中为是),处理前进到操作Op10。另一方面,当重复话语确定单元23确定N个最佳解B1不是通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解时(操作Op9中为否),图5中的处理完成。
一致确定单元24确定N个最佳解A1中的最佳解A1和N个最佳解B1中的最佳解B1是否彼此一致。当一致确定单元24确定最佳解A1和最佳解B1彼此不一致时(操作Op10中为否),一致确定单元24确定可以用N个最佳解B1中的一部分或全部来替换N个最佳解A1中的一部分或全部。然后,处理前进到操作Op11。
识别结果纠正单元25将识别结果存储单元18(其中存储了N个最佳解A1)中的最佳解A1更新为最佳解B1(操作Op11)。结果输出单元26a提取存储在识别结果存储单元18中的最佳解A1、最佳解A2以及最佳解B1(操作Op12)。纠正历史记录生成单元26b生成表示操作Op11中实施的更新的历史记录的历史记录数据(操作Op13)。输出呈现单元27呈现操作Op12中提取的最佳解A1、最佳解A2以及最佳解B1和在操作Op13中生成的历史记录数据(操作Op14)。
另一方面,当一致确定单元24确定最佳解A1和最佳解B1彼此一致时(操作Op10中为是),比较处理改变单元28基于共现信息和/或语义属性来改变比较单元16使用的比较方法(操作Op15)。
如上面所描述的,在根据本实施方式的语音识别系统1中,当重复话语确定单元23确定N个最佳解B1为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解时,一致确定单元24确定最佳解A1和最佳解B1彼此一致。当最佳解A1和最佳解B1彼此不一致时,一致确定单元24确定最佳解A1不正确。一般来说,接线员经常接受培训,从而与用户相比较他们讲话更清晰。此外,接线员可以注意自己的讲话,使得可以获得识别的正确结果。此外,在呼叫中心中提供语音识别系统1的情况下,通过电话线识别用户发出的话语,而不通过电话线识别接线员的发出的话语,所以与接线员发出的话语信息相比较,用户发出的话语信息可能由于电话线中噪音的侵扰或各种滤波器的干预而严重劣化。因为这个原因,根据本发明的一致确定单元24确定可以用N个最佳解B中的一部分或全部来替换N个最佳解A中的一部分或全部。因此,在用户和接线员之间的对话中,当用户的话语被错误识别时,可以在用户未意识到该动作、接线员无需通过输入装置(例如键盘)进行操作并且不干扰对话的情况下,纠正错误识别的结果。
前述特定例子仅是根据本发明的语音识别系统1的优选实施方式。例如,可以对关联度计算单元的关联度计算和在输出呈现单元上呈现内容的处理进行各种修改。
[关联度计算单元的关联度计算处理的第一修改例]
现在以在图5中示出的操作Op7中关联度计算单元21进行的关联度计算处理的第一修改例作为示例进行描述。具体来说,关联度计算单元21基于N个最佳解A和N个最佳解B之间的时间差来计算关联度。在第一修改例中,关联度计算单元21基于由分配给N个最佳解A1的时间信息所表示的当前时间“10:00:00”与由分配给N个最佳解B1的时间信息所表示的当前时间“10:00:05”之间的时间差“5”来计算关联度。具体来说,在第一修改例中,关联度计算单元21使用下面描述的等式2来计算关联度。在下面描述的等式2中,X表示预定的正的常量。此外,‖表示绝对值。
[等式2]
关联度=X/|由分配给N个最佳解A1的时间信息所表示的当前时间与由分配给N个最佳解B1的时间信息所表示的当前时间之间的时间差|
在第一修改例中,根据上面描述的等式2,关联度为X/5。即,上面描述的等式2是其中前述的时间差越小,关联度越高的等式。另一方面,相反,上面的等式2是其中前述时间差越大,关联度越低的等式。
[关联度计算单元的关联度计算处理的第二修改例]
现在以在图5中示出的操作Op7中关联度计算单元21进行的关联度计算处理的第二修改例作为另一个示例进行描述。具体来说,关联度计算单元21按时间顺序将分别对应于P个话语段的多组N个最佳解A中的第一组N个最佳解A设置为第一N个最佳解A。关联度计算单元21还按照时间顺序将分别对应于Q个话语段的多组N个最佳解B中的第一组N个最佳解B设置为第一N个最佳解B。在这种情况下,第一N个最佳解A为N个最佳解A1。此外,第一N个最佳解B为N个最佳解B1。关联度计算单元21基于分别对应于所述Q个话语段的多组N个最佳解B中的一组N个最佳解相对于所述第一N个最佳解B的出现位置,与对应于所述一组N个最佳解B的一组N个最佳解A相对于所述第一N个最佳解A的出现位置之间的位置差来计算关联度。在这种情况下,关联度计算单元21使用上面描述的等式1或等式2来确定一组N个最佳解A是否对应于一组N个最佳解B。在第二修改例中,关联度计算单元21基于所述第一N个最佳解B1出现的位置与对应于所述第一N个最佳解B1的所述第一N个最佳解A1出现的位置之间的零差来计算关联度。具体来说,在第二修改例中,关联度计算单元21使用下面描述的等式3来计算关联度。在下面描述的等式3中,X和Y表示预定的正的常量。此外,‖表示绝对值。
[等式3]
关联度=X-Y×(|N个最佳解B1出现的位置与N个最佳解A1出现的位置之间的差|)
在第二修改例中,根据上面描述的等式3,关联度为X。即,上面描述的等式3是其中前述位置之间的差越小,关联度越高的等式。另一方面,相反,上面描述的等式3是其中前述位置之间的差越大,关联度越低的等式。
[关联度计算单元的关联度计算处理的第三修改例]
现在以在图5中示出的操作Op7中关联度计算单元21进行的关联度计算处理的第三修改例作为另一个示例进行描述。图6是示出根据第三修改例的语音识别系统1a的总体结构的框图。即,除图1中示出的语音识别系统1之外,根据第三修改例的语音识别系统1a还包括功能字典51。根据第三修改例的语音识别系统1a还包括在图1中示出的输出生成单元26中的功能单词提取单元52。在图6中,利用与图1中相同的参考标号来指示与图1所示的组件功能相同的组件,并且在此省略其详细描述。
功能字典51与话语出现的位置相关联地存储表示话语出现的位置的功能单词。图7示出功能字典51中的数据结构的示例。具体来说,功能字典51将表示话语出现的位置的功能单词和所述位置存储为功能单词表51a。在图7中示出的示例中,功能单词表51a存储表示话语出现位置的以下功能单词:“Ichi-banme”(日语单词,意思是“第一”)、“Ni-banme”(日语单词,意思是“第二”),...,“N-banme”(日语单词,意思是“第N”)、“Mazu”(日语单词,意思是“第一”)、“Tsugi”(日语单词,意思是“下一个”),...,“Owarini”(日语单词,意思是“最后”)、“Hajimeni”(日语单词,意思是“第一”),...,以及“Saigoni”(日语单词,意思是“最后”)。此外,在功能单词表51a中,以与这些功能单词相关联的方式存储这些功能单词表示的位置。在这种情况下,由语音识别系统1a的管理员预先设置存储在功能字典51中的功能单词与位置。
此外,假设第三修改例中的比较单元16从表示“Mazu PC NitsuiteDesuga”的特征B中提取两个话语段“Mazu”和“PC”。具体来说,比较单元16通过将提取的“Mazu”和“PC”话语段与存储在声音模型存储单元14中的数据进行比较来提取“Mazu”和“PC”的音素序列(符号序列)。比较单元16通过将提取的“Mazu”和“PC”的音素序列与存储在语言模型存储单元15中的多个识别词语进行比较来输出与“Mazu”和“PC”两个话语段中的每一个对应的N个最佳解B。
因此,如图8中所示,替代图2中示出的识别结果存储表18a,将识别结果存储表18b存储在第三修改例中的识别结果存储单元18内。具体来说,除了识别结果存储表18a,在识别结果存储表18b中,也将与“Mazu”话语段相对应的N个最佳解B1与话语号B01相关联。识别分数0.90、0.65,...分别与N个最佳解B1“Mazu”、“map”,...相关联。此外,时间信息控制单元17分配的时间“10:00:05”(十时,零分,五秒)与N个最佳解B1相关联。
当分别对应于Q个话语段的多组N个最佳解B中的任何一组N个最佳解B中的最佳解B与功能字典51中存储的功能单词彼此一致时,关联度计算单元21将该功能单词表示的位置设置为一组N个最佳解B出现的位置,所述一组N个最佳解B按时间顺序接在包括与所述功能单词一致的所述最佳解B的所述一组N个最佳解B后。在第三修改例中,关联度计算单元21确定最佳解B1“Mazu”和最佳解B2“PC”是否与功能单词一致。在这种情况下,最佳解B1“Mazu”与功能单词“Mazu”一致。因此,关联度计算单元21将功能单词“Mazu”表示的位置1设置为N个最佳解B2出现的位置,所述N个最佳解B2按时间顺序接在包括所述最佳解B1“Mazu”的N个最佳解B1后。即,所述N个最佳解B2成为第一N个最佳解B2,而不是第二N个最佳解B2。
和在第二修改例中一样,关联度计算单元21基于分别与Q个话语段相对应的多组N个最佳解B中的一组最佳解B相对于第一N个最佳解B的出现位置与对应于所述一组N个最佳解B的一组N个最佳解A相对于第一N个最佳解A的出现位置之间的位置差来计算关联度。在第三修改例中,关联度计算单元21基于所述第一N个最佳解B2出现的位置和对应于所述第一N个最佳解B2的所述第一N个最佳解A1出现的位置之间的零差来计算关联度。在这种情况下,用于计算关联度的等式与上面描述的等式3类似。在这种设置中,例如,即使在讲话者b讲“PC”之前,讲话者b已经发出另一话语的情况下,当讲话者b紧随讲功能单词“Mazu”之后讲出“PC”时,对应于“PC”话语段的N个最佳解B2出现的位置和对应于“PC”话语段的N个最佳解A1出现的位置也相同(第一)。因此,关联度计算单元21可以使用上面描述的等式3来计算最大关联度。因此,与其中基于时间序列上的位置之间的差来简单计算关联度的第二修改例相比,可以更精确地计算关联度。
功能单词提取单元52从功能字典51提取与分别对应于P个话语段的多组N个最佳解A在时间序列上出现的位置相对应的功能单词。如图9中所示,在讲话者a发出话语A“PC Nitsuite Oshiete.Ato Internet Mo.”之后,将N个最佳解A1和N个最佳解A2作为识别结果存储表18c存储在识别结果存储单元18中。在这种情况下,功能单词提取单元52从功能字典51中提取与分别对应于两个话语段的多组N个最佳解A在时间序列上出现的位置1和2相对应的功能单词。具体来说,功能单词提取单元52从功能字典51中提取对应于位置1的功能单词“Ichi-banme”、“Mazu”以及“Hajimeni”。功能单词提取单元52还从功能字典51中提取对应于位置2的功能单词“Ni-banme”和“Tsugi”。功能单词提取单元52将提取的功能单词输出到输出呈现单元27。
输出呈现单元27与分别对应于P个话语段的多组N个最佳解A的各个最佳解A相关联地呈现功能单词提取单元27所提取的功能单词。在第三修改例中,输出呈现单元27与最佳解A1“CD”和最佳解A2“Internet”相关联地呈现功能单词提取单元52所提取的功能单词。图10是示出在输出呈现单元27上呈现(显示)的显示画面的示例的示意图。如图10中所示,以与最佳解A1“CD”相关联的方式在输出呈现单元27上显示功能单词“Ichi-banme/Mazu/Hajimeni”。此外,以与最佳解A2“Internet”相关联的方式在输出呈现单元27上显示功能单词“Ni-banme/Tsugi”。因此,讲话者b发现,尽管讲话者a已讲出“PC”,但是识别结果(最佳解A1)为不正确的“CD”。然后,例如,讲话者b在讲了与最佳解A1“CD”相关联显示的功能单词“Ichi-banme/Mazu/Hajimeni”中的任意一个后立即重复地讲正确的识别结果(即“PC”),从而纠正错误识别的结果。具体来说,在第三修改例中,讲话者b发出话语B“Mazu PC Nitsuite Desuga.”。因此,如上面所描述的,关联度计算单元21可以使用上面描述的等式3计算最大关联度。从而,应答话语确定单元22可以可靠地确定N个最佳解B为通过应答与N个最佳解A相对应的话语A的应答话语B而获得的N个最佳解。
[关联度计算单元的关联度计算处理的第四修改例]
此外,将以在图5中示出的操作Op7内关联度计算单元21的关联度计算处理的第四修改例作为另一个示例进行描述。首先假设通过本实施方式中描述的关联度计算单元21计算的关联度为第一关联度,通过第一修改例中描述的关联度计算单元21计算的关联度为第二关联度,通过第二修改例中描述的关联度计算单元21计算的关联度为第三关联度,通过第三修改例中描述的关联度计算单元21计算的关联度为第四关联度。在这种情况下,关联度计算单元21基于全部第一到第四关联度或者第一到第四关联度的部分组合来计算关联度。例如,关联度计算单元21通过计算第一到第四关联度的和或积来计算关联度。由于基于多个关联度的组合来计算关联度,所以可计算出比前述实施方式和第一到第三修改例中的关联度更准确的关联度。
在前述描述中,描述了其中关联度计算单元21基于全部第一到第四关联度或第一到第四关联度的部分组合来计算关联度的情况。然而,本发明并不限于这种情况。例如,关联度计算单元21可以在向第一到第四关联度分配不同权重或应用不同纠正值之后再计算关联度。
此外,可以提供改变关联度计算方法的关联度计算方法改变单元。例如,关联度计算方法改变单元在关联度计算单元21基于第一和第二关联度来计算关联度的方法与关联度计算单元21基于第三和第四关联度来计算关联度的另一种方法之间执行切换。因此,关联度计算方法改变单元可以根据语音识别系统的方便性来改变用于计算关联度的方法。
此外,关联度计算单元21可以使用例如DP匹配来计算语音输入单元11接受的话语A的语音波形与语音输入单元11接受的话语B的语音波形之间的相似度,并基于该相似度计算关联度。此外,关联度计算单元21可以使用例如DP匹配来计算通过声音处理单元13的转换而获得的特征A与通过声音处理单元13的转换而获得的特征B之间的相似度,并基于该相似度计算关联度。即,只要可以计算表示N个最佳解B为通过应答与N个最佳解A相对应的话语A的应答话语B而获得的N个最佳解的可能性的关联度,关联度计算单元21可以使用任何方法。
此外,在前述描述中,描述了其中重复话语确定单元23确定N个最佳解B1是否为通过应答与N个最佳解A1相对应的话语A的重复话语B而获得的N个最佳解。然而,本发明并不限于这种情况。即,当N个最佳解B为通过按时间顺序跟随在对应于N个最佳解A的话语A之后并且由与对应于所述N个最佳解A的话语A的讲话者不同的讲话者发出话语而获得的N个最佳解时,重复话语确定单元23可以执行确定处理。
即,本发明并不限于前述实施方式和第一到第四修改例,并且可以在权利要求描述的范围内做出各种改变。因此,本发明的技术范围还覆盖了通过组合在权利要求描述的范围内适当改变的技术手段而获得的实施方式。
此外,关于前述实施方式公开了以下附属物。
如上所述,在本发明的语音识别系统和语音识别程序中,可获得以下优点:在至少两个讲话者之间的对话中,当一个讲话者的话语被错误识别时,可在该讲话者未意识到该动作而另一个讲话者无需通过诸如键盘的输入装置进行操作且不干扰该对话的情况下纠正错误识别的结果。
Claims (12)
1.一种语音识别系统,所述语音识别系统包括:
输入标识装置,所述输入标识装置用于标识接收到的话语信号的讲话者;
识别结果存储部,所述识别结果存储部用于将从最佳解开始的具有较高识别分数的头N个识别词语存储为N个最佳解,N为大于或等于1的整数,通过将与所述话语相对应的数据与多个识别词语进行比较来计算所述识别分数,具有最高识别分数的识别单词为所述最佳解;
识别结果提取装置,所述识别结果提取装置用于从所述识别结果存储部中提取N个最佳解作为后N个最佳解,所述后N个最佳解按时间顺序跟在对应于前N个最佳解的话语之后,所述前N个最佳解是作为头N个识别词语而存储在所述识别结果存储部的N个最佳解,所述后N个最佳解由与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出;
关联度计算装置,所述关联度计算装置用于计算关联度,所述关联度表示所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性;
应答话语确定装置,所述应答话语确定装置用于在所述关联度大于或等于阈值的情况下,确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解;
重复话语确定装置,所述重复话语确定装置用于在所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的情况下,确定所述后N个最佳解是否为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解;以及
一致确定装置,所述一致确定装置用于在所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的最佳解的情况下,确定前最佳解与后最佳解是否彼此一致,所述前最佳解为所述前N个最佳解中的最佳解,所述后最佳解为所述后N个最佳解中的最佳解;并且所述一致确定装置还用于在所述前最佳解与所述后最佳解彼此不一致的情况下,确定可以用所述后N个最佳解中的一部分或全部来替换所述前N个最佳解中的一部分或全部。
2.根据权利要求1所述的语音识别系统,所述语音识别系统还包括:
识别结果纠正装置,所述识别结果纠正装置用于在所述一致确定装置确定所述前最佳解与所述后最佳解彼此不一致的情况下,将所述识别结果存储部中的所述前最佳解更新为所述后最佳解,所述识别结果存储部存储所述前N个最佳解;以及
结果输出装置,所述结果输出装置用于输出由所述识别结果纠正装置更新的所述后最佳解。
3.根据权利要求2所述的语音识别系统,所述语音识别系统还包括:
纠正历史记录生成装置,所述纠正历史记录生成装置用于生成表示所述识别结果纠正装置实施的更新的历史记录的历史记录数据;以及
输出呈现装置,所述输出呈现装置用于呈现由所述纠正历史记录生成装置生成的所述历史记录数据。
4.根据权利要求1所述的语音识别系统,其中,在所述应答话语确定装置确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的情况下,当所述后N个最佳解中的所述后最佳解的识别分数大于或等于预定识别分数时,并且当同时满足第一条件和第二条件时,所述重复话语确定装置确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解,所述第一条件为所述前N个最佳解中的解与所述后N个最佳解中的所述后最佳解一致,所述第二条件为所述前N个最佳解中与所述后最佳解一致的前述解的识别分数大于或等于预定识别分数,或者所述前N个最佳解中与所述后最佳解一致的前述解被置于相对于所述前最佳解的预置排序或更高排序处。
5.根据权利要求1所述的语音识别系统,所述语音识别系统还包括:
存储共现信息的共现信息存储部和/或存储语义属性的语义属性存储部,所述共现信息表示识别词语之间的共现关系,所述语义属性表示识别词语的意思;以及
比较处理改变装置,所述比较处理改变装置用于在所述前最佳解和所述后最佳解彼此一致的情况下,基于所述共现信息和/或所述语义属性来改变用于比较话语和多个识别词语的方法。
6.根据权利要求1所述的语音识别系统,其中,所述关联度计算装置基于以下项目中的至少一个来计算关联度:所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解的数目;在所述前N个最佳解中基于识别分数的排序和在所述后N个最佳解中基于识别分数的排序之间的差,所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致;输出所述前N个最佳解的时间和输出所述后N个最佳解的时间之间的时间差;在通过比较第一话语和多个识别词语来获得多组所述前N个最佳解,并且通过比较由与所述第一话语的讲话者不同的讲话者发出的第二话语和所述多个识别词语来获得多组所述后N个最佳解的情况下,所述多组所述前N个最佳解在时间序列上的出现位置与所述多组所述后N个最佳解在时间序列上的出现位置之间的差。
7.根据权利要求6所述的语音识别系统,其中,所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解的数目越大,并且对于所述前N个最佳解中的各个解与所述后N个最佳解中的各个解一致的解,在所述前N个最佳解中基于识别分数的排序与在所述后N个最佳解中基于识别分数的排序之间的差越小,则所述关联度计算装置计算出的关联度越高。
8.根据权利要求6所述的语音识别系统,所述语音识别系统还包括:
时间信息控制装置,所述时间信息控制装置用于将表示当前时间的时间信息分配给所述N个最佳解,并且用于将包括所分配的时间信息的所述N个最佳解写到所述识别结果存储部中,
其中,分配给所述前N个最佳解的时间信息表示的当前时间与分配给所述后N个最佳解的时间信息表示的当前时间之间的时间差越小,则所述关联度计算装置计算出的关联度越高。
9.根据权利要求6所述的语音识别系统,其中,在通过比较第一话语和多个识别词语来获得多组所述前N个最佳解并且通过比较由与所述第一话语的讲话者不同的讲话者发出的第二话语和所述多个识别词语来获得多组所述后N个最佳解的情况下,所述多组所述前N个最佳解在时间序列上的出现位置与所述多组所述后N个最佳解在时间序列上的出现位置之间的差越小,则所述关联度计算装置计算出的关联度越高。
10.根据权利要求9所述的语音识别系统,所述语音识别系统还包括:
功能字典,所述功能字典用于与话语的出现位置相关联地存储表示所述位置的功能单词,
其中,当所述多组所述后N个最佳解中的任一组所述后N个最佳解中的后最佳解与一功能单词一致时,所述关联度计算装置将所述功能单词表示的位置设置为一组后N个最佳解的出现位置,所述一组后N个最佳解按时间顺序紧接在包括与所述功能单词一致的所述后最佳解的所述任一组所述后N个最佳解之后。
11.根据权利要求10所述的语音识别系统,所述语音识别系统还包括:
纠正历史记录生成装置,所述纠正历史记录生成装置用于生成表示识别结果纠正装置实施的更新的历史记录的历史记录数据;以及
输出呈现装置,所述输出呈现装置用于呈现由所述纠正历史记录生成装置生成的所述历史记录数据;
功能单词提取装置,所述功能单词提取装置从所述功能字典中提取与所述多组所述前N个最佳解在时间序列上的出现位置相对应的功能单词,
其中,所述输出呈现装置与所述多组所述前N个最佳解的各个前最佳解相关联地呈现由所述功能单词提取装置提取的功能单词。
12.一种语音识别方法,所述语音识别方法包括以下步骤:
由输入标识装置标识接收到的话语信号的讲话者;
由识别结果存储部将从最佳解开始的具有较高识别分数的头N个识别词语存储为N个最佳解,N为大于或等于1的整数,通过将与所述话语相对应的数据与多个识别词语进行比较来计算所述识别分数,具有最高识别分数的识别单词为所述最佳解;
由识别结果提取装置从所述识别结果存储部中提取N个最佳解作为后N个最佳解,所述后N个最佳解按时间顺序跟在对应于前N个最佳解的话语之后,所述前N个最佳解是作为头N个识别词语而存储在所述识别结果存储部的N个最佳解,所述后N个最佳解由与对应于所述前N个最佳解的话语的讲话者不同的讲话者发出;
由关联度计算装置计算关联度,所述关联度表示所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的可能性;
由应答话语确定装置在所述关联度大于或等于阈值的情况下,确定所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解;
由重复话语确定装置在所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的应答话语而获得的N个最佳解的情况下,确定所述后N个最佳解是否为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的N个最佳解;以及
由一致确定装置在所述后N个最佳解为通过应答与所述前N个最佳解相对应的话语的重复话语而获得的最佳解的情况下,确定前最佳解与后最佳解是否彼此一致,所述前最佳解为所述前N个最佳解中的最佳解,所述后最佳解为所述后N个最佳解中的最佳解;并且所述一致确定装置还用于在所述前最佳解与所述后最佳解彼此不一致的情况下,确定可以用所述后N个最佳解中的一部分或全部来替换所述前N个最佳解中的一部分或全部。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007-069123 | 2007-03-16 | ||
JP2007069123A JP4812029B2 (ja) | 2007-03-16 | 2007-03-16 | 音声認識システム、および、音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101266792A CN101266792A (zh) | 2008-09-17 |
CN101266792B true CN101266792B (zh) | 2012-11-14 |
Family
ID=39327071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100860661A Expired - Fee Related CN101266792B (zh) | 2007-03-16 | 2008-03-14 | 语音识别系统和语音识别方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8346553B2 (zh) |
EP (1) | EP1970898A1 (zh) |
JP (1) | JP4812029B2 (zh) |
CN (1) | CN101266792B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004473A1 (en) * | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
US20120239400A1 (en) * | 2009-11-25 | 2012-09-20 | Nrc Corporation | Speech data analysis device, speech data analysis method and speech data analysis program |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US8407242B2 (en) * | 2010-12-16 | 2013-03-26 | Microsoft Corporation | Temporal binding for semantic queries |
EP2727020A4 (en) * | 2011-06-29 | 2015-07-08 | Hewlett Packard Development Co | PROVIDING SERVICES USING UNIFIED COMMUNICATION CONTENT |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
EP2744408B1 (en) * | 2011-10-20 | 2022-02-16 | Koninklijke Philips N.V. | A system for characterizing an upper airway using speech characteristics |
JP6059730B2 (ja) | 2011-10-20 | 2017-01-11 | ヴァングラ,アルバート | 合わせガラス切断用の携帯ツール |
CN102496366B (zh) * | 2011-12-20 | 2014-04-09 | 上海理工大学 | 一种与文本无关的说话人识别方法 |
CN103426428B (zh) * | 2012-05-18 | 2016-05-25 | 华硕电脑股份有限公司 | 语音识别方法及系统 |
CN102760434A (zh) | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
KR101404246B1 (ko) * | 2012-10-29 | 2014-06-05 | 포항공과대학교 산학협력단 | 발화 인식 성능 향상 시스템 및 방법 |
CN103020047A (zh) * | 2012-12-31 | 2013-04-03 | 威盛电子股份有限公司 | 修正语音应答的方法及自然语言对话系统 |
US9858038B2 (en) * | 2013-02-01 | 2018-01-02 | Nuance Communications, Inc. | Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems |
DE112013006728B4 (de) * | 2013-02-25 | 2020-10-01 | Mitsubishi Electric Corporation | Spracherkennungssystem und Spracherkennungsgerät |
JP5877823B2 (ja) * | 2013-08-27 | 2016-03-08 | ヤフー株式会社 | 音声認識装置、音声認識方法、およびプログラム |
CN103578467B (zh) * | 2013-10-18 | 2017-01-18 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN104978971B (zh) * | 2014-04-08 | 2019-04-05 | 科大讯飞股份有限公司 | 一种口语评测方法及系统 |
US10115394B2 (en) * | 2014-07-08 | 2018-10-30 | Mitsubishi Electric Corporation | Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
KR102371697B1 (ko) * | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
KR101595090B1 (ko) * | 2015-04-30 | 2016-02-17 | 주식회사 아마다스 | 음성 인식을 이용한 정보 검색 방법 및 장치 |
CN105869642B (zh) * | 2016-03-25 | 2019-09-20 | 海信集团有限公司 | 一种语音文本的纠错方法及装置 |
CN109145145A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
JP6718182B1 (ja) * | 2019-05-08 | 2020-07-08 | 株式会社インタラクティブソリューションズ | 誤変換辞書作成システム |
JP7463690B2 (ja) * | 2019-10-31 | 2024-04-09 | 株式会社リコー | サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体 |
US11829720B2 (en) * | 2020-09-01 | 2023-11-28 | Apple Inc. | Analysis and validation of language models |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004012431A1 (en) * | 2002-07-29 | 2004-02-05 | British Telecommunications Public Limited Company | Improvements in or relating to information provision for call centres |
CN1474379A (zh) * | 2002-07-02 | 2004-02-11 | �ձ������ȷ湫˾ | 语音识别/响应系统、语音/识别响应程序及其记录介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3284832B2 (ja) * | 1995-06-22 | 2002-05-20 | セイコーエプソン株式会社 | 音声認識対話処理方法および音声認識対話装置 |
JP3810551B2 (ja) * | 1997-03-18 | 2006-08-16 | 株式会社エヌ・ティ・ティ・データ | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 |
JPH11149294A (ja) | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JP3886024B2 (ja) * | 1997-11-19 | 2007-02-28 | 富士通株式会社 | 音声認識装置及びそれを用いた情報処理装置 |
JP2000137496A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu I-Network Systems Ltd | 音声認識による電話番号検索方式およびシステム |
JP2000250590A (ja) * | 1999-03-04 | 2000-09-14 | Kdd Corp | 音声認識システム及び音声認識方法 |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US20020052913A1 (en) * | 2000-09-06 | 2002-05-02 | Teruhiro Yamada | User support apparatus and system using agents |
JP2002175316A (ja) * | 2000-12-07 | 2002-06-21 | Sanyo Electric Co Ltd | ユーザ支援装置およびシステム |
EP1376999A1 (en) * | 2002-06-21 | 2004-01-02 | BRITISH TELECOMMUNICATIONS public limited company | Spoken alpha-numeric sequence entry system with repair mode |
JP2005123869A (ja) | 2003-10-16 | 2005-05-12 | Advanced Media Inc | 通話内容書き起こしシステムおよび通話内容書き起こし方法 |
GB0411377D0 (en) * | 2004-05-21 | 2004-06-23 | Univ Belfast | Dialogue manager |
US7672845B2 (en) | 2004-06-22 | 2010-03-02 | International Business Machines Corporation | Method and system for keyword detection using voice-recognition |
JP4324089B2 (ja) * | 2004-12-17 | 2009-09-02 | 富士通株式会社 | 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法 |
JP4804019B2 (ja) | 2005-03-17 | 2011-10-26 | 日本ゴア株式会社 | ガスケット及びその製造方法 |
US8041570B2 (en) * | 2005-05-31 | 2011-10-18 | Robert Bosch Corporation | Dialogue management using scripts |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
JP4567606B2 (ja) * | 2006-01-05 | 2010-10-20 | 富士通株式会社 | 音声データの聞き出し部分特定処理プログラムおよび処理装置 |
JP4272658B2 (ja) * | 2006-02-14 | 2009-06-03 | 三菱電機インフォメーションシステムズ株式会社 | オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム |
-
2007
- 2007-03-16 JP JP2007069123A patent/JP4812029B2/ja not_active Expired - Fee Related
-
2008
- 2008-02-21 US US12/034,978 patent/US8346553B2/en not_active Expired - Fee Related
- 2008-03-06 EP EP08004158A patent/EP1970898A1/en not_active Withdrawn
- 2008-03-14 CN CN2008100860661A patent/CN101266792B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1474379A (zh) * | 2002-07-02 | 2004-02-11 | �ձ������ȷ湫˾ | 语音识别/响应系统、语音/识别响应程序及其记录介质 |
WO2004012431A1 (en) * | 2002-07-29 | 2004-02-05 | British Telecommunications Public Limited Company | Improvements in or relating to information provision for call centres |
Non-Patent Citations (2)
Title |
---|
JP特开2005-123869A 2005.05.12 |
JP特开平11-149294A 1999.06.02 |
Also Published As
Publication number | Publication date |
---|---|
US8346553B2 (en) | 2013-01-01 |
US20080228482A1 (en) | 2008-09-18 |
EP1970898A1 (en) | 2008-09-17 |
JP2008233229A (ja) | 2008-10-02 |
CN101266792A (zh) | 2008-09-17 |
JP4812029B2 (ja) | 2011-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101266792B (zh) | 语音识别系统和语音识别方法 | |
CN111246027B (zh) | 一种实现人机协同的语音通讯系统及方法 | |
Rudnicky et al. | Survey of current speech technology | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7383182B2 (en) | Systems and methods for speech recognition and separate dialect identification | |
US5615296A (en) | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors | |
US8285546B2 (en) | Method and system for identifying and correcting accent-induced speech recognition difficulties | |
CN1280782C (zh) | 给用户提供声音反馈的可扩展语音识别系统 | |
US5995928A (en) | Method and apparatus for continuous spelling speech recognition with early identification | |
US7640159B2 (en) | System and method of speech recognition for non-native speakers of a language | |
US6975986B2 (en) | Voice spelling in an audio-only interface | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
EP3504709A1 (en) | Determining phonetic relationships | |
US20090220926A1 (en) | System and Method for Correcting Speech | |
CN111916062B (zh) | 语音识别方法、装置和系统 | |
EP1899955B1 (en) | Speech dialog method and system | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
KR20010092645A (ko) | 클라이언트-서버 음성정보 전송 시스템 및 방법 | |
CN115019787A (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
JP2002268680A (ja) | 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術 | |
Lee | The conversational computer: an apple perspective. | |
EP1554864B1 (en) | Directory assistant method and apparatus | |
Furui | Toward the ultimate synthesis/recognition system. | |
KR20040008546A (ko) | 연속 음성인식 기기의 오인식 수정 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121114 Termination date: 20150314 |
|
EXPY | Termination of patent right or utility model |