CN101111885A - 使用抽出的声音数据生成应答声音的声音识别系统 - Google Patents
使用抽出的声音数据生成应答声音的声音识别系统 Download PDFInfo
- Publication number
- CN101111885A CN101111885A CNA2006800036948A CN200680003694A CN101111885A CN 101111885 A CN101111885 A CN 101111885A CN A2006800036948 A CNA2006800036948 A CN A2006800036948A CN 200680003694 A CN200680003694 A CN 200680003694A CN 101111885 A CN101111885 A CN 101111885A
- Authority
- CN
- China
- Prior art keywords
- sound
- word
- voice data
- user
- replying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004321 preservation Methods 0.000 claims 2
- 238000000034 method Methods 0.000 abstract description 40
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract 2
- 239000010977 jade Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005755 formation reaction Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
提供使用声音识别技术、进行基于通过用户的声音输入的应答的声音识别系统、声音识别装置以及声音生成程序。本发明是根据用户发出的声音的输入进行应答的声音识别系统,具有:把用户发出的声音变换为声音数据的声音输入部;识别构成声音数据的单词的组合、计算每一单词的识别的可信度的声音识别部;生成应答声音的应答生成部;和使用应答声音向用户传达信息的声音输出部;应答生成部,对于计算出来的可信度满足规定条件的单词,生成该单词的合成声音,而对于计算出来的可信度不满足规定条件的单词,从声音数据抽出与该单词对应的部分,通过合成声音和/或抽出的声音数据的组合生成应答声音。
Description
技术领域
本发明涉及使用声音识别技术进行基于通过用户的声音的输入的应答的声音识别系统、声音识别装置以及声音生成程序。
背景技术
现在的声音识别技术,学习关于由大量的声音数据构成发音的单位标准模式的音响模型,与作为识别对象的词汇组的辞典对照,连接单位标准模式的音响模型,由此,制作对照用的模式。
该单位标准模式,使用使用音节的方法、或者元音的恒定部、辅音的恒定部、进而由它们的转移状态组成的音素片等。另外,作为其表现方法,使用HMM(Hidden Markov Models(隐式马尔科夫模型))技术。
这样的方式,换言之,是由大量的数据制成的标准模式和输入信号的模式匹配技术。
另外,例如在把“放大音量”“减小音量”这样的两个句子作为识别对象的场合,公知把各个句子全体作为识别对象的方法、和将构成句子的部分在辞典上作为词汇登记,把词汇的组合作为识别对象的方法。
另外,声音识别的结果,用在画面上显示识别结果字符串的方法、使用声音合成把识别结果字符串变换为合成声音再生的方法、或者根据识别结果再生预先录音的声音的方法等通知用户。
另外,还公知这样的方法:不是单纯地通知声音识别的结果,而是用在识别结果的单词或者句子后包含敦促“可以吗?”这样的确认的句子的文字显示或者合成声音,进行和用户的对话。
另外,现在的声音识别技术,一般是从作为识别对象词汇登记的词汇中选择最类似用户的发音的词汇作为识别结果,同时输出该识别结果的可靠性尺度的可信度。
作为计算识别结果的可信度的方法,例如在特开平4-255900号公报中,公开了用比较对照部2计算输入声音的特征矢量V和预先登记的多个标准模式的类似度的技术。此时,把给出类似度最大值S的标准模式作为识别结果求出。并行地,用参照类似度计算部4比较对照特征矢量V和结合单位标准模式存储部3的单位标准模式的标准模式。这里,把类似度的最大值作为参照类似度R输出。接着在类似度修正部5中,有使用参照类似度R修正类似度S的声音识别装置。通过该类似度能够算出可信度。
作为可信度的利用方法,公知在识别结果的可信度低的场合,向用户通知不能正常识别的方法。
另外,在特开平6-110650号公报中,公开了这样的方法:在人名等关键词的数目多、登记全部关键词模式困难的场合,通过登记不能成为关键词的模式,抽出关键词部分,组合录音了用户发音的声音的语音中的关键词部分和系统预先准备的声音,生成应答声音。
发明内容
如上所述,在基于辞典和模式匹配技术的现在的声音识别系统中,不能完全防止将用户的发音弄错为辞典中的其他的词汇的误识别的发生。另外,在把词汇的组合作为识别对象的方式中,因为也需要包含用户发音的哪个部分和哪个词汇对应进行正确识别,所以由于对于一个词汇与弄错的部分对应来进行了识别,由于对应的偏离的波及有时其他的单词也会产生误识别。另外,在发音未在辞典上登记的词汇的场合,原理上不能正确进行识别。
为有效利用这样的不完全的识别技术,需要向用户正确地传达能够正确识别用户发音的哪个部分、不能够正确识别哪个部分。但是,现有技术向用户用画面或者声音通知识别结果字符串的方法、或者在可信度低的场合仅向用户通知不能正常进行识别,不能充分满足该要求。
本发明是鉴于上述问题提出的,其特征在于,根据构成声音识别结果的各词汇的可信度,可信度高的词汇使用合成声音,可信度低的词汇使用与该词汇对应的用户发音的片断,生成向用户通知的反馈声音。
本发明是根据用户发出的声音的输入进行应答的声音识别系统,其特征在于,具有:把用户发出的声音变换为声音数据的声音输入部;识别构成声音数据的单词的组合、计算每一单词的识别的可信度的声音识别部;生成应答声音的应答生成部;和使用应答声音向用户传达信息的声音输出部;应答生成部,对于计算出来的可信度满足规定条件的单词,生成该单词的合成声音,对于计算出来的可信度不满足规定条件的单词,从声音数据抽出与该单词对应的部分,通过合成声音和/或抽出的声音数据的组合生成应答声音。
能够提供一种声音识别系统,其直觉上可理解用户发言的哪个部分能够识别、哪个部分不能够识别。另外,能够提供一种声音识别系统,其在声音识别系统进行错误地确认的场合,因为通知用户的片断的用户自身的发音,在发音的中途被切断等、直觉上认为不正常的形态下被再生,所以能够理解未正常进行声音识别。
附图说明
图1是本发明的实施形态的声音识别系统的结构框图。
图2是表示本发明的实施形态的应答生成部的动作的流程图。
图3是本发明的实施形态的应答声音的一例。
图4是本发明的实施形态的应答声音的多例。
具体实施方式
下面参照附图说明本发明的实施形态的声音识别系统。
图1是本发明的实施形态的声音识别系统的结构框图。
本发明的声音识别系统,由声音输入部101、声音识别部102、应答生成部103、声音输出部104、音响模型存储部105、辞典·识别语法存储部106构成。
声音输入部101,接收用户发出的声音,变换为数字信号形式的声音数据。声音输入部101,例如由麦克风和A/D变换器构成,把通过麦克风输入的声音信号通过A/D变换器变换为数字信号。变换后的数字信号(声音数据)向声音识别部102或者应答生成部103传送。
音响模型存储部105,作为数据库存储音响模型。音响模型存储部105,例如由硬盘或者ROM构成。
所谓音响模型,是用统计模型表现用户的发音作为什么样的声音数据得到的数据。该音响模型,模型化为音节(例如“あ”、“い”等的每个单位)。模型化的单位,除音节单位外,也可以使用音素片单位。所谓音素片单位,是把元音、辅音、静音作为恒定部、把从元音到辅音、从辅音到元音那样在不同的恒定部之间移动的部分作为转移部模型化了的数据。例如,“あき”这样的单词,被分割为“静音”“静音a”“a”“ak”“k”“ki”“i”“i静音”“静音”。另外,作为统计模型化的方法,可以使用HMM等。
辞典·识别语法存储部106,存储辞典数据以及识别语法数据。辞典·识别语法存储部106例如通过硬盘或者ROM等构成。
该辞典数据以及识别语法数据是关于多个单词以及句子的组合的信息。具体说,是为将上述音响模型化了的单位做成为有效的单词或者句子指定怎样进行组合的数据。辞典数据是指定像上述例子的“あき”那样的音节的组合的数据。识别语法数据是指定系统接受的单词的组合的集合的数据。例如,为系统接受“東京駅へ行く(去东京站)”这样的发音,需要在识别语法数据中包含“東京駅”“へ”“行く”这样的3个单词的组合。另外,事先给识别语法数据赋予各单词的分类信息。例如,可以把“東京駅”这样的单词进行为“场所”这样的分类,把“行く”这样的单词进行“命令”这样的分类。另外,给“へ”这样的单词赋予“非关键词”这样的分类。“非关键词”这样分类的单词赋予即使该单词被识别也不影响系统动作的单词。反之,通过识别“非关键词”以外的分类的单词,就成为给与系统某种影响的关键词。例如,在识别了分类为“命令”的单词的场合,进行与所识别的单词相当的功能的调用,作为“场所”被识别的单词可以作为调用功能时的参数使用。
声音识别部102,根据通过声音输入部变换后的声音数据取得识别结果,计算类似度。声音识别部102,根据声音数据,使用辞典·识别语法存储部106的辞典数据或者识别语法数据、和音响模型存储部105的音响模型,取得音响模型的组合指定的单词或者句子。计算该取得的单词或者句子和该声音数据的类似度。然后,输出类似度高的单词或者句子的识别结果。
此外,在句子中包含构成该句子的多个单词。于是,给构成识别结果的各个单词赋予可信度。合并成识别结果输出。
该类似度可以通过在特开平4-255900号公报中记载的方法计算。另外,在计算类似度时,可以使用Viterbi算法来求构成识别结果的各个单词和声音数据的哪一部分对应时类似度成为最高。使用这点,把表示各个单词对应的声音数据的部分的区间信息与识别结果合并输出。具体说,输出就其在每一规定区间(例如10ms)输入的声音数据(称为帧)和构成单词的音素片的对应而言能够使类似度最高时的信息。
应答生成部103,根据从声音识别部102输出的赋予了可信度的识别结果生成应答声音数据。该应答生成部103的处理后述。
声音输出部104,把应答生成部103生成的数字信号形式的应答声音数据变换为人可听到的声音。声音输出部104例如用D/A变换器和扬声器构成。输入的声音数据通过D/A变换器变换为模拟信号,变换后的模拟信号(声音信号)通过扬声器向用户输出。
下面说明应答生成部103的动作。
图2是表示应答生成部103的处理的流程图。
当从声音识别部102输出赋予了可信度的识别结果时,执行该处理。
首先,选择在输入的识别结果中包含的关于最初的关键词的信息(S1001)。识别结果,因为成为根据区间信息区分开来的原来的声音数据的时序顺序的单词单位,所以首先选择时序开头的关键词。分类为非关键词的单词,因为也是对应答声音无影响的单词,所以忽略。另外,在识别结果中,因为给每一单词赋予可信度以及区间信息,所以选择赋予该单词的可信度以及区间信息。
接着,判定所选择的关键词的可信度是否在规定的阈值以上(S1002)。在判定可信度在阈值以上的场合,转移到步骤S1004,在判定不到阈值的场合,转移到步骤S1003。
在判定所选择的关键词的可信度在规定的阈值以上的场合,通过辞典数据或者识别语法数据指定的音响模型的组合不差于输入的声音数据的发音,是充分识别了该关键词的情况。在这一场合,合成识别结果的关键词的合成声音,变换为声音数据(S1003)。这里,用本步骤进行实际的声音合成处理,但是也可以用步骤S1008的应答声音生成处理汇总成系统准备的应答句子来进行声音合成处理。不管哪种方法,都通过使用相同的声音合成引擎,以高可信度识别的关键词,能够以和系统准备的应答句子相同的音质没有不谐调感地进行合成。
另一方面,在判定所选择的关键词的可信度比规定的阈值低的场合,通过辞典数据或者识别语法数据指定的音响模型数据的组合和输入的声音数据的发音相差甚远,是不能充分识别该关键词的场合。在该场合,不生成合成声音,把用户的发音原样不变作为声音数据。具体说,使用赋予识别结果的单词的区间信息,抽出与声音数据的单词对应的部分。把该抽出的声音数据作为输出的声音数据(S1004)。由此,可信度低的部分,因为成为和系统准备的应答句子、或者可信度高的部分不同的音质,所以用户能够容易地理解哪一部分是可信度低的部分。
通过步骤S1003以及步骤S1004,可以得到与识别结果的关键词对应的声音数据。然后,把该声音数据作为与识别结果的单词关联的数据保存(S1005)。
接着,判定在输入的识别结果中是否有下一关键词(S1006)。因为识别结果成为原来的声音数据的时序顺序,所以判定是否有通过步骤S1002到步骤S1005的处理的下一顺序的关键词。在判定为有下一关键词的场合,选择该关键词(S1007)。然后执行上述步骤S1002到步骤S1006的处理。
另一方面,在判定不再有下一关键词的场合,对于在识别结果中包含的所有的关键词,结束对应的声音数据的赋予。因此,使用赋予该声音数据的识别结果,执行应答声音生成处理(S1008)。
该应答声音生成处理,使用与在识别结果中包含的全部关键词对应的声音数据,生成为向用户通知的应答声音数据。
在应答声音生成处理中,例如,或者组合与关键词对应的声音数据,或者和另外准备的声音数据组合,生成向用户表示声音识别的结果或者不能良好进行声音识别的地方(可信度不到规定的阈值的关键词)的应答声音。
声音数据的组合方法,因为根据系统和用户进行怎样的对话、是什么样的状况而变化,所以需要对应状况使用为变更声音数据的组合的程序或者对话场景。
在本实施例中,使用下面的例子说明声音应答生成处理。
(1)用户的发音是“琦玉の大宫公園(琦玉的大宫公园)”。
(2)构成识别结果的单词是“琦玉”“の”“大宫公園”三个,关键词是“琦玉”“大宫公園”两个。
(3)比规定的阈值可信度高的单词仅是“琦玉”。
首先说明第一方法。第一方法是对于用户表示用户发出的声音的识别结果的方法。具体说,生成联系与识别结果的关键词对应的声音数据和“の”或者“でいいですか?(可以吗?)”这样的系统准备的确认的话语的声音数据的应答声音数据(参照图3)。
在第一方法中,通过用声音合成制成的声音数据“琦玉”(图3中用下划线表示)、从用户的发音的声音数据中抽出的声音数据“おおみやこ(大宫)”(在图3中用斜体表示)、以及用声音合成制成的声音数据“の”“でいいですか?”(图3中用下划线表示)的组合制作应答声音,向用户应答。亦即,把可信度比规定的阈值小的、有误识别的可能性的“おおみやこ”的部分,以用户发出的声音原样不变应答。
通过这样做,例如声音识别部102,即使在把“大宫公園”误识别为“大和田公園”的场合,用户作为应答声音会听到自己发出的“大宫公園”这样的声音。因此,在识别结果中,能够确认通过声音合成生成的单词,亦即可信度在规定的阈值以上的单词(“琦玉”)的识别结果是否正确,而且,能够确认可信度比规定的阈值小的单词(“大宫公園”)是否已由系统正确录音。例如,在未正确录音用户发音的后面的部分的场合,用户就听到“琦玉”“の”“おおみやこ”“でいいですか?”那样的询问。因此,用户能够理解是否正确判断系统判断的各单词的区间信息后进行了录音,可以尝试再输入。
该方法例如适合于用声音识别系统进行按县汇总关于喜欢的公园的口头的民意调查的作业的场合。在这种场合,声音识别系统,能够根据声音识别结果自动汇总按不同县的件数。另外,识别结果的可信度低的“大宫公園”的部分,通过后来使用操作员听后输入等的方法来应对。
因此,在第一方法中,用户能够确认用户的声音被正确识别的部分,而且不能被正确识别的声音,用户能够确认在系统中已被正确地录音了。
下面说明第二方法。第二方法是在怀疑识别结果的场合对于用户仅询问那一部分的方法。具体说,是在识别结果的可信度低的“大宫公園”上组合“の部分がうまく闻き取れませんでした(的部分未清楚地听到)”这样的确认的话语声音数据的方法(参照图4)。
在该第二方法中,通过从用户发音的声音数据中抽出的声音数据“大宫公園”(图4中用斜体表示)、以及用声音合成制作的声音数据“の部分がうまく闻き取れませんでした”(图4中用下划线表示)的组合制作应答声音,向用户应答。亦即,对可信度比规定的阈值小的、有误识别的可能性的“大宫公園”的部分,用用户发出的声音原样不变应答。并且,对用户应答该声音的未很好的进行识别。此后,向用户应答再次输入声音等的指示。
此外,“大宫公園”的部分的识别结果作为“大宫”、“公園”两个单词被识别,进而在仅“公園”的部分的可信度在规定的阈值以上的场合,有下面那样的应答方法。亦即,如上述,在应答成用户发音的声音数据“大宫公園”以及声音合成的声音数据“が分かりません(不明白)”后,通过生成“どちらの公園ですか(哪个公园)?”“天沼公園のように发声して下きい(请像天沼公园那样发音)”等的声音进行应答,催促用户再发音。此外,在后者的场合,因为当把识别结果的可信度低的单词“大宫公園”作为例子用于应答时有给用户造成混乱的可能性,所以希望避免。
因此,在第二方法中,能够向用户明确地传达:用户发音中的哪个部分能被识别、哪个部分不能被识别。另外,在用户发音成“琦玉の大宫公園”时,在“大宫公園”的部分由于周围的杂音变大而可信度降低的场合,因为在应答声音的“大宫公園”的部分周围的杂音也变大,所以用户容易理解周围杂音是不能识别的原因。在这种场合,用户通过或者在周围杂音小的时刻尝试发音,或者向周围杂音低的场所移动,在乘车的场合或者停车,可以想方设法降低周围杂音的影响。
另外,在“大宫公園”的部分的发音过小、不能接收声音数据的场合,与用户听到的应答声音的“大宫公園”对应的部分成为无声,容易理解:系统不能接收“大宫公園”的部分。在这一场合,用户通过或者尝试用大的声音发音,或者把嘴靠近麦克风发音,能够设法确实接收声音。
进而,在识别结果的单词像“琦玉”“の大”“宫公園”那样误分割单词的场合,因为用户听到的应答声音成为“宫公園”,用户容易理解为:系统对应失败了。用户,即使在声音识别的结果错误的场合,因为在弄错为非常相似的单词出的场合,即使在人们彼此的会话中也有可能出现,所以可能允许误识别,但是在误识别为完全不同的发音的单词的场合,对于声音识别系统,就有可能会产生大的不信任感。
如上述,通过让用户知道对应的失败,用户就能够推定误识别的理由,可以期待得到某种程度的理解。
另外,在上述的例子中,至少“琦玉”的部分的单词可信度在规定值以上,能够正确地识别。因此,把声音识别部102使用的辞典·识别语法存储部106的数据限定为关于琦玉县的公园的内容。通过这样做,在下次的声音输入(例如下次用户的发音)中,“大宫公園”的部分的识别率会提高。
作为使用用户的发音的声音数据中、可信度高的被识别的部分,来提高多个部分的识别率的方法,有以下说明的方法。
具体说,在不仅公园的名字,而且关于所有的设施的民意调查中,当对应用户发音的“xx县的yy”这样的发音时,该组合的数目庞大,声音识别的识别率降低。进而,系统的处理量或者需要的存储器量是不实用的。因此,最初,不正确识别“yy”的部分,而识别“xx”的部分。然后,使用被识别的“xx县”,使用该xx县限定的辞典数据以及识别语法数据,识别“yy”的部分。
当使用“xx县”限定的辞典数据以及识别语法数据时,“yy”的部分的识别率提高。在这一场合,在用户发音的声音数据的全部单词被正确识别、可信度在规定的阈值以上的场合,成为全部通过声音合成的应答声音。因此,用户能够感觉到系统关于所有县的所有设施能够识别“xx县的yy”这样的发音。
另一方面,在使用“xx县”限定的辞典数据以及识别语法数据的“yy”的部分的识别结果的可信度比阈值低的场合,如上述,通过抽出用户发音的声音数据生成“yy”“の部分が上手く闻き取れませんでした(的部分未清楚地听到)”等的应答声音,能够催促用户再发音。
作为仅识别该“xx”的部分的方法,有让辞典·识别语法存储部106的辞典数据的一个具有表现所有音节的组合的记述(无用信息)的方法。亦即,作为识别语法数据的组合使用<都道府县名><の><ガベツジ>这样的组合。ガベツジ的部分,假定代替未在辞典中登记的各设施的名字。
另外,在构成在日本存在的设施名的音节的组合中有某种特征。例如,“えき”这样的组合,比“れひゆ”这样的组合出现频度高。利用这点,从设施名的统计求邻接的音节的出现频度,通过提高出现频度高的音节的组合的类似度,能够提高作为设施名的替代的精度。
如上说明,本发明的实施形态的声音识别系统,能够生成用户直觉上可理解能够识别由用户输入的声音的哪个部分、不能够识别哪个部分的应答声音,向用户应答。另外,因为未被正确进行声音识别的部分,包含通知用户的用户自身片断的发音,所以在发音中途被切断等,直觉上认为不正常的形态下被再生,所以就能够理解未正常进行声音识别的情况。
Claims (6)
1.一种声音识别系统,其根据用户发出的声音的输入进行应答,其特征在于,
具有:
把用户发出的声音变换为声音数据的声音输入部;
识别构成所述声音数据的单词的组合,计算每一单词的识别的可信度的声音识别部;
生成应答声音的应答生成部;和
使用所述应答声音向用户传达信息的声音输出部;
所述应答生成部,
对于计算出来的可信度满足规定条件的单词,生成该单词的合成声音,
对于计算出来的可信度不满足规定条件的单词,从所述声音数据抽出与该单词对应的部分,
通过所述合成声音和/或所述抽出的声音数据的组合生成所述应答声音。
2.根据权利要求1所述的声音识别系统,其特征在于,
所述应答生成部,进一步生成催促用户发出的声音的确认的合成声音,生成在所述声音数据的组合上附加了所述生成的合成声音的所述应答声音。
3.根据权利要求1所述的声音识别系统,其特征在于,
所述应答生成部,
对于计算出来的可信度不满足规定条件的单词,从所述声音数据抽出与该单词对应的部分,
生成催促该单词的确认的合成声音,
在所述抽出的声音数据上附加该应答声音,生成所述应答声音。
4.根据权利要求1到3中任何一项所述的声音识别系统,其特征在于,
具有:保存为识别声音数据的辞典数据以及识别语法数据的辞典识别语法保存部,
所述声音识别部,优先识别构成所述声音数据的单词中的至少一个,
其后,从所述辞典识别语法保存部中,取得关于该单词的辞典数据以及识别语法数据,
使用所述取得的辞典数据以及识别语法数据,识别其他的单词。
5.一种声音识别装置,其生成基于声音的输入的应答声音,其特征在于,
具有:
把用户发出的声音变换为声音数据的声音输入部;
识别构成所述声音数据的单词的组合,计算每一单词的识别的可信度的声音识别部;和
生成应答声音的应答生成部;
所述应答生成部,
对于计算出来的可信度满足规定条件的单词,生成该单词的合成声音,
对于计算出来的可信度不满足规定条件的单词,从所述声音数据抽出与该单词对应的部分,
通过所述合成声音和/或所述抽出的声音数据的组合生成所述应答声音。
6.一种声音生成程序,其具有:把用户发出的声音变换为声音数据的声音输入部;识别构成所述声音数据的单词的组合,计算每一单词的识别的可信度的声音识别部;生成应答声音的应答生成部;和使用所述应答声音向用户传达信息的声音输出部;根据用户发出的声音的输入进行应答,其特征在于,包含下述步骤:
计算出来的可信度满足规定条件的单词,生成该单词的合成声音的第一步骤;
计算出来的可信度不满足规定条件的单词,从所述声音数据抽出与该单词对应的部分的第二步骤;和
通过所述合成声音和/或所述抽出的声音数据的组合生成所述应答声音的第三步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP028723/2005 | 2005-02-04 | ||
JP2005028723 | 2005-02-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101111885A true CN101111885A (zh) | 2008-01-23 |
Family
ID=36777384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800036948A Pending CN101111885A (zh) | 2005-02-04 | 2006-02-03 | 使用抽出的声音数据生成应答声音的声音识别系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20080154591A1 (zh) |
JP (1) | JPWO2006083020A1 (zh) |
CN (1) | CN101111885A (zh) |
DE (1) | DE112006000322T5 (zh) |
WO (1) | WO2006083020A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102959618A (zh) * | 2010-06-28 | 2013-03-06 | 三菱电机株式会社 | 声音识别装置 |
CN105144286A (zh) * | 2013-03-14 | 2015-12-09 | 托伊托克有限公司 | 用于交互的虚拟人物对话的系统和方法 |
CN106537494A (zh) * | 2014-07-23 | 2017-03-22 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112008001763T5 (de) * | 2007-07-09 | 2010-04-29 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Navigationssystem |
US8484025B1 (en) * | 2012-10-04 | 2013-07-09 | Google Inc. | Mapping an audio utterance to an action using a classifier |
US9805718B2 (en) * | 2013-04-19 | 2017-10-31 | Sri Internaitonal | Clarifying natural language input using targeted questions |
JP6384681B2 (ja) * | 2014-03-07 | 2018-09-05 | パナソニックIpマネジメント株式会社 | 音声対話装置、音声対話システムおよび音声対話方法 |
JP6787269B2 (ja) | 2017-07-21 | 2020-11-18 | トヨタ自動車株式会社 | 音声認識システム及び音声認識方法 |
JP2019046267A (ja) * | 2017-09-04 | 2019-03-22 | トヨタ自動車株式会社 | 情報提供方法、情報提供システム、および情報提供装置 |
JP2019057123A (ja) * | 2017-09-21 | 2019-04-11 | 株式会社東芝 | 対話システム、方法、及びプログラム |
JP7471921B2 (ja) * | 2020-06-02 | 2024-04-22 | 株式会社日立製作所 | 音声対話装置、音声対話方法、および音声対話プログラム |
US11984113B2 (en) | 2020-10-06 | 2024-05-14 | Direct Cursus Technology L.L.C | Method and server for training a neural network to generate a textual output sequence |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS56138799A (en) * | 1980-03-31 | 1981-10-29 | Nippon Electric Co | Voice recognition device |
JPH01293490A (ja) * | 1988-05-20 | 1989-11-27 | Fujitsu Ltd | 認識装置 |
JPH02109100A (ja) * | 1988-10-19 | 1990-04-20 | Fujitsu Ltd | 音声入力装置 |
JP2808906B2 (ja) * | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
JPH05108871A (ja) * | 1991-10-21 | 1993-04-30 | Nkk Corp | 文字認識装置 |
JP3129893B2 (ja) * | 1993-10-20 | 2001-01-31 | シャープ株式会社 | 音声入力ワープロ |
JP3454897B2 (ja) * | 1994-01-31 | 2003-10-06 | 株式会社日立製作所 | 音声対話システム |
JP3267047B2 (ja) * | 1994-04-25 | 2002-03-18 | 株式会社日立製作所 | 音声による情報処理装置 |
US5893902A (en) * | 1996-02-15 | 1999-04-13 | Intelidata Technologies Corp. | Voice recognition bill payment system with speaker verification and confirmation |
JP3782867B2 (ja) * | 1997-06-25 | 2006-06-07 | 株式会社日立製作所 | 情報受信処理方法およびコンピュータ・テレフォニイインテグレーションシステム |
US6058366A (en) * | 1998-02-25 | 2000-05-02 | Lernout & Hauspie Speech Products N.V. | Generic run-time engine for interfacing between applications and speech engines |
JP2000029492A (ja) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声翻訳装置、音声翻訳方法、音声認識装置 |
US6421672B1 (en) * | 1999-07-27 | 2002-07-16 | Verizon Services Corp. | Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys |
JP2001092492A (ja) * | 1999-09-21 | 2001-04-06 | Toshiba Tec Corp | 音声認識装置 |
JP3700533B2 (ja) * | 2000-04-19 | 2005-09-28 | 株式会社デンソー | 音声認識装置及び処理システム |
US7143040B2 (en) * | 2000-07-20 | 2006-11-28 | British Telecommunications Public Limited Company | Interactive dialogues |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
JP2003015688A (ja) * | 2001-07-03 | 2003-01-17 | Matsushita Electric Ind Co Ltd | 音声認識方法および装置 |
JP4128342B2 (ja) * | 2001-07-19 | 2008-07-30 | 三菱電機株式会社 | 対話処理装置及び対話処理方法並びにプログラム |
DE10138408A1 (de) * | 2001-08-04 | 2003-02-20 | Philips Corp Intellectual Pty | Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf |
JP2003228392A (ja) * | 2002-02-04 | 2003-08-15 | Hitachi Ltd | 音声認識装置及びナビゲーションシステム |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
JP4867622B2 (ja) * | 2006-11-29 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
JP4867654B2 (ja) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
-
2006
- 2006-02-03 US US11/883,558 patent/US20080154591A1/en not_active Abandoned
- 2006-02-03 DE DE112006000322T patent/DE112006000322T5/de not_active Withdrawn
- 2006-02-03 JP JP2007501690A patent/JPWO2006083020A1/ja not_active Abandoned
- 2006-02-03 WO PCT/JP2006/302283 patent/WO2006083020A1/ja not_active Application Discontinuation
- 2006-02-03 CN CNA2006800036948A patent/CN101111885A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102959618A (zh) * | 2010-06-28 | 2013-03-06 | 三菱电机株式会社 | 声音识别装置 |
CN102959618B (zh) * | 2010-06-28 | 2015-08-05 | 三菱电机株式会社 | 声音识别装置 |
CN105144286A (zh) * | 2013-03-14 | 2015-12-09 | 托伊托克有限公司 | 用于交互的虚拟人物对话的系统和方法 |
CN106537494A (zh) * | 2014-07-23 | 2017-03-22 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN106537494B (zh) * | 2014-07-23 | 2018-01-23 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
US20080154591A1 (en) | 2008-06-26 |
DE112006000322T5 (de) | 2008-04-03 |
JPWO2006083020A1 (ja) | 2008-06-26 |
WO2006083020A1 (ja) | 2006-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101111885A (zh) | 使用抽出的声音数据生成应答声音的声音识别系统 | |
US7236931B2 (en) | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems | |
CN1655235B (zh) | 基于话音特征自动标识电话呼叫者 | |
JP5255769B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
US8041565B1 (en) | Precision speech to text conversion | |
US8065144B1 (en) | Multilingual speech recognition | |
US7983910B2 (en) | Communicating across voice and text channels with emotion preservation | |
US7536303B2 (en) | Audio restoration apparatus and audio restoration method | |
JPH10507536A (ja) | 言語認識 | |
US8812314B2 (en) | Method of and system for improving accuracy in a speech recognition system | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
CN106463113A (zh) | 在语音辨识中预测发音 | |
KR100659212B1 (ko) | 어학 학습 시스템 및 어학 학습용의 음성 데이터 제공 방법 | |
JP2007510943A (ja) | 音声−テキストトランスクリプションシステムの誤り検出 | |
US20020133342A1 (en) | Speech to text method and system | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP5271299B2 (ja) | 音声認識装置、音声認識システム、及び音声認識プログラム | |
JP2011186143A (ja) | ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム | |
JP2018031985A (ja) | 音声認識補完システム | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
US6934680B2 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
Seneff | The use of subword linguistic modeling for multiple tasks in speech recognition | |
KR20230106005A (ko) | 도메인특화 음성인식 모델 구성 방법 및 장치와 이를 이용한 종단형 음성인식기 | |
EP1103954A1 (en) | Digital speech acquisition, transmission, storage and search system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20080123 |