CN102239517B - 声音识别装置 - Google Patents
声音识别装置 Download PDFInfo
- Publication number
- CN102239517B CN102239517B CN2009801490344A CN200980149034A CN102239517B CN 102239517 B CN102239517 B CN 102239517B CN 2009801490344 A CN2009801490344 A CN 2009801490344A CN 200980149034 A CN200980149034 A CN 200980149034A CN 102239517 B CN102239517 B CN 102239517B
- Authority
- CN
- China
- Prior art keywords
- sound
- language
- switch unit
- user
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005477 standard model Effects 0.000 claims abstract description 60
- 230000009471 action Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 24
- 238000000034 method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 21
- 230000008676 import Effects 0.000 description 6
- 238000004321 preservation Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000012467 final product Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
由于采用了如下结构:一边利用第一语言切换单元(SW1)和第二语言切换单元(SW2),对为了生成声音标识串而使用的声音标准模型存储器(1)的语言、和保存所生成的声音标识串的声音标识存储器(2)的语言自动进行切换,一边利用所输入的用户说话声的特征矢量时间序列和声音标准模型的数据,来生成用于各种语言的、与所述输入的用户说话声相对应的声音标识串,并将其登录至声音标识存储器(2),因此,能生成用于各种语言的、与用户所发出的登录声音相对应的声音标识串,并将其作为用户词典来进行保存。其结果是,即使切换声音识别中使用的语言,也能利用用户所发出的登录声音来进行声音识别。
Description
技术领域
本发明涉及一种声音识别装置,特别涉及即使切换声音识别所使用的语言、也能使用用户所发出的登录声音来进行声音识别的声音识别装置。
背景技术
在近年来的声音识别装置和声音识别系统中,几乎都以非特定说话者为对象,从而用户无需预先登录想要使系统进行识别的声音。即,若为日语,则从键盘等输入假名,从而能登录想要使系统进行识别的声音,以代替发出声音。另外,在外语的情况下,输入想要使系统进行识别的单词,从而也能自动生成该单词的音标,并将其作为识别对象语进行登录。
然而,根据适用声音识别的应用程序,有时会登录用户所发出的声音并将其作为识别对象语来使用(这里称为用户词典的生成)。例如,有时用声音来登录与广播的频率相对应的广播电台名、或者用声音来登录与电话号码相对应的人名或地名。
另外,搭载于车载导航仪或便携式终端等的、横跨多个国家使用的设备上的声音识别需要语言切换功能。由于一般在声音识别中,收集每种语言的声音数据,使用利用该数据所构筑的识别算法和声音标准模型,从而对用户所发出的声音进行识别,因此,切换语言需要切换声音识别单元本身、以及声音标准模型。
在上述的、登录用户所发出的声音并将其用作为识别对象的应用程序中,由于所生成的用户词典依赖于声音识别的算法以及声音标准模型,因此,若为了切换语言而切换声音识别单元和声音标准模型,则由于无法使用已经生成的用户词典,因此,用户需要再次重新进行声音登录的操作。
因此,以往,例如在专利文献1中,揭示了一种电子词典装置及电子词典装置的使用语言切换方法、存储介质,该电子词典装置及电子词典装置 的使用语言切换方法、存储介质在对电子词典的使用语言进行切换时,通过将用户所发出的声音与系统中所存储的单词进行对照,从而确定用户想要使用的语言。另外,在专利文献2中,揭示了一种便携式终端装置及计算机程序,该便携式终端装置及计算机程序在对电子词典的使用语言进行切换时,通过将用户所发出的声音与系统中所存储的单词进行对照,从而确定用户想要使用的语言。
专利文献1:日本专利特开2001-282788号公报
专利文献2:日本专利特开2002-247646号公报
发明内容
由于上述专利文献1所揭示的电子词典装置及电子词典装置的使用语言切换方法、存储介质在对电子词典的使用语言进行切换时,通过将用户所发出的声音与系统中所存储的单词进行对照,从而确定用户想要使用的语言,因此,存在无法根据用户所发出的声音来生成与各种语言相对应的词典的问题。
另外,专利文献2所揭示的便携式终端装置及计算机程序以在进入不同的语言圈时、下载适当的词典数据为目的,存在无法根据用户所发出的声音来生成与各种语言相对应的用户词典的问题。
本发明是为了解决上述问题而完成的,其目的在于,提供一种声音识别装置,所述声音识别装置生成用于各种语言的、与用户所发出的登录声音相对应的声音标识(label)串,并将其作为用户词典进行保存,从而即使切换声音识别中使用的语言,也能使用用户所发出的登录声音来进行声音识别。
本发明所涉及的声音识别装置包括:声音标准模型存储器,该声音标准模型存储器存放有与作为识别对象的多种语言相对应的声音标准模型;声音标识存储器,该声音标识存储器保存与多种语言相对应的用户词典;第一语言切换单元,该第一语言切换单元切换选择声音标准模型存储器的多种语言;第二语言切换单元,该第二语言切换单元切换选择声音标识存储器的多种语言;控制单元,该控制单元将第一语言切换单元和第二语言 切换单元联动地进行切换;音响分析单元,该音响分析单元对所输入的用户说话声实施音响分析处理,以输出用户说话声的特征矢量时间序列;以及声音识别单元,该声音识别单元根据来自音响分析单元的特征矢量时间序列、以及与在切换第一语言切换单元的同时被选择的、声音标准模型存储器的语言相对应的声音标准模型的数据,来生成与所述输入的用户说话声相对应的声音标识串,并将该声音标识串登录到与第一语言切换单元联动地由第二语言切换单元所切换的、声音标识存储器的语言。
由于本发明的声音识别装置采用如下结构:一边利用联动的第一语言切换单元和第二语言切换单元,对存放有作为识别对象的多种语言的声音标准模型存储器和保存多种语言的声音标识存储器的语言进行切换,一边根据所输入的用户说话声的特征矢量时间序列、以及与由第一语言切换单元所切换选择的、声音标准模型存储器的语言相对应的声音标准模型的数据,来生成用于各种语言的、与所述输入的用户说话声相对应的声音标识串,并将该声音标识串登录到由第二语言切换单元所切换选择的、声音标识存储器的语言,因此,能生成用于各种语言的、与用户说话声相对应的声音标识串,并将其作为用户词典来进行保存。其结果是,具有以下效果:即,通过使用该用户词典,从而即使切换声音识别中使用的语言,也能使用用户所发出的登录声音来进行声音识别。
附图说明
图1是表示实施方式1的声音识别装置的结构的框图。
图2是说明用实施方式1中的登录声音时的动作来生成用户词典时的处理的流程图。
图3是说明用实施方式1中的登录声音时的处理来进行声音识别时的动作的流程图。
图4是表示实施方式2的声音识别装置的结构的框图。
图5是说明用实施方式2中的登录声音时的动作来生成用户词典时的处理的流程图。
图6是说明用实施方式2中的登录声音时的处理来进行声音识别时的动作的流程图。
图7是表示实施方式3的声音识别装置的结构的框图。
图8是说明在实施方式3中、利用在以语言n生成最初的用户词典的情况下的动作来生成用户词典时的处理的流程图。
图9是说明在实施方式3中、在将与语言n相对应的用户词典登录到声音标识存储器上的状态下进行声音识别的情况下的动作的流程图。
图10是表示实施方式4的声音识别装置的结构的框图。
图11是说明在实施方式4中、利用用户的登录用声音来生成与语言n相对应的用户词典时的处理的流程图。
图12是说明在实施方式4中的、在将与语言n相对应的用户词典登录到声音标识存储器上的状态下进行声音识别的情况下的动作的流程图。
具体实施方式
下面,参照附图,对本发明的实施方式进行详细说明。
实施方式1.
图1是表示实施方式1的声音识别装置的结构的框图,所述声音识别装置包括声音标准模型存储器1、声音标识存储器2、与声音信号输入端3相连接的音响分析单元4、声音识别单元5、控制单元6、语言切换单元SW1~SW3、以及识别/登录切换单元SW4。
声音标准模型存储器1存放有与作为识别对象的多种语言(语言1~语言N)相对应的声音标准模型。
声音标识存储器2是用于保存与多种语言(语言1~语言N)相对应的用户词典的存储器,用户词典与多种语言(语言1~语言N)相对应地保存在声音标识存储器上。
音响分析单元4对从声音信号输入端3输入的用户说话声进行音响分析处理,将所输入的用户说话声的功率谱或与其相类似的特征量的时间序列作为特征矢量时间序列来输出。
在生成用户词典时,声音识别单元5将音响分析单元4所输出的特征矢量时间序列作为输入,利用由语言切换单元SW1所选择的声音标准模型存 储器1的数据,来求出与特征矢量时间序列相对应的声音标识串,将声音标识串作为用户词典存放在语言1~语言N中,所述语言1~语言N是由语言切换单元SW2所切换选择的用户词典保存目的地。
另外,在进行声音识别处理时,声音识别单元5将音响分析单元4所输出的特征矢量时间序列作为输入,利用由语言切换单元SW1所选择的声音标准模型存储器1的数据、以及与由语言切换单元SW3所选择的语言相对应的用户词典,执行与上述特征矢量时间序列相对应的声音识别处理,并通过识别/登录切换单元SW4输出该识别结果。
控制单元6基于从外部输入的识别切换指示,将识别/登录切换单元SW4控制切换到识别侧,并在登录、即生成用户词典时,接受在来自音响分析单元4的特征矢量时间序列中断时、从声音识别单元5产生的切换要求信号,从而将语言切换单元SW2进行切换。此时,与语言切换单元SW2处于联动关系的语言切换单元SW1也进行切换。
另一方面,在进行声音识别处理时,基于从外部输入的登录切换指示,将识别/登录切换单元SW4控制切换到登录侧,并将语言切换单元SW2进行切换,以选择从外部输入的语言。此时,与语言切换单元SW2处于联动关系的语言切换单元SW1也进行切换。
对于存放在声音标准模型存储器1中的多种语言(语言1~语言N)的声音标准模型,语言切换单元SW1选择性地输出与其中之一的语言相对应的声音标准模型的数据。
在生成用户词典时,语言切换单元SW2与语言切换单元SW1联动地切换声音标识存储器内的用户词典的保存目的地即语言1~语言N。
在进行声音识别时,语言切换单元SW3与语言切换单元SW1联动地切换声音标识存储器内的用户词典的读出目的地即语言1~语言N。
识别/登录切换单元SW4在从外部收到生成用户词典的指示时,被切换到与语言切换单元SW2相连接的一侧,在从外部收到声音识别的指示时,被切换到输出端子侧。
接下来,对动作进行说明。图2是说明用实施方式1中的登录声音时的动作来生成用户词典时的处理的流程图。在生成用户词典时,控制单元6基 于从外部输入的用户词典生成指示,将识别/登录切换单元SW4切换到与语言切换单元SW2相连接的登录侧(步骤ST1)。由此,将声音识别单元5所输出的声音标识串的输出目的地设定为声音标识存储器2。
接着,从声音信号输入端3输入用户所发出的登录用声音(步骤ST2)。在音响分析单元4中对所输入的声音信号进行音响分析,并输出特征矢量时间序列(步骤ST3)。接着,将初始值1代入变量n(步骤ST4)。然后,将语言切换单元SW1和语言切换单元SW2与n联动地进行切换。由此,设定声音标准模型存储器1上的、与变量n所表示的语言相对应的声音标准模型,同时设定在声音标识存储器2上、与变量n所表示的语言相对应的用户词典的保存目的地(步骤ST5)。
声音识别单元5将来自音响分析单元4的特征矢量时间序列作为输入,在声音标准模型存储器1上,利用与变量n所表示的语言相对应的声音标准模型存储器1的数据,来生成声音标识串(步骤ST6)。接着,将声音识别单元5所生成的所述声音标识串通过识别/登录切换单元SW4和语言切换单元SW2,登录至用户词典保存目的地,所述用户词典保存目的地在声音标识存储器2上、与变量n所表示的语言相对应(步骤ST7)。
判断变量n是否与语言数N相一致(步骤ST8),若不一致,则将n+1代入n,返回至步骤ST5(步骤ST9)。若在变量n与语言数N相一致时,则将处理转移至步骤ST10。在步骤ST10中,判断是否有下一登录用声音输入,若在用户发出了下一登录用声音的情况下,则返回至步骤ST2。在没有发出下一登录用声音的情况下,生成用户词典时的处理结束。
通过进行如上所述的处理,利用自动与语言1~语言N相对应的声音标准模型存储器1的数据,将用户所发出的用来进行登录的登录用声音作为同样与语言1~语言N相对应的用户词典,登录至声音标识存储器2。
图3是说明用实施方式1中的登录声音时的处理来进行声音识别时的动作的流程图。首先,控制单元6基于从外部输入的声音识别指示,将语言切换单元SW1和语言切换单元SW3联动地进行切换,使规定的语言能被识别(步骤ST11)。在上述的例子中,选择语言1~语言N之中的任何一种语言。接着,将识别/登录切换单元SW4切换到输出识别结果的一侧(步骤ST12)。
然后,将用户所发出的声音作为未知输入声音从声音信号输入端3输入(步骤ST13)。在音响分析单元4中对所输入的未知输入声音进行音响分析,并输出特征矢量时间序列(步骤ST14)。声音识别单元5将在步骤ST14中所获得的特征矢量时间序列作为输入,基于该特征矢量时间序列,利用与在步骤ST11中所设定的语言相对应的声音标准模型存储器1的数据、以及登录于声音标识存储器2的用户词典来进行识别处理(步骤ST15),并通过识别/登录切换单元SW4输出识别结果,从而结束声音识别处理。
根据以上的动作,即使在设定为语言1~语言N之中的任何一种语言的状态下,也能利用成为用户所发出的登录用声音的用户词典来进行声音识别。
这样,根据实施方式1的声音识别装置,一边利用第一语言切换单元和第二语言切换单元,对为了生成声音标识串而使用的声音标准模型存储器的语言、和保存所生成的声音标识串的声音标识存储器的语言自动进行切换,一边进行将与所输入的声音相对应的声音标识串生成和保存的处理,从而能生成用于各种语言的、与用户所发出的登录声音相对应的声音标识串,并将其作为用户词典来进行保存。其结果是,即使切换在声音识别中使用的语言,也能使用用户所发出的登录声音来进行声音识别。
实施方式2.
图4是表示实施方式2的声音识别装置的结构的框图,由于在表示实施方式1的图1的结构上添加了语言选择单元7,而其他结构与图1所示的实施方式1的结构相同,因此,省略重复说明。
语言选择单元7基于用户所输入的语言指定数据来选择语言,并将其提供给控制单元6。控制单元6基于所提供的语言,联动地对语言切换单元SW1和语言切换单元SW2进行切换控制、或联动地对语言切换单元SW1和语言切换单元SW3进行切换控制。
接下来,对动作进行说明。图5是对实施方式2中的生成用户词典时的处理进行说明的流程图。由于步骤ST21~步骤ST24的动作与实施方式1中的步骤ST1~步骤ST4的动作相同,因此,省略重复说明。
接着,利用语言指定数据FIg(m)(定义m=1......N,取值为0或1),语言 选择单元7对是否满足FIg(n)=1进行判定(步骤ST25),若FIg(n)=1,则转移至步骤ST26,若FIg(n)=0,则转移至步骤ST29的处理。下面,由于步骤ST26~步骤ST31的动作与实施方式1中的步骤ST5~步骤ST10的动作相同,因此,省略重复说明。
通过采用如上所述的结构并进行如上所述的处理,关于在语言指定数据FIg(m)(m=1......N)中满足FIg(n)=1的语言n,利用自动与该语言n相对应的声音标准模型存储器1,将用户所发出的用来进行登录的登录用声音作为同样与该语言n相对应的用户词典,登录至声音标识存储器2。由此,通过只将用户所使用的语言n设为FIg(n)=1,能避免生成关于所有N个语言的用户词典,从而能缩短用于生成用户词典的时间。另外,还能节约将用户词典进行保存的声音标识存储器2的容量。
接着,图6是说明用上述那样生成的用户词典来进行声音识别时的动作的流程图。语言选择单元7对控制单元6进行指示,使得能对在语言指定数据中满足FIg(n)=1的语言n进行识别。控制单元6基于指示,联动地将语言切换单元SW1和语言切换单元SW3切换设定成规定的语言(步骤ST41)。另外,将识别/登录切换单元SW4切换到识别侧(步骤ST42)。下面,由于步骤ST43~步骤ST45的动作与实施方式1中的步骤ST13~步骤ST15的动作相同,因此,省略重复说明。
根据以上的动作,在任何能由语言指定数据指定、即被设定为FIg(n)=1的语言n中,都能利用成为用户所发出的登录用声音的用户词典来进行声音识别。
这样,根据实施方式2,通过采用基于由外部提供的语言指定数据、对处于联动关系的语言切换单元SW1和语言切换单元SW2进行切换的结构,从而能选择性地仅对与由用户或系统提供的语言指定数据相对应的语言生成用户词典,从而能缩短生成词典所耗费的时间。另外,能减少声音标识存储器2的使用量。
实施方式3.
图7是表示本发明的实施方式3的结构的框图,声音标识存储器2a是用于只以一种语言的量来保存与某语言n(n=1~N)相对应的用户词典的存储 器。声音数据存储器8是记录和保存从声音信号输入端3输入的登录用声音的存储器。由于其他的声音标准模型存储器1、声音信号输入端3、音响分析单元4、声音识别单元5、控制单元6、语言切换单元SW1、以及识别/登录切换单元SW4的结构与图1所示的实施方式1相同,因此,省略重复说明。
接下来,对动作进行说明。图8是说明在实施方式3中、利用在以语言n生成最初的用户词典的情况下的动作来生成用户词典时的处理的流程图。
首先,控制单元6基于从外部输入的、生成用户词典的语言n,将语言切换单元SW1设定成选择语言n的位置(步骤ST51)。接着,将识别/登录切换单元SW4切换到登录(步骤ST52)。由此,将声音识别单元5所输出的声音标识串的输出目的地设定为声音标识存储器2a。
然后,从声音信号输入端3输入用户所发出的登录用声音(步骤ST53)。将所输入的登录用声音保存至声音数据存储器8(步骤ST54)。另外,在音响分析单元4中对该所输入的登录用声音信号进行音响分析,并将特征矢量时间序列输出至声音识别单元5(步骤ST55)。
声音识别单元5输入上述特征矢量时间序列,在声音标准模型存储器1上,利用与变量n所表示的语言相对应的声音标准模型的数据,来求出声音标识串(步骤ST56)。将声音识别单元5所生成的所述声音标识串作为用户词典通过识别/登录切换单元SW4来登录至声音标识存储器2a上(步骤ST57)。然后,判断是否存在下一登录用声音(步骤ST58),若在用户发出下一登录用声音的情况下,则返回至步骤ST53,并重复上述步骤ST53~步骤ST57的动作。在没有发出下一登录用声音的情况下,用户词典生成处理结束。
以上是以语言n进行最初的声音登录的情况下的处理。利用这一系列的处理,对于用户所发出的登录用声音,能将声音数据本身保存至声音数据存储器8,并能将与语言n相对应的用户词典登录至声音标识存储器2a上。
如上所述,对于用户所发出的登录用声音,将声音数据本身保存至声音数据存储器8,并将与语言n相对应的用户词典登录至声音标识存储器2a上,图9是对在上述状态下进行声音识别的情况下的动作进行说明的流程图。
首先,控制单元6基于从外部输入的声音识别指示,对是否切换语言切 换单元SW1以变更识别对象语言进行判断(步骤ST61)。在不进行变更、即语言切换单元SW1保持语言n不变的情况下,转移至步骤试ST62的处理。在步骤ST62中,将识别/登录切换单元SW4切换到识别。接着,将用户所发出的声音作为未知输入声音从声音信号输入端3输入(步骤ST63)。在音响分析单元4中对所输入的未知输入声音进行音响分析,并将特征矢量时间序列输出至声音识别单元5(步骤ST64)。声音识别单元5输入在步骤ST64中所获得的特征矢量时间序列,利用与语言n相对应的声音标准模型存储器1的数据、以及声音标识存储器2a上的用户词典来进行识别处理(步骤ST65),并通过识别/登录切换单元SW4输出识别结果,从而结束声音识别处理。
另一方面,对在步骤ST61中、将语言切换单元SW1设定成语言n以外的语言的情况下的处理进行说明。在这种情况下,处理转移至步骤ST66,以将语言切换单元SW1设定成语言n以外的语言n’。然后,将识别/登录切换单元SW4切换到登录(步骤ST67)。
音响分析单元4读出保存于声音标识存储器2a的声音数据(步骤ST68)。然后,音响分析单元4求出与所读出的声音数据相对应的特征矢量时间序列,并将其输出至声音识别单元5(步骤ST69)。声音识别单元5将在步骤ST69中所获得的特征矢量时间序列作为输入,利用与在步骤ST66中所设定的语言n’相对应的、声音标准模型存储器1上的声音标准模型的数据,来生成声音标识串(步骤ST70)。
然后,将所生成的声音标识串作为用户词典登录至声音标识存储器2a上(步骤ST71)。接着,检查是否残留有未实施从步骤ST69至步骤ST71的处理的声音数据(步骤ST72),若残留有这样的声音数据,则返回至步骤ST68,并对所残留的声音数据重复进行步骤ST69~步骤ST71的处理。若未残留有声音数据,则将处理转移至步骤ST62。由于步骤ST62以后的处理与使语言切换单元SW1保持语言n不变而不进行切换的上述处理相同,因此,省略重复说明。
利用以上的动作,在切换成语言n’的情况下,由于立即使用记录于声音数据存储器8上的声音数据来生成与语言n’相对应的用户词典,并将其保存在声音标识存储器2a上,因此,即使在设定成语言n’的情况下,也能使用 用户词典来进行声音识别。另外,在这样的实施方式3中,由于声音标识存储器2a只需确保一种语言的量即可,因此,能实现减轻存储器。
由此,根据实施方式3,通过包括对用户所发出的登录声音进行保存、以使音响分析单元4使用所述登录声音来进行音响分析的声音数据存储器8,从而无需为每种语言确保声音标识存储器2a,即使在切换声音识别系统所使用的语言时,也能使用记录于声音数据存储器8的、用户所发出的登录声音,来生成与所选择的语言相对应的用户词典,并用所述用户词典进行声音识别。
实施方式4.
图10是表示本发明的实施方式4的结构的框图,其具有音响数据存储器9以代替实施方式3中的声音数据存储器8,所述音响数据存储器9记录和保存音响分析单元4对用户所发出的登录用声音而输出的特征矢量时间序列。由于其他结构与实施方式3的结构相同,因此,省略重复说明。
接着,对以下情况下的动作进行说明:即,关于用户所发出的登录用声音,在将与该声音相对应的特征矢量时间序列保存至音响数据存储器9、并将与语言n相对应的用户词典登录至声音标识存储器2a上的状态下,进行声音识别。
图11是说明在实施方式4中(在以语言n来生成最初的用户词典的情况下)、利用用户的登录用声音来生成与语言n相对应的用户词典时的处理的流程图。首先,将语言切换单元SW1设定成生成用户词典的语言n(步骤ST81)。
接着,将识别/登录切换单元SW4切换到登录(步骤ST82)。由此,将声音识别单元5所输出的声音标识串的输出目的地设定为声音标识存储器2a。从声音信号输入端3输入用户所发出的登录用声音(步骤ST83)。音响分析单元4对所输入的登录用声音信号进行音响分析,并输出特征矢量时间序列(步骤ST84)。
将在步骤ST84中所获得的特征矢量时间序列记录和保存至音响数据存储器9上(步骤ST85)。声音识别单元5将上述特征矢量时间序列作为输入,在声音标准模型存储器1上,利用与变量n所表示的语言相对应的声音标准 模型的数据,来生成声音标识串(步骤ST86)。
将声音识别单元5所生成的所述声音标识串作为用户词典通过识别/登录切换单元SW4来登录至声音标识存储器2a上(步骤ST87)。然后,判定是否存在下一登录用声音,若在用户发出下一登录用声音的情况下,则返回至步骤ST83,并重复步骤ST83~步骤ST88的处理。在未发出下一登录用声音的情况下,结束用户词典生成处理(步骤ST88)。
以上是以语言n进行最初的声音登录的情况下的处理。利用这一系列的处理,能将用户所发出的登录用声音的特征矢量时间序列保存至音响数据存储器9,并能将与语言n相对应的用户词典登录至声音标识存储器2a上。
图12是对以下情况下的动作进行说明的流程图:即,如上所述,关于用户所发出的登录用声音,在将与该声音相对应的特征矢量时间序列保存至音响数据存储器9、并将与语言n相对应的用户词典登录至声音标识存储器2a上的状态下,进行声音识别。
首先,控制单元6基于从外部输入的声音识别指示,对是否切换语言切换单元SW1以变更识别对象语言进行判断(步骤ST91),在语言切换单元SW1保持语言n不变的情况下,转移至步骤ST92的处理。在该步骤ST92中,将识别/登录切换单元SW4切换到识别。接着,在步骤ST93中,将用户所发出的声音作为未知输入声音从声音信号输入端3输入。在音响分析单元4中对所输入的未知输入声音进行音响分析,并将特征矢量时间序列输出至声音识别单元5(步骤ST94)。
声音识别单元5将在步骤ST94中所获得的特征矢量时间序列作为输入,利用与语言n相对应的声音标准模型存储器1的数据、以及声音标识存储器2上的用户词典来进行识别处理(步骤ST95),并通过识别/登录切换单元SW4输出识别结果。
接下来,在步骤ST91中将语言切换单元SW1选择变更成语言n以外的语言的情况下,转移至步骤ST96,以将语言切换单元SW1设定成语言n以外的语言n’,并将识别/登录切换单元SW4切换到登录(步骤ST97)。声音识别单元5读出与保存于音响数据存储器9的登录用声音相对应的特征矢量时间序列(步骤ST98)。
然后,声音识别单元5将所读出的特征矢量时间序列作为输入,利用与在步骤ST96中所设定的语言n’相对应的声音标准模型的数据,来生成声音标识串(步骤ST99)。将所获得的声音标识串作为用户词典通过识别/登录切换单元SW4来登录至声音标识存储器2a上(步骤ST100)。
接着,判断在音响数据存储器9上是否残留有未实施从步骤ST99至步骤ST100的处理的特征矢量时间序列(步骤ST101),若残留有这样的特征矢量时间序列,则返回至步骤ST98,并对所残留的声音数据重复进行步骤ST99~步骤ST101的处理。若未残留有特征矢量时间序列,则将处理转移至步骤ST92。由于步骤ST92以后的处理与使语言切换单元SW1保持语言n不变而不进行切换的上述处理相同,因此,省略重复说明。
利用以上的动作,在切换成语言n’的情况下,由于立即使用音响数据存储器9上的特征矢量时间序列来生成与语言n’相对应的用户词典,并将其保存在声音标识存储器2a上,因此,即使在设定成语言n’的情况下,也能使用用户词典来进行声音识别。另外,在该实施方式4中,由于声音标识存储器2a只需确保一种语言的量即可,因此,能实现削减声音标识存储器。除此以外,由于具有将完成了音响分析的特征矢量时间序列预先保存的音响数据存储器9,因此,与实施方式3的情况相比,能减少运算量,从而能力图实现用户词典生成处理的迅速化。
由此,根据实施方式4,将利用音响分析单元4进行音响分析所获得的特征矢量时间序列保存于音响数据存储器9,并使用保存于该音响数据存储器9的所述特征矢量时间序列,声音识别单元5生成声音标识串。其结果是,即使在对声音识别系统所使用的语言进行切换时,用户也能进行发声,并使用保存于声音数据存储器9的说话声的特征矢量时间序列,来生成与所选择的语言相对应的用户词典,从而使用该用户词典来进行声音识别,而无需为每种语言确保声音标识存储器2a。
工业上的实用性
由于本发明所涉及的声音识别装置能根据用户说话声来生成用于各种语言的用户词典并将其进行保存,因此,适用于在用户想要将所希望的言 语转换成外语并进行保存的情况下所使用的声音识别装置等。
Claims (7)
1.一种声音识别装置,其特征在于,包括:
声音标准模型存储器,该声音标准模型存储器存放有与作为识别对象的多种语言相对应的声音标准模型;
声音标识存储器,该声音标识存储器保存与多种语言相对应的用户词典;
第一语言切换单元,该第一语言切换单元切换选择所述声音标准模型存储器的多种语言;
第二语言切换单元,该第二语言切换单元切换选择所述声音标识存储器的多种语言;
控制单元,该控制单元将所述第一语言切换单元和第二语言切换单元联动地进行切换;
音响分析单元,该音响分析单元对所输入的用户说话声实施音响分析处理,以输出所述用户说话声的特征矢量时间序列;以及
声音识别单元,该声音识别单元根据来自所述音响分析单元的特征矢量时间序列、以及与在切换所述第一语言切换单元的同时被选择的、所述声音标准模型存储器的语言相对应的声音标准模型的数据,来生成与所述输入的用户说话声相对应的声音标识串,并将该声音标识串登录到与所述第一语言切换单元联动地由所述第二语言切换单元所切换的、所述声音标识存储器的语言。
2.如权利要求1所述的声音识别装置,其特征在于,包括:
第三语言切换单元,该第三语言切换单元切换选择声音标识存储器的多种语言;以及
识别/登录切换单元,该识别/登录切换单元对是将声音识别单元的识别结果输出至外部还是将其登录至声音标识存储器进行选择,
控制单元基于输出指示将所述识别/登录切换单元切换到识别,并将第一语言切换单元和所述第三语言切换单元联动地进行切换,声音识别单元根据所输入的用户说话声的特征矢量时间序列、以及与在切换所述第一语言切换单元的同时被选择的、所述声音标准模型存储器的语言相对应的声音标准模型的数据,从所述声音标识存储器读出与所述输入的用户说话声相对应的声音标识,并通过所述识别/登录切换单元来进行输出。
3.如权利要求1所述的声音识别装置,其特征在于,包括:
语言选择单元,该语言选择单元基于从外部提供的语言指定数据来选择语言,
控制单元将第一语言切换单元和第二语言切换单元联动地进行切换,从而基于由所述语言选择单元所选择的语言来选择与该语言相对应的语言。
4.一种声音识别装置,其特征在于,包括:
声音标准模型存储器,该声音标准模型存储器存放有与作为识别对象的多种语言相对应的声音标准模型;
声音标识存储器,该声音标识存储器保存用户词典;
第一语言切换单元,该第一语言切换单元切换选择所述声音标准模型存储器的多种语言;
控制单元,该控制单元基于指示语言,将所述第一语言切换单元切换到指示语言选择位置;
声音数据存储器,该声音数据存储器保存用户所发出的声音;
音响分析单元,该音响分析单元对所输入的用户说话声或从所述声音数据存储器读出的用户说话声实施音响分析处理,并输出所述用户说话声的特征矢量时间序列;以及
声音识别单元,该声音识别单元基于与由所述第一语言切换单元所选择的语言相对应的声音标准模型的数据、以及所述特征矢量时间序列,来生成与用户说话声相对应的声音标识,并将该声音标识登录至所述声音标识存储器。
5.一种声音识别装置,其特征在于,包括:
声音标准模型存储器,该声音标准模型存储器存放有与作为识别对象的多种语言相对应的声音标准模型;
声音标识存储器,该声音标识存储器保存用户词典;
第一语言切换单元,该第一语言切换单元切换选择所述声音标准模型存储器的多种语言;
控制单元,该控制单元基于指示语言,将所述第一语言切换单元切换到指示语言选择位置;
音响分析单元,该音响分析单元对所输入的用户说话声实施音响分析处理,以输出所述用户说话声的特征矢量时间序列;
音响数据存储器,该音响数据存储器保存由所述音响分析单元进行音响分析而获得的特征矢量时间序列;以及
声音识别单元,该声音识别单元基于与由所述第一语言切换单元所选择的语言相对应的声音标准模型的数据、以及从所述音响数据存储器读出的特征矢量时间序列,来生成与用户说话声相对应的声音标识,并将该声音标识登录至所述声音标识存储器。
6.如权利要求4所述的声音识别装置,其特征在于,包括:
识别/登录切换单元,该识别/登录切换单元对是将声音识别单元的识别结果登录至声音标识存储器还是将其输出至外部进行选择,
控制单元基于识别指示将所述识别/登录切换单元切换到识别,并切换第一语言切换单元,声音识别单元根据所输入的用户说话声的特征矢量时间序列、以及与在切换所述第一语言切换单元的同时被选择的、声音标准模型存储器的语言相对应的声音标准模型的数据,从所述声音标识存储器读出与所述输入的用户说话声相对应的声音标识,并通过所述识别/登录切换单元来进行输出。
7.如权利要求5所述的声音识别装置,其特征在于,包括:
识别/登录切换单元,该识别/登录切换单元对是将声音识别单元的识别结果登录至声音标识存储器还是将其输出至外部进行选择,
控制单元基于识别指示将所述识别/登录切换单元切换到识别,并切换第一语言切换单元,声音识别单元根据所输入的用户说话声的特征矢量时间序列、以及与在切换所述第一语言切换单元的同时被选择的、声音标准模型存储器的语言相对应的声音标准模型的数据,从所述声音标识存储器读出与所述输入的用户说话声相对应的声音标识,并通过所述识别/登录切换单元来进行输出。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009-016783 | 2009-01-28 | ||
JP2009016783 | 2009-01-28 | ||
PCT/JP2009/005488 WO2010086928A1 (ja) | 2009-01-28 | 2009-10-20 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102239517A CN102239517A (zh) | 2011-11-09 |
CN102239517B true CN102239517B (zh) | 2013-05-08 |
Family
ID=42395198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801490344A Expired - Fee Related CN102239517B (zh) | 2009-01-28 | 2009-10-20 | 声音识别装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8099290B2 (zh) |
JP (1) | JP4703787B2 (zh) |
CN (1) | CN102239517B (zh) |
DE (1) | DE112009004313B4 (zh) |
WO (1) | WO2010086928A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8392189B2 (en) * | 2009-09-28 | 2013-03-05 | Broadcom Corporation | Speech recognition using speech characteristic probabilities |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US20140067366A1 (en) * | 2012-08-30 | 2014-03-06 | Google Inc. | Techniques for selecting languages for automatic speech recognition |
US9953630B1 (en) * | 2013-05-31 | 2018-04-24 | Amazon Technologies, Inc. | Language recognition for device settings |
JP6085538B2 (ja) * | 2013-09-02 | 2017-02-22 | 本田技研工業株式会社 | 音響認識装置、音響認識方法、及び音響認識プログラム |
JP6080978B2 (ja) * | 2013-11-20 | 2017-02-15 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
CN104978015B (zh) * | 2014-04-14 | 2018-09-18 | 博世汽车部件(苏州)有限公司 | 具有语种自适用功能的导航系统及其控制方法 |
US10515151B2 (en) * | 2014-08-18 | 2019-12-24 | Nuance Communications, Inc. | Concept identification and capture |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106710586B (zh) * | 2016-12-27 | 2020-06-30 | 北京儒博科技有限公司 | 一种语音识别引擎自动切换方法和装置 |
WO2019049364A1 (ja) * | 2017-09-11 | 2019-03-14 | 三菱電機株式会社 | 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法 |
JP7117970B2 (ja) * | 2018-10-17 | 2022-08-15 | 株式会社日立ビルシステム | 案内ロボットシステム及び案内方法 |
US10885912B2 (en) * | 2018-11-13 | 2021-01-05 | Motorola Solutions, Inc. | Methods and systems for providing a corrected voice command |
KR20220120934A (ko) * | 2021-02-24 | 2022-08-31 | 삼성전자주식회사 | 음성 명령 처리 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1788266A (zh) * | 2002-08-30 | 2006-06-14 | 思比驰盖尔公司 | 翻译系统 |
CN101008942A (zh) * | 2006-01-25 | 2007-08-01 | 北京金远见电脑技术有限公司 | 机器翻译装置和机器翻译方法 |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US6088669A (en) * | 1997-01-28 | 2000-07-11 | International Business Machines, Corporation | Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling |
US6219641B1 (en) * | 1997-12-09 | 2001-04-17 | Michael V. Socaciu | System and method of transmitting speech at low line rates |
DE19847419A1 (de) * | 1998-10-14 | 2000-04-20 | Philips Corp Intellectual Pty | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung |
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
JP2001101187A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 翻訳装置および翻訳方法、並びに記録媒体 |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
JP2001282788A (ja) | 2000-03-28 | 2001-10-12 | Kyocera Corp | 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体 |
US7035805B1 (en) * | 2000-07-14 | 2006-04-25 | Miller Stephen S | Switching the modes of operation for voice-recognition applications |
EP1233406A1 (en) | 2001-02-14 | 2002-08-21 | Sony International (Europe) GmbH | Speech recognition adapted for non-native speakers |
JP2002247646A (ja) | 2001-02-19 | 2002-08-30 | Sony Corp | 携帯端末装置およびコンピュータプログラム |
EP1239459A1 (en) | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Adaptation of a speech recognizer to a non native speaker pronunciation |
JP3837061B2 (ja) * | 2001-11-28 | 2006-10-25 | 富士通株式会社 | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
US7143033B2 (en) * | 2002-04-03 | 2006-11-28 | The United States Of America As Represented By The Secretary Of The Navy | Automatic multi-language phonetic transcribing system |
JP2004053742A (ja) * | 2002-07-17 | 2004-02-19 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP3776391B2 (ja) * | 2002-09-06 | 2006-05-17 | 日本電信電話株式会社 | 多言語音声認識方法、装置、プログラム |
DE10305369B4 (de) * | 2003-02-10 | 2005-05-19 | Siemens Ag | Benutzeradaptives Verfahren zur Geräuschmodellierung |
US7606714B2 (en) * | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US20050197837A1 (en) * | 2004-03-08 | 2005-09-08 | Janne Suontausta | Enhanced multilingual speech recognition system |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
KR100640893B1 (ko) * | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
US7340390B2 (en) * | 2004-10-27 | 2008-03-04 | Nokia Corporation | Mobile communication terminal and method therefore |
WO2006087040A1 (en) * | 2005-02-17 | 2006-08-24 | Loquendo S.P.A. | Method and system for automatically providing linguistic formulations that are outside a recognition domain of an automatic speech recognition system |
ATE385024T1 (de) * | 2005-02-21 | 2008-02-15 | Harman Becker Automotive Sys | Multilinguale spracherkennung |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
DE102005018174A1 (de) * | 2005-04-19 | 2006-11-02 | Daimlerchrysler Ag | Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11 |
KR100707970B1 (ko) * | 2006-03-10 | 2007-04-16 | (주)인피니티 텔레콤 | 이동통신단말기를 이용한 통역 서비스 방법 |
JP2007249653A (ja) * | 2006-03-16 | 2007-09-27 | Fujitsu Ltd | マークアップ言語情報の処理装置、情報処理方法、およびプログラム |
DE102006057159A1 (de) * | 2006-12-01 | 2008-06-05 | Deutsche Telekom Ag | Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen |
-
2009
- 2009-10-20 CN CN2009801490344A patent/CN102239517B/zh not_active Expired - Fee Related
- 2009-10-20 JP JP2010546177A patent/JP4703787B2/ja not_active Expired - Fee Related
- 2009-10-20 US US13/119,445 patent/US8099290B2/en not_active Expired - Fee Related
- 2009-10-20 DE DE112009004313.5T patent/DE112009004313B4/de not_active Expired - Fee Related
- 2009-10-20 WO PCT/JP2009/005488 patent/WO2010086928A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1788266A (zh) * | 2002-08-30 | 2006-06-14 | 思比驰盖尔公司 | 翻译系统 |
CN101008942A (zh) * | 2006-01-25 | 2007-08-01 | 北京金远见电脑技术有限公司 | 机器翻译装置和机器翻译方法 |
Non-Patent Citations (3)
Title |
---|
JP特开2002-304190A 2002.10.18 |
JP特开2003-022087A 2003.01.24 |
JP特开2004-101727A 2004.04.02 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010086928A1 (ja) | 2012-07-26 |
US20110166859A1 (en) | 2011-07-07 |
WO2010086928A1 (ja) | 2010-08-05 |
CN102239517A (zh) | 2011-11-09 |
JP4703787B2 (ja) | 2011-06-15 |
US8099290B2 (en) | 2012-01-17 |
DE112009004313B4 (de) | 2016-09-22 |
DE112009004313T5 (de) | 2012-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102239517B (zh) | 声音识别装置 | |
CN111667814B (zh) | 一种多语种的语音合成方法及装置 | |
CN107644638A (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
CN108711422A (zh) | 语音识别方法、装置、计算机可读存储介质和计算机设备 | |
US20120203553A1 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
JPS62133500A (ja) | 音響信号から導かれた電気信号を区分する方法及び装置 | |
CN110992929A (zh) | 一种基于神经网络的语音关键词检测方法、装置及系统 | |
JP5274711B2 (ja) | 音声認識装置 | |
US8214216B2 (en) | Speech synthesis for synthesizing missing parts | |
CN108764114B (zh) | 一种信号识别方法及其设备、存储介质、终端 | |
CN109840052A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN104992715A (zh) | 一种智能设备的界面切换方法及系统 | |
WO2009044301A1 (en) | Method, apparatus and computer program product for providing improved voice conversion | |
CN101154380A (zh) | 说话人认证的注册及验证的方法和装置 | |
CN105847252A (zh) | 一种多账户切换的方法及装置 | |
US20050251392A1 (en) | Speech synthesizing method and apparatus | |
CN101114452B (zh) | 与收发器进行通信的通信设备及其通信方法 | |
CN103294368B (zh) | 浏览器的信息处理方法、浏览器及移动终端 | |
JP5050175B2 (ja) | 音声認識機能付情報処理端末 | |
CN113327597A (zh) | 语音识别方法、介质、装置和计算设备 | |
EP3144926B1 (en) | Waveform data structure for musical instrument with scalable storage-frame length depending on tones . | |
JP2003233386A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
CN113516963A (zh) | 音频数据的生成方法、装置、服务器和智能音箱 | |
CN113299271A (zh) | 语音合成方法、语音交互方法、装置及设备 | |
CN101583859A (zh) | 高质量的基于码本的声音转换的存储器高效系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130508 |
|
CF01 | Termination of patent right due to non-payment of annual fee |