CN102301419B - 声音识别装置 - Google Patents
声音识别装置 Download PDFInfo
- Publication number
- CN102301419B CN102301419B CN2009801560332A CN200980156033A CN102301419B CN 102301419 B CN102301419 B CN 102301419B CN 2009801560332 A CN2009801560332 A CN 2009801560332A CN 200980156033 A CN200980156033 A CN 200980156033A CN 102301419 B CN102301419 B CN 102301419B
- Authority
- CN
- China
- Prior art keywords
- sounding
- voice data
- similarity
- storage part
- repeatedly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013112 stability test Methods 0.000 claims description 39
- 230000000717 retained effect Effects 0.000 claims 2
- 238000013500 data storage Methods 0.000 abstract 2
- 238000012795 verification Methods 0.000 abstract 2
- 238000000034 method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
Abstract
本发明提供一种声音识别装置,包括:声音输入部(11),该声音输入部(11)输入多次发声的声音;登记声音数据存储部(12),该登记声音数据存储部(12)对声音输入部(11)输入的多次发声的声音数据进行存储;发声稳定性检验部(13),该发声稳定性检验部(13)求出从登记声音数据存储部(12)读取的多次发声的声音数据之间的相似度,在相似度大于阈值T1的情况下,判定声音数据能够登记;以及标准模式生成部(14),该标准模式生成部(14)使用由发声稳定性检验部(13)判定为能够登记的声音数据来生成标准模式。
Description
技术领域
本发明涉及声音登记型的声音识别装置。
背景技术
作为现有的登记型的声音识别装置,有如下装置:进行一次登记用发声,并将该发声与已登记的标准模式相比较,在判断为是不同于标准模式(已登记词汇)的发声(不易被混淆的发声)的情况下,进行登记处理(例如,参照专利文献1)。
现有技术文献
专利文献
专利文献1:
日本专利特开2002-297181号公报
发明内容
在现有的登记型的声音识别装置中,受理只进行一次的登记发声,并将该发声与已登记的标准模式进行比较,基于比较结果判定能否登记,因此,无法确认登记发声的稳定性。例如,在噪音环境下声音区间有一部分缺失的情况下、或在将非稳定噪音误检测为声音区间的情况下,若是不同于已登记的标准模式的内容,则可能会判断为能够登记,从而可能将错误的声音登记为标准模式。若像上述那样将错误的输入登记为标准模式,则会导致将不同于发声人实际想要登记的发声内容的声音加以登记,因此,会在进行作为识别对象的发声时发生误识别。
本发明是为了解决上述问题而完成的,其目的在于提供一种声音识别装置,该声音识别装置能够减少因非稳定噪音或声音区间的误检测等而引起的误登记,能够提高声音的识别性能,还能够提高便利性,减少对存储器的不必要的使用。
本发明的声音识别装置包括:声音输入部,该声音输入部输入多次发声的声音;存储部,该存储部对声音输入部所输入的多次发声的声音数据进行存储;稳定性检验部,该稳定性检验部求出从存储部读取的多次发声的声音数据之间的相似度,在相似度大于第一阈值的情况下,判定声音数据能够登记;标准模式生成部,该标准模式生成部使用由稳定性检验部判定为能够登记的声音数据来生成标准模式;以及再次发声请求部,该再次发声请求部执行再进行一次发声的再次发声请求,声音输入部输入预定的多次发声的声音,稳定性检验部在从存储部读出的预定的多次声音数据中不存在能够登记的声音数据的情况下,使再次发声请求部执行再次发声请求,求出对应于该再次发声请求的一次发声的声音数据、与已经存储在存储部中的多次声音数据之间的声音数据间相似度,在声音数据间相似度中的最大值大于第二阈值的情况下,将具有该最大相似度的声音数据判定为能够登记。
根据本发明,求出多次发声的声音数据之间的相似度,在相似度大于第一阈值的情况下,判定声音数据能够登记,使用判定为能够登记的声音数据来生成标准模式,执行再进行一次发声的再次发声请求,输入预定的多次发声的声音,在不存在能够登记的声音数据的情况下,执行再次发声请求,求出对应于该再次发声请求的一次发声的声音数据、与已经存储的多次声音数据之间的声音数据间相似度,在声音数据间相似度中的最大值大于第二阈值的情况下,将具有该最大相似度的声音数据判定为能够登记,因此能够减少由非稳定噪音或声音区间的误检测等引起的误登记,从而提高声音的识别性能,还能通过防止增加不必要的发声次数,提高便利性,减少对存储器的不必要的使用。
附图说明
图1是表示本发明的实施方式1的登记型的声音识别装置的结构的框图。
图2是示出图1中的登记处理部的动作流程的流程图。
图3是表示本发明的实施方式2的登记型的声音识别装置的结构的框图。
图4是示出图3中的登记处理部的动作流程的流程图。
图5是示出图3中的登记处理部的其他动作例的流程图。
图6是示出图3中的登记处理部的其他动作例的流程图。
具体实施方式
下面,为了更详细地说明本发明,参照附图,对用于实施本发明的方式进行说明。
实施方式1.
图1是表示本发明的实施方式1的登记型的声音识别装置的结构的框图。在图1中,实施方式1的声音识别装置1包括登记处理部1、标准模式存储部2、及识别处理部3。登记处理部1是输入由想要将发声登记为标准模式的发声人(以下称为登记发声人)进行的作为登记对象的发声,生成标准模式的单元,包括声音输入部11、登记声音数据存储部(存储部)12、发声稳定性检验部(稳定性检验部)13、及标准模式生成部14。
声音输入部11是受理多次登记发声,生成对应于这些多次登记发声的多个登记声音数据的单元。登记声音数据存储部12是对由声音输入部11生成的登记声音数据进行存储的存储部。发声稳定性检验部13是计算出存储在登记声音数据存储部12中的多个登记声音数据的相似度,若相似度在预定的阈值以上,则判定上述多个登记声音数据能够登记,若在小于该阈值的情况下,则判定为不能登记的单元。标准模式生成部14是使用由发声稳定性检验部13判定为能够登记的登记发声数据来生成标准模式的单元。
标准模式存储部2是对登记处理部1生成的标准模式进行存储的存储部。识别处理部3是使用存储在标准模式存储部2中的标准模式,对由发声人进行的成为声音识别对象的发声(以下,称为识别对象发声)进行声音识别的单元。
此外,声音输入部11、发声稳定性检验部13、标准模式生成部14、及识别处理部3可通过将与本发明要点对应的声音登记/识别用程序读入计算机,并使其CPU加以执行,从而作为硬件和软件协同工作的具体单元,在该计算机上得以实现。另外,登记声音数据存储部12及标准模式存储部2能够构建在上述计算机所具有的存储装置(例如,硬盘装置或外部存储介质等)的存储区域上。
接下来,对动作进行说明。
图2是表示图1中的登记处理部的动作流程的流程图,根据该图详细说明登记处理部1的各构成部的动作。
当根据来自装置外部的操作等开始登记处理时,声音输入部11对存储在登记声音数据存储部12中的登记声音数据进行初始化(删除登记声音数据)(步骤ST1),将对发声次数N进行计数的计数器(在图1中未图示)的计数值设为0(步骤ST2)。
在该状态下,登记发声人对登记处理部1进行发声(登记发声)。在声音输入部11中,将对发声次数N进行计数的上述计数器的计数值加1(步骤ST3),依次输入登记发声人所进行的登记发声(步骤ST4)。接着,声音输入部11将所输入的登记发声作为登记声音数据存储到登记声音数据存储部12中(步骤ST5)。
每次在输入登记发声时,声音输入部11对由上述计算器计数而得的发声次数N与规定的阈值M进行比较,判定发声次数N是否在阈值M以上(步骤ST6)。所谓阈值M,是指发出相同内容的发声次数,由2以上的整数值来规定。在发声次数N小于阈值M的情况下(步骤ST6:否),声音输入部11返回步骤ST3的处理,并重复步骤ST3~步骤ST5的处理,直至发声次数N为阈值M以上。
另一方面,若发声次数N在阈值M以上(步骤ST6:是),则发声稳定性检验部13计算出存储在登记声音数据存储部12中的登记声音数据的相似度(步骤ST7)。在计算多个登记声音数据的相似度时,例如有以下方法。
(1)计算方法1
在登记声音数据存储部12中存储有表示M次发声次数为相同内容的登记声音数据的情况下,发声稳定性检验部13求出M次发声次数的登记声音数据中所有两次发声的组合。接着,发声稳定性检验部13提取出两次发声的两个登记声音数据的特征量,通过使用该特征量的动态规划算法,来计算这两次发声之间的登记声音数据的相似度。从所有两次发声的组合求出该相似度,将所获得的相似度的平均值设为M次发声次数的登记声音数据的相似度。
(2)计算方法2
在计算方法1中,用所有两次发声的组合的相似度中最小的相似度(最不相似的发声之间的相似度)代替相似度的平均值,来作为M次发声次数的登记声音数据的相似度。
(3)计算方法3
在计算两次发声的组合中的登记声音数据之间的相似度时,发声稳定性检验部13、标准模式生成部14、及识别处理部13相互协调,将上述组合中的一次发声作为暂时的标准模式进行登记,将另一次发声作为输入而进行声音识别,将作为识别结果而获得的分数(匹配度)用作为两次发声之间的登记声音数据的相似度。从所有两次发声的组合求出该相似度,将所获得的相似度的平均值或最小相似度设为M次发声次数的登记声音数据的相似度。
接着,发声稳定性检验部13对由步骤ST7计算出的M次以上发声次数的登记声音数据的相似度是否为规定的阈值T1(第一阈值)以上进行判定(步骤ST8)。此处,若相似度小于阈值T1(步骤ST8:否),则发声稳定性检验部13判断为所输入的发声欠缺稳定性,对存储在登记声音数据存储部12中的登记声音数据不生成标准模式,即作为登记失败而结束登记判定。
若相似度为阈值T1以上(步骤ST8:是),则发声稳定性检验部13将该情况通知给标准模式生成部14。若接收到该通知,则标准模式生成部14基于存储在登记声音数据存储部12中的登记声音数据来生成标准模式,并登记到标准模式存储部2中(步骤ST9,登记处理)。
作为标准模式,例如对于登记声音数据(输入发声声音),每隔单位时间就提取出声音的特征量,列出这些特征量的时间序列数据(特征向量时间序列)。另外,也可预先对声音的声音片段(音节、音素等)分别生成表示各声音片段的特征的模型,将声音片段的模型的时间序列(标签序列)作为标准模型进行登记。
在步骤ST9中,标准模式生成部14基于存储在登记声音数据存储部12中的登记声音数据中的K(K为1以上且M以下的整数)个登记声音数据,分别生成标准模式,将上述K个标准模式登记到标准模式存储部2。作为选择K个登记声音数据的选择方法,可列举出例如:按照由发声稳定性检验部13计算出的各组合的相似度由大到小的顺序,选择K个登记声音数据的方法;求出重心作为登记声音数据的特征量,按照距离重心由近到远的顺序选择K个登记声音数据的方法。
此外,也可对K个登记声音数据分别提取出声音的特征量,生成具有这些特征量的平均特征量的登记用数据,来作为标准模式进行登记,以代替生成K个标准模式。
如上所述,根据本实施方式1,包括:声音输入部11,该声音输入部11输入多次发声的声音;登记声音数据存储部12,该登记声音数据存储部12对声音输入部11输入的多次发声的声音数据进行存储;发声稳定性检验部13,该发声稳定性检验部13求出从登记声音数据存储部12读取的多次发声的声音数据之间的相似度,在相似度大于阈值T1的情况下,判定声音数据能够登记;以及标准模式生成部14,该标准模式生成部14使用由发声稳定性检验部13判定为能够登记的声音数据来生成标准模式。根据上述结构,输入多次登记发声,仅在该发声之间的相似度为规定的阈值以上的情况下进行登记处理,仅在多次输入的发声相近(相似)的情况下进行登记。因而,仅在相同内容的多次发声相近的情况下,即仅在所输入的发声稳定的情况下,完成登记,因此,能够减少由非稳定噪音或声音区间的误检测等所引起的误登记,能够提高声音识别的性能(识别率)。
另外,根据本实施方式1,在登记时基于多次发声生成标准模式,因此,能够生成与发声的变化相对应的标准模式,并能够用其提高声音识别的性能。
实施方式2.
图3是表示本发明的实施方式2的登记型的声音识别装置的结构的框图。在图3中,实施方式2的声音识别装置包括登记处理部1A、标准模式存储部2、及识别处理部3。登记处理部1A包括声音输入部11、登记声音数据存储部12、发声稳定性检验部13a、标准模式生成部14、及再次发声请求部15。
发声稳定性检验部13a是算出存储在登记声音数据存储部12中的多个登记声音数据中以相同内容发声的规定次数(M次发声)的登记声音数据的各组合的相似度,求出相似度最大的M次发声的组合及其相似度,若相似度为预定的阈值以上,则判定为能够登记,若在小于该阈值的情况下,则判定为不能登记的单元。再次发声请求部15是在发声稳定性检验部13a判定为不能登记的情况下,向登记发声人进行再次发声请求的单元。此外,除了发声稳定性检验部13a及再次发声请求部15以外的结构要素,都与上述实施方式1相同,因此省略说明。
接下来,对动作进行说明。
图4是表示图3中的登记处理部的动作流程的流程图,根据该图详细说明登记处理部1A的各构成部的动作。在图4中,步骤ST1~步骤ST6的处理都与上述实施方式1的图2所示的内容相同,因此,省略说明。
若发声次数N为阈值M以上(步骤ST6:是),则发声稳定性检验部13a分别算出存储在登记声音数据存储部12中的登记声音数据中以相同内容发声的M次发声的登记声音数据的各组合的相似度,求出相似度最大的M次发声的组合及其相似度(步骤ST7a)。此外,对多次发声(M次发声)的登记声音数据的组合的相似度的计算,与上述实施方式1相同。
当求出相似度最大的M次发声的组合及其相似度时,发声稳定性检验部13a判定所求出的最大相似度是否为预先设定的阈值T1以上(步骤ST8)。若最大相似度为阈值T1以上(步骤ST8:是),则发声稳定性检验部13a将该情况通知给标准模式生成部14。若接收到该通知,则标准模式生成部14基于该M次发声的登记声音数据生成标准模式,并登记到标准模式存储部2(步骤ST9,登记处理)。
另一方面,若最大相似度小于阈值T1(步骤ST8:否),则发声稳定性检验部13a将该情况通知给再次发声请求部15。若接收到该通知,则再次发声请求部15使用未图示的显示装置或扬声器等进行文字显示或声音输出,从而向登记发声人请求再进行一次发声(步骤ST8-1)。
在该状态下,若登记发声人发声一次,则声音输入部11将用于对发声次数N进行计数的计数器的计数值加1(步骤ST3),并反复执行步骤ST4~步骤ST8的处理,直至最大相似度为阈值T1以上(步骤ST8:是)。
在这种情况下,由于不包括再次发声的那一次发声在内的M次发声的登记声音数据的组合的相似度已经算出,因此,只需算出包括因再次发声而新增的一次发声在内的M次发声的登记声音数据的组合的相似度即可。例如,求出对新增的一次发声的声音数据、与已登记在登记声音数据存储部12中的M-1次的声音数据进行组合而获得的M次发声的声音数据之间的相似度,确定相似度最大的发声组合,在该最大相似度为阈值以上的情况下,登记该组合的声音数据。
如上所述,根据本实施方式2,包括请求再进行一次发声的再次发声请求部15,声音输入部11输入预定的多次发声的声音,发声稳定性检验部13a在从登记声音数据存储部12中读出的预定的多次声音数据中不存在能够登记的声音数据的情况下,使再次发声请求部15执行再次发声请求,求出对应于该再次发声请求的一次发声的声音数据、与已经存储在登记声音数据存储部12中的多次声音数据之间的声音数据间相似度,在声音数据间相似度中的最大值大于阈值T1的情况下,将具有该最大相似度的声音数据判定为能够登记。通过采用上述结构,能够获得与实施方式1相同的效果,与登记失败时再进行M次登记发声的情况相比,能够减少登记所需要的发声次数,能够减轻登记发声人的负担。
另外,在上述实施方式2中,如图5所示,也可增加步骤ST10,该步骤ST10是在最大相似度小于阈值T1的情况下(步骤ST8:否),声音输入部11对由上述计数器所计数的发声次数N(N为M以上的状态)、与示出发声次数上限的规定的阈值Tn进行比较,对发声次数N是否为阈值Tn以上进行判定。
此处,若发声次数N小于阈值Tn(步骤ST10:否),则声音输入部11通过发声稳定性检验部13a将该情况通知给再次发声请求部15。若再次发声请求部15接收到上述情况,则向登记发声人请求再进行一次发声(步骤ST10-1)。
另外,若发声次数N为阈值Tn以上(步骤ST10:是),则发声稳定性检验部13a判断为登记失败。由此,在发声次数N为阈值Tn以上时,无需再输入登记发声,而是以登记失败而结束登记判定。
而且,在上述实施方式2中,如图6所示,还可增加步骤ST11,该步骤ST11是在发声次数N小于阈值Tn的情况下(步骤ST10:否),发声稳定性检验部13a从存储在登记声音数据存储部12中的登记声音数据中选择最新的L(L为M以上的整数值)次发声的登记声音数据,而删除剩余的登记声音数据。在步骤ST11的处理结束时,再次发声请求部15向登记发声人请求再进行一次发声(步骤ST11-1)。使用组合了由此新获得的一次发声的声音数据、和已存储在登记声音数据存储部12中的K(K为M-1以上)次发声的登记声音数据而获得的K+1(=L)次发声的声音数据,来进行相似度的确认和登记处理。
另外,作为保留L次发声的登记声音数据的基准,也可选择能够获得最大相似度的登记声音数据的组合。最大相似度的计算方法与计算M次发声的登记声音数据的组合的相似度的步骤ST7a相同。
此外,在L=M的情况下,L次发声的登记声音数据的组合是由步骤ST7a求出的相似度最大的M次发声的登记声音数据的组合。
如上所述,在登记发声不满足登记条件的情况下,并不是登记失败,而通过逐次增加发声来输入登记发声,从而与在每次登记失败时都重新进行M次发声的情况相比,能够减少输入发声次数,因此,能够获得一种对于登记发声人而言便利性高的登记型的声音识别装置。
另外,通过对登记失败时的再次发声的输入次数设定上限(阈值Tn),从而能够消除即使持续进行登记发声也无法进行登记的状态。而这作为登记失败的原因,很有可能导致登记(发声)环境很差。因此,在发声次数为阈值Tn以上的情况下,以登记失败而结束,能够发出通知改变登记的发声环境等指导,是易于用户使用的系统。
而且,通过设定记录登记声音数据的数量的上限(L次发声),能够节约登记声音数据存储部12的存储区域,还能减少运算最大相似度时所需的运算量。
工业上的实用性
本发明的声音识别装置能够减少因非稳定噪音或声音区间的误检测等引起的误登记,能够提高声音的识别性能,还通过防止增加不必要的发声次数,从而提高便利性,减少对存储器的不必要的使用,因此适用于声音登记型的声音识别装置等。
Claims (4)
1.一种声音识别装置,使用标准模式来对识别对象的发声进行声音识别,其特征在于,包括:
声音输入部,该声音输入部输入发声次数在规定数量以上的多次发声的声音;
存储部,该存储部对所述声音输入部输入的所述多次发声的声音数据进行存储;
稳定性检验部,该稳定性检验部求出从所述存储部读取的所述多次发声的声音数据之间的相似度,在所述相似度大于第一阈值的情况下,判定所述声音数据能够登记;
标准模式生成部,该标准模式生成部使用由所述稳定性检验部判定为能够登记的所述声音数据来生成所述标准模式;以及
再次发声请求部,该再次发声请求部执行再进行一次发声的再次发声请求,
所述稳定性检验部在从所述存储部读出的所述预定的多次声音数据中不存在能够登记的声音数据的情况下,使所述再次发声请求部执行再次发声请求,求出对应于该再次发声请求的一次发声的声音数据、与已经存储在所述存储部中的所述多次声音数据之间的声音数据间相似度,在所述声音数据间相似度中的最大值大于第二阈值的情况下,将具有该最大相似度的声音数据判定为能够登记。
2.如权利要求1所述的声音识别装置,其特征在于,
稳定性检验部在从存储部中读出的多次声音数据中不存在能够登记的声音数据,且声音输入部输入的声音的发声次数达到第三阈值时,以发声声音的登记失败而结束登记判定,来代替使再次发声请求部执行再次发声请求。
3.如权利要求1所述的声音识别装置,其特征在于,
稳定性检验部在从存储部中读出的多次声音数据中不存在能够登记的声音数据的情况下,删除所述存储部中的声音数据但保留所述规定数量以上的声音数据,求出对应于再次发声请求的一次发声的声音数据、与保留在所述存储部中的所述规定数量的声音数据之间的声音数据间相似度,在所述声音数据间相似度中的最大值大于第二阈值的情况下,将具有该最大相似度的声音数据判定为能够登记。
4.如权利要求3所述的声音识别装置,其特征在于,
稳定性检验部基于已经存储在存储部中的多次声音数据、与新输入的一次发声的声音数据中声音数据之间的相似度为最大的声音数据的组合,来确定规定数量的声音数据,并将其保留在所述存储部中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009019692 | 2009-01-30 | ||
JP2009-019692 | 2009-01-30 | ||
PCT/JP2009/005244 WO2010086925A1 (ja) | 2009-01-30 | 2009-10-08 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102301419A CN102301419A (zh) | 2011-12-28 |
CN102301419B true CN102301419B (zh) | 2013-06-12 |
Family
ID=42395195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801560332A Active CN102301419B (zh) | 2009-01-30 | 2009-10-08 | 声音识别装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8977547B2 (zh) |
JP (1) | JP5172973B2 (zh) |
CN (1) | CN102301419B (zh) |
DE (1) | DE112009004357B4 (zh) |
WO (1) | WO2010086925A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630971B2 (en) * | 2009-11-20 | 2014-01-14 | Indian Institute Of Science | System and method of using Multi Pattern Viterbi Algorithm for joint decoding of multiple patterns |
TWI475558B (zh) * | 2012-11-08 | 2015-03-01 | Ind Tech Res Inst | 詞語驗證的方法及裝置 |
WO2014199602A1 (ja) * | 2013-06-10 | 2014-12-18 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者識別方法、話者識別装置及び情報管理方法 |
US9443508B2 (en) * | 2013-09-11 | 2016-09-13 | Texas Instruments Incorporated | User programmable voice command recognition based on sparse features |
WO2016015687A1 (zh) * | 2014-07-31 | 2016-02-04 | 腾讯科技(深圳)有限公司 | 声纹验证方法及装置 |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
CN105185379B (zh) * | 2015-06-17 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 声纹认证方法和装置 |
US10044710B2 (en) | 2016-02-22 | 2018-08-07 | Bpip Limited Liability Company | Device and method for validating a user using an intelligent voice print |
WO2017191696A1 (ja) * | 2016-05-06 | 2017-11-09 | ソニー株式会社 | 情報処理システム、および情報処理方法 |
JP6804909B2 (ja) * | 2016-09-15 | 2020-12-23 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US9984688B2 (en) | 2016-09-28 | 2018-05-29 | Visteon Global Technologies, Inc. | Dynamically adjusting a voice recognition system |
WO2020111880A1 (en) * | 2018-11-30 | 2020-06-04 | Samsung Electronics Co., Ltd. | User authentication method and apparatus |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007111197A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4297528A (en) | 1979-09-10 | 1981-10-27 | Interstate Electronics Corp. | Training circuit for audio signal recognition computer |
JPS59192A (ja) * | 1982-06-25 | 1984-01-05 | 株式会社東芝 | 個人照合装置 |
US4751737A (en) * | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
JP2838848B2 (ja) | 1989-02-10 | 1998-12-16 | 株式会社リコー | 標準パターン登録方式 |
GB2237135A (en) | 1989-10-16 | 1991-04-24 | Logica Uk Ltd | Speaker recognition |
JPH075890A (ja) | 1993-06-16 | 1995-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声対話装置 |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
KR100241901B1 (ko) * | 1997-08-28 | 2000-02-01 | 윤종용 | 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법 |
JP3699608B2 (ja) * | 1999-04-01 | 2005-09-28 | 富士通株式会社 | 話者照合装置及び方法 |
KR100297833B1 (ko) * | 1999-07-07 | 2001-11-01 | 윤종용 | 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법 |
JP2002297181A (ja) | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
DE10313310A1 (de) * | 2003-03-25 | 2004-10-21 | Siemens Ag | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür |
JP4213716B2 (ja) * | 2003-07-31 | 2009-01-21 | 富士通株式会社 | 音声認証システム |
WO2006087799A1 (ja) * | 2005-02-18 | 2006-08-24 | Fujitsu Limited | 音声認証システム |
US8504365B2 (en) * | 2008-04-11 | 2013-08-06 | At&T Intellectual Property I, L.P. | System and method for detecting synthetic speaker verification |
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
DE102008040002A1 (de) * | 2008-08-27 | 2010-03-04 | Siemens Aktiengesellschaft | Verfahren zur szenariounabhängigen Sprechererkennung |
US8347247B2 (en) * | 2008-10-17 | 2013-01-01 | International Business Machines Corporation | Visualization interface of continuous waveform multi-speaker identification |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
-
2009
- 2009-10-08 CN CN2009801560332A patent/CN102301419B/zh active Active
- 2009-10-08 US US13/142,711 patent/US8977547B2/en active Active
- 2009-10-08 DE DE112009004357.7T patent/DE112009004357B4/de active Active
- 2009-10-08 JP JP2010548268A patent/JP5172973B2/ja active Active
- 2009-10-08 WO PCT/JP2009/005244 patent/WO2010086925A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007111197A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5172973B2 (ja) | 2013-03-27 |
DE112009004357B4 (de) | 2019-06-13 |
CN102301419A (zh) | 2011-12-28 |
DE112009004357T5 (de) | 2012-07-12 |
JPWO2010086925A1 (ja) | 2012-07-26 |
US8977547B2 (en) | 2015-03-10 |
WO2010086925A1 (ja) | 2010-08-05 |
US20110276331A1 (en) | 2011-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102301419B (zh) | 声音识别装置 | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP4730404B2 (ja) | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム | |
JP2008175955A (ja) | インデキシング装置、方法及びプログラム | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
US20100010813A1 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
CN108538293B (zh) | 语音唤醒方法、装置及智能设备 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
JP2016180917A (ja) | 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム | |
JP4730812B2 (ja) | 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体 | |
JP4594885B2 (ja) | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 | |
US20090106025A1 (en) | Speaker model registering apparatus and method, and computer program | |
JP6473112B2 (ja) | 音声認識精度推定装置、音声認識精度推定方法及び音声認識精度推定プログラム | |
JP4759827B2 (ja) | 音声セグメンテーション装置及びその方法並びにその制御プログラム | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP2022067223A (ja) | 生成装置および生成方法 | |
JP5447382B2 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
CN110895938B (zh) | 语音校正系统及语音校正方法 | |
US8666729B1 (en) | Processing natural language grammar | |
JP2007010995A (ja) | 話者認識方法 | |
KR20160109942A (ko) | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 | |
JP3919314B2 (ja) | 話者認識装置及びその方法 | |
CN109389141B (zh) | 测量数据的处理方法和装置 | |
JP2022110375A (ja) | 機械学習プログラム、装置、及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |