CN101625864B

CN101625864B - 声音识别装置和声音识别方法

Info

Publication number: CN101625864B
Application number: CN2009101369756A
Authority: CN
Inventors: 原田将治
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-07-10
Filing date: 2009-04-30
Publication date: 2011-11-09
Anticipated expiration: 2029-04-30
Also published as: US20100010813A1; US8271282B2; CN101625864A; JP5200712B2; JP2010020102A

Abstract

本发明提供一种声音识别装置和声音识别方法。在对登记在单词辞典中的识别单词赋予舍弃单词时，声音分析部从与多个舍弃单词候选分别对应的多个声音数据中分别提取特征参数。声音对照部计算由声音分析部提取出的特征参数、与由单词模型生成部生成的各识别单词的单词模型之间的似然度。结果判定部针对各特征参数将似然度最高的单词模型作为识别结果。舍弃单词生成部根据针对各特征参数的识别结果，对于每一个舍弃单词候选，对希望登记舍弃单词的识别单词是识别结果的发音数进行计数，将所计数的发音数最多的舍弃单词候选作为与识别单词对应的舍弃单词登记在单词辞典中。

Description

声音识别装置和声音识别方法

技术领域

本发明涉及根据声音信号与预先登记的识别单词之间的相似度来判断所述声音信号是所述识别单词的哪一个并输出识别结果的声音识别装置、该声音识别装置的声音识别方法以及记录有用于通过计算机来实现所述声音识别装置的计算机程序的记录介质。

背景技术

在现有的声音识别装置中，具有如下的装置：其预先准备了登记有识别单词的信息的单词辞典、和登记有舍弃单词的信息的舍弃单词辞典(例如，参照日本特开2001-147698号公报、日本特许第3105863号公报)。这种声音识别装置将由说话者输入的声音信息与登记在单词辞典和舍弃单词辞典中的信息进行比较，确定与所输入的声音信息最相似的单词。并且，如果所确定的单词是识别单词，则声音识别装置作为识别结果而输出所述识别单词，如果所确定的单词是舍弃单词，则声音识别装置作为没有识别结果而舍弃所输入的声音信息。

在如上所述使用舍弃单词辞典的结构中，对于与舍弃单词的相似度为第1位的声音信息，无论使用哪种单词辞典都会被舍弃。因此，有时会采取以下的对策：不把可能对识别结果产生不良影响的舍弃单词登记在舍弃单词辞典中。但是，即使不把这种舍弃单词登记在舍弃单词辞典中，也存在不能得到适当的识别结果的情况。

具体而言，例如考虑希望得到“OKINAWA”作为所输入的声音信息的识别结果的情况。此外，在针对所输入的声音信息以100分满分表示相似度的情况下，假设“OKINAA”得到98分的相似度，“OKINAKA”得到95分的相似度，“OKINAWA”得到93分的相似度。

此处，假设在单词辞典中登记有“OKINAKA”和“OKINAWA”的信息，在舍弃单词辞典中登记有“OKINAA”的信息。此处，由于在舍弃单词辞典中登记了相似度最高的“OKINAA”的信息，因此作为没有识别结果而舍弃所输入的声音信号。

另一方面，假设在单词辞典中登记有“OKINAKA”和“OKINAWA”的信息，而在舍弃单词辞典中没有登记“OKINAA”的信息。此处，在单词辞典和舍弃单词辞典中都没有登记相似度最高的“OKINAA”的信息，而在单词辞典中登记了相似度第二高的“OKINAKA”的信息，因此输出“OKINAKA”作为识别结果。

如上所述，针对按照相似度从高到低的顺序识别为“OKINAA”、“OKINAKA”、“OKINAWA”的声音信息，无论是将“OKINAA”登记为舍弃单词的情况下，还是不登记“OKINAA”的情况下，都不能得到适当的识别结果“OKINAWA”。

因此，提出了以下装置：对于每个识别单词确定与未知词模型的似然度(相似度)相乘的权重，将乘以权重后的未知词模型的似然度与识别结果进行比较，决定识别结果的采用或舍弃(例如，参照日本特开平10-171488号公报)。此外，提出了以下结构的系统：根据登记在单词辞典中的识别单词的特性，生成适当的舍弃单词并登记在舍弃单词辞典中(例如，参照日本特开2006-154658号公报)。

在上述声音识别装置中，未知词模型、与未知词模型相乘的权重大多是根据某种方法人工确定并登记的，在这种情况下，很难确定最恰当的未知词模型。此外，登记在舍弃单词辞典中的舍弃单词例如是根据识别单词的特征而生成的，在这种情况下，不能将没有根据识别单词的特征生成为舍弃单词的单词作为舍弃单词。

发明内容

本申请正是鉴于相关的情况而完成的，其目的在于提供一种能够提高声音识别处理的精度的声音识别装置、声音识别方法以及记录介质。

本申请公开的声音识别装置具有存储多个识别单词的单词辞典，从声音信号提取特征量，使用所提取的特征量来分别计算所述声音信号与存储在单词辞典中的各个识别单词的之间相似度，将计算出的相似度高的识别单词作为识别结果进行输出。在本申请公开的声音识别装置中，单词辞典构成为与识别单词对应地存储舍弃单词，该舍弃单词规定是否从识别结果中排除该识别单词，使用所提取的特征量计算所述声音信号与存储在单词辞典中的识别单词和舍弃单词各自之间的相似度。并且，声音识别装置判断计算出的相似度高的单词是否是舍弃单词，在判断为是舍弃单词时，不将与该舍弃单词对应地存储在单词辞典中的识别单词作为识别结果。此外，如果计算出的相似度高的单词是识别单词，则声音识别装置将该识别单词作为识别结果进行输出。

根据本申请公开的声音识别装置，在声音识别处理对象的声音信号被识别为登记在单词辞典中的舍弃单词时，从识别结果中排除与该舍弃单词对应地登记在单词辞典中的识别单词。即，关于对与希望作为识别结果得到的单词(识别单词)相似的单词(相似单词)进行发音时的声音信号，当该声音信号被识别为与所述识别单词不同的单词(识别单词)时，将所述相似单词登记为针对所述不同单词的舍弃单词。由此，所述声音信号被识别为针对所述不同单词的舍弃单词，并从识别结果中排除所述不同的单词，因此能够防止错误识别。

在本申请公开的声音识别装置中，即使在与希望作为识别结果得到的识别单词相似的单词的声音信号被识别为不同的识别单词的可能性高的情况下，也不会将所述不同的识别单词作为识别结果，因此能够得到适当的识别结果并提高声音识别处理的精度。

附图说明

图1是表示实施方式1的声音识别装置的结构的框图；

图2A和图2B是表示单词辞典和带读法的声音数据的结构的示意图；

图3是表示实施方式1的声音识别装置的功能结构的功能框图；

图4是表示登记有舍弃单词的单词辞典的结构的示意图；

图5是表示舍弃单词登记处理的步骤的流程图；

图6是表示舍弃单词登记处理的步骤的流程图；

图7是表示声音识别处理的步骤的流程图；

图8是表示实施方式2的带读法的声音数据的结构的示意图；

图9是表示舍弃单词登记处理的步骤的流程图；以及

图10是表示舍弃单词登记处理的步骤的流程图。

具体实施方式

以下，根据表示各实施方式的附图来详细叙述本申请公开的声音识别装置、声音识别方法以及计算机程序。另外，在以下的各实施方式中说明了以下结构：公知的个人计算机等读取本申请公开的计算机程序，由个人计算机的CPU(Central Processing Unit：中央处理单元)等执行该计算机程序，从而实现本申请公开的声音识别装置。但是，也可以通过发挥等同作用的硬件来实现本申请公开的声音识别装置。

(实施方式1)

以下，根据表示实施方式1的附图来详细叙述本申请公开的声音识别装置。图1是表示实施方式1的声音识别装置的结构的框图。本实施方式1的声音识别装置1例如是公知的个人计算机，具有控制部10、ROM(Read Only Memory：只读存储器)11、RAM(Random Access Memory：随机存取存储器)12、硬盘驱动器(以下，称作HDD)13、操作部14和显示部15等，这些硬件的各个部分分别经由总线1a相互连接。

控制部10是CPU或MPU(Micro Processor Unit：微处理器)等，将预先存储在ROM 11或HDD 13中的控制程序读取到适当的RAM 12中并执行该控制程序，并且控制上述硬件各个部分的动作。ROM 11预先存储有用于使声音识别装置1作为本发明的声音识别装置进行工作所需要的各种控制程序。RAM 12是SRAM或闪存等，临时存储控制部10执行控制程序时所产生的各种数据。

HDD 13是大容量的存储装置，预先存储有用于使声音识别装置1作为本申请公开的声音识别装置进行工作所需要的各种控制程序、以及用于向用户通知各种信息的画面信息等。此外，HDD 13存储有声音识别处理程序13a、舍弃单词登记处理程序13b、图2A所示的单词辞典13c、声学模型13d以及图2B所示的带读法的声音数据13e等，作为用于以本申请公开的声音识别装置进行工作的各种信息。

图2A和图2B是表示单词辞典13c和带读法的声音数据13e的结构的示意图。如图2A所示，在单词辞典13c中，针对作为声音识别装置1进行声音识别处理的识别结果的各个识别单词，相关联地登记有读法和音素串。另外，各识别单词的音素串针对各识别单词所包含的音素示出了表示各音素特征的声学模型的排列。

带读法的声音数据13e对于与希望附加舍弃单词的识别单词对应的多个舍弃单词候选中的每一个单词，包括存储有多个声音数据(声音信号)的多个声音数据文件(未图示)、和相关联地记述有各单词的声音数据文件的文件名和各单词的读法的文本文件。在图2B中示出文本文件的记述内容的例子。

此外，声音数据文件获取对舍弃单词候选的各单词进行发音的声音，存储通过模拟/数字转换处理对所获取的模拟声音数据(声音信号)进行转换后的数字声音数据(声音信号)。此外，在1个声音数据文件中，对于1个舍弃单词候选的单词，存储有100个(100发音)左右的声音数据。

此外，声学模型13d的登记内容虽未图示，但是声学模型13d按照每个日语音素存储有表示各音素的特征的声学模型(特征模式)。这里，声学模型例如可以利用MFCC(Mel Frequency Cepstrum Coefficient：Mel频率倒谱系数)参数等在声音识别领域中通常使用的参数。

存储在HDD 13中的各信息不限于预先存储于HDD 13的结构。在声音识别装置1具有能够对存储在外部存储器(未图示)中的数据进行读取的驱动器(未图示)的情况下，也可以通过驱动器读取存储在外部存储器中的各种信息并存储到HDD 13中。此外，在声音识别装置1具有能够与因特网那样的网络连接的通信部(未图示)的情况下，也可以经由网络从外部装置下载各种信息并存储到HDD 13中。

操作部14是键盘和鼠标等，具有用于用户对声音识别装置1进行操作所需的各种操作键。在由用户对各操作键进行操作的情况下，操作部14将与被操作的操作键对应的控制信号发送到控制部10，控制部10执行与从操作部14获取的控制信号对应的处理。

显示部15是液晶显示器或CRT显示器等，根据来自控制部10的指示，显示声音识别装置1的工作状态、经由操作部14输入的信息以及应通知给用户的信息等。

另外，本实施方式1的声音识别装置1可以是具有以下部件的结构：具有麦克风和模拟/数字转换器等的声音输入部，和具有数字/模拟转换器、声音放大电路以及扬声器等的声音输出部等。

以下，在上述结构的声音识别装置1中，说明控制部10通过执行存储在ROM 11或HDD 13中的控制程序而实现的各种功能。图3是表示实施方式1的声音识别装置1的功能结构的功能框图。

在本实施方式1的声音识别装置1中，在从用户经由操作部14请求了执行舍弃单词登记处理时，控制部10执行存储在HDD 13中的声音识别处理程序13a和舍弃单词登记处理程序13b。由此，控制部10实现声音分析部10a、声音对照部10b、单词模型生成部10c、结果判定部10d以及舍弃单词生成部10e等的各功能。

在声音识别装置1进行声音识别处理时，控制部10执行声音分析部10a、声音对照部10b、单词模型生成部10c以及结果判定部10d的各功能。此外，声音识别装置1具有使舍弃单词与登记在单词辞典13c中的识别单词对应地进行登记(追加)的功能。

这里，舍弃单词是规定是否将对应的识别单词从识别结果中排除的单词，当作为声音识别结果而得到舍弃单词时，从识别结果中排除与该舍弃单词对应地登记在单词辞典13c中的识别单词。在声音识别装置1进行舍弃单词的登记处理时，控制部10执行声音分析部10a、声音对照部10b、单词模型生成部10c、结果判定部10d以及舍弃单词生成部10e的各功能。

声音分析部(提取部)10a对声音数据进行声学分析，从声音数据例如提取MFCC参数(特征参数、特征量)。这里，从声音数据提取的特征参数只要是表示声音数据的特征的参数，则不限于MFCC参数。

单词模型生成部10c针对登记在单词辞典13c中的识别单词，根据各识别单词的音素串和登记在声学模型13d中的声学模型，生成各识别单词的单词模型(声响参数)。这里，单词模型生成部10c例如生成由隐马尔可夫模型(HMM：Hidden Markov Model)表现的单词模型。

声音对照部(对照部)10b对声音分析部10a提取出的声音数据的特征参数与单词模型生成部10c生成的各识别单词的各个单词模型进行对照，计算表示两者的相似度的似然度。这里，似然度表示声音数据的特征参数是各识别单词的单词模型的可能性。声音对照部10b将针对单词模型生成部10c所生成的所有单词模型计算出的似然度发送给结果判定部10d。

结果判定部(对照部)10d根据从声音对照部10b获取的针对各个单词模型的似然度，确定似然度最高的单词模型，将得到所确定的单词模型的识别单词作为识别结果进行输出。这里，在本实施方式1的声音识别装置1进行声音识别处理的情况下，结果判定部10d将得到的识别结果发送到预定的输出目的地。此外，在本实施方式1的声音识别装置1进行针对登记在单词辞典13c中的识别单词的舍弃单词的登记处理时，结果判定部10d将得到的识别结果发送到舍弃单词生成部10e。

舍弃单词生成部10e根据从结果判定部10d获取的识别结果，与登记在单词辞典13c中的识别单词对应地登记舍弃单词。另外，对舍弃单词生成部10e进行的具体处理将在后面叙述。

在上述结构的声音识别装置1进行声音数据的识别处理时，声音分析部10a从例如由外部输入的声音数据提取特征参数，将提取出的特征参数发送到声音对照部10b。声音对照部10b对照从声音分析部10a获取的特征参数、和由单词模型生成部10c生成的各识别单词的单词模型，计算表示两者的相似度的似然度。声音对照部10b将针对各识别单词的单词模型所计算的似然度发送到结果判定部10d，结果判定部10d将所获取的似然度最高的单词模型的识别单词作为识别结果。

接下来，对在上述结构的声音识别装置1中，针对登记在单词辞典13c中的识别单词登记舍弃单词时的处理进行说明。这里，在用户针对登记在单词辞典13c中的任意一个识别单词登记舍弃单词的情况下，作为用于确定舍弃单词的学习数据，准备图2B所示的文本数据、和在该文本数据中记述了文件名的声音数据文件。并且，用户将希望登记舍弃单词的识别单词和文本数据指定为处理对象，使声音识别装置1执行舍弃单词登记处理。

此处，以下述情况时的处理为例进行说明：在单词辞典13c中登记“OKINAKA”和“OKINAWA”的信息作为识别单词，将各单词“OKINA”、“OKINAWA”和“OKINAA”作为舍弃单词候选，将这些单词的任意一个登记为识别单词“OKINAKA”的舍弃单词。

声音分析部10a从带读法的声音数据13e中的图2B所示的文本数据读取一个舍弃单词候选的信息(声音数据文件的文件名和读法)。例如，声音分析部10a读取文件名“okina.wav”和读法“OKINA”。声音分析部10a读取存储在文件名“okina.wav”的声音数据文件中的100种发音(100个)的声音数据。声音分析部10a从各个声音数据中提取特征参数，将所提取的特征参数发送给声音对照部10b。

声音对照部10b对照从声音分析部10a发送来的各个特征参数、和由单词模型生成部10c生成的各识别单词的单词模型，计算表示两者的相似度的似然度。声音对照部10b对于从声音分析部10a发送来的各个特征参数，将所计算出的与各识别单词的单词模型的似然度发送到结果判定部10d。结果判定部10d对于各声音信号的每一个特征参数，确定似然度最高的单词模型，将得到所确定的单词模型的识别单词作为识别结果，将各特征参数的识别结果发送到舍弃单词生成部10e。

声音分析部10a、声音对照部10b和结果判定部10d针对在文本数据中记述了文件名的所有声音数据文件，并且针对在各声音数据文件中存储的所有声音数据，重复上述处理。

舍弃单词生成部(计数部)10e根据从结果判定部10d获取的各特征参数的识别结果，针对每个舍弃单词候选，对希望登记舍弃单词的识别单词作为识别结果而得到的发音数进行计数。即，舍弃单词生成部10e针对各个舍弃单词候选的声音数据即100种发音的声音数据，对识别为识别单词“OKINAKA”的发音数进行计数。舍弃单词生成部(登记部)10e将识别为希望登记舍弃单词的识别单词“OKINAKA”的发音数最多的舍弃单词候选作为与识别单词“OKINAKA”对应的舍弃单词登记在单词辞典13c中。

例如，在将图2B所示的文本数据作为处理对象进行舍弃单词登记处理的情况下，假设如下：作为对发音为“OKINA”的100个发音的声音数据进行识别的结果，识别为“OKINAKA”的发音数是10个发音，作为对发音为“OKINAWA”的100个发音的声音数据进行识别的结果，识别为“OKINAKA”的发音数是0个发音，作为对发音为“OKINAA”的100个发音的声音数据进行识别的结果，识别为“OKINAKA”的发音数是30个发音。此时，舍弃单词生成部10e将识别为“OKINAKA”的发音数最多的“OKINAA”作为识别单词“OKINAKA”的舍弃单词登记在单词辞典13c中。

由此，将识别为不希望作为识别结果得到的识别单词“OKINAKA”的可能性较高的单词登记为识别单词“OKINAKA”的舍弃单词，因此能够精度良好地防止错误识别。

通过进行上述的处理，舍弃单词生成部10e能够根据图2A所示的单词辞典13c而生成图4所示的单词辞典13c。这里，图4所示的单词辞典13c既可以构成为对图2A所示的单词辞典13c追加舍弃单词，也可以生成为新的单词辞典13c。

图4是表示登记有舍弃单词的单词辞典13c的结构的示意图。在图4所示的单词辞典13c中，相关联地登记有作为声音识别装置1进行的声音识别处理的识别结果的识别单词的读法和音素串、和对各识别单词追加(登记)的舍弃单词的读法和音素串。

在声音识别装置1使用如上所述登记(追加)有舍弃单词的单词辞典13c进行声音数据的识别处理的情况下，单词模型生成部10c不仅针对登记在单词辞典13c中的识别单词还针对登记在单词辞典13c中的舍弃单词生成单词模型。即，单词模型生成部10c根据识别单词和舍弃单词各自的音素串、与登记在声学模型13d中的声学模型，生成识别单词和舍弃单词各自的单词模型。

声音分析部10a从所输入的声音数据提取特征参数，将所提取的特征参数发送到声音对照部10b。声音对照部10b对从声音分析部10a获取的特征参数、和由单词模型生成部10c生成的识别单词和舍弃单词各自的单词模型进行对照，计算表示两者的相似度的似然度。声音对照部10b将针对识别单词和舍弃单词的单词模型所计算出的似然度发送到结果判定部10d。

结果判定部10d确定所获取的似然度最高的单词模型，判定该单词模型是识别单词还是舍弃单词。在结果判定部10d将所获取的似然度最高的单词模型判定为识别单词时，将该识别单词作为识别结果。另一方面，在结果判定部10d将所获取的似然度最高的单词模型判定为舍弃单词时，不将该舍弃单词、和与该舍弃单词对应地登记在单词辞典13c中的识别单词作为识别结果。因此，结果判定部10d确定似然度次高的单词模型，对该单词模型进行同样的处理。

通过这样的处理，即使在得到最高似然度的单词是舍弃单词、得到第二高似然度的单词是不希望作为识别结果得到的识别单词、得到第三高似然度的单词是希望作为识别结果得到的识别单词的情况下，也能够将希望作为识别结果得到的识别单词获取为识别结果。具体而言，通过将得到最高似然度的舍弃单词登记为不希望作为识别结果得到的识别单词的舍弃单词，能够将不希望作为识别结果得到的识别单词从识别结果中排除，因此能够将希望作为识别结果得到的识别单词作为识别结果。

因此，在与希望作为识别结果得到的识别单词相似的单词(相似单词)被识别为不希望作为识别结果得到的识别单词的可能性高的情况下，将该相似单词登记为不希望作为识别结果得到的识别单词的舍弃单词。由此，作为对所述相似单词的声音数据进行声音识别的结果，在识别为与希望作为识别结果得到的识别单词相似的单词的情况下，由于该单词是舍弃单词，因此不将与该舍弃单词对应的识别单词作为识别结果，能够防止错误识别。

以下，根据流程图对本实施方式1的声音识别装置1进行的舍弃单词登记处理进行详细叙述。图5和图6是表示舍弃单词登记处理的步骤的流程图。这里，由控制部10根据存储在声音识别装置1的ROM 11或HDD 13中的控制程序执行以下处理。

在用户针对登记在单词辞典13c中的识别单词登记舍弃单词的情况下，准备图2B所示的文本数据、和在该文本数据中记述了文件名的声音数据文件。此外，用户将文本数据与希望登记舍弃单词的识别单词一起指定为处理对象，使声音识别装置1执行舍弃单词登记处理。

控制部10(声音分析部10a)从文本数据读取1个舍弃单词候选的信息(声音数据文件的文件名和读法)(S1)。控制部10(声音分析部10a)读取存储在所读取的文件名的声音数据文件中的声音数据的其中之一(S2)，从读取的声音数据中提取特征参数(S3)。

控制部10(声音对照部10b)对照所提取的特征参数、和由单词模型生成部10c生成的各识别单词的单词模型(S4)。控制部10(声音对照部10b)根据从声音数据提取出的特征参数与各识别单词的单词模型之间的似然度，将与似然度最高的单词模型对应的识别单词作为识别结果。控制部10(结果判定部10d)判断识别结果与希望登记舍弃单词的识别单词是否一致(S5)。

控制部10(结果判定部10d)在判断为与希望登记舍弃单词的识别单词一致的情况下(S5：“是”)，对识别为希望登记舍弃单词的识别单词的发音数加1(S6)。这里，识别为希望登记舍弃单词的识别单词的发音数在舍弃单词登记处理的开始时重置为0。

控制部10在判断为识别结果与希望登记舍弃单词的识别单词不一致的情况下(S5：“否”)，跳过步骤S6的处理。控制部10判断是否已读取了在步骤S1中读取出的文件名的声音数据文件中存储的所有声音数据(S7)，在判断为未读取的情况下(S7：“否”)，处理返回步骤S2。控制部10对在步骤S1中读取出的文件名的声音数据文件中存储的所有声音数据，进行上述步骤S3～S6的处理。

控制部10在判断为读取了在步骤S1中读取出的文件名的声音数据文件中存储的所有声音数据时(S7：“是”)，将在步骤S6中所计算出的发音数与在步骤S1中读取出的读法对应地存储到RAM 12中(S8)。

控制部10判断是否读取了在处理对象文本数据中记述的所有舍弃单词候选的信息(S9)，在判断为没有读取所有的舍弃单词候选信息时(S9：“否”)，处理到返回步骤S1。控制部10从处理对象文本数据读取尚未处理的舍弃单词候选信息中的一个信息(S1)，根据所读取的信息，重复上述步骤S2～S8的处理。

控制部10在判断为读取了所有舍弃单词候选的信息时(S9：“是”)，根据在步骤S8中存储在RAM 12中的、识别为希望登记舍弃单词的识别单词的发音数，确定舍弃单词(S10)。具体而言，控制部10将识别为希望登记舍弃单词的识别单词的发音数最多的单词确定为舍弃单词。控制部10将所确定的舍弃单词与希望登记舍弃单词的识别单词相关联地登记到单词辞典13c中(S11)。

接下来，根据流程图来详细叙述使用了如上所述登记有舍弃单词的单词辞典13c的声音识别处理。图7是表示声音识别处理的步骤的流程图。这里，由控制部10根据存储在声音识别装置1的ROM 11或HDD 13中的控制程序执行以下处理。

控制部10(声音分析部10a)从声音识别的处理对象即声音数据提取特征参数(S21)。控制部10(声音对照部10b)对照所提取的特征参数、和由单词模型生成部10c生成的识别单词和舍弃单词各自的单词模型(S22)。这里，控制部10(单词模型生成部10c)在进行声音识别时，不仅对登记在单词辞典13c中的识别单词还对舍弃单词预先生成单词模型。

控制部10(声音对照部10b)计算从声音数据提取出的特征参数与识别单词和舍弃单词各自的单词模型之间的似然度。控制部10(结果判定部10d)提取所计算的似然度在预定值以上的单词(S23)。控制部10(结果判定部10d)在所提取的单词中，确定似然度最高的单词(S24)，判断所确定的单词是否是识别单词(S25)。

控制部10(结果判定部10d)在判断为所确定的单词是识别单词时(S25：“是”)，输出所确定的单词(识别单词)作为识别结果(S26)，结束声音识别处理。控制部10(结果判定部10d)在判断为所确定的单词不是识别单词时(S25：“否”)，即所确定的单词是舍弃单词时，从识别结果中排除与所确定的单词(舍弃单词)对应地登记在单词辞典13c中的识别单词(S27)。

控制部10判断是否还具有在步骤S23中提取的似然度在预定值以上的单词(S28)，在判断为具有时(S28：“是”)，处理返回步骤S24。从在步骤S23中所提取的单词中除去已经进行了步骤S25～S27的处理的单词以外的单词中，控制部10确定似然度最高的单词(S24)。控制部10对所确定的单词进行上述步骤S25～S27的处理。

控制部10在判断为已经没有在步骤S23中所提取的似然度在预定值以上的单词时(S28：“否”)，舍弃声音识别的处理对象即声音数据(S29)，结束声音识别处理而不输出识别结果。

如上所述，在本实施方式1的声音识别装置1中，对于登记在单词辞典13c中的每个识别单词登记舍弃单词。由此，在声音识别处理对象的声音数据被识别为与不希望作为识别结果得到的识别单词相似的单词(舍弃单词)时，将与该舍弃单词对应的识别单词从识别结果中排除。由此，能够防止错误识别并提高声音识别的精度。

上述实施方式1的声音识别装置1是如下结构：在对识别单词登记舍弃单词时，对舍弃单词候选的声音数据进行声音识别处理，将识别为所述识别单词的发音数最多的舍弃单词候选登记为舍弃单词。不限于这样的结构，声音识别装置1例如也可以构成为：对舍弃单词候选的声音数据进行声音识别处理，将识别为所述识别单词的发音数在预定数以上的所有舍弃单词候选登记为舍弃单词。

像这样，在将识别为希望登记舍弃单词的识别单词的发音数在预定数以上的所有舍弃单词候选登记为舍弃单词时，能够更可靠地从识别结果中排除不希望作为识别结果得到的识别单词，因此能够进一步降低错误识别的可能性。

此外，声音识别装置1例如可以是如下结构：针对舍弃单词候选的声音数据进行声音识别处理，将识别为希望登记舍弃单词的识别单词的发音数相对于所有发音数的比例在预定值以上的舍弃单词候选登记为舍弃单词。

在上述结构的声音识别装置1中，即使对于例如因为单词长度不同、发音的一部分相似而错误识别的发音也是有效的。例如假设：作为对发音为“AITIKEN”的声音数据进行识别的结果，识别为识别单词“ITI”的发音数是50个发音，作为对发音为“YOKKAITI”的声音数据的进行识别结果，识别为识别单词“ITI”的发音数是80个发音，作为对发音为“ITIDUKERU”的声音数据进行识别的结果，识别为识别单词“ITI”的发音数是60个发音。

此时，舍弃单词生成部10e将设别为识别单词“ITI”的发音数最多的“YOKKAITI”作为识别单词“ITI”的舍弃单词而登记在单词辞典13c中。这里，舍弃单词生成部10e如果是将识别为识别单词“ITI”的发音数在预定数(例如，50)以上的所有舍弃单词候选登记为舍弃单词的结构，则将“AITIKEN”、“YOKKAITI”、“ITIDUKERU”均作为识别单词“ITI”的舍弃单词而登记到单词辞典13c中。

(实施方式2)

以下，对实施方式2的声音识别装置进行说明。这里，本实施方式2的声音识别装置能够通过与在上述实施方式1中说明的图1所示的声音识别装置1相同的结构来实现，因此对相同的结构赋予相同的标号并省略说明。

上述实施方式1的声音识别装置1是如下结构：针对希望附加舍弃单词的识别单词，对多个舍弃单词候选的声音数据进行声音识别处理，其结果，将识别为希望附加舍弃单词的识别单词的发音数多的单词设为舍弃单词。本实施方式2的声音识别装置1是如下结构：对针对希望附加舍弃单词的识别单词的多个舍弃单词候选的声音数据进行声音识别处理，其结果，将似然度最高的舍弃单词候选的音素串(最大似然音素串)作为舍弃单词登记在单词辞典13c中。

在本实施方式2的声音识别装置1中，控制部10与上述实施方式1的控制部10相同，实现声音分析部10a、声音对照部10b、单词模型生成部10c、结果判定部10d以及舍弃单词生成部10e等各功能。另外，本实施方式2的声音识别装置1在进行声音识别处理时，进行与上述实施方式1的声音识别装置1相同的处理。此外，本实施方式2的声音识别装置1在进行舍弃单词登记处理时，声音分析部10a进行与上述实施方式1的声音分析部10a相同的处理。

图8是表示实施方式2的带读法的声音数据的结构的示意图。在本实施方式2的声音识别装置1中，在针对登记在单词辞典13c中的识别单词登记舍弃单词的情况下，用户准备图8所示的文本数据、和在该文本数据中记述了文件名的声音数据文件。并且，用户将希望登记舍弃单词的识别单词和文本数据指定为处理对象，使声音识别装置1执行舍弃单词登记处理。

此处，以下述情况时的处理为例进行说明：在单词辞典13c中登记有“OKINAKA”和“OKINAWA”作为识别单词，将“NOKINAKA”和“OKINAA”作为舍弃单词候选，根据这些舍弃单词候选的任意一个声音数据登记识别单词“OKINAKA”的舍弃单词。

声音分析部10a从图8所示的文本数据读取一个舍弃单词候选的信息(声音数据文件的文件名和读法)。声音分析部10a读取存储在所读取的文件名的声音数据文件中的100个发音的声音数据，从所读取的各个声音数据中提取特征参数，将所提取的特征参数发送给声音对照部10b。

本实施方式2的声音对照部10b对照从声音分析部10a发送来的各个特征参数、和由单词模型生成部10c生成的识别单词“OKINAKA”的单词模型，计算表示两者的相似度的似然度。声音对照部10b将所计算的各特征参数与识别单词“OKINAKA”的单词模型之间的似然度发送到结果判定部10d。

本实施方式2的结果判定部10d在从声音对照部10b获取的各特征参数与识别单词“OKINAKA”的单词模型之间的似然度中，确定似然度最高的特征参数并存储到RAM 12中。具体而言，结果判定部10d将从声音对照部10b发送来的各个似然度与存储在RAM 12中的似然度进行比较。结果判定部10d在从声音对照部10b获取到比存储在RAM 12中的似然度更高的似然度时，将存储在RAM 12中的似然度和特征参数更新为新获取的似然度和特征参数。

在声音分析部10a、声音对照部10b和结果判定部10d针对在文本数据中记述了文件名的所有声音数据文件结束上述处理时，在该时刻存储在RAM 12中的似然度成为在所有的声音数据与识别单词“OKINAKA”的单词模型之间的似然度中最高值的似然度。结果判定部10d将存储在RAM 12中的特征参数，即与最高值的似然度对应的特征参数发送到舍弃单词生成部10e。

舍弃单词生成部10e根据从结果判定部10d获取的特征参数来生成最大似然音素串。这里，最大似然音素串是指，在以音素为单位自由连接的声学模型中，形成与特征参数之间具有最高似然度的声学模型串的音素的模式串(音素串)。声学模型的单位不限于音素，也可以是单音节、多音节。

舍弃单词生成部10e将所生成的最大似然音素串作为舍弃单词的音素串而登记到单词辞典13c中。这里，登记在单词辞典13c中的舍弃单词的读法可以从图8所示的文本数据中的记述获取。通过进行上述处理，舍弃单词生成部10e能够根据图2A所示的单词辞典13c生成图4所示的单词辞典13c。

通过上述的处理，从与不希望作为识别结果得到的识别单词的单词模型最相似的声音数据得到的音素串(最大似然音素串)被作为舍弃单词的音素串而登记到单词辞典13c中。由此，即使在输入了发音与不希望作为识别结果得到的识别单词相似的声音数据时，该声音数据也能识别为舍弃单词，因此能够从识别结果中排除与该舍弃单词对应的识别单词(不希望作为识别结果得到的识别单词)。由此，通过使用登记有这样的舍弃单词的单词辞典13c来进行声音识别处理，从而能够防止错误识别。

这里，本实施方式2中作为学习数据的声音数据只要是希望附加舍弃单词的识别单词的声音数据之外的声音数据，则也可以是从噪声获取的声音数据。

以下，根据流程图详细叙述本实施方式2的声音识别装置1进行的舍弃单词登记处理。图9和图10是表示舍弃单词登记处理的步骤的流程图。这里，由控制部10根据存储在声音识别装置1的ROM 11或HDD 13中的控制程序执行以下处理。

用户在针对登记在单词辞典13c中的识别单词登记舍弃单词时，准备图8所示的文本数据、和在该文本数据中记述了文件名的声音数据文件。并且，用户将文本数据与希望登记舍弃单词的识别单词一起指定为处理对象，在声音识别装置1中执行舍弃单词登记处理。

控制部10(声音分析部10a)从文本数据读取1个舍弃单词候选的信息(声音数据文件的文件名和读法)(S31)。控制部10(声音分析部10a)读取存储在所读取的文件名的声音数据文件中的声音数据的其中之一(S32)，从读取出的声音数据中提取特征参数(S33)。

控制部10(声音对照部10b)对照所提取的特征参数、和由单词模型生成部10c生成的希望附加舍弃单词的识别单词的单词模型(S34)。控制部10(声音对照部10b)计算从声音数据所提取的特征参数、与希望附加舍弃单词的识别单词的单词模型之间的似然度，判断所计算的似然度是否是到目前为止所计算的似然度中的最高值(S35)。具体而言，控制部10(结果判定部10d)判断所计算出的似然度是否高于存储在RAM12中的似然度。

这里，控制部10(声音对照部10b)也可以计算从声音数据所提取的特征参数、与所有的识别单词和舍弃单词的单词模型之间的似然度。

控制部10在判断为所计算出的似然度是最高值时(S35：“是”)，把得到该似然度的特征参数存储到RAM 12中(S36)。控制部10在判断为所计算出的似然度不是最高值时(S35：“否”)，跳过步骤S36的处理。

控制部10判断是否读取了在步骤S31中读取出的文件名的声音数据文件中存储的所有声音数据(S37)，在判断为没有读取的情况下(S37：“否”)，将处理返回步骤S32。控制部10针对在步骤S31中读取出的文件名的声音数据文件中存储的所有声音数据，进行上述步骤S33～S36的处理。

控制部10在判断为读取了在步骤S31中读取出的文件名的声音数据文件中存储的所有声音数据时(S37：“是”)，判断是否读取了在处理对象文本数据中记述的所有舍弃单词候选的信息(S38)。

控制部10在判断为没有读取所有的舍弃单词候选的信息时(S38：“否”)，处理返回步骤S31。控制部10从处理对象文本数据读取尚未处理的舍弃单词候选信息中的一个信息(S31)，根据所读取的信息，重复上述步骤S32～S37的处理。

控制部10在判断为读取了所有舍弃单词候选的信息时(S38：“是”)，根据在该时刻存储在RAM 12中的特征参数生成最大似然音素串(S39)。控制部10将所生成的最大似然音素串作为舍弃单词，与希望登记舍弃单词的识别单词相关联地登记到单词辞典13c中(S40)。

如上所述，在本实施方式2的声音识别装置1中，将根据发音与要附加舍弃单词的识别单词相似的声音数据而生成的最大似然音素串登记为舍弃单词。由此，能够将与识别单词相似的单词登记为舍弃单词。

在上述结构中，由于识别单词和舍弃单词相似，因此在对识别单词进行发音时，有可能会识别为舍弃单词。在虽然对识别单词进行了发音但识别为舍弃单词的情况下，从识别结果中排除该识别单词，因此不能得到正确的识别结果。因此，期望在通过上述的处理确定舍弃单词时，证实对识别单词的声音数据进行声音识别处理时不输出舍弃单词作为识别结果。

(实施方式3)

以下，对实施方式3的声音识别装置进行说明。这里，本实施方式3的声音识别装置能够通过与在上述实施方式1中说明的图1所示的声音识别装置1相同的结构来实现，因此对相同的结构赋予相同的标号并省略说明。

本实施方式3的声音识别装置1与上述实施方式1的声音识别装置1相同，针对多个舍弃单词候选的声音数据进行声音识别处理，其结果，将识别为希望附加舍弃单词的识别单词的发音数多的单词确定为舍弃单词。这里，在本实施方式3的声音识别装置1中，控制部10提取已确定为舍弃单词的单词的一部分，作为舍弃单词登记到单词辞典13c中。

例如，控制部10在将图2B所示的文本数据作为处理对象并进行针对识别单词“OKINAKA”的舍弃单词的登记处理的情况下，进行实施方式1中所说明的处理。具体而言，假设控制部10得到：作为对发音为“OKINA”的声音数据进行识别的结果，识别为“OKINAKA”的发音数是10个发音，作为对发音为“OKINAWA”的声音数据进行识别的结果，识别为“OKINAKA”的发音数是0个发音，作为对发音为“OKINAA”的声音数据进行识别的结果，识别为“OKINAKA”的发音数是30个发音。

本实施方式3的控制部10(舍弃单词生成部10e)将各个舍弃单词候选“OKINA”、“OKINAWA”和“OKINAA”分割成部分模式。此处，舍弃单词生成部10e例如分割成“OKI”、“KINA”、“NAWA”和“NAA”的部分模式。

舍弃单词生成部10e根据基于从结果判定部10d获取的识别结果进行计数的、针对每一个舍弃单词候选识别为识别单词“OKINAKA”的发音次数，计算对于各个分割后的部分模式的发音次数。此处，部分模式“OKI”包含在舍弃单词候选“OKINA”、“OKINAWA”、“OKINAA”中，因此对于部分模式“OKI”的发音次数成为合并“OKINA”的10个发音和“OKINAA”的30个发音后的40个发音。

同样地，舍弃单词生成部10e将对于部分模式“KINA”的发音次数计算为40个发音，将对于部分模式“NAWA”的发音次数计算为0个发音，将对于部分模式“NAA”的发音次数计算为30个发音。此处，舍弃单词生成部10e判断各个部分模式是否是要附加舍弃单词的识别单词“OKINAKA”的一部分，将作为识别单词的一部分的部分模式从舍弃单词的候选中排除。

此处，部分模式“OKI”、“KINA”是识别单词“OKINAKA”的一部分，因此舍弃单词生成部10e将部分模式“OKI”、“KINA”从识别单词“OKINAKA”的舍弃单词候选中排除。由此，舍弃单词生成部10e将部分模式“NAA”作为与识别单词“OKINAKA”对应的舍弃单词登记到单词辞典13c中。

由此，本实施方式3的声音识别装置1将与不希望作为识别结果得到的识别单词相似的单词的一部分作为与所述识别单词对应的舍弃单词而预先登记在单词辞典13c中。由此，即使在声音识别处理对象的声音数据被识别为与不希望作为识别结果得到的识别单词相似的单词的一部分(舍弃单词)时，也能够从识别结果中排除与该舍弃单词相似的识别单词。由此，在本实施方式3中，能够防止错误识别并进一步提高声音识别的精度。

将上述本实施方式3的声音识别装置1作为实施方式1的声音识别装置1的变形例进行了说明，但是也能够适用于实施方式2的声音识别装置1的结构。即，也可以构成为：在将与希望附加舍弃单词的识别单词之间的似然度最高的舍弃单词候选的音素串(最大似然音素串)作为舍弃单词登记到单词辞典13c中时，将该舍弃单词候选的音素串的一部分作为舍弃单词登记在单词辞典13c中。

如上述实施方式1～3中说明的那样，通过针对登记在单词辞典13c中的每个识别单词来登记舍弃单词，从而能够提高识别精度而不对登记在单词辞典13c中的其他识别单词带来影响。具体而言，在声音识别处理中，能够维持检出率并且改善符合率。

这里，检出率表示实际上能够正确识别为某个识别单词的声音数据的数量、相对于应该识别为所述识别单词的测试数据(声音数据)的数量的比例。此外，符合率表示正确识别为某个识别单词的声音数据的数量、相对于正确识别为所述识别单词的声音数据的数量和错误识别为所述识别单词的声音数据的数量的合计的比例。

Claims

1.一种声音识别装置，该声音识别装置具有：

从声音信号提取特征量的提取部；

存储多个识别单词的单词辞典，在所述单词辞典中，与所述识别单词对应地存储了规定是否从识别结果中排除该识别单词的舍弃单词；以及

对照部，其使用所述提取部提取出的特征量来计算所述声音信号与存储在所述单词辞典中的识别单词和舍弃单词各自之间的相似度，提取所计算出的相似度为规定值以上的单词，判断所提取出的单词中相似度最高的单词是否是识别单词，在判断为不是识别单词、即判断为舍弃单词时，从识别结果中排除与该判断为舍弃单词的单词对应地存储在所述单词辞典中的识别单词，并从所述提取出的单词中除去被判断为舍弃单词的单词；在判断为是识别单词时，输出所提取出的单词中相似度最高的单词作为识别结果。

2.根据权利要求1所述的声音识别装置，该声音识别装置还具有输入部，该输入部针对与要附加舍弃单词的识别单词相对应的多个舍弃单词候选，分别向所述提取部输入多个声音信号，其中，

所述提取部构成为从所输入的多个声音信号中分别提取特征量，

所述对照部构成为：使用所述提取部从所输入的多个声音信号中提取出的特征量来计算所述多个声音信号与存储在所述单词辞典中的各个识别单词之间的相似度，输出基于所计算出的相似度的识别结果，

所述声音识别装置还具有：

计数部，其根据所述对照部输出的基于所计算出的相似度的识别结果，对于各个舍弃单词候选，对作为识别结果而输出了要附加舍弃单词的识别单词的声音信号的数量进行计数；以及

登记部，其将该计数部计数的数量最多的舍弃单词候选作为与要附加舍弃单词的识别单词对应的舍弃单词存储在所述单词辞典中。

3.根据权利要求1所述的声音识别装置，

该声音识别装置还具有输入部，该输入部针对与要附加舍弃单词的识别单词相对应的多个舍弃单词候选，分别向所述提取部输入多个声音信号，其中，

所述声音识别装置还具有：

登记部，其将所述计数部计数的数量在预定数以上的舍弃单词候选作为与要附加舍弃单词的识别单词对应的舍弃单词存储在所述单词辞典中。

4.根据权利要求2或3所述的声音识别装置，其中，所述登记部将舍弃单词候选的一部分作为与要附加舍弃单词的识别单词对应的舍弃单词存储在所述单词辞典中。

5.根据权利要求1所述的声音识别装置，该声音识别装置还具有输入部，该输入部针对与要附加舍弃单词的识别单词对应的多个舍弃单词候选，分别向所述提取部输入多个声音信号，其中，

该声音识别装置还具有：

声学模型生成部，其根据所述对照部计算出的、与要附加舍弃单词的识别单词之间的相似度最高的声音信号，来生成最大似然音素串；以及

登记部，其将所生成的最大似然音素串作为与要附加舍弃单词的识别单词对应的舍弃单词存储在所述单词辞典中。

6.一种声音识别装置，该声音识别装置具有：

从声音信号提取特征量并存储在存储部中的提取部；

存储多个识别单词的单词辞典，在所述单词辞典中与所述识别单词对应地存储了规定是否从识别结果中排除该识别单词的舍弃单词；以及

对照部，其使用由所述提取部存储在所述存储部中的特征量来计算所述声音信号与存储在所述单词辞典中的识别单词和舍弃单词各自之间的相似度，提取所计算出的相似度为规定值以上的单词，判断所提取出的单词中相似度最高的单词是否是识别单词，在判断为不是识别单词、即判断为舍弃单词时，从识别结果中排除与该判断为舍弃单词的单词对应地存储在所述单词辞典中的识别单词，并从所述提取出的单词中除去被判断为舍弃单词的单词；在判断为是识别单词时，输出所提取出的单词中相似度最高的单词作为识别结果。

7.一种声音识别方法，该声音识别方法包括以下步骤：

具有单词辞典的声音识别装置从声音信号中提取特征量，所述单词辞典存储有多个识别单词、和与该识别单词对应并规定是否从识别结果中排除该识别单词的舍弃单词；

所述声音识别装置使用所提取的特征量来计算所述声音信号与存储在所述单词辞典中的识别单词和舍弃单词各自之间的相似度，提取所计算出的相似度为规定值以上的单词；

所述声音识别装置判断所提取出的单词中相似度最高的单词是否是识别单词；以及

所述声音识别装置在判断为不是识别单词、即判断为舍弃单词时，从识别结果中排除与该判断为舍弃单词的单词对应地存储在所述单词辞典中的识别单词，并从所述提取出的单词中除去被判断为舍弃单词的单词；在判断为是识别单词时，输出所提取出的单词中相似度最高的单词作为识别结果。