CN102246226A

CN102246226A - 声音识别装置

Info

Publication number: CN102246226A
Application number: CN2009801503310A
Authority: CN
Inventors: 海老原充; 石井纯; 坂下博纪; 野木和行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-01-30
Filing date: 2009-10-20
Publication date: 2011-11-16
Anticipated expiration: 2029-10-20
Also published as: US8200478B2; JPWO2010086927A1; DE112009003930T5; US20110196672A1; DE112009003930B4; CN102246226B; WO2010086927A1; JP4772164B2

Abstract

本发明的目的在于提供一种声音识别装置，包括语句选择部(22)，该语句选择部(22)从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句。

Description

声音识别装置

技术领域

本发明涉及声音识别装置。

背景技术

作为现有的声音识别装置，将新词汇与已登录词汇混淆的可能性进行数值化，并对该数值进行评价，来判定是否登录新词汇(例如，参照专利文献1)。另外，在专利文献2中揭示有以下声音识别装置：即，将声音识别用的存储装置设为分级结构，逐渐缩小包括范围，从而能够一边预测下一发声内容、一边进行识别。

专利文献1：日本专利特开2002-297181号公报

专利文献2：日本专利特开2004-325704号公报

发明内容

现有的声音识别装置使用作为识别对象的语句的文本标记，来生成声音识别字典。此处，在作为识别对象的语句数量较多的情况下或在语句较长的情况下，声音识别字典尺寸变大。例如，在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下，由于该设备的存储器存在限制，因此，若声音识别词典尺寸超过存储器可使用的容量，则存在声音识别装置不能正常工作的问题。

与此不同的是，专利文献1是基于新词汇与已登录词汇混淆的可能性的评价值、来判定是否登录新词汇的声音识别装置，因而，未考虑利用嵌入式软件来实现声音识别装置的情况，并且未考虑存储器的容量有限制的情况，因此，不能解决上述问题。

另外，专利文献2是考虑了因词汇增加而导致的识别性能的降低、来生成声音识别词典的声音识别装置，但是与上述相同，也未考虑存储器的容量有限制的情况，因此，不能解决上述问题。

本发明是为了解决上述问题而完成的，其目的在于提供一种声音识别装置，该声音识别装置能够抑制声音识别词典的词典尺寸的增大。

本发明的声音识别装置包括语句选择部，该语句选择部从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句。

根据本发明，由于从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句，因此，具有如下效果：能抑制由该识别对象语句构成的声音识别词典的尺寸的增大，即使在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下，也能够实现在存储器可使用的容量以内的词典尺寸。

附图说明

图1是表示本发明的实施方式1的声音识别装置的结构的框图。

图2是表示实施方式1的声音识别装置的动作流程的流程图。

图3是用于说明识别对象语句候补的去除处理的图。

图4是表示本发明的实施方式2的声音识别装置的结构的框图。

图5是表示实施方式2的声音识别装置的动作流程的流程图。

图6是用于说明实施方式2的词典生成处理部的处理的图。

图7是表示本发明的实施方式3的声音识别装置的结构的框图。

图8是表示实施方式3的声音识别装置的动作流程的流程图。

图9是用于说明识别对象语句候补的语句裁减处理的图。

图10是表示本发明的实施方式4的声音识别装置的结构的框图。

图11是表示实施方式4的声音识别装置的动作流程的流程图。

图12是表示本发明的实施方式5的声音识别装置的结构的框图。

图13是表示实施方式5的声音识别装置的动作流程的流程图。

图14是表示去除的词汇的通知例的图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1.

图1是表示本发明的实施方式1的声音识别装置的结构的框图。在图1中，实施方式1的声音识别装置1包括词典生成处理部2及声音识别处理部3。词典生成处理部2是用于生成由预先决定的声音单元(acoustic unit)数以下的语句构成的声音识别词典的单元，包括识别对象语句候补的存储部21、语句选择部22、识别对象语句的存储部23、声音识别词典生成部24、及声音识别词典的存储部25。

存放在存储部21中的识别对象语句候补包括要由声音识别装置1识别的文本的候补和表示该文本的发音内容的声音单元的组合。此处，所谓的识别对象语句是指声音单元为规定数量以下的语句。另外，所谓的声音单元是指音素或音节等较短的声音单位。该声音单元数越多，则声音识别词典的尺寸增加。因此，在实施方式1的声音识别装置1中，仅以预先决定的声音单元数以下的语句来生成声音识别字典，从而防止词典尺寸的增大。

语句选择部22是以下单元：即，将声音单元即音素作为基准，从识别对象语句候补中去除超过对一个识别对象语句所预先设定的音素数的定义值的识别对象语句候补，来选择上述定义值以内的音素数的识别对象语句。声音识别词典生成部24是使用从存储部23中读取出的识别对象语句、来生成声音识别词典的单元。

声音识别处理部3包括声音识别词典的存储部25及声音识别部26。声音识别部26是以下单元：即，参照存放在存储部25中的声音识别词典，对用户所发出的识别对象的声音(以下，称为识别对象声音)执行声音识别处理，来获得识别结果。

此外，通过将遵循本发明要点的词典生成和声音识别用程序读入计算机，并使该计算机的CPU加以执行，从而能在该计算机上将语句选择部22、声音识别词典生成部24、及声音识别部26作为硬件和软件协同工作的具体单元来实现。另外，识别对象语句候选的存储部21、识别对象语句的存储部23、及声音识别词典的存储部25能够构建于上述计算机所包括的存储装置(例如，硬件装置或外部存储媒体等)的存储区域上。

接下来，对动作进行说明。

图2是表示实施方式1的声音识别装置的动作流程的流程图，图2中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理，由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。

首先，语句选择部22从存储部21中读出用于生成声音识别词典的识别对象语句候补来进行准备(步骤ST1)。接着，语句选择部22将对语句编号N进行计数的计数器(在图1中未图示)的计数值初始化为0(N＝0)，上述语句编号N是对各识别对象语句候补按照处理顺序来附加的连续编号(步骤ST2)。

语句选择部22将上述计数器的计数值加上1(步骤ST3)，对语句编号N是否是从存储部21中读出的识别对象语句候补数以内的数进行判定(步骤ST4)。此处，若语句编号N是识别对象语句候补数以内的数(步骤ST4：是)，则语句选择部22对与当前语句编号N相对应的识别对象语句候补的声音单元的数量是否在定义值以内进行判定(步骤ST5)。若与语句编号N相对应的识别对象语句候补的声音单元的数量是在定义值以内(步骤ST5：是)，则语句选择部22将该文件编号N的识别对象语句候补作为识别对象语句存放到存储部23(步骤ST6)。

另一方面，若与语句编号N相对应的识别对象语句候补的声音单元的数量不是在定义值以内(步骤ST5：否)，则语句选择部22从识别对象语句候补中去除该语句编号N的语句(步骤ST8)。接着，若步骤ST6或步骤ST8的处理结束，则语句选择部22返回至步骤ST3，将对语句编号N进行计数的计数器的计数值加上1，对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8的处理。

此处，对步骤ST8的去除处理进行说明。

图3是用于说明识别对象语句候补的去除处理的图，示出了将音素设为基准作为声音单元、从识别对象语句候补中去除音素数超过20的语句的情况。如图3所示，对于语句编号N＝1即[かながわけんかまくらし]的识别对象语句候补，音素串为[kanagawakeN kamakurasi](21音素)，由于超过了20音素，因此要去除。同样地，语句编号N＝6、8的语句的音素数超过了20，因此要去除，而语句编号N＝2～5、7的语句作为识别对象语句而被存放到存储部23。

构成识别对象语句的音素分别与声响模型(acoustic model)相对应，因此对声音识别词典的尺寸有较大影响。此处，在该实施方式1中，通过去除音素数超过定义值的候补语句，从而能够防止词典尺寸的增加。此外，在图3的例子中，是逐一对构成语句的音素进行计数来求出音素数的，但也可利用摩尔数(molar number)来计算音素数。

返回至图2的说明，若语句编号N是超过识别对象语句候补数的数(语句编号N＞识别对象语句候补数)(步骤ST4：否)，则声音识别词典生成部24基于至此已经存放到存储部23中的识别对象语句来生成声音识别词典(步骤ST7)。将所生成的声音识别词典存放到存储部25。

声音识别处理部3的声音识别部26输入用户所发出的识别对象声音(步骤ST9)，对于该识别对象声音，参照存放在存储部25中的声音识别词典来进行声音识别处理，输出识别结果(步骤ST10)。

由上所述，根据本实施方式1，由于包括从识别对象语句的候补中选择声音单元数为规定值以下的语句作为识别对象语句的语句选择部22，因此，能抑制声音识别词典的词典尺寸的增大，即使在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下，也能实现在存储器可使用的容量以内的词典尺寸。由此，能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。

实施方式2.

图4是表示本发明的实施方式2的声音识别装置的结构的框图。在图4中，实施方式2的声音识别装置1A具有与上述实施方式1的图1基本相同的结构，但是其不同点在于，包括取决于所有识别对象语句候补的总声音单元数的语句选择部22a，以取代实施方式1的取决于各个识别对象语句候补的声音单元数的语句选择部22。

语句选择部22a选择识别对象语句并存放到存储部23，以使得所有识别对象语句候补的声音单元数的总和在定义值以内。此外，对于除声音识别处理部3、及词典生成处理部2的语句选择部22a以外的结构，由于都与上述实施方式1相同，因此省略说明。

接下来，对动作进行说明。

图5是表示实施方式2的声音识别装置的动作流程的流程图，图5中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理，由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。

首先，语句选择部22a从存储部21中读出用于生成声音识别词典的识别对象语句候补来进行准备(步骤ST1)。接着，语句选择部22a对各识别对象语句候补按照声音单元数从小到大的顺序来进行排序(步骤ST1-1)。接着，语句选择部22a将对语句编号N进行计数的计数器(在图4中未图示)的计数值初始化为0(N＝0)，并将对所有的识别对象语句候补的总声音单元数进行计数的计数器(在图4中未图示)的计数值初始化为0，上述语句编号N是对各识别对象语句候补按照处理顺序所附加的连续编号(步骤ST2a)。

语句选择部22a将对语句编号N进行计数的计数器的计数值加上1(步骤ST3)，对语句编号N是否是从存储部21中读出的识别对象语句候补数以内的数进行判定(步骤ST4)。此处，若语句编号N是识别对象语句候补数以内的数(步骤ST4：是)，则语句选择部22a将该语句编号N的语句的声音单元数与对总声音单元数进行计数的计数器的计数值相加(步骤ST4-1)。

接着，语句选择部22a对由上述计数器的计数值表示的总声音单元数是否在定义值以内进行判定(步骤ST5a)。若总声音单元数在定义值以内(步骤ST5a：是)，则语句选择部22a将该文件编号N的识别对象语句候补作为识别对象语句存放到存储部23(步骤ST6)。

在语句编号N超过从存储部21中读出的识别对象语句候补数的情况下(步骤ST4：否)，声音识别词典生成部24基于存放在存储部23中的识别对象语句，来生成声音识别词典，并存放到存储部25(步骤ST7)。另外，若总声音单元数超过定义值(步骤ST5a：否)，则语句选择部22a停止对存储部23积累识别对象语句，声音识别词典生成部24基于到该时刻为止存放在存储部23中的识别对象语句，来生成声音识别词典，并存放到存储部25(步骤ST8a)。

若在步骤ST6中选择识别对象语句，则语句选择部22a返回至步骤ST3，将对语句编号N进行计数的计数器的计数值加上1，对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8a的处理。

参照如上所述生成的声音识别词典的声音识别处理(步骤ST9及ST10)与上述实施方式1相同。

图6是用于说明实施方式2的词典生成处理部的处理的图，示出了将音素设为基准作为声音单元、能够选择总音素数不超过100的识别对象语句候补作为识别对象语句的情况。在图6所示的例子中，语句选择部22a从音素数较少的语句开始依次进行选择，在所有语句的总音素数超过100的时刻停止选择。即，从语句编号N＝1到语句编号N＝6为止的总音素数合计为94音素，若加上下一语句编号N＝7的语句的音素数，则大于100音素。因而，将到语句编号N＝6的[かながわけんかまくらし]为止的语句选择作为识别对象语句。

在本实施方式2中，选择成为识别对象语句的多个语句，使得该多个语句的声音单元数的总和为定义值以下。识别对象语句的总声音单元数越多，则声音识别词典尺寸增加，因此，若生成预先决定的总声音单元数以下的声音识别词典，则能够防止声音识别词典尺寸的增大。在取决于总声音单元的语句选择部22a中，使用音素作为声音单元并将识别对象语句候补的音素数相加，在中途的合计值(总声音单元数)超过所定义的值的情况下，去除该语句及其后的语句，来获得识别对象语句。

此外，在上述实施方式2中，在步骤ST5a中识别对象语句候补的总声音单元数超过定义值的情况下，也可根据在步骤ST10中执行的声音识别处理的结果，使语句选择部22a选择要去除的识别对象语句候补。

例如，使声音单元数较多的语句再次返回到识别对象语句候补，在下一次的选择处理中作为识别对象语句来用于生成声音识别词典。在参照由此生成的声音识别词典的声音识别结果为良好的情况下，将该情况提示给用户，由用户来判断是否要去除。

另外，在识别对象语句候补的总声音单元数超过定义值的情况下，也可执行后面在实施方式3中阐述的语句的裁减来调整总声音单元数。在这种情况下，语句选择部22a也可提供用于选择成为裁减对象的语句的GUI(Graphical User Interface：图形用户界面)，用户据此来选择裁减对象的语句。

由此，根据本实施方式2，在总声音单元数超过定义值的情况下，及在语句编号N＞识别对象语句候补数的情况下，基于到该时刻为止累积在存储部23中的识别对象语句来生成声音识别词典。通过采用这样的构成，能够抑制声音识别词典的词典尺寸的增大，能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。

实施方式3.

图7是表示本发明的实施方式3的声音识别装置的结构的框图。在图7中，实施方式3的声音识别装置1B具有与上述实施方式1的图1基本相同的结构，但是其不同点在于，包括取决于识别对象语句候补的声音单元数的语句裁减部27，以取代实施方式1的取决于各个识别对象语句候补的声音单元数的语句选择部22，并包括对裁减后的识别对象语句进行存储的存储部28，以取代实施方式1的识别对象语句的存储部23。

语句裁减部27是以下单元：即，在识别对象语句候补的声音单元数超过定义值的情况下，对于该语句，在包含超过定义值的部分的声音单元的音节的前一个音节处进行裁减，得到裁减后的文本。尽管声音单元数较多的语句或文本会导致声音识别词典尺寸的增加，但是，在本实施方式3中，即使是上述文本，也能识别到声音单元数不超过定义值的部分为止。

存储部28是存放有由语句裁减部27完成了裁减处理后的识别对象语句的存储部。另外，对于除语句裁减部27及存储部28以外的结构，都与上述实施方式1相同，因此省略说明。

接下来，对动作进行说明。

图8是表示实施方式3的声音识别装置的动作流程的流程图，图8中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理，由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。在图8中，从步骤ST1到步骤ST7的处理都与上述实施方式1的图2所示的内容相同，因此，省略说明。

若与语句编号N相对应的识别对象语句候补的声音单元的数量不在定义值以内(步骤ST5：否)，则语句裁减部27对该识别对象语句候补的超过上述定义值的音节及之后的音节进行裁减，将裁减后的语句作为语句编号N的识别对象语句存放到存储部28(步骤ST8b)。

若步骤ST6或步骤ST8b的处理结束，则语句裁减部27返回至步骤ST3，将对语句编号N进行计数的计数器的计数值加上1，对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8b的处理。

此处，对步骤ST8b中的语句裁减处理进行说明。

图9是用于说明识别对象语句候补的语句裁减处理的图，示出了将音素设为基准作为声音单元、从识别对象语句候补中去除音素数超过20的音节及之后的音节的情况。在图9的上部所示的例子中，语句编号N＝1、6、8的各识别对象语句候补成为裁减对象。在这种情况下，如图9的下部所示，语句裁减部27去除超过20音素的音节及之后的音节。

例如，对于语句编号N＝1即[かながわけんかまくらし]的识别对象语句候补，音素串为[kanagawakeN kamakurasi](21音素)，超过了20音素。因此，将超过20音素的音节[si]及之后的音节设为去除对象，将[kanagawakeNkamakura](19音素)作为识别对象语句。即，进行裁减，形成到包含超过第20个音素的音素[i]的音节[si]之前为止的文本。对语句编号6、8也进行相同的处理，在进行语句裁减后，仅将音素数为20以下的识别对象语句候补获取作为裁减后的识别对象语句。

此外，不仅能够以音节单位进行裁减，也能够以音素单位进行裁减。例如，在[kanagawakeN kamakurasi]的例子中，超过20音素的音素成为裁减对象，从而[kanagawakeN kamakuras](20音素)成为识别对象语句。即，进行裁减，形成到超过第20个音素的音素[i]之前为止的文本。

返回至图8的说明，若语句编号N是超过识别对象语句候补数的数(语句编号N＞识别对象语句候补数)(步骤ST4：否)，则声音识别词典生成部24基于到该时刻为止已经积累在存储部28中的裁减后的识别对象语句来生成声音识别词典(步骤ST7)。将所生成的声音识别词典存放到存储部25。

由此，根据本实施方式3，由于包括语句裁减部27，该语句裁减部27在识别对象语句的候补的声音单元数超过规定值的情况下，对超过该规定值的声音单元及之后的声音单元、或包含该声音单元的音节及之后的音节进行裁减以将其去除，并将裁减后的语句作为识别对象语句，因此，能够将到声音单元数不超过定义值的部分为止作为识别对象语句，抑制声音识别词典的词典尺寸的增大，而尽量不减少识别词汇数，能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。

实施方式4.

图10是表示本发明的实施方式4的声音识别装置的结构的框图。在图10中，实施方式4的声音识别装置1C具有与上述实施方式3的图7基本相同的结构，但是不同点在于，包括利用对裁减后的语句后接杂音模型(garbagemodel)(以下，简称为GM)后的识别对象语句、来生成声音识别词典的GM附加声音识别词典生成部29，以替代声音识别词典生成部24，并且，还包括存放杂音模型的存储部30。

GM附加声音识别词典生成部29是对裁减后的识别对象语句后续追加杂音模型来生成声音识别词典的单元。存放在存储部30中的杂音模型是对声音区间进行检测的模型，即使声音中后续有包含无用语或杂音的未知发音，也能对其进行识别。

因此，通过在声音识别词典的识别词汇的前后附加杂音模型。从而即使在该识别词汇的发音前后附加附带语，也能识别出该识别词汇。由此，能够对在语句的中途进行了裁减的识别对象语句的被裁减的后续部分进行识别，能够防止作为识别结果而得到的分数(正确度)降低。另外，对于除GM附加声音识别词典生成部29及存储部30以外的结构，由于都与上述实施方式3相同，因此省略说明。

接下来，对动作进行说明。

图11是表示实施方式4的声音识别装置的动作流程的流程图，图11中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理，由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。在图11中，由于从步骤ST1到步骤ST6、及步骤ST8b的处理都与上述实施方式3的图8所示的内容相同，因此，省略说明。

若语句编号N是超过识别对象语句候补数的数(语句编号N＞识别对象语句候补数)(步骤ST4：否)，则GM附加声音识别词典生成部29对到该时刻为止已经积累在存储部28中的裁减后的识别对象语句的末尾、附加从存储部30中读出的杂音模型，并基于附加了杂音模型后的识别对象语句，来生成声音识别词典(步骤ST7a)。将所生成的声音识别词典存放到存储部25。

若对上述实施方式3所示的图9的例子进行说明，则在语句编号N＝1、6、8的识别对象语句完成裁减的情况下，语句裁减部27对这些识别对象语句设定表示裁减完成的标记。若GM附加声音识别词典生成部29参照该标记值、确定为裁减完成，则使语句编号N＝1、6、8的识别对象语句后接杂音模型，并使用这些识别对象语句来生成声音识别词典。

由此，根据本实施方式4，由于对完成裁减的识别对象语句后接杂音模型，来生成声音识别词典，因此，能够尽可能不减少识别词汇数，且即使是被裁减后的词汇也能够进行识别，因此，能够抑制声音识别词典的词典尺寸的增大，且能够防止作为识别结果而得到的分数降低。由此，能够提供适于利用嵌入式软件来构筑的情况的声音识别装置。

实施方式5.

图12是表示本发明的实施方式5的声音识别装置的结构的框图。在图12中，实施方式5的声音识别装置1D具有与上述实施方式1的图1基本相同的结构，但是其不同点在于，包括识别对象外候补通知部31。识别对象外候补通知部31是向用户通知作为识别对象外而由语句选择部22去除的识别对象语句候补的单元。此外，除了识别对象外候补通知部31以外的结构都与上述实施方式1相同，因此省略说明。

接下来，对动作进行说明。

图13是表示实施方式5的声音识别装置的动作流程的流程图，图13中由附加了标号A的虚线围住的处理步骤表示词典生成处理部2的处理，由附加了标号B的虚线围住的处理步骤表示声音识别处理部3的处理。在图13中，从步骤ST1到步骤ST8的处理都与上述实施方式1的图2所示的内容相同，因此，省略说明。

在步骤ST8中将声音单元数超过定义值的识别对象语句候补去除时，语句选择部22将所去除的识别对象语句候补通知给识别对象外候补通知部31。在由声音识别词典生成部24生成声音识别词典时，识别对象外候补通知部31将上述通知的识别对象语句候补通知给用户(步骤ST8-1)。由此，用户能够识别到识别对象外的语句。

例如，如上述实施方式1所示的图3那样，在使用音素作为声音单元、仅将20音素以下的语句作为识别对象的情况下，对于[かながわけんかまくらし]这样的识别对象语句候补，音素为[kanagawakeN kamakurasi](21音素)，由于超过了20音素，因此，成为去除对象。此时，识别对象外候补通知部31将该词汇为识别对象外的情况通知给用户。作为通知方法，如图14所示，有利用成为识别对象外的词汇的目录、和记载了该词汇为识别对象外的情况的屏幕文字(telop)来进行通知的方法。

返回至图13的说明。若步骤ST6或步骤ST8-1的处理结束，则语句选择部22返回至步骤ST3，将对语句编号N进行计数的计数器的计数值加上1，对与下一语句编号相对应的识别对象语句候补重复从步骤ST4到步骤ST8-1的处理。

由此，根据本实施方式5，由于包括对未被选择作为识别对象语句的候补或成为裁减处理对象的候补进行通知的识别对象外候补通知部31，因此，能够一边事先使用户理解成为识别对象外的词汇，一边抑制声音识别词典的词典尺寸的增大，因此，能够提供便利的、且适于利用嵌入式软件来构筑的情况的声音识别装置。

另外，上述实施方式5的识别对象外候补通知部31也能追加到上述实施方式2～4的结构中。在这种情况下，识别对象外候补通知部31向用户通知由语句选择部22a识别为去除对象的识别对象语句候补，或向用户通知由语句裁减部27a识别为裁减对象的识别对象语句候补。即使采用这样的结构，也能在生成声音识别词典时，使用户事先理解识别对象外或将识别词汇在中途裁减的文本。由此，可提高用户的便利性。

工业上的实用性

本发明的声音识别装置能够抑制由该识别对象语句构成的声音识别词典的尺寸的增大，即使在利用用于导航系统或便携式电话等设备的嵌入式软件来实现声音识别装置的情况下，也能实现在存储器可使用的容量以内的词典尺寸，因此，适用于需要较大存储器容量的声音识别装置等。

Claims

1.一种声音识别装置，包括：

声音识别词典生成部，该声音识别词典生成部基于识别对象语句来生成声音识别词典；以及声音识别部，该声音识别部参照所述声音识别词典来对识别对象的声音进行声音识别，其特征在于，

包括语句选择部，该语句选择部从所述识别对象语句的候补中选择声音单元数为规定值以下的语句作为所述识别对象语句。

2.一种声音识别装置，包括：

包括语句选择部，该语句选择部选择语句作为所述识别对象语句，以使得对所述识别对象语句的候补的声音单元数进行总计而得到的总声音单元数为规定值以下。

3.一种声音识别装置，包括：

包括语句裁减部，该语句裁减部在所述识别对象语句的候补的声音单元数超过规定值的情况下，对超过该规定值的声音单元及之后的声音单元、或包含该声音单元的音节及之后的音节进行裁减以将其去除，并将裁减后的语句作为所述识别对象语句。

4.如权利要求3所述的声音识别装置，其特征在于，

声音识别词典生成部对由语句裁减部实施了裁减处理后获得的识别对象语句的末尾附加杂音模型，并基于附加了该杂音模型的所述识别对象语句来生成声音识别词典。

5.如权利要求1所述的声音识别装置，其特征在于，

包括通知部，该通知部对未被选择作为识别对象语句的候补或成为裁减处理对象的候补进行通知。

6.如权利要求2所述的声音识别装置，其特征在于，

7.如权利要求3所述的声音识别装置，其特征在于，