CN103229232A

CN103229232A - 声音识别装置及导航装置

Info

Publication number: CN103229232A
Application number: CN2010800703736A
Authority: CN
Inventors: 丸田裕三; 石井纯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2013-07-31
Anticipated expiration: 2030-11-30
Also published as: WO2012073275A1; US20130158999A1; DE112010006037T5; JP5409931B2; JPWO2012073275A1; DE112010006037B4; CN103229232B

Abstract

本发明的声音识别装置及导航装置对从作为声音识别对象词汇的地址数据中分割出来的单词的出现频度在规定值以上的单词生成声音识别词典，并将输入声音的声学特征的时间序列与声音识别词典进行对照，并从声音识别词典中确定出最有可能成为输入声音的单词序列，并对确定出的单词序列与地址数据进行部分一致的对照，将部分一致的语句作为声音识别结果。

Description

声音识别装置及导航装置

技术领域

本发明涉及一种车载用的导航装置等所使用的声音识别装置以及具备该声音识别装置的导航装置。

背景技术

例如，在专利文献1中公开了一种基于大规模语法的声音识别方法。在该声音识别方法中，将输入声音转换成声学特征的序列，并将该序列与由规定的语法所规定的单词序列的声学特征的集合进行比较，从而将与由该语法所定义的语句最一致的序列识别为是所发出的输入声音。

现有技术文献

专利文献

专利文献1：日本专利特开平7-219578号公报

发明内容

发明所要解决的技术问题

在日本、中国等，由于使用汉字等，文字较为多样，另外，由于在对地址进行声音识别时，有时会在地址中使用建筑物所固有的公寓名称，因此，若将所有地址均包括到识别词典中，识别词典的容量会变大，从而会导致识别性能变差，还会产生识别时间变长的问题。

另外，在专利文献1所代表的现有技术中，在所使用的文字较为多样、或识别对象中包含有公寓名称等固有名词时，语法存储单元及单词词典存储单元的容量会变得非常大，对这些单元进行访问的次数也会增多，使得识别时间变长。

本发明是为了解决上述问题而完成的，其目的在于，得到一种声音识别装置及包括该声音识别装置的导航装置，该声音识别装置能够减小声音识别词典的容量，并能够由此来实现识别处理的高速化。

解决技术问题所采用的技术方案

本发明所涉及的声音识别装置，包括：声学分析部，该声学分析部对输入声音的声音信号进行声学分析，并将其转换成声学特征的时间序列；词汇存储部，该词汇存储部存储声音识别对象的词汇；单词分割部，该单词分割部从存储在词汇存储部中的词汇中分割出单词；出现频度计算部，该出现频度计算部对由单词分割部分割出来的单词的出现频度进行计算；识别词典生成部，该识别词典生成部对由出现频度计算部所计算出的出现频度在规定值以上的单词生成声音识别词典；声学数据匹配部，该声学数据匹配部对由声学分析部获取到的输入声音的声学特征的时间序列与由识别词典生成部生成的声音识别词典进行对照，并从声音识别词典中确定出最有可能成为输入声音的单词序列；以及部分一致对照部，该部分一致对照部将由声学数据匹配部确定出的单词序列与词汇存储部所存储的词汇进行部分一致的对照，并将词汇存储部所存储的词汇中、与由声学数据匹配部所确定出的单词序列部分一致的语句作为声音识别结果。

发明效果

根据本发明，具有如下效果：能减小声音识别词典的容量，由此能实现识别处理的高速化。

附图说明

图1是表示本发明的实施方式1所涉及的声音识别装置的结构的框图。

图2是表示实施方式1所涉及的声音识别词典的生成处理的流程的流程图以及在各处理中所处理的数据示例的图。

图3是表示实施方式1中的声音识别装置所使用的声音识别词典的一个示例的图。

图4是表示实施方式1所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图。

图5是表示本发明的实施方式2所涉及的声音识别装置的结构的框图。

图6是表示实施方式2所涉及的声音识别词典的生成处理的流程的流程图以及在各处理中所处理的数据示例的图。

图7是表示实施方式2所涉及的声音识别装置所使用的声音识别词典的一个示例的图。

图8是表示实施方式2所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图。

图9是用于对在实施方式2所涉及的声音识别装置的声音识别词典中所进行的路径搜索的一个示例进行说明的图。

图10是表示实施方式2所涉及的声音识别处理的其它示例的流程图以及在各处理中所处理的数据示例的图。

图11是用于对在实施方式2所涉及的声音识别装置的声音识别词典中所进行的路径搜索的另一个示例进行说明的图。

图12是表示本发明的实施方式3所涉及的声音识别装置的结构的框图。

图13是表示实施方式3中的声音识别词典的一个示例的图。

图14是表示实施方式3所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图。

图15是表示本发明的实施方式4所涉及的声音识别装置的结构的框图。

图16是对实施方式4所涉及的声音识别装置中所使用的特征矩阵的一个示例进行说明的图。

图17是对实施方式4所涉及的声音识别装置中所使用的特征矩阵的另一个示例进行说明的图。

图18是表示实施方式4所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图。

图19是用于对在实施方式4所涉及的声音识别装置的声音识别词典中所进行的路径搜索进行说明的图。

图20是表示本发明的实施方式5所涉及的声音识别装置的结构的框图。

图21是表示实施方式5所涉及的声音识别装置中所使用的由音节构成的声音识别词典的一个示例的图。

图22是表示实施方式5所涉及的音节化后的地址数据的生成处理流程的流程图以及在各处理中所处理的数据示例的图。

图23是表示实施方式5所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图。

具体实施方式

下面，为了对本发明进行更详细的说明，参照附图对用于实施本发明的实施方式进行说明。

实施方式1

图1是表示本发明的实施方式1所涉及的声音识别装置的结构的框图，示出了一种对用户所说出的地址进行声音识别的装置。图1中，实施方式1所涉及的声音识别装置1包括声音识别处理部2以及声音识别词典生成部3。声音识别处理部2是对由麦克风21所获取到的声音进行声音识别的结构部，包括：麦克风21、声音获取部22、声学分析部23、声学数据匹配部24、声音识别词典存储部25、地址数据对照部26、地址数据存储部27、以及结果输出音28。

另外，声音识别词典生成部3是生成声音识别词典存储部25中所存储的声音识别词典的结构部，该声音识别词典生成部3具有声音识别词典存储部25及地址数据存储部27以作为与声音识别处理部2共用的结构，作为其它结构，还包括单词分割部31、出现频度计算部32、以及识别词典生成部33。

用户所说出的表示地址的声音被麦克风21获取，并由声音获取部22将其转换成数字信号的声音信号。声学分析部23中，对从声音获取部22输出的声音信号进行声学分析，并将其转换成输入声音声学特征的时间序列。声学数据匹配部24对由声学分析部23获取到的输入声音的声学特征的时间序列、与存储在声音识别词典存储部25中的声音识别词典进行对照，并输出最有可能的识别结果。声音识别词典存储部25是储存声音识别词典的存储部，该声音识别词典表现为与输入声音声学特征的时间序列进行对照的单词网络。地址数据对照部26对由声学数据匹配部24获取到的识别结果与存储在地址数据存储部27中的地址数据进行开头部分一致的对照。地址数据存储部27中存储有地址数据，该地址数据表示声音识别的对象、即地址的单词序列。将在地址数据对照部26所进行的对照中部分一致的地址数据输入结果输出部28，并将该地址数据所表示的地址作为最终识别结果进行输出。

单词分割部31是从存储于词汇存储部即地址数据存储部27中的地址数据中分割出单词的结构部。出现频度计算部32是对单词分割部31所分割出的单词的频度进行计算的结构部。识别词典生成部33对由单词分割部31分割出的单词中、由出现频度计算部32计算出的出现频度较高(规定阈值以上)的单词生成声音识别词典，并将其储存到声音识别词典存储部25中。

接下来对动作进行说明。

(1)声音识别词典的生成

图2是表示实施方式1所涉及的声音识别词典的生成处理流程的流程图以及在各处理中所处理的数据示例的图，图2(a)示出了流程图，图2(b)示出了数据示例。

首先，单词分割部31从存储于地址数据存储部27中的地址数据中分割出单词(步骤ST1)。例如，在图2(b)所示的地址数据27a存储在地址数据存储部27中的情况下，单词分割部31依次对构成地址数据27a所表示的地址的单词进行分割，从而生成图2(b)所示的单词列表数据31a。

接下来，出现频度计算部32对由单词分割部31所分割出的单词的出现频度进行计算。识别词典生成部33对由单词分割部31分割出的单词中、由出现频度计算部32计算出的出现频度在规定阈值以上的单词生成声音识别词典。在图2(b)的示例中，识别词典生成部33从由单词分割部31分割出的单词列表数据31a中提取出现频度在规定阈值“2”以上的、即单词“1”、“2”、“3”、“番地”(中文：番地)、“号”的单词列表数据32a，从而生成由提取出的单词所形成的单词网络所表现出的声音识别词典，并将其存储到声音识别词典存储部25中。至此的处理相当于步骤ST2。

图3是表示识别词典生成部33所生成的声音识别词典的一个示例的图，示出了根据图2(b)所示的单词列表数据32a所生成的声音识别词典。如图3所示那样，声音识别词典存储部25中储存有由出现频度在规定阈值以上的单词及其读音所构成的单词网络。单词网络中，最左侧的节点表示声音识别前的状态，从该节点出发的路径与所识别出的单词相对应，路径所进入的节点与声音识别后的状态相对应，最右侧的节点表示声音识别结束后的状态。对单词进行声音识别后，若又有要进行声音识别的发出声音，则返回到最左侧的节点，如果没有发出声音则转移至最右侧的节点。以路径形式储存的单词为出现频度在规定阈值以上的单词，出现频度不足规定阈值的单词、即使用频度较低的单词不包含在声音识别词典中。例如，图2(b)的单词列表数据31a中、像“日本マンション”(中文：日本公寓)等这样的建筑物的固有名词被排出在声音识别词典的生成对象之外。

(2)声音识别处理

图4是表示实施方式1所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图，图4(a)示出了流程图，图4(b)示出了数据示例。

首先，用户发出表示地址的声音(步骤ST1a)。这里，假设发出的声音为“ぃちばんち”(Ichibanchi；对应日语“1番地”的读音；中文：1番地)。用户所发出的声音被麦克风21获取，并由声音获取部22将其转换成数字信号。

接下来，声学分析部23对被声音获取部22转换成数字信号的声音信号进行声学分析，并将其转换成输入声音声学特征的时间序列(向量序列)(步骤ST2a)。在图4(b)所示的示例中，作为输入声音“ぃちばんち”(Ichibanchi)的声学特征的时间序列，得到/I，chi，ba，N，chi/。

接下来，声学数据匹配部24对作为声学分析部23所进行的声学分析的结果所获取到的输入声音的声学数据、与存储在声音识别词典存储部25中的声音识别词典进行对照，并从登录在声音识别词典中的单词网络中，搜索出与输入声音的声学数据匹配得最好的路径(步骤ST3a)。在图4(b)所示的示例中，从图3所示的声音识别词典的单词网络中，将与输入声音的声学数据即/I，chi，ba，N，chi/最匹配的路径(1)→(2)确定为搜索结果。

之后，声学数据匹配部24从声音识别词典中提取出搜索结果的路径所对应的单词序列，并将其输出给地址数据对照部26(步骤ST4a)。在图4(b)中，将单词序列“1番地”输出到地址数据对照部26。

接下来，地址数据对照部26对由声学数据匹配部24获取到的单词序列、与存储在地址数据存储部27中的地址数据进行开头部分一致性的对照(步骤ST5a)。图4(b)中，对存储在地址数据存储部27中的地址数据27a、与由声学数据匹配部24获取到的单词序列进行开头部分一致性的对照。

最后，地址数据对照部26从存储在地址数据存储部27中的地址数据的单词序列中，确定出开头部分与声学数据匹配部24所获取到的单词序列相一致的单词序列，并将其输出到结果输出部28。由此，结果输出部28将开头部分与声学数据匹配部24所获取到的单词序列相一致的单词序列作为识别结果进行输出。至此的处理相当于步骤ST6a。此外，在图4(b)的示例中，从地址数据27a的单词序列中确定出“1番地束京メゾン”(中文：1番地东京住宅区)，并将其作为识别结果进行输出。

如上所述，根据本发明的实施方式1，包括：声学分析部23，该声学分析部23对输入声音的声音信号进行声学分析，从而将其转换成声学特征的时间序列；地址数据存储部27，该地址数据存储部27存储作为声音识别对象词汇的地址数据；单词分割部31，该单词分割部31从存储在地址数据存储部27中的地址数据中分割出单词；出现频度计算部32，该出现频度计算部32对由单词分割部31分割出来的单词的出现频度进行计算；识别词典生成部33，该识别词典生成部33对由出现频度计算部32所计算出的出现频度在规定值以上的单词生成声音识别词典；声学数据匹配部24，该声学数据匹配部24将由声学分析部23获取到的输入声音的声学特征的时间序列与由识别词典生成部33所生成的声音识别词典进行对照，并从声音识别词典中确定出最有可能成为输入声音的单词序列；以及地址数据对照部26，该地址数据对照部26将由声学数据匹配部24确定出的单词序列与地址数据存储部27所存储的词汇进行部分一致的对照，从而将地址数据存储部27所存储的词汇中、与由声学数据匹配部24所确定出的单词序列部分一致的语句(单词序列)作为声音识别结果。

通过上述结构，无需对构成地址的所有单词生成声音识别词典，从而能够减小声音识别词典所需的容量。另外，通过根据出现频度(使用频度)来减少登录在声音识别词典中的单词，从而与输入声音的声学数据进行匹配处理的对象有所减少，能够实现识别处理的高速化。并且，通过对声学数据匹配结果的单词序列、与登录在地址数据存储部27中的地址数据的单词序列进行开头部分一致的对照，从而能够在确保识别结果的可靠性的同时，实现快速的识别处理。

实施方式2

图5是表示本发明的实施方式2所涉及的声音识别装置的结构的框图。图5中，实施方式2所涉及的声音识别装置1A包括声音识别处理部2以及声音识别词典生成部3A。声音识别处理部2的结构与上述实施方式1相同。声音识别词典生成部3A与上述实施方式1相同，包括声音识别词典存储部25、地址数据存储部27、单词分割部31以及出现频度计算部32，作为实施方式2特有的结构，包括识别词典生成部33A以及废话模型(Garbage Model)存储部34。

识别词典输出部33A对由单词分割部31分割出的单词中、由出现频度计算部32计算出的出现频度较高(规定阈值以上)的单词生成声音识别词典，并进一步对其附加从废话模型存储部34读取出的废话模型，将其储存到声音识别词典存储部25中。废话模型存储部34是存储废话模型的存储部。这里，废话模型(Garbage Model)是指无论发出任何声音、均输出同样的识别结果的声学模型。

接下来对动作进行说明。

(1)声音识别词典的生成

图6是表示实施方式2所涉及的声音识别词典的生成处理的流程的流程图以及在各处理中所处理的数据示例的图，图6(a)示出了流程图，图6(b)示出了数据示例。

首先，单词分割部31从存储于地址数据存储部27中的地址数据中分割出单词(步骤ST1b)。例如，在图6(b)所示的地址数据27a存储在地址数据存储部27中的情况下，单词分割部31依次对构成地址数据27a所表示的地址的单词进行分割，从而生成图6(b)所示的单词列表数据31a。

接下来，出现频度计算部32对由单词分割部31所分割出的单词的出现频度进行计算。识别词典生成部33A对由单词分割部31分割出的单词中、由出现频度计算部32计算出的出现频度在规定阈值以上的单词生成声音识别词典。在图6(b)的示例中，识别词典生成部33A从由单词分割部31分割出的单词列表数据31a中提取出现频度在规定阈值“2”以上的、即单词“1”、“2”、“3”、“番地”、“号”的单词列表数据32a，从而生成由提取出的单词所形成的单词网络所表现出的声音识别词典。至此的处理相当于步骤ST2b。

之后，识别词典生成部33A对在步骤ST2b中生成的声音识别词典中的单词网络附加从废话模型存储部34读取出的废话模型，并将其存储到声音识别词典存储部25中(步骤ST3b)。

图7是表示识别词典生成部33A所生成的声音识别词典的一个示例的图，示出了根据图6(b)所示的单词列表数据32a所生成的声音识别词典。如图7所示那样，声音识别词典存储部25中储存有由出现频度在规定阈值以上的单词及其读音所构成的单词网络、以及附加给该单词网络的废话模型。由此，与上述实施方式1相同，出现频度不足规定阈值的单词、即使用频度较低的单词不包含在声音识别词典中。例如，在图6(b)的单词列表数据31a中，像“日本マンション”(日本公寓)等这样的建筑物的固有名词被排除在声音识别词典的生成对象之外。此外，参考文献1～3中，对废话模型进行了详细记载。本发明使用了参考文献1～3中记载的废话模型。

参考文献1：日本专利特开平11-15492号公报

参考文献2：日本专利特开2007-17736号公报

参考文献3：日本专利特开2009-258369号公报

(2)声音识别处理

(2-1)当说出的话中仅包含已登录在声音识别词典中的单词时

图8是表示实施方式2所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图，图8(a)示出了流程图，图8(b)示出了数据示例。

首先，用户发出表示地址的声音(步骤ST1c)。这里，假设发出的声音为“ぃちばんち”(Ichibanchi；对应日语“1番地”的读音；中文：1番地)。用户发出的声音被麦克风21获取，并被声音获取部22转换成数字信号。

接下来，声学分析部23对被声音获取部22转换成数字信号的声音信号进行声学分析，并将其转换成输入声音声学特征的时间序列(向量序列)(步骤ST2c)。在图8(b)所示的示例中，作为输入声音“ぃちばんち”(Ichibanchi)的声学特征的时间序列，获得/I，chi，ba，N，chi/。

接下来，声学数据匹配部24对作为声学分析部23所进行的声学分析的结果所得到的输入声音的声学数据、与存储在声音识别词典存储部25中的声音识别词典进行对照，并从登录在声音识别词典中的单词网络中，搜索出与输入声音的声学数据匹配得最好的路径(步骤ST3c)。

在图8(b)所示的示例中，由于说出的话中仅包含已登录在图7所示的声音识别词典中的单词，因此，如图9所示那样，从图7所示的声音识别词典的单词网络中，将与输入声音的声学数据即/I，chi，ba，N，chi/最匹配的路径(1)→(2)→(3)确定为搜索结果。

之后，声学数据匹配部24从声音识别词典中提取出搜索结果的路径所对应的单词序列，并将其输出给地址数据对照部26(步骤ST4c)。在图8(b)中，单词序列“1番地”被输出到地址数据对照部26。

接下来，地址数据对照部26对由声学数据匹配部24获取到的单词序列、与存储在地址数据存储部27中的地址数据进行开头部分一致的对照(步骤ST5c)。图8(b)中，对存储在地址数据存储部27中的地址数据27a、与由声学数据匹配部24获取到的单词序列进行开头部分一致的对照。

最后，地址数据对照部26从存储在地址数据存储部27中的地址数据的单词序列中，确定出开头部分与由声学数据匹配部24所获取到的单词序列相一致的单词序列，并将其输出给结果输出部28。由此，结果输出部28将开头部分与由声学数据匹配部24获取到的单词序列相一致的单词序列作为识别结果进行输出。至此的处理相当于步骤ST6c。此外，在图8(b)的示例中，从地址数据27a的单词序列中确定出“1番地”，并将其作为识别结果进行输出。

(2-2)当说出的话中包含未登录在声音识别词典中的单词时

图10是表示对包含未登录在声音识别词典中的单词在内的发出声音进行声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图，图10(a)示出了流程图，图10(b)示出了数据示例。

首先，用户发出表示地址的声音(步骤ST1d)。这里，例如假设发出的声音为“さんごうにほんまんしょんえぃとう”(Sangou Nihon ManshonEitou；对应日语“三号日本マンションA棟”的读音；中文：3号日本公寓A栋)。用户发出的声音被麦克风21获取，并被声音获取部22转换成数字信号。

接下来，声学分析部23对被声音获取部22转换成数字信号的声音信号进行声学分析，并将其转换成输入声音声学特征的时间序列(向量序列)(步骤ST2d)。在图10(b)所示的示例中，作为输入声音“さんごうにほんまんしょんえぃとう”(Sangou Nihon Manshon Eitou)的声学特征的时间序列，得到/Sa，N，go，u，S(3)/。这里，S(n)是表示这里由废话模型代替的标记，n是无法确定读音的字符串的单词个数。

接下来，声学数据匹配部24对作为声学分析部23所进行的声学分析的结果所得到的输入声音的声学数据、与存储在声音识别词典存储部25中的声音识别词典进行对照，并从登录在声音识别词典中的单词网络中，搜索出与输入声音的声学数据匹配得最好的路径(步骤ST3d)。

在图10(b)所示的示例中，由于说出的话中包含有未登录在图7所示的声音识别词典中的单词，因此，如图11所示那样，从图7所示的声音识别词典的单词网络中搜索出与输入声音的声学数据/Sa，N，go，u/最匹配的路径(4)→(5)，并对图7所示的声音识别词典中没有的单词序列进行废话模型的匹配，从而将路径(4)→(5)→(6)确定为搜索结果。

之后，声学数据匹配部24从声音识别词典中提取出搜索结果的路径所对应的单词序列，并将其输出到地址数据对照部26(步骤ST4d)。图10(b)中，单词序列“3号废话”被输出到地址数据对照部26。

接下来，地址数据对照部26从由声学数据匹配部24获取到的单词序列中去除“废话”，并对该单词序列、与存储在地址数据存储部27中的地址数据进行开头部分一致的对照(步骤ST5d)。图10(b)中，对存储在地址数据存储部27中的地址数据27a、与由声学数据匹配部24获取到的单词序列进行开头部分一致的对照。

最后，地址数据对照部26从存储在地址数据存储部27中的地址数据的单词序列中，确定出开头部分与去除“废话”后得到的单词序列相一致的单词序列，并将其输出到结果输出部28。由此，结果输出部28将该开头部分相一致的单词序列作为识别结果进行输出。至此的处理相当于步骤ST6d。此外，在图10(b)的示例中，从地址数据27a的单词序列中确定出“3号日本マンションA棟”(中文：3号日本公寓A栋)，并将其作为识别结果进行输出。

如上所述，根据本实施方式2，在与上述实施方式1相同的结构的基础上，包括存储废话模型的废话模型存储部34，识别词典生成部33A对由出现频度计算部32计算出的出现频度在规定值以上的单词所构成的单词网络附加从废话模型存储部34中读取出的废话模型，并将所得到的单词网络生成为声音识别词典，地址数据对照部26从声学数据匹配部24所确定得到的单词序列中去除废话模型，并将去除后得到的单词序列与地址数据存储部27所存储的词汇进行部分一致对照，并将地址数据存储部27所存储的词汇中、与去除废话模型后得到的单词序列部分一致的语句(单词序列)作为声音识别结果。

通过采用上述结构，与上述实施方式1同样地，无需对构成地址的所有单词生成声音识别词典，从而能够减小声音识别词典所需的容量。另外，通过根据出现频度(使用频度)来减少登录在声音识别词典中的单词，从而与输入声音的声学数据进行匹配处理的对象有所减少，能够实现识别处理的高速化。并且，通过将声学数据匹配后的结果的单词序列与登录在地址数据存储部27中的地址数据的单词序列进行开头部分一致的对照，从而能够在确保识别结果的可靠性的同时，实现快速的识别处理。

此外，在实施方式2中，由于附加了废话模型，因此虽然可能会将希望识别的单词误识别为废话，但具有能够抑制声音识别词典的容量增大、并且也能应对未登录的单词的优点。

实施方式3

图12是表示本发明的实施方式3的声音识别装置的结构的框图。在图12中，对与图1所示的结构部功能相同或起到相同作用的结构部赋予同一标号，并省略重复的说明。实施方式3所涉及的声音识别装置1B包括：麦克风21、声音获取部22、声学分析部23、声学数据匹配部24A、声音识别词典存储部25A、地址数据对照部26A、地址数据存储部27、以及结果输出部28。

声学数据匹配部24A对由声学分析部23获取到的输入声音的声学特征的时间序列、与存储在声音识别词典存储部25A中的、仅包含数字的声音识别词典进行对照，并输出最有可能的识别结果。声音识别词典存储部25A是储存声音识别词典的存储部，该声音识别词典表现为与输入声音声学特征的时间序列进行对照的单词(数字)网络。此外，能够使用现有技术来生成仅含有构成某类词汇的数字部分的声音识别词典。地址数据对照部26A是对由声学数据匹配部24A获取到的数字序列的识别结果、与存储在地址数据存储部27中的地址数据的数字部分进行开头部分一致的对照的结构部。

图13是表示实施方式3中的声音识别词典的一个示例的图。如图13所示那样，声音识别词典存储部25A中储存有由数字及其读音所构成的单词网络。由此，在实施方式3中，包括仅包含表示地址的单词序列中所含有的数字的声音识别词典，从而无需生成依赖于地址数据的声音识别词典。因此，无需上述实施方式1、2中的单词分割部31、出现频度计算部32以及识别词典生成部33。

接下来对动作进行说明。

这里，对声音识别处理进行详细阐述。

图14是表示实施方式3所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图，图14(a)示出了流程图，图14(b)示出了数据示例。

首先，用户仅发出地址中的数字部分的声音(步骤ST1e)。图14(b)的示例中，假设所发出的声音为“に”(Ni；对应日语“二”的读音，中文：二)。用户发出的声音被麦克风21获取，并被声音获取部22转换成数字信号。

接下来，声学分析部23对被声音获取部22转换成数字信号的声音信号进行声学分析，并将其转换成输入声音声学特征的时间序列(向量序列)(步骤ST2e)。在图14(b)所示的示例中，作为输入声音“に”(Ni；对应日语“二”的读音；中文：二)的声学特征的时间序列，得到/ni/。

接下来，声学数据匹配部24A对作为声学分析部23所进行的声学分析的结果所得到的输入声音的声学数据、与存储在声音识别词典存储部25A中的声音识别词典进行对照，并从登录在声音识别词典中的单词网络中，搜索出与输入声音的声学数据匹配得最好的路径(步骤ST3e)。

在图14(b)所示的示例中，如图13所示，从声音识别词典的单词网络中，将与输入声音的声学数据/ni/最匹配的路径(1)→(2)确定为搜索结果。

之后，声学数据匹配部24A从声音识别词典中提取出搜索结果的路径所对应的单词序列，并将其输出到地址数据对照部26A(步骤ST4e)。在图14(b)中，数字“2”被输出给地址数据对照部26A。

接下来，地址数据对照部26A对由声学数据匹配部24A获取到的单词序列(数字序列)、与存储在地址数据存储部27中的地址数据进行开头部分一致的对照(步骤ST5e)。图14(b)中，对存储在地址数据存储部27中的地址数据27a、与由声学数据匹配部24A获取到的数字“2”进行开头部分一致的对照。

最后，地址数据对照部26A从存储在地址数据存储部27中的地址数据的单词序列中，确定出开头部分与由声学数据匹配部24A获取到的单词序列相一致的单词序列，并将其输出给结果输出部28。由此，结果输出部28将开头部分与由声学数据匹配部24A获取到的单词序列相一致的单词序列作为识别结果进行输出。至此的处理相当于步骤ST6e。此外，在图14(b)的示例中，从地址数据27a的单词序列中确定出“2番地”(中文：2番地)，并将其作为识别结果进行输出。

如上所述，根据本发明的实施方式3，包括：声学分析部23，该声学分析部23对输入声音的声音信号进行声学分析，并将其转换成声学特征的时间序列；地址数据存储部27，该地址数据存储部27存储作为声音识别对象词汇的地址数据；声音识别词典存储部25A，该声音识别词典存储部25A将由数字构成的声音识别词典作为规定种类的单词进行存储；声学数据匹配部24A，该声学数据匹配部24A将由声学分析部23获取到的输入声音的声学特征的时间序列与从声音识别词典存储部25A读取出的声音识别词典进行对照，从声音识别词典中确定出最有可能成为输入声音的单词序列；以及地址数据对照部26A，该地址数据对照部26A将由声学数据匹配部24A确定出的单词序列与地址数据存储部27所存储的词汇进行部分一致的对照，从而将地址数据存储部27所存储的词汇中、与由声学数据匹配部24A所确定出的单词序列部分一致的语句(单词序列)作为声音识别结果。通过采用上述结构，能够得到与上述实施方式1、2相同的效果，并且，进一步具有无需预先生成依赖于地址数据的声音识别词典的优点。

此外，在上述实施方式3中，示出了根据仅包含数字的单词网络来生成声音识别词典的情况，然而也可以与上述实施方式2相同，设置识别词典生成部33及废话模型存储部34，从而由识别词典生成部33对仅包含数字的单词网络附加废话模型。在该情况下，虽然可能会将希望识别的单词误识别为废话，但具有能够抑制声音识别词典的容量增大、并且也能应对未登录的单词的优点。

另外，在上述实施方式3中，示出了对仅包含作为声音识别对象词汇的地址的数字部分在内的声音识别词典进行处理的情况，然而也可以对仅包括数字以外的规定种类的单词的声音识别词典进行处理。作为单词种类，例如有构成作为声音识别对象的地址的单词序列中的人名、地区、国名、字母、特殊文字等。

并且，在上述实施方式1～3中，示出了地址数据对照部26对地址数据存储部27中存储的地址数据的开头部分进行一致性对照的情况，然而本发明并不局限于开头部分一致。只要是部分一致对照即可，可以是中间一致、末尾一致。

实施方式4

图15是表示本发明的实施方式4所涉及的声音识别装置的结构的框图。图15中，实施方式4所涉及的声音识别装置1C包括声音识别处理部2A以及声音识别词典生成部3A。声音识别词典生成部3A的结构与上述实施方式2相同。声音识别处理部2A与上述实施方式1相同，包括麦克风21、声音获取部22、声学分析部23、声音识别词典存储部25、以及地址数据存储部27，作为实施方式4所特有的结构，包括声学数据匹配部24B、检索装置40、以及检索结果输出部28a。声学数据匹配部24B将具有规定值以上的可能性的识别结果作为单词网格进行输出。单词网格以说话的顺序将被识别为有规定值以上的可能性成为所说出的声音的、一个以上的单词并排地串联连接在一起，这些单词与同一声学特征进行了对照。

检索装置40是如下装置：在考虑声音识别差错的同时，从登录在带有索引的数据库43中的地址数据中检索出最有可能成为声学数据匹配部24B所得到的识别结果的单词序列，并将其输出给检索结果输出部28a，其包括：特征向量提取部41、低维度映射处理部42、45、带有索引的数据库(以下简称为带索引DB)43、置信度向量提取部44以及检索部46。检索结果输出部28a是输出检索装置40的检索结果的结构部。

特征向量提取部41是从存储在地址数据存储部27中的地址数据所表示的地址的单词序列中提取出文档特征向量的结构部。文档特征向量是指在互联网等上输入单词来对与该单词相关联的网页(文档)进行搜索时等情况下使用的向量，是以针对每个文档的、与单词的出现频度所对应的权重为要素的特征向量。特征向量提取部41将地址数据存储部27中存储的地址数据作为文档来进行处理，并以地址数据中的单词的出现频度所对应的权重为要素来求出文档特征向量。对这些文档特征向量进行排列的特征矩阵是以地址数据dj中的单词rj的出现频度wij为要素的(单词数量M×地址数据数量N)矩阵W。此外，认为出现频度越高的单词越重要。

图16示出了对实施方式4所涉及的声音识别装置中所使用的特征矩阵的一个示例进行说明的图。这里，仅示出了单词“1”、“2”、“3”、“号”、“番地”，实际上，对地址数据中出现的频度在规定值以上的单词均定义文档特征向量。在地址数据中，由于希望能够区分“1番地3号”(中文：1番地3号)与“3番地1号”(中文：3番地1号)，因此也考虑对单词系列定义文档特征向量。图17示出了对该情况下的特征矩阵进行说明的图。在该情况下，特征矩阵的行数为单词数量M的平方。

低维度映射处理部42是将由特征向量提取部41提取出的文档特征向量映射到低维度的文档特征向量中的结构部。通常能够将上述特征矩阵W映射到较低的特征维度中。例如，使用参考文献4所用的奇异值分解(SVD：sigular value decomposition：奇异值分解)来进行维度压缩、直到成为规定的特征维度。

参考文献4：日本专利特开2004-5600号公报

如下所示那样，利用奇异值分解(SVD)来求出低维度的特征向量。

假设特征矩阵W为t行d列，其秩为r。将t维的规范正交向量排列r列后得到的t行r列矩阵设为T，将d维的规范正交向量排列r列后得到的d行r列矩阵设为D，将W的奇异值以升序排列在对角线元素上所得到的r行r列的对角矩阵为S。

根据奇异值分解定律，W能如下式(1)那样进行分解。

W_t×d＝T_t×rS_r×rD_d×r ^T (1)

分别将T、S、D的第k+1列以后的列去除后得到的矩阵设为T(k)、S(k)、D(k)。若在矩阵W的左边乘以D(k)^T、并将转换成k行后得到的矩阵设为W(k)，则变为下式(2)。

W(k)_k×d＝T(k)_t×k ^TW_t×d (2)

若将上述式(1)代入上述式(2)，由于T(k)^TT(k)为单位矩阵，因此得到下述式(3)。

W(k)_k×d＝S(k)_k×kD(k)_d×k ^T (3)

上述式(2)或上述式(3)中计算出的W(k)_k×d的各列所对应的k维向量是表示各地址数据特征的低维特征向量。从弗罗贝尼乌斯(Frobenius)范数的角度来看，W(k)_k×d是以最小误差对W作近似的k维矩阵。使k＜r的维数减少不仅使运算量得以减小，而且还是一种抽象地利用k个概念来使单词与文档的对应关系对应起来的变换操作，从而具有整合类似单词、类似文档的效果。

另外，低维度映射处理部42根据低维度的文档特征向量，将低维度的文档特征向量作为索引附加给存储在地址数据存储部27中的地址数据，并将其登录到带索引DB43中。

置信度向量提取部44是从由声学数据匹配部24B获取到的单词网格中提取出置信度向量的结构部。置信度向量是指以与文档特征向量相同的形式来表示单词在说话阶段被实际说出的概率的向量。单词在说话阶段被说出的概率即为由声学数据匹配部24B所搜索到的路径的得分。例如，在所说的话为“はちばんち”(Hachibanchi；对应日文“8番地”的读音；中文：8番地)的情况下，若用语“8番地”被说出的概率为0.8，用语“1番地”被说出的概率为0.6，则对于实际被说出的概率，“8”为0.8，“1”为“0.6”，“番地”为1。

低维度映射处理部45对由置信度向量提取部44提取出的置信度向量进行与文档特征向量所用的映射处理相同的映射处理(在左边乘以T(k)_t×k ^T的处理)，从而得到相当于低维度文档特征向量的低维度置信度向量。

检索部46是从带索引DB43中、对具有与由低维度映射处理部45获取到的低维度置信度向量相一致或距离最近的低维度文档特征向量的地址数据进行检索的结构部。这里，低维度置信度向量与低维度文档特征向量的距离是各元素之差的平方和的平方根。

接下来对动作进行说明。

这里，对声音识别处理进行详细阐述。

图18是表示实施方式4所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图，图18(a)示出了流程图，图18(b)示出了数据示例。

首先，用户发出表示地址的声音(步骤ST1f)。图18(b)的示例中，假设所发出的声音为“ぃちばんち”(Ichbanchi；对应日语“1番地”的发音，中文：1番地)。用户发出的声音被麦克风21获取，并被声音获取部22转换成数字信号。

接下来，声学分析部23对被声音获取部22转换成数字信号的声音信号进行声学分析，并将其转换成输入声音的声学特征的时间序列(向量序列)(步骤ST2f)。在图18(b)所示的示例中，假设作为输入声音“ぃちばんち”(Ichibanchi)的声学特征的时间序列，得到含有误识别的/I，chi，go，ba，N，chi/。

接下来，声学数据匹配部24B对作为声学分析部23所进行的声学分析的结果所得到的输入声音的声学数据、与存储在声音识别词典存储部25中的声音识别词典进行对照，从登录在声音识别词典中的单词网络中，搜索出有规定值以上的可能性与输入声音的声学数据相匹配的路径(步骤ST3f)。

在图18(b)的示例中，从图19所示的声音识别词典的单词网络中，确定出有规定值以上的可能性与输入声音的声学数据/I，chi，go，ba，N，chi/相匹配的路径(1)→(2)→(3)→(4)以作为搜索结果。为了简化说明，这里，假设具有规定值以上的可能性的识别结果仅为一个单词序列。后述的实施方式5中也相同。

之后，声学数据匹配部24B从声音识别词典中提取出搜索结果的路径所对应的单词网格，并将其输出给检索装置40(步骤ST4f)。在图18(b)中，含有误识别的单词序列“1号番地”被输出到检索装置40。

检索装置40中，根据地址数据中的低维度文档特征向量，对存储在地址数据存储部27中的地址数据附加索引，并将其结果储存到带索引DB43中。

若输入由声学数据匹配部24B获取到的单词网格，则检索装置40内的置信度向量提取部44从所输入的单词网格中去除废话模型，并从剩下的单词网格中提取出置信度向量。接下来，低维度映射处理部45对由置信度向量提取部44提取出的置信度向量进行与文档特征向量所用的映射处理相同的映射处理，从而得到相当于低维度文档特征向量的低维度置信度向量。

接下来，检索部46从带索引DB43中，对具有与由低维度映射处理部45获取到的输入声音的低维度置信度向量相一致的低维度文档特征向量的、地址数据的单词序列进行检索(步骤ST5f)。

检索部46从登录在带索引DB43中的地址数据的单词序列中，确定出具有与输入声音的低维度置信度向量相一致或距离最近的低维度文档特征向量的、地址数据的单词序列，并将其输出给检索结果输出部28a。由此，检索结果输出部28a将所输入的检索结果的单词序列作为识别结果进行输出。至此的处理相当于步骤ST6f。此外，在图18(b)的示例中，从地址数据27a的单词序列中确定出“1番地”(中文：1番地)，并将其作为识别结果进行输出。

如上所述，根据本实施方式4，包括：声学分析部23，该声学分析部23对输入声音的声音信号进行声学分析，并将其转换成声学特征的时间序列；地址数据存储部27，该地址数据存储部27存储作为声音识别对象词汇的地址数据；单词分割部31，该单词分割部31从存储在地址数据存储部27中的词汇中分割出单词；出现频度计算部32，该出现频度计算部32对由单词分割部31分割出来的单词的出现频度进行计算；识别词典生成部33，该识别词典生成部33对由出现频度计算部32所计算出的出现频度在规定值以上的单词生成声音识别词典；声学数据匹配部24B，该声学数据匹配部24B将由声学分析部23获取到的输入声音的声学特征的时间序列与由识别词典生成部33生成的声音识别词典进行对照，从声音识别词典中确定出有规定值以上的可能性成为上述输入声音的单词网格；以及检索装置40，该检索装置40具有将存储在地址数据存储部27中的词汇与其特征对应起来进行登录的带索引DB43，并且该检索装置40提取出由声学数据匹配部24B所确定的单词网格的特征，从带索引DB43中检索出具有与该特征相一致或距离最近的特征的语句，并将其作为声音识别结果进行输出。

通过采用上述结构，在与上述实施方式1、2相同的效果的基础上，对于像误插入错误单词、漏掉正确的单词这样的声音识别处理容易发生的误识别具有较好的鲁棒性，因而能提高系统的可靠性。

此外，在上述实施方式4中，示出了设置废话模型存储部34、从而对声音识别词典的单词网络附加废话模型的结构，但也可以与上述实施方式1相同，采用省略废话模型存储部34、不对声音识别词典的单词网络附加废话模型的结构。在该结构中，成为在图19所示的单词网络中没有“/废话/”部分的网络。在该情况下，能说的内容仅限于声音识别词典中含有的内容(即、出现频度较高的单词)，但与上述实施方式1相同，无需对表示地址的全部单词生成声音识别词典。由此，能够减少声音识别词典的容量，其结果是，能加快识别处理。

实施方式5

图20是表示本发明的实施方式5所涉及的声音识别装置的结构的框图。在图20中，对与图1及图15所示的结构部功能相同或起到相同作用的结构部赋予同一标号，并省略重复的说明。

实施方式5所涉及的声音识别装置1D包括：麦克风21、声音获取部22、声学分析部23、声学数据匹配部24C、声音识别词典存储部25B、检索装置40A、地址数据存储部27、检索结果输出部28a、以及地址数据音节化部50。

声音识别词典存储部25B是储存声音识别词典的存储部，该声音识别词典表现为与输入声音的声学特征的时间序列进行对照的音节网络。在该声音识别词典中，预先对所有音节登录识别词典网络，从而能识别所有音节。这样的词典是已知的，即为音节打字机(syllable typewriter)。

地址数据音节化部50是将存储在地址数据存储部27中的地址数据转换成音节序列的结构部。

检索装置40A是进行如下动作的装置：从登录在带索引的数据库中的地址数据中，检索出具有与下述音节网格的特征相一致或距离最近的特征的地址数据，并将其输出给检索结果输出部28a，其中，上述音节网格有规定值以上的可能性成为由声学数据匹配部24C所得到的识别结果；该检索装置40A包括：特征向量提取部41a、低维度映射处理部42a、45a、带索引DB43a、置信度向量提取部44a以及检索部46a。检索结果输出部28a是输出检索装置40A的检索结果的结构部。

特征向量提取部41a是从由地址数据音节化部50获取到的地址数据的音节序列中提取出文档特征向量的结构部。此外，这里所说的文档特征向量是指以由地址数据音节化部50获取到的地址数据中的音节的出现频度所对应的权重为要素的特征向量。此外，详细情况与上述实施方式4相同。

低维度映射处理部42a是将由特征向量提取部41a提取出的文档特征向量映射到低维度的文档特征向量中的结构部。上述特征矩阵W通常能被映射到更低的特征维度中。

另外，低维度映射处理部42a以低维度文档特征向量为索引，对由地址数据音节化部50获取到的地址数据及其音节序列附加索引，并将其登录到带索引DB43a中。

置信度向量提取部44a是从由声学数据匹配部24C获取到的音节网格中提取出置信度向量的结构部。这里所说的置信度向量是指以与文档特征向量相同的形式、来表示该音节在说话阶段被实际发出的概率的向量。音节被发出的概率与上述实施方式4相同，是由声学数据匹配部24C所搜索到的路径的得分。

低维度映射处理部45a对由置信度向量提取部44a提取出的置信度向量进行与文档特征向量所用的映射处理相同的映射处理，从而得到相当于低维度文档特征向量的低维度置信度向量。

检索部46a是从带索引DB43a中、对具有与由低维度映射处理部45获取到的低维度的置信度向量相一致或距离最近的低维度文档特征向量的地址数据进行检索的结构部。

图21是表示实施方式5中的声音识别词典的一个示例的图。如图21所示那样，声音识别词典存储部25B中储存有由音节构成的音节网络。由此，在实施方式5中，包括仅由音节构成的声音识别词典，且无需生成依赖于地址数据的声音识别词典。因此，不需要上述实施方式1、2那样的单词分割部31、出现频度计算部32以及识别词典生成部33。

接下来对动作进行说明。

(1)地址数据的音节化

图22是表示实施方式5所涉及的音节化后的地址数据的生成处理流程的流程图以及在各处理中所处理的数据示例的图，图22(a)示出了流程图，图22(b)示出了数据示例。

首先，地址数据音节化部50开始从地址数据存储部27读取地址数据(步骤ST1g)。在图22(b)所示的示例中，从地址数据存储部27中读取出地址数据27a，并被地址数据音节化部50获取。

接下来，地址数据音节化部50对从地址数据存储部27获取的所有地址数据进行音节化(步骤ST2g)。图22(b)中，作为音节化的结果50a，示出了音节化后的地址数据与原地址数据。例如，单词序列“1番地”被转换成音节序列“/ぃ/ち/ぼ/ん/ち/”(/i/chi/ba/N/chi/)。

经地址数据音节化部50进行音节化后的地址数据被输入到检索装置40A中(步骤ST3g)。检索装置40A中，低维度映射处理部42a根据由特征向量提取部41a获取到的低维度文档特征向量，对由地址数据音节化部50获取到的地址数据及其音节序列附加索引，并将其登录到带索引DB43a中。

(2)声音识别处理

图23是表示实施方式5所涉及的声音识别处理的流程的流程图以及在各处理中所处理的数据示例的图，图23(a)示出了流程图，图23(b)示出了数据示例。

首先，用户发出表示地址的声音(步骤ST1h)。图23(b)的示例中，假设所发出的声音为“ぃちばんち”(Ichibanchi：对应日语“1番地”的发音，中文：1番地)。用户发出的声音被麦克风21获取，并被声音获取部22转换成数字信号。

接下来，声学分析部23对被声音获取部22转换成数字信号的声音信号进行声学分析，并将其转换成输入声音的声学特征的时间序列(向量序列)(步骤ST2h)。在图23(b)所示的示例中，作为输入声音“ぃちばんち”(Ichibanchi)的声学特征的时间序列，得到含有误识别的/I，chi，i，ba，N，chi/。

接下来，声学数据匹配部24C对作为由声学分析部23所进行的声学分析的结果所得到的输入声音的声学数据、与存储在声音识别词典存储部25B中的由音节构成的声音识别词典进行匹配，从登录在声音识别词典中的音节网络中，搜索出有规定值以上的可能性与输入声音的声学数据相匹配的路径(步骤ST3h)。

在图23(b)的示例中，从图21所示的声音识别词典的音节网络中，确定出有规定值以上的可能性与输入声音的声学数据“/I，chi，i，ba，N，chi/”相匹配的路径以作为搜索结果。

之后，声学数据匹配部24C从声音识别词典中提取出搜索结果的路径所对应的音节网格，并将其输出给检索装置40A(步骤ST4h)。在图23(b)中，含有误识别的单词序列“/ぃ/ち/ぃ/ば/ん/ち/”(/i/chi/ba/N/chi/)被输出到检索装置40A。

如利用图22进行的说明那样，检索装置40A对地址数据与其音素序列附加该音素系列的低维度特征向量以作为索引，并将其储存到带索引DB43a中。

若输入由声学数据匹配部24C获取到的输入声音的音节网格，则检索装置40A内的置信度向量提取部44a从所输入的音节网格中提取出置信度向量。接下来，低维度映射处理部45a对由置信度向量提取部44a提取出的置信度向量进行与文档特征向量所用的映射处理相同的映射处理，从而得到相当于低维度文档特征向量的低维度置信度向量。

接下来，检索部46a从带索引DB43a中，对具有与由低维度映射处理部45a获取到的输入声音的低维度置信度向量相一致或距离最近的低维度文档特征向量的地址数据及其音节序列进行检索(步骤ST5h)。

检索部46a从登录在带索引DB43中的地址数据中，确定出具有与输入声音的低维度置信度向量相一致或距离最近的低维度文档特征向量的地址数据，并将其输出给检索结果输出部28a。至此的处理相当于步骤ST6h。此外，在图23(b)的示例中，确定出“ぃちばんち(1番地)”(Ichibanchi(1番地))，并将其作为识别结果进行输出。

如上所述，根据本实施方式5，包括：声学分析部23，该声学分析部23对输入声音的声音信号进行声学分析，并将其转换成声学特征的时间序列；地址数据存储部27，该地址数据存储部27存储作为声音识别对象词汇的地址数据；地址数据音节化部50，该地址数据音节化部50将存储在地址数据存储部27中的词汇转换成音节序列；声音识别词典存储部25B，该声音识别词典存储部25B存储由音节构成的声音识别词典；声学数据匹配部24C，该声学数据匹配部24C对由声学分析部23获取到的输入声音的声学特征的时间序列、与从声音识别词典存储部25B中读取出的声音识别词典进行对照，从声音识别词典中确定出有规定值以上的可能性成为输入声音的音节网格；检索装置40A，该搜索装置40A具有带索引DS43a，该带索引DS43a中，以经地址数据音节化部50转换后的地址数据的音节序列的低维度特征向量为索引，登录有地址数据，并且该检索装置40A提取出由声学数据匹配部24C确定的音节网格的特征，从带索引DB43a中检索出特征与该特征相一致的语句(地址数据)；以及对比输出部51，该对比输出部51将由检索装置40A检索到的词汇的音节序列与存储在地址数据存储部27中的词汇进行对比，从存储在地址数据存储部27中的词汇中，输出由检索装置40A检索到的词汇所对应的词汇，以作为声音识别结果。

通过采用上述结构，在与上述实施方式1、2具有相同效果的基础上，还能以音节为单位来处理声音识别，因此，具有无需预先生成依赖于地址数据的声音识别词典的优点。另外，对于像误插入错误音节、或者漏掉正确的音节这样的声音识别处理中容易发生的误识别具有较好的鲁棒性，因而能提高系统的可靠性。

另外，在上述实施方式5中，示出了根据音节网络来生成声音识别词典的情况，但也可以与上述实施方式2相同，设置识别词典生成部33及废话模型存储部34，从而由识别词典生成部33对以音节为单位的网络附加废话模型。在该情况下，虽然可能会将希望识别的单词误识别为废话，但具有能够抑制声音识别词典的容量增大、并且也能应对未登录的单词的优点。

并且，通过采用具备上述实施方式1至上述实施方式5中的声音识别装置的导航装置，能够在例如导航处理中的利用声音识别来输入目的地或出发地的情况下，减小声音识别词典的容量，由此来实现识别处理的高速化。

在上述实施方式1～5中，示出了声音识别对象为地址的情况，然而本发明并不局限于此。也可以在各种进行声音识别的情况下适用于成为识别对象的词汇，例如，适用于导航处理中的其它设定操作或音频设备中的曲目设定、重放控制等。

此外，本发明申请在发明范围内可以对各实施例进行自由组合、变形，或者删除各实施方式中的构成要素。

工业上的实用性

本发明所涉及的声音识别装置能减小声音识别词典的容量，从而实现识别处理的高速化，因此适用于希望进行快速识别处理的车载用导航装置的声音识别装置。

标号说明

1，1A，1B，1C，1D 声音识别装置

2 声音识别处理部

3，3A 声音识别词典生成部

21 麦克风

22 声音获取部

23 声学分析部

24，24A，24B，24C 声学数据匹配部

25，25A，25B 声音识别词典存储部

26，26A 地址数据对照部

27 地址数据存储部

27a 地址数据

28，28a 检索结果输出部

31 单词分割部

31a，32a 单词列表数据

32 出现频度计算部

33，33A 识别词典生成部

34 废话模型存储部

40，40A 检索装置

41，41a 特征向量提取部

42，45，42a，45a 低维度映射处理部

43，43a 带索引的数据库(带索引DB)

44，44a 置信度向量提取部

46，46a 检索部

50 地址数据音节化部

50a 音节化的结果。

Claims

1.一种声音识别装置，包括：

声学分析部，该声学分析部对输入声音的声音信号进行声学分析，并将其转换成声学特征的时间序列；

词汇存储部，该词汇存储部存储声音识别对象的词汇；

单词分割部，该单词分割部从存储在所述词汇存储部中的词汇中分割出单词；

出现频度计算部，该出现频度计算部对由所述单词分割部分割出来的单词的出现频度进行计算；

识别词典生成部，该识别词典生成部对由所述出现频度计算部所计算出的出现频度在规定值以上的单词生成声音识别词典；

声学数据匹配部，该声学数据匹配部对由所述声学分析部获取到的所述输入声音的声学特征的时间序列、与由所述识别词典生成部生成的所述声音识别词典进行对照，并从所述声音识别词典中确定出最有可能成为所述输入声音的单词序列；以及

部分一致对照部，该部分一致对照部将由所述声学数据匹配部确定出的单词序列与所述词汇存储部所存储的词汇进行部分一致的对照，并将所述词汇存储部所存储的词汇中、与由所述声学数据匹配部所确定出的单词序列部分一致的语句作为声音识别结果。

2.如权利要求1所述的声音识别装置，其特征在于，

包括废话模型存储部，该废话模型存储部存储废话模型，

所述识别词典生成部对由所述出现频度计算部所计算出的出现频度在规定值以上的单词构成的单词网络附加从所述废话模型存储部读取出的废话模型，并将由此生成的单词网络作为声音识别词典，

所述部分一致对照部从由所述声学数据匹配部确定出的单词序列中去除所述废话模型，以与所述词汇存储部所存储的词汇进行部分一致的对照，并将所述词汇存储部所存储的词汇中、与去除所述废话模型后的单词序列部分一致的语句作为声音识别结果。

3.如权利要求1所述的声音识别装置，其特征在于，

所述部分一致对照部将所述词汇存储部所存储的词汇中、与由所述声学数据匹配部所确定出的单词序列的开头部分相一致的语句作为声音识别结果。

4.一种声音识别装置，包括：

词汇存储部，该词汇存储部存储声音识别对象的词汇；

词典存储部，该词典存储部存储由规定种类的单词构成的声音识别词典；

声学数据匹配部，该声学数据匹配部对由所述声学分析部获取到的所述输入声音的声学特征的时间序列、与从所述词典存储部中读取出的所述声音识别词典进行对照，并从所述声音识别词典中确定出最有可能成为所述输入声音的单词序列；以及

5.如权利要求4所述的声音识别装置，其特征在于，

规定种类的单词是数字。

6.如权利要求4所述的声音识别装置，其特征在于，包括：

废话模型存储部，该废话模型存储部存储废话模型；以及

识别词典生成部，该识别词典生成部对由所述规定种类的单词构成的单词网络附加从所述废话模型存储部读取出的废话模型，将由此生成的单词网络作为声音识别词典，并将其存储在所述词典存储部中，

7.一种声音识别装置，包括：

词汇存储部，该词汇存储部存储声音识别对象的词汇；

声学数据匹配部，该声学数据匹配部对由所述声学分析部获取到的所述输入声音的声学特征的时间序列、与由所述识别词典生成部生成的所述声音识别词典进行对照，并从所述声音识别词典中确定出有规定值以上的可能性成为所述输入声音的单词网格；以及

检索装置，该检索装置具有将所述词汇存储部中存储的词汇与其特征对应起来进行登录的数据库，并提取出由所述声学数据匹配部确定出的单词网格的特征，且从所述数据库中检索出具有与该特征相一致或距离最近的特征的语句，将其作为声音识别结果进行输出。

8.如权利要求7所述的声音识别装置，其特征在于，

包括废话模型存储部，该废话模型存储部存储废话模型，

所述检索装置从由所述声学数据匹配部确定出的单词网格中去除所述废话模型并提取出特征，将登录在所述数据库中的词汇中、具有与去除所述废话模型后的单词网格的特征相一致或距离最近的特征的语句作为声音识别结果来进行输出。

9.一种声音识别装置，包括：

词汇存储部，该词汇存储部存储声音识别对象的词汇；

音节化部，该音节化部将存储在所述词汇存储部中的词汇转换成音节序列；

词典存储部，该词典存储部存储由音节构成的声音识别词典；

声学数据匹配部，该声学数据匹配部对由所述声学分析部获取到的所述输入声音的声学特征的时间序列、与从所述词典存储部中读取出的所述声音识别词典进行对照，并从所述声音识别词典中确定出有规定值以上的可能性成为所述输入声音的音节网格；以及

检索装置，该检索装置具有将所述词汇存储部中存储的词汇与其特征对应起来进行登录的数据库，并提取出由所述声学数据匹配部确定出的音节网格的特征，且从所述数据库中检索出具有与该特征相一致或距离最近的特征的语句，将其作为声音识别结果来进行输出。

10.如权利要求9所述的声音识别装置，其特征在于，包括：

废话模型存储部，该废话模型存储部存储废话模型；以及

识别词典生成部，该识别词典生成部对音节网络附加从所述废话模型存储部读取出的废话模型，将由此生成的音节网络作为声音识别词典，并将其存储在所述词典存储部中，

所述检索装置从由所述声学数据匹配部确定出的音节网格中去除所述废话模型并提取出特征，将登录在所述数据库中的词汇中、具有与去除所述废话模型后的音节网格的特征相一致或距离最近的特征的语句作为声音识别结果来进行输出。

11.一种导航装置，其特征在于，

该导航装置包括如权利要求1至10中任一项所述的声音识别装置。