CN102725790A

CN102725790A - 识别词典制作装置及声音识别装置

Info

Publication number: CN102725790A
Application number: CN2010800625934A
Authority: CN
Inventors: 山崎道弘; 石井纯; 石川泰
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-02-05
Filing date: 2010-02-05
Publication date: 2012-10-10
Anticipated expiration: 2030-02-05
Also published as: DE112010005226T5; CN102725790B; US20120226491A1; WO2011096015A1; JPWO2011096015A1; US8868431B2; JP5318230B2

Abstract

对所输入的登记对象文本的读音的语言进行辨识，利用辨识出的语言的音素来对登记对象文本赋予读音，并且，生成登记有将登记对象文本的读音从辨识出的语言的读音变换成声音识别中处理的识别对象语言后的读音的识别词典。

Description

识别词典制作装置及声音识别装置

技术领域

本发明涉及制作作为声音识别对象的词汇的词典的识别词典制作装置及利用该识别词典制作装置的声音识别装置。

背景技术

在专利文献1中，公开了一种通过同时使用作为声音识别对象的多种语言的音响模型、能进行与多种语言相对应的声音识别的声音识别装置。

然而，在该专利文献1的发明中，需要具有与所有作为声音识别对象的多种语言相对应的多种语言用的音响模型，存在无法适用于一般的仅与一种语言相对应的声音识别的问题。

此外，专利文献1的发明需要预先确定识别词汇是用哪种语言记载的，并预先赋予读音。

另一方面，在仅与一种语言相对应的声音识别中，对于未赋予读音的登记对象文本，自动生成识别对象语言的读音以进行识别。此时，对于用与识别对象语言不同的语言来记载的文本，无法赋予读音。

本发明是为了解决上述问题而完成的，其目的在于获得一种识别词典制作装置利用该识别词典制作装置的声音识别装置，该识别词典制作装置即使在作为登记到识别词典的对象的词汇所属语言不明确的情况下，也能生成将该词汇的读音变换至声音识别的语言的音素体系的识别词典。

现有技术文献

专利文献

专利文献1：日本专利特许第3776391号公报

发明内容

本发明所涉及的识别词典制作装置包括：语言辨识部，该语言辨识部对所输入的登记对象文本的读音的语言进行辨识；读音赋予部，该读音赋予部利用由语言辨识部辨识出的语言的音素对登记对象文本赋予读音；读音变换部，该读音变换部将登记对象文本的读音从由语言辨识部辨识出的语言的音素变换成声音识别中处理的识别对象语言的音素；及识别词典生成部，该识别词典生成部生成登记有由读音变换部进行变换后的登记对象文本的读音的识别词典。

根据本发明，对所输入的登记对象文本的读音的语言进行辨识，利用辨识出的语言的音素来对登记对象文本赋予读音，并且，生成登记有将登记对象文本的读音从辨识出的语言的读音变换成声音识别中处理的识别对象语言后的读音的识别词典。这样，具有如下效果：即使在未明确登记到识别词典的登记对象文本（词汇）是用哪种语言来记述的情况下，也能获得与声音识别的语言的音素体系相符合的识别词典。

附图说明

图1是表示利用本发明的实施方式1所涉及的识别词典制作装置的登记型声音识别装置的结构的框图。

图2是表示实施方式1的识别词典制作装置所涉及的识别词典的制作动作流程的流程图。

图3是表示在德语和英语中发音类似的音素的对应表的一个示例的图。

图4是表示实施方式1的识别词典制作装置所涉及的识别词典的制作动作流程的流程图。

图5是表示利用本发明的实施方式2所涉及的识别词典制作装置的登记型声音识别装置的结构的框图。

图6是表示实施方式2的识别词典制作装置所涉及的识别词典的制作动作流程的流程图。

具体实施方式

下面，为了更详细地对本发明进行说明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是表示利用本发明的实施方式1所涉及的识别词典制作装置的登记型声音识别装置的结构的框图。图1中，实施方式1所涉及的声音识别装置100包括语言辨识部101、读音赋予部102、读音变换部103、识别词典生成部104、识别词典存储部105、及声音识别部106。这些结构部中，语言辨识部101、读音赋予部102、读音变换部103、识别词典生成部104、及识别词典存储部105是实施方式1所涉及的识别词典制作装置的结构。

语言辨识部101是对作为登记到识别词典的登记对象的词汇的文本字符串（以下称为登记对象文本）的语言进行辨识的结构部。登记对象文本中还包含有难以确定语言的词汇的文本字符串，例如，可举出登记到便携式音乐播放器的乐曲的标题和艺术家名等目录数据、登记到移动电话的地名和人名等。读音赋予部102是利用由语言辨识部101辨识出的语言对登记对象文本用音素赋予读音的结构部。读音变换部103是将由读音赋予部102赋予的读音变换成在声音识别部106所进行的声音识别中使用的语言的音素的结构部。

识别词典生成部104是将由读音变换部103进行变换后的音素作为成为声音识别对象的词汇（以下称为识别对象词汇）来生成、并登记到识别词典存储部105的识别词典的结构部。识别词典存储部105是能由识别词典生成部104和声音识别部106进行读写的存储部，存储有登记由识别词典生成部104生成的识别对象词汇的识别词典。声音识别部106是利用识别词典存储部105所存储的识别词典的识别对象词汇来执行声音识别、并输出识别结果的结构部。

此外，对于语言辨识部101、读音赋予部102、读音变换部103、识别词典生成部104、识别词典存储部105、及声音识别部106，通过将按照本发明要点的识别词典制作程序存储在计算机中，并使CPU加以执行，从而能在该计算机上作为硬件和软件协作的具体单元来实现。而且，识别词典存储部105及声音识别部106所使用的存储区域由上述计算机所装载的存储装置、例如硬盘装置、外部存储介质等来构建。

接下来，对动作进行说明。

图2是表示实施方式1的识别词典制作装置所涉及的识别词典的制作动作流程的流程图，描述语言辨识部101、读音赋予部102、读音变换部103、及识别词典生成部104对于1个登记对象文本所进行的动作的细节。

首先，语言辨识部101对登记对象文本的字符串开始进行语言辨识处理，判定该字符串是由哪种语言记载的（步骤ST201）。具体而言，判定所输入的登记对象文本的字符串符合设定于语言辨识部101的多种语言中的哪种语言。

例如，在语言辨识部101中，在将英语、德语、法语、意大利语、西班牙语、荷兰语等6种欧洲语言设定作为语言辨识的对象的情况下，若所输入的登记对象文本的字符串为“Guten Morgen”，则语言辨识部101输出该字符串的语言为德语这一语言辨识结果。

在语言辨识失败等无法辨识语言的情况下，语言辨识部101将声音识别部106能作为声音识别对象来受理的语言作为辨识结果进行输出。

此外，在语言辨识部101的语言辨识中，例如使用字符的N-gram。N-gram本身是由克劳德·艾尔伍德·香农（Claude Elwood Shannon）建立的与语言信息相关的分析模型，在声音识别用的语言模型、全文检索等中使用。在下述的参考文献1中记载有这些一般的N-gram的利用方法。

（参考文献1）“通信的数学理论”，克劳德·艾尔伍德·香农，贝尔系统技术杂志，第27卷，第379-423、623-656页，七月，十月，1948。（“AMathematical Theory of Communication”,C.E.SHANNON,The Bell SystemTechnical Journal,Vol.27,pp.379-423,623-656,July,October,1948.）

这样，通过将N-gram的概念引入到文本字符串的语言辨识中，能高精度地辨识语言。例如，对设N为3、利用字符的Trigram的语言辨识进行说明。

语言辨识部101具有利用作为语言辨识对象的各语言来记载的学习用文本字符串，求出学习用字符串中出现的3个连续字符的出现概率。例如，对于字符串“MITSUBISHI”的情况，可分解成“$$M”、“$MI”、“MIT”、“ITS”、“TSU”、“SUB”、“UBI”、“BIS”、“ISH”、“SHI”、“HI$”、“I$$”等各序列。另外，“$”意指表示词头、词尾的字符。

在求出语言i（i＝1，2，……，N）的所有学习字符串中各序列出现的频度之后，语言辨识部101对所学习的每一语言采用出现概率较高的前n个序列作为模型，并将字符序列及其出现频度存储在各语言的语言辨识模型中。例如，对于语言i的语言辨识模型，存储字符序列（Trigram）“$$M”及此时的出现概率Pi（$，$，M）等。

语言辨识部101对于登记对象文本的字符串，利用各语言的语言辨识模型求出每一语言的字符序列（Trigram）的序列概率，将序列概率值最大的语言采用作为语言辨识结果。例如，对于“Best”的语言i的序列概率Pi通过Pi=Pi($,$,B)×Pi($,B,E)×Pi(B,E,S)×Pi(E,S,T)×Pi(S,T,$)×Pi(T,$,$)来求出。该序列概率Pi最大的语言i成为语言辨识结果。

另外，语言辨识部101在N-gram未存储于语言辨识模型的情况下，提供预定的一定概率作为出现概率以进行计算。

在求出N-gram时，对于在作为语言辨识对象的多种语言中共通记述且对语言辨识无帮助的字符（例如，数字、括弧、句号等符号），也可以预先将这些字符置换成表示特殊字符的字符而求出N-gram。例如，使用#、等特殊字符。

此外，在语言辨识中，在使用了限定所使用的语言的字符的情况下，将使用该字符的语言中、似然度（likelihood）最高的语言作为辨识结果来输出。作为限定所使用的语言的字符，例如可举出使用了元音变音的字符等。

另外，对于用于N-gram学习的文本字符串（用于语言辨识模型的文本字符串），通过利用与识别对象词汇相同任务（task）的词汇来进行学习，能提高语言的辨识精度。任务是指使用例如音乐检索、住所识别等的识别对象词汇的处理。语言辨识部101包括每一任务的学习用字符串，将与使用登记对象文本的任务相对应的学习用字符串用于语言辨识。

接下来，在从语言辨识部101输入辨识结果时，读音赋予部102判定该辨识结果是设定于声音识别装置100的多种语言中的哪种语言（步骤ST202），对于所输入的登记对象文本的字符串，利用判定结果的语言的音素来赋予读音（步骤ST203）。若是由声音识别部106设为当前声音识别对象的识别对象语言，则利用该识别对象语言的音素来赋予读音。同样地，即使判定结果的语言是识别对象语言以外的语言1、2、……、N中的任一种，也如图2所示，利用该语言的音素来赋予读音。

另外，在赋予音素时，例如使用G2P（Grapheme to Phoneme：字形到音素）。此外，在该读音赋予处理中，也一并进行省略语的判定、符号等的处理之类的依赖于语言的处理。

读音变换部103对于在步骤ST203中、利用识别对象语言以外的语言的音素来赋予读音的登记对象文本，将各语言的音素的读音变换成识别对象语言的音素的读音（步骤ST204）。

像这样变换音素体系的理由在于，能由声音识别部106受理的音素体系仅为设为声音识别对象的识别对象语言，语言不同的音素体系中存在无法受理的音素。

作为这种音素（读音）的变换方法，例如，读音变换部103对于无法由声音识别部106受理的语言的音素或音素序列，预先准备识别对象语言中最接近的音素或音素序列作为对应表，根据上述对应表对由步骤ST203得到的文本字符串的读音进行读音变换（音素映射）。

图3是表示上述那样的对应表的一个示例的图，示出德语与英语之间的对应关系。德语中的发音/a/（开前不圆唇元音）、/Y/（次闭次前圆唇元音）等在英语的发音体系中不存在。因此，声音识别部106在受理英语的情况下，无法应对该读音。

因而，对于德语的发音/a/、/Y/，像图3所示的对应表那样，使其与由声音识别部106能受理的英语中存在的音素中、发音最接近的音素例如/{/（次开前不圆唇元音）、/}/（半闭前圆唇元音）相对应。另外，此处的发音表述使用X-SAMPA表述。

该对应表可以将语言上相近的音素彼此进行对应，但也可以基于例如各语言的发音易于由哪种音素表述来识别等，以决定对应关系。

识别词典生成部104输入在步骤ST203中由读音赋予部102对登记对象文本的字符串赋予的音素、或在步骤ST204中由读音变换部103进行变换后的音素，并生成声音识别部106能参照的格式的识别词典（步骤ST205）。例如，除将识别词汇变换成二进制数据之外，还根据需要进行词素解析、单词分割以生成语言制约等，从而获得识别词典。

在作为登记对象文本的词汇有多个的情况下，对各登记对象文本重复进行上述为止的处理。另外，在生成识别词典时，也可以在对所有的登记对象文本的词汇赋予读音之后集中进行，而不是逐一追加登记词汇。

由识别词典生成部104生成的识别词典存储于识别词典存储部105。

声音识别部106参照识别词典存储部105所存储的识别词典中记载的识别词汇、文法来进行输入声音的声音识别，并输出识别结果。例如，声音识别部106读入利用特定语言的音素体系的音素来记载的识别词典，对特定语言的输入声音进行声音识别。作为声音识别的算法，例如利用HMM（Hidden Markov Model：隐马尔科夫模型）、DP（Dynamic Programming：动态规划）匹配等。

至上述为止，对由语言辨识部101辨识出的语言为1种语言的情况下的动作进行了说明，但接下来，对由语言辨识部101从所输入的登记对象文本的字符串中辨识出多种语言的情况下的动作进行说明。

图4是表示实施方式1的识别词典制作装置所涉及的识别词典的制作动作流程的流程图，示出由语言辨识部101辨识出N种语言的情况。

语言辨识部101对登记对象文本的字符串开始进行语言辨识处理，判定该字符串是用哪种语言记载的，将最有可能认为是该字符串的语言的前N种语言设为语言辨识结果（步骤ST301）。

另外，此处，N种可以是固定值，但也可以是利用语言辨识部101输出表示信赖度的得分而该得分为预定阈值以上的信赖度的候选的数目、相对于第一位的信赖度在一定的信赖度差以内的候选的数目。

例如，在输入“Hamburg”作为登记对象文本的情况下，语言辨识部101输出从该文本辨识出的语言为德语和英语（N＝2）这一结果。此外，在辨识语言失败等无法辨识语言的情况、或信赖度的得分小于阈值的情况下，语言辨识部101将能由声音识别部106受理的语言（识别对象语言）作为语言的辨识结果来输出。

接下来，语言辨识部101将作为辨识结果而得到的语言的数目、即表示对每一语言进行的后述处理的次数的计数器i初始化为i＝0（步骤ST301－1），并将与第i个辨识结果相对应的语言设定于读音赋予部102。由此，读音赋予部102、读音变换部103、及识别词典生成部104利用与第i（i＝0～N）个辨识结果相对应的语言来执行从步骤ST302到步骤ST306的处理。另外，步骤ST302是与图2所示的步骤ST202相同的处理，步骤ST303是与图2所示的步骤ST203相同的处理，步骤ST304是与图2所示的步骤ST204相同的处理，步骤ST305是与图2所示的步骤ST205相同的处理。

在步骤ST306中，语言辨识部101将计数器i增加＋1，利用下一个辨识结果的语言来重复上述一连串处理。在步骤ST307中，若语言辨识部101基于计数器i的计数值，判定为对所有辨识结果的语言完成（i≥N＋1）了上述一连串处理，则结束对所输入的登记对象文本的登记处理。由此，即使在1个登记对象文本是利用多种语言来记述的情况下，通过辨识这些语言，利用其音素分别赋予读音，之后分别变换成识别对象语言的音素的读音，从而也能作为识别词汇登记于识别词典。因而，即使用户利用语言辨识部101辨识出的任一种语言来说出该文本字符串，也能利用登记于识别词典的对应识别词汇来进行声音识别。

另外，在登记对象文本有多个的情况下，与得到1种语言作为辨识结果的情况相同，对各登记对象文本重复进行上述处理。

在生成识别词典时，也可以对利用1个登记对象文本的词汇辨识出的所有语言集中进行追加登记，而不是按照作为对1个登记对象文本的语言辨识结果而得到的每一语言来进行追加登记。或者，也可以在对所有登记对象文本的词汇赋予读音之后集中进行。

如上所述，根据该实施方式1，对所输入的登记对象文本的读音的语言进行辨识，利用辨识出的语言的音素来对登记对象文本赋予读音，并且，生成登记有将登记对象文本的读音从辨识出的语言的读音变换成声音识别中处理的识别对象语言后的读音的识别词典。

这样，即使在未明确登记对象文本是哪种语言的情况下（例如，登记到便携式音乐播放器的乐曲的标题和艺术家名等目录数据、登记到移动电话的地名和人名等），通过利用N-gram的语言辨识模型来辨识登记对象文本的语言，赋予辨识出的语言的音素，并变换成声音识别中能受理的语言的音素，从而也能作为声音识别中参照的识别词汇进行登记。

此外，根据该实施方式1，语言辨识部101从登记对象文本辨识出多种语言，从而在登记对象文本有可能符合多种语言的情况下，利用各语言赋予读音，以作为识别词汇进行登记。这样，即使用户利用任一种语言来发音，也能进行声音识别。

此外，根据该实施方式1，语言辨识部101对语言的辨识结果设定表示对各语言的信赖度的得分，与有关该得分的规定阈值进行比较，将信赖度最高的语言作为最终辨识结果来输出。这样，能仅采用用户最有可能发声的语言的发音，从而能提高声音识别性能。

此外，根据该实施方式1，由于利用N-gram进行语言辨识，因此，与按每一语言准备单词词典等以进行语言判定的情况相比，能获得稳定的语言辨识性能。此外，同时能减小词典尺寸，能削减运算量和存储器消耗量。

此外，根据该实施方式1，在利用N-gram的语言辨识中，利用将对辨识语言无帮助的字符（例如，数字、括弧、句号等符号）置换成表示特殊字符的1个字符的N-gram。由此，能减小语言辨识模型的存储区域的尺寸，能削减语言辨识模型的检索时间和存储器消耗量，因此，容易将本发明应用于嵌入型装置等运算速度和存储器尺寸受限制的装置。

此外，根据该实施方式1，在登记对象文本中存在像元音变音等那样、限定所使用的语言的字符的情况下，通过从使用该字符的语言中辨识出语言，从而能提高语言辨识的精度。

此外，根据该实施方式1，在利用N-gram的语言辨识中，通过利用与识别对象词汇相同的任务（使用了识别对象词汇的处理）的词汇来制作语言辨识模型，从而能提高语言辨识的精度。

实施方式2

图5是表示利用本发明的实施方式2所涉及的识别词典制作装置的登记型声音识别装置的结构的框图。在图5中，实施方式2所涉及的声音识别装置100A在上述实施方式1所涉及的声音识别装置的结构的基础上，还包括语言辨识前处理部107、定型字符串存储部（排除对象存储部）108、分割字符串存储部（分割对象存储部）109、及变换处理存储部（处理内容存储部）110。

语言辨识前处理部107是配置在语言辨识部101的前级且输入有登记对象文本的结构部，作为进行语言辨识处理的前处理，将所输入的登记对象文本的字符串中的、特定的字符或字符串（以下称为定型字符或定型字符串）从语言辨识对象中排除，或以规定的字符或字符串（以下称为分割字符或分割字符串）为基准，对该登记对象文本进行分割。

定型字符串存储部108是存储有从语言辨识对象中排除的定型字符或定型字符串及其记述语言和读音的存储部。分割字符串存储部109是存储有作为分割登记对象文本时的分割位置的分割字符或分割字符串及其记述语言和读音的存储部。变换处理存储部110是存储由语言辨识前处理部107对登记对象文本实施的前处理的内容（排除或分割字符串）的存储部。

另外，在图5中，对与图1相同或同样地进行动作的结构部标注相同标号，并省略其说明。其中，语言辨识部101对由语言辨识前处理部107实施了前处理后的登记对象文本的字符串进行语言辨识。此外，识别词典生成部104在生成识别词典时，利用变换处理存储部110所存储的前处理内容、即登记对象文本的分割后的各分割部分之间的连接关系、从登记对象文本中排除的字符串及其读音，生成与该登记对象文本的字符串相符的识别词典。

此外，对于语言辨识前处理部107、定型字符串存储部108、分割字符串存储部109、及变换处理存储部110，通过将按照本发明要点的识别词典制作程序存储在计算机中，并使CPU加以执行，从而能在该计算机上作为硬件和软件协作的具体单元来实现。而且，定型字符串存储部108、分割字符串存储部109、及变换处理存储部110所使用的存储区域由上述计算机所装载的存储装置、例如硬盘装置和外部存储介质等来构建。

接下来，对动作进行说明。

图6是表示实施方式2的识别词典制作装置所涉及的识别词典的制作动作流程的流程图，对语言辨识前处理部107、语言辨识部101、读音赋予部102、读音变换部103、及识别词典生成部104的动作的细节进行描述。

首先，若输入登记对象文本，则语言辨识前处理部107参照定型字符串存储部108的存储内容，检测出该登记对象文本的字符串中包含的定型字符或定型字符串，从语言辨识对象中排除（步骤ST501）。作为定型字符或定型字符串，可举出有在多种语言中共通出现的特定的语言记述。

在以乐曲的目录数据为对象的系统中，“Disc”和“Best of”等共通记载在多种语言中（英语表述），而不依赖于语言。因而，预先将这种字符或字符串及其记述语言（在上述例中为英语）存储于定型字符串存储部108。例如，在输入“Best Of Ce n’est que moi”这一登记对象文本的情况下，对于“Best Of”，由于可从定型字符串存储部108的存储内容获得英语及其读音，因此，利用语言辨识前处理部107将其从语言辨识的对象排除，作为语言辨识对象的字符串，剩下“Ce n’est que moi”。

接下来，语言辨识前处理部107参照分割字符串存储部109的存储内容，检测出登记对象文本的字符串中包含的分割字符或分割字符串，以分割字符或分割字符串为基准，对登记对象文本的字符串进行分割（步骤ST502）。作为分割字符或分割字符串，可举出将登记对象文本的记述分开的字符“（”、“）”、“－”等。

例如，在输入“Je vivrai sans toi(I Will Say Goodbye)”这一登记对象文本的情况下，参照分割字符串存储部109的存储内容，语言辨识前处理部107检测出该登记对象文本的字符串中包含的括弧“（”、“）”，以这些字符为基准，对该登记对象文本的字符串进行分割。由此，分割成“Je vivrai sans toi”和“I Will Say Goodbye”这2个字符串。

接下来，语言辨识前处理部107参照分割字符串存储部109的存储内容，确定登记对象文本的字符串中包含的、例如像大写字符串（spell：拼写）和数字等那样的不依赖于表述语言而由识别对象语言来朗读的字符串，将该字符串从登记对象文本中排除以进行分割（步骤ST503）。在该字符串部分中，未作为语言辨识结果确定出语言，而成为识别对象语言，因此，赋予识别对象语言的读音。

另外，也可以对于该字符串部分（大写字符（拼写）和数字等字符串），在分割字符串存储部109中预先赋予识别对象语言下的读音并进行存储，并且，对于登记对象文本中以该字符串部分为分界的前后字符串，使得读音赋予部102利用由语言辨识部101辨识出的语言来对该字符串部分赋予读音。

这样，对于大写字符串（拼写）和数字等字符串部分，赋予识别对象语言和辨识结果的语言下的2种读音，从而能不依赖于记述登记对象文本中的该字符串部分以外的部分的语言（辨识结果的语言），对用识别对象语言说出的字符串部分正确地赋予读音。

语言辨识前处理部107将从步骤ST501到步骤ST503的前处理的内容存储于变换处理存储部110。作为前处理的内容，在变换处理存储部110中存储有从登记对象文本中排除的定型字符或定型字符串、其记述语言及该语言的音素的读音、作为登记对象文本的分割位置的分割字符或分割字符串、各分割部分之间的连接关系等。

之后，语言辨识前处理部107将计数器j进行初始化（j＝0）（步骤ST504），该计数器j对分割登记对象文本的分割数K进行计数。接下来，语言辨识前处理部107将第j个分割部分设定为作为语言辨识对象的字符串，并输出到语言辨识部101（步骤ST505）。

语言辨识部101对于从语言辨识前处理部107输入的第j个分割部分的字符串，利用与上述实施方式1相同的步骤开始语言辨识处理，判定该字符串是由哪种语言记载的，将最有可能认为是该字符串的语言的前N种语言（似然度最高的前N种语言）设为语言辨识结果（步骤ST506）。

接下来，语言辨识部101将作为辨识结果而得到的语言的数目、即表示对每一语言进行的后述处理的次数的计数器i初始化为i＝0（步骤ST507），并将与第i个辨识结果相对应的语言设定于读音赋予部102。

这样，读音赋予部102和读音变换部103利用与第i（i＝0～N）个辨识结果相对应的语言来执行从步骤ST508到步骤ST510的处理。另外，步骤ST508是与图2所示的步骤ST202相同的处理，步骤ST509是与图2所示的步骤ST203相同的处理，步骤ST510是与图2所示的步骤ST204相同的处理。

在步骤ST511中，语言辨识部101将计数器i增加＋1，利用下一个辨识结果的语言来重复上述一连串处理，在步骤ST512中，若判定为对所有辨识结果的语言完成（i≥N＋1）了上述一连串处理，则将计数器j增加＋1（步骤ST513）。在步骤ST514中，在语言辨识部101基于计数器j的计数值、判定为对所有分割部分的字符串完成（j≥K）处理之前，对分割部分的字符串分别重复从步骤ST505到步骤ST514的一连串处理。

识别词典生成部104参照变换处理存储部110所存储的前处理内容，确定对从登记对象文本的字符串中排除的字符串的读音，将从该语言辨识的对象中排除的字符串的读音、和从读音变换部103输入的对各分割部分的字符串赋予的读音进行合成，生成声音识别部106能参照的格式的识别词典（步骤ST515）。例如，除将识别词汇变换成二进制数据之外，还根据需要进行词素解析、单词分割以生成语言制约等，从而获得识别词典。

如上所述，根据该实施方式2，包括定型字符串存储部108、分割字符串存储部109、基于这些存储部108、109所存储的内容来对登记对象文本进行前处理的语言辨识前处理部107、及存储语言辨识前处理部107所进行的前处理的内容的变换处理存储部110，识别词典生成部104基于变换处理存储部110的存储内容，求出表示由语言辨识前处理部107实施了前处理后的登记对象文本的读音的音素，生成登记有该音素的识别词典。

这样，通过利用特定字符串对输入文本进行分割，对分割部分分别进行语言辨识处理、读音赋予处理，从而即使在登记对象文本中包含有多种语言的情况下，也能正确地对登记对象文本的各分割部分进行语言辨识。

此外，将包含在多种语言中使用的特定语言的单词/惯用语（phrase）预先存储为特定字符串，从语言辨识对象中排除，因此，即使在包含与语言无关地使用的语言的惯用语（例如，在音乐的唱片集标题中“Disc 1”、“Bestof”等）的情况下，通过利用该惯用语以外的字符串部分进行语言辨识，从而能正确地对各字符串部分的读音的语言进行语言辨识。

此外，通过对读音依赖于识别对象语言的部位进行分割，从而即使对该部位，也能正确地赋予读音。

工业上的实用性

根据本发明所涉及的识别词典生成装置，由于能根据记述语言不明确的词汇来生成声音识别的音素体系中的识别词典，因此，适用于对混合有多种语言的词汇的数据进行处理的便携式音乐播放器、移动电话、车载导航系统等声音识别装置。

Claims

1.一种识别词典制作装置，其特征在于，包括：

语言辨识部，该语言辨识部对所输入的登记对象文本的读音的语言进行辨识；

读音赋予部，该读音赋予部利用由所述语言辨识部辨识出的语言的音素对所述登记对象文本赋予读音；

读音变换部，该读音变换部将所述登记对象文本的读音从由所述语言辨识部辨识出的语言的音素变换成声音识别中处理的识别对象语言的音素；及

识别词典生成部，该识别词典生成部生成登记有由所述读音变换部进行变换后的所述登记对象文本的读音的识别词典。

2.如权利要求1所述的识别词典制作装置，其特征在于，

所述语言辨识部将作为语言辨识对象的多种语言中、表示作为所述登记对象文本的读音的语言的可能性的得分排在前位的规定数目的语言作为辨识结果来输出，

所述读音赋予部利用由所述语言辨识部辨识出的所述规定数目的各语言的音素对所述登记对象文本分别赋予读音，

所述读音变换部将所述登记对象文本的读音从由所述语言辨识部辨识出的所述规定数目的语言的音素分别变换成所述识别对象语言的音素。

3.如权利要求2所述的识别词典制作装置，其特征在于，

所述语言辨识部在所述得分小于规定阈值的情况下，将所述识别对象语言作为辨识结果来输出。

4.如权利要求1所述的识别词典制作装置，其特征在于，包括：

排除对象存储部，该排除对象存储部存储有语言辨识的排除对象的字符或字符串；

语言辨识前处理部，该语言辨识前处理部从所述登记对象文本中，将与所述排除对象存储部所存储的所述排除对象的字符或字符串相当的部分排除；及

处理内容存储部，该处理内容存储部存储有由所述语言辨识前处理部对所述登记对象文本实施的所述排除对象的字符或字符串的排除处理的内容，

所述语言辨识部对由所述语言辨识前处理部排除了所述排除对象的字符或字符串后的所述登记对象文本的读音的语言进行辨识，

所述识别词典生成部参照所述处理内容存储部所存储的排除处理的内容，根据所述排除对象的字符或字符串的读音、及排除了所述排除对象的字符或字符串后的所述登记对象文本的读音，求出该登记对象文本的读音，生成登记有该读音的识别词典。

5.如权利要求4所述的识别词典制作装置，其特征在于，

包括存储有分割对象的字符或字符串的分割对象存储部，

所述语言辨识前处理部利用所述分割对象存储部所存储的所述分割对象的字符或字符串对所述登记对象文本的字符串进行分割，

在所述处理内容存储部存储有由所述语言辨识前处理部对所述登记对象文本实施的分割处理的内容，

所述语言辨识部对由所述语言辨识前处理部分割出的所述登记对象文本的每一分割部分辨识出读音的语言，

所述识别词典生成部参照所述处理内容存储部所存储的分割处理的内容，根据每一所述分割部分的读音，求出所述登记对象文本的读音，生成登记有该读音的识别词典。

6.如权利要求5所述的识别词典制作装置，其特征在于，

所述分割对象存储部存储有包含数字或大写字符串的分割对象的字符或字符串及其识别对象语言的读音，

所述语言辨识前处理部从所述登记对象文本中，将所述包含数字或大写字符串的分割对象的字符或字符串排除，对该登记对象文本的字符串进行分割，

所述读音赋予部对于所述包含数字或大写字符串的分割对象的字符或字符串，赋予由所述语言辨识部辨识出的所述分割部分的语言的读音，

所述识别词典生成部参照所述处理内容存储部所存储的排除处理的内容，根据每一所述分割部分的读音、所述分割对象的字符或字符串的识别对象语言的读音、及从所述分割部分的语言变换成所述识别对象语言后的读音，求出所述登记对象文本的读音，生成登记有该读音的识别词典。

7.如权利要求1所述的识别词典制作装置，其特征在于，

所述语言辨识部利用包含作为语言辨识对象的每一语言的N-gram及其出现概率的语言辨识模型，对每一语言计算出所述登记对象文本的N-gram的序列概率，根据基于所述序列概率值的似然度，辨识出读音的语言。

8.如权利要求7所述的识别词典制作装置，其特征在于，

所述语言辨识部对于所述登记对象文本中、作为语言辨识对象的多种语言中共通记述的、对语言辨识无帮助的字符或字符串，将其置换成特殊字符而生成N-gram。

9.如权利要求7所述的识别词典制作装置，其特征在于，

所述语言辨识部在所述登记对象文本中包含有限定使用语言的字符或字符串的情况下，将所述使用语言中、似然度最高的语言作为辨识结果来输出。

10.如权利要求7所述的识别词典制作装置，其特征在于，

所述语言辨识部对每一使用识别对象词汇的处理包括语言辨识模型，将与使用所述登记对象文本的处理相对应的语言辨识模型用于语言辨识。

11.一种声音识别装置，其特征在于，包括：

读音变换部，该读音变换部将所述登记对象文本的读音从由所述语言辨识部辨识出的语言的音素变换成声音识别中处理的识别对象语言的音素；

识别词典生成部，该识别词典生成部生成登记有由所述读音变换部进行变换后的所述登记对象文本的读音的识别词典；及

声音识别部，该声音识别部参照由所述识别词典生成部生成的所述识别词典，对输入声音进行声音识别。

12.一种声音识别装置，其特征在于，包括：

分割对象存储部，该分割对象存储部存储有分割对象的字符或字符串；

语言辨识前处理部，该语言辨识前处理部基于所述排除对象存储部和所述分割对象存储部所存储的内容，从所输入的登记对象文本中将所述排除对象的字符或字符串排除，并且，利用所述分割对象的字符或字符串进行分割；

处理内容存储部，该处理内容存储部存储有由所述语言辨识前处理部对所述登记对象文本实施的处理的内容；

语言辨识部，该语言辨识部对由所述语言辨识前处理部实施所述处理后的所述登记对象文本的读音的语言进行辨识；

识别词典生成部，该识别词典生成部参照所述处理内容存储部所存储的所述处理的内容，求出由所述语言辨识前处理部实施所述处理后的所述登记对象文本的读音，生成登记有该读音的识别词典；及