CN102687197B

CN102687197B - 声音识别用词典制作装置、声音识别装置及声音合成装置

Info

Publication number: CN102687197B
Application number: CN201080056433.9A
Authority: CN
Inventors: 丸田裕三
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-01-22
Filing date: 2010-01-22
Publication date: 2014-07-23
Anticipated expiration: 2030-01-22
Also published as: DE112010005168B4; DE112010005168T5; WO2011089651A1; JPWO2011089651A1; US9177545B2; US20120203553A1; JP4942860B2; CN102687197A

Abstract

根据本发明，包括：用户词典，该用户词典登记有输入声音的音素标签串；以及语言间音响数据映射表，该语言间音响数据映射表对语言之间的音素标签的对应关系进行了规定，参照语言间音响数据映射表，将登记到用户词典的音素标签串从制作用户词典时的语言的音素标签串转换成切换后的语言的音素标签串。

Description

声音识别用词典制作装置、声音识别装置及声音合成装置

技术领域

本发明涉及根据用户发出的声音来对声音识别用词典进行词汇登记的识别词典制作装置、利用该识别词典制作装置的声音识别装置及声音合成装置。

背景技术

在采用声音识别的应用中，有时会对用户发出的声音进行登记以用作识别对象语。在下文中，将该动作称作用户词典生成。作为利用声音生成用户词典的示例，有以下情形：用声音来登记与广播的频率相对应的广播电台名、或用声音来登记与电话号码相对应的人名和地名。

此外，在车载导航系统、便携式终端等可跨多国使用的设备所装载的声音识别中，要求有语言切换功能。

作为相关的现有技术，例如在专利文献1中公开了一种使用语言切换方法，该使用语言切换方法在对电子词典的使用语言进行切换时，将对用户发出的声音进行声音识别而获得的字符数据和装置内所存储的词汇相对照，从而决定用户想要使用的语言。

一般而言，对每一语言收集声音数据，用所收集的声音数据来构建声音识别算法和声音标准模型，利用该声音识别算法和声音标准模型来识别用户发出的声音。因此，当切换了语言的情况下，需要对声音识别单元本身和声音标准模型进行切换。

以往，提出了一种声音识别装置，该声音识别装置利用众所周知的声音识别技术，对每一语言生成最佳地呈现用户发出的声音的音素（phoneme）的标签串，并作为用户词典来保存，从而即使对声音识别所使用的语言进行切换，也能对用户发出的声音进行声音识别。

但是，在每次变更语言都制作音素标签串的情况下，存在以下问题：即，由于将发出声音保存到存储器并进行处理，因此，需要能确保发出声音的保存区域的大容量存储器。

此外，在不能将发出声音保存到存储器中的情况下，必须对假设的所有语言分别制作音素标签串，但即使是制作单一语言的音素标签串的情况下也要耗费较长时间，因此，对假设的所有语言而言，所需的处理时间较庞大。此外，还需要能保存所有语言的音素标签串的大容量存储器。

本发明是为了解决上述问题而完成的，其目的在于获得不需要对发出声音进行保存的大容量存储器且不需要对所有语言预先制作音素标签串，并能缩短对每一语言制作音素标签串的制作时间的识别词典制作装置、利用该识别词典制作装置的声音识别装置及声音合成装置。

现有技术文献

专利文献

专利文献1：日本专利特开2001－282788号公报

发明内容

本发明所涉及的识别词典制作装置包括：音响分析部，该音响分析部对输入声音的声音信号进行音响分析以输出音响特征的时间序列；音响标准模式存储部，该音响标准模式存储部对每一语言存储有表示标准的音响特征的音响标准模式；音响数据匹配部，该音响数据匹配部将从音响分析部输入的输入声音的音响特征的时间序列和音响标准模式存储部中存储的音响标准模式进行对照，以制作输入声音的音素标签串；用户词典存储部，该用户词典存储部对登记有音响数据匹配部所制作的输入声音的音素标签串的用户词典进行存储；语言存储部，该语言存储部对登记到用户词典的音素标签串的语言进行存储；语言切换部，该语言切换部对语言进行切换；映射表存储部，该映射表存储部对规定了语言间的音素标签的对应关系的映射表进行存储；以及音素标签串转换部，该音素标签串转换部参照映射表存储部中存储的映射表，将登记到用户词典的音素标签串从语言存储部中存储的语言的音素标签串转换成由语言切换部进行切换后的语言的音素标签串。

根据本发明，包括：用户词典，该用户词典登记有输入声音的音素标签串；以及映射表，该映射表对语言之间的音素标签的对应关系进行了规定，参照映射表，将登记到用户词典的音素标签串从制作用户词典时的语言的音素标签串转换成切换后的语言的音素标签串。

由此，即使切换语言，也能参照映射表来快速地将登记词汇转换成切换后的语言所使用的词汇，因此带来以下效果：不需要对发出声音进行保存的大容量存储器且不需要对所有语言预先制作音素标签串，能缩短对每一语言制作音素标签串的制作时间。

附图说明

图1是表示根据本发明的实施方式1的识别词典制作装置的结构的框图。

图2是表示根据实施方式1的识别词典制作装置的用户词典登记动作流程的流程图。

图3是表示根据实施方式1的识别词典制作装置的语言切换后的用户词典登记动作流程的流程图。

图4是表示根据本发明的实施方式2的声音识别装置的结构的框图。

图5是表示根据实施方式2的声音识别装置的动作流程的流程图。

图6是表示根据本发明的实施方式3的声音合成装置的结构的框图。

图7是表示根据实施方式3的声音合成装置的动作流程的流程图。

图8是表示根据本发明的实施方式4的识别词典制作装置的结构的框图。

图9是表示根据实施方式4的识别词典制作装置的用户词典登记动作流程的流程图。

图10是表示根据实施方式4的识别词典制作装置的语言切换后的用户词典登记动作流程的流程图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是表示根据本发明的实施方式1的识别词典制作装置的结构的框图。图1中，实施方式1的识别词典制作装置1包括麦克风2a、声音捕获部2、音响分析部3、每一语言的音响标准模式4、音响数据匹配部5、用户词典登记部（用户词典存储部）6、制作用户词典时的语言存储部（语言存储部）7、语言切换部8、音素标签串转换部9以及语言间音响数据映射表保存部（映射表存储部）10。

声音捕获部2是将麦克风2a所捕获的声音转换成数字信号的结构部。音响分析部3对由声音捕获部2执行了数字信号化的声音信号进行分析以转换成音响特征的时间序列的结构部。例如，以一定时间间隔对声音信号进行分析，并计算表示声音的特征的音响特征量（音响特征量矢量）。

音响标准模式4是与语言X（X＝1、2、3、……）的各音素标签串分别对应的标准的音响特征（对声音片断表示音响特征量的性质的标准模型），例如，以音素为单位、利用HMM（隐马尔科夫模型：Hidden MarkovModel）等来进行模型化。音响数据匹配部5是将音响分析部3所获得的输入声音的音响特征的时间序列和语言X的音响标准模式4相对照，根据与构成音响标准模式4的标准音响特征相对应的音素标签串来制作与输入声音最相似的音素标签串的结构部。

用户词典登记部6是具有用户词典的结构部，将音响数据匹配部5所制作的输入声音的音素标签串存放到用户词典中。制作用户词典时的语言存储部7是将在制作用户词典时设定为声音识别语言的设定语言进行存储的存储部。语言切换部8是对用作声音识别语言的设定语言进行切换的结构部。

音素标签串转换部9是利用语言间音响数据映射表、将由登记到用户词典时的语言所呈现的音素标签串转换成由语言切换部8进行变更后的语言的音素标签串的结构部。语言间音响数据映射表保存部10是将表示彼此不同的一对语言的音素标签之间的对应关系的语言间音响数据映射表进行存储的存储部。

此外，当一种语言无法呈现另一种语言的某一音素标签的情况下，将该一种语言所能呈现的音素标签中、与另一种语言的那个音素标签相似的音素标签与该音素标签（即，另一种语言的那个音素标签）进行对应。例如，日语中无法呈现英语的音素标签/l/。因此，在日语和英语的语言间音响数据映射表中，将英语的音素标签/l/与发音相似的日语的音素标签/r/进行对应。

此外，对于声音捕获部2、音响分析部3、音响标准模式4、音响数据匹配部5、用户词典登记部6、制作用户词典时的语言存储部7、语言切换部8、音素标签串转换部9及语言间音响数据映射表保存部10，通过将按照本发明要点的识别词典制作程序存储到计算机中，并使CPU进行执行，从而能在该计算机上作为硬件和软件协作的具体单元来实现。而且，音响标准模式4、用户词典登记部6、制作用户词典时的语言存储部7及语言间音响数据映射表保存部10所使用的存储区域由上述计算机上所装载的存储装置、例如硬盘装置和外部存储介质等来构建。

接下来，对动作进行说明。

用户指示利用输入装置来开始制作用户词典（步骤ST1），之后说出要登记的词汇。例如，假设说出人名‘Michael’。声音捕获部2经由麦克风2a捕获从用户发出的声音，将该输入声音转换成数字信号之后，输出到音响分析部3（步骤ST2）。

接着，制作用户词典时的语言存储部7对音响数据匹配部5中当前设定的、用户词典登记时的设定语言进行确认（步骤ST3），登记到自身中（步骤ST4）。另外，设定语言是在利用识别词典制作装置1的声音识别装置和声音合成装置中、预先作为成为声音识别和声音合成对象的语言而设定的语言。在图2的示例中，将英语设为设定语言。音响分析部3对在步骤ST2中从声音捕获部2输入的声音信号进行音响分析，将该声音信号转换成音响特征的时间序列（步骤ST5）。

音响数据匹配部5读出与自身设定的语言（设定语言）相对应的音响标准模式4，将该设定语言的音响标准模式4和由音响分析部3获得的输入声音的音响特征的时间序列进行对照，根据与构成音响标准模式4的标准音响特征相对应的音素标签串，来制作与输入声音的音响特征的时间序列最相似的、表示该输入声音的最佳音素标签串（步骤ST6）。例如，在输入声音为‘Michael’且设定语言为英语的情况下，如图2所示，获得音素标签串‘#、/m/、/a/、/i/、/k/、/l/、#’。

用户词典登记部6将音响数据匹配部5所制作的输入声音的音素标签串登记到用户词典（步骤ST7）。由此，可制作用户词典，该用户词典中登记有与设定语言的登记词汇文本相对应的音素标签串。

接着，对切换了设定语言的情况下的动作进行说明。

图3是表示根据实施方式1的识别词典制作装置的语言切换后的用户词典登记动作流程的流程图，表示在执行图2所示的用户词典登记之后切换了语言的情形。

例如，在用户利用输入装置对语言切换部8指定新语言时，语言切换部8将切换后的语言设定到音素标签串转换部9（步骤ST1a）。此处，假设切换到日语。

音素标签串转换部9读出在制作用户词典时的语言存储部7中存储的语言，对登记用户词典时的设定语言进行确认（步骤ST2a）。如上所述，在图2中，登记用户词典时的设定语言是英语。

随后，音素标签串转换部9利用步骤ST2a中确认的登记用户词典时的设定语言和由语言切换部8指定的切换后的语言，对语言间音响数据映射表保存部10进行检索，读取与登记用户词典时的设定语言和切换后的语言相对应的语言间音响数据映射表。

如图3所示，语言间音响数据映射表是表示英语音素标签和日语音素标签之间的对应关系的表数据。例如，图3中，英语音素标签中，标号A所示的发音相似的3个不同的音素标签包含无法由日语呈现的音素标签。在该情况下，用日语音素标签中的与标号A所示的音素标签发音相似的1个音素标签（/a/）进行对应。此外，由于在日语中无法呈现英语音素标签/l/，因此，将英语音素标签/l/与发音相似的日语音素标签/r/进行对应。

音素标签串转换部9基于从语言间音响数据映射表保存部10读取的语言间音响数据映射表，将用户词典中登记的音素标签串转换成切换后的语言的音素标签串（步骤ST3a）。

例如，如图3所示，‘Michael’的英语音素标签串‘#、/m/、/a/、/i/、/k/、/l/、#’基于英语和日语的语言间音响数据映射表中的对应关系，被转换成日语音素标签串‘#、/m/、/a/、/i/、/k/、/r/、#’。

另外，例如在以下参考文献1中公开了语言间音响数据映射表的制作方法。

（参考文献1）：日本专利特开2007－155833号公报

用户词典登记部6将步骤ST3a中由音素标签串转换部9进行了转换后的音素标签串重新存放到用户词典中（步骤ST4a）。在图3中，登记词汇为‘Michael’且切换后的语言为日语，因此，将日语音素标签串‘#、/m/、/a/、/i/、/k/、/r/、#’作为1个登记词语进行存放。

如上所述，根据本实施方式1，包括：用户词典，该用户词典登记有输入声音的音素标签串；以及语言间音响数据映射表，该语言间音响数据映射表对语言之间的音素标签的对应关系进行了规定，参照语言间音响数据映射表，将登记到用户词典的音素标签串从制作用户词典时的语言的音素标签串转换成切换后的语言的音素标签串。

通过这种结构，即使在设定语言从登记用户词典时起发生了变更的情况下，也能基于语言间音响数据映射表来转换音素标签串，从而能制作变更后的语言的用户词典，并能显著缩短制作对应语言的音素标签串的处理时间。

此外，即使在每次变更语言时都制作音素标签串的情况下，也不需要保存发出的声音，而仅保存登记用户词典时的音素标签串，也不需要预先对假设的所有语言制作音素标签。因此，也不需要大容量存储器。

实施方式2

图4是表示根据本发明的实施方式2的声音识别装置的结构的框图，表示利用了根据上述实施方式1的识别词典制作装置的声音识别装置。在图4中，实施方式2的声音识别装置1A在上述实施方式1所示的识别词典制作装置1的结构的基础上，还包括词典对照部11、利用每一语言的音响标准模式来呈现的一般词典12及识别结果输出部13。另外，在图4中，对与图1相同或同样地进行工作的结构部标注相同标号，并省略其说明。

词典对照部11是将输入声音的音素标签串、利用设定语言的音响标准模式来呈现的一般词典12的词汇、以及用户词典登记部6的用户词典中所登记的词汇进行对照，从一般词典12和用户词典的词汇中确定与输入声音的音素标签串最相似的词汇的结构部。一般词典12是利用语言X（X＝1、2、3、……）的音响标准模式来呈现的词典，登记有该语言的地名等大词汇（音素标签串）。识别结果输出部13是输出声音识别结果的结构部，输出作为词典对照部11所产生的对照结果而获得的、与输入声音的音素标签串最相似的词汇。

此外，对于词典对照部11、利用每一语言的音响标准模式来呈现的一般词典12及识别结果输出部13，通过将按照本发明要点的声音识别程序存储在计算机中，并使CPU进行执行，从而能在该计算机上作为硬件和软件协作的具体单元来实现。而且，音响标准模式4和一般词典12所使用的存储区域由上述计算机所装载的存储装置、例如硬盘装置和外部存储介质等来构建。

接下来，对动作进行说明。

用户指示利用输入装置来开始进行声音识别（步骤ST1b），之后发出作为声音识别对象的声音。例如，假设说出人名‘Michael’。声音捕获部2经由麦克风2a捕获从用户发出的声音，将该输入声音转换成数字信号之后，输出到音响分析部3（步骤ST2b）。音响分析部3对在步骤ST2b中从声音捕获部2输入的声音信号进行音响分析，将该声音信号转换成音响特征的时间序列。

音响数据匹配部5读出在制作用户词典时的语言存储部7中存储的语言，对登记用户词典时的设定语言进行确认（步骤ST3b）。在图5中，假设登记用户词典时的设定语言是日语。

随后，音响数据匹配部5根据从音响分析部3获取的输入声音的音响特征的时间序列、设定语言的音响标准模式4，来对该输入声音制作设定语言的音素标签串（步骤ST4b）。例如，在输入声音为‘Michael’且设定语言为日语的情况下，作为利用日语的音响标准模式来呈现的音素标签串而获得‘#、/m/、/a/、/i/、/k/、/r/、#’。

接着，词典对照部11将音响数据匹配部5所制作的输入声音的音素标签串、利用设定语言的音响标准模式4来呈现的一般词典12的词汇、以及用户词典登记部6的用户词典中所登记的词汇进行对照，从一般词典12和用户词典的词汇中确定与输入声音的音素标签串最相似的词汇（步骤ST5b）。识别结果输出部13输出作为词典对照部11所产生的对照结果而获得的、与输入声音的音素标签串最相似的词汇（步骤ST6b）。

如图5所示，在利用设定语言（此处为日语）的音响标准模式来呈现的一般词典12中，登记有地名等大词汇作为音素标签串。此外，如上述实施方式1所示，在用户词典中通过用户的话语，将任意词汇作为音素标签串来登记。此处，在作为用户词典的登记词语1而登记了‘#、/m/、/a/、/i/、/k/、/r/、#’的情况下，词典对照部11确定登记词语1作为与输入声音的音素标签串最相似的词汇，识别结果输出部13输出登记词语1作为识别结果。

如上所述，根据本实施方式2，在上述实施方式1的识别词典制作装置的结构的基础上，还包括：一般词典存储部，该一般词典存储部存储有一般词典12；词典对照部11，该词典对照部11将音响数据匹配部5所制作的输入声音的音素标签串、一般词典12和用户词典进行对照，从一般词典12和用户词典中确定与输入声音的音素标签串最相似的词汇；以及识别结果输出部13，该识别结果输出部13将词典对照部11所确定的词汇作为声音识别结果来输出，因此，在上述实施方式1的效果的基础上，还能提供利用用户词典来进行声音识别的声音识别装置1A。

实施方式3

图6是表示根据本发明的实施方式3的声音合成装置的结构的框图，表示利用了根据上述实施方式1的识别词典制作装置的声音合成装置。图6中，实施方式3的声音合成装置1B在上述实施方式1所示的识别词典制作装置1的结构、上述实施方式2所示的利用每一语言的音响标准模式来呈现的一般词典12的基础上，还包括文本输入部14、登记词语部分检测部15、登记词语部分音素标签串置换部（登记词汇置换部）16、其它部分音素标签串置换部（一般词典置换部）17以及声音合成部18。另外，在图6中，对与图1和图4相同或同样地进行工作的结构部标注相同标号，并省略其说明。

文本输入部14是输入要转换成声音的文本的结构部。登记词语部分检测部15是在从文本输入部14获取的输入文本中检测出登记到用户词典的登记词语的结构部。登记词语部分音素标签串置换部16是将登记词语部分检测部15所检测出的登记词语置换成从用户词典获取的音素标签串的结构部。其它部分音素标签串置换部17是经由登记词语部分音素标签串置换部16、将除了登记词语部分检测部15所检测出的登记词语以外的输入文本部分进行输入的结构部，将登记词语以外的输入文本部分的词语置换成从利用设定语言的音响标准模式来呈现的一般词典12获取的音素标签串。声音合成部18是根据与音素标签串置换部16、17所获得的输入文本相关的音素标签串来生成该输入文本的合成声音的结构部。

另外，对于文本输入部14、登记词语部分检测部15、登记词语部分音素标签串置换部16、其它部分音素标签串置换部17和声音合成部18，通过将按照本发明的要点的声音合成程序存储在计算机中，并使CPU进行执行，从而能在该计算机上作为硬件和软件协作的具体单元来实现。而且，音响标准模式4和一般词典12所使用的存储区域由上述计算机所装载的存储装置、例如硬盘装置和外部存储介质等来构建。

接下来，对动作进行说明。

用户利用文本输入部14来输入要转换成声音的文本（步骤ST1c）。此时，设定对用户词典的登记词语进行识别的识别符。例如，如图7所示，在将用户词典的登记词语1作为文本进行输入的情况下，在登记词语1的前后设定登记词语的识别符即双引号（日文：二重括弧）。

登记词语部分检测部15从文本输入部14获取输入文本，利用输入文本中所设定的登记词语的识别符来检测出登记词语（步骤ST2c）。在图7的示例中，检测出前后设定有双引号的登记词语1。

接着，登记词语部分音素标签串置换部16将登记词语部分检测部15所检测出的登记词语置换成从用户词典获取的音素标签串（步骤ST3c）。由此，将登记词语1置换成对应的音素标签串即‘#、/m/、/a/、/i/、/k/、/r/、#’。

其它部分音素标签串置换部17经由登记词语部分音素标签串置换部16，将输入文本中的除了登记词语部分检测部15所检测出的登记词语以外的部分进行输入，将登记词语以外的输入文本部分的词语置换成从一般词典12获取的音素标签串（步骤ST4c）。此处，将设定语言设为日语，如图7所示，将登记词语以外的输入文本部分即助词‘は’、名词‘大阪’、助词‘に’、动词‘いった’分别置换成登记到日语的一般词典12中的对应音素标签串。

声音合成部18根据与登记词语部分音素标签串置换部16和其它部分音素标签串置换部17所获得的输入文本相关的音素标签串，来生成该输入文本的合成声音（步骤ST5c）。在图7的示例中，输出合成声音‘マイクルは大阪に行った’。此处，用日语的音素标签来说出登记词语1以外的部分，但如上述实施方式1所示，登记词语1即‘マイクル’在设定到用户词典时的设定语言为英语，因此以英语来发音。

如上所述，根据本实施方式3，在上述实施方式1的识别词典制作装置的结构的基础上，还包括：文本输入部14，该文本输入部14输入文本；登记词语部分检测部15，该登记词语部分检测部15从由文本输入部14输入的文本的字符串中，检测出与登记到用户词典的音素标签串相当的词汇部分；登记词语部分音素标签串置换部16，该登记词语部分音素标签串置换部16将登记词语部分检测部15所检测出的词汇部分置换成从用户词典获取的对应音素标签串；其它部分音素标签串置换部17，该其它部分音素标签串置换部17将文本的字符串中的除了由登记词语部分检测部15检测出的词汇部分以外的部分置换成一般词典12的对应音素标签串；以及声音合成部18，该声音合成部18根据登记词语部分音素标签串置换部16和其它部分音素标签串置换部17所获得的文本的音素标签串来生成该文本的合成声音。

通过这种结构，在上述实施方式1的效果的基础上，还能提供利用用户词典来进行声音合成的声音合成装置1B。

实施方式4

图8是表示根据本发明的实施方式4的识别词典制作装置的结构的框图。在图8中，实施方式4的识别词典制作装置1a包括登记时的音响模式设定部19，来替代上述实施方式1的结构中的制作用户词典时的语言存储部7。登记时的音响模式设定部19是无论利用识别词典制作装置1a的声音识别装置和声音合成装置中所设定的设定语言为何种语言、都将预先登记到自身中的规定语言设定为音响数据匹配部5的处理中所使用的音响标准模式4的语言的结构部。该规定语言与设定语言无关、预先登记到登记时的音响模式设定部19中。另外，在图8中，对与图1所示的结构部相同或同样地进行工作的结构部标注相同标号，并省略其说明。

接下来，对动作进行说明。

用户指示利用输入装置来开始制作用户词典（步骤ST1d），之后说出要登记的词汇。例如，假设说明人名“Michael”。声音捕获部2经由麦克风2a捕获从用户发出的声音，将该输入声音转换成数字信号之后，输出到音响分析部3（步骤ST2d）。

随后，登记时的音响模式设定部19将预先登记到自身中的规定语言替代系统的设定语言来设定于音响数据匹配部5（步骤ST3d）。在图9的示例中，将英语设为规定语言。音响分析部3对在步骤ST2d中从声音捕获部2输入的声音信号进行音响分析，将该声音信号转换成音响特征的时间序列（步骤ST4d）。

音响数据匹配部5从登记时的音响模式设定部19读出与所设定的规定语言相对应的音响标准模式4，根据该设定语言的音响标准模式4、音响分析部3所获得的输入声音的音响特征的时间序列，来制作表示输入声音的最佳音素标签串（步骤ST5d）。例如，若输入声音为‘Michael’且规定语言为英语，则如图9所示，获得音素标签串‘#、/m/、/a/、/i/、/k/、/l/、#’。

用户词典登记部6将音响数据匹配部5所制作的输入声音的音素标签串登记到用户词典（步骤ST6d）。

接着，音素标签串转换部9基于从语言间音响数据映射表保存部10读取的语言间音响数据映射表，将如上所述那样获得的对应于输入声音（登记词汇）的规定语言的音素标签串和系统中当前设定的设定语言的音素标签相对应，将利用登记到用户词典中的规定语言的登记词汇的音素标签串转换成设定语言的音素标签串，并作为当前的用户词典登记到用户词典登记部6（步骤ST7d）。

接着，对切换设定语言的情况下的动作进行说明。

图10是表示根据实施方式4的识别词典制作装置的语言切换后的用户词典登记动作流程的流程图，表示在执行图9所示的用户词典登记之后切换了语言的情形。

在用户利用输入装置对语言切换部8指定新语言时，语言切换部8将切换后的语言设定到音素标签串转换部9（步骤ST1e）。此处，假设切换到日语。

音素标签串转换部9利用从语言切换部8指定的切换后的语言和规定语言，对语言间音响数据映射表保存部10进行检索，读取与登记用户词典时的规定语言和切换后的语言相对应的语言间音响数据映射表，基于该语言间音响数据映射表，将登记到用户词典的规定语言的音素标签串转换成切换后的语言的音素标签串（步骤ST2e）。

例如，作为规定语言的英语的‘Michael’的音素标签串‘#、/m/、/a/、/i/、/k/、/l/、#’基于与作为切换后的语言的日语之间的语言间音响数据映射表的对应关系，被转换成日语音素标签串‘#、/m/、/a/、/i/、/k/、/r/、#’。

用户词典登记部6将步骤ST2e中由音素标签串转换部9进行了转换后的音素标签串追加存放到用户词典中（步骤ST3e）。在图10中，登记词汇文本为‘Michael’且切换后的语言为日语，因此，将日语音素标签串‘#、/m/、/a/、/i/、/k/、/r/、#’作为登记词语进行存放。

如上所述，根据本实施方式4，包括：用户词典，该用户词典登记有输入声音的音素标签串；语言间音响数据映射表，该语言间音响数据映射表对语言之间的音素标签的对应关系进行规定；以及登记时的音响模式设定部19，该登记时的音响模式设定部19从音响标准模式中选择预先设定的语言的音响标准模式，参照语言间音响数据映射表，将登记到用户词典的音素标签串从由登记时的音响模式设定部19所选择的语言的音素标签串转换成切换后的语言的音素标签串。

若在上述实施方式1中，在可将N种语言设定为登记到用户词典的词汇的对象语言的情况下，则需要与登记到用户词典时的语言和可设定的语言的（N×（N－1））/2个所有组合相对应的语言间音响数据映射表，而此时，通过这种结构，则只需要与登记时的音响模式设定部19所设定的1种规定语言和上述可设定的语言的（N－1）个组合相对应的语言间音响数据映射表，从而能减小语言间音响数据映射表的数据大小。

此外，在上述实施方式2和上述实施方式3中，表示了利用上述实施方式1的识别词典制作装置1来构成声音识别装置及声音合成装置的情形，但在图4和图6所示的结构中，还可与图8所示的上述实施方式4的识别词典制作装置1a进行组合来替代上述实施方式1的识别词典制作装置以构成声音识别装置和声音合成装置。由此，能提供还能一并获得上述实施方式4的效果的声音识别装置和声音合成装置。

工业上的实用性

本发明所涉及的识别词典制作装置不需要保存发出声音的大容量存储器，不需要对所有语言制作音素标签串，能缩短对每一语言制作音素标签串的制作时间，从而能适用于车载设备的声音识别装置和声音合成装置。

Claims

1.一种声音识别用词典制作装置，其特征在于，包括：

音响分析部，该音响分析部对输入声音的声音信号进行音响分析以输出音响特征的时间序列；

音响标准模式存储部，该音响标准模式存储部对每一语言存储有表示标准的音响特征的音响标准模式；

音响数据匹配部，该音响数据匹配部将从所述音响分析部输入的所述输入声音的音响特征的时间序列和所述音响标准模式存储部中存储的音响标准模式进行对照，以制作所述输入声音的音素标签串；

用户词典存储部，该用户词典存储部对登记有所述音响数据匹配部所制作的所述输入声音的音素标签串的用户词典进行存储；

语言存储部，该语言存储部对登记到所述用户词典的音素标签串的语言进行存储；

语言切换部，该语言切换部对语言进行切换；

映射表存储部，该映射表存储部对规定了语言间的音素标签的对应关系的映射表进行存储；以及

音素标签串转换部，该音素标签串转换部参照所述映射表存储部中存储的映射表，将登记到所述用户词典的音素标签串从所述语言存储部中存储的语言的音素标签串转换成由所述语言切换部进行切换后的语言的音素标签串。

2.一种声音识别装置，其特征在于，包括：

语言切换部，该语言切换部对语言进行切换；

映射表存储部，该映射表存储部对规定了语言间的音素标签的对应关系的映射表进行存储；

音素标签串转换部，该音素标签串转换部参照所述映射表存储部中存储的映射表，将登记到所述用户词典的音素标签串从所述语言存储部中存储的语言的音素标签串转换成由所述语言切换部进行切换后的语言的音素标签串；

一般词典存储部，该一般词典存储部对利用所述音响标准模式来呈现的词汇的一般词典进行存储；

词典对照部，该词典对照部将所述音响数据匹配部所制作的所述输入声音的音素标签串、所述一般词典、和所述用户词典进行对照，从所述一般词典和所述用户词典中确定与所述输入声音的音素标签串最相似的词汇；以及

识别结果输出部，该识别结果输出部将由所述词典对照部所确定的词汇作为声音识别结果来输出。

3.一种声音合成装置，其特征在于，包括：

语言切换部，该语言切换部对语言进行切换；

文本输入部，该文本输入部输入文本；

登记词语部分检测部，该登记词语部分检测部从由所述文本输入部输入的文本的字符串中，检测出与登记到所述用户词典的音素标签串相符的词汇部分；

登记词汇置换部，该登记词汇置换部将所述登记词语部分检测部所检测出的所述词汇部分置换成从所述用户词典获取的与该词汇部分相对应的音素标签串；

一般词典置换部，该一般词典置换部将所述文本的字符串中的、除了所述登记词语部分检测部所检测出的所述词汇部分以外的部分置换成用所述音响标准模式呈现的包含一般词汇的词典的对应词汇的音素标签串；以及

声音合成部，该声音合成部根据所述登记词汇置换部及所述一般词典置换部所获得的所述文本的音素标签串，来生成该文本的合成声音。

4.一种声音识别用词典制作装置，其特征在于，包括：

音响标准模式设定部，该音响标准模式设定部从所述音响标准模式存储部所存储的音响标准模式中，选择预先设定的语言的音响标准模式；

音响数据匹配部，该音响数据匹配部将从所述音响分析部输入的输入声音的音响特征的时间序列和所述音响标准模式设定部所选择的语言的音响标准模式进行对照，以制作所述输入声音的音素标签串；

语言切换部，该语言切换部对语言进行切换；

音素标签串转换部，该音素标签串转换部参照所述映射表存储部中存储的映射表，将登记到所述用户词典的音素标签串从所述音响标准模式设定部所选择的语言的音素标签串转换成由所述语言切换部进行切换后的语言的音素标签串。

5.一种声音识别装置，其特征在于，包括：

语言切换部，该语言切换部对语言进行切换；

音素标签串转换部，该音素标签串转换部参照所述映射表存储部中存储的映射表，将登记到所述用户词典的音素标签串从所述音响标准模式设定部所选择的语言的音素标签串转换成由所述语言切换部进行切换后的语言的音素标签串；

6.一种声音合成装置，其特征在于，包括：

语言切换部，该语言切换部对语言进行切换；

文本输入部，该文本输入部输入文本；