CN103050115A

CN103050115A - 识别装置、识别方法、生成装置和生成方法

Info

Publication number: CN103050115A
Application number: CN201210313705XA
Authority: CN
Inventors: 原田将治
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-10-12
Filing date: 2012-08-29
Publication date: 2013-04-17
Also published as: US20130096918A1; JP5799733B2; US9082404B2; JP2013083897A

Abstract

本发明涉及识别装置、识别方法、生成装置和生成方法。根据本发明的识别装置包括存储器、第一计算单元、第二计算单元和确定单元。存储器存储语句中包括的词和指示词在语句中的位置的位置信息。第一计算单元将输入语音信号与连接存储器中存储的多个词的字符串的阅读信息相比较以计算相似度。第二计算单元基于存储器中存储的词的位置信息来计算指示多个连接的词之间接近度的连接得分。确定单元基于相似度和连接得分来确定对应于语音信号的字符串。

Description

识别装置、识别方法、生成装置和生成方法

技术领域

在此讨论的实施例针对的是识别装置、识别程序、识别方法、生成装置、生成程序和生成方法。

背景技术

存在使用文件或网络页面中包括的文本来识别输入语音的装置。上述装置的例子包括这样一种装置，该装置计算指示输入语音的语音信号和文本中包括的词或其中词被连接的字符串之间的相似度，并且将计算的相似度超过阈值时的词或字符串判断为对应于语音信号的词或字符串。

进一步，使用文本来识别输入语音的装置的另一个例子包括这样一种装置，该装置生成文本中包括的词的所有连接模式，并且将生成的连接模式登记在词典(dictionary)中，所述词典可以用来识别语音以生成词典。生成词典的装置将词典中登记的连接模式与指示输入语音的语音信号相比较以识别语音。另外，当文本中包括的词的数目为n时，生成词典的装置生成多至1至n之和的连接模式。

进而，使用文本来识别输入语音的装置的另一个例子包括通过N元语法(N-gram)来重新训练语言模型的装置。相对于从语料库训练的语言模型，重新训练语言模型的装置增加了文本中的连接词相对于其中词被连接的词串的概率。在这种情况下，重新训练语言模型的装置生成了多至文本中出现的词的数目的N次幂的模式，并且使用生成的模式增加了相对于语言模型连接的词的概率。

专利文件1：日本公开专利公布第2002-41081号

专利文件2：日本公开专利公布第2002-342323号

然而，根据现有技术的装置没有精确地识别语音。根据特定的例子，当没有登记在词典中作为连接模式的语音被输入时，上面提到的生成词典的装置的输入语音的识别结果的精确度低。这是因为即使文本中包括的相邻词的组合的模式包括在词典中登记的连接模式中，包括在文本中但不彼此相邻的词的组合的模式并没有包括在词典中登记的连接模式中。

进一步，在上面提到的重新训练语言的装置中，由于模式被生成得多至文本中出现的词的数目的N次幂，所以将要生成的模式的信息量很大。

因此，本发明的实施例的一方面的目标是要提供能够精确地识别语音的识别装置、识别程序、识别方法、生成装置、生成程序和生成方法。

发明内容

根据实施例的一方面，一种识别装置包括存储器和耦合到存储器的处理器。存储器存储语句中包括的词和指示词在语句中的位置的位置信息。处理器执行包括以下步骤的过程：将输入语音信号与连接存储器中存储的多个词的字符串的阅读信息相比较以计算相似度；基于存储器中存储的词的位置信息，计算指示多个连接的词之间接近度的连接得分；以及基于相似度和连接得分，确定对应于语音信号的字符串。

附图说明

图1是图示根据第一实施例的包括识别装置和生成装置的系统的配置例子的示图；

图2是图示根据第一实施例的生成装置的功能配置例子的示图；

图3是图示词典的例子的示图；

图4是图示根据第一实施例的识别装置的功能配置例子的示图；

图5是图示根据第一实施例的生成处理序列的流程图；

图6是图示根据第一实施例的识别处理序列的流程图；

图7是图示根据第二实施例的生成装置的功能配置例子的示图；

图8是图示词典的例子的示图；

图9是图示根据第二实施例的识别装置的功能配置例子的示图；

图10是图示根据第二实施例的生成处理序列的流程图；

图11是图示根据第二实施例的识别处理序列的流程图；

图12是图示根据第三实施例的识别装置的功能例子的示图；

图13是图示语言模型的例子的示图；

图14是图示词词典(word dictionary)的例子的示图；

图15是图示根据第三实施例的识别处理序列的流程图；

图16是图示根据第四实施例的生成装置的配置例子的示图；

图17是图示词类号码表的例子的示图；

图18是图示词典的例子的示图；

图19是图示根据第四实施例的识别装置的配置例子的示图；

图20是图示概率表的例子的示图；

图21是图示根据第四实施例的生成处理序列的流程图；

图22是图示根据第四实施例的识别处理序列的流程图；

图23是图示执行生成程序的计算机的示图；以及

图24是图示执行识别程序的计算机的示图。

具体实施方式

参考附图来说明本发明的优选实施例。然而，实施例没有限制公开的技术。因此，在实施例中，处理可以被适当地组合而没有抵触。

[第一实施例]

描述根据第一实施例的识别装置和生成装置。图1是图示根据第一实施例的包括识别装置和生成装置的系统的配置例子的示图。根据本实施例的系统1包括生成装置10和识别装置20。生成装置10和识别装置20经由网络30连接。生成装置10可以与识别装置20通信。在图1的例子中，在系统1中包括一个生成装置10和一个识别装置20。然而，生成装置10的数目和识别装置20的数目不限于此。例如，可以提供多个生成装置10和多个识别装置20。

生成装置10生成词典，语句中包括的词被登记在所述词典中，以便与指示词在语句中的位置的位置信息相关联。例如，首先生成装置10将输入文本文件所指示的语句分割成词。语句也被称为文本。因此，生成装置10生成指示分割的词在语句中的位置的位置信息。接着，生成装置10生成词典，词被登记在所述词典中，以便与指示词在语句中的位置的位置信息相关联。生成装置10将生成的词典传送到识别装置20。

识别装置20接收从生成装置10传送的词典。识别装置20将输入语音信号与连接词典中登记的多个词的字符串的阅读信息相比较以计算相似度。接着，基于词典中登记的词的位置信息，识别装置20计算指示多个连接词之间接近度的连接得分。因此，基于相似度和连接得分，识别装置20确定对应于输入语音信号的字符串。进一步，识别装置20输出确定的字符串。

如上所述，识别装置20计算指示被用来计算相似度的字符串的多个词之间的接近度的连接得分。例如，识别装置20计算连接得分，以便随着被用来计算相似度的字符串的多个词彼此越接近而越高。因此，识别装置20通过不仅相加相似度而且还相加连接得分来确定对应于输入语音信号的字符串。例如，识别装置20将与通过相加相似度和连接得分而获得的值中超过阈值的值相对于的字符串确定为对应于输入语音信号的字符串。因此，即使当发声者发出具有多个连接词的字符串，所述连接词包括在语句中但在语句中没有彼此相邻，并且字符串被输入作为语音信号时，识别装置20也可以识别发声者发出的语音。因此，识别装置20允许对语音的精确识别。

进一步，如上所述，生成装置10可以生成词典，所述词典允许对语音的精确识别。

生成装置的功能配置的例子

图2是图示根据第一实施例的生成装置的功能配置例子的示图。在图2的例子中，生成装置10包括输入单元11、输出单元12、通信单元13、存储器单元14和控制器15。

输入单元11将各种信息输入到控制器15。例如，输入单元11接收用户的指令，以从别的装置获得包括与预定主题相关的语句的文本文件，并且将接收的指令输入到控制器15。输入单元11的装置的例子包括鼠标或键盘。

输出单元12输出各种信息。例如，当从控制器15输入图像时，输出单元12显示图像。输出单元12的装置的例子包括阴极射线管（CRT）或液晶显示器。

通信单元13是网络接口，用于与识别装置20和外部装置通信。例如，当从控制器15接收到关于将包括与预定主题相关的语句的文本文件传送到生成装置10的外部装置的指令时，通信单元13经由网络30将接收到的指令传送到外部装置。进一步，当从外部装置接收到文本文件时，通信单元13将接收到的文本文件传送到控制器15。

存储器单元14存储文本文件14a和词典14b。

通过下面将会描述的获取单元15a将文本文件14a存储在存储器单元14中。文本文件指示语句。文本文件14a被用来生成词典14b，所述词典14b将会在下面描述，并且在识别由发声者发出的语音时使用。因此，与发声者所发出的内容相匹配的文本文件14a可以存储在存储器单元14中。例如，当发声者发出关于天气的内容时，文本文件中包括的语句的内容可以是关于天气的内容。

词典14b由下面将会描述的生成单元15c生成，并且由下面将会描述的存储单元15d存储在存储器单元14中。

图3是图示词典的例子的示图。在图3的例子中，词典14b包括“书写”部、“阅读信息”部和“位置信息”部。在“书写”部中，登记了由输入文本文件指示的语句中包括的词和其中多个词被耦合的词串。进一步，在“阅读信息”部中，登记了对“书写”部中登记的词或词串的阅读，亦即词或词串的平假名书写。在“位置信息”部中，登记了指示“书写”部中登记的词或词串在语句中的位置的位置信息。由生成单元15c生成这些部的内容。

图3的例子图示了在第一个记录中，由文本文件14a“在日本众议院中审议修改法律。首相山川提到他想要通过法案”指示的语句中包括的词“日本众议院”登记在“书写”部中。进一步，图3的例子图示了在第一个记录中，作为“日本众议院”的阅读方法的“しゆうぎいん”登记在“阅读信息”部中。另外，图3的例子图示了在第一个记录中，指示词“日本众议院”在语句中的位置的位置信息“0”登记在“位置信息”部中。

进一步，图3的例子图示了在第二个记录中，其中语句“在日本众议院中审议修改法律。首相山川提到他想要通过法案”中包括的词“日本众议院”和词“中”组合在一起的词串“在日本众议院中”登记在“书写”部中。进一步，图3的例子图示了在第二个记录中，作为“在日本众议院中”的阅读方法的“しゆうぎいんで”登记在“阅读信息”部中。进而，图3的例子图示了在第二个记录中，指示词串“在日本众议院中”在语句中的位置的位置信息“1”登记在“位置信息”部中。

存储器单元14例如是半导体存储装置如快闪存储器或者诸如硬盘或光盘之类的存储装置。进一步，存储器单元14不限于上面提到的存储装置，而可以是随机存取存储器（RAM）或只读存储器（ROM）。

控制器15包括用于存储程序或控制数据的内部存储器，所述程序或控制数据定义各种过程以执行各种处理。控制器15包括获取单元15a、分割单元15b、生成单元15c和存储单元15d。

当从输入单元11接收到从别的装置获取包括与预定主题有关的语句的文本文件14a的指令时，获取单元15a将关于未被图示的外部装置的指令传送到通信单元13，所述外部装置将文本文件14a传送到生成装置10。通过这样做，包括与预定主题有关的语句的文本文件14a被从外部装置传送到生成装置10。因此，获取单元15a可以从外部装置获取包括与预定主题有关的语句的文本文件14a。获取单元15a将获取的文本文件14a存储在存储器单元14中。

分割单元15b将文本文件14a所指示的语句分割成词。例如，分割单元15b使用用于分析词素的软件如“ChaSen”或“MeCab”来针对文本文件14a所指示的语句执行词法分析，并且将语句分割成词素。分割单元15b将分割的词素认为是词，以将语句分割成词。在下文中，将会描述将词素认为是词的例子。然而，多个词素，例如包括词干、变形末尾(conjugational ending)和辅助动词的三个词素，可以被认为是一个词。例如，如果三个词素是词干“通”、变形末尾“し”和辅助动词“たい”，则“通したい”可以被认为是一个词。进一步，分割单元15b可以使用上面提到的软件“ChaSen”或“MeCab”来获得针对每一个词的阅读信息。换言之，分割单元15b将语句分割成词，并且获取词的阅读信息。当由分割单元15b获得的词的总数为M时，语句的首词成为第一个词，并且语句的最后一词成为第M词。

例如，如果文本文件14a所指示的语句是“在日本众议院中审议修改法律。首相山川提到他想要通过法案”，则分割单元15b将第一个语句“在日本众议院中审议修改法律”分割成词如下，并且获取词的阅读信息。换言之，分割单元15b将语句分割成词如下：“日本众议院+しゆうぎいん/中+で/修改法律+かいせいほう/在+が/审议+しんぎいり”，并且获取词的阅读信息。这里，“/”是指示词的间隔位置的符号，而“+”则是将词与对应于该词的阅读信息相连接的符号。进一步，分割单元15b还将语句“首相山川提到他想要通过法案”分割成词如下，并且获取词的阅读信息。亦即，分割单元15b将语句分割成词如下：“山川+やまかわ/総理+そうり/が+が/法案+ほうあん/を+を/通+とぉ/し+し/たい+たい”，并且获取词的阅读信息。

生成单元15c生成位置信息，其指示由分割单元15b分割的词在语句中的位置。另外，生成单元15c生成对于每个词而言连续的1至（N-1）个词的词串。生成单元15c生成指示词串在语句中的位置的位置信息。

描述特定的例子。例如，生成单元15c初始化位置信息n、变量i和变量j的值。换言之，生成单元15c将位置信息n的值设置为0，并且分别将变量i和j的值设置为1和0。生成单元15c生成从第i词至第（i+j）词的词串。如果j=0，则第i词被认为是词串，并且执行以下处理。进一步，如果第（i+k；k≤j）词不存在，则生成单元15c将第（i+k）词处理为空格，并且生成从第i词至第（i+j）词的词串。

进一步，如果重新生成的词串、阅读信息和位置信息n的值由存储单元15d登记在词典14b中，则生成单元15c将变量j的值增加1，并且将位置信息n的值增加1。生成单元15c判断变量j的值是否小于最大耦合数N，该最大耦合数N是词串中耦合的词的数目的最大值。如果变量j的值小于最大耦合数N，则生成单元15c再次生成从第i词至第（i+j）词的词串，并且执行与上面提到的处理相同的处理。

与此形成对照，如果变量j的值大于最大耦合数N，则生成单元15c将变量i的值增加1，并且将变量j的值设置为0。接着，生成单元15c判断变量i的值是否小于总词数M，该总词数M是由分割单元15b获得的词的总数。如果变量i的值小于总词数M，则生成单元15c再次生成从第i词至第（i+j）词的词串，并且执行与上面提到的处理相同的处理。

存储单元15d将词与词串、相应的阅读信息以及相应的位置信息n存储在存储器单元14中，以便彼此相关联。描述特定的例子。例如，当生成单元15c生成从第i词至第（i+j）词的词串时，存储单元15d执行以下处理。亦即，存储单元15d将重新生成的词串、与重新生成的词串相对应的阅读信息和位置信息n的值登记在词典14b的“书写”部、“阅读信息”部和“位置信息”部中。如果标点符号“。”或间隔包括在重新生成的词串的词中，则存储单元15d可以省略将词串、阅读信息和位置信息n的值登记在词典14b中的处理。这是因为当标点符号“。”或间隔包括在词串的词中时，在识别语音时作为与语音比较的目标该词串并不适合。因此，在存储单元15d中，生成词典14b的速度变得更快。进一步，存储单元15d可以生成信息量减少的词典14b。

如上所述，词典14b由生成单元15c和存储单元15d生成。例如，当文本文件14a所指示的语句为“在日本众议院中审议修改法律。首相山川提到他想要通过法案”时，生成如图3的例子所示的词典14b。在图3的例子中，最大耦合数N的值为3。进一步，图3的例子图示了包括指示标点符号或间隔的词的词串也登记在词典14b中，这是为了描述方便。在图3的例子中，关于与包括指示标点符号或间隔的词的词串相对应的记录，符号“（”附接到“书写”部中登记的词串的首部。然而，与符号“（”所附接的词串相对应的记录没有登记在词典14b中。换言之，存储单元15d将多至总词数M×最大耦合数N－Σn（n=1,2，...,N－1）的记录登记在词典14b中。因此，可以生成信息量减少的词典14b。

进一步，最大耦合数N的值优选地根据阅读长度，这允许识别语音的识别装置20的更好识别精度。例如，当允许更好识别精度的阅读长度为八个音节并且词的平均音节长度为三时，8/3=2.6...。因此，最大耦合数N的值优选地为2或3。在以下描述中，将会描述当最大耦合数N的值为3时的例子。然而，最大耦合数N的值不限于此。

另外，如果从识别装置20接收到对词典14b的传送请求，则存储单元15d从存储器单元14中读取词典14b，并且将词典14b传送到通信单元13。已接收到词典14b的通信单元13通过网络30将词典14b传送到识别装置20。

控制器15是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

识别装置的功能配置的例子

图4是图示根据第一实施例的识别装置的功能配置例子的示图。在图4的例子中，识别装置20包括语音输入单元21、输出单元22、通信单元23、存储器单元24和控制器25。

语音输入单元21对由发声者如用户发出的语音进行A/D转换，并且将语音输入到控制器25作为语音信号。语音输入单元21的装置的例子包括麦克风。

输出单元22输出各种信息。例如，当从控制器25输入指示作为语音识别结果的字符串的图像时，输出单元22显示图像。输出单元22的装置的例子包括阴极射线管（CRT）或液晶显示器。

通信单元23是用于与生成装置10通信的网络接口。例如，当从控制器25接收到关于将词典14b传送到识别装置20的生成装置10的传送请求时，通信单元23经由网络30将传送请求传送到生成装置10。进一步，当从生成装置10接收到词典14b时，通信单元23将接收到的词典14b传送到控制器25。

存储器单元24存储词典14b和字符串24a。

词典14b由下面将会描述的第一计算单元26a从生成装置10中获取并存储在存储器单元24中。进一步，字符串24a由下面将会描述的确定单元26c确定为对应于输入语音信号的字符串，作为语音识别的结果，并且由下面将会描述的输出单元27存储在存储器单元24中。

进一步，存储器单元24存储声学模型如隐藏马尔可夫模型，其对应于词典14b的“阅读信息”部中登记的阅读信息。当语音被识别以计算相似度（概率值）时，将声学模型与语音信号相比较。

存储器单元24例如是半导体存储装置如快闪存储器或者诸如硬盘或光盘之类的存储装置。进一步，存储器单元24不限于上面提到的存储装置，而可以是随机存取存储器（RAM）或只读存储器（ROM）。

控制器25包括用于存储程序或控制数据的内部存储器，所述程序或控制数据定义各种过程以执行各种处理。控制器25包括检验单元26和输出单元27。

检验单元26将输入的语音信号与和词典14b中登记的阅读信息的多个组合相对应的声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度。如果阅读信息的数目为1，则“阅读信息的组合”指示阅读信息。如果阅读信息的数目为多个，则“阅读信息的组合”指示当阅读信息按顺序排列以连接单独的阅读信息时的字符串。通过改变排列顺序可以改变阅读信息的组合。“声学模型的组合”与上面相同。进一步，基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息，检验单元26执行以下处理。亦即，关于与多个组合的阅读信息相对应的词或字符串，检验单元26针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度。检验单元26将与超过阈值并且在多个计算的和数当中具有最大值的和数相对应的字符串确定为对应于语音信号的字符串。因此，即使当连接包括在语句中但在语句中没有彼此相邻的多个词的字符串由发声者发出以作为语音信号输入时，根据检验单元26，也可以识别发声者发出的语音。因此，根据检验单元26，可以精确地识别语音。

检验单元26包括第一计算单元26a、第二计算单元26b和确定单元26c。

第一计算单元26a将输入的语音信号与和连接词典14b中登记的多个词和词串的字符串的阅读信息相对应的声学模型相比较以计算相似度。

描述特定的例子。例如，当通过识别装置20中提供的操纵接收装置（未图示）如键盘或鼠标从用户接收到执行识别处理的指令时，第一计算单元26a执行以下处理。亦即，第一计算单元26a将关于将词典14b传送到识别装置20的生成装置10的传送请求传送到通信单元23。接着，第一计算单元26a判断是否从生成装置10接收到词典14b。当接收到词典14b时，第一计算单元26a将接收到的词典14b存储在存储器单元24中。

其后，第一计算单元26a判断是否通过语音输入单元21接收到语音信号。当接收到语音信号时，第一计算单元26a将语音信号分割成帧。第一计算单元26a判断是否对全部帧都执行了下面描述的处理。如果存在未处理的帧，则第一计算单元26a相对于未处理的帧生成词典14b中登记的阅读信息的多个组合，并且生成与多个生成的组合相对应的声学模型的组合。

进一步，第一计算单元26a将帧与声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度。

第二计算单元26b参考词典14b，并且基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息而执行以下处理。换言之，关于与多个组合的阅读信息相对应的词或字符串，第二计算单元26b针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度。

将会描述由第二计算单元26b执行的计算连接得分的方法的例子。这里，假定图3的例子中图示的词典14b存储在存储器单元24中。当第一计算单元26a计算相似度时，第二计算单元26b指定被用来与语音信号相比较的声学模型的全部组合。第二计算单元26b参考词典14b，并且针对每一个指定的声学模型指定相应阅读信息的组合。接着，第二计算单元26b参考词典14b，并且针对全部指定的阅读信息的每一个组合获取与组合的阅读信息相对应的位置信息。

其后，第二计算单元26b判断与组合的阅读信息相对应的位置信息所指示的值是否从头开始呈升序。例如，如果组合的阅读信息是“しゆぅぎいん”、“で”和“かいせいほぅ”，则图3的例子中图示的词典14b中登记的位置信息分别是“0”、“3”和“6”。因此，第二计算单元26b判断值呈升序。进一步，如果组合的阅读信息是“しゆうぎいんで”、“で”和“かいせいほぅ”，则图3的例子中图示的词典14b中登记的位置信息分别是“1”、“3”和“6”。因此，第二计算单元26b判断值呈升序。如果组合的阅读信息是“しゆうぎいん”、“かいせいほう”和“で”，则图3的例子中图示的词典14b中登记的位置信息是“0”、“6”和“3”。因此，第二计算单元26b判断值不呈升序。如果组合的阅读信息是“しゆうぎいん”、“かいせいほう”和“しんぎいり”，则图3的例子中图示的词典14b中登记的位置信息是“0”、“6”和“13”。因此，第二计算单元26b判断值呈升序。

接着，第二计算单元26b对其中位置信息所指示的值被判断为呈升序的组合执行以下处理。具体地，在组合的阅读信息当中，与两个耦合的阅读信息、亦即相邻阅读信息之间更接近于首部的阅读信息相对应的位置信息所指示的值被代入到变量x中，并且与更远离首部的阅读信息相对应的位置信息所指示的值被代入到变量y中。因此，第二计算单元26b基于以下方程（1）和（2）来计算X和Y。

X=(x/N)+(x％N)+1(1)

Y=(y/N)(2)

这里，N是上面提到的最大耦合数。进一步，“/”指的是用于通过舍入到整数获得整数余数的除法运算。“%”指的是余数运算。

例如，如果组合的阅读信息是“しゆぅぎいん”、“で”和“かいせいほぅ”，则位置信息分别是“0”、“3”和“6”。因此，关于“しゆぅぎいん”和“で”的相邻阅读信息，通过分别将“0”和“3”代入到变量x和y中来计算X和Y。进一步，关于“で”和“かいせいほぅ”的相邻阅读信息，通过分别将“3”和“6”代入到变量x和y中来计算X和Y。进一步，如果组合的阅读信息是“しゆぅぎいんで”、“で”和“かいせいほぅ”，则位置信息分别是“1”、“3”和“6”。因此，关于“しゆぅぎいんで”和“で”的相邻阅读信息，通过分别将“1”和“3”代入到变量x和y中来计算X和Y。进一步，关于“で”和“かいせいほぅ”的相邻阅读信息，通过分别将“3”和“6”代入到变量x和y中来计算X和Y。

针对其中位置信息所指示的值被判断为呈升序的组合中包括的全部相邻阅读信息，第二计算单元26b执行如上所述的计算X和Y的处理。

接着，如果X＞Y，则认为相同的阅读信息（对应于阅读信息的词或字符串）重复地用于相邻阅读信息，这样一来上述相邻阅读信息的组合就不合适。因此，第二计算单元26b向连接得分赋予最低点。例如，当连接得分为0至30点时，第二计算单元26b赋予0点。当位置信息为“1”和“3”的“しゆぅぎいんで”和“で”被组合作为相邻阅读信息时，X=2并且Y=1，而且与“中”的阅读信息相对应的词“で”重叠。因此，第二计算单元26b向连接得分赋予0点。

进一步，如果X=Y，则认为由于词或字符串在输入的文本文件14a所指示的语句中相邻，所以认为阅读信息的组合合适。因此，第二计算单元26b向连接得分赋予最高点。例如，如果连接得分为0至30点，则第二计算单元26b赋予30点。如果位置信息为“0”和“3”的“しゆうぎいん”和“で”被组合作为相邻阅读信息，则X=Y=1，并且第二计算单元26b向连接得分赋予30点。另外，如果位置信息为“3”和“6”的“で”和“かいせいほぅ”被组合作为相邻阅读信息，则X=Y=2，并且第二计算单元26b向连接得分赋予30点。

进一步，如果X＜Y，则认为随着Y－X的值变得越小，对应于两个相邻阅读信息的词或字符串在文本文件14a所指示的语句中离得越近。因此，第二计算单元26b向连接得分赋予某个点，使得Y－X的值越小，连接得分越大。例如，如果连接得分为0至30点，则第二计算单元26b使用MAX(0,30－(Y－X))。这里，MAX(A,B)是选择A和B之间较大值的函数。

第二计算单元26b针对其中如上所述计算X和Y的所有相邻阅读信息计算连接得分。

另外，尽管作为例子描述了第二计算单元26b仅针对当位置信息呈升序时的组合计算连接得分，但是上面描述的装置不限于此。例如，如果位置信息呈降序，则第二计算单元26b可以执行以下处理。具体地，关于组合的阅读信息当中的相邻阅读信息，与更接近于首部的阅读信息相对应的位置信息所指示的值可以被代入到变量y中，并且与更远离首部的阅读信息相对应的位置信息所指示的值可以被代入到变量x中。在这种情况下，预定的点、例如3点可以从计算的X和Y中扣除，使得升序的连接得分不同于降序的连接得分。因此，连接得分不仅可以在升序中计算，而且还可以在降序中计算，使得当与在计算相似度时组合的阅读信息相对应的词或字符串在文本文件14a所指示的语句中彼此接近时，可以计算高点的连接得分。例如，当文本文件14a所指示的语句是“在日本众议院中审议修改法律。首相山川提到他想要通过法案”时，相对于词序与说“首相山川想要通过的修改法律”的文本文件14a所指示的语句不同的词或字符串的组合，同样根据词之间的接近度来计算连接得分。因此，即使当发声者发出“首相山川想要通过的修改法律”时，也可以识别语音。

确定单元26c基于相似度和连接得分来确定与输入的语音信号相对应的字符串。例如，针对当计算相似度时使用的声学模型的每一个组合，亦即针对与声学模型的组合相对应的阅读信息的每一个组合，确定单元26c计算相应相似度和相应连接得分之和。确定单元26c判断在多个计算的和数当中是否存在超过阈值的和数。如果存在超过阈值的和数，则与超过阈值的和数当中的最大和数相对应的字符串被确定为对应于语音信号的字符串。通过这样做，确定单元26c针对每个帧确定字符串。

输出单元27将针对每个帧确定的字符串传送到输出单元22，以便将字符串显示在屏幕上作为语音的识别结果。进一步，输出单元27将针对每个帧确定的字符串存储在存储器单元24中。存储器单元24中存储的字符串是用标号24a指示的字符串。

控制器25是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

处理的流程

接下来描述根据实施例的生成装置10的处理的流程。图5是图示根据第一实施例的生成处理序列的流程图。当执行生成处理的指令从输入单元11输入到控制器15时执行生成处理。

如图5所示，分割单元15b将文本文件14a所指示的语句分割成词（S101）。生成单元15c将位置信息n的值设置为0，并且分别将变量i和j的值设置为1和0（S102）。生成单元15c生成从第i词至第（i+j）词的词串（S103）。

存储单元15d将重新生成的词串、与重新生成的词串相对应的阅读信息和位置信息n的值分别登记在词典14b的“书写”部、“阅读信息”部和“位置信息”部中（S104）。生成单元15c将变量j的值增加1，并且将位置信息n的值增加1（S105）。生成单元15c判断变量j的值是否小于最大耦合数N，该最大耦合数N是词串中耦合的词的数目的最大值（S106）。如果变量j的值小于最大耦合数N（在S106中为是），则过程返回到步骤S103。

与此形成对照，如果变量j的值大于最大耦合数N（在S106中为否），则生成单元15c将变量i的值增加1，并且将变量j的值设置为0（S107）。生成单元15c判断变量i的值是否小于总词数M，该总词数M是由分割单元15b获得的词的总数（S108）。如果变量i的值小于总词数M（在S108中为是），则过程返回到步骤S103。与此形成对照，如果变量i的值大于总词数M（在S108中为否），则处理完成。

接下来描述根据实施例的识别装置20的处理的流程。图6是图示根据第一实施例的识别处理序列的流程图。当从操纵接收单元（未图示）向控制器25接收执行识别处理的指令时执行识别处理。

如图6所示，第一计算单元26a将关于将词典14b传送到识别装置20的生成装置10的传送请求传送到通信单元23（S201）。接着，第一计算单元26a判断是否从生成装置10接收到词典14b（S202）。当没有接收到词典14b时（在S202中为否），第一计算单元26a再次执行上面的判断。当接收到词典14b时（在S202中为是），第一计算单元26a将接收到的词典14b存储在存储器单元24中（S203）。

第一计算单元26a判断是否通过语音输入单元21接收到语音信号（S204）。当没有接收到语音信号时（在S204中为否），第一计算单元26a再次执行上面的判断。在此期间，当接收到语音信号时（在S204中为是），第一计算单元26a将语音信号分割成帧（S205）。第一计算单元26a判断是否对全部帧都执行了以下处理S207或稍后的处理（S206）。如果不存在未处理的帧（在S206中为是），则处理完成。如果存在未处理的帧（在S206中为否），则第一计算单元26a执行以下处理。亦即，第一计算单元26a相对于未处理的帧生成词典14b中登记的阅读信息的多个组合，并且生成与多个生成的组合相对应的声学模型的组合（S207）。

第一计算单元26a将帧与声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度（S208）。

第二计算单元26b参考词典14b，并且基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息而执行以下处理。换言之，关于与多个组合的阅读信息相对应的词或字符串，第二计算单元26b针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度（S209）。

针对当计算相似度时使用的声学模型的每一个组合，亦即针对与声学模型的组合相对应的阅读信息的每一个组合，确定单元26c计算相应相似度和相应连接得分之和（S210）。确定单元26c判断在多个计算的和数当中是否存在超过阈值的和数（S211）。如果不存在超过阈值的和数（在S211中为否），则过程返回到步骤S206。如果存在超过阈值的和数（在S211中为是），则确定单元26c将与超过阈值的和数当中的最大和数相对应的字符串确定为对应于语音信号的字符串（S212）。

输出单元27将针对每个帧确定的字符串传送到输出单元22，以便将字符串显示在屏幕上作为语音的识别结果，并且将针对每个帧确定的字符串存储在存储器单元24中（S213），并且处理完成。

第一实施例的效果

如上所述，识别装置20将输入的语音信号与和词典14b中登记的阅读信息的多个组合相对应的声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度。进一步，基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息，识别装置20执行以下处理。亦即，关于与多个组合的阅读信息相对应的词或字符串，识别装置20针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度。识别装置20将与多个计算的和数当中的超过阈值的最大和数相对应的字符串确定为对应于语音信号的字符串。根据识别装置20，即使当发声者发出连接包括在语句中但在语句中没有彼此相邻的多个词的字符串并且字符串被输入作为语音信号时，也可以识别发声者发出的语音。因此，根据识别装置20，可以精确地识别语音。

进一步，生成装置10可以生成词典14b，以便允许识别装置20精确地识别语音。

另外，由于生成装置10将多至总词数M×最大耦合数N－Σn（n=1,2，...,N－1）的记录登记在词典14b中，所以可以生成信息量减少的词典14b。

[b]第二实施例

在第二实施例中，描述了其中针对文本文件14a中包括的语句的每一个短语登记标识符的词典44b被生成，并且使用词典44b针对每一个短语计算连接得分。

生成装置40的功能配置

图7是图示根据第二实施例的生成装置的功能配置例子的示图。如图7所示，生成装置40包括存储器单元14和控制器45。控制器45包括生成单元45c和存储单元45d，其不同于图2所示的根据第一实施例的控制器15。进一步，存储器单元14存储词典44b，其不同于根据第一实施例的存储器单元14。在下文中，与图2相同的标号指示具有与第一实施例相同的功能的单元，并且将会省略其描述。

词典14b由下面将会描述的生成单元45c生成，然后由下面将会描述的存储单元45d存储在存储器单元14中。

图8是图示词典的例子的示图。在图8的例子中，除了与第一实施例相同的“书写”部、“阅读信息”部和“位置信息”部之外，词典44b还具有“短语标识符”部。在“短语标识符”部中，登记了用于标识短语的标识符。由生成单元45c生成这些部的内容。

图8的例子图示了在第一个记录中，由文本文件“海山学院前进到决赛。首相山川提到他想要通过法案”指示的语句中包括的词“决赛”登记在“书写”部中。进一步，图8的例子图示了在第一个记录中，作为决赛的阅读方法的“けつしよぅ”登记在“阅读信息”部中。进而，图8的例子图示了在第一个记录中，指示词“决赛”在语句中的位置的位置信息“0”登记在“位置信息”部中。图8的例子图示了在第一个记录中，包括词“决赛”的短语的标识符“10”登记在“短语标识符”部中。

生成单元45c生成位置信息，其指示由分割单元15b分割的词在语句中的位置。另外，生成单元45c生成对于每个词而言连续的1至（N-1）个词的词串。生成单元45c生成指示词串在语句中的位置的位置信息。进一步，生成单元45c生成标识信息，用于标识包括分割的词的短语。

描述特定的例子。例如，生成单元45c首先初始化位置信息n、变量i、变量j和变量s的值。换言之，生成单元45c将位置信息n的值设置为0，并且分别将变量i、j和s的值设置为1、0和10。生成单元45c生成从第（i－j）词至第i词的词串。如果j=0，则第i词被认为是词串，并且执行以下处理。进一步，如果第（i－w；w≤j）词不存在，则生成单元45c将第（i－w）词处理为空格，并且生成从第（i－j）词至第i词的词串。

进一步，如果重新生成的词串、阅读信息、位置信息n的值和短语标识符s的值由存储单元45d登记在词典44b中，则生成单元45c将变量j的值增加1，并且将位置信息n的值增加1。生成单元45c判断变量j的值是否小于最大耦合数N，该最大耦合数N是词串中耦合的词的数目的最大值。如果变量j的值小于最大耦合数N，则生成单元45c再次生成从第i词至第（i+j）词的词串，并且执行与上面提到的处理相同的处理。

在此期间，如果变量j的值大于最大耦合数N，则生成单元45c判断第i词是否是指示语句分开的符号例如标点符号“。”。如果第i词是指示语句分开的符号，则生成单元45c将变量s的值增加1。生成单元45c将变量i的值增加1，并且将变量j的值设置为0。接着，生成单元45c判断变量i的值是否小于总词数M，该总词数M是由分割单元15b获得的词的总数。如果变量i的值小于总词数M，则生成单元45c再次生成从第（i－j）词至第i词的词串，并且执行与上面提到的处理相同的处理。

存储单元45d将词与词串、相应的阅读信息、相应的位置信息n以及短语标识符s存储在存储器单元14中，以便彼此相关联。描述特定的例子。例如，当生成单元45c生成从第（i－j）词至第i词的词串时，存储单元45d执行以下处理。亦即，存储单元45d将重新生成的词串、与重新生成的词串相对应的阅读信息、位置信息n的值和短语标识符s的值分别登记在词典44b的“书写”部、“阅读信息”部、“位置信息”部和“短语标识符”部中。如果标点符号“。”或间隔包括在重新生成的词串的词中，则存储单元45d可以省略将词串、阅读信息、位置信息n的值和短语标识符s登记在词典44b中的处理。这是因为当标点符号“。”或间隔包括在词串的词中时，在识别语音时作为与语音比较的目标该词串并不适合。因此，根据存储单元45d，生成词典44b的速度变得更快。进一步，根据存储单元45d，可以生成信息量减少的词典44b。

如上所述，词典44b由生成单元45c和存储单元45d生成。例如，当文本文件14a所指示的语句为“海山学院前进到决赛。首相山川提到他想要通过法案”时，生成如图8的例子所示的词典44b。在图8的例子中，最大耦合数N的值为3。存储单元45d将多至总词数M×最大耦合数N－Σn（n=1,2，...,N－1）的记录登记在词典44b中。因此，可以生成信息量减少的词典44b。

进一步，如果从下面将会描述的识别装置50接收到对词典44b的传送请求，则存储单元45d从存储器单元14中读取词典44b，并且将词典44b传送到通信单元13。已接收到词典44b的通信单元13通过网络30将词典44b传送到下面将会描述的识别装置50。

控制器45是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

识别装置50的功能配置

图9是图示根据第二实施例的识别装置的配置例子的示图。如图9所示，识别装置50包括存储器单元24和控制器55。控制器55包括检验单元56的第二计算单元56b，其不同于图4所示的根据第一实施例的控制器25。进一步，存储器单元24存储词典44b，其不同于根据第一实施例的存储器单元24。在下文中，与图4相同的标号指示具有与第一实施例相同的功能的单元，并且将会省略其描述。

词典44b由第一计算单元26a存储在存储器单元24中。

如下所述，尽管第二计算单元56b具有与第一实施例的第二计算单元26b几乎相同的功能，但是第二计算单元56b不同于第一实施例的第二计算单元26b。第二计算单元56b参考词典44b，并且仅针对具有相同短语标识符的阅读信息判断位置信息所指示的值是否呈升序，这类似于第一实施例。第二计算单元56b对其中位置信息所指示的值被判断为呈升序的组合执行以下处理。具体地，在组合的阅读信息当中，与两个耦合的阅读信息、亦即相邻阅读信息之间更接近于首部的阅读信息相对应的位置信息所指示的值被代入到变量x中，并且与更远离首部的阅读信息相对应的位置信息所指示的值被代入到变量y中。因此，第二计算单元56b基于以下方程（3）和（4）来计算X和Y。

X=(x/N)+1(3)

Y=(y/N)–(y％N)(4)

这里，N是上面提到的最大耦合数。进一步，“/”指的是用于通过舍入到整数来获得整数余数的除法运算。“%”指的是余数运算。

比较X和Y以及计算连接得分的方法与第一实施例相同。

如上所述，第二计算单元56b仅在相同的短语中计算连接得分。因此，由于当语句具有不同内容时不计算连接得分，所以可以更加精确地识别语音。

控制器55是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

处理的流程

接下来描述根据实施例的生成装置40的处理的流程。图10是图示根据第二实施例的生成处理序列的流程图。当执行生成处理的指令从输入单元11输入到控制器45时执行生成处理。

如图10所示，分割单元15b将文本文件14a所指示的语句分割成词（S301）。生成单元45c将位置信息n的值设置为0，并且分别将变量i、j和s的值设置为1、0和10（S302）。生成单元45c生成从第（i－j）词至第i词的词串（S303）。

存储单元45d将重新生成的词串、与重新生成的词串相对应的阅读信息、位置信息n的值和短语标识符s的值登记在词典44b的“书写”部、“阅读信息”部、“位置信息”部和“短语标识符”部中（S304）。生成单元45c将变量j的值增加1，并且将位置信息n的值增加1（S305）。生成单元45c判断变量j的值是否小于最大耦合数N，该最大耦合数N是词串中耦合的词的数目的最大值（S306）。如果变量j的值小于最大耦合数N（在S306中为是），则过程返回到步骤S303。

与此形成对照，如果变量j的值大于最大耦合数N（在S306中为否），则生成单元45c判断第i词是否是指示语句分开的符号例如标点符号“。”（S307）。如果第i词是指示语句分开的符号（在S307中为是），则生成单元45c将变量s的值增加1（S308）。生成单元45c将变量i的值增加1，并且将变量j的值设置为0（S309）。生成单元45c判断变量i的值是否小于总词数M，该总词数M是由分割单元15b获得的词的总数（S310）。如果变量i的值小于总词数M（在S310中为是），则过程返回到步骤S303。与此形成对照，如果变量i的值大于总词数M（在S310中为否），则处理完成。进一步，如果第i词不是指示语句分开的符号（在S307中为否），则过程前进到S309。

接下来描述根据实施例的识别装置50的处理的流程。图11是图示根据第二实施例的识别处理序列的流程图。当从操纵接收单元（未图示）向控制器55输入执行识别处理的指令时执行识别处理。

由于图11中图示的步骤S401至S408和S410至S413是与上面描述的步骤S201至S208和S210至S213相同的处理，所以将会省略其描述。如图11所示，第二计算单元56b参考词典44b，并且仅计算具有相同短语标识符的阅读信息之间的连接得分（S409）。

第二实施例的效果

如上所述，识别装置50将输入的语音信号与和词典44b中登记的阅读信息的多个组合相对应的声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度。进一步，基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息，识别装置50执行以下处理。亦即，关于与多个组合的阅读信息相对应的词或字符串，识别装置50针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度。识别装置50将与多个计算的和数当中的超过阈值的最大和数相对应的字符串确定为对应于语音信号的字符串。根据识别装置50，即使当发声者发出连接包括在语句中但在语句中没有彼此相邻的多个词的字符串并且字符串被输入作为语音信号时，也可以识别发声者发出的语音。因此，根据识别装置50，可以精确地识别语音。

进一步，生成装置40可以生成词典44b，以便允许识别装置50精确地识别语音。

另外，由于生成装置40将多至总词数M×最大耦合数N－Σn（n=1,2，...,N－1）的记录登记在词典44b中，所以可以生成信息量减少的词典44b。

进而，根据识别装置50，仅在相同的语句中计算连接得分。因此，由于当语句具有不同内容时不计算连接得分，所以可以更加精确地识别语音。

[第三实施例]

在第三实施例中，描述了使用预定的自动机来校正连接得分。

识别装置60的功能配置

图12是图示根据第三实施例的识别装置的功能例子的示图。如图12所示，识别装置60包括存储器单元24和控制器65。控制器65包括检验单元66的第二计算单元66b，其不同于图4所示的根据第一实施例的控制器25。进一步，存储器单元24存储词典64b。词典64b与根据第一实施例的词典14b和根据第二实施例的词典44b相同。存储器单元24存储语言模型64c和词词典64d。在下文中，与图4和9相同的标号指示具有与第一和第二实施例相同的功能的单元，并且将会省略其描述。

词典64b由第一计算单元26a存储在存储器单元24中。

图13是图示语言模型的例子的示图。在图13的例子中，语言模型64c是自动机。图13的例子图示了如果诸如“关于大约”、“涉及”或“大约”之类的字符串被添加到任意词或字符串，则状态1过渡到状态2。进一步，图13的例子图示了如果诸如“新闻”、“评论”、“博客”或“主题”之类的词被添加到状态2中的“关于大约”、“涉及”或“大约”的字符串，则状态2过渡到最终状态。进一步，图13的例子图示了如果诸如“搜索”或“之新闻”之类的字符串被添加到任意词，则状态1过渡到最终状态。

图14是图示词词典的例子的示图。在图14的例子中，词词典64d具有“书写”部和“阅读信息”部。在图14的例子的词词典64d中，当语言模型64c所指示的状态被过渡时的词或字符串的书写和阅读信息被登记以便彼此相关联。

如下所述，第二计算单元66b具有第一实施例的第二计算单元26b或第二实施例的第二计算单元56b的功能，但是不同于第二计算单元26b和56b。具体地，第二计算单元66b计算连接得分，这与第一和第二实施例相同。但是，第二计算单元66b基于语言模型64c和词词典64d来校正连接得分，这不同于第一和第二实施例。

例如假定针对组合的阅读信息“けつしよぅにぅみやまがくいんがしんしゆつ”（书写：海山学院前进到决赛）的连接得分S被计算。在这种情况下，第二计算单元66b参考语言模型64c和词词典64d，但是并不校正连接得分S，因为组合的阅读信息的状态是“状态1”。

进一步，例如，假定针对组合的阅读信息“けつしよぅにぅみやまがくいんがしんしゆつのニユ一ス”（书写：海山学院前进到决赛之新闻）的连接得分Q被计算。在这种情况下，第二计算单元66b校正针对与过渡到最终状态之前的状态1相对应的阅读信息“けつしよぅにぅみやまがくいんがしんしゆつ”而计算的连接得分S而不是连接得分Q。例如，第二计算单元66b参考语言模型64c和词词典64d，并且通过将预定值添加到连接得分S来校正连接得分，因为与组合的阅读信息相对应的状态从“状态1”过渡到“最终状态”。另外，可以通过将预定值例如指示100%的值相乘到连接得分S来校正连接得分。

进一步，例如，假定针对组合的阅读信息“やまかわそぅりがとぉしたいほうあん”（书写：首相山川想要通过的修改法律）的连接得分S’被计算。在这种情况下，第二计算单元66b参考语言模型64c和词词典64d，但是并不校正连接得分S’，因为与组合的阅读信息相对应的状态是“状态1”。

进一步，例如，假定针对组合的阅读信息“やまかわそぅりがとぉしたいほぅあんについてのブログ”（书写：关于首相山川想要通过的修改法律的博客）的连接得分Q’被计算。在这种情况下，第二计算单元66b校正针对与从状态1过渡到状态2并且从状态2过渡到最终状态之前的状态1相对应的阅读信息“やまかわそぅりがとぉしたいほぅあん”而计算的连接得分S’而不是连接得分Q’。例如，第二计算单元66b参考语言模型64c和词词典64d，并且通过将预定值两次添加到连接得分S’来校正连接得分，因为与组合的阅读信息相对应的状态从“状态1”过渡到“状态2”，并且从“状态2”过渡到“最终状态”。另外，可以通过将预定值例如指示100%的值两次相乘到连接得分S来校正连接得分。

控制器65是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

处理的流程

接下来描述根据实施例的识别装置60的处理的流程。图15是图示根据第三实施例的识别处理序列的流程图。当从操纵接收单元（未图示）向控制器65输入执行识别处理的指令时执行识别处理。

由于图15中图示的步骤S501至S509和S511至S514是与上面描述的步骤S401至S413或步骤S201至S213相同的处理，所以将会省略其描述。如图15所示，第二计算单元66b参考语言模型64c和词词典64d，并且当状态被过渡时，校正在状态1中计算的连接得分（S510）。

第三实施例的效果

如上所述，识别装置60将输入的语音信号与和词典64b中登记的阅读信息的多个组合相对应的声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度。进一步，基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息，识别装置60执行以下处理。亦即，关于与多个组合的阅读信息相对应的词或字符串，识别装置60针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度。识别装置60将与多个计算的和数当中的超过阈值的最大和数相对应的字符串确定为对应于语音信号的字符串。根据识别装置60，即使当发声者发出连接包括在语句中但在语句中没有彼此相邻的多个词的字符串并且字符串被输入作为语音信号时，也可以识别发声者发出的语音。因此，根据识别装置60，可以精确地识别语音。

进一步，根据本实施例的生成装置可以生成词典64b，以便允许识别装置60精确地识别语音。

另外，由于根据本实施例的生成装置将多至总词数M×最大耦合数N－Σn（n=1,2，...,N－1）的记录登记在词典64b中，所以可以生成信息量减少的词典64b。

进而，根据识别装置60，仅在相同的语句中计算连接得分。因此，由于当短语具有不同内容时不计算连接得分，所以可以更加精确地识别语音。

此外，根据识别装置60，使用诸如自动机之类的语言模型来校正连接得分，使得通过将特定发声模式登记在语言模型中，可以改进特定发声模式的识别率。

[第四实施例]

在第四实施例中，描述了使用如下信息来校正连接得分，所述信息指示连接阅读信息（与阅读信息相对应的词或字符串）的组合中的两个相邻阅读信息的连接部分的两个词类是否恰当。

生成装置70的功能配置

图16是图示根据第四实施例的生成装置的配置例子的示图。如图16所示，生成装置70包括存储器单元14和控制器75。控制器75包括生成单元75c和存储单元75d，其不同于图2所示的根据第一实施例的控制器15。进一步，存储器单元14存储词典74b和词类号码表74c，其不同于根据第一实施例的存储器单元14。在下文中，与图2和7相同的标号指示具有与第一、第二和第三实施例相同的功能的单元，并且将会省略其描述。

词典74b由下面将会描述的生成单元75c生成，然后由下面将会描述的存储单元75d存储在存储器单元14中。

图17是图示词类号码表的例子的示图。图17的例子图示了在词类号码表74c中，如果首词的词类是名词并且尾词的词类是名词，则词类号码为“1”。

图18是图示词典的例子的示图。在图18的例子中，除了与第一实施例相同的“书写”部、“阅读信息”部和“位置信息”部之外，词典74b还具有“词类号码”部。在“词类号码”部中，登记了词类号码，该词类号码是指示“书写”部中登记的词或词串的首词的词类和尾词的词类之组合的号码。词类号码由下面将会描述的生成单元75c从词类号码表74c中获取，并且由下面将会描述的存储单元75d登记在词典74b中。

通过参考词类号码表74c，关于分割的词或生成的词串，生成单元75c获取指示首词的词类和尾词的词类之组合的词类号码。

除了第一至第三实施例的存储单元中的任何一个的功能之外，存储单元75d还具有以下功能。换言之，存储单元75d将由生成单元75c获取的词类号码登记在词典74b的“词类号码”部中。

控制器75是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

识别装置80的功能配置

图19是图示根据第四实施例的识别装置的配置例子的示图。如图19所示，识别装置80包括存储器单元24和控制器85。控制器85包括检验单元86的第二计算单元86b，其不同于图4所示的根据第一实施例的控制器25。进一步，存储器单元24存储词典74b和概率表84a，其不同于根据第一实施例的存储器单元24。在下文中，与图4、9和12相同的标号指示具有与第一至第三实施例相同的功能的单元，并且将会省略其描述。

词典74b由第一计算单元26a存储在存储器单元24中。

图20是图示概率表的例子的示图。在图20的例子的概率表84a中，纵轴表示两个词或两个词串或词和词串的组合当中在前面的词或词串的词类号码。进一步，在图20的例子的概率表84a中，水平轴表示两个词或两个词串或词和词串的组合当中在后面的词或词串的词类号码。在图20的例子的概率表84a中，如果前词的词类号码为1并且后词的词类号码为1，则登记100%的概率。

如下所述，尽管第二计算单元86b具有与第一至第三实施例中的任何一个的第二计算单元几乎相同的功能，但是第二计算单元86b不同于第一至第三实施例中的任何一个的第二计算单元。换言之，第二计算单元86b首先指定组合的相邻词或字符串。第二计算单元86b参考概率表84a并且获取如下值，所述值指示从指定的相邻词或相邻字符串或相邻词和字符串的两个词类号码中组合词类是否恰当，例如两个词或两个字符串或词和字符串连接的概率。第二计算单元86b将获取的概率与相应组合的连接得分相乘以校正连接得分。

控制器85是集成电路如专用集成电路（ASIC）或现场可编程门阵列（FPGA）或电子电路如中央处理单元（CPU）或微处理单元（MPU）。

处理的流程

接下来描述根据实施例的生成装置70的处理的流程。图12是图示根据第四实施例的生成处理序列的流程图。当执行生成处理的指令从输入单元11输入到控制器75时执行生成处理。

由于图21中图示的步骤S601至S603和S605至S608的处理与上面描述的步骤S101至S103和S105至S108的处理相同，所以将会省略其描述。如图21所示，除了第一至第三实施例的存储单元的功能之外，存储单元75d还将词类号码登记在词典74b中（S604）。

接下来描述根据本实施例的识别装置80的处理的流程。图22是图示根据第四实施例的识别处理序列的流程图。当从操纵接收单元（未图示）向控制器85输入执行识别处理的指令时执行识别处理。

由于图22中图示的步骤S701至S709和S711至S714是与上面描述的步骤S501至S509和S511至S514相同的处理，所以将会省略其描述。如图22所示，第二计算单元86b参考概率表84a，并且使用词类号码校正连接得分（S710）。

第四实施例的效果

如上所述，识别装置80将输入的语音信号与和词典74b中登记的阅读信息的多个组合相对应的声学模型的多个组合相比较，并且针对声学模型的每一个组合计算相似度。进一步，基于与在计算相似度时组合的阅读信息相对应的词或字符串的位置信息，识别装置80执行以下处理。亦即，关于与多个组合的阅读信息相对应的词或字符串，识别装置80针对阅读信息的每一个组合计算连接得分，所述连接得分指示词之间、字符串之间或者词和字符串之间在语句中的位置的接近度。识别装置80将与多个计算的和数当中的超过阈值的最大和数相对应的字符串确定为对应于语音信号的字符串。根据识别装置80，即使当发声者发出连接包括在语句中但在语句中没有彼此相邻的多个词的字符串并且字符串被输入作为语音信号时，也可以识别发声者发出的语音。因此，根据识别装置80，可以精确地识别语音。

进一步，生成装置70可以生成词典74b，以便允许识别装置80精确地识别语音。

另外，由于生成装置70将多至总词数M×最大耦合数N－Σn（n=1,2，...,N－1）的记录登记在词典74b中，所以可以生成信息量减少的词典74b。

进而，根据识别装置80，仅在相同的短语中计算连接得分。因此，由于当短语具有不同内容时不计算连接得分，所以可以更加精确地识别语音。

此外，根据识别装置80，由于基于向其添加词类适合性的连接得分来确定对应于语音信号的字符串，所以可以更加精确地识别语音。

尽管已描述了与公开的装置有关的实施例，但是可以通过除了上面描述的实施例之外的各种形式来实施本发明。因此，在下文中，将会描述与本发明中包括的实施例不同的实施例。

进一步，在实施例中描述的处理当中，被描述为自动地执行的全部或一些处理可以手动地执行。进一步，在实施例中描述的处理当中，被描述为手动地执行的全部或一些处理可以通过已知的方法来自动地执行。

进一步，根据各种负载或使用情况，实施例中描述的处理的每个步骤中的处理可以再分或组合。另外，一些步骤可以省略。

进而，根据各种负载或使用情况，可以改变实施例中描述的处理的步骤中的处理顺序。

此外，附图中图示的装置的部件是功能性和概念性的部件。因此，不一定具有与附图中图示的相同的物理配置。换言之，装置的特定分解或组合状态不限于附图中图示的状态，而是全部或一些装置可以配置成根据各种负载或使用情况以预定单元在功能上或物理地进行分解或组合。

生成程序

进一步，通过执行在诸如个人计算机或工作站之类的计算机系统中预先准备的程序，可以实现实施例中描述的生成装置的各种处理。在下文中，参考图23来描述执行生成程序的计算机的例子，所述生成程序具有与实施例中描述的生成装置相同的功能。图23是图示执行生成程序的计算机的示图。

如图23所示，计算机300包括中央处理单元（CPU）310、只读存储器（ROM）320、硬盘驱动器（HDD）330和随机存取存储器（RAM）340。部件310至340的部分通过总线350连接。

诸如操作系统（OS）之类的程序存储在ROM 320中。

在HDD 330中，展现与任何一个实施例中描述的生成装置的分割单元、生成单元和存储单元相同的功能的生成程序330a被预先存储。进一步，可以适当地划分生成程序330a。

进一步，CPU 310从HDD 330中读出生成程序330a以执行程序。

另外，在HDD 330中，安装了上面描述的实施例中的任何一个的存储器单元中存储的信息，例如文本文件、词典或词类号码表。

进而，CPU 310读出文本文件、词典或词类号码表以存储在RAM 340中。另外，CPU 310使用RAM 340中存储的各种信息来执行生成程序。至于RAM 340中存储的数据，没有必要将全部数据都存储在RAM 340中，而是可以仅将用于处理的数据存储在RAM 340中。

此外，没有必要从初始阶段就将上面提到的生成程序存储在HDD330中。

例如，程序存储在插入计算机300中的“便携式物理介质”如软盘（FD）、CD-ROM、DVD盘、磁光盘或IC卡中。因此，计算机300可以从便携式物理介质中读出程序以执行程序。

此外，程序可以存储在别的计算机（或服务器）中，其通过公共线路、因特网、LAN或WAN连接到计算机300。计算机300可以从其它计算机读出程序以执行程序。

识别程序

进一步，通过执行在诸如个人计算机或工作站之类的计算机系统中预先准备的程序，可以实现实施例中描述的识别装置的各种处理。在下文中，参考图24来描述执行识别程序的计算机的例子，所述识别程序具有与实施例中描述的识别装置相同的功能。图24是图示执行识别程序的计算机的示图。

如图24所示，计算机400包括CPU 410、ROM 420、HDD 430和RAM 440。部件410至440的部分通过总线450连接。

诸如操作系统（OS）之类的程序存储在ROM 420中。

在HDD 430中，展现与任何一个实施例中描述的识别装置的第一计算单元、第二计算单元、确定单元和输出单元相同的功能的识别程序430a被预先存储。进一步，可以适当地划分识别程序430a。

进一步，CPU 410从HDD 430中读出识别程序430a以执行程序。

另外，在HDD 430中，安装了上面描述的实施例中的任何一个的存储器单元中存储的信息，例如词典、语言模型、词词典或概率表。

进一步，CPU 410读出词典、语言模型、词词典或概率表以存储在RAM 440中。另外，CPU 410使用RAM 440中存储的各种信息来执行识别程序。至于RAM 440中存储的数据，没有必要将全部数据都存储在RAM 440中，而是可以仅将用于处理的数据存储在RAM 440中。

进而，没有必要从初始阶段就将上面提到的识别程序存储在HDD430中。

例如，程序存储在插入计算机400中的“便携式物理介质”如软盘（FD）、CD-ROM、DVD盘、磁光盘或IC卡中。因此，计算机400可以从便携式物理介质中读出程序以执行程序。

此外，程序可以存储在别的计算机（或服务器）中，其通过公共线路、因特网、LAN或WAN连接到计算机400。计算机400可以从其它计算机读出程序以执行程序。

根据本发明的识别装置的一方面，可以精确地识别语音。

Claims

1.一种识别装置，包括：

存储器，其存储语句中包括的词和指示所述词在所述语句中的位置的位置信息；

第一计算单元，其将输入的语音信号与连接所述存储器中存储的多个词的字符串的阅读信息相比较以计算相似度；

第二计算单元，其基于所述存储器中存储的词的位置信息来计算指示多个连接的词之间接近度的连接得分；以及

确定单元，其基于所述相似度和所述连接得分来确定对应于所述语音信号的字符串。

2.根据权利要求1所述的识别装置，其中，所述存储器进一步存储其中多个词被耦合的词串和指示所述词串在所述语句中的位置的位置信息，

所述第一计算单元使用所述词串作为词来计算所述相似度，并且

所述第二计算单元使用所述词串作为词来计算所述连接得分。

3.根据权利要求1或2所述的识别装置，其中，所述存储器进一步存储用于标识短语的标识信息，以便与所述语句中包括的短语相关联，并且

基于所述存储器中存储的词的位置信息和标识信息，所述第二计算单元针对每一个短语计算指示多个连接的词之间接近度的连接得分。

4.根据权利要求1所述的识别装置，其中，所述存储器进一步存储指示第二词连接到第一词的概率的信息，并且

基于所述存储器中存储的指示第二词连接到第一词的概率的信息，所述第二计算单元进一步校正所述连接得分。

5.根据权利要求2所述的识别装置，其中，所述存储器进一步存储指示第二词连接到第一词的概率的信息，并且

6.根据权利要求3所述的识别装置，其中，所述存储器进一步存储指示第二词连接到第一词的概率的信息，并且

7.根据权利要求1所述的识别装置，其中，所述存储器进一步存储关于多个连接的词的词类组合适合性的信息，并且

基于所述存储器中存储的关于多个连接的词的词类组合适合性的信息，所述第二计算单元进一步校正所述连接得分。

8.一种由计算机执行的识别方法，包括：

将输入的语音信号与连接存储器中存储的多个词的字符串的阅读信息相比较以计算相似度，所述存储器存储语句中包括的词和指示所述词在所述语句中的位置的位置信息；

基于所述存储器中存储的词的位置信息，计算指示多个连接的词之间接近度的连接得分；以及

基于所述相似度和所述连接得分，确定对应于所述语音信号的字符串。

9.一种生成装置，包括：

分割单元，其将语句分割成词；

生成单元，其生成指示由所述分割单元分割的词在所述语句中的位置的位置信息；以及

存储单元，其将所述词和指示所述词在所述语句中的位置的位置信息存储在存储器中以便彼此相关联，以生成在识别装置中使用的信息。

10.一种生成装置，包括：

分割单元，其将语句分割成词；

生成单元，其生成通过对于由所述分割单元分割的词而言连续的一个至预定个数的词配置而成的词串，并且生成指示所述词在所述语句中的位置的位置信息和指示生成的词串在所述语句中的位置的位置信息；以及

存储单元，其将所述词和指示所述词在所述语句中的位置的位置信息存储在存储器中以便彼此相关联，并且将所述词串和指示所述词串在所述语句中的位置的位置信息存储在所述存储器中以便彼此相关联。

11.一种由计算机执行的生成方法，包括：

将语句分割成词；

生成指示分割的词在所述语句中的位置的位置信息；以及

对所述词和指示所述词在所述语句中的位置的位置信息进行存储以便彼此相关联，以生成在识别装置中使用的信息。

12.一种由计算机执行的生成方法，包括：

将语句分割成词；

生成通过对于分割的词而言连续的一个至预定个数的词配置而成的词串，并且生成指示所述词在所述语句中的位置的位置信息和指示生成的词串在所述语句中的位置的位置信息；以及

将所述词和指示所述词在所述语句中的位置的位置信息存储在存储器中以便彼此相关联，并且将所述词串和指示所述词串在所述语句中的位置的位置信息存储在所述存储器中以便彼此相关联。