CN105027198B

CN105027198B - 语音识别系统以及语音识别装置

Info

Publication number: CN105027198B
Application number: CN201380073708.3A
Authority: CN
Inventors: 小川勇; 花泽利行; 成田知宏
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-02-25
Filing date: 2013-11-20
Publication date: 2018-11-20
Anticipated expiration: 2033-11-20
Also published as: DE112013006728B4; US9761228B2; JP5921756B2; US20160275950A1; WO2014129033A1; CN105027198A; DE112013006728T5; JPWO2014129033A1

Abstract

具有：识别结果候选比较部(205)，其对接收部(204)接收到的多个服务器侧语音识别结果候选进行比较，检测有差异的文本；识别结果综合部(206)，其根据客户端侧语音识别结果候选、服务器侧语音识别结果候选以及识别结果候选比较部(205)的检测结果，综合客户端侧语音识别结果候选和服务器侧语音识别结果候选，确定语音识别结果。

Description

语音识别系统以及语音识别装置

技术领域

本发明涉及在服务器侧和客户端侧进行语音识别的语音识别系统、以及用于提高该语音识别系统中的客户端侧的语音识别装置的语音识别精度的技术。

背景技术

以往，有一种语音识别系统，该语音识别系统为了提高语音数据的语音识别性能，在服务器侧和客户端侧进行语音识别。

例如，在专利文献1的语音识别装置中，提出了如下这样的方法：首先在客户端侧进行语音识别，当判定为表示客户端侧的语音识别结果的精度的识别分数(score)较差的情况下，在服务器侧进行语音识别，且采用服务器侧的语音识别结果。另外，还提出了如下这样的方法：同时并行地进行客户端侧的语音识别和服务器侧的语音识别，对客户端侧的语音识别结果的识别分数与服务器侧的语音识别结果的识别分数进行比较后，采用识别分数较好的语音识别结果。

另外，在专利文献2的语音识别系统中，提出了如下这样的方法：服务器侧除了语音识别结果以外还发送词类信息(一般名词、助词等)，客户端侧使用接收到的词类信息，例如进行将一般名词置换成固有名词等的识别结果修正。

现有技术文献

专利文献

专利文献1：日本特开2009-237439号公报

专利文献2：日本特开2010-85536号公报

发明内容

发明所要解决的课题

然而，在上述的专利文献1所公开的技术中，存在如下这样的课题：首先在客户端侧进行语音识别之后在服务器侧进行语音识别，因此，取得客户端侧的语音识别结果为止的延迟时间与取得服务器侧的语音识别结果为止的延迟时间相加而得到的时间成为响应时间，导致从输入语音到取得结果为止的延迟时间增大。

另外，存在如下这样的课题：对客户端侧与服务器侧的识别分数进行比较来采用更好的识别分数，因此，当服务器侧未发送识别分数的情况下、或者在服务器侧所发送的识别分数的计算方法不清楚的情况下(例如在本公司仅仅开发客户端侧的语音识别而使用其他公司的语音识别服务器的情况下)，无法准确地比较客户端侧的识别分数，无法选择高精度的语音识别结果。

另外，在专利文献2所公开的技术中，存在如下这样的课题：客户端侧使用服务器侧所发送的语音识别结果和词类信息，来进行语音识别结果的修正，因此，当服务器侧未发送词类信息的情况下，无法高精度地选择语音识别结果。

本发明正是为了解决如上所述的课题而完成的，其目的在于，抑制从输入语音到取得语音识别结果为止的延迟时间，而且，即使在无法使用服务器侧所发送的识别分数和词类信息等语音识别结果以外的信息的情况下，也高精度地选择语音识别结果。

用于解决课题的手段

本发明的语音识别系统具有服务器装置和语音识别装置，该服务器装置具有：服务器侧接收部，其接收从语音识别装置输入的语音数据；服务器侧语音识别部，其进行服务器侧接收部接收到的语音数据的语音识别，生成服务器侧语音识别结果候选；以及服务器侧发送部，其向语音识别装置发送服务器侧语音识别部所生成的服务器侧语音识别结果候选，该语音识别装置具有：语音输入部，其将所输入的发声语音转换成语音数据；客户端侧语音识别部，其进行语音输入部所转换的语音数据的语音识别，生成客户端侧语音识别结果候选；客户端侧发送部，其向服务器装置发送语音输入部所转换的语音数据；客户端侧接收部，其接收服务器侧发送部所发送的服务器侧语音识别结果候选；识别结果候选比较部，其对客户端侧接收部接收到的多个服务器侧语音识别结果候选进行比较，检测有差异的文本；识别结果综合部，其根据客户端侧语音识别结果候选、服务器侧语音识别结果候选以及识别结果候选比较部的检测结果，综合客户端侧语音识别结果候选和服务器侧语音识别结果候选，确定语音识别结果；以及输出部，其输出识别结果综合部所确定的语音识别结果。

发明效果

根据本发明，能够抑制从输入语音到取得语音识别结果为止的延迟时间，高精度地选择语音识别结果。

附图说明

图1是示出实施方式1的语音识别系统的结构的框图。

图2是示出实施方式1的语音识别系统的动作的流程图。

图3是示出实施方式1的语音识别系统的语音识别结果的生成例的图。

图4是示出实施方式2的语音识别系统的结构的框图。

图5是示出实施方式2的语音识别系统的动作的流程图。

图6是示出实施方式2的语音识别系统的语音识别结果的生成例的图。

图7是示出实施方式2的语音识别系统的发声规则的模式存储例的图。

图8是示出实施方式3的语音识别系统的结构的框图。

图9是示出实施方式3的语音识别系统的第1及第3动作的流程图。

图10是示出实施方式3的语音识别系统的输入语音/识别结果存储部的保存例的图。

图11是示出实施方式3的语音识别系统的第2动作的流程图。

图12是示出实施方式3的语音识别系统的修正用数据库的图。

图13是示出实施方式4的语音识别系统的动作的流程图。

图14是示出实施方式4的语音识别系统的语音识别结果的生成例的图。

图15是示出实施方式4的语音识别系统的发声规则的模式存储例的图。

图16是示出实施方式5的语音识别系统的语音识别结果的生成例的图。

图17是示出实施方式6的语音识别系统的语音识别结果的生成例的图。

图18是示出实施方式6的语音识别系统的发声规则的模式存储例的图。

图19是示出实施方式7的语音识别系统的输入语音/识别结果存储部的保存例的图。

图20是示出实施方式7的语音识别系统的语音识别装置的修正用数据库的一例的图。

图21是示出实施方式8的语音识别系统的语音识别结果的生成例的图。

图22是示出实施方式8的语音识别系统的发声规则的模式存储例的图。

具体实施方式

以下，为了更详细地说明本发明，按照附图，对用于实施本发明的方式进行说明。

实施方式1.

图1是示出本发明的实施方式1的语音识别系统的结构的框图。

语音识别系统由语音识别服务器(服务器装置)100和语音识别装置200构成。

语音识别服务器100具有接收部(服务器侧接收部)101、服务器侧语音识别部102和发送部(服务器侧发送部)103，并且具有对从语音识别装置200接收到的语音数据进行语音识别而向语音识别装置200发送语音识别结果的功能。接收部101从语音识别装置200接收语音数据。服务器侧语音识别部102对接收部101接收到的语音数据进行语音识别，生成服务器侧语音识别结果候选。发送部103向语音识别装置200发送服务器侧语音识别部102所生成的服务器侧语音识别结果候选。

语音识别装置200具有语音输入部201、客户端侧语音识别部202、发送部(客户端侧发送部)203、接收部(客户端侧接收部)204、识别结果候选比较部205、识别结果综合部206和输出部207，并且具有对通过话筒等输入的语音数据进行语音识别而输出语音识别结果的功能。语音输入部201将通过话筒等输入的使用者的发声语音转换成作为数据信号的语音数据。客户端侧语音识别部202对语音输入部201所转换的语音数据进行语音识别，生成客户端侧语音识别结果候选。发送部203向语音识别服务器100发送从语音输入部201输入的语音数据。接收部204接收从语音识别服务器100发送的服务器侧语音识别结果候选。

识别结果候选比较部205经由接收部204对从语音识别服务器100发送的多个服务器侧语音识别结果候选所包含的文本信息进行比较，检测有差异的部分文本。识别结果综合部206根据客户端侧语音识别部202所生成的客户端侧语音识别结果候选、接收部204接收到的服务器侧语音识别结果候选和识别结果候选比较部205的检测结果，进行语音识别结果候选的综合，来确定语音识别结果。输出部207向监视器、扬声器等输出装置输出识别结果综合部206所确定的语音识别结果。

接下来，参照图2和图3，对实施方式1的语音识别系统的动作进行说明。

图2是示出本发明的实施方式1的语音识别系统的动作的流程图，图3是示出本发明的实施方式1的语音识别系统的语音识别结果的生成例的图。

如果输入了使用者所发出的语音(步骤ST1)，则语音识别装置200的语音输入部201将所输入的语音转换成语音数据，向客户端侧语音识别部202和发送部203输出所转换的语音数据(步骤ST2)。发送部203向语音识别服务器100发送步骤ST2中所输入的语音数据(步骤ST3)。

在语音识别服务器100中，接收部101接收步骤ST3中所发送的语音数据，向服务器侧语音识别部102输出所接收的语音数据(步骤ST4)。服务器侧语音识别部102对步骤ST4中所输入的语音数据进行语音识别，生成服务器侧语音识别结果候选(步骤ST5)。发送部103向语音识别装置200发送步骤ST5中生成的服务器侧语音识别结果候选的文本信息(步骤ST6)。

例如，服务器侧语音识别部102将任意的文章作为识别对象，对从语音识别装置200接收到的语音数据“目的地、大船時計専門店に設定する”进行语音识别，取得图3所示的服务器侧语音识别结果候选列表303，服务器侧语音识别结果候选列表303包含作为服务器侧语音识别结果候选301的“目的地を大船渡軽専門店に設定する”和作为服务器侧语音识别结果候选302的“目的地を豊富な時計専門店に設定する”。发送部103向语音识别装置200侧发送服务器侧语音识别结果候选列表303。

另一方面，在语音识别装置200中，客户端侧语音识别部202对步骤ST2中所输入的语音数据进行语音识别，生成客户端侧语音识别结果候选，向识别结果综合部206输出所获得的客户端侧语音识别结果候选的文本信息(步骤ST7)。

例如，客户端侧语音识别部202仅仅将语音操作用命令和本地附近的地名信息作为识别对象，当使用者语音输入了“目的地、大船時計専門店に設定する”的情况下，客户端侧语音识别部202对语音操作命令的“目的地”以及作为本地附近的地名信息的“大船時計専門店”进行识别，取得图3所示的客户端侧语音识别结果候选列表305，客户端侧语音识别结果候选列表305包含作为客户端侧语音识别结果候选304的“目的地、大船時計専門店”。此外，在图3的例子中，客户端侧语音识别结果候选列表305仅由1个客户端侧语音识别结果候选304构成。

另外，语音识别装置200的接收部204接收到在步骤ST6中从语音识别服务器100发送的服务器侧语音识别结果候选时，向识别结果候选比较部205和识别结果综合部206输出所接收的服务器侧语音识别结果候选(步骤ST8)。识别结果候选比较部205判定步骤ST8中所输入的服务器侧语音识别结果候选是否包含多个语音识别结果候选(步骤ST9)。

在包含多个语音识别结果候选的情况下(步骤ST9：“是”)，进而由识别结果候选比较部205对各语音识别结果候选的文本彼此进行比较来检测有差异的部分文本(步骤ST10)。识别结果候选比较部205判定是否检测出有差异的部分文本(步骤ST11)，在检测出有差异的部分文本的情况下(步骤ST11：“是”)，向识别结果综合部206输出有差异的部分文本作为检测结果(步骤ST12)。

例如，在图3的例子中，服务器侧语音识别结果候选列表303包含2个服务器侧语音识别结果候选301、302，对作为各个文本信息的“目的地を大船渡軽専門店に設定する”与“目的地を豊富な時計専門店に設定する”进行比较，检测出开头文本“目的地を”和末尾文本“専門店に設定する”所包围的部分作为有差异的部分文本。具体而言，检测出服务器侧语音识别结果候选301的“大船渡軽”以及服务器侧语音识别结果候选302的“豊富な時計”作为有差异的部分文本。

另一方面，在不包含多个语音识别结果候选的情况下(步骤ST9：“否”)、以及未检测出有差异的部分文本的情况下(步骤ST11：“否”)，向识别结果综合部206输出未检测出差异作为检测结果(步骤ST13)。

例如，在图3的例子中，当服务器侧语音识别结果候选列表303仅仅包含服务器侧语音识别结果候选301的情况下，不检测有差异的部分文本。

识别结果综合部206参照步骤ST12或步骤ST13中所输入的检测结果，判定是否存在有差异的部分文本(步骤ST14)。在存在有差异的部分文本的情况下(步骤ST14：“是”)，识别结果综合部206利用在步骤ST7中生成的客户端侧语音识别结果候选的文本信息置换有差异的部分文本的文本信息，作为语音识别结果(步骤ST15)。然后，向输出部207输出该语音识别结果(步骤ST16)。

例如，在图3的例子中，当在服务器侧语音识别结果候选301中检测出开头文本“目的地を”和末尾文本“専門店に設定する”所包围的部分文本“大船渡軽”和“豊富な時計”作为有差异的部分文本时，检索客户端侧语音识别结果候选304中是否存在与“目的地を”以及“専門店に設定する”一致的部分文本。在图3的例子中，哪个部分文本都不包含。在该情况下，将要检索的部分文本的一部分分别缩短为“目的地”和“専門店”，使用缩短的部分文本进行重新检索。在图3的例子中，重新检索的结果是，检索到“目的地”和“専門店”所包围的“、大船時計”。然后，将服务器侧语音识别结果候选301的“目的地”和“専門店”所包围的“を大船渡軽”置换成检索到的“、大船時計”，获得语音识别结果306“目的地、大船時計専門店に設定する”。

另一方面，在判定为不存在有差异的部分文本的情况下(步骤ST14：“否”)，识别结果综合部206将步骤ST8中接收部204接收到的服务器侧语音识别结果候选作为语音识别结果(步骤ST17)，向输出部207输出该语音识别结果(步骤ST16)。此外，在本发明的语音识别系统中，始终重复进行上述的处理。

如以上那样，根据本实施方式1，构成为在从语音识别服务器100取得了多个服务器侧语音识别结果候选的情况下，对该服务器侧语音识别结果候选的文本彼此进行比较来检测有差异的部分文本，将所检测出的有差异的部分文本置换成语音识别装置200所生成的客户端侧语音识别结果候选的部分文本，并作为最终的语音识别结果，因此，即使在使用表示语音识别结果的精度的数值(识别分数)的计算方法不清楚的语音识别服务器时，也能够在不使用识别分数的情况下综合服务器侧和客户端侧的语音识别结果候选来输出更准确的语音识别结果。

另外，根据本实施方式1，构成为具有：识别结果候选比较部205，其在不进行复杂的文章结构解析处理或识别分数的重新计算的情况下对服务器侧语音识别结果候选的文本彼此进行比较来检测有差异的部分文本；以及识别结果综合部206，其置换有差异的部分文本，因此，能够在抑制CPU的处理负担的同时实现语音识别装置的功能。

另外，根据本实施方式1，构成为在语音识别装置200中向客户端侧语音识别部202输入语音数据的同时向语音识别服务器100发送语音数据，因此，与语音识别装置200取得客户端侧语音识别结果候选之后向语音识别服务器100发送语音数据的方法相比，能够尽快地从语音识别服务器100取得语音识别结果，能够缩短确定输出语音识别结果为止的延迟时间。

此外，在上述的实施方式1中，构成为从语音识别服务器100取得了多个服务器侧语音识别结果候选的情况下，对服务器侧语音识别结果候选的文本彼此进行比较来检测有差异的部分文本，将差异的有无作为判定基准来进行部分文本的置换，但是，也可以将有差异的服务器侧语音识别结果候选的数量以及差异的种类作为判定基准。

例如，作为服务器侧语音识别结果候选存在3个候选，有差异的部分文本在3个候选中均不同的情况下，判定为可靠度1/3，有差异的部分文本只在1个候选中不同的情况下，判定为可靠度2/3。构成为仅仅将所判定的可靠度为1/3以下的部分文本置换成客户端侧语音识别部202的客户端侧语音识别结果候选的文本。

由此，能够提高语音识别的精度，能够获得更准确的语音识别结果。

另外，在上述的实施方式1中，示出了在取得了多个服务器侧语音识别结果候选的情况下，对服务器侧语音识别结果候选的文本彼此进行比较来仅仅检测有差异的1处部分文本的结构，但是，也可以构成为，在多处存在有差异的部分文本的情况下，判断为服务器侧语音识别结果候选整体的可靠性低，请求使用者重新输入语音。

由此，能够抑制输出错误的语音识别结果。

另外，在上述的实施方式1中，示出了在从语音识别服务器100取得了多个服务器侧语音识别结果候选的情况下将服务器侧语音识别结果候选的文本中有差异的部分置换成客户端侧语音识别结果候选的文本的结构，但是，也可以采用客户端侧语音识别部202计算识别分数的结构，仅在所计算出的识别分数为预先设定的阈值以上的情况下进行文本的置换。

由此，能够提高语音识别的精度，能够输出更准确的语音识别结果。

实施方式2.

在上述的实施方式1中，示出了对服务器侧语音识别结果候选的文本彼此进行比较利用客户端侧语音识别结果候选置换有差异的部分文本的结构，但是，在本实施方式2中示出如下这样的结构：以有差异的部分文本为基准，对服务器侧语音识别结果候选的文本进行分割，将所分割的文本和基于客户端侧语音识别结果候选的数据结合。

图4是示出本发明的实施方式2的语音识别系统的结构的框图。本实施方式2的语音识别系统也由语音识别服务器100和语音识别装置200′构成。实施方式2的语音识别装置200′在图1所示的语音识别装置200中追加设置了输入规则判定部211和输入规则保存部212。以下，对与实施方式1的语音识别系统的结构要素相同或相应的部分标注与图1中使用的标号相同的标号，省略或简化说明。

输入规则判定部211从客户端侧语音识别部202所生成的客户端侧语音识别结果候选中提取关键字，判定输入语音的发声规则。输入规则保存部212是存放有输入语音的发声规则的模式的数据库。识别结果综合部206′根据客户端侧语音识别部202所生成的客户端侧语音识别结果候选、接收部204接收到的服务器侧语音识别结果候选、识别结果候选比较部205的检测结果、以及输入规则判定部211所判定的发声规则，综合语音识别结果候选，确定语音识别结果。

接下来，参照图5至图7，对实施方式1的语音识别系统的动作进行说明。

图5是示出本发明的实施方式2的语音识别系统的动作的流程图，图6是示出实施方式2的语音识别系统的语音识别结果的生成例的图，图7是示出实施方式2的语音识别系统的发声规则的模式存储例的图。此外，在图5的流程图中，对与实施方式1的语音识别系统相同的步骤标注与图2中使用的标号相同的标号，省略或简化说明。

首先，与实施方式1同样，语音识别装置200′进行步骤ST1、ST2以及ST7的处理，对所输入的语音数据进行语音识别。

例如，在客户端侧语音识别部202仅仅将语音操作命令作为识别对象的情况下，在图6所示的例子中，对使用者所输入的语音数据“メール、渋滞で到着が遅れます。”进行语音识别，取得1个客户端侧语音识别结果候选404“メール”。在图6的例子中，客户端侧语音识别结果列表405由1个客户端侧语音识别结果候选404构成。所取得的客户端侧语音识别结果候选输出到识别结果综合部206′和输入规则判定部211。

接下来，输入规则判定部211参照从客户端侧语音识别部202输入的客户端侧语音识别结果候选和输入规则保存部212中存放的发声规则的模式，进行语音操作命令的对照，判定步骤ST1中所输入的语音数据的发声规则(步骤ST21)。

如图7所示，输入规则保存部212中存放的发声规则的模式500由语音操作命令501和输入语音的发声规则502构成，例如示出了在语音操作命令501是“メール”的情况下，获得“命令(メール)+自由文”作为输入语音的发声规则502。

在如图6所示那样客户端侧语音识别结果候选404为“メール”的情况下，输入规则判定部211取得与作为一致的语音操作命令501的“メール”对应的输入语音的发声规则502即“命令+自由文”。所取得的输入语音的发声规则输出到识别结果综合部206′。

另一方面，语音识别服务器100进行与步骤ST4至步骤ST6相同的处理，向语音识别装置200′发送所获得的服务器侧语音识别结果候选。

例如，在服务器侧语音识别部102将任意的文章作为识别对象的情况下，对所接收到的语音数据“メール、渋滞で到着が遅れます。”进行语音识别，取得服务器侧语音识别结果候选401“滅入る、渋滞で到着が遅れます”和服务器侧语音识别结果候选402“見える、渋滞で到着が遅れます”。向语音识别装置200′输出所取得的2个服务器侧语音识别结果候选401、402作为服务器侧语音识别结果候选列表403。

接下来，在语音识别装置200′中，进行步骤ST8至步骤ST13的处理。在步骤ST10的有差异的部分文本的检测中，以图6为例进行说明，对服务器侧语音识别结果候选列表403的服务器侧语音识别结果候选401“滅入る、渋滞で到着が遅れます”与服务器侧语音识别结果候选402“見える、渋滞で到着が遅れます”进行比较，检测出“滅入る”和“見える”作为有差异的部分文本。检测结果输出到识别结果综合部206′。

识别结果综合部206′根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST12或步骤ST13中从识别结果候选比较部205输入的差异的检测结果，判定是否需要进行服务器侧语音识别结果候选的文本分割(步骤ST22)。

在图6和图7的例子中，在输入了客户端侧语音识别部202的客户端侧语音识别结果候选404“メール”、从接收部204输入了由服务器侧语音识别结果候选401、402构成的服务器侧语音识别结果候选列表403的情况下，服务器侧语音识别结果候选401、402的文本不包含“メール”，从输入规则判定部211输入的发声规则为“命令+自由文”，从识别结果候选比较部205输入表示检测到差异的检测结果，因此，判定为需要进行文本的分割。

在需要进行服务器侧语音识别结果候选的文本分割的情况下(步骤ST22：“是”)，识别结果综合部206′以有差异的部分文本为基准，对接收部204接收到的服务器侧语音识别结果候选的文本进行文本的分割(步骤ST23)。

在图6所示的例子中，对服务器侧语音识别结果候选401的文本检测“滅入る”作为有差异的部分文本，因此，将文本分割为“滅入る”和“渋滞で到着が遅れます”这2个文本。

接下来，识别结果综合部206′根据从输入规则判定部211输入的发声规则，将步骤ST23中所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，作为语音识别结果输出到输出部207。(步骤ST24)。

在图6所示的例子中，根据发声规则的“命令+自由文”，将结合语音操作命令“メール”和与自由文对应的所分割的文本“渋滞で到着が遅れます”而得到的“メール、渋滞で到着が遅れます”作为语音识别结果。

另一方面，在不需要进行服务器侧语音识别结果候选的文本分割的情况下(步骤ST22：“否”)，识别结果综合部206′将步骤ST8中所接收的服务器侧语音识别结果候选作为语音识别结果(步骤ST25)，向输出部207输出该语音识别结果(步骤ST16)。

此外，在接收部204接收到的服务器侧语音识别结果候选包含从客户端侧语音识别部202输入的客户端侧语音识别结果候选的文本的情况下，识别结果综合部206′判定为不需要进行文本的分割。

另外，在从输入规则判定部211输入的发声规则是“仅为命令”的情况下，判定为不需要进行文本的分割。

另外，在从识别结果候选比较部205输入的检测结果表示未检测出差异的情况下，判定为不需要进行文本的分割。

如以上那样，根据本实施方式2，构成为在从语音识别服务器100取得了多个服务器侧语音识别结果候选的情况下，对该服务器侧语音识别结果候选的文本彼此进行比较来检测有差异的部分文本，以有差异的部分文本为基准对文本进行分割，根据发声规则，将所分割的文本和客户端侧语音识别结果候选的文本结合，因此，即使在使用表示语音识别结果的精度的数值(识别分数)的计算方法不清楚的语音识别服务器时，也能够在不使用识别分数的情况下综合服务器侧和客户端侧的语音识别结果候选来输出更准确的语音识别结果。

另外，根据本实施方式2，构成为以有差异的部分文本为基准对文本进行分割，将所分割的文本和客户端侧语音识别结果候选的文本结合，因此，即使在语音识别服务器无法高精度地识别语音操作命令的情况下，也能够在不使用与语音操作命令相应的部分的文本的情况下仅仅使用文章的部分文本，能够输出更准确的语音识别结果。

另外，根据本实施方式2，构成为具有：识别结果候选比较部205，其在不进行复杂的文章结构解析处理或识别分数的重新计算的情况下对服务器侧语音识别结果候选的文本彼此进行比较来检测有差异的部分文本；以及识别结果综合部206′，其以有差异的部分文本为基准对文本进行分割，结合客户端侧语音识别结果候选的文本，因此，能够在抑制CPU的处理负担的同时实现语音识别装置的功能。

另外，根据本实施方式2，构成为对识别结果的文本进行比较来检测可靠度较低的部分，由此不会进行复杂的文章结构解析从而抑制运算量，因此，能够使用运算性能较低的CPU来实现语音识别装置200′的功能。

另外，根据本发明的实施方式2，构成为在语音识别装置200′中向客户端侧语音识别部202输入语音数据的同时向语音识别服务器100发送语音数据，因此，与语音识别装置200′取得客户端侧语音识别结果候选之后向语音识别服务器100发送语音数据的方法相比，能够尽快地从语音识别服务器100取得语音识别结果，能够缩短确定输出语音识别结果为止的延迟时间。

此外，在上述的实施方式2中，作为发声规则的模式举出了“仅为命令”、“命令+自由文”以及“命令+地名”的例子，但是，作为发声规则，也可以将语音操作命令的位置仅仅限定在发声的开头或末尾。

在该情况下，也可以是，当在服务器侧语音识别结果候选的开头或末尾以外的部分产生了差异时，判断为在语音操作命令以外的部分发生了识别错误，请求使用者重新输入语音。由此，能够抑制输出错误的语音识别结果。

此外，在上述的实施方式2中，示出了在语音识别装置200′内设置输入规则保存部212的结构，但是，也可以构成为取得保存在外部的发声规则的模式。

实施方式3.

在上述的实施方式2中，示出了对服务器侧语音识别结果候选的文本彼此进行比较而以有差异的部分文本为基准对服务器侧语音识别结果候选的文本进行分割的结构，但是，在本实施方式3中示出对服务器侧语音识别结果候选的变化进行检测而始终进行文本分割的结构。

图8是示出本发明的实施方式3的语音识别系统的结构的框图。

本实施方式3的语音识别系统也由语音识别服务器100和语音识别装置200″构成。实施方式3的语音识别装置200″在图2所示的语音识别装置200′追加设置了识别结果候选修正部221和输入语音/识别结果存储部222，并且去除了识别结果候选比较部205。以下，对与实施方式1以及实施方式2的语音识别系统的结构要素相同或相应的部分标注与图1或图4中使用的标号相同的标号，省略或简化说明。

在语音识别装置200″的启动时，识别结果候选修正部221向语音识别服务器100自动发送语音数据，根据从语音识别服务器100接收到的语音识别结果，生成语音操作命令的修正用数据库221a。输入语音/识别结果存储部222是将语音输入部201所转换的语音数据与识别结果综合部206″所生成的语音识别结果对应地保存的缓存器。识别结果综合部206″使用识别结果候选修正部221所生成的修正用数据库221a，进行服务器侧语音识别结果候选和客户端侧语音识别结果候选的综合。

接下来，对实施方式3的语音识别系统的动作进行说明。此外，以下，分成下述的三种动作进行说明：第1动作是在输入语音/识别结果存储部222中未保存有数据的状态下进行了语音输入的情况下的动作；第2动作是在语音识别装置200″启动时生成修正用数据库221a的动作；以及第3动作是在输入语音/识别结果存储部222中保存有数据且生成了修正用数据库221a的状态下进行了语音输入的情况下的动作。

此外，以下对与实施方式1或实施方式2的语音识别系统相同的步骤标注与图2或图5中使用的标号相同的标号，省略或简化说明。

<第1动作>

首先，参照图9、图10以及实施方式2的图6，对第1动作进行说明。

图9是示出本发明的实施方式3的语音识别系统的第1及第3动作的流程图，图10是示出输入语音/识别结果存储部的保存例的图。

当输入了使用者所发声的语音时(步骤ST1)，语音识别装置200″的语音输入部201将所输入的发声语音转换成语音数据，向客户端侧语音识别部202、发送部203以及输入语音/识别结果存储部222输出所转换的语音数据(步骤ST2′)。输入语音/识别结果存储部222例如以图10所示的形式保存步骤ST2′中所输入的语音数据作为“语音数据(1)”(步骤ST31)。

在图10的例子中，将语音操作命令601与语音数据602对应起来构成输入语音信息600。

接着，与实施方式2同样，语音识别服务器100和语音识别装置200″进行与步骤ST3至步骤ST7以及步骤ST21同样的处理。语音识别装置200的接收部204接收步骤ST6中从语音识别服务器100发送的服务器侧语音识别结果候选，向识别结果候选修正部221和识别结果综合部206″输出所接收的服务器侧语音识别结果候选(步骤ST8′)。

接下来，识别结果候选修正部221将步骤ST8′中所输入的服务器侧语音识别结果候选的文本与修正用数据库221a进行对照(步骤ST32)。在该第1动作中，由于输入语音/识别结果存储部222中未保存有数据，所以未生成修正用数据库221a。因此，识别结果候选修正部221向识别结果综合部206″输出表示没有修正候选的对照结果(步骤ST33)。

识别结果综合部206″根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8′中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST33中识别结果候选修正部221所取得的对照结果，判定能否进行服务器侧语音识别结果候选的文本分割(步骤ST34)。

例如，在输入了图6所示的客户端侧语音识别结果候选404“メール”作为客户端侧语音识别部202的客户端侧语音识别结果候选、从接收部204输入了图6所示的服务器侧语音识别结果列表403的情况下，该服务器侧语音识别结果列表403所包含的服务器侧语音识别结果候选401、402的文本不包含“メール”。另外，从输入规则判定部211输入的发声规则是“命令+自由文”，从识别结果候选修正部221输入表示没有修正候选的对照结果。由此，识别结果综合部206″判定为不能进行文本的分割。

另一方面，在从接收部204输入的服务器侧语音识别结果候选包含从客户端侧语音识别部202输入的客户端侧语音识别结果候选的文本的情况下，判定为能够进行文本的分割。

在能够进行文本的分割的情况下(步骤ST34：“是”)，识别结果综合部206″以从客户端侧语音识别部202输入的客户端侧语音识别结果候选的文本为基准，对接收部204接收到的服务器侧语音识别结果候选的文本进行文本的分割(步骤ST35)。接下来，识别结果综合部206″根据从输入规则判定部211输入的发声规则，将步骤ST35中所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，作为语音识别结果(步骤ST24)，向输出部207输出该语音识别结果(步骤ST16)。

另一方面，在不能进行服务器侧语音识别结果候选的文本分割的情况下(步骤ST34：“否”)，识别结果综合部206″将步骤ST7中所取得的客户端侧语音识别结果候选作为语音识别结果(步骤ST36)，将该语音识别结果保存到输入语音/识别结果存储部222中(步骤ST37)。在图10所示的例子中，存放从客户端侧语音识别部202输入的语音识别结果“メール”作为与语音数据602的“语音数据(1)”对应的语音操作命令601。

以上是实施方式3的语音识别系统的第1动作。

<第2动作>

接下来，参照图11和图12，对第2动作进行说明。

图11是示出本发明的实施方式3的语音识别系统的第2动作的流程图，图12是示出本发明的实施方式3的语音识别系统的语音识别装置的修正用数据库的一例的图。

在语音识别装置200″启动时，识别结果候选修正部221参照输入语音/识别结果存储部222，判定是否保存有语音数据(步骤ST41)。在未保存有语音数据的情况下(步骤ST41：“否”)，结束处理。另一方面，在保存有语音数据的情况下(步骤ST41：“是”)，取得输入语音/识别结果存储部222中保存的语音数据(步骤ST42)，通过发送部203向语音识别服务器100发送所取得的语音数据(步骤ST43)。

在语音识别服务器100中，进行与上述的实施方式1的步骤ST4至步骤ST6相同的处理，进行所发送的语音数据的语音识别，向语音识别装置200″侧发送服务器侧语音识别结果候选。

语音识别装置200″的接收部204接收步骤ST6中从语音识别服务器100发送的服务器侧语音识别结果候选，向识别结果候选修正部221输出所接收的服务器侧语音识别结果候选(步骤ST8″)。识别结果候选修正部221判定步骤ST8″中所输入的服务器侧语音识别结果候选是否与输入语音/识别结果存储部222中保存的语音操作命令一致(步骤ST44)。在服务器侧语音识别结果候选与语音操作命令一致的情况下(步骤ST44：“是”)，进入步骤ST46的处理。

另一方面，在服务器侧语音识别结果候选与语音操作命令不一致的情况下(步骤ST44：“否”)，在修正用数据库221a中追加将服务器侧语音识别结果候选作为修正候选而与语音操作命令对应起来的信息(步骤ST45)。

在图12所示的例子中，在输入语音/识别结果存储部222中保存的语音操作命令701为“メール”、且作为服务器侧语音识别结果候选的修正候选702为“滅入る”或“見える”的情况下，将各自对应起来的信息作为修正数据700追加到修正用数据库221a中。

接下来，识别结果候选修正部221参照输入语音/识别结果存储部222中保存的语音数据，判定是否对所有语音数据进行了处理(步骤ST46)。在对所有语音数据进行了处理的情况下(步骤ST46：“是”)，结束处理。另一方面，在未对所有语音数据进行处理的情况下(步骤ST46：“否”)，返回到步骤ST42的处理，重复进行上述的处理。

以上是实施方式3的语音识别系统的第2动作。

<第3动作>

接下来，参照上述的图9的流程图，对第3动作进行说明。此外，对与上述的第1动作相同的处理省略说明。

作为步骤ST32，识别结果候选修正部221将步骤ST8′中接收到的服务器侧语音识别结果候选的文本与修正用数据库221a进行对照。例如，在输入了图6所示的服务器侧语音识别结果候选列表403作为服务器侧语音识别结果候选的情况下，将服务器侧语音识别结果候选401的文本与构成图12所示的修正用数据库221a的修正数据700的修正候选702进行对照。

在检测出了服务器侧语音识别结果候选401的文本包含修正用数据库221a的修正候选“滅入る”的情况下，作为步骤ST33，将修正用数据库221a的修正候选“滅入る”以及与其对应的语音操作命令“メール”作为对照结果输出到识别结果综合部206″。

接下来，作为步骤ST34，识别结果综合部206″根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST33中从识别结果候选修正部221输入的对照结果，判定是否能够进行服务器侧语音识别结果候选的文本分割。

例如，在输入了图6所示的客户端侧语音识别结果候选404“メール”作为客户端侧语音识别部202的客户端侧语音识别结果候选、且输入规则判定部211所判定的发声规则为“命令+自由文”、从接收部204输入了图6所示的服务器侧语音识别结果列表403的情况下，虽然服务器侧语音识别结果列表403的服务器侧语音识别结果401、402的文本未包含“メール”，但是从识别结果候选修正部221输入“メール”作为对照结果，因此，判断为能够进行文本的分割(步骤ST34：“是”)。

作为步骤ST35，识别结果综合部206″以与判定结果“メール”对应的修正候选“滅入る”为基准，对服务器侧语音识别结果候选的文本进行文本的分割。另外，作为步骤ST24，根据从输入规则判定部211输入的发声规则的信息，将所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，作为语音识别结果，作为步骤ST16，向输出部207输出语音识别结果。

以上是实施方式3的语音识别系统的第3动作。

如以上那样，根据本实施方式3，构成为具有识别结果候选修正部221，识别结果候选修正部221根据在语音识别装置200″的启动时使用过去输入的语音数据向语音识别服务器100发送语音数据而取得的服务器侧语音识别结果候选，生成语音识别结果候选的修正用数据库211a，因此，即使在语音识别服务器100的服务器侧语音识别结果候选与输入语音/识别结果存储部222中保存的语音操作命令不一致的情况下，如果对应于语音操作命令的修正候选与来自语音识别服务器100的服务器侧语音识别结果候选一致，则也能够以该部分为基准对文本进行分割，根据从输入规则判定部211输入的发声规则的信息，综合所分割的文本和语音识别装置200″的客户端侧语音识别结果候选的文本。

由此，即使在语音识别服务器100被更新而识别结果发生了变化的情况下，也能够进行跟踪，能够综合服务器侧和客户端侧的语音识别结果候选来输出更准确的语音识别结果。

另外，根据本实施方式3，构成为识别结果综合部206″以有差异的部分为基准对文本进行分割，根据从输入规则判定部211输入的发声规则的信息，综合所分割的文本和语音识别装置200″的客户端侧语音识别结果候选的文本，因此，即使在语音识别服务器100无法高精度地识别语音操作命令的情况下，也能够在不使用与语音操作命令相应的部分的情况下仅仅使用文章的部分，能够输出更准确的语音识别结果。

另外，根据本实施方式3，构成为具有识别结果候选修正部221，其在不进行复杂的文章结构解析处理或识别分数的重新计算的情况下将服务器侧语音识别结果候选的文本与修正用数据库221a进行对照，因此，能够在抑制CPU的处理负担的同时实现语音识别装置200″的功能。

另外，根据本实施方式3，构成为将服务器侧语音识别结果候选的文本与修正用数据库221a进行对照来检测可靠度较低的部分，由此不会进行复杂的文章结构解析从而抑制运算量，因此，能够使用运算性能较低的CPU来实现语音识别装置200″的功能。

另外，根据本发明的实施方式3，构成为在语音识别装置200″中向客户端侧语音识别部202输入语音数据的同时向语音识别服务器100发送语音数据，因此，与语音识别装置200取得客户端侧语音识别结果候选之后向语音识别服务器100发送语音数据的方法相比，能够尽快地从语音识别服务器100取得语音识别结果，能够缩短确定输出语音识别结果为止的延迟时间。

实施方式4.

在上述的实施方式3中，示出了检测语音识别服务器100的服务器侧语音识别结果候选的变化来能够始终进行文本的分割的结构，但是，在本实施方式4中示出对被分割为自由文的文本所包含的固有名词进行检测的结构。

本实施方式4的语音识别系统也由语音识别服务器100和语音识别装置200′构成。此外，实施方式4的语音识别服务器100和语音识别装置200′的结构要素与实施方式2的语音识别系统相同，因此，省略叙述。此外，在以下的说明中，标注与图4中使用的标号相同的标号进行说明。

除了实施方式2中说明的功能以外，识别结果候选比较部205还在对服务器侧语音识别候选进行比较后检测出多处有差异的部分的情况下，判定该检测部分的文本是否为相同的内容。在识别结果候选比较部205判定为检测部分的文本为相同内容的情况下，识别结果综合部206′将该被判定为相同内容的文本置换成对应的固有名词。

接下来，参照图13至图15，对实施方式4的语音识别系统的动作进行说明。

图13是示出本发明的实施方式4的语音识别系统的动作的流程图。图14是示出本发明的实施方式4的语音识别系统的语音识别结果的生成例的图，图15是示出发声规则的模式存储例的图。此外，以下对与实施方式2的语音识别系统相同的步骤标注与图5中使用的标号相同的标号，省略或简化说明。

首先，与实施方式2同样，语音识别装置200′进行步骤ST1以及步骤ST2的处理，客户端侧语音识别部202对所输入的语音数据进行语音识别(步骤ST7)。

例如，在客户端侧语音识别部202仅将地址薄等中登记的固有名词和语音操作命令作为识别对象的情况下，在图14所示的例子中，对使用者输入的语音数据“健児さんにメール、本日は私と健児さんで対応します”进行语音识别，来识别作为固有名词的“健児”以及作为语音操作命令的“さんにメール”，取得客户端侧语音识别结果候选804“健児さんにメール”。在图14的例子中，客户端侧语音识别结果候选列表805由1个客户端侧语音识别结果候选804构成。所取得的客户端侧语音识别结果候选输出到识别结果综合部206′和输入规则判定部211。

例如，如果对图14所示的客户端侧语音识别结果候选804“健児さんにメール”与图15所示的发声规则的模式900进行比较，则检测出一致的语音操作命令901“さんにメール”，取得对应的输入语音的发声规则902“固有名词+命令+自由文”。所取得的输入语音的发声规则输出到识别结果综合部206′。

另外，语音识别装置200′进行步骤ST8以及步骤ST9的处理，在识别结果候选比较部205判定为包含多个语音识别结果候选的情况下(步骤ST9：“是”)，识别结果候选比较部205对各语音识别结果候选的文本彼此进行比较来检测有差异的部分文本(步骤ST10)。识别结果候选比较部205判定是否检测出有差异的部分文本(步骤ST11)，在检测出有差异的部分文本的情况下(步骤ST11：“是”)，向识别结果综合部206′输出有差异的部分文本作为检测结果(步骤ST12)。

在图14的例子中，服务器侧语音识别结果列表803包含2个服务器侧语音识别结果候选801、802，因此，对作为各自的文本信息的“検事さんにメール、本日は私と検事さんで対応します”与“賢治さんにメール、本日は私と賢治さんで対応します”进行比较，检测出存在2处有差异的部分并且均为相同文本(语音识别结果候选801为“検事”、语音识别结果候选802为“賢治”)。

识别结果综合部206′根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST12或步骤ST13中从识别结果候选比较部205输入的差异的检测结果，判定能否进行自由文的文本所包含的固有名词的置换(步骤ST51)。

关于能否进行固有名词的置换的判定，具体地如以下那样进行。

在图14和图15的例子中，当输入了客户端侧语音识别部202的客户端侧语音识别结果候选804“健児さんにメール”、且从接收部204输入了由服务器侧语音识别结果候选801、802构成的服务器侧语音识别结果候选列表803的情况下，判定服务器侧语音识别结果候选801、802的文本是否包含语音操作命令“さんにメール”。

在判定为包含语音操作命令的情况下，按照从输入规则判定部211输入的发声规则的信息(图15所示的与语音操作命令“さんにメール”对应的输入语音的发声规则“固有名词+命令+自由文”)，以语音操作命令的文本为基准，分割为与固有名词相应的文本(在图14的例子中为服务器侧语音识别结果候选801的“検事”和服务器侧语音识别结果候选802的“賢治”)、与自由文相应的文本(在图14的例子中为服务器侧语音识别结果候选801的“本日は私と検事さんで対応します”和服务器侧语音识别结果候选802的“本日は私と賢治さんで対応します”)。

另外，判定在与自由文相应的文本中是否存在与固有名词的文本一致的部分(在图14的例子中，判定为在自由文中存在与固有名词的文本一致的部分(语音识别结果候选801的“検事”和语音识别结果候选802的“賢治”))。而且，在自由文中存在与固有名词的文本一致的部分的情况下，判定为能够进行固有名词的置换。

在判定为能够进行固有名词的置换的情况下(步骤ST51：“是”)，根据从识别结果候选比较部205输入时的检测结果，进行分割为自由文的文本所包含的固有名词与对应的文本的置换(步骤ST52)。

在图14的例子中，将与分割为自由文的文本“本日は私と検事さんで対応します”所包含的固有名词对应的文本“検事”置换成由客户端侧语音识别部202识别出的固有名词的文本“健児”并作为“本日は私と健児さんで対応します”。

识别结果综合部206′根据从输入规则判定部211输入的发声规则的信息，将所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，确定语音识别结果(步骤ST24)。所确定的语音识别结果输出到输出部207(步骤ST16)。

在图14的例子中，根据发声规则的“固有名词+命令+自由文”，将固有名词“健児”和语音操作命令“さんにメール”以及与自由文对应的文本“本日は私と健児さんで対応します”结合而得到的“健児さんにメール、本日は私と健児さんで対応します”确定为语音识别结果。

另一方面，在判定为不能进行固有名词的置换的情况下(步骤ST51：“否”)，识别结果综合部206′将步骤ST8中接收到的服务器侧语音识别结果候选作为语音识别结果(步骤ST25)，向输出部207输出该语音识别结果(步骤ST16)。

如以上那样，根据本实施方式4，构成为在从语音识别服务器100取得了多个服务器侧语音识别结果候选的情况下，对服务器侧语音识别结果候选的文本彼此进行比较来检测有差异的部分文本，在有差异的部分文本与客户端侧语音识别结果候选的固有名词的识别结果对应、且分割为自由文的文本也包含与固有名词对应的文本的情况下，利用客户端侧语音识别部202所识别的固有名词的文本置换自由文的文本所包含的固有名词的文本，因此，即使在未对服务器侧语音识别结果候选赋予词类信息时，也能够在不使用词类信息的情况下高精度地综合服务器侧和客户端侧的语音识别结果来输出更准确的语音识别结果。

此外，在上述的实施方式4中，示出了正确地识别出语音操作命令“さんにメール”的例子，但是，也可以构成为：通过组合实施方式3所示的识别结果候选修正部221和输入语音/识别结果存储部222的功能，在识别结果综合部206′未正确地识别出语音操作命令作为语音识别服务器100的服务器侧语音识别结果候选的情况下，检索修正用数据库221a来参照作为修正候选的语音识别结果命令，由此，判定为能够进行以语音操作命令为基准的文本的分割。由此，即使在语音识别服务器100无法正常地识别语音操作命令的情况下，也能够高精度地对文本进行分割来输出更准确的语音识别结果。

实施方式5.

在上述的实施方式1中，以输入了使用者用日语发出的语音的情况为例，对语音识别系统的处理动作进行了说明，但是，在本实施方式5中，以输入了使用者用英语发出的语音的情况为例，对语音识别系统的处理动作进行说明。此外，本实施方式5的语音识别系统的结构以及动作与实施方式1所示的结构(参照图1)以及动作(参照图2)相同，因此，使用图1和图2进行说明。

按照图2的流程图，并参照图16的具体例，对输入了用英语发出的语音时的语音识别系统的动作进行说明。图16是示出本发明的实施方式5的语音识别系统的语音识别结果的生成例的图。

在步骤ST5中，例如服务器侧语音识别部102将任意的文章作为识别对象，对从语音识别装置200接收到的语音数据“Send SMS to John,Take care yourself.”进行语音识别，取得图16所示的服务器侧语音识别结果候选列表313，服务器侧语音识别结果候选列表313包含作为服务器侧语音识别结果候选311的“SEND S AND S TO JOHN TAKE CAREYOURSELF”以及作为服务器侧语音识别结果候选312的“SEND S AND ASKED JOHN TAKECARE YOURSELF”。

另一方面，在步骤ST7中，例如在客户端侧语音识别部202仅仅将语音操作用命令和地址薄中预先登记的人名的信息作为识别对象、且使用者语音输入了“Send SMS toJohn,Take care yourself.”的情况下，客户端侧语音识别部202对语音操作命令的“SENDSMS TO”以及作为人名的“JOHN”进行识别，取得图16所示的客户端侧语音识别结果候选列表315，客户端侧语音识别结果候选列表315包含作为客户端侧语音识别结果候选314的“SEND SMS TO JOHN”。此外，在图16的例子中，客户端侧语音识别结果候选列表315仅仅由1个客户端侧语音识别结果候选314构成。

接下来，在步骤ST11中，在图16的例子中服务器侧语音识别结果候选列表313包含2个服务器侧语音识别结果候选311、312，对作为各自的文本信息的“SEND S AND S TOJOHN TAKE CARE YOURSELF”与“SEND S AND ASKED JOHN TAKE CARE YOURSELF”进行比较，检测出开头文本“SEND S AND”和末尾文本“JOHN TAKE CARE YOURSELF”所包围的部分作为有差异的部分文本。具体而言，检测出服务器侧语音识别结果候选311的“S TO”以及服务器侧语音识别结果候选312的“ASKED”作为有差异的部分文本。

接下来，在步骤ST15中，在图16的例子中，在检测出服务器侧语音识别结果候选311中的开头文本“SEND S AND”和末尾文本“JOHN TAKE CARE YOURSELF”所包围的部分文本“S TO”以及“ASKED”作为有差异的部分文本的情况下，检索客户端侧语音识别结果候选314中是否存在与“SEND S AND”以及“JOHN”一致的部分文本。在图16的例子中，虽然包含了“JOHN”但是不包含“SEND S AND”的部分文本。在该情况下，将要检索的部分文本缩短为“SEND”，使用被缩短的部分文本来进行重新检索。在图16的例子中，重新检索的结果是，检索到“SEND”和“JOHN”所包围的“SMS TO”。然后，将服务器侧语音识别结果候选311的“SEND”和“JOHN”所包围的“S AND S TO”置换成检索到的“SMS TO”，获得语音识别结果316“SENDSMS TO JOHN TAKE CARE YOURSELF”。

如以上那样，根据本实施方式5，即使在向语音识别装置200输入了用英语发出的语音的情况下，也能够获得与实施方式1同样的效果。

实施方式6.

在上述的实施方式2中，以输入了使用者用日语发出的语音的情况为例，对语音识别系统的处理动作进行了说明，但是，在本实施方式6中，以输入了使用者用英语发出的语音的情况为例，对语音识别系统的处理动作进行说明。此外，本实施方式6的语音识别系统的结构以及动作与实施方式2所示的结构(参照图4)以及动作(参照图5)相同，因此，使用图4和图5进行说明。

按照图5的流程图，参照图17和图18的具体例，对输入了用英语发出的语音时的语音识别系统的动作进行说明。图17是示出本发明的实施方式6的语音识别系统的语音识别结果的生成例的图，图18是示出发声规则的模式存储例的图。

首先，与实施方式2同样，语音识别装置200′进行步骤ST1、ST2以及ST7的处理，对所输入的语音数据进行语音识别。

例如，在客户端侧语音识别部202仅仅将语音操作命令作为识别对象的情况下，在图17所示的例子中，对使用者输入的语音数据“Search for pictures of the goldengate bridge.”进行语音识别，取得1个客户端侧语音识别结果候选414“SEARCH FOR”。在图17的例子中，客户端侧语音识别结果列表415由1个客户端侧语音识别结果候选414构成。

接下来，在步骤ST21中，输入规则判定部211参照从客户端侧语音识别部202输入的客户端侧语音识别结果候选和输入规则保存部212中存放的发声规则的模式，来进行语音操作命令的对照，判定步骤ST1中所输入的语音数据的发声规则。

在图18所示的例子中，示出了如下内容：输入规则保存部212中存放的发声规则的模式510由语音操作命令511和输入语音的发声规则512构成，例如在语音操作命令511为“SEARCH FOR”的情况下，获得“命令(command)+关键字”作为输入语音的发声规则512。

在图17所示的例子中，在客户端侧语音识别结果候选414为“SEARCH FOR”的情况下，输入规则判定部211取得与作为一致的语音操作命令511的“SEARCH FOR”对应的输入语音的发声规则512即“命令+关键字”。

另一方面，在步骤ST4至步骤ST6中，服务器侧语音识别部102将任意的文章作为识别对象的情况下，在图17的例子中，对所接收的语音数据“Search for pictures of thegolden gate bridge.”进行语音识别，取得服务器侧语音识别结果候选411“SYSTEMPICTURES OF THE GOLDEN GATE BRIDGE”以及服务器侧语音识别结果候选412“SISTERPICTURES OF THE GOLDEN GATE BRIDGE”。向语音识别装置200′输出所取得的2个服务器侧语音识别结果候选411、412作为服务器侧语音识别结果候选列表413。

接下来，语音识别装置200′进行步骤ST8至步骤ST13的处理。在步骤ST10的有差异的部分文本的检测中，以图17为例进行说明，对服务器侧语音识别结果候选列表413的服务器侧语音识别结果候选411“SYSTEM PICTURES OF THE GOLDEN GATE BRIDGE”与服务器侧语音识别结果候选412“SISTER PICTURES OF THE GOLDEN GATE BRIDGE”进行比较，检测出“SYSTEM”和“SISTER”作为有差异的部分文本。检测结果输出到识别结果综合部206′。

在步骤ST22中，识别结果综合部206′根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST12或步骤ST13中从识别结果候选比较部205输入的差异的检测结果，判定是否需要进行服务器侧语音识别结果候选的文本分割。

在图17和图18的例子中，在输入了客户端侧语音识别部202的客户端侧语音识别结果候选414“SEARCH FOR”、且从接收部204输入了由服务器侧语音识别结果候选411、412构成的服务器侧语音识别结果候选列表413的情况下，服务器侧语音识别结果候选411、412的文本不包含“SEARCH FOR”，从输入规则判定部211输入的发声规则为“命令+关键字”，并且从识别结果候选比较部205输入表示检测出差异的检测结果，因此，判定为需要进行文本的分割。

在需要进行服务器侧语音识别结果候选的文本分割的情况下(步骤ST22：“是”)，在步骤ST23中，识别结果综合部206′以有差异的部分文本为基准，对接收部204接收到的服务器侧语音识别结果候选的文本进行文本的分割。

在图17所示的例子中，针对服务器侧语音识别结果候选411的文本检测出“SYSTEM”作为有差异的部分文本，因此，将文本分割为“SYSTEM”和“PICTURES OF THEGOLDEN GATE BRIDGE”这2个。

接下来，作为步骤ST24，识别结果综合部206′根据从输入规则判定部211输入的发声规则，将步骤ST23中所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，作为语音识别结果，输出到输出部207。

在图17所示的例子中，根据发声规则的“命令+关键字”，将语音操作命令“SEARCHFOR”和与自由文对应的所分割的文本“PICTURES OF THE GOLDEN GATE BRIDGE”结合而得到的“SEARCH FOR PICTURES OF THE GOLDEN GATE BRIDGE”作为语音识别结果。

如以上那样，根据本实施方式6，即使在向语音识别装置200′输入了用英语发出的语音的情况下，也能够获得与实施方式2同样的效果。

实施方式7.

在上述的实施方式3中，以输入了使用者用日语发出的语音的情况为例，对语音识别系统的处理动作进行了说明，但是，在本实施方式7中，以输入了使用者用英语发出的语音的情况为例，对语音识别系统的处理动作进行说明。此外，本实施方式7的语音识别系统的结构以及动作与实施方式3所示的结构(参照图8)以及动作(参照图9、图11)相同，因此，使用图8、图9和图11进行说明。

以下，与实施方式3同样，分成下述的三种动作进行说明：第1动作是在输入语音/识别结果存储部222中未保存有数据的状态下进行了用英语发出的语音输入的情况下的动作；第2动作是在语音识别装置200″启动时生成修正用数据库221a的动作；以及第3动作是在输入语音/识别结果存储部222中保存有数据且生成了修正用数据库221a的状态下进行了用英语发出的语音输入的情况下的动作。

<第1动作>

首先，参照图9、图19以及实施方式6的图17，对第1动作进行说明。对与实施方式3相同的动作省略说明。

图19是示出本发明的实施方式7的语音识别系统的输入语音/识别结果存储部的保存例的图。

在图9的流程图的步骤ST34中，识别结果综合部206″根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8′中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST33中识别结果候选修正部221所取得的对照结果，判定能否进行服务器侧语音识别结果候选的文本分割。

例如，在输入了图17所示的客户端侧语音识别结果候选414“SEARCH FOR”作为客户端侧语音识别部202的客户端侧语音识别结果候选、从接收部204输入了图17所示的服务器侧语音识别结果列表413的情况下，该服务器侧语音识别结果列表413所包含的服务器侧语音识别结果候选411、412的文本不包含“SEARCH FOR”。另外，从输入规则判定部211输入的发声规则为“命令+关键字”，从识别结果候选修正部221输入表示没有修正候选的对照结果。由此，识别结果综合部206″判定为不能进行文本的分割。

而且，在不能进行服务器侧语音识别结果候选的文本分割的情况下(步骤ST34：“否”)，在步骤ST36以及步骤ST37中，识别结果综合部206″将步骤ST7中所取得的客户端侧语音识别结果候选作为语音识别结果保存到输入语音/识别结果存储部222中。

在图19所示的例子中，保存从客户端侧语音识别部202输入的语音识别结果“SEARCH FOR”作为与语音数据612的“语音数据(1)”对应的语音操作命令611。

以上是实施方式7的语音识别系统的第1动作。

<第2动作>

接下来，参照图11和图20，对第2动作进行说明。

图20是示出本发明的实施方式7的语音识别系统的语音识别装置的修正用数据库的一例的图。

在图11的流程图的步骤ST44中服务器侧语音识别结果候选与语音操作命令不一致的情况下(步骤ST44：“否”)，作为步骤ST45，在修正用数据库221a中追加将服务器侧语音识别结果候选作为修正候选与语音操作命令对应起来的信息。

在图20所示的例子中，在输入语音/识别结果存储部222中保存的语音操作命令711为“SEARCH FOR”、作为服务器侧语音识别结果候选的修正候选712为“SYSTEM”或“SISTER”的情况下，将各自对应起来的信息作为修正数据710追加到修正用数据库221a。

以上是实施方式7的语音识别系统的第2动作。

<第3动作>

接下来，参照上述的图9的流程图，对第3动作进行说明。

作为步骤ST32，识别结果候选修正部221将步骤ST8′中接收到的服务器侧语音识别结果候选的文本与修正用数据库221a进行对照。例如，在输入了图17所示的服务器侧语音识别结果候选列表413作为服务器侧语音识别结果候选的情况下，将服务器侧语音识别结果候选411的文本与构成图20所示的修正用数据库221a的修正数据710的修正候选712进行对照。

在检测出服务器侧语音识别结果候选411的文本包含修正用数据库221a的修正候选“SYSTEM”的情况下，作为步骤ST33，将修正用数据库221a的修正候选“SYSTEM”以及与其对应的语音操作命令“SEARCH FOR”作为对照结果输出到识别结果综合部206″。

接下来，作为步骤ST34，识别结果综合部206″根据步骤ST7中客户端侧语音识别部202所生成的客户端侧语音识别结果候选、步骤ST21中输入规则判定部211所判定的发声规则、步骤ST8中接收部204接收到的服务器侧语音识别结果候选、以及步骤ST33中从识别结果候选修正部221输入的对照结果，判定能否进行服务器侧语音识别结果候选的文本分割。

例如，在输入了图17所示的客户端侧语音识别结果候选414“SEARCH FOR”作为客户端侧语音识别部202的客户端侧语音识别结果候选、输入规则判定部211所判定的发声规则为“命令+关键字”、从接收部204输入了图17所示的服务器侧语音识别结果列表413的情况下，虽然服务器侧语音识别结果列表413的服务器侧语音识别结果411、412的文本不包含“SEARCH FOR”，但是从识别结果候选修正部221输入“SEARCH FOR”作为对照结果，因此，判断为能够进行文本的分割(步骤ST34：“是”)。

作为步骤ST35，识别结果综合部206″以与判定结果“SEARCH FOR”对应的修正候选“SYSTEM”为基准，对服务器侧语音识别结果候选的文本进行文本的分割。另外，作为步骤ST24，根据从输入规则判定部211输入的发声规则的信息，将所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，作为语音识别结果，作为步骤ST16，向输出部207输出语音识别结果。

以上是实施方式3的语音识别系统的第3动作。

如以上那样，根据本实施方式7，即使在向语音识别装置200″输入了用英语发出的语音的情况下，也能够获得与实施方式3同样的效果。

实施方式8.

在上述的实施方式4中，以输入了使用者用日语发出的语音的情况为例，对语音识别系统的处理动作进行了说明，但是，在本实施方式8中，以输入了使用者用英语发出的语音的情况为例，对语音识别系统的处理动作进行说明。此外，本实施方式8的语音识别系统的结构以及动作与实施方式3所示的结构(参照图8)以及实施方式4所示的动作(参照图13)相同，因此，使用图8和图13进行说明。

按照图13的流程图，参照图21和图22的具体例，对输入了用英语发出的语音的情况下的语音识别系统的动作进行说明。图21是示出本发明的实施方式8的语音识别系统的语音识别结果的生成例的图，图22是示出发声规则的模式存储例的图。

首先，在图13的流程图的步骤ST7中，客户端侧语音识别部202对所输入的语音数据进行语音识别。

例如，在客户端侧语音识别部202仅仅将地址薄等中登记的固有名词和语音操作命令作为识别对象的情况下，在图21所示的例子中，对使用者输入的语音数据“Send e-mail to Jones,Happy birthday,Jones.”进行语音识别，识别作为语音操作命令的“SENDE-MAIL TO”以及作为固有名词的“JONES”，取得客户端侧语音识别结果候选814“SEND E-MAIL TO JONES”。在图21的例子中，客户端侧语音识别结果候选列表815由1个客户端侧语音识别结果候选814构成。所取得的客户端侧语音识别结果候选输出到识别结果综合部206′以及输入规则判定部211。

接下来，在步骤ST21中，输入规则判定部211参照从客户端侧语音识别部202输入的客户端侧语音识别结果候选和输入规则保存部212中存放的发声规则的模式，进行语音操作命令的对照，判定步骤ST1中所输入的语音数据的发声规则。

例如，如果对图21所示的客户端侧语音识别结果候选814“SEND E-MAIL TOJONES”与图22所示的发声规则的模式910进行比较，则检测出一致的语音操作命令911“SEND E-MAIL TO”，取得对应的输入语音的发声规则912“命令+固有名词+自由文”。所取得的输入语音的发声规则输出到识别结果综合部206′。

接下来，在步骤ST11中，识别结果候选比较部205判定是否检测出有差异的部分文本，在检测出有差异的部分文本的情况下(步骤ST11：“是”)，作为步骤ST12，向识别结果综合部206′输出有差异的部分文本作为检测结果。

在图21的例子中，服务器侧语音识别结果列表813包含2个服务器侧语音识别结果候选811、812，因此，对作为各自的的文本信息的“SEND E-MAIL TO JOHN HAPPY BIRTHDAYJOHN”与“SEND E-MAIL TO JON HAPPY BIRTHDAY JON”进行比较，检测出存在2处有差异的部分并且均为相同文本(语音识别结果候选811为“JOHN”、语音识别结果候选812为“JON”)。

接下来，在步骤ST51中，识别结果综合部206′判定能否进行自由文的文本所包含的固有名词的置换。

关于能否进行固有名词的置换的判定，具体地如以下那样进行。在图21和图22的例子中，在输入了客户端侧语音识别部202的客户端侧语音识别结果候选814“SEND E-MAILTO JONES”、从接收部204输入了由服务器侧语音识别结果候选811、812构成的服务器侧语音识别结果候选列表813的情况下，判定服务器侧语音识别结果候选811、812的文本是否包含语音操作命令“SEND E-MAIL TO”。

在判定为包含语音操作命令的情况下，按照从输入规则判定部211输入的发声规则的信息(图22所示的与语音操作命令“SEND E-MAIL TO”对应的输入语音的发声规则“命令+固有名词+自由文”)，以语音操作命令的文本为基准，分割为与固有名词相应的文本(在图21的例子中为服务器侧语音识别结果候选811的“JOHN”和服务器侧语音识别结果候选812的“JON”)和与自由文相应的文本(在图21的例子中为服务器侧语音识别结果候选811的“HAPPY BIRTHDAY JOHN”和服务器侧语音识别结果候选812的“HAPPY BIRTHDAY JON”)。

另外，判定在与自由文相应的文本中是否存在与固有名词的文本一致的部分(在图21的例子中，判定为在自由文中存在与固有名词的文本一致的部分(语音识别结果候选811的“JOHN”和语音识别结果候选812的“JON”))。而且，在自由文中存在与固有名词的文本一致的部分的情况下，判定为能够进行固有名词的置换。

在判定为能够进行固有名词的置换的情况下(步骤ST51：“是”)，作为步骤ST52，根据从识别结果候选比较部205输入时的检测结果，进行分割为自由文的文本所包含的固有名词与对应的文本的置换。

在图21的例子中，将与分割为自由文的文本“HAPPY BIRTHDAY JOHN”所包含的固有名词对应的文本“JOHN”置换成由客户端侧语音识别部202识别出的固有名词的文本“JONES”，作为“HAPPY BIRTHDAY JONES”。

作为步骤ST24，识别结果综合部206′根据从输入规则判定部211输入的发声规则的信息，将所分割的文本和与客户端侧语音识别结果候选对应的语音操作命令结合，确定语音识别结果。

在图21的例子中，根据发声规则的“命令+固有名词+自由文”，将语音操作命令“SEND E-MAIL TO”和固有名词“JONES”以及与自由文对应的文本“HAPPY BIRTHDAY JONES”结合而得到的“SEND E-MAIL TO JONES HAPPY BIRTHDAY JONES”确定为语音识别结果。

如以上那样，根据本实施方式8，即使在向语音识别装置200″输入了用英语发出的语音的情况下，也能够获得与实施方式4同样的效果。

此外，本发明能够在其发明范围内进行各实施方式的自由组合、或各实施方式的任意结构要素的变形、或者各实施方式中任意结构要素的省略。

产业上的可利用性

如以上那样，本发明的语音识别系统以及语音识别装置能够应用于具有语音识别功能的各种设备中，即使在进行了包含多种意愿的输入的情况下，也能够高精度地提供最佳的语音识别结果。

标号说明

100：语音识别服务器；101：接收部；102：服务器侧语音识别部；103：发送部；200、200′：语音识别装置；201：语音输入部；202：客户端侧语音识别部；203：发送部；204：接收部；205：识别结果候选比较部；206、206′、206″：识别结果综合部；207：输出部；211：输入规则判定部；212：输入规则保存部；221：识别结果候选修正部；221a：修正用数据库；222：输入语音/识别结果存储部。

Claims

1.一种语音识别系统，其特征在于，

该语音识别系统具有服务器装置以及与所述服务器装置连接的客户端侧的语音识别装置，

所述服务器装置具有：

服务器侧接收部，其接收从所述语音识别装置输入的语音数据；

服务器侧语音识别部，其进行所述服务器侧接收部接收到的语音数据的语音识别，生成服务器侧语音识别结果候选；以及

服务器侧发送部，其向所述语音识别装置发送所述服务器侧语音识别部所生成的所述服务器侧语音识别结果候选，

所述语音识别装置具有：

语音输入部，其将所输入的发声语音转换成所述语音数据；

客户端侧语音识别部，其进行所述语音输入部所转换的所述语音数据的语音识别，生成客户端侧语音识别结果候选；

客户端侧发送部，其向所述服务器装置发送所述语音输入部所转换的所述语音数据；

客户端侧接收部，其接收所述服务器侧发送部所发送的所述服务器侧语音识别结果候选；

识别结果候选比较部，其对所述客户端侧接收部接收到的多个所述服务器侧语音识别结果候选进行比较，检测有差异的文本；

识别结果综合部，其根据所述客户端侧语音识别结果候选、所述服务器侧语音识别结果候选以及所述识别结果候选比较部的检测结果，综合所述客户端侧语音识别结果候选和所述服务器侧语音识别结果候选，确定语音识别结果；以及

输出部，其输出所述识别结果综合部所确定的语音识别结果，

所述识别结果综合部以所述有差异的文本为基准对所述服务器侧语音识别结果候选的文本进行分割，将所分割的文本和所述客户端侧语音识别结果候选的文本结合，确定语音识别结果。

2.根据权利要求1所述的语音识别系统，其特征在于，

所述语音识别装置具有输入规则判定部，该输入规则判定部对所述客户端侧语音识别结果与发声规则模式进行比较，判定所述语音数据的发声规则，该发声规则模式将规定的关键字与该关键字的发声规则对应起来，

所述识别结果综合部根据所述客户端侧语音识别结果、所述服务器侧语音识别结果、所述识别结果候选比较部的检测结果以及所述输入规则判定部所判定的发声规则，综合所述客户端侧语音识别结果候选和所述服务器侧语音识别结果候选。

3.根据权利要求2所述的语音识别系统，其特征在于，

所述语音识别装置具有：

输入语音/识别结果存储部，其将所述语音输入部所转换的语音数据以及所述识别结果综合部所确定的语音识别结果对应地保存；以及

识别结果候选修正部，其在装置启动时取得与所述输入语音/识别结果存储部中保存的语音数据对应的服务器侧语音识别结果候选，生成数据库，并且，将所生成的数据库与所述客户端侧接收部接收到的服务器侧语音识别结果候选进行对照，

所述识别结果综合部根据所述识别结果候选修正部的对照结果，综合所述客户端侧语音识别结果候选和所述服务器侧语音识别结果候选。

4.根据权利要求2所述的语音识别系统，其特征在于，

所述识别结果候选比较部对所述客户端侧接收部接收到的多个所述服务器侧语音识别结果候选进行比较，检测多个有差异的文本，且判定所检测出的多个文本是否表示相同内容，

在所述识别结果候选比较部判定为所检测出的多个文本表示相同内容的情况下，所述识别结果综合部将所述检测出的文本置换成基于所述服务器侧语音识别结果的固有名词。

5.一种语音识别装置，其是与具有语音识别功能的服务器装置连接的客户端侧的语音识别装置，其特征在于，

该语音识别装置具有：

语音输入部，其将所输入的发声语音转换成语音数据；

客户端侧接收部，其接收所述服务器装置根据所述客户端侧发送部所发送的所述语音数据而生成的服务器侧语音识别结果候选；