CN106537494B

CN106537494B - 语音识别装置和语音识别方法

Info

Publication number: CN106537494B
Application number: CN201580038253.0A
Authority: CN
Inventors: 伊谷裕介; 小川勇
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-07-23
Filing date: 2015-07-17
Publication date: 2018-01-23
Anticipated expiration: 2035-07-17
Also published as: DE112015003382B4; WO2016013503A1; JPWO2016013503A1; DE112015003382T5; US20170194000A1; CN106537494A; JP5951161B2

Abstract

在现有的服务器‑客户端型语音识别装置中，在未回送任意一方的语音识别结果的情况下，需要利用者从头讲话，因而存在利用者的负担较大这样的问题。本发明的语音识别装置向服务器发送输入语音，接收服务器对已发送的输入语音进行语音识别的结果即第1语音识别结果，进行输入语音的语音识别而得到第2语音识别结果，参照表现输入语音的讲话要素的结构的讲话规则，判定符合第2语音识别结果的讲话规则，根据第1语音识别结果的有无和第2语音识别结果的有无与构成讲话规则的讲话要素的有无之间的对应关系，决定表示未能得到语音识别结果的讲话要素的语音识别状态，与已决定的语音识别状态对应地，生成询问未能得到语音识别结果的讲话要素的应答语句，输出应答语句。

Description

语音识别装置和语音识别方法

技术领域

本发明涉及对讲出的语音数据进行识别处理的语音识别装置和语音识别方法。

背景技术

在客户端和服务器进行语音识别的现有的语音识别装置例如如专利文献1公开的那样，首先在客户端进行语音识别，在判定为客户端的语音识别结果的识别分数较低，识别精度较差的情况下，在服务器进行语音识别并采用服务器的语音识别结果。

并且，在专利文献1中还公开有如下的方法：同时并行地进行客户端的语音识别和服务器的语音识别，比较客户端的语音识别结果的识别分数和服务器的语音识别结果的识别分数，采用识别分数良好的一方作为识别结果。

另外，作为在客户端和服务器进行语音识别的另一现有例，在专利文献2中公开有例如将一般名词置换成固有名词的方法，作为服务器发送语音识别结果及一般名词、助词等词类信息，客户端使用接收到的词类信息进行识别结果的修正的方法。

现有技术文献

专利文献

专利文献1：日本特开2009-237439号公报

专利文献2：日本专利第4902617号

发明内容

发明要解决的问题

在现有的服务器-客户端型语音识别装置中，在服务器、客户端中的任意一方未回送语音识别结果的情况下，将不能对利用者通知语音识别结果，即使能通知也仅是一方的结果。在这种情况下，虽然语音识别装置能够催促再次讲话，但是，在现有的语音识别装置中需要利用者从头讲话，因而存在利用者的负担较大这样的问题。

本发明正是为了解决如上所述的问题而完成的，提供一种语音识别装置，即使在服务器、客户端中的任意一方未回送语音识别结果的情况下，也能够对讲话的一部分催促再次讲话，使得利用者的负担减小。

用于解决问题的手段

为了解决以上所述的问题，本发明的语音识别装置具有：发送部，其向服务器发送输入语音；接收部，其接收服务器对由发送部发送的输入语音进行语音识别的结果即第1语音识别结果；语音识别部，其进行输入语音的语音识别而得到第2语音识别结果；讲话规则存储部，其存储表现输入语音的讲话要素的结构的讲话规则；讲话规则判定部，其参照讲话规则判定符合第2语音识别结果的讲话规则；状态决定部，其存储有第1语音识别结果的有无和第2语音识别结果的有无与构成讲话规则的讲话要素的有无之间的对应关系，根据对应关系决定表示未能得到语音识别结果的讲话要素的语音识别状态；应答语句生成部，其与由状态决定部决定的语音识别状态对应地，生成询问未能得到语音识别结果的讲话要素的应答语句；以及输出部，其输出应答语句。

发明效果

本发明发挥如下的效果：即使在从服务器或者客户端中的任意一方未能得到语音识别结果的情况下，也能够通过判定未能得到语音识别结果的部分而让利用者再次讲出该部分，减小利用者的负担。

附图说明

图1是示出使用本发明的实施方式1的语音识别装置的语音识别系统的一个结构例的结构图。

图2是示出本发明的实施方式1的语音识别装置的处理流程的流程图(前半部分)。

图3是示出本发明的实施方式1的语音识别装置的处理流程的流程图(后半部分)。

图4是本发明的实施方式1的语音识别装置的讲话规则存储部存储的讲话规则的一例。

图5是说明服务器的语音识别结果和客户端的语音识别结果的整合的说明图。

图6是示出语音识别状态、客户端的语音识别结果的有无、服务器的语音识别结果的有无以及讲话规则之间的对应关系的图。

图7是示出语音识别状态与生成的应答语句之间的关系的图。

图8是示出讲话规则的讲话要素的确定状态与语音识别状态之间的对应关系的图。

具体实施方式

实施方式1

语音识别系统由语音识别服务器101和客户端的语音识别装置102构成。

语音识别服务器101具有接收部103、语音识别部104、发送部105。

接收部103从语音识别装置102接收语音数据。服务器的语音识别部104对接收到的语音数据进行语音识别而输出第1语音识别结果。发送部105将从语音识别部104输出的第1语音识别结果发送给语音识别装置102。

另一方面，客户端的语音识别装置102具有语音输入部106、语音识别部107、发送部108、接收部109、识别结果整合部110、状态决定部111、应答语句生成部112、输出部113、讲话规则判定部114、讲话规则存储部115。

语音输入部106是具有传声器等的设备，将利用者讲出的语音转换成数据信号即所谓的语音数据。另外，语音数据使用将收音设备取得的声音信号数字化而得到的PCM(Pulse Code Modulation：脉冲码调制)数据等。语音识别部107对从语音输入部106输入的语音数据进行语音识别而输出第2语音识别结果。语音识别装置102例如由微处理器或DSP(Digital Signal Processor：数字信号处理器)构成。语音识别装置102可以具有讲话规则判定部114、识别结果整合部110、状态决定部111、应答语句生成部112等的功能。发送部108是将输入的语音数据发送给语音识别服务器101的发送机。接收部109是接收从语音识别服务器101的发送部105发送的第1语音识别结果的接收机。发送部108和接收部109例如使用无线收发机或有线收发机。讲话规则判定部114从语音识别部107输出的第2语音识别结果中提取关键字，判定输入语音的讲话规则。讲话规则存储部115是存储有输入语音的讲话规则的模式的数据库。

识别结果整合部110根据由讲话规则判定部114判定出的讲话规则、接收部109从语音识别服务器101接收到的第1语音识别结果以及来自语音识别部107的第2语音识别结果，进行后述的语音识别结果的整合。然后，识别结果整合部110输出语音识别结果的整合结果。整合结果包含第1语音识别结果的有无和第2语音识别结果的有无的信息。

状态决定部111根据从识别结果整合部110输出的整合结果中包含的客户端和服务器的语音识别结果的有无的信息，判定是否能够确定给系统的命令。在给系统的命令不确定的情况下，状态决定部111决定整合结果对应的语音识别状态。然后，状态决定部111将已决定的语音识别状态输出给应答语句生成部112。并且，在给系统的命令确定的情况下，向系统输出已确定的命令。

应答语句生成部112生成与状态决定部111输出的语音识别状态对应的应答语句，将应答语句输出给输出部113。输出部113是将输入的应答语句输出给显示器等的显示器驱动装置、将应答语句作为语音输出的扬声器或者界面设备。

下面，参照图2和图3对实施方式1的语音识别装置102的动作进行说明。

图2和图3是示出实施方式1的语音识别装置的处理流程的流程图。

首先，在步骤S101中，语音输入部106通过传声器等将利用者讲出的语音转换成语音数据，然后向语音识别部107和发送部108输出语音数据。

然后，在步骤S102中，发送部108将从语音输入部106输入的语音数据发送给语音识别服务器101。

以下的步骤S201～步骤S203是语音识别服务器101的处理。

首先，在步骤S201中，语音识别服务器101在接收部103接收到从客户端的语音识别装置102发送的语音数据时，将接收到的语音数据输出给服务器的语音识别部104。

然后，在步骤S202中，服务器的语音识别部104对从接收部103输入的语音数据进行以任意的句子为识别对象的自由语句的语音识别，将由此得到的识别结果的文本信息输出给发送部105。自由语句的语音识别方法例如采用基于N-gram连续语音识别的听写技术。具体而言，服务器的语音识别部104对从客户端的语音识别装置102接收到的语音数据“发邮件给健儿先生，现在回去”进行语音识别，然后输出例如包含“郁闷给检事先生，现在回去”的语音识别结果列表，作为语音识别结果候选。另外，如该语音识别结果候选所示，在语音数据包含人名或命令名等的情况下语音识别较难，因而有时服务器的语音识别结果包含识别错误。

最后，在步骤S203中，发送部105将服务器的语音识别部104输出的语音识别结果作为第1语音识别结果发送给客户端的语音识别装置102，结束处理。

下面，返回到语音识别装置102的动作说明。

在步骤S103中，客户端的语音识别部107对从语音输入部106输入的语音数据进行识别语音操作用命令或人名等关键字的语音识别，将由此得到的识别结果的文本信息作为第2语音识别结果输出给识别结果整合部110。关键字的语音识别方法例如采用提取包含助词的短语的短语识别技术。客户端的语音识别部107存储有识别辞典，在该识别辞典中登记有语音操作用命令和人名信息并列表化。语音识别部107将在服务器具有的大量词汇的识别辞典中难以识别的语音操作用命令和人名信息作为识别对象，在利用者语音输入了“发邮件给健儿先生，现在回去”的情况下，语音识别部107识别出语音操作用命令“发邮件”和人名信息“健儿”，作为语音识别结果候选输出包含“发邮件给健儿先生”的语音识别结果。

然后，在步骤S104中，讲话规则判定部114对照从语音识别部107输入的语音识别结果和存储于讲话规则存储部115的讲话规则，判定符合语音识别结果的讲话规则。

图4是本发明的实施方式1的语音识别装置102的讲话规则存储部115存储的讲话规则的一例。

在图4中示出与语音操作用命令对应的讲话规则。讲话规则由包含人名信息的固有名词和命令和自由语句及其组合模式构成。讲话规则判定部114比较从语音识别部107输入的语音识别结果候选“发邮件给健儿先生”和存储于讲话规则存储部115的讲话规则的模式，在发现了一致的语音操作用命令“发邮件给…先生”的情况下，取得“固有名词+命令+自由语句”的信息作为与该语音操作用命令对应的输入语音的讲话规则。然后，讲话规则判定部114将取得的讲话规则的信息输出给识别结果整合部110，并且输出给状态决定部111。

然后，在步骤S105中，接收部109在接收到从服务器101发送的第1语音识别结果时，将第1语音识别结果输出给识别结果整合部110。

然后，在步骤S106中，识别结果整合部110确认是否存在客户端的语音识别结果和服务器的语音识别结果。在双方的结果一致的情况下进行如下的处理。

然后，在步骤S107中，识别结果整合部110参照从讲话规则判定部114输入的讲话规则，判定是否能够进行从接收部109输入的语音识别服务器101的第1语音识别结果和从语音识别部107输入的第2语音识别结果的整合。关于是否能够整合的判定，在第1语音识别结果和第2语音识别结果共同包含有嵌入讲话规则的命令的情况下判定为能够整合，在任意一方不包含命令的情况下判定为不能整合。在能够整合的情况下，通过“是”的分支路径进入步骤S108，在不能整合的情况下，通过“否”的分支路径进入步骤S110。

具体地讲，如下所述地进行是否能够整合的判定。识别结果整合部110根据讲话规则判定部114输出的讲话规则确认字符串中存在“发邮件”这样的命令。然后，检索服务器的语音识别结果的文本中的“发邮件”的位置，在文本中不包含“发邮件”的情况下，判断为不能进行整合。

例如，在被输入“发邮件”作为语音识别部107的语音识别结果，被输入“郁闷”作为服务器的语音识别结果的情况下，在服务器的语音识别结果文本中不包含“发邮件”，不符合从讲话规则判定部114输入的讲话规则。因此，识别结果整合部110判定为不能进行整合。

在识别结果整合部110判定为不能进行整合的情况下，视为未能得到来自服务器的识别结果进行处理。因此，将从语音识别部107输入的语音识别结果和表示未能得到来自服务器的信息的情况发送给状态决定部111。例如，向状态决定部111发送从语音识别部107输入的语音识别结果“发邮件”、客户端的语音识别结果：有、服务器的语音识别结果：无。

然后，在步骤S108中，在判定为能够进行整合的情况下，作为从接收部109输入的语音识别服务器101的第1语音识别结果和从语音识别部107输入的第2语音识别结果的整合的前处理，识别结果整合部110确定命令的位置。首先，根据讲话规则判定部114输出的讲话规则确认字符串中存在“发邮件”这样的命令，检索服务器的语音识别结果的文本中的“发邮件”，确定“发邮件”的位置。然后，根据作为讲话规则的“固有名词+命令+自由语句”，判断为比命令“发邮件”的位置靠后的字符串是自由语句。

然后，在步骤S109中，识别结果整合部110对服务器的语音识别结果和客户端的语音识别结果进行整合。识别结果整合部110首先针对讲话规则，从客户端的语音识别结果中采用固有名词和命令，从服务器的语音识别结果中采用自由语句。然后，将固有名词、命令、自由语句适用于讲话规则的各讲话要素。在此，将上述处理称作整合。

识别结果整合部110在客户端的语音识别结果是“发邮件给健儿先生”，服务器的语音识别结果是“发邮件给检事先生，现在回去”时，从客户端的语音识别结果中采用“健儿”作为固有名词，采用“发邮件”作为命令，从服务器的语音识别结果中采用“现在回去”作为自由语句。然后，将采用的字符串适用于作为讲话规则的讲话要素的固有名词、命令、自由语句，得到整合结果“发邮件给健儿先生，现在回去”。

然后，识别结果整合部110向状态决定部111输出已得到整合结果和客户端、服务器双方的识别结果这样的信息。例如，向状态决定部111发送整合结果“发邮件给健儿先生，现在回去”、客户端的语音识别结果：有、服务器的语音识别结果：有。

然后，在步骤S110中，状态决定部111根据识别结果整合部110输出的客户端的语音识别结果的有无、服务器的语音识别结果的有无以及讲话规则，判定是否能够决定语音识别状态。

语音识别状态表示对于讲话规则的讲话要素是否能够得到语音识别结果。状态决定部111利用图6所示的对应表，存储根据服务器的语音识别结果的有无、客户端的语音识别结果的有无以及讲话规则唯一地决定语音识别状态的对应关系。换言之，预先设定服务器的语音识别结果的有无与讲话规则中的各讲话要素的有无之间的对应关系，使得没有来自服务器的语音识别结果的情况对应于讲话规则包含自由语句的情况，没有来自服务器的语音识别结果的情况对应于没有自由语句的情况。因此，能够根据服务器和客户端的语音识别结果的有无的信息确定未能得到语音识别结果的讲话要素。

例如，在得到讲话规则：固有名词+命令+自由语句、客户端的语音识别结果：有、服务器的语音识别结果：有这样的信息的情况下，状态决定部111根据已存储的对应关系判定语音识别状态为S1。另外，在图6中，语音识别状态S4对应于未能决定语音识别状态。

然后，在步骤S111中，状态决定部111判定是否能够确定给系统的命令。例如，在语音识别状态为S1的情况下，将整合结果“发邮件给健儿先生，现在回去”确定为系统的命令，通过“是”的分支路径，使处理进入步骤S112。

然后，在步骤S112中，状态决定部111向系统输出系统的命令“发邮件给健儿先生，现在回去”。

下面，对虽然能够得到客户端的语音识别结果但是不能得到来自服务器的语音识别结果时的动作进行说明。

在步骤S106中，在不能得到来自服务器的识别结果的情况下，例如在经过固定时间T秒以上也没有来自服务器的应答的情况下，接收部109向识别结果整合部110发送没有服务器的语音识别结果这样的信息。

识别结果整合部110确认来自客户端的语音识别结果和来自服务器的语音识别结果是否一致，在没有来自服务器的语音识别的情况下，不进行步骤S107～S109的处理，进入步骤S115。

然后，在步骤S115中，识别结果整合部110确认是否存在客户端的语音识别结果，在存在客户端的语音识别结果的情况下，将整合结果输出给状态决定部111，通过“是”的分支路径进入步骤S110。在此，由于没有来自服务器的语音识别结果，因而整合结果成为客户端的语音识别结果。例如，向状态决定部111输出整合结果：“发邮件给健儿先生”、客户端的语音识别结果：有、服务器的语音识别结果：无。

然后，在步骤S110中，状态决定部111使用识别结果整合部110输出的客户端的语音识别结果和服务器的语音识别结果以及讲话规则判定部114输出的讲话规则，决定语音识别状态。在此，由于客户端的语音识别状态：有、服务器的语音识别状态：无、讲话规则：固有名词+命令+自由语句，因而参照图6决定语音识别状态为S2。

然后，在步骤S111中，状态决定部111判断是否能够确定给系统的命令。具体而言，状态决定部111在语音识别状态为S1时，判断为给系统的命令已确定。在此，在步骤S110中得到的语音识别状态为S2，因而状态决定部111判断为给系统的命令不确定，向应答语句生成部112输出语音识别状态S2。

并且，状态决定部111在给系统的命令无法确定的情况下，向语音输入部106输出语音识别状态S2，通过“否”的分支路径进入步骤S113。这是因为在语音输入部106中下一个输入语音是自由语句，指示向服务器发送语音数据。

然后，在步骤S113中，应答语句生成部112根据状态决定部111输出的语音识别状态，生成催促利用者回答的应答语句。

图7是示出语音识别状态与生成的应答语句之间的关系的图。

应答语句的内容是将能够得到语音识别结果的讲话要素提示给利用者，催促对未能得到语音识别结果的讲话要素讲话。在语音识别状态S2的情况下，固有名词和命令已确定，没有自由语句的语音识别结果，因而向输出部113输出催促仅讲出自由语句的应答语句。例如，应答语句生成部112向输出部113输出图7的S2所示的“发邮件给健儿先生。请再次讲出正文”这样的应答语句。

在步骤S114中，输出部113从显示器或扬声器等输出应答语句生成部112输出的应答语句“发邮件给健儿先生。请再次讲出正文”。

在利用者接收到应答语句而再一次讲话“现在回去”的情况下，进行前述的步骤S101的处理。但是，语音输入部106接收状态决定部111输出的语音识别状态S2，即可知道下一个到来的语音数据是自由语句。因此，语音输入部106将语音数据输出给发送部108，但不输出给客户端的语音识别部107。因此，不进行步骤S103、S104的处理。

服务器的步骤S201～S203的处理与前述相同，因而省略说明。

在步骤S105中，接收部109接收从服务器101发送的语音识别结果，将该语音识别结果输出给识别结果整合部110。

在步骤S106中，识别结果整合部110判断为虽然存在来自服务器的语音识别结果，但是不存在来自客户端的语音识别结果，通过“否”的分支路径进入步骤S115。

然后，在步骤S115中，由于不存在客户端的语音识别结果，因而识别结果整合部110向讲话规则判定部114输出服务器的语音识别结果，通过“否”的分支路径进入步骤S116。

然后，在步骤S116中，讲话规则判定部114进行前述的讲话规则的判定，将判定出的讲话规则输出给识别结果整合部110。然后，识别结果整合部110向状态决定部111输出服务器的语音识别结果：有和整合结果“现在回去”。在此，由于不存在客户端的语音识别结果，因而服务器的语音识别结果直接成为整合结果。

然后，在步骤S110中，状态决定部111存储再讲话以前的语音识别状态，根据识别结果整合部110输出的整合结果和来自服务器的语音识别结果：有这样的信息，更新语音识别状态。在对以前的语音识别状态为S2增加来自服务器的语音识别结果：有这样的信息时，客户端的语音识别结果和服务器的语音识别结果双方都是有，因而根据图6，语音识别状态从S2更新成S1。然后，将此次的整合结果“现在回去”适用于自由语句的位置，即确定给系统的命令为“发邮件给健儿先生，现在回去”。

然后，在步骤S111中，由于语音识别状态为S1，因而状态决定部111能够确定给系统的命令，判断为能够输出给系统的命令。

然后，在步骤S112中，状态决定部111向系统发送给系统的命令“发邮件给健儿先生，现在回去”。

另外，在步骤S106中反复N次也未能在固定时间T秒内得到服务器的语音识别结果的情况下，由于在步骤S110不能决定状态，因而状态决定部111将语音识别状态从S2更新成S4。状态决定部111向应答语句生成部112输出语音识别状态S4，并且将语音识别状态、整合结果废弃。应答语句生成部112参照图7生成与识别结果整合部110输出的语音识别状态S4对应的应答语句“不能进行语音识别”并输出给输出部113。

然后，在步骤S117中，输出部113通知应答语句。例如，通知利用者“不能进行语音识别”。

下面，对虽然能够得到来自服务器的语音识别结果但是不能得到客户端的语音识别结果的情况进行说明。

S101～S104、S201～S203与虽然能够得到客户端的语音识别结果但是不能得到来自服务器的语音识别结果的情况相同，因而省略说明。

首先，在步骤S106中，识别结果整合部110确认来自服务器的语音识别结果与客户端的语音识别结果是否一致。在此，由于虽然存在服务器的语音识别结果，但是不存在客户端的语音识别结果，因而识别结果整合部110不进行整合处理。

然后，在步骤S115中，识别结果整合部110确认是否存在客户端的语音识别结果。在不存在客户端的语音识别结果的情况下，识别结果整合部110将服务器的语音识别结果输出给讲话规则判定部114，通过“否”的分支路径进入步骤S116。

然后，在步骤S116中，讲话规则判定部114对服务器的语音识别结果判定讲话规则。例如，对于“郁闷给检事先生，现在回去”，讲话规则判定部114检查是否存在与存储于讲话规则存储部115的语音操作用命令一致的命令，或者对服务器的语音识别结果列表检索语音操作用命令，检查是否存在包含语音操作用命令的概率较高的部分，从而判定讲话规则。在此，讲话规则判定部114根据包含“郁闷给检事先生”“发邮件给检事先生”等的语音识别结果列表，判定为是语音操作用命令“发邮件给…先生”的概率较高，讲话规则是固有名词+命令+自由语句。

讲话规则判定部114将判定出的讲话规则输出给识别结果整合部110和状态决定部111。识别结果整合部110向状态决定部111输出客户端的语音识别结果：无、来自服务器的语音识别结果：有、整合结果：“郁闷给检事先生，现在回去”。在此，由于不存在客户端的语音识别结果，因而整合结果就是服务器的语音识别结果。

然后，在步骤S110中，状态决定部111根据讲话规则判定部114输出的讲话规则、识别结果整合部110输出的客户端的语音识别结果的有无、服务器的语音识别结果的有无以及整合结果，判断是否能够决定语音识别状态。状态决定部111参照图6决定语音识别状态。在此，由于讲话规则是固有名词+命令+自由语句且只有服务器的语音识别结果，因而状态决定部111将语音识别状态决定为S3并进行存储。

然后，在步骤S111中，状态决定部111判断是否能够确定给系统的命令。由于语音识别状态不是S1，因而状态决定部111视为不能确定给系统的命令并决定语音识别状态，将已决定的语音识别状态输出给应答语句生成部112。并且，状态决定部111将已决定的语音识别状态输出给语音输入部106。这是为了不将下一个输入的语音发送给服务器而输出给客户端的语音识别部107。

然后，在步骤S113中，应答语句生成部112参照图7对得到的语音识别状态生成应答语句。然后，应答语句生成部112将应答语句输出给输出部113。例如，在语音识别状态为S3的情况下，生成“现在回去如何？”这样的应答语句并输出给输出部113。

然后，在步骤S114中，输出部113从显示器或扬声器等输出应答语句，催促利用者再次讲出未能得到语音识别结果的讲话要素。

在催促利用者再次讲话且利用者再次讲出“发邮件给健儿先生”的情况下，S101～S104的处理如前所述，因而省略说明。另外，语音输入部106与状态决定部111输出的语音识别状态对应地，决定将再次讲出的语音发送至何处。在S2的情况下发送给服务器，因而仅向发送部108输出语音数据，在S3的情况下向客户端的语音识别部107输出语音数据。

然后，在步骤S106中，识别结果整合部110接收客户端的语音识别结果和讲话规则判定部114输出的讲话规则判定结果，确认客户端的语音识别结果与服务器的语音识别结果是否一致。

然后，在步骤S115中，识别结果整合部110确认是否存在客户端的语音结果，在存在的情况下，向状态决定部111输出客户端的语音识别结果：有、服务器的语音识别结果：无、整合结果：“发邮件给健儿先生”。在此，由于不存在服务器的语音识别结果，因而识别结果整合部110将客户端的语音识别结果作为整合结果。

然后，在步骤S110中，状态决定部111根据已存储的再次讲话前的语音识别状态、识别结果整合部110输出的客户端的语音识别结果、服务器的语音识别结果以及整合结果，更新语音识别状态。再次讲话前的语音识别状态为S3，不存在客户端的语音识别结果。但是，通过再次讲话而存在客户端的语音识别结果，因而状态决定部111将语音识别状态从S3更新成S1。并且，将识别结果整合部110输出的整合结果“发邮件给健儿先生”适用于已存储的讲话规则的固有名词+命令的讲话要素，确定给系统的命令“发邮件给健儿先生，现在回去”。

下面的步骤S111～S112如前所述，因而省略说明。

如上所述，根据实施方式1的发明，预先决定服务器的语音识别结果的有无和客户端的语音识别结果的有无与讲话规则的各讲话要素之间的对应关系，并存储该对应关系。因此，即使在未能得到来自服务器或者客户端中的任意一方的语音识别结果的情况下，也能够根据讲话规则和该对应关系确定未能得到语音识别结果的部分，并催促利用者再次讲出该部分。其结果是，不需要催促利用者从头讲话，具有能够减小利用者的负担这样的效果。

另外，假定在未能得到来自客户端的语音识别结果的情况下，应答语句生成部112生成“现在回去如何？”这样的应答语句，但是，也可以如下所述，状态决定部111分析已得到识别结果的自由语句并估计命令，让利用者选择估计出的命令候选。状态决定部111对自由语句检索是否包含与预先登记的命令之间的亲和度较高的句子，按照亲和度从高到低的顺序决定命令的候选。例如，蓄积过去的讲话语句的事例，利用在事例中出现的命令和自由语句中的各单词的共发概率定义亲和度。如果是“现在回去”这样的句子，则与“发邮件”和“打电话”的亲和度较高，从显示器或扬声器输出该候选。并且，还可考虑通知“是1：发邮件还是2：打电话？”等，让利用者讲出“1”。选择方法既可以是号码，也可以是利用者再次讲出“发邮件”或者“打电话”。这样，能够进一步减轻利用者再次讲话的负担。

并且，假定在不能得到来自服务器的语音识别结果的情况下，应答语句生成部112生成“发邮件给健儿先生。请再次讲出正文”这样的应答语句，但是，也可以生成“发邮件给健儿先生吗？”这样的应答语句。也可以是，输出部113从显示器或扬声器输出应答语句，在接收到利用者的“是”的结果后，在状态决定部111中决定语音识别状态。

另外，在利用者讲出“否”时，状态决定部111判断为未能决定语音识别状态，向应答语句生成部112输出语音识别状态S4。然后，如步骤S117所示，通过输出部113通知利用者不能进行语音识别。这样，通过询问利用者是否可以确定固有名词+命令的讲话要素，能够减少固有名词或命令的识别错误。

实施方式2

下面，说明实施方式2的语音识别装置。在实施方式1中说明了不存在服务器和客户端中的任意一方的语音识别结果的情况，在实施方式2中说明如下的情况：虽然存在服务器和客户端中的任意一方的语音识别结果，但是语音识别结果存在不确定性，因而语音识别结果的一部分不确定。

实施方式2的语音识别装置的结构与图1所示的实施方式1相同，因而省略各部的说明。

下面，对动作进行说明。

语音识别部107对利用者讲出的“发邮件给健儿先生”的语音数据进行语音识别，但是根据讲话状况，有可能在列表中出现多个语音识别候选如“发邮件给健儿先生”、“发邮件给健一先生”，而且语音识别候选的识别分数也都接近。在存在多个语音识别候选的情况下，识别结果整合部110生成例如“发邮件给？？先生”作为语音识别结果，以便向利用者询问不确定的固有名词部分。

识别结果整合部110向状态决定部111输出服务器的语音识别结果：有、客户端的语音识别结果：有、整合结果“发邮件给？？先生，现在回去”。

状态决定部111根据讲话规则和整合结果，判断讲话规则的哪个讲话要素已确定。然后，状态决定部111根据讲话规则的各讲话要素已确定还是未确定或者是否不存在讲话要素，决定语音识别状态。

图8是示出讲话规则的讲话要素的状态与语音识别状态之间的对应关系的图。例如，在“发邮件给？？先生，现在回去”的情况下，固有名词的部分未确定，命令和自由语句已确定，因而将语音识别状态决定为S2。状态决定部111向应答语句生成部112输出语音识别状态S2。

应答语句生成部112与语音识别状态S2对应地生成催促利用者再次讲出固有名词的“发邮件给谁？”这样的应答语句，将应答语句输出给输出部113。关于催促利用者再次讲话的方法，也可以根据客户端的语音识别结果列表示出选择项。例如，可以考虑通知“发邮件给1：健儿先生、2：健一先生、3：健吾先生中哪一位？”等，使其讲出号码的结构。在接收到利用者的再次讲话内容且识别分数可靠的情况下，使其确定“健儿先生”，并按照语音操作用命令确定“发邮件给健儿先生”这样的语句，输出语音识别结果。

如上所述，根据实施方式2的发明，即使在存在来自服务器或者客户端的语音识别结果但是识别结果的一部分不确定的情况下，也不需要让利用者讲出全部内容，具有减轻利用者的负担这样的效果。

标号说明

101语音识别服务器；102客户端的语音识别装置；103服务器的接收部；104服务器的语音识别部；105服务器的发送部；106语音输入部；107客户端的语音识别部；108客户端的发送部；109客户端的接收部；110识别结果整合部；111状态决定部；112应答语句生成部；113输出部；114讲话规则判定部；115讲话规则存储部。

Claims

1.一种语音识别装置，该语音识别装置具有：

发送部，其向服务器发送输入语音；

接收部，其接收所述服务器对由所述发送部发送的所述输入语音进行语音识别的结果即第1语音识别结果；

语音识别部，其进行所述输入语音的语音识别而得到第2语音识别结果；

讲话规则存储部，其存储表现所述输入语音的讲话要素的结构的讲话规则；

讲话规则判定部，其参照所述讲话规则判定符合所述第2语音识别结果的所述讲话规则；

状态决定部，其存储有所述第1语音识别结果的有无和所述第2语音识别结果的有无与构成所述讲话规则的所述讲话要素的有无之间的对应关系，根据所述对应关系决定表示未能得到语音识别结果的所述讲话要素的语音识别状态；

应答语句生成部，其与由所述状态决定部决定的所述语音识别状态对应地，生成询问未能得到语音识别结果的所述讲话要素的应答语句；以及

输出部，其输出所述应答语句。

2.根据权利要求1所述的语音识别装置，其中，

所述语音识别装置具有整合结果识别部，该整合结果识别部使用所述讲话规则对所述第1语音识别结果和所述第2语音识别结果进行整合并输出整合结果，

所述状态决定部决定针对所述整合结果的所述语音识别状态。

3.根据权利要求1所述的语音识别装置，其中，

所述讲话规则具有固有名词、命令和自由语句。

4.根据权利要求2所述的语音识别装置，其中，

所述讲话规则具有固有名词、命令和自由语句。

5.根据权利要求3所述的语音识别装置，其中，

所述接收部接收所述服务器对自由语句进行语音识别而得到的所述第1语音识别结果，

所述状态决定部对所述第1语音识别结果进行命令的估计来决定所述语音识别状态。

6.根据权利要求4所述的语音识别装置，其中，

7.根据权利要求1～6中的任意一项所述的语音识别装置，其中，

所述语音识别部输出多个所述第2语音识别结果，

所述应答语句生成部生成让利用者选择多个所述第2语音识别结果中的任意第2语音识别结果的所述应答语句。

8.一种语音识别装置的语音识别方法，该语音识别装置具有发送部、接收部、语音识别部、讲话规则判定部、状态决定部、应答语句生成部以及输出部，将表现讲话要素的结构的讲话规则存储在存储器中，所述语音识别方法包含：

发送步骤，所述发送部向服务器发送输入语音；

接收步骤，所述接收部接收所述服务器对在所述发送步骤中发送的所述输入语音进行语音识别的结果即第1语音识别结果；

语音识别步骤，所述语音识别部进行所述输入语音的语音识别而得到第2语音识别结果；

讲话规则判定步骤，所述讲话规则判定部参照所述讲话规则判定符合所述第2语音识别结果的所述讲话规则；

状态决定步骤，所述状态决定部存储有所述第1语音识别结果的有无和所述第2语音识别结果的有无与构成所述讲话规则的所述讲话要素的有无之间的对应关系，根据所述对应关系决定表示未能得到语音识别结果的所述讲话要素的语音识别状态；

应答语句生成步骤，所述应答语句生成部与在所述状态决定步骤中决定的所述语音识别状态对应地，生成询问未能得到语音识别结果的所述讲话要素的应答语句；以及

所述输出部输出所述应答语句的步骤。