CN105408953A

CN105408953A - 进行本地语音识别的语音识别客户端设备

Info

Publication number: CN105408953A
Application number: CN201480037157.XA
Authority: CN
Inventors: 古谷利昭
Original assignee: Atr Trek Co Ltd
Current assignee: Atr Trek Co Ltd; ATR-Trek
Priority date: 2013-06-28
Filing date: 2014-05-23
Publication date: 2016-03-16
Also published as: KR20160034855A; US20160125883A1; JP2015011170A; WO2014208231A1

Abstract

技术问题：提供一种客户端，其在本地也具有语音识别功能，能够自然地进行语音识别服务器的语音识别功能的启动，在抑制通信线路的负荷同时也能够维持高精度。解决手段：语音识别客户端装置(34)通过与语音识别服务器(36)的通信，接收利用由语音识别服务器(36)得到的语音识别结果，所述语音识别客户端装置(34)包含将语音转换为语音数据的分帧处理部(52)、对语音数据进行语音识别的本地语音识别处理部(80)、向语音识别服务器发送语音数据并接收由该语音识别服务器得到的语音识别结果的发送接收部(56)、根据语音识别处理部(80)对语音数据的识别结果来控制由发送接收部(56)发送语音数据的判断部(82)及通信控制部(86)。

Description

进行本地语音识别的语音识别客户端设备

技术领域

本发明涉及一种具备通过与语音识别服务器进行通信来识别语音的功能的语音识别客户端设备，尤其涉及一种具备与服务器分开的、本地语音识别功能的语音识别客户端设备。

背景技术

可连接到网络的手机等便携式终端设备的数量呈爆发性增长。便携式终端设备实际上可以说是小型计算机。尤其是所谓的智能手机等，能够使用互联网上搜索网站、收听收看音乐/视频、邮件交换、银行交易、速写、录音/录像等与台式计算机同等丰富的功能。

但是，为了使用如此丰富的功能而存在一个瓶颈，就是便携式终端设备的机壳小。便携式终端设备的框体小是注定的。因此，不能搭载如计算机键盘这样用于高速输入的设备。已发明出使用触摸面板的各种输入方式，与以前相比变得能够快速输入，但是输入还是没那么容易。

在这种情况下，语音识别作为用于输入的方式而备受注目。目前语音识别的主流是统计性语音识别设备，该统计性语音识别设备使用通过统计性处理许多语音数据而做成的声学模型以及由大量文件获得的统计性语言模型。由于这样的语音识别设备需要非常大的计算能力，因此只有大容量且计算能力充分高的计算机才能实现。在便携式终端设备中利用语音识别功能的情况下，利用在线提供语音识别功能的被称为语音识别服务器的服务器，便携式终端设备作为利用该结果的语音识别客户端来工作。在语音识别客户端进行语音识别时，将在本地处理语音而得到的语音数据、编码数据或语音的特征值(特性)在线发送到语音识别服务器，接收语音识别结果并进行基于该结果的处理。这是因为便携式终端设备的计算能力较低，且可利用的计算资源也有限的原因。

但是，由于半导体技术的进步，CPU(CentralProcessingUnit，中央处理器)的计算能力变得非常强，此外，存储器容量与以往相比有很大的增加。而且消耗电力变小。因此，即便是便携式终端设备也能够充分使用语音识别。而且，由于便携式终端设备中使用的用户被限定，因此通过预先特别设定语音识别的说话人，准备适合于该说话人的声学模型，或向词典添加特定词汇，从而能够提高语音识别的精度。

然而，在可利用的计算资源方面，由于语音识别服务器具有压倒性优势，因此，毫无疑问，在语音识别精度方面，由语音识别服务器进行语音识别比便携式终端设备更具优势。

这样，在日本专利公开2010-85536号公报(下面称为“‘536号公报”)，尤其是第0045～0050段及图4中公开了用于补偿便携式终端设备上搭载的语音识别的精度较低这一缺点的方案。‘536号公报涉及一种与语音识别服务器通信的客户端。该客户端对语音进行处理并转换为语音数据，向语音识别服务器发送。若从语音识别服务器接收到该语音识别结果，则对该语音识别结果附上句节分隔位置、句节的属性(文字种类)、单词的词性、句节的时间信息等。客户端利用来自服务器的语音识别结果中所附带的这些信息，在本地进行语音识别。此时，由于能够使用在本地添加的词汇或声学模型，因此根据词汇存在能够对被语音识别服务器错误识别的语音进行正确识别的可能性。

在‘536号公报所公开的客户端中，将来自语音识别服务器的语音识别结果与在本地进行的语音识别结果进行比较，对于两者识别结果不同的地方，由用户来任选其一。

发明内容

(一)要解决的技术问题

‘536号公报所公开的客户端起到了能够用本地语音识别结果补充语音识别服务器的识别结果这样的优异效果。但是，若考虑现在的便携式终端设备的语音识别的使用方法，关于具有这种功能的便携式终端的操作，认为还有改善的余地。其中一个问题在于，如何使语音识别处理在便携式终端设备上开始。

在‘536号公报中并没有公开在本地如何开始语音识别。在现有的可利用的便携式终端设备中，主流是在画面上显示用于开始语音识别的按钮，若触碰该按钮则启动语音识别功能。或者，也有设置用于开始语音识别的专用硬件按钮的方式。还有在不具备本地语音识别功能的手机工作的应用程序中，通过传感器感知用户做出发声姿势的状态，也就是将手机贴到耳旁的状态，从而开始语音输入和向服务器发送语音数据的方式。

但是，在启动这些任意一种语音识别功能时，需要用户进行特定的动作。这些便携式终端设备中，为了使用各种功能，可预测需要比以往更灵活地使用语音识别功能，因此需要使语音识别功能的启动变得更加自然。另一方面，既需要尽量抑制便携式终端设备与语音识别服务器之间的通信量，又需要维持语音识别的高精度。

因此，本发明的目的在于，提供一种语音识别客户端设备，其在使用语音识别服务器的同时在本地也具有语音识别功能，该语音识别客户端设备能够自然地进行语音识别功能的启动，在抑制通信线路的负荷的同时还能够维持语音识别的高精度。

(二)技术方案

本发明第一方面的语音识别客户端设备，是通过与语音识别服务器的通信来接收来自该语音识别服务器的语音识别结果的语音识别客户端设备。该语音识别客户端设备包含语音转换装置、语音识别装置、发送接收装置及发送接收控制装置，所述语音转换装置将语音转换为语音数据；所述语音识别装置对语音数据进行语音识别；所述发送接收装置向语音识别服务器发送语音数据并接收由该语音识别服务器得到的语音识别结果；所述发送接收控制装置根据语音识别装置对语音数据的识别结果，控制由发送接收装置进行的语音数据的发送。

基于本地语音识别装置的输出，对是否向语音识别服务器发送语音数据进行控制。为了利用语音识别服务器，除了发声不需要特别的操作。若语音识别装置的识别结果不是特定内容，则不向语音识别服务器发送语音数据。

其结果为，根据本发明，能够提供一种语音识别客户端设备，该语音识别客户端设备能够自然地进行语音识别功能的启动，在抑制通信线路负荷的同时还能维持语音识别的高精度。

优选地，发送接收控制装置包含关键词检测装置及发送开始控制装置，所述关键词检测装置检测由语音识别装置得到的语音识别结果中是否存在关键词，并输出检测信号；所述发送开始控制装置对检测信号做出响应，来控制发送接收装置，使得向语音识别服务器发送语音数据中与关键词的发声区间的开头具有规定关系的部分。

若在本地语音识别装置的语音识别结果中检测到关键词，则开始发送语音数据。为了利用语音识别服务器的语音识别，仅发出特殊的关键词的声音即可，不需要按压按钮等用于开始语音识别的明确性的操作。

更加优选地，发送开始控制装置包含下述装置，该装置对检测信号做出响应，并控制发送接收装置，使得向语音识别服务器发送语音数据中以关键词的发声结束位置为开头的部分。

从关键词之后部分开始向语音识别服务器发送语音数据，由此不在语音识别服务器进行关键词部分的语音识别即可。由于语音识别结果中不包含关键词，因此可以直接利用关键词之后发声的内容所涉及的语音识别结果。

更加优选地，发送开始控制装置包含下述装置：该装置对检测信号做出响应，并控制发送接收装置，使得发送语音数据中以关键词的发声开始位置为开头的部分。

通过将关键词发声开始位置作为开头并向语音识别服务器发送，能够通过语音识别服务器再次进行关键词部分的确认，或能够利用语音识别服务器的语音识别结果在便携式终端验证本地语音识别结果的正确性。

语音识别客户端设备还包含一致判断装置及进行执行的装置，所述一致判断装置判断发送接收装置接收到的由语音识别服务器得到的语音识别结果的开头部分与关键词检测装置检测到的关键词是否一致；所述进行执行的装置根据一致判断装置的判断结果，选择性地执行利用发送接收装置接收到的由语音识别服务器得到的语音识别结果的处理和废弃由语音识别服务器得到的语音识别结果的处理。

在本地语音识别结果与由语音识别服务器得到的语音识别结果不同的情况下，判断是否使用被认为精度更高的语音识别服务器的结果来处理发声者的发声。在本地语音识别结果错误的情况下，语音识别服务器的语音结果均不被利用，便携式终端不做任何反应地工作。因此，能够预防由于本地语音识别的语音识别结果错误而使语音识别客户端设备执行未按用户意图的处理。

优选地，发送接收控制装置包含关键词检测装置、发送开始控制装置及发送结束控制装置，所述关键词检测装置检测到由语音识别装置得到的语音识别结果中存在第一关键词而输出第一检测信号，检测到存在表示请求某些处理的第二关键词而输出第二检测信号；所述发送开始控制装置对第一检测信号做出响应，并控制发送接收装置，使得向语音识别服务器发送语音数据中与第一关键词的发声区间的开头具有规定关系的部分；所述发送结束控制装置对在通过发送接收装置开始发送语音数据之后产生第二检测信号做出响应，在语音数据的第二关键词的发声结束位置使通过发送接收装置进行的语音数据的发送结束。

在向语音识别服务器发送语音数据的时候，当在由本地语音识别装置得到的语音识别结果中检测到第一关键词时，向语音识别服务器发送与该第一关键词的发声开始位置具有规定关系那部分的语音数据。然后，在由本地语音识别装置得到的语音识别结果中，检测到表示请求某些处理的第二关键词时，不再进行此后的语音数据的发送。在使用语音识别服务器的时候，并不是仅发出第一关键词的声音即可，而是通过发出第二关键词的声音，能够在该时刻使语音数据的发送结束。无需为了检知发声结束而对规定的无声区间进行检测，从而能够提高语音识别的响应。

附图说明

图1是表示本发明第一实施方式的语音识别系统的示意结构的框图。

图2是作为第一实施方式的便携终端设备的手机的功能框图。

图3是对逐次方式语音识别的输出方法的概要进行说明的示意图。

图4是用于说明第一实施方式中，向语音识别服务器进行语音数据的发送开始及发送结束时刻和发送内容的示意图。

图5是表示第一实施方式中，控制向语音识别服务器进行语音数据的发送开始及结束的程序的控制结构的流程图。

图6是表示第一实施方式中，利用语音识别服务器的结果和本地语音识别结果来控制便携式终端设备的程序的控制结构的流程图。

图7是作为本发明的第二实施方式的便携式终端设备即的手机的功能框图。

图8是用于说明第二实施方式中，向语音识别服务器的语音数据的发送开始及发送结束时刻和发送内容的示意图。

图9是表示第二实施方式中，控制向语音识别服务器进行语音数据的发送开始及结束的程序的控制结构的流程图。

图10是表示第一实施方式及第二实施方式的设备结构的硬件框图。

具体实施方式

下面的说明及附图中，对相同部件标注相同的附图标记。因此，对于这些相同的部件，不再重复详细说明。

(第一实施方式)

(概要)

参照图1，第一实施方式的语音识别系统30包含具有本地语音识别功能的语音识别客户端设备也就是手机34，以及语音识别服务器36。两者可以通过互联网32相互通信。在本实施方式中，手机34具有本地语音识别功能，在抑制与语音识别服务器36之间的通信量的同时，以自然的方式实现对用户的操作做出响应。另外，在下面的实施方式中，从手机34向语音识别服务器36发送的语音数据是将语音信号分帧后得到的数据，但也可以是例如将语音信号编码后得到的编码数据，还可以是在语音识别服务器36中进行语音识别处理所使用的特征值。

(结构)

参照图2，手机34包含麦克风50、分帧处理部52、缓存器54及发送接收部56，所述分帧处理部52将从麦克风50输出的语音信号数字化并以规定帧长及规定帧移长度进行分帧化；所述缓存器54暂时存储作为分帧处理部52输出的语音数据；所述发送接收部56进行向语音识别服务器36发送存储在缓存器54中的语音数据的处理，以及通过无线接收来自网络的数据，该数据包含来自语音识别服务器36的语音识别结果等。分帧处理部52所输出的各帧中附带有各帧的时间信息。

手机34还包含控制部58、接收数据缓存器60、应用程序执行部62、触摸面板64、扬声器66及立体声扬声器68，所述控制部58用于通过缓存器54中存储的语音数据在后台进行本地语音识别，对检测到语音识别结果中规定的关键词做出响应，进行控制由发送接收部56对语音识别服务器36的语音信号的发送开始或发送结束的处理，以及将来自语音识别服务器的接收结果与本地语音识别结果进行对照，根据该结果来控制手机34的动作；所述接收数据缓存器60暂时存储由发送接收部56从语音识别服务器36接收到的语音识别结果；所述应用程序执行部62基于本地语音识别结果与来自语音识别服务器36的语音识别结果的对照，对由控制部58产生执行指令信号做出响应，执行使用了接收数据缓存器60中内容的应用程序；所述触摸面板64与应用程序执行部62连接；所述扬声器66与应用程序执行部62连接，并用于听取声音；所述立体声扬声器68同样与应用程序执行部62连接。

控制部58包含语音识别处理部80、判断部82及关键词词典84，所述语音识别处理部80对在缓存器54中存储的语音数据执行本地语音识别处理；所述判断部82对在语音识别处理部80输出的语音识别结果中是否含有用于控制向语音识别服务器36发送接收语音数据的规定关键词(开始关键词及结束关键词)进行判断，并在含有的情况下一起输出检测信号和该关键词；所述关键词词典84存储一个或多个作为判断部82的判断对象的开始关键词。另外，，若无声区间持续大于等于规定的阈值时间，则语音识别处理部80视该情况为发声结束，输出发声结束检测信号。若判断部82接收到发声结束检测信号，则对通信控制部86发出结束向语音识别服务器36发送数据的指令。

存储在关键词词典84的开始关键词为了尽量区别于通常的发声，设为使用名词。若考虑到向手机34请求某些处理，则作为该名词尤其是使用固有名词较为自然，故优选。也可以使用特定的命令语句，而不是固有名词。

作为结束关键词，在日语的情况下，与开始关键词不同，更为一般地，采用动词的命令形、动词的基本形+终止形、请求表达或疑问表达等通常的日语中向他人有所请求的表达。即，在检测到其中任意一种时，判断为检测到结束关键词。由此，用户能够以自然的说话方式向手机请求处理。为了使这种处理成为可能，只要语音识别处理部80在识别结果的各单词中附带表示该单词的词性、动词的活用形、助词的种类等的信息即可。

控制部58还包含通信控制部86、暂时存储部88及执行控制部90，所述通信控制部86用于对从判断部82接收到检测信号及检测到的关键词做出响应，并按照检测到的关键词为开始关键词或结束关键词，来开始或结束向语音识别服务器36发送存储在缓存器54的语音数据的处理；所述暂时存储部88对判断部82在利用语音识别处理部80的语音识别结果中所检测到的关键词中的开始关键词进行存储；所述执行控制部90将由接收数据缓存器60接收到的语音识别服务器36的语音识别结果的文本开头部分，与在暂时存储部88中存储的本地语音识别结果的开始关键词进行比较，当两者一致时，以使用存储于接收数据缓存器60中的数据内的开始关键词的后续部分并执行规定的应用程序的方式来控制应用程序执行部62。在本实施方式中，执行怎样的应用程序是应用程序执行部62根据存储在接收数据缓存器60中内容来判断的。

语音识别处理部80在对缓存器54中存储的语音数据进行语音识别时，有两种输出语音识别结果的方式。分为单次发声方式和逐次方式。单次发声方式是指，在语音数据内存在超过规定时间的无声区间时，对到此为止的语音的语音识别结果进行输出，并从下一个的发声区间开始重新进行语音识别。逐次方式是指，以规定时间间隔(例如每100毫秒)对随时存储在缓存器54中的所有语音数据的语音识别结果进行输出。因此，若发声区间变长，则语音识别结果的文本也随之变长。本实施方式中，语音识别处理部80采用逐次方式。另外，若发声区间变得非常长，则利用语音识别处理部80进行的语音识别将变得困难。因此若发声区间大于等于规定时长，则语音识别处理部80设为强制结束发声，并结束到此为止的语音识别，开始新的语音识别。另外，在通过语音识别处理部80进行语音识别的输出为单次发声方式的情况下，也能实现与本实施方式同样的如下功能。

参照图3，对语音识别处理部80的输出时序进行说明。发声100包含第一发声110和第二发声112，两者之间存在无声区间114。若在缓存器54中存储语音数据，则如语音识别结果120所示，语音识别处理部80以每100毫秒输出一次对存储在缓存器54中的所有语音的语音识别结果。在这种方式中，也有在中途修改部分语音识别结果的情况。例如，如图3所示的语音识别结果120的情况下，在200毫秒时刻输出的“熱い(ATSUI)”这个单词在300毫秒时刻被修改为“暑い(ATSUI)”。在该方式中，在无声区间114的时长大于规定的阈值的情况下，视为发声结束。其结果为，存储在缓存器54中的语音数据被清除(舍弃)，开始对下一个发声进行语音识别处理。在图3的情况下，下一个语音识别结果122与新的时序信息一起从语音识别处理部80输出。判断部82对于语音识别结果120或语音识别结果122等各个语音识别结果，在每次语音识别结果被输出时，判断是否与存储在关键词词典84的开始关键词中任意一个一致，或是否具备结束关键词的条件，并输出开始关键词检测信号或结束关键词检测信号。但是，在本实施方式中，开始关键词仅在不向语音识别服务器36发送语音数据时进行检测，结束关键词仅在检测到开始关键词之后进行检测。

(动作)

手机34进行如下操作。麦克风50始终检测周围的语音并将语音信号传送到分帧处理部52。分帧处理部52将语音信号数字化并分帧，依次输入缓存器54中。语音识别处理部80每100毫秒对在缓存器54中存储的所有语音数据进行一次语音识别，并将该结果输出到判断部82。若本地语音识别处理部80检测到大于等于阈值时间的无声区间，则清除缓存器54，并向判断部82输出表示检测到发声结束的信号(发声结束检测信号)。

若判断部82从语音识别处理部80接收到本地语音识别结果，则判断其中是否存在关键词词典84中所存储的开始关键词，或是否具有作为结束关键词的条件的表达。在判断部82在未向语音识别服务器36发送语音数据期间，在本地语音识别结果内检测到开始关键词的情况下，将开始关键词检测信号传送到通信控制部86。另一方面，若判断部82在向语音识别服务器36发送语音数据期间，在本地语音识别结果内检测到结束关键词，则将结束关键词检测信号传送到通信控制部86。判断部82还在从语音识别处理部80接收到发声结束检测信号时，对通信控制部86发出指令，使得结束向语音识别服务器36发送语音数据。

通信控制部86若从判断部82接收到开始关键词检测信号，则控制发送接收部56，在存储在缓存器54中的数据中，从检测到的开始关键词的开头位置起始读取数据，并开始向语音识别服务器36发送的处理。此时，通信控制部86将从判断部82传送来的开始关键词保存在暂时存储部88。若通信控制部86从判断部82接收到结束关键词检测信号，则控制发送接收部56，将在存储于缓存器54中的数据中检测到的直至结束关键词为止的语音数据向语音识别服务器36发送之后，结束发送。若从判断部82接收到来自发声结束检测信号的发送结束的指示，则通信控制部86控制发送接收部56，将在存储于缓存器54中的语音数据中直到检测到发声结束的时间为止的语音数据全部发送至语音识别服务器36之后，结束发送。

接收数据缓存器60在通过通信控制部86向语音识别服务器36开始发送语音数据后，存储由语音识别服务器36发送来的语音识别结果的数据。执行控制部90对接收数据缓存器60的开头部分是否与暂时存储部88中保存的开始关键词一致。若两者一致，则执行控制部90控制应用程序执行部62，在接收数据缓存器60中，读取与开始关键词一致部分之后的数据。应用程序执行部62基于由接收数据缓存器60读取的数据来判断执行怎样的应用程序，并将语音识别结果传送到该应用程序并进行处理。处理的结果例如在触摸面板64上表示，或通过扬声器66或立体声扬声器68以语音的形式输出。

参照例如图4，对具体的例子进行说明。表示用户进行发声140。发声140包含“vGate君(vGateKUN)”的发声部分150和“この辺りのラーメン屋さん調べて(KONOATARINORA-MENYASANSHIRABETE；查询一下这附近的拉面店)”的发声部分152。发声部分152包含“この辺りのラーメン屋さん(KONOATARINORA-MENYASAN；这附近的拉面店)”的发声部分160和“調べて(SHIRABETE；查询一下)”的发声部分162。

这里，作为开始关键词，例如添加“vGate君(vGateKUN)”、“羊君”等。这样一来，由于发声部分150与开始关键词一致，因此在发声部分150被语音识别的时刻开始向语音识别服务器36发送语音数据170的处理。语音数据170如图4所示，包含发声140的所有语音数据，其开头为与开始关键词相对应的语音数据172。

另一方面，在发声部分162中，“調べて(SHIRABETE；查询一下)”的表达为请求表达，满足作为结束关键词的条件。因此，在本地语音识别结果中检测到该表现的时刻，结束向语音识别服务器36发送语音数据170的处理。

若语音数据170的发送结束，则对语音数据170的语音识别结果180由语音识别服务器36向手机34发送，并存储在接收数据缓存器60中。语音识别结果180的开头部分182是与开始关键词相对应的语音数据172的语音识别结果。若该开头部分182与对发声部分150(开始关键词)的客户端语音识别结果一致，则将在语音识别结果180中从开头部分182之后部分开始的语音识别结果184发送到应用程序执行部62(参照图1)，通过适当的应用程序进行处理。若开头部分182与对发声部分150(开始关键词)的客户端语音识别结果不一致，则清除接收数据缓存器60，应用程序执行部62不做任何动作。

如上所述，根据该本实施方式，若通过本地语音识别在发声中检测到开始关键词，则开始向语音识别服务器36发送语音数据的处理。若通过本地语音识别在发声中检测到结束关键词，则结束向语音识别服务器36发送语音数据。将从语音识别服务器36发送来的语音识别结果的开头部分，与通过本地语音识别检测到的开始关键词进行比较，若两者一致，则使用语音识别服务器36的语音识别结果来执行某些处理。因此，在本实施方式中，在使手机34执行某些处理的情况下，用户不需任何操作，仅发出开始关键词和执行内容的声音即可。若通过本地语音识别正确识别开始关键词，则执行使用了由手机34得到的语音识别结果的所希望的处理，并通过手机34输出结果。不需要按压用于开始语音输入的按钮，就能够更简单地使用手机34。

这样处理存在的问题在于，开始关键词被错误检测的情况。如上所述，通常由便携式终端在本地执行的语音识别的精度低于由语音识别服务器执行的语音识别的精度。因此本地语音识别有可能错误检测开始关键词。在这种情况下，若基于错误检测到的开始关键词来执行某些处理，并从手机34输出该结果，则会造成未按用户意图的动作。从而这种动作并不优选。

在本实施方式中，假设即使由本地语音识别错误检测到开始关键词，如果来自语音识别服务器36的语音识别结果的开头部分与开始关键词不一致，则手机34也将不执行该结果所涉及的任何处理。手机34的状态没有任何变化，表面上看起来完全没有任何操作。因此，用户完全意识不到执行了如上所述的处理。

进而，上述实施方式中，在开始关键词被本地语音识别检测到的情况下，开始向语音识别服务器36发送语音数据的处理，在结束关键词被本地语音识别检测到的情况下，结束发送处理。为了结束语音发送并不需要用户特殊的操作。相较于在检测到大于等于规定时间的空白时结束发送的情况，能够在检测到结束关键词后立刻结束向语音识别服务器36发送语音数据。其结果为，能够防止从手机34向语音识别服务器36发送无效的数据，也使语音识别的响应提高。

(基于程序的实现)

上述第一实施方式的手机34可通过如后所述那样的与计算机同样的手机硬件以及该硬件上的处理器所执行的程序来实现。图5中以流程图的形式来表示实现图1的判断部82及通信控制部86功能的程序的控制结构，图6中以流程图的形式来表示实现执行控制部90功能的程序的控制结构。这里将两者作为不同程序来说明，但也可以将两者统一，或分别分割为更小单位的程序。

参照图5，实现判断部82及通信控制部86功能的程序包含若手机34的电源接通时被启动，则对所使用的存储器区域执行初始化等的步骤200、判断是否从系统接收到表示结束程序执行的结束信号，在接收到结束信号时执行必要的结束处理并结束执行该程序的步骤202、在未接收到结束信号时，对是否从语音识别处理部80接收到本地语音识别结果进行判断，若未接收到则使控制返回至步骤202的步骤204。如上所述，语音识别处理部80按每规定时间逐次输出语音识别结果。因此，步骤204的判断在每个规定时间成为“是”。

该程序还包含对在步骤204中判断为接收到本地语音识别的结果做出响应，判断本地语音识别结果中是否包含关键词词典84中所存储的任意一个开始关键词，在未包含的情况下使控制返回到步骤202的步骤206、在本地语音识别结果中包含任意开始关键词时，将该开始关键词保存到暂时存储部88的步骤208、向发送接收部56发出指令，使得在缓存器54(图2)中存储的语音数据中从开始关键词的开头部分起向语音识别服务器36发送语音数据的步骤210。之后，处理移至向手机34的语音数据发送中的处理。

语音数据发送中的处理包含对是否接收到系统的结束信号进行判断，在接收到时执行必要的处理并结束该程序的执行的步骤212、在未接收到结束信号时，判断对是否从语音识别处理部80接收到本地语音识别结果的步骤214、在接收到本地语音识别结果时，对其中是否存在具有结束关键词条件的表现进行判断，没有的话使控制返回步骤202的步骤216、在本地语音识别结果中存在满足结束关键词条件的表达时，将存储在缓存器54中的语音数据中直到检测到结束关键词部分的末尾为止的部分向语音识别服务器36发送并在之后结束发送，并使控制返回步骤202的步骤218。

该程序还包含在步骤214中判断为未从语音识别处理部80接收到本地语音识别结果时，对无发声的情况下是否经过规定时间进行判断，若未经过规定时间则使控制返回步骤212的步骤220、在无发声的情况下经过规定时间时，结束向语音识别服务器36发送存储在缓存器54中的语音数据，使控制返回步骤202的步骤222。

参照图6，实现图2的执行控制部90的程序包含在手机34的电源接通时被启动，并执行必要的初始化处理的步骤240、判断是否接收到结束信号，并在接收到时则结束执行该程序的步骤242、在未接收到结束信号时，判断是否从语音识别服务器36接收到语音识别结果的数据，若未接收到则使控制返回到步骤242的步骤244。

该程序还包含在从语音识别服务器36接收到语音识别结果的数据时，读取保存在暂时存储部88的开始关键词的步骤246、判断在步骤246中读取的开始关键词是否与来自语音识别服务器36的语音识别结果的数据开头部分一致的步骤248、在两者一致时，控制应用程序执行部62，使得从接收数据缓存器60中读取在语音识别服务器36的语音识别结果中从开始关键词的末尾部之后位置起始直至结束为止的数据的步骤250、在步骤248判断为与开始关键词不一致时，清除(或舍弃)在接收数据缓存器60中存储的由语音识别服务器36得到的语音识别结果的步骤254；在步骤250或步骤254之后，清除暂时存储部88并使控制返回到步骤242的步骤252。

根据图5所示的程序，若本地语音识别结果与开始关键词一致，则通过步骤206进行判断，从而在步骤208将该开始关键词保存到暂时存储部88，在步骤210之后，向语音识别服务器36发送存储在缓存器54中的语音数据中从与开始关键词一致的开头部分起始的语音数据。若检测到在语音数据发送中本地语音识别结果中存在满足作为结束关键词的条件的表达(图5的步骤216中为“是”)，则在向语音识别服务器36发送存储在缓存器54中的语音数据中直到结束关键词末尾部分为止的数据后，结束发送。

另一方面，在从语音识别服务器36接收到语音识别结果时，若图6的步骤248的判断为肯定，则由应用程序执行部62从接收数据缓存器60读取语音识别结果中与开始关键词一致部分的末尾之后的部分，应用程序执行部62执行与语音识别结果的内容相对应的适当的处理。

因此，通过在手机34上执行图5及图6中表示控制结构的程序，能够实现上述实施方式的功能。

(第二实施方式)

在上述实施方式中，若在本地语音识别中检测到开始关键词，则将该开始关键词暂时保存到暂时存储部88中。接着，当由语音识别服务器36反馈语音识别结果时，根据语音识别结果的开头部分与暂时保存的开始关键词是否一致，来判断是否执行使用语音识别服务器36的语音识别结果的处理。但是本发明并不限定于这样的实施方式。也可以考虑不进行这样的判断，而直接使用语音识别服务器36的语音识别结果的实施方式。该方式尤其在本地语音识别的关键词检测精度足够高时有效。

参照图7，该第二实施方式的手机260与第一实施方式的手机34具有大致相同的结构。但是，不包含将由语音识别服务器36得到的语音识别结果与开始关键词之间进行对比所需要的功能模块，变得更为简略，在这一方面与手机34不同。

具体地，手机260简化了图1所示的控制部58，与第一实施方式的手机34的不同点在于，以控制部270代替控制部58，所述控制部270不进行由语音识别服务器36的语音识别结果与开始关键词的对比；以接收数据缓存器272代替图1中接收数据缓存器60，所述接收数据缓存器272不依赖控制部58的控制，暂时保存来自语音识别服务器36的语音识别结果并全部输出；以应用程序执行部274代替图1中应用程序执行部62，所述应用程序执行部274不受控制部270的控制，全部处理来自语音识别服务器36的语音识别结果。

控制部270与图1的控制部58的不同点在于，不具备图1所示的暂时存储部88及执行控制部90；以及以通信控制部280代替图1中的通信控制部86，所述通信控制部280具有如下功能，即在本地语音识别结果内检测到开始关键词时，控制发送接收部56，使得向语音识别服务器36发送存储于缓存器54中的语音数据内与开始关键词相对应的位置的紧随其后起的数据的处理开始。另外，通信控制部280也与控制部58同样，在本地语音识别结果中检测到结束关键词时，控制发送接收部56，使得结束向语音识别服务器36发送语音数据。

参照图8，对本实施方式的手机260的动作概要进行说明。将发声140的结构设为与图4所示的相同的结构。本实施方式的控制部270在发声140中的发声部分150中检测到开始关键词时，向语音识别服务器36发送语音数据290，该语音数据290是语音数据中从检测到开始关键词的部分之后直到检测到结束关键词后的部分(相当于图8所示的发声部分152)。即，语音数据290中不包含开始关键词部分的语音数据。其结果为，从语音识别服务器36返回的语音识别结果292中也不包含开始关键词。因此，若发声部分150的部分的本地语音识别结果正确，则来自服务器的语音中也不包含开始关键词，即使由应用程序执行部274处理所有语音识别结果292，也不会发生特别的问题。

图9中以流程图形式表示用于实现本实施方式的手机260的判断部82及通信控制部280功能的程序的控制结构。该图与第一实施方式中图5所示的内容相当。另外，在本实施方式中，不需要如第一实施方式中图6所示的控制结构的程序。

参照图9，该程序从图5中表示控制结构的流程图中删除步骤208，并包含步骤300来代替步骤210，该步骤300控制发送接收部56，使得向语音识别服务器36发送存储于缓存器54的语音数据中从开始关键词末尾之后的位置起的语音数据。在其他方面，该程序示出与图5所示相同的控制结构。在执行该程序时的控制部270的动作也已经说明得十分明确。

在该第二实施方式中，在如下方面能够得到与第一实施方式相同的效果：为了开始语音数据的发送，用户不必特别进行任何操作；在向语音识别服务器36发送语音数据时，能够将数据量抑制得很小。此外在该第二实施方式中，若本地语音识别的关键词检测精度高，还能实现如下效果，即通过简单的控制能够利用使用了服务器得到的语音识别结果来进行各种的处理。

(手机的硬件框图)

图10表示实现第一实施方式的手机34及第二实施方式的手机260的手机硬件框图。在以下的说明中，以手机34及手机260为代表来对手机34进行说明。

参照图10，手机34包括麦克风50及扬声器66、与麦克风50及扬声器66连接的音频电路330；与音频电路330连接并用于数据传送及控制信号传送总线320、具备GPS用、手机线路用及按照其他规格的用于无线通信的天线并通过无线实现各种通信的无线电路332、进行在无线电路332与手机34其他模块之间中转的处理，并与总线320连接的通信控制电路336、与通信控制电路336连接，接收使用者对手机34的输入指令，并将输入信号传送到通信控制电路336的操作按钮334、与总线320连接，并具备用于执行各种应用程序的CPU(未图示)、ROM(只读存储器：未图示)及RAM(RandomAccessMemory：未图示)的应用程序执行用IC(集成电路)322、与应用程序执行用IC322连接的照相机326、存储卡入输出部328、触摸面板64及DRAM(DynamicRAM)338、与应用程序执行用IC322连接，并存储通过应用程序执行用IC322执行的各种应用程序的非挥发性存储器324。

在非挥发性存储器324中，存储有实现图1所示的语音识别处理部80的本地语音识别处理程序350、实现判断部82、通信控制部86及执行控制部90的发声发送接收控制程序352、关键词词典84、用于维护存储于关键词词典84的关键词的词典维护程序356。这些程序，均在由应用程序执行用IC322执行时，载入到应用程序执行用IC322内未图示的存储器中，通过应用程序执行用IC322内的CPU所具有的被称为程序计数器(プログラムカウンタ；ProgramCounter)的寄存器，从指定地址进行读取，并通过CPU来执行。执行结果存储在DRAM338、安装在存储卡输入输出部328上的存储卡、应用程序执行用IC322内的存储器、通信控制电路336内的存储器、音频电路330内的存储器中由程序指定的地址中。

图2及图7所示的分帧处理部52通过音频电路330来实现。缓存器54及接收数据缓存器272通过DRAM338或通信控制电路336或应用程序执行用IC322内的存储器来实现。发送接收部56通过无线电路332及通信控制电路336来实现。图1的控制部58及应用程序执行部62以及图7的控制部270及应用程序执行部274在本实施方式中均通过应用程序执行用IC322来实现。

本次公开的实施方式仅为例示，本发明并不仅被上述实施方式所限定。本发明的范围使在参照发明的详细说明的基础上，通过权利要求书的各个权利要求来表示的，且包含与各权利要求所述的内容均等的含义以及范围内的全部变更。

工业实用性

本发明能够用于语音识别客户端设备，该语音识别客户端设备具备通过与语音识别服务器进行通信来识别语音的功能。

附图标记说明

30语音识别系统

34手机

36语音识别服务器

50麦克风

54缓存器

56发送接收部

58控制部

60接收数据缓存器

62应用程序执行部

80语音识别处理部

82判断部

84关键词词典

86通信控制部

88暂时存储部

90执行控制部

Claims

1.一种语音识别客户端设备，其通过与语音识别服务器的通信来接收来自该语音识别服务器的语音识别结果，其包含语音转换装置、语音识别装置、发送接收装置及发送接收控制装置，

所述语音转换装置将语音转换为语音数据；

所述语音识别装置对所述语音数据进行语音识别；

所述发送接收装置向所述语音识别服务器发送所述语音数据并接收由该语音识别服务器得到的语音识别结果；

所述发送接收控制装置根据所述语音识别装置对所述语音数据的识别结果，控制由所述发送接收装置进行的语音数据的发送。

2.根据权利要求1所述的语音识别客户端设备，其特征在于，所述发送接收控制装置包含关键词检测装置及发送开始控制装置，

所述关键词检测装置检测由所述语音识别装置得到的语音识别结果中是否存在关键词，并输出检测信号；

所述发送开始控制装置对所述检测信号做出响应，来控制所述发送接收装置，使得将所述语音数据中、与所述关键词的发声区间的开头具有规定关系的部分向所述语音识别服务器发送。

3.根据权利要求2所述的语音识别客户端设备，其特征在于，所述发送开始控制装置包含下述装置，该装置对所述检测信号做出响应，并控制所述发送接收装置，使得向所述语音识别服务器发送所述语音数据中以所述关键词的发声结束位置为开头的部分。

4.根据权利要求2所述的语音识别客户端设备，其特征在于，所述发送开始控制装置包含下述装置：该装置对所述检测信号做出响应，并控制所述发送接收装置，使得发送所述语音数据中以所述关键词的发声开始位置为开头的部分。

5.根据权利要求4所述的语音识别客户端设备，其特征在于，还包含一致判断装置及进行执行的装置，

所述一致判断装置啪啪啪判断所述发送接收装置接收到的由所述语音识别服务器得到的语音识别结果的开头部分与所述关键词检测装置检测到的关键词是否一致；

所述进行执行的装置根据所述一致判断装置的判断结果，选择性地执行利用所述发送接收装置接收到的由所述语音识别服务器的语音识别结果的处理和废弃由所述语音识别服务器得到的语音识别结果的处理。

6.根据权利要求1所述的语音识别客户端设备，其特征在于，所述发送接收控制装置包含关键词检测装置、发送开始控制装置及发送结束控制装置，

所述关键词检测装置检测到由所述语音识别装置得到的语音识别结果中存在第一关键词而输出第一检测信号，检测到存在表示请求某些处理的第二关键词而输出第二检测信号；

所述发送开始控制装置对所述第一检测信号做出响应，并控制所述发送接收装置，使得向所述语音识别服务器发送所述将语音数据中与所述第一关键词的发声区间的开头具有规定关系的部分；

所述发送结束控制装置对在通过所述发送接收装置开始发送所述语音数据之后产生所述第二检测信号做出响应，在所述语音数据的所述第二关键词的发声结束位置使通过所述发送接收装置进行的语音数据发送结束。