CN106796786B

CN106796786B - 语音识别系统

Info

Publication number: CN106796786B
Application number: CN201480082347.3A
Authority: CN
Inventors: 古本友纪; 大泽政信; 武井匠; 马场直哉
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2021-03-02
Anticipated expiration: 2034-09-30
Also published as: US20170243580A1; JP6400109B2; DE112014007015B4; DE112014007015T5; US10475448B2; CN106796786A; WO2016051519A1; JPWO2016051519A1

Abstract

本发明的语音识别系统(10)始终对用户所发出的语音进行识别，并基于识别结果来对导航系统进行控制，该语音识别系统(10)包括：语音操作意图判断部(14)，该语音操作意图判断部(14)对所识别出的发声判断用户有无操作导航系统的意图；以及控制状态变更部(15)，该控制状态变更部(15)在语音操作意图判断部(14)中判断为无操作意图的情况下，与判断为有操作意图的情况相比，将导航系统的控制的状态向不让用户意识到的方向进行变更。

Description

语音识别系统

技术领域

本发明涉及对用户的发声进行识别的语音识别系统。

背景技术

以往，已知有始终对用户的发声进行识别并执行与识别结果相对应的处理的语音识别系统(例如参照专利文献1)。这种语音识别系统在不对下述内容，即：是用户打算对系统进行语音操作而进行了发声，还是仅仅是用户彼此的对话中的发声进行判断的情况下进行识别处理，并执行与识别结果相对应的处理。

例如，在用户彼此进行了“超市和便利店哪个好？”“还是便利店好吧”这样的对话的情况下，用户并非打算进行语音操作而进行发声，但由于语音识别系统始终对用户的发声进行识别，因此，识别出了“超市”和“便利店”这样的单词，并执行与这些识别结果相对应的处理。

另外，语音识别系统在用户发声的识别失败的情况下，需要对识别失败的情况和识别失败的原因等进行语音输出并通知给用户。因此，即使在要对如上所述的用户彼此的对话进行识别却失败了的情况下，也仍输出内容为识别失败的语音。

现有技术文献

专利文献

专利文献1：日本专利特开2008-14818号公报

发明内容

发明所要解决的技术问题

由于现有的语音识别系统采用如上所述的结构，因此，即使用户不打算进行语音操作而进行了发声，但还是自作主张地执行了与识别结果相对应的处理，从而显示出与正在显示的画面大不相同的画面，或者输出了内容为识别失败的语音。这对用户来说会感到郁闷并使不快感增加。

另一方面，在用户打算进行语音操作而进行了发声的情况下，语音识别系统必须执行与识别结果相对应的处理，在识别失败的情况下需要将该内容通知给用户。

本发明是为了解决上述的问题而完成的，其目的在于，在始终对用户的发声进行识别的语音识别系统中，使用户的不快感降低。

用于解决技术问题的技术手段

本发明所涉及的语音识别系统是始终对用户所发出的语音进行识别，并基于识别结果来对被控制装置进行控制的语音识别系统，该语音识别系统包括：语音操作意图判断部，该语音操作意图判断部针对所识别出的发声，判断用户有无操作被控制装置的意图；以及控制状态变更部，该控制状态变更部在语音操作意图判断部中判断为无操作意图的情况下，与判断为有操作意图的情况相比，将被控制装置的控制的状态向不让用户意识到的方向进行变更。

发明效果

根据本发明，在判断为用户无操作意图的情况下，与判断为有操作意图的情况相比，使被控制装置的控制的状态向不让用户意识到的方向进行变更，因此，能降低用户的不快感。

附图说明

图1是表示应用了本发明实施方式1所涉及的语音识别系统的导航系统的一个示例的框图。

图2是表示语音操作意图的判断项目和可靠度的一个示例的图。

图3是表示控制状态的示例的图。

图4是表示控制状态的其它示例的图。

图5是表示根据“有语音操作意图”的可靠度定义了不同的控制状态的示例的图。

图6是表示根据“有语音操作意图”的可靠度定义了不同的控制状态的其它示例的图。

图7是表示导航部基于控制状态来执行处理的示例的图。

图8是对实施方式1所涉及的语音识别系统的动作进行说明的流程图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对本发明的实施方式进行说明。

此外，在以下的实施方式中，列举将本发明所涉及的语音识别系统运用于车辆等移动体用的导航系统(被控制装置)的情况作为示例来进行说明，但只要是具有语音操作功能的系统即可，可以适用于任何系统。

实施方式1.

图1是表示应用了本发明实施方式1所涉及的语音识别系统10的导航系统的一个示例的框图。该导航系统包括导航部1、指示输入部2、显示器3、扬声器4、麦克风5、摄像头6、语音获取部11、语音识别部12、语音识别辞典13、语音操作意图判断部14、控制状态变更部15、控制状态存储部16、语音分析部17、状态获取部18及视线检测部19。此外，导航系统的构成要素也可以分散于网络上的服务器、智能手机等移动终端、车载设备。

语音获取部11、语音识别部12、语音识别辞典13、语音操作意图判断部14、控制状态变更部15、控制状态存储部16、语音分析部17、状态获取部18及视线检测部19构成语音识别系统10。

该语音识别系统10由未图示的CPU(Central Processing Unit：中央处理器)等构成，通过该CPU执行规定的程序，从而实现作为语音获取部11、语音识别部12、语音识别辞典13、语音操作意图判断部14、控制状态变更部15、控制状态存储部16、语音分析部17、状态获取部18及视线检测部19的功能。

导航部1利用从GPS(Global Positioning System：全球定位系统)接收机等所获取的移动体的当前位置信息以及存储于地图数据库中的信息，来生成要显示于显示器3的绘制信息。地图数据库中例如包含有关于道路的“道路信息”(道路的位置等)、关于设施的“设施信息”(设施的类别、名称、位置等)、“各种文字信息”(地名、设施名、交叉路口名、道路名等)、以及表示设施和道路编号等的“各种图标信息”等。

另外，导航部1根据来自指示输入部2的指示或来自后述的控制状态变更部15的指示，来进行移动路径等的检索、向显示器3进行的显示指示和画面转换、向扬声器4发出的语音输出指示等各种控制。

例如，导航部1使用用户通过对指示输入部2的操作或对语音识别系统10的语音操作而设定的设施或地点、以及移动体的当前位置和地图数据库的信息等，来计算从当前位置到用户所设定的设施等为止的路径。然后，导航部1生成用于沿该路径来引导移动体的指引引导图和指引引导消息，并向显示器3和扬声器4发出输出该所生成的信息的指示。

指示输入部2接受由用户手动进行的指示的输入。例如，可以列举出对经由硬件开关、组装于显示器3的触摸传感器、或者设置于把手等的遥控器或独立的遥控器接受到的用户的指示进行识别的识别装置。

显示器3例如是LCD(Liquid Crystal Display：液晶显示器)、HUD(Head-UpDisplay：抬头显示器)或者仪表板等，基于导航部1的指示在画面上进行绘制。

扬声器4基于导航部1的指示来输出语音。

麦克风5获取(采集)用户所发出的语音。对于麦克风5，例如使用全向性麦克风、将多个全向性麦克风排列成阵列状从而能对指向特性进行调整的阵列麦克风、或者仅在一个方向具有指向性从而无法对指向特性进行调整的单向性麦克风等。

摄像头6对用户进行拍摄。摄像头6的图像信息被用于后述的视线检测部19中对用户的视线进行检测。

语音获取部11导入由麦克风5所获取到的用户发声、即所输入的语音，并利用例如PCM(Pulse Code Modulation：脉冲编码调制)来进行A/D(Analog/Digital：模/数)转换。另外，语音获取部11根据数字化后的语音信号来对符合用户发声的内容的语音区间进行检测。

语音识别部12提取出由语音获取部11所检测出的语音区间的语音数据的特征量，基于该特征量，利用语音识别辞典13来进行识别处理，并输出识别结果。作为识别处理，使用例如HMM(Hidden Markov Model：隐式马尔克夫模型)法这样的一般方法来进行即可。

此外，识别结果中包含识别结果字符串，同时还可以包含表示匹配度的得分。

此外，在搭载于车载导航系统等的语音识别功能中，通常会对系统明确表示(指示)用户发声的开始。为此，会在触摸面板上显示、或在方向盘上设置指示语音识别开始的按钮(以下，称为“语音识别开始指示部”)。然后，在用户按下语音识别开始指示部后，对发出的语音进行识别。即，语音识别开始指示部输出语音识别开始信号，若语音识别部接受该信号，则在接受该信号后从由语音获取部获取的语音数据中检测出符合用户发声的内容的语音区间，并进行上述识别处理。

然而，本实施方式1中的语音识别部12即使没有上述那样的由用户进行的语音识别开始指示，也始终对用户发声的内容进行识别。即，语音识别部12即使未接收到语音识别开始信号，也始终反复进行下述处理：提取出语音获取部11所检测出的语音区间的语音数据的特征量，基于该特征量，利用语音识别辞典13来进行识别处理，并输出语音识别结果。

语音操作意图判断部14判断用户是否具有对系统进行语音操作的意图而进行了发声，并输出该判断结果。以下，将语音操作意图判断部14判断为用户具有进行语音操作的意图而进行了发声的情况设为“有语音操作意图”，将不是如此的情况设为“无语音操作意图”来进行说明。关于语音操作意图的有无的判断项目将在后文中进行描述。

控制状态存储部16对于语音识别部12中的每个识别对象语，将在“有语音操作意图”的情况下对导航部1进行指示的控制状态、以及在“无语音操作意图”的情况下对导航部1进行指示的控制状态与识别对象语相对应关联来进行存储。

另外，控制状态存储部16在语音识别部12进行语音识别失败时，对“有语音操作意图”的情况和“无语音操作意图”的情况定义对导航部1进行指示的控制状态并进行存储。

所谓控制状态，是指运用本实施方式1所涉及的语音识别系统10的被控制装置的各种动作。例如，在导航系统中，控制状态是画面转换、应答语音及通知声的输出内容、系统所具有的目的地设定等各功能的执行等各种动作。

“无语音操作意图”的情况的控制状态被定义为，与“有语音操作意图”的情况的控制状态相比，不会对用户造成打扰，即，用户意识到导航系统的程度变小。

在“无语音操作意图”的情况下，与“有语音操作意图”的情况相比，例如采用减小语音输出的音量、或减少语音输出内容或显示内容的信息量、或停止语音输出等不让用户意识到导航系统那样的控制状态。

关于控制状态的具体例，将在后文中描述。

控制状态变更部15参照控制状态存储部16，基于语音识别部12所输出的识别结果和语音操作意图判断部14所输出的判断结果来决定控制状态，并向导航部1输出该所决定的控制状态。

接着，对语音操作意图判断部14所进行的有无语音操作意图判断的判断项目、以及获取或生成该判断时所使用的信息的构成要素进行说明。

(1)基于用户所发出的语音的音量、音高、清晰度、用户的发声速度及语音的发声源的方向中的至少一个来进行的有无语音操作意图的判断

(1)的情况下，语音识别系统10包括语音分析部17。

语音分析部17对由语音获取部11所输出的语音数据进行分析，对用户所发出的语音的音量、音高、清晰度、用户的发声速度、语音的发声源的方向中的至少一个进行计算。

此外，关于音量、音高、清晰度、用户的发声速度和发声源的方向的计算方法，使用公知技术即可，因此省略说明。

这里，首先以清晰度为例来进行说明。

语音操作意图判断部14获取由语音分析部17所计算出的清晰度，对该清晰度的大小是否为预定阈值以上(或者比阈值要大)进行判定。在该清晰度为预定阈值以上的情况下，语音操作意图判断部14判断为“有语音操作意图”。另一方面，在该清晰度小于预定阈值的情况下，语音操作意图判断部14判断为“无语音操作意图”。

或者，语音操作意图判断部14对从语音分析部17所获取到的清晰度是否为过去多次获取到的清晰度的平均值以上(或者，比平均值要大)进行判定。在该清晰度为该平均值以上的情况下，语音操作意图判断部14判断为“有语音操作意图”。另一方面，在该清晰度小于该平均值的情况下，语音操作意图判断部14判断为“无语音操作意图”。

语音操作意图判断部14通过与使用清晰度的有无语音操作意图的判断相同的方法，使用用户所发出的语音的音量或音高，来对有无语音操作意图进行判断。

例如，在使用发声语音的音量的情况下，语音操作意图判断部14在从语音分析部17所获取到的发声语音的音量为过去多次发声语音的音量的平均值以上(或者比平均值要大)的情况下，判断为“有语音操作意图”。

例如，在使用发声语音的音高的情况下，语音操作意图判断部14在从语音分析部17所获取到的发声语音的音高为过去多次发声语音的音高的平均值以上(或者比平均值要大)的情况下，判断为“有语音操作意图”。

接着，以发声速度为例来进行说明。

语音操作意图判断部14获取由语音分析部17所计算出的发声速度，对该发声速度是否小于预定阈值(或者为平均值以下)进行判定。在该发声速度小于预定阈值的情况下，语音操作意图判断部14判断为“有语音操作意图”。另一方面，在该发声速度为预定阈值以上的情况下，语音操作意图判断部14判断为“无语音操作意图”。

或者，语音操作意图判断部14在从语音分析部17所获取到的发声速度小于过去多次获取到的发声速度的平均值(或者为阈值以下)的情况下，判断为“有语音操作意图”，在并非如此的情况下，判断为“无语音操作意图”。

此外，在将清晰度等与过去的平均值相比较来对有无语音操作意图进行判断时，可以考虑到利用语音分析部17计算清晰度等时的误差，从而在平均值上加上(或减去)预先设定的值。将对平均值加上(或减去)的值设为与误差间具有有意差的值。

接着，以语音的发声源的方向为例来进行说明。

语音操作意图判断部14获取由语音分析部17所计算出的语音的发声源的方向。当在多个方向上存在发声源的情况下，语音操作意图判断部14确定用户正在与其它用户进行对话，从而判断为“无语音操作意图”。另一方面，在发声源为一个的情况下，语音操作意图判断部14判断为“有语音操作意图”。

(2)基于识别结果的种类来进行的有无语音操作意图的判断

(2)的情况下，无需上述(1)的语音分析部17。

语音操作意图判断部14获取由语音识别部12所输出的识别结果。然后，语音操作意图判断部14判定该识别结果是否为用于对运用了本语音识别系统10的被控制装置(本实施方式1中为导航系统)进行操作的命令，在是该命令的情况下，判断为“有语音操作意图”。在并非如此的情况下，判断为“无语音操作意图”。

(3)基于识别履历来进行的有无语音操作意图的判断

(3)的情况下，无需上述(1)的语音分析部17。

语音操作意图判断部14获取由语音识别部12所输出的识别结果。

另外，语音操作意图判断部14存储从语音识别部12所获取到的识别结果并存储至少一个以上来作为识别履历。

然后，语音操作意图判断部14基于识别履历，在识别结果所包含的识别得分变为预定阈值以下的情况(即，语音识别部12所进行的识别处理虽然成功但匹配度较低的情况)、或者语音识别部12所进行的识别处理失败的情况连续发生两次以上时，判断为“有语音操作意图”。语音操作意图判断部14可以将识别得分为预定阈值以下的情况与识别处理失败的情况相区别来进行计数，也可以不加区别地进行计数。

此外，语音操作意图判断部14在连续两次以上出现识别结果所包含的识别得分为预定阈值以下且各识别结果字符串相同的情况下，也可以判断为“有语音操作意图”。

在车内噪声较大等状况下，在用户所发出的语音的识别得分较低或识别失败的情况下，导航部1不进行用户打算进行的动作，因此，若用户有操作意图，则再一次重复发声的可能性较高。因此，在(3)中，若用户重复发声，则视为有语音操作的意图，若仅为1次的发声，则视为无语音操作的意图。例如，当用户连续两次发出“便利店”的语音，且语音识别部12连续两次识别处理失败时，语音操作意图判断部14判断为“有语音操作意图”，因此，在用户的第三次发声的识别处理成功的情况下，该第三次发声的识别结果为“有语音操作意图”。

此外，在用户发出“便利店”的语音并且其识别得分为阈值以下的情况下，在第二次发声时存在改为“便利商店”等说法的可能性，因此，无论各发声的识别结果字符串相同还是不同都没问题。

(4)基于运用语音识别系统10的系统等的动作状态来进行的有无语音操作意图的判断

(4)的情况下，语音识别系统10包括状态获取部18。无需上述(1)的语音分析部17。

状态获取部18从导航部1获取导航系统的动作状态。

语音操作意图判断部14预先定义下述推测为用户想要操作导航系统、或者处于操作中的系统的动作状态，例如，用户进行的规定的操作后的结果显示中(例如，设施检索结果的列表显示中等)以及用户进行的按下按键等操作中等。

语音操作意图判断部14在状态获取部18所获取到的导航系统的动作状态与预先定义的动作状态相一致的情况下，判断为“有语音操作意图”，在与预先定义的动作状态不一致的情况下，判断为“无语音操作意图”。

例如，在设施检索结果列表的显示中，用户进行从列表中选择一个设施等打算对导航系统进行操作的动作的可能性较高，因此，语音操作意图判断部14在导航系统的动作状态为列表显示中的情况下，判断为“有语音操作意图”。

或者，语音操作意图判断部14也可以对每个导航系统的动作状态预先定义是“有语音操作意图”还是“无语音操作意图”。

例如，用户在从设施检索结果列表等列表中选择项目的情况下，进行语音操作，在按下设施检索条件设定等的按钮来将分层菜单向下移动的情况下，存在经由指示输入部2来进行手动操作的倾向。因此，将导航系统的动作状态为列表显示中的情况定义为“有语音操作意图”，将分层菜单显示中的情况定义为“无语音操作意图”。语音操作意图判断部14对与状态获取部18所获取到的导航系统的动作状态相一致的定义进行检索，根据该定义来判断是“有语音操作意图”还是“无语音操作意图”。

另外，例如，由于用户在手动操作中切换至语音操作的可能性较低，因此，也可以将导航系统的动作状态为手动操作中的情况定义为“无语音操作意图”。具体而言，状态获取部18经由导航部1获取用户对指示输入部2进行操作的操作状态，在语音操作意图判断部14基于该操作状态而判断为用户正在对显示中的列表等进行手动操作的情况下，根据手动操作中的定义来判断为“无语音操作意图”。

(5)基于发声中或发声前的视线来进行的有无语音操作意图的判断

(5)的情况下，语音识别系统10包括视线检测部19。无需上述(1)的语音分析部17和(4)的状态获取部18。

视线检测部19对摄像头6所获取到的图像信息进行分析，检测用户的视线。语音操作意图判断部14基于视线检测部19所检测出的视线信息，来对用户是否正看着例如显示器3等导航系统的构成要素或显示于显示器3的代理商等的图像进行判定。

此外，关于视线检测方法和基于视线信息来判定是否正看着特定对象的方法，使用公知技术即可，因此省略说明。

另外，语音操作意图判断部14对语音获取部11请求获取语音区间的语音数据。然后，语音操作意图判断部14在从语音获取部11获取到了语音数据时(即，用户正在发声时)，并且在判断为用户正在看着显示器3等的情况下，判断为“有语音操作意图”。另一方面，语音操作意图判断部14在判断为用户未看着显示器3等的情况下，判断为“无语音操作意图”。

这里，语音操作意图判断部14也可以在从语音获取部11获取到了语音数据时，并且在判断为至少在规定期间以前(例如发声的0.5秒前)用户正在看着显示器3等的情况下，判断为“有语音操作意图”。或者，语音操作意图判断部14还可以在用户一边看着显示器3等一边进行发声的情况下，判断为“有语音操作意图”。

语音操作意图判断部14利用上述(1)～(5)中的至少一种方法来判断有无语音操作意图即可，语音分析部17、状态获取部18及视线检测部19并非必须的构成要素。

此外，语音操作意图判断部14在判断为“有语音操作意图”的情况下，也可以将该判断结果的可靠度(以下说明中记载为“可靠度”)与该判断结果一起进行输出。

“可靠度”表示用户实际打算对系统进行语音操作从而发声的可能性的高低。即，与语音操作意图判断部14使用被定义为具有较低“可靠度”的判断项目来判断为“有语音操作意图”的情况相比，在语音操作意图判断部14使用被定义为具有较高“可靠度”的判断项目来判断为“有语音操作意图”的情况下，判断为用户实际打算对系统进行语音操作从而发声的可能性较高。

图2表示语音操作意图的判断项目和可靠度的一个示例。在该示例中，可靠度用“高”和“低”这两个值来表示，“高”表示可靠度较高，“低”表示可靠度较低，但可靠度例如也可以如“高”“中”“低”那样取多阶梯的值，或者也可以如“1～100”那样取连续的值。

图3～图6示出了控制状态存储部16所存储的控制状态的示例。

图3(a)表示针对识别对象语的“有语音操作意图”和“无语音操作意图”的控制状态的一个示例。

对于识别对象语“便利店”，作为“有语音操作意图”的情况的控制状态，定义有“对本车周边的便利店进行检索并显示检索结果的列表”。另一方面，作为“无语音操作意图”的情况的控制状态，定义有“什么也不做”。

对于识别对象语“Mr.Child(小先生)”，作为“有语音操作意图”的情况的控制状态，定义有“显示Mr.Child的专辑列表”。另一方面，作为“无语音操作意图”的情况的控制状态，定义有“什么也不做”。该“Mr.Child”设想为艺术家名称。

此外，这里示出了功能的执行及画面显示的示例，但也可以设为包含语音输出。例如，也可以进行内容为执行检索以及内容为列表显示检索结果等的语音输出。

另外，图3(b)表示语音识别失败时的控制状态，作为“有语音操作意图”的情况的控制状态，定义有通知识别失败这一内容的动作，例如“输出‘无法识别。请再一次发声’的语音”。另一方面，作为“无语音操作意图”的情况的控制状态，定义有“什么也不做”。

此外，这里仅示出了语音输出的示例，但也可以包含画面显示。例如，在“有语音操作意图”的情况下，可以将内容为识别失败的字幕显示于画面。

图4(a)表示针对识别对象语的“有语音操作意图”和“无语音操作意图”的控制状态的另一个示例。在图3的示例中，将“无语音操作意图”的情况下的控制状态设为“什么也不做”，从而与“有语音操作意图”的情况的控制状态相比，不会将用户的意识向导航系统引导。与之相对，在图4的示例中，即使是“无语音操作意图”的情况，也仍进行某些动作，但将因该动作而使用户意识到导航系统的程度设得比“有语音操作意图”时要小。

例如，在图4(a)中，对于识别对象语“便利店”，“无语音操作意图”的情况的控制状态被定义为“生成用于执行本车周边的便利店检索的按钮并进行显示”，而非“什么也不做”。

这里，图7示出基于控制状态来执行处理的示例。图7(a)是图4(a)的“对本车周边的便利店进行检索并显示检索结果的列表”的情况下的显示器3的画面显示例。在画面上放大显示有检索结果的列表，使用户容易意识到导航系统。另一方面，图7(b)是图4(b)的“生成用于执行本车周边的便利店检索的按钮并进行显示”的情况下的显示器3的画面显示例。在地图画面上仅显示“便利店”这一按钮，使用户意识到导航系统的程度比图7(a)的情况要小。

此外，在对执行检索等内容进行语音输出的情况下，可以对控制状态进行定义，使得与“有语音操作意图”的情况相比，“无语音操作意图”的情况下音量变小。

另外，在图4(b)中，作为语音识别失败时的控制状态，在“有语音操作意图”的情况下，定义为“输出‘无法识别。请再一次发声’的语音”，在“无语音操作意图”的情况下，定义为“输出通知声”。

由此，通过在“无语音操作意图”的情况下仅输出“嘭”等通知声，从而与“有语音操作意图”的情况相比，不会让用户意识到导航系统。

另外，如图4(c)所示，作为语音识别失败时的控制状态，在“有语音操作意图”的情况下，定义为“以音量8输出‘无法识别。请再一次发声’的语音”，在“无语音操作意图”的情况下，定义为“以音量3输出‘无法识别。请再一次发声’的语音”。

由此，通过在“无语音操作意图”的情况下减小向用户进行通知的语音的音量，从而与“有语音操作意图”的情况相比，不会让用户意识到导航系统。

接着，利用图5来对根据“有语音操作意图”的可靠度来定义不同控制状态的示例进行说明。

图5(a)表示针对识别对象语的“有语音操作意图”的可靠度“高”、“无语音操作意图”的可靠度“低”、以及“无语音操作意图”的控制状态的一个示例。

例如，对于识别对象语“便利店”，作为“有语音操作意图”且可靠度“高”的情况的控制状态，定义有“对本车周边的便利店进行检索并显示距离本车位置最近的便利店的信息”。另一方面，作为“有语音操作意图”且可靠度“低”的情况的控制状态，定义有“对本车周边的便利店进行检索并显示检索结果的列表”。而且，作为“无语音操作意图”的情况的控制状态，定义有“生成用于执行本车周边的便利店检索的按钮”。

另外，在图5(b)中，作为语音识别失败时的控制状态，在“有语音操作意图”且可靠度“高”的情况下，定义为“输出‘无法识别。请再一次发声’的语音”，在“有语音操作意图”且可靠度“低”的情况下，定义为“仅输出通知声”，在“无语音操作意图”的情况下，定义为“什么也不做”。

此外，也可以在可靠度较高的情况下增大音量，在可靠度较低的情况下减小音量。

此外，还可以根据“有语音操作意图”的可靠度为预定基准值以下(或者小于基准值)还是大于该基准值(或者为基准值以上)，来对控制状态进行定义。即，即使是“有语音操作意图”，在可靠度为预定基准值以下的情况下，也可以判断为“无语音操作意图”。

图6(a)(b)示出了一个示例。在图6(a)的示例中，在针对识别对象语的“有语音操作意图”的可靠度为“低”的情况下，与“无语音操作意图”的情况同样地定义控制状态。在图6(b)的示例中，在语音识别失败且“有语音操作意图”的可靠度为“低”的情况下，与“无语音操作意图”的情况同样地定义控制状态。

接着，利用图8所示的流程图，来对实施方式1的语音识别系统10的动作进行说明。

首先，语音获取部11导入由麦克风5所获取到的用户发声、即所输入的语音，利用例如PCM来进行A/D转换，从而对语音区间进行检测(步骤ST01)。

接着，语音识别部12对语音获取部11所检测出的语音区间的语音数据进行识别，输出识别结果(步骤ST02)。

接下来，语音操作意图判断部14获取用于判断有无语音操作意图的信息(步骤ST03)，对有无语音操作意图进行判断，输出判断结果(步骤ST04)。

然后，控制状态变更部15参照控制状态存储部16，基于语音识别部12所输出的识别结果和语音操作意图判断部14所输出的判断结果来决定控制状态，并向导航部1输出该所决定的控制状态(步骤ST05)。

最后，导航部1基于控制状态变更部15所指示的控制状态来执行处理(步骤ST06)。

下面，利用具体例来进行说明。

首先，对用户发声的语音识别成功的情况的示例进行说明。

这里，设用户A和用户B同乘。另外，语音分析部17仅对用户发声的清晰度进行计算，控制状态存储部16中保存有图4(a)(b)所示的内容。此外，清晰度的范围为“0～100”，将预定阈值设为“50”。

设用户A对用户B发出“最喜欢哪家便利店的饭团？”的语音。利用麦克风5来采集该发声，语音获取部11导入由麦克风5所获取到的语音并进行A/D转换(步骤ST01)。语音识别部12如上所述，始终对语音获取部11所获取到的语音数据进行识别处理，因此，对由语音获取部11进行数字化后的用户A的发声进行识别，并输出“便利店”作为识别结果(步骤ST02)。

接着，语音分析部17对语音获取部11所获取到的语音数据进行分析，计算用户A的发声的清晰度，语音操作意图判断部14获取该清晰度(步骤ST03)。

这里，设所计算出的清晰度为“40”。

由于语音分析部17所计算出的清晰度小于预定阈值“50”，因此，语音操作意图判断部14确定用户并非打算对系统进行语音操作而发声，从而判断为“无语音操作意图”(步骤ST04)。

然后，控制状态变更部15参照控制状态存储部16的图4(a)的内容，来决定识别对象语为“便利店”且“无语音操作意图”的情况下的控制状态。在本示例中，决定为“生成用于执行本车周边的便利店检索的按钮并进行显示”(步骤ST05)。

最后，导航部1基于控制状态变更部15所决定的控制状态，来执行处理。其结果是，如图7(b)所示，将用于执行本车周边的便利店检索的按钮显示于显示器3(步骤ST06)。

另一方面，设为下述情况：由于车内噪声较大等状况，在步骤ST02中语音识别部12所输出的识别结果所包含的识别得分为规定阈值以下，或者语音识别处理失败。

在这种情况下，在步骤ST05中，控制状态变更部15参照控制状态存储部16的图4(b)的内容，来决定“识别结果失败”且“无语音操作意图”的情况下的控制状态。在该示例中，决定为“输出通知声”。

其结果是，从扬声器4输出例如像“嘭”这样的通知声(步骤ST06)。

接着，说明用户A向导航系统发出“想去便利店”的语音的情况下的动作。

图8的步骤ST01、步骤ST02的处理与上述情况相同，因此省略说明。设语音分析部17计算出清晰度为“70”，语音操作意图判断部14获取该清晰度(步骤ST03)。

由于语音分析部17所计算出的清晰度“70”为预定阈值“50”以上，因此，语音操作意图判断部14确定用户打算对系统进行语音操作而发声，从而判断为“有语音操作意图”(步骤ST04)。

然后，控制状态变更部15参照控制状态存储部16的图4(a)的内容，来决定识别对象语为“便利店”且“有语音操作意图”的情况下的控制状态。在本示例中，决定为“对本车周边的便利店进行检索并显示检索结果的列表”(步骤ST05)。

最后，导航部1基于控制状态变更部15所决定的控制状态，来执行处理。其结果是，如图7(a)所示，将执行了本车周边的便利店检索而得的结果的列表显示于显示器3(步骤ST06)。

另一方面，设为下述情况：车内噪声较大，在步骤ST02中语音识别部12所输出的识别结果所包含的识别得分为规定阈值以下，或者语音识别处理失败。

在这种情况下，在步骤ST05中，控制状态变更部15参照控制状态存储部16的图4(b)的内容，来决定“识别结果失败”且“有语音操作意图”的情况下的控制状态。在本示例中，决定为“输出‘无法识别。请再一次发声’的语音”。

其结果是，从扬声器4输出“无法识别。请再一次发声”的语音(步骤ST06)。

如上所述，根据实施方式1，语音识别系统10始终对用户所发出的语音进行识别，并基于识别结果来对导航系统进行控制，在该语音识别系统10中，构成为包括：语音操作意图判断部14，该语音操作意图判断部14对所识别出的发声判断用户是否具有操作导航系统的意图；以及控制状态变更部15，该控制状态变更部15在语音操作意图判断部14中判断为没有操作意图的情况下，与判断为有操作意图的情况相比，将导航系统的控制的状态向不让用户意识到的方向进行变更。由于与判断为用户打算进行语音操作而发声的情况相比，将判断为是不打算进行语音操作的发声的情况下的识别结果所对应的控制状态变更为不让用户意识到的状态，因此，能减轻用户的不快感和郁闷感。

另外，根据实施方式1，语音操作意图判断部14在判断为具有操作的意图的情况下，对表示该操作的意图达到何种程度的可靠度进行判断，控制状态变更部15在语音操作意图判断部14中判断出的可靠度较低的情况下，与可靠度较高的情况相比将导航系统的控制状态向不让用户意识到的方向进行变更。因此，能根据用户实际打算进行语音操作而发声的可能性的高低来变更控制状态，能进一步减轻用户的不快感和郁闷感。另外，能对用户彼此的自然的对话进行识别，从而在不妨碍用户彼此的对话的情况下对用户可能希望的动作进行提示。

另外，根据实施方式1，控制状态变更部15在用户所发出的语音的识别失败的情况下，对导航系统进行控制，使其向用户通知识别失败，并在关于发声的操作意图的可靠度较低的情况下，与可靠度较高的情况相比，将该通知的状态向不让用户意识到的方向进行变更。

另外，在利用语音来通知识别失败的情况下，控制状态变更部15在关于发声的操作意图的可靠度较低的情况下，与可靠度较高的情况相比，减小该语音的音量。

因此，能减轻将识别失败通知给用户时的不快感和郁闷感。

另外，根据实施方式1，语音操作意图判断部14在发声来自多个方向的情况下，判断为没有操作的意图。因此，能在不会妨碍用户彼此的对话的情况下减轻不快感和郁闷感。

另外，根据实施方式1，控制状态变更部15在用户所发出的语音的识别失败的情况下，对被控制装置进行控制，使其向用户通知识别失败，并且在关于发声判断为无操作意图的情况下，与判断为有操作意图的情况相比，将该通知的状态向不让用户意识到的方向进行变更。因此，能减轻将识别失败通知给用户时的不快感和郁闷感。

此外，本发明可以在该发明的范围内对实施方式的任意构成要素进行变形，或省略实施方式的任意的构成要素。

工业上的实用性

本发明所涉及的语音识别系统根据用户是否是打算进行语音操作而进行了发声，来对与识别结果相对应的控制状态进行切换，因此，适用于始终对用户的发声进行识别的语音识别系统等。

标号说明

1 导航部

2 指示输入部

3 显示器

4 扬声器

5 麦克风

6 摄像头

10 语音识别系统

11 语音获取部

12 语音识别部

13 语音识别辞典

14 语音操作意图判断部

15 控制状态变更部

16 控制状态存储部

17 语音分析部

18 状态获取部

19 视线检测部

Claims

1.一种语音识别系统，该语音识别系统始终对用户所发出的语音进行识别，并基于识别结果来对被控制装置进行控制，所述语音识别系统的特征在于，包括：

语音操作意图判断部，该语音操作意图判断部针对所识别出的发声，基于该发声的语音的音高和清晰度中的至少一个，判断所述用户有无操作所述被控制装置的意图；以及

控制状态变更部，该控制状态变更部在所述语音操作意图判断部中判断为无操作意图的情况下，与判断为有操作意图的情况相比，通过减小所述被控制装置的语音输出的音量、或者减少所述被控制装置的语音输出内容或显示内容的信息量，从而将所述被控制装置的控制的状态向不让所述用户意识到的方向进行变更，并使所述被控制装置动作。

2.一种语音识别系统，该语音识别系统始终对用户所发出的语音进行识别，并基于识别结果来对被控制装置进行控制，所述语音识别系统的特征在于，包括：

语音操作意图判断部，该语音操作意图判断部针对所识别出的发声，在识别结果的识别得分在预定阈值以下的情况下、或者在识别处理失败连续发生两次以上的情况下，判断为所述用户有操作所述被控制装置的意图，在识别结果的识别得分大于所述阈值的情况下、或者在识别处理失败没有连续发生两次以上的情况下，判断为所述用户无操作所述被控制装置的意图；以及

3.一种语音识别系统，该语音识别系统始终对用户所发出的语音进行识别，并基于识别结果来对被控制装置进行控制，所述语音识别系统的特征在于，包括：

语音操作意图判断部，该语音操作意图判断部针对所识别出的发声，基于推测为所述用户想要操作所述被控制装置、或者正处于操作中这样的预先定义的所述被控制装置的动作状态，判断所述用户有无操作所述被控制装置的意图；以及

4.如权利要求1至3的任一项所述的语音识别系统，其特征在于，

所述语音操作意图判断部在判断为有操作意图的情况下，对表示该操作的意图达到何种程度的可靠度进行判断，

所述控制状态变更部在所述语音操作意图判断部中判断出的可靠度较低的情况下，与可靠度较高的情况相比，将所述被控制装置的控制的状态向不让所述用户意识到的方向进行变更。

5.如权利要求1至3的任一项所述的语音识别系统，其特征在于，

所述语音操作意图判断部在发声来自多个方向的情况下，判断为无操作意图。