CN107110660A

CN107110660A - 语音识别系统

Info

Publication number: CN107110660A
Application number: CN201480084386.7A
Authority: CN
Inventors: 住吉悠希; 武井匠; 马场直哉
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2017-08-29
Also published as: JPWO2016103465A1; JP6522009B2; WO2016103465A1; DE112014007288T5; US20170301349A1

Abstract

语音识别系统(2)包括：在整个预先设定的语音获取期间获取用户发话的语音的语音获取部(10)；对语音获取部(10)获取到的语音进行识别的语音识别部(11)；判定用户是否进行了预定的操作或动作的判定部(14)；以及在判定部(14)中判定为用户进行了预定的操作或动作的情况下使显示部(18)显示使导航系统(1)执行与语音识别部(11)的识别结果相对应的功能的功能执行按钮的显示控制部(15)。

Description

语音识别系统

技术领域

本发明涉及对用户的发话进行识别的语音识别系统。

背景技术

现有的语音识别系统中，用户预先考虑想让系统识别的内容，需要在通过按下PTT(Push To Talk：按键通话)按钮等而进行了语音识别开始指示后进行发话。该系统中，无法自动识别用户彼此的自然会话中出现的单词，因此为了识别该单词，用户不得不在按下了PTT按钮等后再次发话。因此，具有操作繁琐的问题及会遗忘想要识别的内容的问题。

与此相对，存在始终对由麦克风收集到的语音进行语音识别的语音识别系统。该语音识别系统中，无需由用户进行语音识别开始指示，因此，能消除上述繁琐性。然而，无论用户是否存在操作意图均随意地执行与识别结果相对应的功能，因此会使用户混乱。

此处，专利文献1记载有如下动作控制装置：该动作控制装置始终识别语音，生成并显示用于执行与识别结果相对应的功能的快捷键。

现有技术文献

专利文献

专利文献1：日本专利特开2008-14818号公报

发明内容

发明所要解决的技术问题

上述专利文献1的动作控制装置中，只有在用户按下了快捷键后，才执行与识别结果相对应的功能，因此能防止违背用户意图而随意进行动作的情况。然而，专利文献1的情况下，显示于画面的信息的一部分被快捷键所隐藏，因显示快捷键时的画面更新而产生显示内容的变化，因此具有如下问题：会使用户产生不快感，或者在驾驶中等情况下，会产生集中力的降低。

本发明是为了解决上述问题而完成的，其目的在于提供一种语音识别系统，该语音识别系统始终识别语音，并能在用户需要的时刻呈现用于执行与识别结果相对应的功能的功能执行按钮。

解决技术问题的技术方案

本发明所涉及的语音识别系统包括：语音获取部，该语音获取部在整个预先设定的语音获取期间获取用户发话的语音；语音识别部，该语音识别部对语音获取部获取到的语音进行识别；判定部，该判定部对用户是否进行了预定的操作或动作进行判定；以及显示控制部，该显示控制部在判定部中判定为用户进行了预定的操作或动作的情况下使显示部显示功能执行按钮，所述功能执行按钮使被控制装置执行与语音识别部的识别结果相对应的功能。

发明效果

本发明在预先设定的整个语音获取期间取得语音，并在用户进行了预定的操作或动作时，显示基于发话内容的功能执行按钮，因此能消除在按下PTT按钮后将在会话中已出现的词汇再次重新发话的繁琐性。此外，不会产生违背用户的意图的动作，并且能抑制因功能执行按钮显示时的画面更新而导致的集中力的降低。并且，对于用户而言，呈现预测了自身的操作意图而获得的功能执行按钮，因此，能提高用户友好性及使用便利性。

附图说明

图1是表示应用了本发明的实施方式1所涉及的语音识别系统的导航系统的一个示例的框图。

图2是表示应用了实施方式1所涉及的语音识别系统的导航系统的主要硬件结构的概要结构图。

图3是用于说明实施方式1所涉及的语音识别系统的动作概要的说明图。

图4是表示识别结果所包含的识别结果字符串与识别结果种类的示例的图。

图5是表示识别结果种类与要分配给功能执行按钮的功能的对应的一个示例的图。

图6是表示实施方式1所涉及的语音识别系统中的关于保持用户发话的识别结果的处理的流程图。

图7是表示实施方式1所涉及的语音识别系统中的关于显示功能执行按钮的处理的流程图。

图8是表示功能执行按钮的显示例的图。

图9是表示识别结果储存部的识别结果的储存例的图。

图10是表示功能执行按钮的显示形式的一个示例的图。

图11是表示实施方式1所涉及的语音识别系统的变形例的框图。

图12是表示用户的操作与识别结果种类的对应的一个示例的图。

图13是表示本发明的实施方式2所涉及的语音识别系统中的关于显示功能执行按钮的处理的流程图。

图14是表示功能执行按钮的其他显示例的图。

图15是表示用户的发话内容与识别结果种类的对应及用户的动作内容与识别结果种类的对应的一个示例的图。

图16是表示应用了本发明的实施方式3所涉及的语音识别系统的导航系统的一个示例的框图。

图17是表示实施方式3所涉及的语音识别系统中的关于取得及保持用户发话的处理的流程图。

图18是表示实施方式3所涉及的语音识别系统中的关于显示功能执行按钮的处理的流程图。

具体实施方式

下面，为了更详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

另外，以下的实施方式中，以将本发明所涉及的语音识别系统应用于车辆等移动体用的导航系统(被控制装置)的情况为例进行说明，但只要是有语音操作功能的系统，则可以应用于任何系统。

实施方式1.

图1是表示应用了本发明的实施方式1所涉及的语音识别系统2的导航系统1的一个示例的框图。该导航系统1包括：控制部3、输入接收部5、导航部6、语音控制部7、语音获取部10、语音识别部11、判定部14及显示控制部15。另外，导航系统1的构成要件可以分散于网络上的服务器、智能手机等移动终端、车载设备。

此处，由语音获取部10、语音识别部11、判定部14及显示控制部15构成语音识别系统2。

图2是表示实施方式1中的导航系统1与其周边设备的主要硬件结构的概要图。总线100连接有CPU(Central Processing Unit：中央处理单元)101、ROM(Read Only Memory：只读存储器)102、RAM(Random Access Memory：随机存取存储器)103、HDD(Hard DiskDrive：硬盘驱动器)104、输入装置105及输出装置106。

CPU101通过读取存储于ROM102或HDD104的各种程序并执行，从而与各硬件相协作地实现作为导航系统1的控制部3、输入接收部5、导航部6、语音控制部7、语音获取部10、语音识别部11、判定部14及显示控制部15的功能。输入装置105是指示输入部4、输入接收部5及麦克风9。输出装置106是扬声器8及显示部18。

首先，对语音识别系统2的动作概要进行说明。

语音识别系统2在整个预先设定的语音获取期间连续取得由麦克风9收集到的语音，识别预定的关键词，并保持识别结果。然后，语音识别系统2判定移动体的用户是否对导航系统1进行了预定的操作，若进行了该操作，则生成用于利用所保持的识别结果来执行与识别结果相对应的功能的功能执行按钮，并将生成的功能执行按钮输出到显示部18。

后文对预先设定的语音获取期间进行阐述。

例如，在将图3(a)所示的地图显示画面显示于显示部18的显示器中时，用户A与用户B进行以下的会话。

A：“这歌曲结束后接着播放什么？”

B：“很久没听孩子小姐了，很想听”

A：“好啊。话说中饭在餐厅吃好吗？”

B：“便利店买点什么就好了”

A：“了解”

此处，语音识别系统2作为关键词对艺人名“孩子小姐”和设施种类名“餐厅”“便利店”进行识别，但该阶段并不在显示部18显示与上述识别结果相对应的功能执行按钮。另外，图3所示的“菜单”按钮HW1、“目的地”按钮HW2、“AV(Audio Visual：视听影音)”按钮HW3及“当前地”按钮HW4是设置于显示部18的显示器框体的硬件(HW)按键。

之后，用户B为了检索当前地周边的便利店，按下用于显示菜单画面的“菜单”按钮HW1，在显示图3(b)所示的菜单画面时，语音识别系统2在显示部18中显示与识别结果“孩子小姐”“餐厅”“便利店”相对应的功能执行按钮即“孩子小姐”按钮SW1、“餐厅”按钮SW2及“便利店”按钮SW3。上述功能执行按钮是显示于菜单画面的软件(SW)按键。此外，“目的地设定”按钮SW11、“AV”按钮SW12、“电话”按钮SW13及“设定”按钮SW14不是功能执行按钮，而是软件按钮。

接着，若用户B按下作为功能执行按钮的“便利店”按钮SW3，则导航系统1的导航部6执行当前地周边的便利店的检索，并将检索结果显示于显示部18。另外，后文阐述语音识别系统2的详细说明。

另一方面，在未使用“便利店”按钮SW3而要执行当前地周边的便利店的检索的情况下，用户B例如对“菜单”按钮HW1进行按下操作并显示菜单画面，对菜单画面的“目的地设定”按钮SW11进行按下操作并显示目的地检索画面，对目的地检索画面的“周边设施检索”按钮进行按下操作并显示周边设施检索画面，作为检索关键词设定“便利店”并指示执行检索。也就是说，对于通常情况下进行多次操作而调出并执行的功能，能利用功能执行按钮一次的操作来调出并执行。

控制部3控制导航系统1整体的动作。

麦克风9对用户发话的语音进行收集。麦克风9例如具有全指向性(无指向性)的麦克风、将多个全指向性(无指向性)的麦克风排列成阵列状而能调整指向特性的阵列麦克风、或仅在一个方向上具有指向性而无法调整指向特性的单一指向性麦克风等。

显示部18例如是LCD(Liquid Crystal Display：液晶显示器)或有机EL(Electroluminescence：电致发光)显示器等。此外，显示部18也可以是由LCD或有机EL显示器与触摸传感器构成的显示一体型的触摸面板。

指示输入部4通过用户的手动来输入指示。例如，可例举出设置于导航系统1的框体等的硬件的按钮(按键)、开关、触摸传感器、或设置于方向盘等的遥控器或单体的遥控器、识别手势操作所形成的指示的识别装置等。另外，触摸传感器可以利用感压方式、电磁感应方式、静电电容方式、或组合上述方式而得到的方式等中的任一种方式。

输入接收部5接收由指示输入部4输入的指示，并输出至控制部3。

导航部6根据由输入接收部5接收并经由控制部3而输入的用户的操作，进行画面转移，或利用地图数据(未图示)进行设施检索及地址检索等各种检索。此外，计算到用户所设定的地址或设施的路径，生成用于进行路径引导的语音信息及显示内容，并经由控制部3指示后述的显示控制部15及语音控制部7以输出上述语音信息及显示内容。导航部6除了上述以外还通过乐曲名或艺人名等进行乐曲检索，或播放乐曲，或根据用户的指示执行空调等其他车载设备的操作。

语音控制部7从扬声器8输出从导航部6经由控制部3而发出指示的引导语音及乐曲等。

接着，对语音识别系统2的构成要素进行说明。

语音获取部10连续取得由麦克风9收集到的语音，例如通过PCM(PulseCodeModulation：脉冲编码调制)进行A/D(Analog/Digital：模拟/数字)转换。

此处，“连续”表示“整个预先设定的语音获取期间”的意思，而并不限于“始终”的意思。“语音获取期间”设为例如包含导航系统1起动后的5分钟、移动体停车后的1分钟、或从导航系统1起动到停止为止的期间等期间。本实施方式1中，语音获取部10将从导航系统1起动到停止为止的期间作为取得语音的期间来进行说明。

另外，以下的说明中，如上所述将麦克风9和语音获取部10作为独立的部件，但也可以是将语音获取部10内置于麦克风9的情况。

语音识别部11由处理部12和识别结果储存部13构成。

处理部12从经语音获取部10数字化后的语音数据检测出对应于用户发话的内容的语音区间(以下记载为“发话区间”)，提取出该发话区间的语音数据的特征量，基于该特征量并利用语音识别辞典进行识别处理，将识别结果输出至识别结果储存部13。作为识别处理的方法利用例如HMM(Hidden MarkovModel：隐马尔可夫模型)法那样的一般方法即可，因此省略详细的说明。

此处，作为语音识别的方法可以利用基于语法的单词识别、关键词检索、大词汇量连续语音识别、或其他众所周知的方法的某一种。此外，语音识别部11可以包含众所周知的意图理解处理，根据大词汇量连续语音识别的识别结果来推定或检索用户的意图，将得到的结果作为识别结果输出。

处理部12至少输出识别结果字符串和识别结果的种类(以下记载为“识别结果种类”)以作为识别结果。图4表示识别结果字符串和识别结果种类的一个示例，例如，在识别结果字符串为“便利店”的情况下，处理部12输出识别结果种类“设施种类名”。

另外，识别结果种类不限于具体的字符串，可以是由数字表示的ID，也可以作为进行识别处理时使用的辞典名(将识别结果字符串作为识别词汇而包含在内的辞典名)。本实施方式1中，将语音识别部11的识别对象词汇设为“便利店”“餐厅”等设施种类名和“孩子小姐”等艺人名来进行说明，但不限于此。

识别结果储存部13储存由处理部12输出的识别结果。然后，若从后述的判定部14接受到指示，则将储存的识别结果输出至生成部16。

在搭载于车载导航系统等的语音识别功能中，通常用户对系统明示(指示)发话的开始。因此，指示语音识别开始的按钮(以下记载为“语音识别开始指示部”)显示于触摸面板或设置于方向盘。然后，对在用户按下语音识别开始指示部后发话的语音进行识别。即，若语音识别开始指示部输出语音识别开始信号，语音识别部接受该信号，则从接受到该信号后由语音获取部获取到的语音数据中检测出与用户发话的内容相对应的发话区间，进行上述识别处理。

与此相对，本实施方式1中的语音识别部11即使没有上述那样用户的语音识别开始指示，也始终对由语音获取部10取得的语音数据进行识别。即，语音识别部11即使不接受语音识别开始信号，也反复进行如下处理：即、根据由语音获取部10获取到的语音数据来检测出与用户发话的内容相对应的发话区间，提取该发话区间的语音数据的特征量，基于该特征量并利用语音识别辞典来进行识别处理，输出识别结果。

判定部14预先定义成为将与用户发话的识别结果相对应的功能执行按钮显示于显示部18的契机的用户操作。即，预先定义成为下述的契机的用户操作：使得由判定部14对识别结果储存部13进行指示，以将识别结果储存部13储存的识别结果输出到后述的生成部16。

判定部14预先定义的用户操作例如为按下具有如下功能的按钮等：使表示导航系统1的功能一览的菜单画面显示于显示部18，或使目的地检索画面显示于显示部18，或使AV画面显示于显示部18。此处，该按钮例如是显示于显示器的软件按键(例如图3(b)的“目的地设定”按钮SW11)、设置于显示器框体等的硬件按键(例如图3(a)的“菜单”按钮HW1)或遥控器的按键等。

判定部14经由控制部3而从输入接收部5获取用户的操作内容，判定该获取到的操作内容是否与预先定义的操作相一致。然后，在该获取到的操作内容与预先定义的操作相一致的情况下，判定部14对识别结果储存部13指示将储存的识别结果输出至生成部16。另一方面，在不一致的情况下，判定部14不进行任何动作。

显示控制部15由生成部16和绘制部17构成。生成部16从识别结果储存部13获取识别结果，生成与获取到的识别结果相对应的功能执行按钮。

具体而言，如图5所示，生成部16与识别结果种类相对应地定义识别结果种类和要分配给功能执行按钮的功能(以下记载为“分配给功能执行按钮的功能”)。然后，生成部16决定分配给功能执行按钮的功能，该功能与从识别结果储存部13获取到的识别结果所包含的识别结果种类相对应。并且，生成部16生成分配有该决定的功能的功能执行按钮。之后，生成部16对绘制部17进行指示，以在显示部18中显示生成的功能执行按钮。

例如，在从识别结果储存部13获取到的识别结果所包含的识别结果种类是“设施种类名”、识别结果字符串为“便利店”的情况下，生成部16参照图5的表格，将分配给功能执行按钮的功能决定为“将‘便利店’作为检索关键词的周边设施检索”。

绘制部17使由导航部6经由控制部3进行指示的内容及由生成部16生成的功能执行按钮显示于显示部18。

接着，利用图6与图7所示的流程图与具体例来说明实施方式1的语音识别系统2的动作。另外，此处，成为将功能执行按钮显示于显示部18的契机的用户操作是按下图3(a)所示的设置于显示器的边缘的硬件按键，即按下“菜单”按钮HW1、“目的地”按钮HW2、“AV”按钮HW3。此外，为了简化说明，以下省略控制部3的动作的记载。

“菜单”按钮HW1用于显示如图3(b)所示那样的菜单画面，该菜单画面对用户呈现各种功能。此外，“目的地”按钮HW2用于显示图8(a)所示的目的地检索画面。此外，“AV”按钮HW3用于显示图8(b)所示的AV画面。另外，上述硬件按键按下后的动作为一个示例，并不限于上述动作。

首先，在图3(a)的地图显示画面时，由用户A和用户B进行了上述会话。

图6示出识别用户发话并保持识别结果的流程图。

此处，语音获取部10将从导航系统1起动到停止为止的语音获取期间作为始终取得由麦克风9收集到的语音的期间来进行说明。首先，语音获取部10取得由麦克风9收集到的用户发话、即输入的语音，例如通过PCM进行A/D转换(步骤ST01)。

接着，处理部12从经语音获取部10数字化后的语音数据中检测出对应于用户发话的内容的语音区间，提取出该发话区间的语音数据的特征量，基于该特征量并利用语音识别辞典进行识别处理(步骤ST02)，将识别结果存储至识别结果储存部13(步骤ST03)。其结果是，如图9所示将识别结果储存于识别结果储存部13。然后，在导航系统1未停止的情况下(步骤ST04“否”)，语音识别系统2返回至步骤ST01的处理，在停止的情况下(步骤ST04“是”)，结束处理。

图7示出表示功能执行按钮的流程图。

首先，判定部14从输入接收部5获取用户的操作内容(步骤ST11)。在能获取到操作内容的情况下，即具有某种用户操作的情况下(步骤ST12“是”)，判定部14前进至步骤ST13的处理。另一方面，在无法获取操作内容的情况下(步骤ST12“否”)，判定部14返回至步骤ST11的处理。

接着，判定部14判定从输入接收部5获取到的操作内容是否与预先定义的操作相一致。在一致的情况下(步骤ST13“是”)，判定部14对识别结果储存部13指示向生成部16输出储存的识别结果。另一方面，在从输入接收部5获取到的操作内容与预先定义的操作不一致的情况下(步骤ST13“否”)，判定部14返回至步骤ST11的处理。

此处，在上述会话后到用户A或用户B按下“菜单”按钮HW1等硬件按键为止，不会前进至步骤ST13的处理，因此即使作为识别对象语的“孩子小姐”“餐厅”“便利店”被包含在发话内容中，也不会在显示部18中显示功能执行按钮。

若用户B想要检索当前地周边的便利店，并进行成为用于执行该功能的契机的操作即“目的地”按钮HW2的按下操作(步骤ST11、步骤ST12“是”)，则由于“目的地”按钮HW2的按下操作与判定部14所预先定义的操作相一致(步骤ST13“是”)，因此判定部14对识别结果储存部13指示向生成部16输出储存的识别结果。在按下了“菜单”按钮HW1及“AV”按钮HW3的情况下也同样。

另一方面，在用户B进行了“当前地”按钮HW4的按下操作的情况下，由于与判定部14所预先定义的操作不一致(步骤ST13“否”)，因此并不前进至步骤ST14的处理，显示部18中不显示功能执行按钮。

若识别结果储存部13接受来自判定部14的指示，则将在接受到该指示的时刻所储存的识别结果输出至生成部16(步骤ST14)。

之后，生成部16生成与从识别结果储存部13获取到的识别结果相对应的功能执行按钮(步骤ST15)，对绘制部17进行指示以将该生成的功能执行按钮显示于显示部18。最后，绘制部17使功能执行按钮显示于显示部18(步骤ST16)。

具体而言，识别结果储存部13将识别结果“孩子小姐”“餐厅”“便利店”输出至生成部16(步骤ST14)。之后，生成部16生成分配有进行“将‘孩子小姐’作为检索关键词的乐曲检索”的功能的功能执行按钮、分配有进行“将‘便利店’作为检索关键词的周边设施检索”的功能的功能执行按钮及分配有进行“将‘餐厅’作为检索关键词的周边设施检索”的功能的功能执行按钮(步骤ST15)，对绘制部17进行指示以显示于显示部18。

绘制部17将生成部16生成的功能执行按钮重叠于导航部6指示了显示的画面上，并显示于显示部18。例如，在用户按下“菜单”按钮HW1的情况下，绘制部17如图3(b)所示，显示导航部6指示了的菜单画面，并且显示生成部16生成的“孩子小姐”按钮SW1、“餐厅”按钮SW2及“便利店”按钮SW3的功能执行按钮。同样，在用户按下“目的地”按钮HW2及“AV”按钮HW3的情况下，成为图8(c)及图8(d)所示的画面。若用户进行了功能执行按钮的按下操作，则从输入接收部5接受到指示的导航部6执行分配给该功能执行按钮的功能。

如上所述，根据本实施方式1，语音识别系统2包括：在整个预先设定的语音获取期间获取用户发话的语音的语音获取部10；对语音获取部10获取到的语音进行识别的语音识别部11；判定用户是否进行了预定的操作的判定部14；以及在判定部14中判定为用户进行了预定的操作的情况下使显示部18显示使导航系统1执行与语音识别部11的识别结果相对应的功能的功能执行按钮的显示控制部15，在整个预先设定的语音获取期间取得语音，并在用户进行了预定的操作时，显示基于发话内容的功能执行按钮，因此能消除在按下PTT按钮后再次重新说出会话中出现的单词的繁琐性。此外，不会产生违背用户的意图的动作，并且能抑制因功能执行按钮显示时的画面更新而导致的集中力的降低。并且，对于用户而言，呈现预测了自身的操作意图的功能执行按钮，因此，能提高用户友好性及使用便利性。

另外，该实施方式1中，说明了生成部16生成仅显示识别结果字符串的功能执行按钮的情况，但也可以预先定义与识别结果字符串相对应的图标，生成图10(a)所示那样组合了识别结果字符串和图标的功能执行按钮，或生成图10(b)所示那样仅具有与识别结果字符串相对应的图标的功能执行按钮。以下的实施方式2、3中也不限定功能执行按钮的显示形式。

由此，用户能直观地理解功能执行按钮的内容。

此外，生成部16可以根据识别结果种类改变功能执行按钮的显示形式。例如，可以变为将与识别结果种类“艺人名”相对应的功能执行按钮设为该艺人的专辑的封面图像，将与识别结果种类“设施种类名”相对应的功能执行按钮设为图标。

由此，用户能直观地理解功能执行按钮的内容。

此外，也可以采用语音识别系统2具备按每个种类对识别结果赋予优先度的优先度赋予部的结构，生成部16基于识别结果的优先度改变与识别结果相对应的功能执行按钮的大小、显示顺序的至少一方。

例如，如图11所示，语音识别系统2具备优先度赋予部19。该优先度赋予部19经由控制部3从输入接收部5获取用户的操作内容，作为操作履历进行管理。此外，优先度赋予部19监视识别结果存储部13，若识别结果储存部13存储有识别结果，则对该识别结果赋予基于用户过去的操作履历的优先度。识别结果储存部13在将识别结果输出至生成部16时，也一并输出优先度赋予部19赋予的优先度。

具体而言，在手动的基于种类名的设施检索的次数比艺人名检索的次数要多的情况下，优先度赋予部19将识别结果种类为“设施种类名”的识别结果的优先度设为高于识别结果种类为“艺人名”的识别结果的优先度。并且，生成部16例如以与优先度较高的识别结果相对应的功能执行按钮的大小比与优先度较低的识别结果相对应的功能执行按钮的大小要大的方式生成各功能执行按钮。由此，能使用户可能需要的功能执行按钮醒目，因此提高了便利性。

此外，绘制部17在显示部18中显示功能执行按钮时，将与优先度较高的识别结果相对应的功能执行按钮显示在与优先度较低的识别结果相对应的功能执行按钮的上部。由此，能使用户可能需要的功能执行按钮醒目，因此提高了便利性。

并且，可以基于识别结果的优先度来改变输出还是不输出功能执行按钮。例如，绘制部17可以在生成部16生成的功能执行按钮的个数超过预定的显示个数的上限的情况下，优先输出与优先度较高的识别结果相对应的功能执行按钮，在超过了上限个数的情况下不显示其他的功能执行按钮。由此，能优先显示用户可能需要的功能执行按钮，因此提高了便利性。

此外，本实施方式1中，以用户操作了硬件按键或软件按键等按钮作为契机来显示功能执行按钮，但也可以以用户进行了预定的动作作为契机来显示功能执行按钮。作为用户进行动作的示例，有发话、手势等。

具体而言，对上述各构成要素中处理有所不同的部分进行说明。处理部12除了上述那样的种类名等以外，还将认为包含例如“电话”“音频”等用于操作被控制装置的命令、及“想去”“想听”“发信息”等对被控制装置的操作意图在内的发话作为识别对象词汇。然后，处理部12不仅将识别结果输出至识别结果储存部13，也输出至判定部14。

判定部14除了上述用户操作以外，还预先定义成为显示功能执行按钮的契机的发话。例如，定义“想去”“想听”“音频”等发话。并且，判定部14获取由处理部12输出的识别结果，在该识别结果与预先定义的发话内容相一致的情况下，对识别结果储存部13进行指示以向生成部16输出储存的识别结果。

并且，语音识别系统2可以将环视本车周边或敲击方向盘的用户的手势动作作为契机，来显示功能执行按钮。例如，判定部14获取设置于车内的可见光摄像机或红外线摄像机等(未图示)测定到的信息，根据获取到的信息检测脸的动作。然后，判定部14将脸的正面朝向摄像机时设为0度，在1秒内来回移动左右45度的范围时，判断为环视本车周边。

并且，绘制部17在进行了成为显示功能执行按钮的契机的用户操作等的情况下，可以不进行与该操作等相对应的画面转移，而以重叠于显示中的画面上的方式显示功能执行按钮。例如，在显示图3(a)的地图显示画面的过程中用户按下了“菜单”按钮HW1的情况下，绘制部17转移至图3(b)的菜单画面并显示功能执行按钮，但在用户进行了敲击方向盘的动作的情况下，在图3(a)的地图显示画面中显示功能执行按钮。

实施方式2.

表示应用了本发明的实施方式2所涉及的语音识别系统的导航系统的一个示例的框图与实施方式1中示出的图1相同，因此省略图示及说明。以下所示的实施方式2中，与实施方式1相比，例如如图12所示，在判定部14将用户的操作和识别结果种类相对应地进行存储这一点上不同。图12的硬件按键例如是图3(a)所示的设置于显示器的边缘的“菜单”按钮HW1、“目的地”按钮HW2、“AV”按钮HW3等。此外，图12的软件按键例如是图3(b)所示的显示于显示器上的“目的地设定”按钮SW11、“AV”按钮SW12等。

实施方式2的判定部14从输入接收部5获取用户的操作内容，判定该获取到的操作内容是否与预先定义的操作相一致。然后，在该获取到的操作内容与预先定义的操作相一致的情况下，判定部14决定与该操作内容相对应的识别结果种类。之后，判定部14对识别结果储存部13指示向生成部16输出具有该决定了的识别结果种类的识别结果。另一方面，在该获取到的操作内容与预先定义的操作不一致的情况下，判定部14不进行任何处理。

识别结果储存部13若接受来自判定部14的指示，则向生成部16输出具有与由判定部14指示的识别结果种类相一致的识别结果种类的识别结果。

接着，利用图13所示的流程图与具体例说明实施方式2的语音识别系统2的动作。另外，此处，将成为在显示部18显示功能执行按钮的契机的用户操作设为图12中定义的操作。此外，用户彼此的会话设为与实施方式1相同。

实施方式2中，识别用户发话并保持识别结果的流程图与图6的流程图相同，因此省略说明。另外，图13的流程图的步骤ST21到步骤ST23的处理与图7的流程图的步骤ST11到步骤ST13相同，因此省略说明。另外，以下的说明中，设为执行了图6的处理，且识别结果储存部13中储存有图9所示的识别结果。

判定部14在从输入接收部5获取到的用户的操作内容与预先定义的操作相一致的情况下(步骤ST23“是”)，在决定了与该操作内容相对应的识别结果种类后，对识别结果储存部13指示向生成部16输出具有该决定了的识别结果种类的识别结果(步骤ST24)。

接着，识别结果储存部13若接受来自判定部14的指示，则向生成部16输出具有与由判定部14指示的识别结果种类相一致的识别结果种类的识别结果(步骤ST25)。

具体而言，若用户B想要检索当前地周边的便利店，并进行成为用于执行该功能的契机的操作即“目的地”按钮HW2的按下操作(步骤ST21、步骤ST22“是”)，则由于“目的地”按钮HW2的按下操作与判定部14所预先定义的操作相一致(步骤ST23“是”)，因此判定部14参照图12所示的表格，将与该操作相对应的识别结果种类决定为“设施种类名”(步骤ST24)。之后，判定部14对识别结果储存部13指示向生成部16输出具有识别结果种类“设施种类名”的识别结果。

识别结果储存部13若接受来自判定部14的指示，则向生成部16输出识别结果种类为“设施种类名”的识别结果、即识别结果字符串为“便利店”与“餐厅”的识别结果(步骤ST25)。

之后，生成部16生成分配有进行“将‘便利店’作为检索关键词的周边设施检索”的功能的功能执行按钮和分配有进行“将‘餐厅’作为检索关键词的周边设施检索”的功能的功能执行按钮(步骤ST26)。绘制部17如图14(a)所示那样在显示部18上显示“便利店”按钮SW3与“餐厅”按钮SW2的功能执行按钮(步骤ST27)。

同样，若用户B进行“AV”按钮HW3的按下操作，则如图14(b)所示那样在显示部18上显示分配有进行“将‘孩子小姐’作为检索关键词的乐曲检索”的功能的功能执行按钮，即“孩子小姐”按钮SW1。

另外，不仅用户的操作内容，也可以将用户的动作内容(发话、手势等)作为契机，显示与该动作内容关联性较高的功能执行按钮。该情况下，如图15(a)与图15(b)所示，判定部14将用户的发话内容或用户的手势内容与识别结果种类相对应地进行存储，判定部14将与基于从语音识别部11获取到的用户的发话内容、或从摄像机或触摸传感器获取到的信息而判断出的用户的手势内容相一致的识别结果种类输出到识别结果储存部13即可。

如上所述，根据本实施方式2，判定部14利用表示用户进行的操作或动作与语音识别部11的识别结果的种类的对应关系的信息，在判定为用户进行了操作或动作的情况下，判定对应的种类，显示控制部15从语音识别部11的识别结果中选择与判定部14判定出的种类相一致的识别结果，在显示部18中显示使导航系统1执行与该选择的识别结果相对应的功能的功能执行按钮，因此呈现出与用户操作等的内容关联性较高的功能执行按钮。因此，对于用户而言，更正确地预测自身的操作意图并进行呈现，能提高用户友好性及使用便利性

实施方式3.

图16是表示应用了本发明的实施方式3所涉及的语音识别系统2的导航系统1的一个示例的框图。另外，对与实施方式1中说明的系统相同的结构标注相同的标号并省略重复的说明。

以下所示的实施方式3中，与实施方式1相比，语音识别系统2不具备识别结果储存部13。取而代之，语音识别系统2具备语音数据储存部20，语音获取部10连续取得由麦克风9收集到的语音，将经A/D转换而数字化后的语音数据的全部或一部分储存于语音数据储存部20。

例如，语音获取部10在作为语音获取期间的移动体停车起的1分钟期间，取得由麦克风9收集到的语音，将数字化后的语音数据储存到语音数据储存部20。此外，语音获取部10在作为语音获取期间的从导航系统1起动开始到停止为止的期间，取得由麦克风9收集到的语音，在此情况下，例如将过去30秒的语音数据储存于语音数据储存部20。另外，语音获取部10采用进行从语音数据检测出发话区间并提取出该区间的处理的结构来代替处理部12，语音获取部10也可以将发话区间的语音数据储存于语音数据储存部20。此外，也可以将预定发话区间数程度的语音数据储存于语音数据储存部20，按从旧数据开始的顺序删除超过预定发话区间数的语音数据。

并且，判定部14从输入接收部5获取用户的操作内容，在该获取到的操作内容与预先定义的操作相一致的情况下，对处理部12输出语音识别开始指示。

并且，若处理部12接受来自判定部14的语音识别开始指示，则从语音数据储存部20获取语音数据，对该获取到的语音数据进行语音识别处理，将识别结果输出至生成部16。

接着，利用图17与图18所示的流程图来说明实施方式3的语音识别系统2的动作。另外，此处，语音获取部10在作为语音获取期间的从导航系统1起动开始到停止为止的期间，取得由麦克风9收集到的语音，并将其中过去30秒的语音数据储存于语音数据储存部20。

图17示出取得并保持用户发话的流程图。首先，语音获取部10取得由麦克风9收集到的用户发话、即输入的语音，例如通过PCM进行A/D转换(步骤ST31)。接着，语音获取部10将数字化后的语音数据储存于语音数据储存部20(步骤ST32)。然后，在导航系统1未停止的情况下(步骤ST33“否”)，语音获取部10返回至步骤ST31的处理，在停止的情况下(步骤ST33“是”)，结束处理。

图18示出表示功能执行按钮的流程图。另外，步骤ST41到步骤ST43的处理与图7的流程图的步骤ST11到步骤ST13相同，因此省略说明。

判定部14从输入接收部5获取的用户的操作内容与预先定义的操作相一致的情况下(步骤ST43“是”)，对处理部12输出语音识别开始指示。若处理部12接受来自判定部14的语音识别开始指示，则从语音数据储存部20获取语音数据(步骤ST44)，对该获取到的语音数据进行语音识别处理，将识别结果输出至生成部16(步骤ST45)。

如上所述，根据本实施方式3，语音识别部11采用如下结构：在判定部14中判定为用户进行了预定的操作或动作的情况下，对语音获取部10在整个语音获取期间获取到的语音进行识别，因此在没有进行语音识别处理时，能将存储器等资源分配到地图画面绘制处理等其他处理，能提高对于语音操作以外的用户操作的响应速度。

另外，本发明可以在其发明的范围内对各实施方式进行自由组合，或对各实施方式的任意结构要素进行变形、或省略各实施方式中任意的结构要素。

工业上的实用性

本发明所涉及语音识别系统能在用户可能需要的时刻呈现功能执行按钮，因此适用于始终对用户的发话进行识别的语音识别系统等。

标号说明

1 导航系统(被控制装置)

2 语音识别系统

3 控制部

4 指示输入部

5 输入接收部

6 导航部

7 语音控制部

8 扬声器

9 麦克风

10 语音获取部

11 语音识别部

12 处理部

13 识别结果储存部

14 判定部

15 显示控制部

16 生成部

17 绘制部

18 显示部

19 优先度赋予部

20 语音数据储存部

100 总线

101 CPU

102 ROM

103 RAM

104 HDD

105 输入装置

106 输出装置

Claims

1.一种语音识别系统，其特征在于，包括：

语音获取部，该语音获取部在整个预先设定的语音获取期间获取用户发话的语音；

语音识别部，该语音识别部对所述语音获取部获取到的语音进行识别；

判定部，该判定部对所述用户是否进行了预定的操作或动作进行判定；以及

显示控制部，该显示控制部在所述判定部中判定为所述用户进行了预定的操作或动作的情况下，使显示部显示功能执行按钮，所述功能执行按钮使被控制装置执行与所述语音识别部的识别结果相对应的功能。

2.如权利要求1所述的语音识别系统，其特征在于，

所述判定部利用表示所述用户进行的操作或动作与所述语音识别部的识别结果的种类之间的对应关系的信息，来对与判定为所述用户进行了所述操作或所述动作的情况相对应的种类进行判定，

所述显示控制部从所述语音识别部的识别结果中选择与所述判定部所判定得到的种类相一致的识别结果，使所述显示部显示功能执行按钮，所述功能执行按钮使所述被控制装置执行与该选择的识别结果相对应的功能。

3.如权利要求1所述的语音识别系统，其特征在于，

所述显示控制部根据所述语音识别部的识别结果的种类，来变更所述功能执行按钮的显示形式。

4.如权利要求3所述的语音识别系统，其特征在于，

包括优先度赋予部，该优先度赋予部按每个种类对所述语音识别部的识别结果赋予优先度，

所述显示控制部根据所述优先度赋予部对所述语音识别部的识别结果所赋予的优先度，来变更所述功能执行按钮的显示形式。

5.如权利要求1所述的语音识别系统，其特征在于，

在所述判定部中判定为所述用户进行了预定的操作或动作的情况下，所述语音识别部对所述语音获取部在整个所述语音获取期间所获取到的语音进行识别。