CN101136198A

CN101136198A - 语音识别方法及语音识别装置

Info

Publication number: CN101136198A
Application number: CNA2007101291998A
Authority: CN
Inventors: 宫岛孝幸
Original assignee: Aisin AW Co Ltd
Current assignee: Aisin AW Co Ltd
Priority date: 2006-08-29
Filing date: 2007-07-13
Publication date: 2008-03-05
Also published as: JP2008058409A; US20080059175A1; EP1895510A1

Abstract

本发明提供能够提高识别精度的语音识别方法及语音识别装置。在识别驾驶员发出的语音的导航系统(1)的控制装置(2)中，具备：识别词典(16)，其存储与驾驶员周围的装置相关的对象装置预先关联的识别候补；图像处理器(9)，其检测驾驶员的视线方向；控制部(3)，其判断驾驶员视线方向上的装置；语音识别处理器(11)，其从识别词典(16)的各个识别候补中，将与驾驶员视线方向所对应的对象装置相关联的各个识别候补设定为识别对象范围，并从该识别对象范围中选择出与麦克风(23)输入的语音数据相似程度高的识别候补。

Description

语音识别方法及语音识别装置

技术领域

本发明涉及语音识别方法及语音识别装置。

背景技术

以往，为了支援安全驾驶，会在汽车中安装装载了语音识别功能的导航系统。该系统，对从麦克风输入的语音信号进行识别处理，将其转换成字符串数据，将这些字符串数据作为控制空气调节器等各装置的指令。然而，通常的语音识别与难以达到高识别率之事无关，但在驾驶室内，音频声、车辆行驶过程中的噪音等背景音繁多，从而导致语音识别精度降低的问题。对此，专利文献1中，记述了这样的系统：当驾驶员说出一个地名时，对根据语音识别检测出的识别候补和地图数据的“县名”，“市街村名”等地名数据进行对照。并且，当地名数据和识别候补一致时，将该识别候补识别为指定地名的指令。

专利文献1：JP特开2005-114964号公报

在上述的系统中，虽然提高了地名识别精度，但例如在对空气调节器发出“温度上升”等命令时，并不能提高对其它装置进行操作的语音指令的识别精度。

发明内容

鉴于上述问题，本发明的目的在于。提供一种能够提高识别精度的语音识别方法及语音识别装置。

为了解决上述问题，本发明技术方案(1)提供一种语音识别方法，用于识别说话者发出的语音，其特征在于，检测上述说话者的视线方向，推测在该视线方向的视觉确认对象物；并且，从与上述视觉确认对象物关联的各个识别候补中，将上述各个识别候补设定为识别对象范围，上述各个识别候补与在上述说话者视线方向的上述视觉确认对象物对应；从在上述识别对象范围中所包含的上述各个识别候补中，选择与说话者发出的语音相似程度高的上述识别候补。

技术方案(2)提供一种语音识别装置，用于识别说话者发出的语音，其特征在于，具备：识别词典，存储识别候补，上述识别候补与在上述说话者周围的视觉确认对象物关联；视线检测装置，检测上述说话者的视线方向；判断装置，基于上述视线方向，判断在上述说话者视线方向的上述视觉确认对象物；

范围设定装置，从上述识别词典的上述各个识别候补中，将上述各个识别候补设定为识别对象范围，上述各个识别候补与在上述说话者视线方向的上述视觉确认对象物关联；识别装置，从上述范围设定装置设定的上述识别对象范围中，选择与语音输入装置输入的语音数据相似程度高的上述识别候补。

技术方案(3)，如上述技术方案(2)所述的语音识别装置，其特征在于，上述视觉确认对象物是装载在车辆上的控制对象装置，此外，还具备车辆侧控制装置，基于由上述识别装置选择了的上述识别候补，将控制信号向上述控制对象装置输出。

技术方案(4)，如上述技术方案(2)或(3)所述的语音识别装置，其特征在于，上述视线检测装置通过由正面拍摄上述说话者的摄像装置，输入图像数据，对上述图像数据进行图像处理，算出上述说话者的视线方向。

技术方案(5)提供一种语音识别装置，用于识别说话者发出的语音，其特征在于，具备：识别词典，存储识别候补，上述识别候补与在上述说话者周围的视觉确认对象物关联；视线检测装置，检测上述说话者的视线方向；判断装置，基于上述视线方向，判断在上述说话者视线方向的上述视觉确认对象物；优先度设定装置，将在上述说话者视线方向的上述视觉确认对象物的优先度作高设定；识别装置，从上述识别词典的上述识别候补中，基于上述优先度设定装置的优先度，选择与从语音输入装置输入的语音数据相似程度高的上述识别候补。

技术方案(6)提供一种语音识别装置，用于识别说话者发出的语音，其特征在于，具备：识别词典，存储与各种类相关联的识别候补；动作检测装置，检测说话者的动作；范围设定装置，在上述动作检测装置检测说话者的动作时，选择与上述说话者的动作相关联的上述种类，并将与该视觉确认对象物相关联的上述各个识别候补设定为识别对象范围；识别装置，从上述范围设定装置设定的上述识别对象范围中，选择与语音输入装置输入的语音数据相似程度高的上述识别候补。

根据上述技术方案(1)中所述的发明，检测出推测为说话者正在看的视觉确认对象物，并将该视觉确认对象物所对应的识别候补作为识别对象范围。因此，能够从庞大数量的识别候补中，缩取与语音一致的可能性高的识别候补，从而提高识别精度。

根据上述技术方案(2)所述的发明，语音识别装置检测出推测为说话者正在看的视觉确认对象物，并将该视觉确认对象物所对应的识别候补作为识别对象范围。因此，能够从庞大数量的识别候补中，缩取与语音一致的可能性高的识别候补，从而提高识别精度。

根据上述技术方案(3)所述的发明，视觉对象物是装载在车辆中的控制对象装置，根据该语音识别结果而控制该控制对象装置。因此，可以在如车辆那样存在多个控制对象装置时发挥特殊的效果。

根据上述技术方案(4)所述的发明，通过对图像数据进行图像处理来计算说话者的视线方向。因此，可以更高精度的检测出说话者的视线方向。

根据上述技术方案(5)所述的发明，从识别词典内庞大数量的识别候补中，将推测为说话者看到的视觉确认对象物所对应的识别候补的优先度提高。因此，能够最终选择出与说话者的语音一致的概率高的识别候补，从而提高识别精度。

根据上述技术方案(6)所述的发明，预先设定说话者的动作和种类，将该动作所对应的种类所关联的识别候补作为识别对象范围。因此，能够从庞大数量的识别候补中，与语音一致的可能性高的识别候补，从而提高识别精度。

附图说明

图1是本实施方式的导航系统的说明图。

图2是摄像机安装位置的说明图。

图3是瞳孔位置说明图，其中，视线朝向为：(a)正面、(b)右下、(c)左、(d)左下。

图4是说明对象装置的配置的说明图。

图5是说明对象装置选择表的说明图。

图6是说明识别词典的数据结构的主要部分说明图。

图7是本实施方式的处理步骤的说明图。

图8是第二实施方式的处理步骤的说明图。

具体实施方式

(第一实施方式)

下面，对本发明的驾驶支援装置具体化的第一实施方式，按照图1～图7进行说明。图1是说明汽车(车辆)上装载的导航系统1的结构的框图。

如图1所示，作为视觉确认对象物及控制对象装置的导航系统1，具备：控制装置2，其作为进行语音识别等处理的语音识别装置；显示器20，其作为表示各种画面的视觉确认对象物、控制对象装置；摄像机22，其作为摄像装置；麦克风23，其作为语音输入装置；以及扬声器24。

控制装置2具备：控制部3，其作为视线检测装置、判断装置及车辆侧控制装置；RAM(Random-access memory：随机存储器)4，其临时存储控制部3的计算结果；ROM(Read-only memory：只读存储器)5，其存储路径检索程序、语音识别程序等各种程序；以及GPS(Global Position System：全球定位系统)接收部6。控制部3由LSI(Large Scale Integrated circuit：大规模集成电路)等构成，基于从GPS接收部6输入的位置检测信号，算出车辆所在位置的绝对坐标。并且，控制部3还通过控制装置2的车辆侧I/F部7，从车速传感器30及陀螺传感器31输入车速脉冲以及方位检测信号，根据自律导航算出距离基准位置的相对位置。并且，对照基于GPS接收部6的绝对坐标，逐步确定本车的所在位置。

并且，控制部3通过车辆侧I/F部7，收发与空气调节控制单元32间的各种信号。空气调节控制单元32根据驾驶员的手动操作或者由控制装置2产生的语音识别结果，来控制车辆中设置的空气调节器38(参照图4)，进行温度调节、风量调节、模式变换等操作。

另外，如果操作与显示器20相邻的开关21等，外部输入I/F部13就会将与该操作所对应的信号输出到控制部3或语音输出控制部18。例如：如果操作启动音频的开关21，语音输出控制部18就会从没有图示的乐曲数据库或者插入导航系统1中的外部存储介质中读出乐曲文件，并且控制收音机调谐(图示略)，从扬声器24中输出声音。另外，如果对用于音量调节的开关21进行输入操作，则声音输出控制部18就会对应于该输入操作，对扬声器24中输出的音量进行调整。

另外，如图1所示，控制装置2具备地理数据存储部8、作为视线检测装置的图像处理器9。地理数据存储部8是内置的硬盘或者光盘等外部存储介质，存储有用于检索到达目的地路线的各路径数据8a和用于将地图画面20a输出到显示器20上的地图描画数据8b。

另外，图像处理器9通过影像信号输入部10，从驾驶室内设置的摄像机22输入图像，并检测作为说话者的驾驶员的视线方向。该摄像机22设置在可拍摄驾驶员眼睛的位置上。在本实施方式中，如图2所示，设置在仪表盘和方向盘36附近。摄像机22以坐在驾驶席35上的驾驶员D的头部为中心进行摄像，并将影像信号输出到影像信号输入部10。影像信号输入部10对影像信号进行A/D转换生成图像数据，并将图像数据输出到图像处理器9。图像处理器9按公知的方法进行图像处理，检测驾驶员D的眼睛E中的瞳孔B的位置(参照图3(a))。此外，摄像机22本身也可以对影像信号进行A/D转换。

然后，图像处理器9按照规定间隔输入图像数据，监视眼睛E中的瞳孔B的位置变化。驾驶员D的视线从前方向右下方移动时，上述右下方是指从驾驶员看来的右下方，此时图像处理器9会对图像数据进行分析，并重新计算瞳孔B的位置。当算出瞳孔B的位置时，图像处理器9将分析结果输出到控制部3。控制部3基于该分析结果，判断驾驶员D的视线方向。

图3(a)～(d)是瞳孔B的位置的说明图，分别表示单侧眼睛。例如：如图3(b)所示，如果输出的分析结果显示瞳孔B的位置是从驾驶员D看来的右下方，控制部3就判断出驾驶员D的视线方向是右下方。另外，如图3(c)所示，如果输出的分析结果显示瞳孔B的位置是从驾驶员D看来的左侧方，控制部3就判断出驾驶员D的视线方向是左侧方。另外，如图3(d)所示，如果输出的分析结果显示瞳孔B的位置是从驾驶员D看的左下方，控制部3就判断出驾驶员D的视线方向是左下方。

另外，控制部3基于检测出的视线方向和ROM5中预先存储的对象装置选择表14(参照图1及图5)，推测驾驶员D看到的装置。如图5所示，对象装置选择表14将驾驶员D的视线方向14a和作为种类的对象装置14b相关联而存储。例如，视线方向14a是“右下方”时，如图4所示，从驾驶员D看来，右下方的音频开关39成为视觉确认对象，“音频”成为对象装置14b。另外，视线方向14a是“左侧方”时，驾驶员D看左侧方的导航系统1的显示器20的可能性比较高，所以将“导航”作为对象装置14b。另外，视线方向14a是“左下方”时，驾驶员D看作为视觉确认对象物、装载设备的空气调节器38的操作面板37的可能性比较高，所以作为对象装置14b附带“空气调节器”。另外，该对象装置选择表14的视线方向14a可以不是指示“右下方”、“左侧方”等的方向，而是表示瞳孔B的坐标的数据。由此推测出的对象装置14b可用于驾驶员D的语音识别。

语音识别处理，主要是通过作为范围设定装置和识别装置的语音识别处理器11(参照图1)，使用语音识别数据库(以下称为语音识别DB12)来进行的。语音识别处理器11内置有接口、语音识别用LSI等，该接口用于从驾驶室内设置的麦克风23(参照图1)输入语音信号(语音数据)。麦克风23设置在驾驶席35的周围，输入驾驶员发出的语音。

语音识别DB12中存储有音响模式15、识别词典16、语言模式17。音响模式15是与语音的特征量及发音元素相关联的数据。识别词典16容纳有几万～几十万个与发音元素列对应的单词。语言模式17是将位于开始或结束位置的概率、连续单词间的连接概率、受连带关系模式化的数据。图6是表示本实施方式的识别词典16的一部分结构的图。如图6所示，识别词典中存储的识别候补16a是根据对象装置14b来进行分类的。对象装置14b是和对象装置选择表14中的视线方向14a对应的数据。识别候补16a是与各个对象装置14的操作相关联的单词。

首先，语音识别处理器11算出输入的语音信号的波形特征。然后，将该特征量和音响模式15进行对照，分别选择“a(あ)”，“tsu(つ)”等和特征量对应的发音元素。此时，即使驾驶员D说的是“あつい(热)”，根据个人的说话特征，则不仅能够检测出“atui”的发音元素列，而且能将和该发音元素列相似的“hatsui”，“asui”等多个发音元素列检测出来。并且，语音识别处理器11将检测出来的各个发音元素列与识别词典16进行对照，选择出识别候补。在这里，如果控制部3预测出驾驶员D正在看的对象装置14b是“空气调节器”的情况下，则语音识别处理器11就会从庞大数量的识别候补16a中缩取与“空气调节器”的对象装置14b相关联的识别候补16a，并将这些识别候补16a作为识别对象范围。然后，将识别对象范围中的各个识别候补16a和基于音响模式算出来的各个发音元素列分别进行对照，算出相似程度。然后，确定相似程度最高的识别候补16a。这样一来，通过设定识别对象范围，可以将成为语音特征相似的说话对象的可能性较低的识别对象16a排除，从而能够提高识别精度。

另外，语音识别处理器11通过使用语言模式17，算出连接关系的概率，并对整合性进行判断。例如，对“温度”及“上升”、“路径”及“检索”、“音量”及“提高”等多个单词进行识别时，算出各个单词的连接概率，概率高的作为识别结果来确定。一旦确定了识别结果，语音识别处理器11就会将识别结果输出到控制部3。控制部3再将基于识别结果的指令输出到语音输出控制部18、空气调节控制单元32等装置中。

下面，按照图7对本实施方式的语音识别的处理步骤进行说明。

首先，控制部3等待语音识别处理的开始触发信号(trigger)的输入(步骤S1)。在本实施方式中，开始触发信号是车辆点火装置所输出的接通信号，也可以是语音识别开始开关的按钮。一旦输入开始触发信号(在步骤S1中为“是”)，图像处理器9通过影像信号输入部10，输入所拍摄的驾驶员D头部的图像数据(步骤S2)。另外，图像处理器9按公知的处理步骤对输入的图像数据的进行图像处理，并检测出驾驶员D的瞳孔B的位置(步骤S3)。

控制部3从图像处理器9接收分析结果，并判断驾驶员D的视线方向14a(步骤S4)。然后，基于图5所示的对象装置选择表14，判断在视线方向14a上是否存在对象装置14b(步骤S5)。例如，当视线方向14a是“右下方”时，因为此时的视线方向14a与表示“音频”的对象装置14b相关联，所以判断在视线方向14a中存在对象装置14b(在步骤S5中为“是”)，进入步骤S6。

在步骤S6中，控制部3将视线方向14a输出到语音识别处理器11，而语音识别处理器11从识别词典16所存储的各个识别候补16a中指定识别对象范围。例如，当“音频”的对象装置14b被选择时，则将表示“音频”的对象装置14b所关联的各个识别候补作为识别对象。

然后，在步骤S7中，语音识别处理器11判断是否从麦克风23输入了语音信号。没有输入语音信号时(在步骤S7中为“否”)，进入到步骤S10。反之，在步骤S7中判断输入了语音信号时(在步骤S7中为“是”)，通过语音识别处理器11进行语音识别(步骤S8)。如上所述，语音识别处理器11检测出语音信号的特征量，基于音响模式15，算出和特征量相似程度高的各个发音元素列。然后，将各个发音元素列和步骤S6中设定的识别对象范围内的识别候补16a分别进行对照，选择出相似程度高的各个识别候补16a。当决定了各个识别候补16a时，使用语言模式17，对照各个识别候补16a的连接关系的概率，将概率高的文句确定为识别结果。

接着，当确定了识别结果后，控制部3会对对象装置14b执行基于识别结果的指令(步骤S9)。例如，对象装置14b是“空气调节器”时，如果识别结果是“热”，控制部3就会通过车辆侧I/F部7对空气调节器38输出降低一定温度的操作命令。另外，比如对象装置14b是“音频”时，如果识别结果是“提高音量”，控制部3就会对语音输出控制部18输出相应指令，从而提高音量。另外，比如对象装置14b是“导航”时，如果识别结果是“自宅”，控制部3就会从现在该车所在位置，使用预先记录的到达自宅的路径的路径数据8a等进行检索，并将检索到的路径输出到显示器20上。

另一方面，在步骤S5中，如果与视线方向14a关联的对象装置14b不存在的情况下(在步骤S5中为“否”)，则进到步骤S7，在不指定识别词典16的识别候补16a的识别对象范围状态下，将各识别候补16a和各个发音元素列进行对照。然后，基于语音识别结果，控制部3控制对象装置14b，并执行指令(步骤S9)。

在步骤S9中，当指令执行后，控制部3判断是否有结束触发信号的输入(步骤S10)。在本实施方式中，结束触发信号可以是熄火信号，也可以是语音识别结束开关的按钮。判断结束触发信号没有输入时(在步骤S10中为“否”)时，返回步骤S2，继续监视驾驶员D的视线方向14a，并重复对应于视线方向14a的语音识别处理。当判断为输入了结束触发信号(在步骤S10中为“是”)时，结束处理。

如果依照上述的实施方式，可以得到以下的效果。

(1)在第一实施方式中，导航系统1的控制部3基于图像处理器9的分析结果，对驾驶员D的视线方向上存在的对象装置14b进行判断。另外，语音识别处理器11从识别词典16内的识别候补16a中，将和驾驶员D的视线方向14a上的对象装置14b相关联的各个识别候补16a设定为识别范围。然后，从识别对象范围中，基于驾驶员D发出的语音，将和发音元素列相似程度高的识别候补16a确定为识别结果。因此，不仅根据语音信号的特征量和连接关系概率，还检测并利用驾驶员D的视线方向上的对象装置14b，可以从语音识别DB12内庞大数量的识别候补16a中，缩取与说话内容一致的可能性较高的识别候补16a。由此，因为能够将驾驶员D的视线以外的识别候补16a不作为识别对象，所以可以避免这种情况，即，虽然语音的特征量相似，但和驾驶员D的现在状况完全无关的识别候补16a误确定为识别结果。因此，可以通过设定识别对象范围来辅助语音识别处理，并提高识别精度。另外，通过设定识别对象范围，可以减少和发音元素列进行对照的识别候补16a的数量，缩短处理时间。

(2)在第一实施方式中，图像处理器9基于从摄像机22输入的图像数据，检测出驾驶员D的瞳孔B的位置。因此，和用红外线激光等检测瞳孔位置的方法相比，能够更加精确的检测出说话者的视线方向14a。

(第2实施方式)

下面，按照图8对本发明具体化的第二实施方式进行说明。另外，第二实施方式只是变更了第一实施方式的处理步骤，因此，相同部分的详细说明省略。

即，在第二实施方式中，只是对第一实施方式的步骤S6的处理进行了变更。详细说明的话，在图8所示的步骤S5中，如果判断视线方向上存在对象装置14b(在步骤S5中为“是”)，作为优先度设定装置的语音识别处理器11会对该对象装置14b相关联的识别候补16a优先处理(步骤S6-1)。具体来说，语音识别处理器11将对象装置14b相关联的识别候补16a的概率分数设定高。在尚未检测出驾驶员D的视线方向14a的初始状态下，各个识别候补16a的概率分数设定为缺省值，或者设为根据个人使用频率设定的分数值，又或者设为根据一般使用频率设定的分数值等。要提高概率分数时，则例如在原有的概率分数的基础上加上一定值。

在步骤S7中，一旦判断有语音信号输入(在步骤S7中为“是”)，语音识别处理器11进行附加了概率分数的语音识别(步骤S8)。即，不检索识别候补16a，但在判断各个识别候补16a和发音元素列的相似程度时，优先确定概率分数高的识别候补16a。

因此，如果依照第二实施方式，除了第一实施方式中记述的效果外，还可以得到以下的效果。

(3)在第二实施方式中，语音识别处理器11对驾驶员D的视线方向14a所对应的对象装置14b的各个识别候补16a优先进行语音识别。因此，可以不减少于发音元素列对照的识别候补16a的数量，而选择出和发出的语音一致的概率高的识别候补16a。因此，即使在驾驶员D的视线和说话内容不吻合的情况下，也能对其语音进行识别。

另外，还可以对上述的各个实施方式进行以下的变更。

在第一及第二实施方式中，对象装置14b与识别词典16的识别候补16a相关联。除此之外，也可以相应于对象装置14b而设置语言模式17。例如，将视线方向14a和“空气调节器”的对象装置14b相对应时，将“温度”，“上升”，“下降”等空气调节器38的操作相关单词的概率和连接概率设定得比初始值高。这样一来，可以进一步提高识别的精度。

在上述的各个实施方式，也可以让用户来选择采用基于第一实施方式处理步骤的语音识别模式，还是采用基于第二实施方式处理步骤的语音识别模式。

在第二实施方式中，虽然对与视线方向14a的对象装置14b相关联的识别候补16a设定高的概率分数，但只要提高这些识别候补16a的优先度即可。例如，首先对照视线方向14a的对象装置14b所关联的识别候补16a，不存在相似程度高的识别候补16a时，可以再对其它的对象装置14b的识别候补16a进行对照。

在上述的各个实施方式，图像处理器9在输入开始触发信号之后，监视驾驶员D的视线变化，语音识别处理器11等待语音信号的输入，但也可以只在驾驶员D按压开关时，才进行视线检测和语音识别。此时，开始触发信号就是驾驶员D按压开始开关的操作。结束触发信号例如可以是驾驶员D按压结束开关按钮的操作，也可以是计时器设定的指示时间经过的信号。

在上述的实施方式中，也可以预先登录驾驶员D的视线方向14a或动作和对象装置14b的关系。例如：将“用手托起脸”的动作和表示“空气调节器”的对象装置14b预先登录到关联表等中。然后，作为动作检测装置的图像处理器9检测到“用手托起脸”的动作时，语音识别处理器11基于该表，将识别对象范围确定为“空气调节器”的对象装置14b相关联的识别候补16a。另外，该表也可以针对每个用户进行数据存储。

在上述的各个实施方式中，作为对象种类，虽然设定在驾驶员D周围的空气调节器38、导航系统1、音频开关39等，但也可以设定其它的装置，也可以根据车辆的结构来变更视线方向14a与对象装置14b的关系。另外，对于一个视线方向14a，还可以关联多个对象装置14b。例如，视线方向14a为“左下方”时，可以将空气调节器38及导航系统1作为对象装置14b。另外，视线方向14a为“左侧方”、“左下方”等左侧的方向时，左侧的所有装置都可以作为对象装置14b。

在上述的实施方式中，将语音识别方法及语音识别装置具体为车辆中装载的导航系统1，但也可以适用于具有语音识别功能的游戏机、智能系统等其它的装置。

Claims

1.一种语音识别方法，用于识别说话者发出的语音，其特征在于，

检测上述说话者的视线方向，推测在该视线方向的视觉确认对象物；

并且，从与上述视觉确认对象物关联的各个识别候补中，将上述各个识别候补设定为识别对象范围，上述各个识别候补与在上述说话者视线方向的上述视觉确认对象物对应；

从在上述识别对象范围中所包含的上述各个识别候补中，选择与说话者发出的语音相似程度高的上述识别候补。

2.一种语音识别装置，用于识别说话者发出的语音，其特征在于，

具备：

识别词典，存储识别候补，上述识别候补与在上述说话者周围的视觉确认对象物关联；

视线检测装置，检测上述说话者的视线方向；

判断装置，基于上述视线方向，判断在上述说话者视线方向的上述视觉确认对象物；

范围设定装置，从上述识别词典的上述各个识别候补中，将上述各个识别候补设定为识别对象范围，上述各个识别候补与在上述说话者视线方向的上述视觉确认对象物关联；

识别装置，从上述范围设定装置设定的上述识别对象范围中，选择与语音输入装置输入的语音数据相似程度高的上述识别候补。

3.如权利要求2所述的语音识别装置，其特征在于，

上述视觉确认对象物是装载在车辆上的控制对象装置，

此外，还具备车辆侧控制装置，基于由上述识别装置选择了的上述识别候补，将控制信号向上述控制对象装置输出。

4.如权利要求2或3所述的语音识别装置，其特征在于，

上述视线检测装置通过由正面拍摄上述说话者的摄像装置，输入图像数据，对上述图像数据进行图像处理，算出上述说话者的视线方向。

5.一种语音识别装置，用于识别说话者发出的语音，其特征在于，

具备：

视线检测装置，检测上述说话者的视线方向；

优先度设定装置，将在上述说话者视线方向的上述视觉确认对象物的优先度作高设定；

识别装置，从上述识别词典的上述识别候补中，基于上述优先度设定装置的优先度，选择与从语音输入装置输入的语音数据相似程度高的上述识别候补。

6.一种语音识别装置，用于识别说话者发出的语音，其特征在于，

具备：

识别词典，存储与各种类相关联的识别候补；

动作检测装置，检测说话者的动作；

范围设定装置，在上述动作检测装置检测说话者的动作时，选择与上述说话者的动作相关联的上述种类，并将与该视觉确认对象物相关联的上述各个识别候补设定为识别对象范围；