CN104428832B

CN104428832B - 语音识别装置及其方法

Info

Publication number: CN104428832B
Application number: CN201380036950.3A
Authority: CN
Inventors: 郑斗景
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2012-07-09
Filing date: 2013-07-05
Publication date: 2018-06-26
Anticipated expiration: 2033-07-05
Also published as: KR102206383B1; EP2871640A4; US20150161992A1; CN104428832A; US9443510B2; EP2871640A1; WO2014010879A1; KR20140007282A; EP2871640B1

Abstract

本发明涉及用户不对语音识别开始按钮等进行操作也能够容易并且方便准确地识别用户的语音的语音识别装置及其方法，本说明书实施例的语音识别装置可包括：摄像头，拍摄用户图像；麦克风；控制部，从上述用户图像中检测预先设定的用户姿势，若自检测到上述用户姿势的时刻起从通过上述麦克风输入的语音信号中检测到非词汇，则将检测到的上述非词汇之后的语音信号决定为有效的语音信号；语音识别部，识别上述有效的语音信号。

Description

语音识别装置及其方法

技术领域

本发明涉及语音识别装置及其方法。

背景技术

一般，语音识别为从包含在语音的音响学信息提取音韵即言语信息，从而使机器认知上述言语信息并进行反应的一系列过程。通过语音进行对话被认为许多人类和机器的信息交换介质中最为自然并简便的方法，但是为了与机器通过语音进行对话，存在将人类的语音变换为机器能够处理的代码的限制。这种变换为代码的过程正是语音识别。

发明内容

发明所要解决的问题

本发明的目的在于，提供用户不对语音识别开始按钮等进行操作，也能够容易并且简便准确地识别用户的语音的语音识别装置及其方法。

用于解决问题的手段

本说明书实施例的语音识别装置可包括：摄像头，拍摄用户图像；麦克风；控制部，从上述用户图像中检测预先设定的用户姿势，若自检测到上述用户姿势的时刻起从通过上述麦克风输入的语音信号中检测到非词汇，则将检测到的上述非词汇之后的语音信号决定为有效的语音信号；语音识别部，识别上述有效的语音信号。

作为与本发明相关的一例，上述控制部通过上述摄像头实时追踪用户的视线，若自所追踪的上述用户的视线朝向上述麦克风的时刻起从通过上述麦克风输入的语音信号中检测到上述非词汇，则上述控制部可将检测到的上述非词汇之后的语音信号决定为上述有效的语音信号。

作为与本发明相关的一例，上述非词汇可以为感叹词。

作为与本发明相关的一例，当上述用户的视线朝向上述麦克风时，上述控制部可启动上述语音识别部。

作为与本发明相关的一例，若上述用户的视线朝向上述麦克风且从通过上述麦克风输入的语音信号中未检测到上述非词汇，则上述控制部可断开上述语音识别部。

作为与本发明相关的一例，上述摄像头和上述麦克风可设置于相同或相邻的位置。

作为与本发明相关的一例，上述控制部通过上述摄像头实时追踪用户的视线，若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形，则上述控制部可将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为上述有效的语音信号。

作为与本发明相关的一例，上述预先设定的用户的嘴形可以为用户的嘴动的形状或者用户的嘴张开的形状。

作为与本发明相关的一例，上述控制部通过上述摄像头实时追踪用户的视线，若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形，则上述控制部可仅将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形相对应的语音信号决定为用于语音识别的语音区间。

作为与本发明相关的一例，上述控制部可将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形相对应的语音信号以外的剩余语音信号决定为非语音区间。

本说明书实施例的语音识别方法可包括：从通过摄像头拍摄的用户图像中检测预先设定的用户姿势的步骤；若自检测到上述用户姿势的时刻起从通过麦克风输入的语音信号中检测到非词汇，则将检测到的上述非词汇之后的语音信号决定为有效的语音信号的步骤；以及通过语音识别部识别上述有效的语音信号的步骤。

发明的效果

根据本发明实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的语音信号中检测到非词汇(例如，感叹词)，则将检测到的上述非词汇之后的语音信号自动识别为有效的语音信号，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作也能够容易并且方便准确地识别用户的语音。

根据本发明实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像或者用户的嘴张开的图像)，则将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号自动识别为上述有效的语音信号，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作也能够容易并且方便准确地识别用户的语音。

根据本发明实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像或者用户的嘴张开的图像)，则仅对自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如，用户的嘴动的图像)相对应的语音信号进行语音识别，从而用户能够与车辆内的噪音(例如，雨刷(wiper)噪音、信号等待时方向指示灯的动作声音、车辆发动机声音等)无关地准确地识别语音。

附图说明

图1为表示用于说明本发明实施例的移动通信终端的结构的框图。

图2为表示用于说明本发明实施例的车辆导航系统的框图。

图3为表示用于说明本发明实施例的远程信息处理终端的结构的框图。

图4为用于说明本发明实施例的导航(车辆导航)装置的结构的框图。

图5为表示本发明实施例的适用语音识别装置的终端的例示图。

图6为表示本发明一实施例的语音识别方法的流程图。

图7为表示本发明一实施例的决定有效的语音信号的方法的例示图。

图8为表示本发明另一实施例的语音识别方法的流程图。

图9为表示本发明另一实施例的决定有效的语音信号的方法的另一例示图。

具体实施方式

应当注意，本说明书中使用的技术术语只是为了说明特定的实施例而使用，并不是要限定本发明。并且，本说明书中使用的技术术语只要不在本说明书中特意地定义为其他意思，就应当解释为由本发明所属技术领域的普通技术人员通常理解的意思，不得被解释为过分统筹的意思，或者不得被解释为过分缩减的意思，并且，当本说明书中使用的技术术语为无法准确地表达出本发明的思想的有误的技术术语时，应当被替换为本领域的技术人员能够正确理解的技术术语。并且，本发明中使用的普通术语应当根据辞典上定义的内容或者根据前后文脉来被解释，不得被解释为过分缩减的意思。

并且，本说明书中使用的单数的表现只要不是在文脉上明确表达出不同的意思，就包括复数的表现。本申请中，“构成”或“包括”的术语不得被解释为必须包括记载于说明书中的多个结构要素或多个步骤，应当被解释为有可能不包括其中一部分结构要素或一部分步骤，或者还可包括追加的结构要素或步骤。

并且，本说明书中使用的第一、第二等包括序数的术语可以用于说明多种结构要素，但上述结构要素不得受上述术语的限定。上述术语的使用目的仅在于区别一个结构要素和其他结构要素。例如，在不脱离本发明的权利范围的情况下，第一结构要素可以被命名为第二结构要素，类似地，第二结构要素也可以被命名为第一结构要素。

以下，参照附图，详细说明本发明的优选实施例，与附图标记无关地，相同或者类似地结构要素使用相同的附图标记，并省略对其的重复说明。

并且，在对本发明进行说明时，当判断为相关的公知技术的具体说明有可能使本发明的主旨不清楚的情况下，省略其详细说明。并且，应当注意，附图只是有助于理解本发明的思想，不得被解释为本发明的思想局限于附图。

图1为表示用于说明本发明实施例的移动通信终端100的结构的框图。移动通信终端(移动电话)100能够体现为多种形态。例如，移动通信终端100可以为手机、智能手机(smart phone)、笔记本电脑(notebook compu ter)、数字广播终端、个人数字助理(PDA，Personal Digital Assistants)及便携式多媒体播放器(PMP，Portable MultimediaPlayer)等。

如图1所示，移动通信终端100可包括无线通信部110、音频/视频(A/V，Audio/Video)输入部120、用户输入部130、传感器部140、输出部150、存储器160、接口部170、控制部180及供电部190等。图1所示的移动通信终端100的所有的结构要素并不是必要结构要素，移动通信终端100能够通过多于图1所示的结构要素的结构要素来实现，移动通信终端100也能够通过少于图1所示的结构要素的结构要素来实现。

上述无线通信部110可包括实现移动通信终端100和无线通信系统之间的无线通信或者移动通信终端100和该移动通信终端100处于的网络之间的无线通信的一个以上的结构要素。例如，无线通信部110可包括广播接收模块111、移动通信模块112、无线互联网模块113、近距离通信模块114及位置信息模块115等。

上述广播接收模块111通过广播频道从外部的广播管理服务器接收广播信号和/或有关广播的信息。上述广播频道可包括卫星频道和地面频道。上述广播管理服务器能够意味着生成广播信号和/或广播相关信息来发送的服务器，或者接收预先生成的广播信号和/或广播相关信息来向移动通信终端100发送的服务器。上述广播相关信息能够意味着与广播频道、广播节目或广播服务提供者相关的信息。上述广播信号不仅可包括电视(TV)广播信号、收音机广播信号及数据广播信号，还包括电视广播信号或收音机广播信号与数据广播信号相结合的形态的广播信号。

另一方面，上述广播相关信息也能够通过移动通信网提供，在这种情况下，能够由上述移动通信模块112来接收。上述广播相关信息能够以多种形态存在。例如，能够以数字多媒体广播(DMB，Digital Multimedia Broadca sting)的电子节目指南(EPG，ElectronicProgram Guide)或手持数字视频广播(DVB-H，Digital Video Broadcast-Handheld)的电子服务指南(ESG，Electronic Service Guide)等形态存在。

上述广播接收模块111能够利用各种广播系统来接收广播信号，尤其，能够利用地面数字多媒体广播(DMB-T，Digital Multimedia Broadcasting-T errestrial)、卫星数字多媒体广播(DMB-S，Digital Multimedia Broadcastin g-Satellite)、媒体前向链路(MediaFLO，Media Forward Link Only)、手持数字视频广播、地面综合业务数字广播(ISDB-T，Integrated Services Di gital Broadcast-Terrestrial)等数字广播系统来接收数字广播信号。当然，上述广播接收模块111不仅适合于上述数字广播系统，还适合于提供广播信号的所有的广播系统。通过广播接收模块111接收的广播信号和/或广播相关信息能够存储于存储器160。

上述移动通信模块112在移动通信网上与基站、外部的终端及服务器中至少一个收发无线信号。在此，上述无线信号可包括利用语音呼叫信号、视频通话呼叫信号和/或短信/多媒体短信收发的多种形态的数据。

上述无线互联网模块113意味着用于连接无线互联网的模块，上述无线互联网模块113能够内置或外置于移动通信终端100。在此，作为无线互联网技术，能够利用无线局域网(WLAN，Wireless LAN)、无线保真(Wi-Fi)、无线宽带(Wireless Broadband，Wibro)、全球微波接入互操作性(W orld Interoperability for Microwave Access，Wimax)及高速下行分组接入(H SDPA，High Speed Downlink Packet Access)等。

上述近距离通信模块114意味着用于进行近距离通信的模块。作为近距离通信技术，能够利用蓝牙(Bluetooth)、无线射频识别(RFID，Radio Fr equencyIdentification)、红外通信(IrDA，infrared Data Association)、超宽带(UWB，UltraWideband)及紫蜂(ZigBee)等。

上述位置信息模块115为用于确认或获得移动终端的位置(当移动终端安装于车辆时可确认车辆的位置)的模块。作为一例，有GPS(Global Posi tion System，全球定位系统)模块。GPS模块从多个人造卫星接收位置信息。在此，位置信息可包括由纬度及经度表示的坐标信息。例如，GPS模块能够从三个以上卫星测定准确的时间和距离，并根据三个分别不同的距离，利用三角法准确地计算当前位置。可使用利用三个卫星获得距离和时间信息，并利用一个卫星修改误差的方法。尤其，GPS模块根据从卫星接收的位置信息，不仅能够获得纬度、经度及高度的位置，还能够获得三维的速度信息和准确的时间。作为上述位置信息模块115，能够应用无线保真定位系统(Wi-Fi Positioning System)和/或混合定位系统(Hybrid Positioning System)。

上述音频/视频输入部120用于输入音频信号或视频信号，上述音频/视频输入部120可包括摄像头121和传声器(MIC)122等。上述摄像头121对在视频通话模式或拍摄模式中通过图像传感器获得的静止影像或动态影像等图像帧进行处理。上述处理的图像帧能够显示在显示部151。

在上述摄像头121处理的图像帧能够存储于存储器160，或者通过无线通信部110向外部传送。上述摄像头121根据移动终端的结构形态可以设置有两个以上。

上述传声器122在通话模式或录音模式、语音识别模式等中通过麦克风(Microphone)接收外部的音频信号并将其处理为电气语音数据。当处于上述通话模式时，上述处理的语音数据能够通过移动通信模块112变换为可向移动通信基站发送的形态来输出。在上述传声器122能够实现用于除去在外部的音频信号被输入的过程中产生的噪音的多种噪音除去算法。

上述用户输入部130产生用于用户控制移动终端的动作的输入数据。用户输入部130可以由键盘(key pad)、圆顶开关(dome switch)、触控板(静压/静电)、滚动键及微动开关等构成。尤其，触控板与上述显示部151相互形成层状结构的情况下，能够将上述触控板称为触摸屏。

上述传感器部140通过检测如移动通信终端100的开闭状态、移动通信终端100的位置、是否用户接触、移动通信终端100的方位及移动通信终端100的加速/减速等移动通信终端100的当前状态来产生用于控制移动通信终端100的动作的传感信号。例如，当移动通信终端100为滑盖手机形态的情况下，能够检测滑盖手机是否开闭。并且，上述传感器部140发挥与供电部190是否供电、接口部170是否与外部设备相连接等相关的感测功能。

上述接口部170起到与连接于移动通信终端100的所有的外部设备的接口作用。例如，上述接口部170可以由有线/无线听筒端口(Headset port)、外部充电器端口、有线/无线数据端口、内存卡(memory card)端口、连接具有识别模块的装置的端口、音频输入/输出(I/O，Input/Output)端口、视频输入/输出(I/O，Input/Output)端口及耳机端口等构成。在此，识别模块为存储用于对移动通信终端100的使用权限进行认证的各种信息的芯片，可包括用户识别模块(‘UIM’，User Identify Module)、用户身份识别模块(‘SIM’，SubscriberIdentify Module)及通用用户识别模块(‘USIM’，Universal Subscriber IdentityModule)等。并且，具有上述识别模块的装置(以下，‘识别装置’)能够以智能卡(smartcard)的形式制作。因此，上述识别模块能够通过端口来与移动通信终端100相连接。如上所述的接口部170从外部设备接收数据或者接收电源来向移动通信终端100的内部的各个结构要素传输或者使移动通信终端100的内部数据向外部设备传送。

上述输出部150用于输出音频信号、视频信号或通知(alarm)信号，上述输出部150可包括显示部151、音响输出模块152及通知部153。

上述显示部151将在移动通信终端100中处理的信息进行显示来输出。例如，当移动通信终端100处于通话模式的情况下，显示与通话相关的用户界面(UI，User Interface)或图形用户界面(GUI，Graphic User Interface)。并且，当移动通信终端100处于视频通话模式或拍摄模式的情况下，对拍摄或/及接收的影像或用户界面、图形用户界面进行显示。

上述显示部151可包括液晶显示器(liquid crystal display)、薄膜晶体管液晶显示器(thin film transistor-liquid crystal display)、有机发光二极管(organiclight-emitting diode)、柔性显示器(flexible display)及三维显示器(3D display)中的至少一个。并且，根据移动通信终端100的体现形态，可具有两个以上的显示部151。例如，在移动通信终端100可同时具有外部显示部(未图示)和内部显示部(未图示)。

当上述显示部151和用于检测触摸动作的传感器(以下，称为‘触摸传感器’)相互形成层状结构的情况下(以下，称为‘触摸屏’)，上述显示部151除了用作为输出装置以外还可以用作为输入装置。例如，触摸传感器能够具有触摸膜(touch film)、触摸片(touchsheet)及触摸板(touch pa d)等形态。

并且，上述触摸传感器能够将施加于上述显示部151的特定部位的压力或产生于显示部151的特定部位的静电容量等的变化变换为电输入信号。上述触摸传感器不仅能够检测触摸的位置及面积，还能够检测触摸时的压力。当对上述触摸传感器产生了触摸输入的情况下，与此相对应的(多个)信号发送到触摸控制器(未图示)。触摸控制器对上述(多个)信号进行处理后将对应的数据传送到控制部180。从而，上述控制部180能够得知触摸上述显示部151的哪个领域等。

上述接近传感器141能够配置于被触摸屏包围的移动通信终端100的内部区域或上述触摸屏的附近。上述接近传感器141为利用电磁场的力或红外线，无机械接触地检测接近于规定的检测面的物体、或者存在于近处的物体的有无的传感器。上述接近传感器141的寿命长于接触式传感器，并且其有效利用度也高。

作为上述接近传感器141的例，存在透过型光电传感器、直接反射型光电传感器、镜反射光电传感器、高频振荡型接近传感器、静电容量型接近传感器、磁型接近传感器及红外线接近传感器等。在上述触摸屏为静电式的情况下，根据接近上述指示器(pointer)而引起的电场的变化来检测上述指针的接近。在此情况下，上述触摸屏(触摸传感器)可分类为接近传感器。

以下为了方便说明，将如下行为称为“接近触摸(Proximity Touch)”，即，指示器不接触但接近上述触摸屏，从而识别上述指示器位于上述触摸屏上，将指示器实际接触上述触摸屏的行为称为“接触触摸(Contact Touch)”。在上述触摸屏上的使用指示器来接近触摸的位置意味着，当上述指示器接近触摸时，上述触摸屏的与上述指示器垂直对应的位置。

并且，上述接近传感器141检测接近触摸、接近触摸图案(例如，接近触摸距离、接近触摸方向、接近触摸速度、接近触摸时间、接近触摸位置及接近触摸移动状态等)。上述检测到的接近触摸动作及与接近触摸图案相应的信息能够输出于上述触摸屏上。

上述音响输出模块152在呼叫信号接收、通话模式或录音模式、语音识别模式及广播接收模式等中输出从无线通信部110接收或者存储于存储器160的音频数据。并且，音响输出模块152输出与在移动通信终端100执行的功能(例如，来电音、短信接收音等)相关的音频信号。这种音响输出模块152可包括扬声器(speaker)和蜂鸣器(Buzzer)等。

上述通知部153输出用于告知移动通信终端100的事件发生的信号。作为在移动终端发生的事件的例，有来电、短信接收、键盘信号输入等。除了音频信号或视频信号以外，上述通知部153也能够以其他形态输出用于告知事件发生的信号。例如，能够以振动形态输出信号。当接收呼叫信号或者接收短信时，为了告知此现象，通知部153能够通过振动单元来使移动终端振动。或者，当键盘信号被输入的情况下，上述通知部153能够利用振动单元使移动通信终端100振动来作为针对键盘信号输入的反馈。用户可以通过如上所述的振动来获知事件的发生。当然，用于告知事件发生的信号也可以通过显示部151或者语音输出模块152输出。

触觉模块(haptic module)154产生用户能够感觉到的多种触觉效果。作为触觉模块154产生的触觉效果的代表性的例，有振动。可控制触觉模块154产生的振动的强度和图案等。例如，能够合成不同的振动来输出或者依次输出。

除了振动以外，上述触觉模块154还能够产生对接触皮肤面进行垂直运动的销排列、通过喷射口或吸入口的空气的喷射力或吸力、掠过皮肤表面、电极(eletrode)的接触、静电力等的刺激所带来的效果和利用可吸热或者发热的元件的冷温感再现所带来的效果等多种触觉效果。

上述触觉模块154不仅能够通过直接的接触来传输触觉效果，而且用户还能够通过手指或胳膊等的肌肉感觉来感觉到触觉效果。触觉模块154根据远程信息处理终端的构成样式，可以具有两个以上。触觉模块154能够设置于在车辆中与用户频繁接触的地方。例如，可设置于方向盘、变速换挡杆及座位垫等。

上述存储器160能够存储用于控制部180的处理及控制的程序，也能够发挥用于临时存储输入/输出的数据(例如，地图数据、电话薄、短信、静止影像及动态影像等)的功能。

上述存储器160可包括闪存式(flash memory type)、硬盘式(hard di sk type)、多媒体卡微型(multimedia card micro type)、卡式存储器(例如，SD或XD存储器等)、随机存取存储器(RAM，Random Access Mem ory)、静态随机存取存储器(SRAM，Static RandomAccess Memory)、只读存储器(ROM，Read-Only Memory)、电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)磁存储器、磁盘及光盘中的至少一个类型的存储介质。并且，移动通信终端100也能够运营在互联网(internet)上发挥存储器150的存储功能的网络存储(web storage)。

上述接口部170起到与连接于移动终端100的所有的外部设备的接口作用。例如，上述接口部170可以由有线/无线听筒端口(Headset Port)、外部充电器端口、有线/无线数据端口、内存卡(Memory Card)端口、连接具有识别模块的装置的端口、音频输入/输出(I/O，Input/Output)端口、视频输入/输出(I/O，Input/Output)端口及耳机端口等构成。在此，识别模块为存储用于对移动终端100的使用权限进行认证的各种信息的芯片，可包括用户识别模块(User Identify Module，UIM)、用户身份识别模块(Subscribe r IdentifyModule，SIM)及通用用户识别模块(Universal Subscriber Identi ty Module，USIM)等。并且，具有上述识别模块的装置(以下，称为‘识别装置’)能够以智能卡(Smart Card)的形式制作。因此，上述识别模块能够通过端口与移动终端100相连接。如上所述的接口部170从外部设备接收数据或者接收电源来向移动终端100内部的各个结构要素传输或者使移动终端100内部数据向外部设备传送。

当移动终端100与外部底座(Cradle)相连接时，上述接口部170可以发挥使上述底座的电源向上述移动终端100供给的通道作用，或者发挥使用户通过上述底座输入的各种命令信号向上述移动终端100传递的通道作用。从上述底座输入的各种命令信号或上述电源可以作为用于识别上述移动终端100已准确地安装于上述底座的信号。

上述控制部180通常控制移动通信终端100的整体动作。例如，上述控制部180为了语音通话、数据通信及视频通话等而执行相关的控制及处理。并且，上述控制部180可具有用于多媒体再生的多媒体模块181。上述多媒体模块181能够在上述控制部180的内部实现，也能够与上述控制部180独立地另行实现。

上述控制部180可执行能够将在触摸屏上进行的笔记输入或画画输入分别识别为文字及图像的图案识别处理。

上述供电部190通过上述控制部180的控制，接收外部的电源、内部的电源来供给各个结构要素的动作所需的电源。

就应用于上述移动通信终端100的结构要素的功能而言，能够利用软件、硬件或它们的组合，来在计算机可读取的记录介质内实现。根据硬件实现，能够利用特定用途集成电路(ASICs，application specific integrated circuits)、数字信号处理器(DSPs，digital signal processors)、数字信号处理设备(D SPDs，digital signal processingdevices)、可编程逻辑器件(PLDs，progra mmable logic devices)、现场可编程门阵列(FPGAs，field programmable gatearrays)、处理器(processors)、控制器(controllers)、微控制器(mi cro-controllers)、微处理器(microprocessors)及用于执行功能的电气单元中的至少一个来实现。在一些情况下，这些实施例能够通过控制部180来实现。根据软件实现，如步骤或功能的实施例能够与执行至少一个功能或工作的另外的软件模块一同实现。软件代码能够通过以适当的程序语言编写的软件应用程序来实现。并且，软件代码能够存储于存储器160，并通过控制部180来执行。

上述语音识别模块182对用户发出的语音进行识别，并根据其识别的语音信号执行相关功能。

适用于上述移动通信终端100的导航会话模块(session)300在地图数据上显示行驶路径。

图2为表示用于说明本发明实施例的车辆导航系统的框图。

如图2所示，车辆导航系统包括：信息提供中心30，提供交通信息及各种数据(例如，程序、执行文件等)；远程信息处理终端200，安装于车辆内，通过远距离无线通信网20和/或进距离无线通信网接收交通信息，将基于通过人造卫星10接收的GPS信号及上述交通信息，来提供路径引导服务。在此，上述通信网还可包括如局域网(LAN，Local AreaNetwork)、广域网(WAN，Wide Area Network)等有线/无线通信网络。

通过上述通信网收集信号灯信息在内的各种交通信息(ex：道路交通信息、关注区域信息)，在信息提供中心30(例如，服务器)根据交通信息传输协议(TPEG，TransportProtocol Expert Group)标准对收集到的信息进行处理后向广播电台传送。由此，广播电台将包括信号灯信息的交通信息插入于广播信号来向车辆200广播。

上述服务器将通过与通信网相连接的各种路径收集的各种交通信息重新构成为例如遵循交通信息传输协议(TPEG，Transport Protocol Expert Gr oup)标准的格式等交通信息格式，来向广播电台传送，其中，上述各种路径例如为如运营者输入、有/无线互联网、透明数据通道(TDC，Transparent Data Channel)、多媒体对象传输(MOC，MultimediaObject Transport)那样的数字广播服务、其他服务器或探测车(probe car)，上述TPEG标准是用于交通信息服务的标准。

上述服务器能够生成包括信号灯信息的TPEG标准的交通信息格式而向广播电台传送。

广播电台将从服务器接收的包含信号灯信息在内的交通信息调制到广播信号来进行无线传输，以便例如导航装置等装载于车辆200的交通信息接收终端能够接收。上述交通信息包括信号灯信息，此外，还可包括与事故、道路状况、交通混乱、道路建设、道路封闭、公共交通网延迟及航空航运延迟等为了道路、海洋及航空航运所需的各种交通条件相关的信息。

上述广播电台接收包含从服务器处理的信号灯信息在内的交通信息，并通过遵循各种数字广播标准的数字信号向车辆200传送。在此情况下，作为广播标准，包括如基于尤里卡-147[ETSI EN 300401]的欧洲数字音频广播(Digital Audio Broadcasting，DAB)标准、地面波或卫星数字多媒体广播(Digital Multimedia Broadcasting，DMB)、地面波数字视频广播(Digital Video Broadcasting，DVB-T)标准、手持式数字视频广播(DigitalVideo Broadcasting-Handheld，DVB-H)标准及媒体单一前向链路(MFLO，Media ForwardLink Only)标准那样的各种数字广播标准。

并且，上述广播电台能够通过如有/无线互联网那样的有/无线网络来传送包含信号灯信息在内的交通信息。

上述车辆200意味着一般轿车、公共汽车、火车、船及飞机等以人或物的移动为目的利用机器、电子装置来实现的所有可能的载体。

在上述车辆200上装载有交通信息接收终端，利用装载的交通信息接收终端从广播电台接收信号灯信息，并对信号灯信息进行处理，通过图形、文本和/或音频向用户传输处理后的信号灯信息。

以下，参照图3，对用于说明本发明实施例的远程信息处理终端200的结构进行说明。

图3为表示用于说明本发明实施例的远程信息处理终端200的结构的框图。

如图3所示，远程信息处理终端200包括：控制部(例如，中央处理装置，CPU)212，控制远程信息处理终端200的整体；存储器213，存储各种信息；键控制部211，控制各种键信号；主板210，内置有控制液晶显示器(LCD，liquid crystal display)的液晶显示控制部214。

上述存储器213存储用于将路径引导信息显示在数字地图上的地图信息(地图数据)。并且，上述存储器213存储交通信息收集控制算法及用于控制上述算法的信息，其中，上述交通信息收集控制算法用于能够输入与车辆当前行驶的道路状况相对应的交通信息。

上述主板210包括：作为移动通信终端的CDMA(code division multiple access)模块206，其内置于车辆，具有固有的型号；GPS模块207，将用于车辆位置的引导、从始发地到目的地为止的行驶路径的追踪等的GPS信号，或者将用户收集的交通信息作为GPS(Global Positioning System，全球定位系统)信号来进行发送；光盘播放器(CD Deck)208，用于再生记录在光盘(CD，compact disk)中的信号；陀螺仪传感器(gyro sensor)209等。

上述CDMA模块206、GPS模块207通过天线204、205来发送/接收信号。

并且，广播接收模块222与上述主板210相连接，通过天线223来接收广播信号。在上述主板210连接有：显示部(LCD)201，通过接口板203被上述LCD控制部214控制；前板202，被键控制部211控制；摄像头227，拍摄车辆的内部和/或外部。上述显示部201显示各种视频信号、文字信号，上述前板202具有用于输入各种键信号的按钮，将与用户选择的按钮相对应的键信号提供给主板210。并且，上述显示部201包括图2的接近传感器及触摸传感器(触摸屏)。

上述前板202具有用于直接输入交通信息的菜单键，上述菜单键可被键控制部211控制。

上述音频板217与上述主板210相连接，用于处理各种音频信号。上述音频板217包括：微型计算机219，用于控制音频板217；无线电收音机(tuner)218，用于接收收音机信号；电源部216，用于向上述微型计算机219供电；信号处理部215，用于处理各种语音信号。

并且，上述音频板217包括：收音机天线220，用于接收收音机信号；磁带播放器221，用于再生音频磁带。上述音频板217还可以包括语音输出部(例如，放大器)226，该语音输出部226用于输出在上述音频板217进行过信号处理的语音信号。

上述语音输出部(放大器)226与车辆接口224相连接。即，上述音频板217和主板210与上述车辆接口224相连接。上述车辆接口224还可以与用于输入语音信号的车载免提模块(handsfree)225a、用于保护搭乘人员的安全的安全气囊225b及用于检测车辆的速度的速度传感器225c等。上述速度传感器225c计算车辆速度，将计算出的车辆速度信息提供给上述中央处理装置212。

适用于上述远程信息处理终端200的导航会话模块300基于地图数据及车辆的当前位置信息来生成路径引导信息，并将所生成的路径引导信息通知给用户。

上述显示部201通过接近传感器来在显示窗内检测接近触摸。例如，当指示器(例如，手指或触控笔(stylus pen))接近触摸时，上述显示部201检测其接近触摸的位置，并将与所检测到的位置相对应的位置信息输出至上述控制部212。

语音识别装置(或语音识别模块)301识别由用户发出的语音，并根据所识别的语音信号执行相关功能。

适用于上述远程信息处理终端200的导航会话模块(session)300在地图数据上显示行驶路径，并且当上述移动通信终端100的位置处于从包括在上述行驶路径的死区起的预先设定的距离以内时，通过无线通信(例如，进距离无线通信网)自动地与安装于周边车辆的终端(例如，车辆导航装置)和/或周边步行者携带的移动通信终端形成无线网络，从而从安装于上述周边车辆的终端接收其周边车辆的位置信息，从周边步行者携带的移动通信终端接收上述周边步行者的位置信息。

图4为表示用于说明本发明实施例的导航(车辆导航)装置400的结构的框图。

上述导航(车辆导航)装置400根据在车辆200上的设置形态分为仪表板内装型(InDash Type)和仪表板上装型(On Dash Type)。仪表板内装型导航(车辆导航)装置插入于车辆200的仪表板(Dash Board)内分配的规定空间，为固定安装形态。仪表板上装型导航(车辆导航)装置搁置于车辆200的仪表板上或者在其附近利用规定的支撑台来设置，其可以拆装，因此能够从车辆200分离并携带。

本实施例的导航(车辆导航)装置400包括这种仪表板内装型和仪表板上装型的导航(车辆导航)装置，此外，还包括如能够与GPS接收器连动来执行导航功能的各种便携式终端(Portable Terminal)那样的可以接收和/或处理交通信息的信息处理装置，其中，上述GPS接收器在车辆200内接收从GPS卫星传送的导航消息。

如图4所示，上述导航装置400包括：GPS模块401，接收来自卫星的GPS(全球定位系统)信号，并基于上述接收的GPS信号来生成导航装置(可视为与远程信息处理终端200或移动通信终端100相同的位置)的第一车辆位置数据；航位推算(DR，Dead-Reckoning)传感器402，基于车辆的行驶方向及上述车辆的速度来生成第二车辆位置数据；存储部(或存储器)404，存储地图数据及各种信息；地图匹配部403，基于上述第一车辆位置数据及上述第二车辆位置数据来生成车辆估计位置，并对所生成的上述车辆估计位置和存储于上述存储部404的地图数据内的链路(地图匹配链路或地图匹配道路)进行匹配(matching)，输出上述匹配的地图信息(地图匹配结果)；通信部408，通过无线通信网500从信息提供中心和/或周边车辆接收实时交通信息，接收交通信号灯信息，执行电话通信；控制部407，基于上述匹配的地图信息(地图匹配结果)来生成路径引导信息；显示部405，显示包括在上述路径引导信息内的路径引导地图(包括关注区域信息)及上述交通信号灯信息；语音输出部406，输出与包括在上述路径引导信息内的路径引导语音信息(路径引导语音消息)及上述交通信号灯信息相对应的语音信号。

上述导航装置400可包括识别由用户发出的语音的语音识别装置(或语音识别模块)409。

上述通信部408还包括具有蓝牙模块的车载免提模块，通过天线能够从广播电台接收包括TPEG格式的交通信息在内的广播信号。上述广播信号不仅包括遵循地面波或卫星数字多媒体广播(DMB)、数字音频广播(DAB)、数字视频广播(DVB-T、DVB-H)等各种标准的视频和音频数据，而且包括利用交通信息(TPEG)服务、二进制格式场景(BIFS，Binary Formatfor Scene)数据服务的交通信息及如各种附加数据那样的附加信息。并且，上述通信部408对提供交通信息的信号频带进行调谐，并对调谐的信号进行解调，来向TPEG解码器(包括在控制部407)输出。

上述TPEG解码器通过对TPEG格式的交通信息进行解码来向控制部407提供以包括在交通信息内的信号灯信息为主的各种信息。

上述路径引导信息不仅包括地图数据，而且还可包括车道信息、行驶限速信息、转弯信息、交通安全信息、交通引导信息、车辆信息及寻路信息等与行驶相关的各种信息。

就通过上述GPS模块401接收的信号而言，能够利用无线通信方式来向上述导航装置400提供终端的位置信息，上述无线通信方式包括：对于电气和电子工程师协会(IEEE，Institute of Electrical and Electronics Engineers)提出的无线局域网及包括部分红外线通信等的无线局域网的无线网络的标准规格802.11；对于包括蓝牙、超宽带及紫蜂协议等的无线个人局域网(PAN，Personal Area Network)的标准规格802.15；对于包括城市宽带网络(Fixed Wireless Access，FWA)等无线城域网(MAN，Metropolitan AreaNetwork)、宽带无线接入(Broadband Wireless Access，BWA)的标准规格802.16；对于包括无线宽带(Wibro)、全球微波接入互操作性(WiMAX)等的无线城域网(MAN)(MBWA，MobileBroadband Wireless Access)的移动互联网的标准规格802.20等。

在上述导航装置400还能够设有输入部，通过上述输入部，能够选择用户所需的功能或者输入信息，并能够使用键盘板、触摸屏、微动滑梭及传声器等各种装置。

上述地图匹配部403基于上述第一位置数据及上述第二位置数据来生成车辆估计位置，并从上述存储部404读出与行驶路径相对应的地图数据。

上述地图匹配部403对包括在上述车辆估计位置和上述地图数据中的链路(道路)进行匹配(matching)，并向上述控制部407输出上述匹配的地图信息(地图匹配结果)。例如，上述地图匹配部403基于上述第一位置数据及上述第二位置数据来生成车辆估计位置，按照链路顺序对上述所生成的车辆估计位置和存储于上述存储部404的地图数据内的链路进行匹配(matc hing)，并向控制部407输出上述匹配的地图信息(地图匹配结果)。上述地图匹配部403也可以向上述控制部407输出如包括在上述匹配的地图信息(地图匹配结果)中的单层道路或多层道路等道路属性信息。并且，上述地图匹配部403的功能也能够在上述控制部407实现。

上述存储部404存储地图数据。此时，上述存储的地图数据包括以度分秒单位(DMS单位：Degree/Minute/Second)表示纬度及经度的地理坐标(Geographic Coordinate或，经纬度坐标)。在此，上述存储的地图数据除了上述地理坐标以外还能够使用通用横轴墨卡托(UTM，Universal Transverse Mercator)坐标、通用极系统(UPS，Universal PolarSystem)坐标及横轴墨卡托(TM，Transverse Mercator)坐标等。

上述存储部404存储根据各种菜单画面、关注地点(POI，Point Of Interest，以下，称为‘POI’)及地图数据的特定位置的功能特性信息等各种信息。

上述存储部404存储多种用户界面(User Interface，UI)和/或图形用户界面(Graphic User Interface，GUI)。

上述存储部404存储上述导航装置400动作所需的数据和程序等。

上述存储部404存储用户通过上述输入部来输入的目的地信息。此时，上述目的地信息可以为目的地或始发地和目的地中的某一个。

上述显示部405显示通过上述控制部407来生成的路径引导信息中包含的图像信息(或路径引导地图)。在此，上述显示部405包括触摸传感器(触摸屏)及接近传感器。并且，上述路径引导信息不仅包括地图数据，而且还可包括车道信息、行驶限速信息、转弯信息、交通安全信息、交通引导信息、车辆信息及寻路信息等与行驶相关的各种信息。

上述显示部405在显示上述图像信息时，能够利用在上述存储部404包含的用户界面和/或图形用户界面来显示如各种菜单画面和路径引导信息等各种内容。在此，显示在上述显示部405的内容包括各种文本或图片数据(包括地图数据或各种信息数据)和图标、清单菜单及组合框(combo box)等数据的菜单画面等。

上述语音输出部406输出通过上述控制部407来生成的路径引导信息中包含的语音信息(或对于上述路径引导信息的语音消息)。在此，上述语音输出部406可以为放大器或扬声器。

上述控制部407基于上述匹配的地图信息来生成路径引导信息，并向上述显示部405及语音输出部406输出上述生成的路径引导信息。此时，上述显示部405显示上述路径引导信息。

上述控制部407从上述信息提供中心和/或安装于周边车辆的终端(车辆导航装置)接收实时交通信息来生成路径引导信息。

上述控制部407能够通过呼叫中心来与通信部408连接，从而执行电话通话或者发送/接收上述导航装置400和上述呼叫中心之间的信息。在此，上述通信部408还包括具有使用近距离无线通信方式的蓝牙功能的车载免提模块。

若用户选择了关注地点检索菜单，则上述控制部407检索从当前位置到目的地为止的路径上的关注地点，并将检索到的关注地点显示在上述显示部405。此时，上述控制部407检索位于上述路径上的关注地点(无需变更(再检索)路径的地点，例如，位于行驶道路的左侧或右侧的关注地点)和/或位于上述路径的周边的关注地点(需要变更路径的地点，例如，为了经过周边POI，需要变更预先设定的路径的地点)，并将检索到的关注地点显示在上述显示部405。

一般，在车辆内识别语音时，为了告知语音识别开始，对车辆用方向盘控制(SWC，Steering wheel control)按钮进行操作来开始。因此，由于车辆行驶中操作车辆用方向盘控制(SWC，Steering wheel control)按钮所引起的驾驶不注意等，可能会引起车辆事故。

以下，对乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便准确地识别用户的语音的语音识别装置及其方法进行说明。

图5为表示应用本发明实施例的语音识别装置的终端的例示图。

如图5所示，上述终端可以为安装于车辆的远程信息处理终端(或音响主机(HeadUnit))200。上述远程信息处理终端200所具有的摄像头可设置于车辆的后视镜(rearmirror)的上端，上述远程信息处理终端200所具有的麦克风(MIC)228可设置于上述后视镜的下端。上述摄像头227及上述麦克风228不仅能够设置于上述后视镜，而且还能够设置于车辆的仪表板，还可以设置于上述远程信息处理终端200。

也可以代替上述远程信息处理终端200而使用导航装置400或移动通信终端100。也可以代替上述多个移动通信终端100而使用多个后座娱乐系统(RSE，Rear SeatEntertainment System)、手机、智能手机(smart phone)、笔记本电脑(notebookcomputer)、数字广播终端、个人数字助理(Personal Digital Assistants)、便携式多媒体播放器(Portable Multimedia Player)及平板电脑(Tablet Personal Computer)等。以下，以应用于远程信息处理终端200的语音识别装置为例进行说明。

图6为表示本发明一实施例的语音识别方法的流程图。

首先，上述控制部212接收通过上述摄像头227实时接收的用户图像，并从上述用户图像实时追踪用户的视线(眼睛)(步骤S11)。例如，上述控制部212利用一般视线追踪(eye tracking)技术来实时追踪用户的视线(眼睛)。

上述存储器213实时存储上述车辆内音频信号(步骤S12)。例如，上述存储器213仅在预先设定的时间(例如，5秒～10秒)内实时存储上述车辆内音频信号。上述存储器213、上述控制部212、上述语音识别模块(语音识别部)301及上述摄像头227能够在时间上相互同步。上述存储器213可以为环形缓冲器(ring buffer)。

上述控制部212决定在通过上述摄像头227拍摄的用户图像中是否检测到预先设定的用户的姿势。例如，上述控制部212决定(判断)上述用户的视线是否朝向上述麦克风228(步骤S13)。假设上述摄像头227和上述麦克风228设置于相同或类似的位置(例如，车辆的后视镜)的情况下，若上述用户的视线朝向上述摄像头227，则上述控制部212能够决定为上述用户的视线朝向上述麦克风228。

除了用户的视线朝向上述麦克风228的用户的姿势(用户动作)以外，上述控制部212还可以在用户的胳膊或手向用户的脸或用户的嘴附近移动时决定为用户采取了预先设定的用户姿势。

若上述用户的视线朝向上述麦克风228，则上述控制部212启动上述语音识别模块301，决定从上述用户朝向麦克风228的时刻起记录在上述存储器213的车辆内的音频信号中是否存在感叹词(例如，“嗯”、“哦”等)(步骤S14)。即，上述控制部212将人类开始说话时习惯性地发出的如感叹词那样的非词汇决定为语音识别的始点。在此，上述控制部212和上述语音识别模块301可以构成为一体，并将其命名为控制部212。

如图7所示，若上述用户的视线朝向上述麦克风228，则上述控制部212启动上述语音识别模块301，通过上述语音识别模块301识别从上述用户朝向麦克风228的时刻7-1起预先设定的时间(例如，5秒以内)内记录在上述存储器213的车辆内音频信号，并从所识别的音频信号检测预先设定的感叹词7-2。

若从上述识别的音频信号检测出上述预先设定的感叹词7-2，则上述控制部212将上述检测的感叹词后的语音信号7-3决定为有效的语音信号(步骤S15)，并通过上述语音识别模块301识别上述有效的语音信号7-3(步骤S16)。上述语音识别模块301根据上述控制部212的控制信号进行动作，并接收用户发出(utterance)的语音信号。即，上述语音识别模块301并不是实时动作，而是在上述用户的视线朝向上述麦克风228时基于上述控制部212所生成的控制信号来进行动作，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便地接收及识别用户的语音。

若从上述识别的音频信号未检测到上述预先设定的感叹词，则上述控制部212断开(turn off)上述语音识别模块301，从而结束上述语音识别动作。

上述语音识别模块301比较上述用户发出(utterance)的语音信号和预先决定的语音模型，根据其比较结果将上述用户发出的语音信号决定为上述用户的语音。例如，上述语音识别模块301对提供表示输入语音和多个语音模型之间的相似度的可靠度分数(confidence scores)的预先决定的多个语音模型和上述用户语音信号进行比较，根据上述比较结果，当上述用户语音信号相当于高于阈值(threshold value)的可靠度分数时，将上述用户语音信号容许为语音。

相反，比较上述预先决定的多个模型和上述用户语音信号的结果，当上述用户语音信号相当于低于上述阈值的可靠度分数时，上述语音识别模块301将上述用户语音信号决定为非语言而拒绝之后，提供预先设定的提示(例如，请稍微慢点说)来再次引导语音识别。当假设上述可靠度分数(confidence score)的范围(range)被设定为从0到100时，上述语音识别模块301在上述用户语音信号的可靠度分数为90～100分时容许用户语音，在上述用户语音信号的可靠度分数低于90分时，可拒绝用户语音。在此，利用上述可靠度分数来识别用户语音的方法在美国专利编号6735562也公开过。

上述语音识别模块301决定上述容许的用户语音是单词还是句子。例如，当用户说出句子时，若在上述容许的用户语音中存在单词和单词之间的停顿(pause)，则上述语音识别模块301将上述容许的用户语音决定为句子。相反，当用户说出句子时，若在上述容许的用户语音中不存在单词和单词之间的停顿(pause)，则上述语音识别模块301将上述容许的用户语音决定为单词。

上述控制部212控制与通过上述语音识别模块301决定的单词或句子相对应的预先设定的功能。控制与上述识别的单词或句子相对应的预先设定的功能的技术为公知的技术，因此省略对其的详细说明。

当用户通过上述车载免提模块225a进行电话通话时，上述控制部212可以不进行上述语音识别动作。例如，在上述车载免提模块225a进行动作时，上述控制部212可以不执行上述语音识别动作。

因此，根据本发明一实施例的语音识别装置及其方法，在检测到从用户的视线朝向麦克风的时刻起输入的语音信号中存在非词汇(例如，感叹词)时，上述控制部将上述检测到的非词汇之后的语音信号自动识别为有效的语音信号，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便准确地识别用户的语音。

图8为表示本发明另一实施例的语音识别方法的流程图。

首先，上述控制部212接收通过上述摄像头227实时接收的用户图像，并从上述用户图像实时追踪用户的视线(眼睛)(步骤S21)。例如，上述控制部212通过一般视线追踪(eye tracking)技术来实时追踪用户的视线(眼睛)。

上述控制部212从通过上述摄像头227实时接收的用户图像中实时检测用户的嘴形(步骤S22)。例如，上述控制部212基于通过上述摄像头227实时检测的用户的嘴形，检测用户的嘴在动还是处于闭上的状态(例如，用户的嘴停止的状态)。通过上述摄像头227实时接收的用户图像可存储于上述存储器213。上述存储器213、上述控制部212、上述语音识别模块(语音识别部)301及上述摄像头227在时间上能够相互同步。

上述控制部212决定(判断)上述用户的视线是否朝向上述麦克风228(步骤S23)。当假设上述摄像头227和上述麦克风228设置于相同或相邻的位置(例如，车辆的后视镜)时，若上述用户的视线朝向上述摄像头227，则上述控制部212能够决定为上述用户的视线朝向上述麦克风228。

若上述用户的视线朝向上述麦克风228，则上述控制部212启动上述语音识别模块301，并决定自上述用户朝向麦克风228的时刻起从被输入的用户图像中是否检测到预先设定的用户的嘴形(例如，用户的嘴动的形状(图像)或用户的嘴张开的形状(图像))(步骤S24)。即，上述控制部212将上述用户朝向麦克风228张嘴的时刻决定为语音识别的始点。

若自上述用户的视线朝向麦克风228的时刻起从被输入的用户的图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像或用户的嘴张开的图像)，则上述控制部212将从检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为有效的语音信号(步骤S25)，并通过上述语音识别模块301识别上述有效的语音信号(步骤S26)。

如图9所示，若自上述用户的视线朝向麦克风228的时刻9-1起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像)，则上述控制部212仅将在从检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如，用户的嘴动的图像)相对应的语音信号决定为语音区间9-2，将从检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形(例如，用户的嘴动的图像)相对应的语音信号以外的剩余语音信号决定为非语音区间9-3。上述语音识别模块301仅对不是与上述非语音区间相对应的语音信号的与上述决定的语音区间相对应的语音信号进行识别，并向上述控制部212输出所识别的语音信号(例如，单词或句子)。

上述语音识别模块301根据上述控制部212的控制信号来进行动作，并接收由用户发出(utterance)的语音信号。即，上述语音识别模块301并不是实时动作，而是当上述用户的视线朝向上述麦克风228时基于上述控制部212所生成的控制信号来进行动作，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便地接收及识别用户的语音。

若自上述用户的视线朝向麦克风228的时刻起从被输入的用户图像中未检测到预先设定的用户的嘴形(例如，用户的嘴动的图像或用户的嘴张开的图像)，则上述控制部212断开上述语音识别模块301，从而结束上述语音识别动作。

上述语音识别模块301比较上述用户发出(utterance)的语音信号(与语音区间相对应的有效的语音信号)和预先决定的语音模型，根据其比较结果将上述用户发出的语音信号决定为上述用户的语音。例如，上述语音识别模块301对提供表示输入语音和多个语音模型之间的相似度的可靠度分数(confidence scores)的预先决定的多个语音模型和上述用户语音信号进行比较，根据上述比较结果，当上述用户语音信号相当于高于阈值(threshold value)的可靠度分数时，将上述用户语音信号容许为语音。

相反，比较上述预先决定的多个模型和上述用户语音信号的结果，当上述用户语音信号相当于低于上述阈值的可靠度分数时，上述语音识别模块301将上述用户语音信号决定为非语言而拒绝之后，提供预先设定的提示(例如，请稍微慢点说)来再次引导语音识别。当假设上述可靠度分数(confidence score)的范围(range)被设定为从0到100时，上述语音识别模块301在上述用户语音信号的可靠度分数为90～100分时容许用户语音，在上述用户语音信号的可靠度分数低于90分时，可拒绝用户语音。

因此，根据本发明另一实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像或者用户的嘴张开的图像)，则上述控制部将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号自动识别为有效的语音信号，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便准确地识别用户的语音。

根据本发明另一实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像)，则仅对自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如，用户的嘴动的图像)相对应的语音信号进行语音识别，从而能够与车辆内的噪音(例如，雨刷(wiper)噪音、信号等待时方向指示灯的动作声音、车辆发动机声音等)无关地准确地识别语音。

本发明所属技术领域的普通技术人员在不脱离本发明的本质特性的范围内可以进行各种修改及变形。因此，本发明中公开的实施例并不是用来限定本发明的技术思想，而是用来说明本发明的技术思想，并且，本发明的技术思想的范围并不被这些实施例限定。本发明的保护范围应当根据所附的权利要求的范围解释，与其等同的范围内的所有技术思想包含在本发明的权利范围。

产业上的可利用性

如上所述，根据本发明实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的语音信号中检测到非词汇(例如，感叹词)，则将上述检测到的非词汇之后的语音信号自动识别为有效的语音信号，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便准确地识别用户的语音。

根据本发明实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像或者用户的嘴张开的图像)，则将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号自动识别为有效的语音信号，从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作，也能够容易并且方便准确地识别用户的语音。

根据本发明实施例的语音识别装置及其方法，若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如，用户的嘴动的图像)，则仅对自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如，用户的嘴动的图像)相对应的语音信号进行语音识别，从而能够与车辆内的噪音(例如，雨刷(wiper)噪音、信号等待时方向指示灯的动作声音、车辆发动机声音等)无关地准确地识别语音。

Claims

1.一种语音识别装置，其特征在于，包括：

摄像头，拍摄用户图像，

麦克风，

控制部，从上述用户图像中实时追踪用户的视线，

从自所追踪的上述视线朝向上述麦克风的时刻起预先设定的时间内通过上述麦克风接收到的第一语音信号中检测作为非词汇的感叹词，

在上述预先设定的时间内从上述第一语音信号中检测到感叹词时，将检测到的上述感叹词之后的第二语音信号决定为有效的语音信号，以及

语音识别部，从上述有效的语音信号中识别上述用户的语音；

通过上述麦克风接收上述第二语音信号，

在上述用户的视线朝向上述麦克风时，上述控制部启动上述语音识别部，

在上述用户的视线朝向上述麦克风且从通过上述麦克风输入的语音信号中在预先设定的时间内未检测到上述感叹词时，上述控制部断开上述语音识别部，

若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形，则上述控制部将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为上述有效的语音信号，

上述预先设定的用户的嘴形为用户的嘴动的形状或者用户的嘴张开的形状。

2.根据权利要求1所述的语音识别装置，其特征在于，上述摄像头和上述麦克风设置于相同或相邻的位置。

3.根据权利要求1所述的语音识别装置，其特征在于，若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形，则上述控制部仅将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形相对应的语音信号决定为用于语音识别的语音区间。

4.根据权利要求3所述的语音识别装置，其特征在于，上述控制部将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形相对应的语音信号以外的剩余语音信号决定为非语音区间。

5.一种语音识别方法，其特征在于，包括：

通过摄像头拍摄用户图像的步骤，

从通过上述摄像头拍摄的上述用户图像中实时追踪用户的视线的步骤，

从自所追踪的上述视线朝向麦克风的时刻起预先设定的时间内通过上述麦克风接收到的第一语音信号中检测作为非词汇的感叹词的步骤，

在上述预先设定的时间内从上述第一语音信号中检测到感叹词时，则将检测到的上述感叹词之后的第二语音信号决定为有效的语音信号的步骤，

通过语音识别部从上述有效的语音信号中识别上述用户的语音的步骤，

在上述用户的视线朝向上述麦克风时，启动上述语音识别部的步骤，以及

在上述用户的视线朝向上述麦克风且从通过上述麦克风输入的语音信号中在预先设定的时间内未检测到上述感叹词时，断开上述语音识别部的步骤；

通过上述麦克风接收上述第二语音信号，

决定上述有效的语音信号的步骤包括：

若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形，则将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为上述有效的语音信号的步骤，

6.根据权利要求5所述的语音识别方法，其特征在于，上述摄像头和上述麦克风设置于相同或相邻的位置。

7.根据权利要求5所述的语音识别方法，其特征在于，决定上述有效的语音信号的步骤包括：

若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形，则仅将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形相对应的语音信号决定为用于语音识别的语音区间的步骤。

8.根据权利要求7所述的语音识别方法，其特征在于，还包括：将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形相对应的语音信号以外的剩余语音信号决定为非语音区间的步骤。