CN104428832B - 语音识别装置及其方法 - Google Patents
语音识别装置及其方法 Download PDFInfo
- Publication number
- CN104428832B CN104428832B CN201380036950.3A CN201380036950A CN104428832B CN 104428832 B CN104428832 B CN 104428832B CN 201380036950 A CN201380036950 A CN 201380036950A CN 104428832 B CN104428832 B CN 104428832B
- Authority
- CN
- China
- Prior art keywords
- mentioned
- user
- voice signal
- microphone
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 8
- 238000010295 mobile communication Methods 0.000 description 50
- 238000004891 communication Methods 0.000 description 35
- 230000015654 memory Effects 0.000 description 33
- 230000005236 sound signal Effects 0.000 description 17
- 230000009471 action Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 239000004973 liquid crystal related substance Substances 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 230000005611 electricity Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000256844 Apis mellifera Species 0.000 description 2
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 230000005465 channeling Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 244000228957 Ferula foetida Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000010408 film Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000003387 muscular Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000002463 transducing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010792 warming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及用户不对语音识别开始按钮等进行操作也能够容易并且方便准确地识别用户的语音的语音识别装置及其方法,本说明书实施例的语音识别装置可包括:摄像头,拍摄用户图像;麦克风;控制部,从上述用户图像中检测预先设定的用户姿势,若自检测到上述用户姿势的时刻起从通过上述麦克风输入的语音信号中检测到非词汇,则将检测到的上述非词汇之后的语音信号决定为有效的语音信号;语音识别部,识别上述有效的语音信号。
Description
技术领域
本发明涉及语音识别装置及其方法。
背景技术
一般,语音识别为从包含在语音的音响学信息提取音韵即言语信息,从而使机器认知上述言语信息并进行反应的一系列过程。通过语音进行对话被认为许多人类和机器的信息交换介质中最为自然并简便的方法,但是为了与机器通过语音进行对话,存在将人类的语音变换为机器能够处理的代码的限制。这种变换为代码的过程正是语音识别。
发明内容
发明所要解决的问题
本发明的目的在于,提供用户不对语音识别开始按钮等进行操作,也能够容易并且简便准确地识别用户的语音的语音识别装置及其方法。
用于解决问题的手段
本说明书实施例的语音识别装置可包括:摄像头,拍摄用户图像;麦克风;控制部,从上述用户图像中检测预先设定的用户姿势,若自检测到上述用户姿势的时刻起从通过上述麦克风输入的语音信号中检测到非词汇,则将检测到的上述非词汇之后的语音信号决定为有效的语音信号;语音识别部,识别上述有效的语音信号。
作为与本发明相关的一例,上述控制部通过上述摄像头实时追踪用户的视线,若自所追踪的上述用户的视线朝向上述麦克风的时刻起从通过上述麦克风输入的语音信号中检测到上述非词汇,则上述控制部可将检测到的上述非词汇之后的语音信号决定为上述有效的语音信号。
作为与本发明相关的一例,上述非词汇可以为感叹词。
作为与本发明相关的一例,当上述用户的视线朝向上述麦克风时,上述控制部可启动上述语音识别部。
作为与本发明相关的一例,若上述用户的视线朝向上述麦克风且从通过上述麦克风输入的语音信号中未检测到上述非词汇,则上述控制部可断开上述语音识别部。
作为与本发明相关的一例,上述摄像头和上述麦克风可设置于相同或相邻的位置。
作为与本发明相关的一例,上述控制部通过上述摄像头实时追踪用户的视线,若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形,则上述控制部可将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为上述有效的语音信号。
作为与本发明相关的一例,上述预先设定的用户的嘴形可以为用户的嘴动的形状或者用户的嘴张开的形状。
作为与本发明相关的一例,上述控制部通过上述摄像头实时追踪用户的视线,若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形,则上述控制部可仅将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形相对应的语音信号决定为用于语音识别的语音区间。
作为与本发明相关的一例,上述控制部可将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形相对应的语音信号以外的剩余语音信号决定为非语音区间。
本说明书实施例的语音识别方法可包括:从通过摄像头拍摄的用户图像中检测预先设定的用户姿势的步骤;若自检测到上述用户姿势的时刻起从通过麦克风输入的语音信号中检测到非词汇,则将检测到的上述非词汇之后的语音信号决定为有效的语音信号的步骤;以及通过语音识别部识别上述有效的语音信号的步骤。
发明的效果
根据本发明实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的语音信号中检测到非词汇(例如,感叹词),则将检测到的上述非词汇之后的语音信号自动识别为有效的语音信号,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作也能够容易并且方便准确地识别用户的语音。
根据本发明实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像或者用户的嘴张开的图像),则将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号自动识别为上述有效的语音信号,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作也能够容易并且方便准确地识别用户的语音。
根据本发明实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像或者用户的嘴张开的图像),则仅对自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如,用户的嘴动的图像)相对应的语音信号进行语音识别,从而用户能够与车辆内的噪音(例如,雨刷(wiper)噪音、信号等待时方向指示灯的动作声音、车辆发动机声音等)无关地准确地识别语音。
附图说明
图1为表示用于说明本发明实施例的移动通信终端的结构的框图。
图2为表示用于说明本发明实施例的车辆导航系统的框图。
图3为表示用于说明本发明实施例的远程信息处理终端的结构的框图。
图4为用于说明本发明实施例的导航(车辆导航)装置的结构的框图。
图5为表示本发明实施例的适用语音识别装置的终端的例示图。
图6为表示本发明一实施例的语音识别方法的流程图。
图7为表示本发明一实施例的决定有效的语音信号的方法的例示图。
图8为表示本发明另一实施例的语音识别方法的流程图。
图9为表示本发明另一实施例的决定有效的语音信号的方法的另一例示图。
具体实施方式
应当注意,本说明书中使用的技术术语只是为了说明特定的实施例而使用,并不是要限定本发明。并且,本说明书中使用的技术术语只要不在本说明书中特意地定义为其他意思,就应当解释为由本发明所属技术领域的普通技术人员通常理解的意思,不得被解释为过分统筹的意思,或者不得被解释为过分缩减的意思,并且,当本说明书中使用的技术术语为无法准确地表达出本发明的思想的有误的技术术语时,应当被替换为本领域的技术人员能够正确理解的技术术语。并且,本发明中使用的普通术语应当根据辞典上定义的内容或者根据前后文脉来被解释,不得被解释为过分缩减的意思。
并且,本说明书中使用的单数的表现只要不是在文脉上明确表达出不同的意思,就包括复数的表现。本申请中,“构成”或“包括”的术语不得被解释为必须包括记载于说明书中的多个结构要素或多个步骤,应当被解释为有可能不包括其中一部分结构要素或一部分步骤,或者还可包括追加的结构要素或步骤。
并且,本说明书中使用的第一、第二等包括序数的术语可以用于说明多种结构要素,但上述结构要素不得受上述术语的限定。上述术语的使用目的仅在于区别一个结构要素和其他结构要素。例如,在不脱离本发明的权利范围的情况下,第一结构要素可以被命名为第二结构要素,类似地,第二结构要素也可以被命名为第一结构要素。
以下,参照附图,详细说明本发明的优选实施例,与附图标记无关地,相同或者类似地结构要素使用相同的附图标记,并省略对其的重复说明。
并且,在对本发明进行说明时,当判断为相关的公知技术的具体说明有可能使本发明的主旨不清楚的情况下,省略其详细说明。并且,应当注意,附图只是有助于理解本发明的思想,不得被解释为本发明的思想局限于附图。
图1为表示用于说明本发明实施例的移动通信终端100的结构的框图。移动通信终端(移动电话)100能够体现为多种形态。例如,移动通信终端100可以为手机、智能手机(smart phone)、笔记本电脑(notebook compu ter)、数字广播终端、个人数字助理(PDA,Personal Digital Assistants)及便携式多媒体播放器(PMP,Portable MultimediaPlayer)等。
如图1所示,移动通信终端100可包括无线通信部110、音频/视频(A/V,Audio/Video)输入部120、用户输入部130、传感器部140、输出部150、存储器160、接口部170、控制部180及供电部190等。图1所示的移动通信终端100的所有的结构要素并不是必要结构要素,移动通信终端100能够通过多于图1所示的结构要素的结构要素来实现,移动通信终端100也能够通过少于图1所示的结构要素的结构要素来实现。
上述无线通信部110可包括实现移动通信终端100和无线通信系统之间的无线通信或者移动通信终端100和该移动通信终端100处于的网络之间的无线通信的一个以上的结构要素。例如,无线通信部110可包括广播接收模块111、移动通信模块112、无线互联网模块113、近距离通信模块114及位置信息模块115等。
上述广播接收模块111通过广播频道从外部的广播管理服务器接收广播信号和/或有关广播的信息。上述广播频道可包括卫星频道和地面频道。上述广播管理服务器能够意味着生成广播信号和/或广播相关信息来发送的服务器,或者接收预先生成的广播信号和/或广播相关信息来向移动通信终端100发送的服务器。上述广播相关信息能够意味着与广播频道、广播节目或广播服务提供者相关的信息。上述广播信号不仅可包括电视(TV)广播信号、收音机广播信号及数据广播信号,还包括电视广播信号或收音机广播信号与数据广播信号相结合的形态的广播信号。
另一方面,上述广播相关信息也能够通过移动通信网提供,在这种情况下,能够由上述移动通信模块112来接收。上述广播相关信息能够以多种形态存在。例如,能够以数字多媒体广播(DMB,Digital Multimedia Broadca sting)的电子节目指南(EPG,ElectronicProgram Guide)或手持数字视频广播(DVB-H,Digital Video Broadcast-Handheld)的电子服务指南(ESG,Electronic Service Guide)等形态存在。
上述广播接收模块111能够利用各种广播系统来接收广播信号,尤其,能够利用地面数字多媒体广播(DMB-T,Digital Multimedia Broadcasting-T errestrial)、卫星数字多媒体广播(DMB-S,Digital Multimedia Broadcastin g-Satellite)、媒体前向链路(MediaFLO,Media Forward Link Only)、手持数字视频广播、地面综合业务数字广播(ISDB-T,Integrated Services Di gital Broadcast-Terrestrial)等数字广播系统来接收数字广播信号。当然,上述广播接收模块111不仅适合于上述数字广播系统,还适合于提供广播信号的所有的广播系统。通过广播接收模块111接收的广播信号和/或广播相关信息能够存储于存储器160。
上述移动通信模块112在移动通信网上与基站、外部的终端及服务器中至少一个收发无线信号。在此,上述无线信号可包括利用语音呼叫信号、视频通话呼叫信号和/或短信/多媒体短信收发的多种形态的数据。
上述无线互联网模块113意味着用于连接无线互联网的模块,上述无线互联网模块113能够内置或外置于移动通信终端100。在此,作为无线互联网技术,能够利用无线局域网(WLAN,Wireless LAN)、无线保真(Wi-Fi)、无线宽带(Wireless Broadband,Wibro)、全球微波接入互操作性(W orld Interoperability for Microwave Access,Wimax)及高速下行分组接入(H SDPA,High Speed Downlink Packet Access)等。
上述近距离通信模块114意味着用于进行近距离通信的模块。作为近距离通信技术,能够利用蓝牙(Bluetooth)、无线射频识别(RFID,Radio Fr equencyIdentification)、红外通信(IrDA,infrared Data Association)、超宽带(UWB,UltraWideband)及紫蜂(ZigBee)等。
上述位置信息模块115为用于确认或获得移动终端的位置(当移动终端安装于车辆时可确认车辆的位置)的模块。作为一例,有GPS(Global Posi tion System,全球定位系统)模块。GPS模块从多个人造卫星接收位置信息。在此,位置信息可包括由纬度及经度表示的坐标信息。例如,GPS模块能够从三个以上卫星测定准确的时间和距离,并根据三个分别不同的距离,利用三角法准确地计算当前位置。可使用利用三个卫星获得距离和时间信息,并利用一个卫星修改误差的方法。尤其,GPS模块根据从卫星接收的位置信息,不仅能够获得纬度、经度及高度的位置,还能够获得三维的速度信息和准确的时间。作为上述位置信息模块115,能够应用无线保真定位系统(Wi-Fi Positioning System)和/或混合定位系统(Hybrid Positioning System)。
上述音频/视频输入部120用于输入音频信号或视频信号,上述音频/视频输入部120可包括摄像头121和传声器(MIC)122等。上述摄像头121对在视频通话模式或拍摄模式中通过图像传感器获得的静止影像或动态影像等图像帧进行处理。上述处理的图像帧能够显示在显示部151。
在上述摄像头121处理的图像帧能够存储于存储器160,或者通过无线通信部110向外部传送。上述摄像头121根据移动终端的结构形态可以设置有两个以上。
上述传声器122在通话模式或录音模式、语音识别模式等中通过麦克风(Microphone)接收外部的音频信号并将其处理为电气语音数据。当处于上述通话模式时,上述处理的语音数据能够通过移动通信模块112变换为可向移动通信基站发送的形态来输出。在上述传声器122能够实现用于除去在外部的音频信号被输入的过程中产生的噪音的多种噪音除去算法。
上述用户输入部130产生用于用户控制移动终端的动作的输入数据。用户输入部130可以由键盘(key pad)、圆顶开关(dome switch)、触控板(静压/静电)、滚动键及微动开关等构成。尤其,触控板与上述显示部151相互形成层状结构的情况下,能够将上述触控板称为触摸屏。
上述传感器部140通过检测如移动通信终端100的开闭状态、移动通信终端100的位置、是否用户接触、移动通信终端100的方位及移动通信终端100的加速/减速等移动通信终端100的当前状态来产生用于控制移动通信终端100的动作的传感信号。例如,当移动通信终端100为滑盖手机形态的情况下,能够检测滑盖手机是否开闭。并且,上述传感器部140发挥与供电部190是否供电、接口部170是否与外部设备相连接等相关的感测功能。
上述接口部170起到与连接于移动通信终端100的所有的外部设备的接口作用。例如,上述接口部170可以由有线/无线听筒端口(Headset port)、外部充电器端口、有线/无线数据端口、内存卡(memory card)端口、连接具有识别模块的装置的端口、音频输入/输出(I/O,Input/Output)端口、视频输入/输出(I/O,Input/Output)端口及耳机端口等构成。在此,识别模块为存储用于对移动通信终端100的使用权限进行认证的各种信息的芯片,可包括用户识别模块(‘UIM’,User Identify Module)、用户身份识别模块(‘SIM’,SubscriberIdentify Module)及通用用户识别模块(‘USIM’,Universal Subscriber IdentityModule)等。并且,具有上述识别模块的装置(以下,‘识别装置’)能够以智能卡(smartcard)的形式制作。因此,上述识别模块能够通过端口来与移动通信终端100相连接。如上所述的接口部170从外部设备接收数据或者接收电源来向移动通信终端100的内部的各个结构要素传输或者使移动通信终端100的内部数据向外部设备传送。
上述输出部150用于输出音频信号、视频信号或通知(alarm)信号,上述输出部150可包括显示部151、音响输出模块152及通知部153。
上述显示部151将在移动通信终端100中处理的信息进行显示来输出。例如,当移动通信终端100处于通话模式的情况下,显示与通话相关的用户界面(UI,User Interface)或图形用户界面(GUI,Graphic User Interface)。并且,当移动通信终端100处于视频通话模式或拍摄模式的情况下,对拍摄或/及接收的影像或用户界面、图形用户界面进行显示。
上述显示部151可包括液晶显示器(liquid crystal display)、薄膜晶体管液晶显示器(thin film transistor-liquid crystal display)、有机发光二极管(organiclight-emitting diode)、柔性显示器(flexible display)及三维显示器(3D display)中的至少一个。并且,根据移动通信终端100的体现形态,可具有两个以上的显示部151。例如,在移动通信终端100可同时具有外部显示部(未图示)和内部显示部(未图示)。
当上述显示部151和用于检测触摸动作的传感器(以下,称为‘触摸传感器’)相互形成层状结构的情况下(以下,称为‘触摸屏’),上述显示部151除了用作为输出装置以外还可以用作为输入装置。例如,触摸传感器能够具有触摸膜(touch film)、触摸片(touchsheet)及触摸板(touch pa d)等形态。
并且,上述触摸传感器能够将施加于上述显示部151的特定部位的压力或产生于显示部151的特定部位的静电容量等的变化变换为电输入信号。上述触摸传感器不仅能够检测触摸的位置及面积,还能够检测触摸时的压力。当对上述触摸传感器产生了触摸输入的情况下,与此相对应的(多个)信号发送到触摸控制器(未图示)。触摸控制器对上述(多个)信号进行处理后将对应的数据传送到控制部180。从而,上述控制部180能够得知触摸上述显示部151的哪个领域等。
上述接近传感器141能够配置于被触摸屏包围的移动通信终端100的内部区域或上述触摸屏的附近。上述接近传感器141为利用电磁场的力或红外线,无机械接触地检测接近于规定的检测面的物体、或者存在于近处的物体的有无的传感器。上述接近传感器141的寿命长于接触式传感器,并且其有效利用度也高。
作为上述接近传感器141的例,存在透过型光电传感器、直接反射型光电传感器、镜反射光电传感器、高频振荡型接近传感器、静电容量型接近传感器、磁型接近传感器及红外线接近传感器等。在上述触摸屏为静电式的情况下,根据接近上述指示器(pointer)而引起的电场的变化来检测上述指针的接近。在此情况下,上述触摸屏(触摸传感器)可分类为接近传感器。
以下为了方便说明,将如下行为称为“接近触摸(Proximity Touch)”,即,指示器不接触但接近上述触摸屏,从而识别上述指示器位于上述触摸屏上,将指示器实际接触上述触摸屏的行为称为“接触触摸(Contact Touch)”。在上述触摸屏上的使用指示器来接近触摸的位置意味着,当上述指示器接近触摸时,上述触摸屏的与上述指示器垂直对应的位置。
并且,上述接近传感器141检测接近触摸、接近触摸图案(例如,接近触摸距离、接近触摸方向、接近触摸速度、接近触摸时间、接近触摸位置及接近触摸移动状态等)。上述检测到的接近触摸动作及与接近触摸图案相应的信息能够输出于上述触摸屏上。
上述音响输出模块152在呼叫信号接收、通话模式或录音模式、语音识别模式及广播接收模式等中输出从无线通信部110接收或者存储于存储器160的音频数据。并且,音响输出模块152输出与在移动通信终端100执行的功能(例如,来电音、短信接收音等)相关的音频信号。这种音响输出模块152可包括扬声器(speaker)和蜂鸣器(Buzzer)等。
上述通知部153输出用于告知移动通信终端100的事件发生的信号。作为在移动终端发生的事件的例,有来电、短信接收、键盘信号输入等。除了音频信号或视频信号以外,上述通知部153也能够以其他形态输出用于告知事件发生的信号。例如,能够以振动形态输出信号。当接收呼叫信号或者接收短信时,为了告知此现象,通知部153能够通过振动单元来使移动终端振动。或者,当键盘信号被输入的情况下,上述通知部153能够利用振动单元使移动通信终端100振动来作为针对键盘信号输入的反馈。用户可以通过如上所述的振动来获知事件的发生。当然,用于告知事件发生的信号也可以通过显示部151或者语音输出模块152输出。
触觉模块(haptic module)154产生用户能够感觉到的多种触觉效果。作为触觉模块154产生的触觉效果的代表性的例,有振动。可控制触觉模块154产生的振动的强度和图案等。例如,能够合成不同的振动来输出或者依次输出。
除了振动以外,上述触觉模块154还能够产生对接触皮肤面进行垂直运动的销排列、通过喷射口或吸入口的空气的喷射力或吸力、掠过皮肤表面、电极(eletrode)的接触、静电力等的刺激所带来的效果和利用可吸热或者发热的元件的冷温感再现所带来的效果等多种触觉效果。
上述触觉模块154不仅能够通过直接的接触来传输触觉效果,而且用户还能够通过手指或胳膊等的肌肉感觉来感觉到触觉效果。触觉模块154根据远程信息处理终端的构成样式,可以具有两个以上。触觉模块154能够设置于在车辆中与用户频繁接触的地方。例如,可设置于方向盘、变速换挡杆及座位垫等。
上述存储器160能够存储用于控制部180的处理及控制的程序,也能够发挥用于临时存储输入/输出的数据(例如,地图数据、电话薄、短信、静止影像及动态影像等)的功能。
上述存储器160可包括闪存式(flash memory type)、硬盘式(hard di sk type)、多媒体卡微型(multimedia card micro type)、卡式存储器(例如,SD或XD存储器等)、随机存取存储器(RAM,Random Access Mem ory)、静态随机存取存储器(SRAM,Static RandomAccess Memory)、只读存储器(ROM,Read-Only Memory)、电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)磁存储器、磁盘及光盘中的至少一个类型的存储介质。并且,移动通信终端100也能够运营在互联网(internet)上发挥存储器150的存储功能的网络存储(web storage)。
上述接口部170起到与连接于移动终端100的所有的外部设备的接口作用。例如,上述接口部170可以由有线/无线听筒端口(Headset Port)、外部充电器端口、有线/无线数据端口、内存卡(Memory Card)端口、连接具有识别模块的装置的端口、音频输入/输出(I/O,Input/Output)端口、视频输入/输出(I/O,Input/Output)端口及耳机端口等构成。在此,识别模块为存储用于对移动终端100的使用权限进行认证的各种信息的芯片,可包括用户识别模块(User Identify Module,UIM)、用户身份识别模块(Subscribe r IdentifyModule,SIM)及通用用户识别模块(Universal Subscriber Identi ty Module,USIM)等。并且,具有上述识别模块的装置(以下,称为‘识别装置’)能够以智能卡(Smart Card)的形式制作。因此,上述识别模块能够通过端口与移动终端100相连接。如上所述的接口部170从外部设备接收数据或者接收电源来向移动终端100内部的各个结构要素传输或者使移动终端100内部数据向外部设备传送。
当移动终端100与外部底座(Cradle)相连接时,上述接口部170可以发挥使上述底座的电源向上述移动终端100供给的通道作用,或者发挥使用户通过上述底座输入的各种命令信号向上述移动终端100传递的通道作用。从上述底座输入的各种命令信号或上述电源可以作为用于识别上述移动终端100已准确地安装于上述底座的信号。
上述控制部180通常控制移动通信终端100的整体动作。例如,上述控制部180为了语音通话、数据通信及视频通话等而执行相关的控制及处理。并且,上述控制部180可具有用于多媒体再生的多媒体模块181。上述多媒体模块181能够在上述控制部180的内部实现,也能够与上述控制部180独立地另行实现。
上述控制部180可执行能够将在触摸屏上进行的笔记输入或画画输入分别识别为文字及图像的图案识别处理。
上述供电部190通过上述控制部180的控制,接收外部的电源、内部的电源来供给各个结构要素的动作所需的电源。
就应用于上述移动通信终端100的结构要素的功能而言,能够利用软件、硬件或它们的组合,来在计算机可读取的记录介质内实现。根据硬件实现,能够利用特定用途集成电路(ASICs,application specific integrated circuits)、数字信号处理器(DSPs,digital signal processors)、数字信号处理设备(D SPDs,digital signal processingdevices)、可编程逻辑器件(PLDs,progra mmable logic devices)、现场可编程门阵列(FPGAs,field programmable gatearrays)、处理器(processors)、控制器(controllers)、微控制器(mi cro-controllers)、微处理器(microprocessors)及用于执行功能的电气单元中的至少一个来实现。在一些情况下,这些实施例能够通过控制部180来实现。根据软件实现,如步骤或功能的实施例能够与执行至少一个功能或工作的另外的软件模块一同实现。软件代码能够通过以适当的程序语言编写的软件应用程序来实现。并且,软件代码能够存储于存储器160,并通过控制部180来执行。
上述语音识别模块182对用户发出的语音进行识别,并根据其识别的语音信号执行相关功能。
适用于上述移动通信终端100的导航会话模块(session)300在地图数据上显示行驶路径。
图2为表示用于说明本发明实施例的车辆导航系统的框图。
如图2所示,车辆导航系统包括:信息提供中心30,提供交通信息及各种数据(例如,程序、执行文件等);远程信息处理终端200,安装于车辆内,通过远距离无线通信网20和/或进距离无线通信网接收交通信息,将基于通过人造卫星10接收的GPS信号及上述交通信息,来提供路径引导服务。在此,上述通信网还可包括如局域网(LAN,Local AreaNetwork)、广域网(WAN,Wide Area Network)等有线/无线通信网络。
通过上述通信网收集信号灯信息在内的各种交通信息(ex:道路交通信息、关注区域信息),在信息提供中心30(例如,服务器)根据交通信息传输协议(TPEG,TransportProtocol Expert Group)标准对收集到的信息进行处理后向广播电台传送。由此,广播电台将包括信号灯信息的交通信息插入于广播信号来向车辆200广播。
上述服务器将通过与通信网相连接的各种路径收集的各种交通信息重新构成为例如遵循交通信息传输协议(TPEG,Transport Protocol Expert Gr oup)标准的格式等交通信息格式,来向广播电台传送,其中,上述各种路径例如为如运营者输入、有/无线互联网、透明数据通道(TDC,Transparent Data Channel)、多媒体对象传输(MOC,MultimediaObject Transport)那样的数字广播服务、其他服务器或探测车(probe car),上述TPEG标准是用于交通信息服务的标准。
上述服务器能够生成包括信号灯信息的TPEG标准的交通信息格式而向广播电台传送。
广播电台将从服务器接收的包含信号灯信息在内的交通信息调制到广播信号来进行无线传输,以便例如导航装置等装载于车辆200的交通信息接收终端能够接收。上述交通信息包括信号灯信息,此外,还可包括与事故、道路状况、交通混乱、道路建设、道路封闭、公共交通网延迟及航空航运延迟等为了道路、海洋及航空航运所需的各种交通条件相关的信息。
上述广播电台接收包含从服务器处理的信号灯信息在内的交通信息,并通过遵循各种数字广播标准的数字信号向车辆200传送。在此情况下,作为广播标准,包括如基于尤里卡-147[ETSI EN 300401]的欧洲数字音频广播(Digital Audio Broadcasting,DAB)标准、地面波或卫星数字多媒体广播(Digital Multimedia Broadcasting,DMB)、地面波数字视频广播(Digital Video Broadcasting,DVB-T)标准、手持式数字视频广播(DigitalVideo Broadcasting-Handheld,DVB-H)标准及媒体单一前向链路(MFLO,Media ForwardLink Only)标准那样的各种数字广播标准。
并且,上述广播电台能够通过如有/无线互联网那样的有/无线网络来传送包含信号灯信息在内的交通信息。
上述车辆200意味着一般轿车、公共汽车、火车、船及飞机等以人或物的移动为目的利用机器、电子装置来实现的所有可能的载体。
在上述车辆200上装载有交通信息接收终端,利用装载的交通信息接收终端从广播电台接收信号灯信息,并对信号灯信息进行处理,通过图形、文本和/或音频向用户传输处理后的信号灯信息。
以下,参照图3,对用于说明本发明实施例的远程信息处理终端200的结构进行说明。
图3为表示用于说明本发明实施例的远程信息处理终端200的结构的框图。
如图3所示,远程信息处理终端200包括:控制部(例如,中央处理装置,CPU)212,控制远程信息处理终端200的整体;存储器213,存储各种信息;键控制部211,控制各种键信号;主板210,内置有控制液晶显示器(LCD,liquid crystal display)的液晶显示控制部214。
上述存储器213存储用于将路径引导信息显示在数字地图上的地图信息(地图数据)。并且,上述存储器213存储交通信息收集控制算法及用于控制上述算法的信息,其中,上述交通信息收集控制算法用于能够输入与车辆当前行驶的道路状况相对应的交通信息。
上述主板210包括:作为移动通信终端的CDMA(code division multiple access)模块206,其内置于车辆,具有固有的型号;GPS模块207,将用于车辆位置的引导、从始发地到目的地为止的行驶路径的追踪等的GPS信号,或者将用户收集的交通信息作为GPS(Global Positioning System,全球定位系统)信号来进行发送;光盘播放器(CD Deck)208,用于再生记录在光盘(CD,compact disk)中的信号;陀螺仪传感器(gyro sensor)209等。
上述CDMA模块206、GPS模块207通过天线204、205来发送/接收信号。
并且,广播接收模块222与上述主板210相连接,通过天线223来接收广播信号。在上述主板210连接有:显示部(LCD)201,通过接口板203被上述LCD控制部214控制;前板202,被键控制部211控制;摄像头227,拍摄车辆的内部和/或外部。上述显示部201显示各种视频信号、文字信号,上述前板202具有用于输入各种键信号的按钮,将与用户选择的按钮相对应的键信号提供给主板210。并且,上述显示部201包括图2的接近传感器及触摸传感器(触摸屏)。
上述前板202具有用于直接输入交通信息的菜单键,上述菜单键可被键控制部211控制。
上述音频板217与上述主板210相连接,用于处理各种音频信号。上述音频板217包括:微型计算机219,用于控制音频板217;无线电收音机(tuner)218,用于接收收音机信号;电源部216,用于向上述微型计算机219供电;信号处理部215,用于处理各种语音信号。
并且,上述音频板217包括:收音机天线220,用于接收收音机信号;磁带播放器221,用于再生音频磁带。上述音频板217还可以包括语音输出部(例如,放大器)226,该语音输出部226用于输出在上述音频板217进行过信号处理的语音信号。
上述语音输出部(放大器)226与车辆接口224相连接。即,上述音频板217和主板210与上述车辆接口224相连接。上述车辆接口224还可以与用于输入语音信号的车载免提模块(handsfree)225a、用于保护搭乘人员的安全的安全气囊225b及用于检测车辆的速度的速度传感器225c等。上述速度传感器225c计算车辆速度,将计算出的车辆速度信息提供给上述中央处理装置212。
适用于上述远程信息处理终端200的导航会话模块300基于地图数据及车辆的当前位置信息来生成路径引导信息,并将所生成的路径引导信息通知给用户。
上述显示部201通过接近传感器来在显示窗内检测接近触摸。例如,当指示器(例如,手指或触控笔(stylus pen))接近触摸时,上述显示部201检测其接近触摸的位置,并将与所检测到的位置相对应的位置信息输出至上述控制部212。
语音识别装置(或语音识别模块)301识别由用户发出的语音,并根据所识别的语音信号执行相关功能。
适用于上述远程信息处理终端200的导航会话模块(session)300在地图数据上显示行驶路径,并且当上述移动通信终端100的位置处于从包括在上述行驶路径的死区起的预先设定的距离以内时,通过无线通信(例如,进距离无线通信网)自动地与安装于周边车辆的终端(例如,车辆导航装置)和/或周边步行者携带的移动通信终端形成无线网络,从而从安装于上述周边车辆的终端接收其周边车辆的位置信息,从周边步行者携带的移动通信终端接收上述周边步行者的位置信息。
图4为表示用于说明本发明实施例的导航(车辆导航)装置400的结构的框图。
上述导航(车辆导航)装置400根据在车辆200上的设置形态分为仪表板内装型(InDash Type)和仪表板上装型(On Dash Type)。仪表板内装型导航(车辆导航)装置插入于车辆200的仪表板(Dash Board)内分配的规定空间,为固定安装形态。仪表板上装型导航(车辆导航)装置搁置于车辆200的仪表板上或者在其附近利用规定的支撑台来设置,其可以拆装,因此能够从车辆200分离并携带。
本实施例的导航(车辆导航)装置400包括这种仪表板内装型和仪表板上装型的导航(车辆导航)装置,此外,还包括如能够与GPS接收器连动来执行导航功能的各种便携式终端(Portable Terminal)那样的可以接收和/或处理交通信息的信息处理装置,其中,上述GPS接收器在车辆200内接收从GPS卫星传送的导航消息。
如图4所示,上述导航装置400包括:GPS模块401,接收来自卫星的GPS(全球定位系统)信号,并基于上述接收的GPS信号来生成导航装置(可视为与远程信息处理终端200或移动通信终端100相同的位置)的第一车辆位置数据;航位推算(DR,Dead-Reckoning)传感器402,基于车辆的行驶方向及上述车辆的速度来生成第二车辆位置数据;存储部(或存储器)404,存储地图数据及各种信息;地图匹配部403,基于上述第一车辆位置数据及上述第二车辆位置数据来生成车辆估计位置,并对所生成的上述车辆估计位置和存储于上述存储部404的地图数据内的链路(地图匹配链路或地图匹配道路)进行匹配(matching),输出上述匹配的地图信息(地图匹配结果);通信部408,通过无线通信网500从信息提供中心和/或周边车辆接收实时交通信息,接收交通信号灯信息,执行电话通信;控制部407,基于上述匹配的地图信息(地图匹配结果)来生成路径引导信息;显示部405,显示包括在上述路径引导信息内的路径引导地图(包括关注区域信息)及上述交通信号灯信息;语音输出部406,输出与包括在上述路径引导信息内的路径引导语音信息(路径引导语音消息)及上述交通信号灯信息相对应的语音信号。
上述导航装置400可包括识别由用户发出的语音的语音识别装置(或语音识别模块)409。
上述通信部408还包括具有蓝牙模块的车载免提模块,通过天线能够从广播电台接收包括TPEG格式的交通信息在内的广播信号。上述广播信号不仅包括遵循地面波或卫星数字多媒体广播(DMB)、数字音频广播(DAB)、数字视频广播(DVB-T、DVB-H)等各种标准的视频和音频数据,而且包括利用交通信息(TPEG)服务、二进制格式场景(BIFS,Binary Formatfor Scene)数据服务的交通信息及如各种附加数据那样的附加信息。并且,上述通信部408对提供交通信息的信号频带进行调谐,并对调谐的信号进行解调,来向TPEG解码器(包括在控制部407)输出。
上述TPEG解码器通过对TPEG格式的交通信息进行解码来向控制部407提供以包括在交通信息内的信号灯信息为主的各种信息。
上述路径引导信息不仅包括地图数据,而且还可包括车道信息、行驶限速信息、转弯信息、交通安全信息、交通引导信息、车辆信息及寻路信息等与行驶相关的各种信息。
就通过上述GPS模块401接收的信号而言,能够利用无线通信方式来向上述导航装置400提供终端的位置信息,上述无线通信方式包括:对于电气和电子工程师协会(IEEE,Institute of Electrical and Electronics Engineers)提出的无线局域网及包括部分红外线通信等的无线局域网的无线网络的标准规格802.11;对于包括蓝牙、超宽带及紫蜂协议等的无线个人局域网(PAN,Personal Area Network)的标准规格802.15;对于包括城市宽带网络(Fixed Wireless Access,FWA)等无线城域网(MAN,Metropolitan AreaNetwork)、宽带无线接入(Broadband Wireless Access,BWA)的标准规格802.16;对于包括无线宽带(Wibro)、全球微波接入互操作性(WiMAX)等的无线城域网(MAN)(MBWA,MobileBroadband Wireless Access)的移动互联网的标准规格802.20等。
在上述导航装置400还能够设有输入部,通过上述输入部,能够选择用户所需的功能或者输入信息,并能够使用键盘板、触摸屏、微动滑梭及传声器等各种装置。
上述地图匹配部403基于上述第一位置数据及上述第二位置数据来生成车辆估计位置,并从上述存储部404读出与行驶路径相对应的地图数据。
上述地图匹配部403对包括在上述车辆估计位置和上述地图数据中的链路(道路)进行匹配(matching),并向上述控制部407输出上述匹配的地图信息(地图匹配结果)。例如,上述地图匹配部403基于上述第一位置数据及上述第二位置数据来生成车辆估计位置,按照链路顺序对上述所生成的车辆估计位置和存储于上述存储部404的地图数据内的链路进行匹配(matc hing),并向控制部407输出上述匹配的地图信息(地图匹配结果)。上述地图匹配部403也可以向上述控制部407输出如包括在上述匹配的地图信息(地图匹配结果)中的单层道路或多层道路等道路属性信息。并且,上述地图匹配部403的功能也能够在上述控制部407实现。
上述存储部404存储地图数据。此时,上述存储的地图数据包括以度分秒单位(DMS单位:Degree/Minute/Second)表示纬度及经度的地理坐标(Geographic Coordinate或,经纬度坐标)。在此,上述存储的地图数据除了上述地理坐标以外还能够使用通用横轴墨卡托(UTM,Universal Transverse Mercator)坐标、通用极系统(UPS,Universal PolarSystem)坐标及横轴墨卡托(TM,Transverse Mercator)坐标等。
上述存储部404存储根据各种菜单画面、关注地点(POI,Point Of Interest,以下,称为‘POI’)及地图数据的特定位置的功能特性信息等各种信息。
上述存储部404存储多种用户界面(User Interface,UI)和/或图形用户界面(Graphic User Interface,GUI)。
上述存储部404存储上述导航装置400动作所需的数据和程序等。
上述存储部404存储用户通过上述输入部来输入的目的地信息。此时,上述目的地信息可以为目的地或始发地和目的地中的某一个。
上述显示部405显示通过上述控制部407来生成的路径引导信息中包含的图像信息(或路径引导地图)。在此,上述显示部405包括触摸传感器(触摸屏)及接近传感器。并且,上述路径引导信息不仅包括地图数据,而且还可包括车道信息、行驶限速信息、转弯信息、交通安全信息、交通引导信息、车辆信息及寻路信息等与行驶相关的各种信息。
上述显示部405在显示上述图像信息时,能够利用在上述存储部404包含的用户界面和/或图形用户界面来显示如各种菜单画面和路径引导信息等各种内容。在此,显示在上述显示部405的内容包括各种文本或图片数据(包括地图数据或各种信息数据)和图标、清单菜单及组合框(combo box)等数据的菜单画面等。
上述语音输出部406输出通过上述控制部407来生成的路径引导信息中包含的语音信息(或对于上述路径引导信息的语音消息)。在此,上述语音输出部406可以为放大器或扬声器。
上述控制部407基于上述匹配的地图信息来生成路径引导信息,并向上述显示部405及语音输出部406输出上述生成的路径引导信息。此时,上述显示部405显示上述路径引导信息。
上述控制部407从上述信息提供中心和/或安装于周边车辆的终端(车辆导航装置)接收实时交通信息来生成路径引导信息。
上述控制部407能够通过呼叫中心来与通信部408连接,从而执行电话通话或者发送/接收上述导航装置400和上述呼叫中心之间的信息。在此,上述通信部408还包括具有使用近距离无线通信方式的蓝牙功能的车载免提模块。
若用户选择了关注地点检索菜单,则上述控制部407检索从当前位置到目的地为止的路径上的关注地点,并将检索到的关注地点显示在上述显示部405。此时,上述控制部407检索位于上述路径上的关注地点(无需变更(再检索)路径的地点,例如,位于行驶道路的左侧或右侧的关注地点)和/或位于上述路径的周边的关注地点(需要变更路径的地点,例如,为了经过周边POI,需要变更预先设定的路径的地点),并将检索到的关注地点显示在上述显示部405。
一般,在车辆内识别语音时,为了告知语音识别开始,对车辆用方向盘控制(SWC,Steering wheel control)按钮进行操作来开始。因此,由于车辆行驶中操作车辆用方向盘控制(SWC,Steering wheel control)按钮所引起的驾驶不注意等,可能会引起车辆事故。
以下,对乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便准确地识别用户的语音的语音识别装置及其方法进行说明。
图5为表示应用本发明实施例的语音识别装置的终端的例示图。
如图5所示,上述终端可以为安装于车辆的远程信息处理终端(或音响主机(HeadUnit))200。上述远程信息处理终端200所具有的摄像头可设置于车辆的后视镜(rearmirror)的上端,上述远程信息处理终端200所具有的麦克风(MIC)228可设置于上述后视镜的下端。上述摄像头227及上述麦克风228不仅能够设置于上述后视镜,而且还能够设置于车辆的仪表板,还可以设置于上述远程信息处理终端200。
也可以代替上述远程信息处理终端200而使用导航装置400或移动通信终端100。也可以代替上述多个移动通信终端100而使用多个后座娱乐系统(RSE,Rear SeatEntertainment System)、手机、智能手机(smart phone)、笔记本电脑(notebookcomputer)、数字广播终端、个人数字助理(Personal Digital Assistants)、便携式多媒体播放器(Portable Multimedia Player)及平板电脑(Tablet Personal Computer)等。以下,以应用于远程信息处理终端200的语音识别装置为例进行说明。
图6为表示本发明一实施例的语音识别方法的流程图。
首先,上述控制部212接收通过上述摄像头227实时接收的用户图像,并从上述用户图像实时追踪用户的视线(眼睛)(步骤S11)。例如,上述控制部212利用一般视线追踪(eye tracking)技术来实时追踪用户的视线(眼睛)。
上述存储器213实时存储上述车辆内音频信号(步骤S12)。例如,上述存储器213仅在预先设定的时间(例如,5秒~10秒)内实时存储上述车辆内音频信号。上述存储器213、上述控制部212、上述语音识别模块(语音识别部)301及上述摄像头227能够在时间上相互同步。上述存储器213可以为环形缓冲器(ring buffer)。
上述控制部212决定在通过上述摄像头227拍摄的用户图像中是否检测到预先设定的用户的姿势。例如,上述控制部212决定(判断)上述用户的视线是否朝向上述麦克风228(步骤S13)。假设上述摄像头227和上述麦克风228设置于相同或类似的位置(例如,车辆的后视镜)的情况下,若上述用户的视线朝向上述摄像头227,则上述控制部212能够决定为上述用户的视线朝向上述麦克风228。
除了用户的视线朝向上述麦克风228的用户的姿势(用户动作)以外,上述控制部212还可以在用户的胳膊或手向用户的脸或用户的嘴附近移动时决定为用户采取了预先设定的用户姿势。
若上述用户的视线朝向上述麦克风228,则上述控制部212启动上述语音识别模块301,决定从上述用户朝向麦克风228的时刻起记录在上述存储器213的车辆内的音频信号中是否存在感叹词(例如,“嗯”、“哦”等)(步骤S14)。即,上述控制部212将人类开始说话时习惯性地发出的如感叹词那样的非词汇决定为语音识别的始点。在此,上述控制部212和上述语音识别模块301可以构成为一体,并将其命名为控制部212。
图7为表示本发明一实施例的决定有效的语音信号的方法的例示图。
如图7所示,若上述用户的视线朝向上述麦克风228,则上述控制部212启动上述语音识别模块301,通过上述语音识别模块301识别从上述用户朝向麦克风228的时刻7-1起预先设定的时间(例如,5秒以内)内记录在上述存储器213的车辆内音频信号,并从所识别的音频信号检测预先设定的感叹词7-2。
若从上述识别的音频信号检测出上述预先设定的感叹词7-2,则上述控制部212将上述检测的感叹词后的语音信号7-3决定为有效的语音信号(步骤S15),并通过上述语音识别模块301识别上述有效的语音信号7-3(步骤S16)。上述语音识别模块301根据上述控制部212的控制信号进行动作,并接收用户发出(utterance)的语音信号。即,上述语音识别模块301并不是实时动作,而是在上述用户的视线朝向上述麦克风228时基于上述控制部212所生成的控制信号来进行动作,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便地接收及识别用户的语音。
若从上述识别的音频信号未检测到上述预先设定的感叹词,则上述控制部212断开(turn off)上述语音识别模块301,从而结束上述语音识别动作。
上述语音识别模块301比较上述用户发出(utterance)的语音信号和预先决定的语音模型,根据其比较结果将上述用户发出的语音信号决定为上述用户的语音。例如,上述语音识别模块301对提供表示输入语音和多个语音模型之间的相似度的可靠度分数(confidence scores)的预先决定的多个语音模型和上述用户语音信号进行比较,根据上述比较结果,当上述用户语音信号相当于高于阈值(threshold value)的可靠度分数时,将上述用户语音信号容许为语音。
相反,比较上述预先决定的多个模型和上述用户语音信号的结果,当上述用户语音信号相当于低于上述阈值的可靠度分数时,上述语音识别模块301将上述用户语音信号决定为非语言而拒绝之后,提供预先设定的提示(例如,请稍微慢点说)来再次引导语音识别。当假设上述可靠度分数(confidence score)的范围(range)被设定为从0到100时,上述语音识别模块301在上述用户语音信号的可靠度分数为90~100分时容许用户语音,在上述用户语音信号的可靠度分数低于90分时,可拒绝用户语音。在此,利用上述可靠度分数来识别用户语音的方法在美国专利编号6735562也公开过。
上述语音识别模块301决定上述容许的用户语音是单词还是句子。例如,当用户说出句子时,若在上述容许的用户语音中存在单词和单词之间的停顿(pause),则上述语音识别模块301将上述容许的用户语音决定为句子。相反,当用户说出句子时,若在上述容许的用户语音中不存在单词和单词之间的停顿(pause),则上述语音识别模块301将上述容许的用户语音决定为单词。
上述控制部212控制与通过上述语音识别模块301决定的单词或句子相对应的预先设定的功能。控制与上述识别的单词或句子相对应的预先设定的功能的技术为公知的技术,因此省略对其的详细说明。
当用户通过上述车载免提模块225a进行电话通话时,上述控制部212可以不进行上述语音识别动作。例如,在上述车载免提模块225a进行动作时,上述控制部212可以不执行上述语音识别动作。
因此,根据本发明一实施例的语音识别装置及其方法,在检测到从用户的视线朝向麦克风的时刻起输入的语音信号中存在非词汇(例如,感叹词)时,上述控制部将上述检测到的非词汇之后的语音信号自动识别为有效的语音信号,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便准确地识别用户的语音。
图8为表示本发明另一实施例的语音识别方法的流程图。
首先,上述控制部212接收通过上述摄像头227实时接收的用户图像,并从上述用户图像实时追踪用户的视线(眼睛)(步骤S21)。例如,上述控制部212通过一般视线追踪(eye tracking)技术来实时追踪用户的视线(眼睛)。
上述控制部212从通过上述摄像头227实时接收的用户图像中实时检测用户的嘴形(步骤S22)。例如,上述控制部212基于通过上述摄像头227实时检测的用户的嘴形,检测用户的嘴在动还是处于闭上的状态(例如,用户的嘴停止的状态)。通过上述摄像头227实时接收的用户图像可存储于上述存储器213。上述存储器213、上述控制部212、上述语音识别模块(语音识别部)301及上述摄像头227在时间上能够相互同步。
上述控制部212决定(判断)上述用户的视线是否朝向上述麦克风228(步骤S23)。当假设上述摄像头227和上述麦克风228设置于相同或相邻的位置(例如,车辆的后视镜)时,若上述用户的视线朝向上述摄像头227,则上述控制部212能够决定为上述用户的视线朝向上述麦克风228。
若上述用户的视线朝向上述麦克风228,则上述控制部212启动上述语音识别模块301,并决定自上述用户朝向麦克风228的时刻起从被输入的用户图像中是否检测到预先设定的用户的嘴形(例如,用户的嘴动的形状(图像)或用户的嘴张开的形状(图像))(步骤S24)。即,上述控制部212将上述用户朝向麦克风228张嘴的时刻决定为语音识别的始点。
若自上述用户的视线朝向麦克风228的时刻起从被输入的用户的图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像或用户的嘴张开的图像),则上述控制部212将从检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为有效的语音信号(步骤S25),并通过上述语音识别模块301识别上述有效的语音信号(步骤S26)。
图9为表示本发明另一实施例的决定有效的语音信号的方法的另一例示图。
如图9所示,若自上述用户的视线朝向麦克风228的时刻9-1起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像),则上述控制部212仅将在从检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如,用户的嘴动的图像)相对应的语音信号决定为语音区间9-2,将从检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形(例如,用户的嘴动的图像)相对应的语音信号以外的剩余语音信号决定为非语音区间9-3。上述语音识别模块301仅对不是与上述非语音区间相对应的语音信号的与上述决定的语音区间相对应的语音信号进行识别,并向上述控制部212输出所识别的语音信号(例如,单词或句子)。
上述语音识别模块301根据上述控制部212的控制信号来进行动作,并接收由用户发出(utterance)的语音信号。即,上述语音识别模块301并不是实时动作,而是当上述用户的视线朝向上述麦克风228时基于上述控制部212所生成的控制信号来进行动作,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便地接收及识别用户的语音。
若自上述用户的视线朝向麦克风228的时刻起从被输入的用户图像中未检测到预先设定的用户的嘴形(例如,用户的嘴动的图像或用户的嘴张开的图像),则上述控制部212断开上述语音识别模块301,从而结束上述语音识别动作。
上述语音识别模块301比较上述用户发出(utterance)的语音信号(与语音区间相对应的有效的语音信号)和预先决定的语音模型,根据其比较结果将上述用户发出的语音信号决定为上述用户的语音。例如,上述语音识别模块301对提供表示输入语音和多个语音模型之间的相似度的可靠度分数(confidence scores)的预先决定的多个语音模型和上述用户语音信号进行比较,根据上述比较结果,当上述用户语音信号相当于高于阈值(threshold value)的可靠度分数时,将上述用户语音信号容许为语音。
相反,比较上述预先决定的多个模型和上述用户语音信号的结果,当上述用户语音信号相当于低于上述阈值的可靠度分数时,上述语音识别模块301将上述用户语音信号决定为非语言而拒绝之后,提供预先设定的提示(例如,请稍微慢点说)来再次引导语音识别。当假设上述可靠度分数(confidence score)的范围(range)被设定为从0到100时,上述语音识别模块301在上述用户语音信号的可靠度分数为90~100分时容许用户语音,在上述用户语音信号的可靠度分数低于90分时,可拒绝用户语音。
因此,根据本发明另一实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像或者用户的嘴张开的图像),则上述控制部将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号自动识别为有效的语音信号,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便准确地识别用户的语音。
根据本发明另一实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像),则仅对自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如,用户的嘴动的图像)相对应的语音信号进行语音识别,从而能够与车辆内的噪音(例如,雨刷(wiper)噪音、信号等待时方向指示灯的动作声音、车辆发动机声音等)无关地准确地识别语音。
本发明所属技术领域的普通技术人员在不脱离本发明的本质特性的范围内可以进行各种修改及变形。因此,本发明中公开的实施例并不是用来限定本发明的技术思想,而是用来说明本发明的技术思想,并且,本发明的技术思想的范围并不被这些实施例限定。本发明的保护范围应当根据所附的权利要求的范围解释,与其等同的范围内的所有技术思想包含在本发明的权利范围。
产业上的可利用性
如上所述,根据本发明实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的语音信号中检测到非词汇(例如,感叹词),则将上述检测到的非词汇之后的语音信号自动识别为有效的语音信号,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便准确地识别用户的语音。
根据本发明实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像或者用户的嘴张开的图像),则将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号自动识别为有效的语音信号,从而乘坐在车辆的驾驶员(用户)不对语音识别开始按钮进行操作,也能够容易并且方便准确地识别用户的语音。
根据本发明实施例的语音识别装置及其方法,若自用户的视线朝向麦克风的时刻起从被输入的用户图像中检测到预先设定的用户的嘴形(例如,用户的嘴动的图像),则仅对自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形(例如,用户的嘴动的图像)相对应的语音信号进行语音识别,从而能够与车辆内的噪音(例如,雨刷(wiper)噪音、信号等待时方向指示灯的动作声音、车辆发动机声音等)无关地准确地识别语音。
Claims (8)
1.一种语音识别装置,其特征在于,包括:
摄像头,拍摄用户图像,
麦克风,
控制部,从上述用户图像中实时追踪用户的视线,
从自所追踪的上述视线朝向上述麦克风的时刻起预先设定的时间内通过上述麦克风接收到的第一语音信号中检测作为非词汇的感叹词,
在上述预先设定的时间内从上述第一语音信号中检测到感叹词时,将检测到的上述感叹词之后的第二语音信号决定为有效的语音信号,以及
语音识别部,从上述有效的语音信号中识别上述用户的语音;
通过上述麦克风接收上述第二语音信号,
在上述用户的视线朝向上述麦克风时,上述控制部启动上述语音识别部,
在上述用户的视线朝向上述麦克风且从通过上述麦克风输入的语音信号中在预先设定的时间内未检测到上述感叹词时,上述控制部断开上述语音识别部,
若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形,则上述控制部将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为上述有效的语音信号,
上述预先设定的用户的嘴形为用户的嘴动的形状或者用户的嘴张开的形状。
2.根据权利要求1所述的语音识别装置,其特征在于,上述摄像头和上述麦克风设置于相同或相邻的位置。
3.根据权利要求1所述的语音识别装置,其特征在于,若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形,则上述控制部仅将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形相对应的语音信号决定为用于语音识别的语音区间。
4.根据权利要求3所述的语音识别装置,其特征在于,上述控制部将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形相对应的语音信号以外的剩余语音信号决定为非语音区间。
5.一种语音识别方法,其特征在于,包括:
通过摄像头拍摄用户图像的步骤,
从通过上述摄像头拍摄的上述用户图像中实时追踪用户的视线的步骤,
从自所追踪的上述视线朝向麦克风的时刻起预先设定的时间内通过上述麦克风接收到的第一语音信号中检测作为非词汇的感叹词的步骤,
在上述预先设定的时间内从上述第一语音信号中检测到感叹词时,则将检测到的上述感叹词之后的第二语音信号决定为有效的语音信号的步骤,
通过语音识别部从上述有效的语音信号中识别上述用户的语音的步骤,
在上述用户的视线朝向上述麦克风时,启动上述语音识别部的步骤,以及
在上述用户的视线朝向上述麦克风且从通过上述麦克风输入的语音信号中在预先设定的时间内未检测到上述感叹词时,断开上述语音识别部的步骤;
通过上述麦克风接收上述第二语音信号,
决定上述有效的语音信号的步骤包括:
若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形,则将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号决定为上述有效的语音信号的步骤,
上述预先设定的用户的嘴形为用户的嘴动的形状或者用户的嘴张开的形状。
6.根据权利要求5所述的语音识别方法,其特征在于,上述摄像头和上述麦克风设置于相同或相邻的位置。
7.根据权利要求5所述的语音识别方法,其特征在于,决定上述有效的语音信号的步骤包括:
若自所追踪的上述用户的视线朝向上述麦克风的时刻起从被输入的上述用户图像中检测到预先设定的用户的嘴形,则仅将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中与上述预先设定的用户的嘴形相对应的语音信号决定为用于语音识别的语音区间的步骤。
8.根据权利要求7所述的语音识别方法,其特征在于,还包括:将自检测到上述预先设定的用户的嘴形的时刻起输入的语音信号中除了与上述预先设定的用户的嘴形相对应的语音信号以外的剩余语音信号决定为非语音区间的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261669501P | 2012-07-09 | 2012-07-09 | |
US61/669,501 | 2012-07-09 | ||
PCT/KR2013/005984 WO2014010879A1 (ko) | 2012-07-09 | 2013-07-05 | 음성 인식 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104428832A CN104428832A (zh) | 2015-03-18 |
CN104428832B true CN104428832B (zh) | 2018-06-26 |
Family
ID=49916272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380036950.3A Active CN104428832B (zh) | 2012-07-09 | 2013-07-05 | 语音识别装置及其方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9443510B2 (zh) |
EP (1) | EP2871640B1 (zh) |
KR (1) | KR102206383B1 (zh) |
CN (1) | CN104428832B (zh) |
WO (1) | WO2014010879A1 (zh) |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
US9704484B2 (en) * | 2012-08-10 | 2017-07-11 | Honda Access Corp. | Speech recognition method and speech recognition device |
WO2014027247A2 (en) * | 2012-08-17 | 2014-02-20 | King Abdullah University Of Science And Technology | System and method for monitoring traffic while preserving personal privacy |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US20150039312A1 (en) * | 2013-07-31 | 2015-02-05 | GM Global Technology Operations LLC | Controlling speech dialog using an additional sensor |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
JP6221535B2 (ja) * | 2013-09-11 | 2017-11-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10163455B2 (en) * | 2013-12-03 | 2018-12-25 | Lenovo (Singapore) Pte. Ltd. | Detecting pause in audible input to device |
JP6233650B2 (ja) * | 2014-05-20 | 2017-11-22 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
JP6350903B2 (ja) * | 2014-05-20 | 2018-07-04 | パナソニックIpマネジメント株式会社 | 操作補助装置および操作補助方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10318016B2 (en) | 2014-06-03 | 2019-06-11 | Harman International Industries, Incorporated | Hands free device with directional interface |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105468950B (zh) * | 2014-09-03 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 身份认证方法、装置、终端及服务器 |
CN104217719A (zh) * | 2014-09-03 | 2014-12-17 | 深圳如果技术有限公司 | 一种触发处理方法 |
JP6592940B2 (ja) * | 2015-04-07 | 2019-10-23 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2016175354A1 (ko) * | 2015-04-29 | 2016-11-03 | 주식회사 아카인텔리전스 | 인공지능 대화 장치 및 방법 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
DE102015210430A1 (de) * | 2015-06-08 | 2016-12-08 | Robert Bosch Gmbh | Verfahren zum Erkennen eines Sprachkontexts für eine Sprachsteuerung, Verfahren zum Ermitteln eines Sprachsteuersignals für eine Sprachsteuerung und Vorrichtung zum Ausführen der Verfahren |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105489222B (zh) * | 2015-12-11 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US9853758B1 (en) * | 2016-06-24 | 2017-12-26 | Harman International Industries, Incorporated | Systems and methods for signal mixing |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
KR102591413B1 (ko) * | 2016-11-16 | 2023-10-19 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
WO2018175959A1 (en) * | 2017-03-23 | 2018-09-27 | Joyson Safety Systems Acquisition Llc | System and method of correlating mouth images to input commands |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
CN107678793A (zh) * | 2017-09-14 | 2018-02-09 | 珠海市魅族科技有限公司 | 语音助手启动方法及装置、终端及计算机可读存储介质 |
CN109903769A (zh) * | 2017-12-08 | 2019-06-18 | Tcl集团股份有限公司 | 一种终端设备交互的方法、装置和终端设备 |
KR102420567B1 (ko) * | 2017-12-19 | 2022-07-13 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN108156326B (zh) * | 2018-01-02 | 2021-02-02 | 京东方科技集团股份有限公司 | 一种自动启动录音的方法、系统及装置 |
CN108154140A (zh) * | 2018-01-22 | 2018-06-12 | 北京百度网讯科技有限公司 | 基于唇语的语音唤醒方法、装置、设备及计算机可读介质 |
CN110164444A (zh) * | 2018-02-12 | 2019-08-23 | 优视科技有限公司 | 语音输入启动方法、装置及计算机设备 |
KR102580837B1 (ko) * | 2018-03-02 | 2023-09-21 | 삼성전자 주식회사 | 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법 |
US10818288B2 (en) * | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
EP4343499A3 (en) | 2018-05-04 | 2024-06-05 | Google LLC | Adapting automated assistant based on detected mouth movement and/or gaze |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
JP7137694B2 (ja) | 2018-09-12 | 2022-09-14 | シェンチェン ショックス カンパニー リミテッド | 複数の音響電気変換器を有する信号処理装置 |
CN109243441B (zh) * | 2018-09-26 | 2023-01-20 | 广东小天才科技有限公司 | 调整语音采集距离的引导方法、装置、终端及存储介质 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
FR3088741B1 (fr) * | 2018-11-16 | 2021-03-05 | Faurecia Interieur Ind | Procede d'assistance vocale, dispositif d'assistance vocale et vehicule comprenant le dispositif d'assistance vocale |
US11151993B2 (en) * | 2018-12-28 | 2021-10-19 | Baidu Usa Llc | Activating voice commands of a smart display device based on a vision-based mechanism |
JP7250547B2 (ja) * | 2019-02-05 | 2023-04-03 | 本田技研工業株式会社 | エージェントシステム、情報処理装置、情報処理方法、およびプログラム |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111028843B (zh) * | 2019-04-11 | 2022-11-22 | 广东小天才科技有限公司 | 一种听写方法及电子设备 |
CN110021297A (zh) * | 2019-04-13 | 2019-07-16 | 上海影隆光电有限公司 | 一种基于音视频识别的智能显示方法及其装置 |
CN109949812A (zh) * | 2019-04-26 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备及存储介质 |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110737335B (zh) * | 2019-10-11 | 2021-03-23 | 深圳追一科技有限公司 | 机器人的交互方法、装置、电子设备及存储介质 |
US10878840B1 (en) * | 2019-10-15 | 2020-12-29 | Audio Analytic Ltd | Method of recognising a sound event |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112507829B (zh) * | 2020-11-30 | 2023-04-07 | 株洲手之声信息科技有限公司 | 一种多人视频手语翻译方法及系统 |
KR20240096625A (ko) * | 2021-11-08 | 2024-06-26 | 엘지전자 주식회사 | Ar 디바이스 및 ar 디바이스 제어 방법 |
CN114842839A (zh) * | 2022-04-08 | 2022-08-02 | 北京百度网讯科技有限公司 | 车载人机交互方法、装置、设备、存储介质及程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1187099A2 (en) * | 2000-09-12 | 2002-03-13 | Pioneer Corporation | Voice recognition apparatus |
CN101136198A (zh) * | 2006-08-29 | 2008-03-05 | 爱信艾达株式会社 | 语音识别方法及语音识别装置 |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN102360187A (zh) * | 2011-05-25 | 2012-02-22 | 吉林大学 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
CN102470273A (zh) * | 2009-07-09 | 2012-05-23 | 微软公司 | 基于玩家表情的视觉表示表情 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06131437A (ja) | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
US6230128B1 (en) * | 1993-03-31 | 2001-05-08 | British Telecommunications Public Limited Company | Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links |
JPH07306772A (ja) | 1994-05-16 | 1995-11-21 | Canon Inc | 情報処理方法及び装置 |
JP3530591B2 (ja) * | 1994-09-14 | 2004-05-24 | キヤノン株式会社 | 音声認識装置及びこれを用いた情報処理装置とそれらの方法 |
CN1183158A (zh) * | 1995-03-07 | 1998-05-27 | 西门子公司 | 识别至少叠加了一个干扰信号的时变测试信号中的至少一个隐式马尔科夫模型建模的有定义信号的方法 |
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
JP3688879B2 (ja) * | 1998-01-30 | 2005-08-31 | 株式会社東芝 | 画像認識装置、画像認識方法及びその記録媒体 |
GB2355833B (en) * | 1999-10-29 | 2003-10-29 | Canon Kk | Natural language input method and apparatus |
KR100576553B1 (ko) | 2000-01-20 | 2006-05-03 | 한국전자통신연구원 | 멀티모달 인터페이스 처리 장치 및 그 방법 |
WO2001056017A1 (de) * | 2000-01-27 | 2001-08-02 | Siemens Aktiengesellschaft | System und verfahren zur blickfokussierten sprachverarbeitung |
US6735562B1 (en) | 2000-06-05 | 2004-05-11 | Motorola, Inc. | Method for estimating a confidence measure for a speech recognition system |
JP3581881B2 (ja) * | 2000-07-13 | 2004-10-27 | 独立行政法人産業技術総合研究所 | 音声補完方法、装置および記録媒体 |
US6795806B1 (en) * | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
EP1215658A3 (en) * | 2000-12-05 | 2002-08-14 | Hewlett-Packard Company | Visual activation of voice controlled apparatus |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
US20030001908A1 (en) | 2001-06-29 | 2003-01-02 | Koninklijke Philips Electronics N.V. | Picture-in-picture repositioning and/or resizing based on speech and gesture control |
US20030171932A1 (en) * | 2002-03-07 | 2003-09-11 | Biing-Hwang Juang | Speech recognition |
CN1182513C (zh) * | 2003-02-21 | 2004-12-29 | 清华大学 | 基于局部能量加权的抗噪声语音识别方法 |
US7076422B2 (en) * | 2003-03-13 | 2006-07-11 | Microsoft Corporation | Modelling and processing filled pauses and noises in speech recognition |
WO2006069358A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking model |
US20060192775A1 (en) * | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Using detected visual cues to change computer system operating states |
US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
WO2008069519A1 (en) * | 2006-12-04 | 2008-06-12 | Electronics And Telecommunications Research Institute | Gesture/speech integrated recognition system and method |
US8140325B2 (en) * | 2007-01-04 | 2012-03-20 | International Business Machines Corporation | Systems and methods for intelligent control of microphones for speech recognition applications |
US8219406B2 (en) * | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
CN101335005A (zh) * | 2007-06-28 | 2008-12-31 | 上海闻通信息科技有限公司 | 语音识别系统中的前导噪声处理 |
WO2009045861A1 (en) * | 2007-10-05 | 2009-04-09 | Sensory, Incorporated | Systems and methods of performing speech recognition using gestures |
US8112281B2 (en) * | 2007-12-19 | 2012-02-07 | Enbiomedic | Accelerometer-based control of wearable audio recorders |
US9020816B2 (en) | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8160311B1 (en) * | 2008-09-26 | 2012-04-17 | Philip Raymond Schaefer | System and method for detecting facial gestures for control of an electronic device |
US9108513B2 (en) * | 2008-11-10 | 2015-08-18 | Volkswagen Ag | Viewing direction and acoustic command based operating device for a motor vehicle |
KR101829865B1 (ko) * | 2008-11-10 | 2018-02-20 | 구글 엘엘씨 | 멀티센서 음성 검출 |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
JP2011257943A (ja) * | 2010-06-08 | 2011-12-22 | Canon Inc | ジェスチャ操作入力装置 |
JP5636888B2 (ja) * | 2010-11-09 | 2014-12-10 | ソニー株式会社 | 情報処理装置、プログラムおよびコマンド生成方法 |
US20120259638A1 (en) * | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
US20120304067A1 (en) * | 2011-05-25 | 2012-11-29 | Samsung Electronics Co., Ltd. | Apparatus and method for controlling user interface using sound recognition |
US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
US9152376B2 (en) * | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US9423870B2 (en) * | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US20130325474A1 (en) * | 2012-05-31 | 2013-12-05 | Royce A. Levien | Speech recognition adaptation systems based on adaptation data |
CN102833634A (zh) * | 2012-09-12 | 2012-12-19 | 康佳集团股份有限公司 | 一种电视机语音识别功能的实现方法及电视机 |
CN103051790A (zh) * | 2012-12-14 | 2013-04-17 | 康佳集团股份有限公司 | 一种基于手机的语音交互方法和系统、及手机 |
-
2013
- 2013-07-05 KR KR1020130079179A patent/KR102206383B1/ko active IP Right Grant
- 2013-07-05 US US14/411,627 patent/US9443510B2/en active Active
- 2013-07-05 CN CN201380036950.3A patent/CN104428832B/zh active Active
- 2013-07-05 WO PCT/KR2013/005984 patent/WO2014010879A1/ko active Application Filing
- 2013-07-05 EP EP13817278.8A patent/EP2871640B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1187099A2 (en) * | 2000-09-12 | 2002-03-13 | Pioneer Corporation | Voice recognition apparatus |
CN101136198A (zh) * | 2006-08-29 | 2008-03-05 | 爱信艾达株式会社 | 语音识别方法及语音识别装置 |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN102470273A (zh) * | 2009-07-09 | 2012-05-23 | 微软公司 | 基于玩家表情的视觉表示表情 |
CN102360187A (zh) * | 2011-05-25 | 2012-02-22 | 吉林大学 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
KR102206383B1 (ko) | 2021-01-22 |
EP2871640A4 (en) | 2016-03-02 |
US20150161992A1 (en) | 2015-06-11 |
CN104428832A (zh) | 2015-03-18 |
US9443510B2 (en) | 2016-09-13 |
EP2871640A1 (en) | 2015-05-13 |
WO2014010879A1 (ko) | 2014-01-16 |
KR20140007282A (ko) | 2014-01-17 |
EP2871640B1 (en) | 2021-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104428832B (zh) | 语音识别装置及其方法 | |
KR101569022B1 (ko) | 정보 제공 장치 및 그 방법 | |
CN106161754A (zh) | 移动终端及其控制方法 | |
CN103428635A (zh) | 移动终端的信息提供方法及其设备 | |
KR20110024979A (ko) | 서비스 제공 시스템 및 그 방법 | |
KR20100124591A (ko) | 이동 단말 및 그 제어 방법 | |
KR20110089744A (ko) | 정보 표시 장치 | |
KR101631959B1 (ko) | 차량 제어 시스템 및 그 제어 방법 | |
KR101917700B1 (ko) | 이동 단말기 및 그 제어 방법 | |
KR101562581B1 (ko) | 내비게이션 장치 및 그 방법 | |
KR20110004706A (ko) | 이동 단말기의 응급사고 처리 장치 및 그 방법 | |
KR20140122956A (ko) | 정보 제공 장치 및 그 방법 | |
KR101578721B1 (ko) | 네비게이션 단말기 및 네비게이션 단말기의 경로안내방법 | |
KR20150063834A (ko) | 차량 제어 장치 및 그 제어 방법 | |
KR101537695B1 (ko) | 내비게이션 시스템 및 그 방법 | |
KR101695686B1 (ko) | 차량 제어 장치 및 그 방법 | |
KR101763226B1 (ko) | 정보 제공 장치 및 그 방법 | |
KR101513633B1 (ko) | 텔래매틱스 단말기의 통화 제어 방법 및 그 장치 | |
KR20100082230A (ko) | 네비게이션 단말기 및 네비게이션 단말기의 운행안내방법 | |
KR101622729B1 (ko) | 정보 제공 장치 및 그 방법 | |
KR101760749B1 (ko) | 이동 단말기 및 그 제어 방법 | |
KR20140095873A (ko) | 전자기기 및 그것의 제어방법 | |
KR101544454B1 (ko) | 차량 제어 시스템 및 그 제어 방법 | |
KR101635025B1 (ko) | 정보 표시 장치 | |
KR20100038692A (ko) | 내비게이션 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |