CN110060669A - 语音识别设备及其控制方法 - Google Patents
语音识别设备及其控制方法 Download PDFInfo
- Publication number
- CN110060669A CN110060669A CN201810510328.6A CN201810510328A CN110060669A CN 110060669 A CN110060669 A CN 110060669A CN 201810510328 A CN201810510328 A CN 201810510328A CN 110060669 A CN110060669 A CN 110060669A
- Authority
- CN
- China
- Prior art keywords
- sentence
- instruction
- control command
- speech recognition
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000004044 response Effects 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000003860 storage Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims description 8
- 238000004378 air conditioning Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 13
- 230000001133 acceleration Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 239000007858 starting material Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000002826 coolant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003195 fascia Anatomy 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000010705 motor oil Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一种语音识别设备,可以包括:语音输入装置,配置为接收用户的语音输入;数据库,配置为存储用于生成指令的指令代码;控制器,配置为将语音转换为语音数据,在预定的等待时间之后分析语音数据中包括的由用户说出的语句,生成与分析的所说语句相对应的指令,并且确定所说语句是否可以包括控制目标和控制命令;输出装置,配置为输出分析的所说语句和对该指令的响应消息;以及驱动装置,配置为根据该指令对控制目标进行操作。
Description
技术领域
本发明涉及一种语音识别(speech recognition)设备,其配置为通过使用第一等待时间和第二等待时间分析由用户说出(uttered)的语句来按照用户的期望通过语音识别来对车辆的功能进行操作,本发明还涉及控制所述语音识别设备的方法。
背景技术
在识别用户的话语(utterance)并且对车辆的功能进行操作的语音识别系统中,如何接收用户的话语是很重要的。由于说话速度因人而异,因此需要准确地确定话语结束的时间。
常规的语音识别设备等待预定的等待时间,然后如果在等待时间期间没有另外(附加)的话语输入,则对所说话语进行分析和响应。在用户说话相对较慢的情况下,即使话语没有结束,常规的语音识别设备在预定的等待时间之后也会立即对话语进行分析。在这种情况下,由于车辆功能是基于不完整的话语而启用的,所以会引起故障或误操作。
也就是说,常规的语音识别设备常常由于试图在用户的意图未被准确识别的状态下对车辆功能进行操作而发生故障或误操作。
此外,在语音识别系统等待较长时间以接收用户话语的情况下,即使在话语实际已经结束之后,语音识别系统也缓慢地输出响应,因此用户可能感到不安,系统性能可能会变差。
因此,需要开发这样的技术,即通过调整针对用户话语输入的等待时间并且执行话语的实时分析来输出快速响应并减少误操作。
本背景技术部分中公开的信息仅用于增强对本发明的一般背景的理解,并且不能认为认可或以任何形式暗示该信息形成本领域技术人员已知的现有技术。
发明内容
本发明的各个方面致力于提供一种语音识别设备,其配置为即使在用户讲话速度相对较慢时也通过调整针对用户话语输入的等待时间来输入完整话语,本发明的各个方面还致力于提供所述控制语音识别设备的方法。
根据所述语音识别设备及其控制方法,通过设置第一等待时间和第二等待时间,通过在第一等待时间之后分析话语来确定指令是否完成,以及根据确定结果生成响应或者在第二等待时间期间等待附加的话语输入,可以减少故障并且可以输出更快的响应。
本发明的各个方面致力于提供一种语音识别设备,其被配置为基于车辆的当前状态通过生成关于预测话语的询问而生成适合用户意图的询问,并且根据用户的期望对控制目标(控制对象)进行操作,本发明的各个方面还致力于提供所述语音识别设备的控制方法。
本公开的其他方面将部分地在下面的说明书中进行说明,并且部分地根据说明书而变得显而易见,或者可以通过本公开的实施而了解。
根据本发明的各个方面,提供了一种语音识别设备,包括:语音输入装置,配置为接收用户的语音的输入;数据库,配置为存储用于生成指令的指令代码;控制器,配置为将语音转换为语音数据,在预定的等待时间之后分析语音数据中包括的由用户说出的语句,生成与所分析的所说语句相对应的指令,并且确定所说语句是否包括控制目标和控制命令;输出装置,配置为输出所分析的所说语句和对指令的响应消息;和驱动装置,配置为根据指令对控制目标进行操作。
当在第一等待时间期间没有输入附加语音时,控制器可以分析包括在语音数据中的第一所说语句并且参考数据库生成与第一所说语句相对应的指令。
当第一所说语句可以包括控制目标和控制命令两者时,控制器可以配置为确定指令完成并将指令发送到驱动装置。
当第一所说语句不包括控制目标和控制命令中的一个或多个时,控制器可以在第二等待时间期间接收附加语音的输入。
当在第二等待时间期间输入附加语音时,控制器可以在与第一等待时间相对应的时间过去之后,重新分析包括第一所说语句和包括在附加语音数据中的第二所说语句在内的整句所说语句。
当在第二等待时间期间未输入附加语音时,控制器可以配置为基于第一所说语句和车辆的当前状态生成关于预测话语的询问。
控制器可以响应于关于预测话语的询问来分析由用户说出的语句,从而生成与所分析的所说语句相对应的指令,并且将指令发送到驱动装置。
控制器可以将所说语句拆分为语素和词,从拆分为语素和词的所说语句中提取控制目标和控制命令,并且通过组合与控制目标相对应的目标代码和与控制命令相对应的控制命令代码而生成指令。
数据库可以包括与控制目标相对应的目标代码、与控制命令相对应的控制命令代码、对指令的响应消息和关于预测话语的询问。
根据本发明的各个方面,一种控制语音识别设备的方法包括:接收用户的语音的输入;通过将语音转换为语音数据来生成指令,并且在预定的等待时间之后分析语音数据中包括的由用户说出的语句;确定所说语句是否包括控制目标和控制命令;输出所分析的所说语句和对指令的响应消息;以及根据指令对控制目标进行操作。
生成指令还可以包括:当在第一等待时间期间没有输入附加语音时分析包括在语音数据中的第一所说语句;以及参考数据库生成与第一所说语句相对应的指令。
当第一所说语句包括控制目标和控制命令两者时,可以通过根据指令对控制目标进行操作来执行对控制目标的操作。
接收用户的语音的输入还可以包括:当第一所说语句不包括控制目标和控制目标中的一个或多个时,在第二等待时间期间接收附加语音的输入。
生成指令还可以包括:当在第二等待时间期间输入附加语音时,在经过与第一等待时间相对应的时间之后,重新分析包括第一所说语句和附加语音数据中包括的第二所说语句的整句所说语句。
生成指令还可以包括:当在第二等待时间期间未输入附加语音时,基于第一所说语句和车辆的当前状态生成关于预测话语的询问。
生成指令还包括响应于关于预测话语的询问来分析由用户说出的语句,并生成与所分析的所说语句相对应的指令。
通过将所说语句拆分为语素和词,从拆分为语素和词的所说语句中提取控制目标和控制命令,以及通过组合与控制目标相对应的目标代码和与控制命令相对应的控制命令代码而生成指令,可以执行指令的生成。
数据库可以包括与控制目标相对应的目标代码、与控制命令相对应的控制命令代码、对指令的响应消息和关于预测话语的询问。
本发明的方法和装置具有其他特征和优点,这些特征和优点将通过并入本文的附图以及下面的具体实施方式部分而变得明显或更详细地得以说明,附图和具体实施方式部分共同用于解释本发明的具体原理。
附图说明
图1是根据本发明的示例性实施例的车辆的外部视图。
图2是根据本发明的示例性实施例的车辆的内部视图。
图3是语音识别设备的控制框图。
图4是用于描述通过分析所说语句来生成指令的方法的图,所述分析由根据本发明示例性实施例的语音识别设备执行。
图5是根据本发明示例性实施例的控制语音识别设备的方法的流程图。
图6、图7、图8和图9是示例性地图示由根据本发明示例性实施例的语音识别设备100执行的响应消息的输出的图。
可以理解的是,附图不一定按比例绘制,其呈现的是说明本发明的基本原理的各种特征的稍微简化的表示。这里公开的本发明的具体设计特征(包括例如特定尺寸、定向、位置和形状)将部分由特定预期的应用和使用环境来确定。
参见附图,在不同的多幅图中,相同的附图标记指代本发明的相同或等同部件。
具体实施方式
现在将详细参考本发明的各种实施例,其示例在附图中示出并在下面进行描述。虽然本发明将结合本发明的示例性实施例进行描述,但应理解的是,这里的描述并非旨在将本发明限制于那些示例性实施例。相反,本发明旨在不仅覆盖本发明的示例性实施例,而且覆盖可以包括在本发明的精神和范围内的各种替代、修改、等同和其它实施例,如同由所附权利要求所限定的那样。
现在将更具体地参考本发明的示例性实施例,其示例在附图中示出,其中相同的附图标记始终表示相同的元件。本说明书没有描述本发明的示例性实施例的所有元件,并且可以省略关于本领域中公知的内容的详细描述或者基本上相同配置的冗余描述。说明书中使用的术语“单元”、“模块”、“构件”或“块”可以使用软件或硬件部件来实现。根据本发明的示例性实施例,多个“单元”、“模块”、“构件”或“块”也可以使用一个元件实现,一个“单元”、“模块”、“构件”或“块”可以包括多个元件。
在整体说明书中,当元件被称为“连接到”另一元件时,其可以直接或间接地连接到另一元件,并且“间接连接到”包括经由无线通信网络连接到另一元件。
另外,应该理解的是,术语“包括”或“具有”旨在指示包含在说明书中的元件的存在,而不旨在排除一个或多个其他元件可能存在或者可以被添加的可能性。
术语“第一”、“第二”等用于将一个部件与其他部件区分开,因此部件不受这些术语的限制。
除非在上下文中具有明显不同的含义,否则以单数形式使用的表述包含复数形式的表述。
针对操作使用的附图标记用于描述方便,并且不旨在描述操作的顺序,并且除非另有说明,操作可以以不同顺序执行。
在下文中,将参考附图描述本发明的操作原理和实施例。
现在将更具体地参考本发明的示例性实施例,其示例在附图中示出,其中相同的附图标记始终表示相同的元件。
图1是根据本发明的示例性实施例的车辆的外部视图。图2是根据本发明示例性实施例的车辆的内部视图。
参考图1,车辆1的外观包括配置为限定车辆1的外观的车身10,配置为向驾驶员提供车辆1的前方视野的挡风玻璃11,配置为向驾驶员提供车辆1的后方视野的侧后视镜(side mirror)12,配置为遮蔽车辆1的内部免受外部影响的车门13,以及设置在车辆1的前部的前轮21和设置在车辆1的后部的后轮22。前轮21和后轮22可以统称为车轮。
挡风玻璃11设置在车身10的前上部,以允许车辆1中的驾驶员获取与车辆1前方的视野有关的视觉信息。此外,侧后视镜12包括设置在车身10左侧的左侧后视镜和设置在车身10右侧的右侧后视镜,并且允许车辆1中的驾驶员获取与车辆1的侧后区域相关的视觉信息。
车门13可枢转地连接到车身的左侧和右侧,以允许驾驶员通过打开车门进入车辆1,并且车辆1的内部可以通过关闭车门而与车辆1的外部屏蔽。
参考图2,车身的内部120包括驾驶员和乘客坐在其上的座椅121(121a和121b),前围板(dashboard)122,设置在前围板122上并配备有转速计的仪表组(instrumentcluster)123,速度计,冷却液温度计,燃料表(fuel gauge),转向指示灯,远光指示灯,警示灯,安全带警示灯,里程计(trip meter),里程表(odometer),自动变速器选择指示灯,车门打开警示灯,发动机机油警示灯和低燃料警示灯,配置为控制车辆1的方向的方向盘124,以及配备有音频装置和空调的控制面板的中央仪表板(center fascia)125。
座椅121包括驾驶员座椅121a,前排乘客座椅121b和位于车辆1的后部的后排座椅。
仪表组123可以被实现为数字类型。这种数字型仪表组将与车辆1有关的信息和与行驶相关的信息显示为图像。
中央仪表板125位于驾驶员座椅121a和前排乘客座椅121b之间的前围板122处,并且包括机头装置(head unit)126,该机头装置126配置为控制音频装置、空调和座椅121的加热线。
在这方面,机头装置126可包括多个按钮以输入命令以对音频装置、空调和座椅121的加热线进行操作。
中央仪表板125可以设置有通风孔、香烟插孔、多功能端口127等。
在这种情况下,多功能端口127可以设置在机头装置126附近,并且还可以包括USB端口、AUX端口和SD插槽。
车辆1还可以包括输入装置128和显示装置129,输入装置配置为接收用于对各种功能进行操作的命令的输入,显示装置配置为显示关于正在执行的功能的信息和由用户输入的信息。
显示装置129可以包括显示面板,所述显示面板包括发光二极管(LED)面板、有机发光二极管(OLED)面板或液晶显示(LCD)面板。
输入装置128可以设置在机头装置126和中央仪表板125处并且包括至少一个物理按钮,该物理按钮包括对各种功能进行操作的开/关按钮和改变各种功能的设置的按钮。
输入装置128可以将按钮的操作信号发送到电子控制单元(ECU)、机头装置126的控制器400或AVN装置130。
输入装置128可以包括与AVN装置130的显示装置集成的触摸面板。输入装置128可以被显示在AVN装置130的显示装置上并且以按钮形式被激活,并且在显示的按钮上接收位置信息。
输入装置128还可以包括飞梭转盘(jog dial)或触摸板,用于输入移动显示在AVN装置130的显示装置上的光标的命令以及选择功能的命令。在这方面,飞梭转盘或触摸板可以设置在中央仪表板上。
输入装置128可以接收驾驶员驾驶车辆1的手动模式和自主驾驶模式(autonomousdriving mode)中的一种。当输入自主驾驶模式时,输入装置128将自主驾驶模式的输入信号发送到控制器400。
控制器400不仅可以将信号分配到设置在车辆1中的装置,而且还可以将关于控制车辆1的各个装置的命令的信号分别发送到各个装置。尽管它被称为控制器400,但是这是用于广义解释的表达,并且不限于此。
此外,当选择导航功能时,输入装置128接收关于目的地的信息的输入并且将关于输入的目的地的信息发送到AVN装置130,并且当DMB功能被选择时接收频道和音量信息的输入并将输入的频道和音量信息传送到AVN装置130。
中央仪表板125可以配备有AVN装置130,其接收来自用户的信息并输出与输入信息对应的结果。
AVN装置130可以执行导航功能、DMB功能、音频功能和视频功能中的至少一个,并且可以在自动驾驶模式下显示关于道路的环境信息、行驶信息等。
AVN装置130可以以嵌入类型(mounted-type)的形式设置在前围板上。
车辆1的车架还包括发电设备、动力传输设备、驱动设备、转向设备、制动设备、悬架设备、变速设备、燃料供给设备、左/右前后轮等。为了驾驶员和乘客的安全,车辆1可以进一步设置有各种其他安全设备。
车辆1的安全设备的示例包括:安全气囊控制设备,其被配置用于在车辆1发生碰撞时保护驾驶员和乘客的安全;和电子稳定控制(ESC)设备,用于在加速或转弯的过程中控制车辆1的平衡。
车辆1可以进一步包括检测设备,检测设备包括用于检测车辆1旁边和后方存在的障碍物或其他车辆的接近度检测器,用于感测降雨和降雨量事件的降雨检测器,用于检测车轮速度的车轮速度检测器,用于检测车辆1的侧向加速度(lateral acceleration)的侧向加速度检测器,用于检测车辆1的角速度的变化的横摆率检测器(yaw rate detector),陀螺仪检测器和检测车辆1的方向盘的旋转的转向角度检测器。
车辆1包括控制发电设备、动力传递设备、驱动设备、转向设备、制动设备、悬架设备、变速器设备、燃料供给设备、各种安全设备以及各种传感器的运行的电子控制单元(ECU)。
此外,车辆1可以选择性地包括为了驾驶员的方便而设置的电子设备,包括免提装置、GPS、音频装置、蓝牙装置、后视摄像头、为用户终端配置的充电装置、高通(high pass)装置和语音识别设备100。
车辆1可以进一步包括启动器按钮,用于输入对启动器马达进行操作的命令。即,当启动器按钮被接通时,车辆1对启动器马达进行操作和/或通过启动器马达的操作来驱动作为发电设备的发动机。
车辆1还可以包括电连接到终端装置,音频装置,内部灯,启动器马达和其他电子装置以向其供应驱动功率的电池。电池通过使用自供能发电机(self-power generator)或使用行驶时发动机的动力而进行充电。
图3是语音识别设备100的控制框图。
参考图3,语音识别设备100包括语音输入装置200、数据库300、控制器400、输出装置500和驱动装置600。
语音输入装置200是接收用户的语音的装置。语音输入装置200可以是被配置用于识别语音(其为模拟数据)并传输关于语音的信息的任何装置。例如,语音输入装置200可以使用麦克风来实现。语音输入装置200可以位于前围板或方向盘上,并且也可以位于适合于接收用户语音的任何位置而没有限制。
数据库300存储用于生成指令的指令代码。数据库300包括对应于控制目标的目标代码和对应于控制命令的控制命令代码。此外,数据库300包括对指令的响应消息和关于预测话语的询问。
就此而言,控制目标可以是配置为实现车辆1的各种功能的各种装置或系统。根据本发明示例性实施例的语音识别设备100还可以应用于各种领域中的设备或系统的操作以及车辆1。在下文中,为了描述方便,假定语音识别设备100被应用于车辆1。
控制器400将经由语音输入装置200输入的语音转换为语音数据,在预定的等待时间之后分析包括在语音数据中的由用户说出的语句,并且生成与分析结果相对应的指令。此外,控制器400确定所说语句是否包括控制目标和控制命令。控制器400可以设置在车辆1中或单独设置在语音识别设备100中。
控制器400将所说语句(uttered sentence)拆分为语素(morpheme)和词(word),从拆分为语素和词的所说语句中提取控制目标和控制命令,并且通过组合与控制目标相对应的目标代码和与控制命令相对应的控制命令代码而生成指令。
控制器400包括所说语句分析器410和指令生成器420。
所说语句分析器410将用户说出的语句拆分为语素和词。语素是指在语言中具有意义的最小元素,而词是指具有意义并独立存在或具有孤立语法功能的语言的最小基本单位。
例如,当所说语句是“(请打开空调)”时,所说语句分析器410将该语句拆分成“(空调)/(韩文中表示宾语的助词)/(打开)/(请)”。所说语句分析器410从被拆分成语素和词的语句中提取控制目标和控制命令。因此,提取“(空调)”作为控制目标,并且提取“(打开)”作为控制命令。
指令生成器420通过组合与控制目标相对应的目标代码和与控制命令相对应的控制命令代码来生成指令。与控制目标“(表示空调)”相对应的目标代码是“aircon”,并且与控制命令“(表示打开)”相对应的控制命令代码是“on”。也就是说,指令生成为“aircon on”。
控制器400将指令发送到驱动装置600,并且驱动装置600根据该指令操作控制目标。
输出装置500输出分析的语句和对该指令的响应消息。输出装置500可以是AVN装置130的音频输出装置或显示装置。也就是说,用户说出的语句和与其对应的响应消息可以被输出到AVN装置130的显示装置。而且,响应消息可以被转换成声音信号并且经由音频输出装置作为声音输出。
当在用户的语音被输入到语音输入装置200之后的第一等待时间期间没有附加的语音输入时,控制器400分析包括在语音数据中的第一所说语句并且参考数据库生成与第一所说语句相对应的指令。
当第一所说语句包括控制目标和控制命令两者时,控制器400确定指令完成并将该指令发送到驱动装置600。当第一所说语句包括控制目标和控制命令两者时,可以确定对车辆1的功能进行操作所需的指令完成,因此不需要等待用户的附加语音输入。也就是说,当第一所说语句包括控制目标和控制命令两者时,控制器400在第一等待时间之后立即产生响应,并且因此可以提供快速响应。
另一方面,当控制目标和控制命令中的一个或多个未包括在第一所说语句中时,控制器400在第二等待时间期间等待接收附加的语音输入。语音输入装置200保持其操作状态直到指令完成。例如,当使用麦克风实现语音输入装置200时,麦克风保持开启(On)状态直到指令完成。
当在第二等待时间内输入附加语音时,控制器400重新分析包括第一所说语句和在经过了与第一等待时间相对应的时间之后输入的附加语音数据中所包括的第二所说语句在内的整句语句。
例如,第一所说语句可以仅包括控制目标,并且第二所说语句可以仅包括控制命令。因此,需要重新分析包括第一所说语句和第二所说语句的整句语句,以识别控制目标和控制命令是否都包括在其中。
当在第二等待时间期间没有输入附加语音输入时,控制器400基于第一所说语句和车辆1的当前状态生成关于预测话语的询问,并且经由输出装置500输出询问。
例如,控制器400在第一所说语句仅包括控制目标时生成关于控制命令的询问,并且在第一所说语句仅包括控制命令时生成关于控制目标的询问。假设空调正处于开启状态,则当第一所说语句仅包括控制目标“(空调)”时,控制器400生成询问“ (您想关闭空调吗?)”。当第一所说语句包括控制命令“(关闭)”时,也可以生成询问“ (您想关闭空调吗?)”
当用户对询问进行响应时,控制器400分析用户说出的响应语句,生成与其对应的指令,并将该指令发送到驱动装置600,以最终控制控制目标进行操作。
如上所述,根据本发明的示例性实施例,通过使用语音识别设备100,通过调整用户话语输入的等待时间,即使当用户的话语速度相对较慢,也可以输入用户的完整话语。
此外,通过设置第一等待时间和第二等待时间,在第一等待时间之后通过对话语的分析来确定指令是否完成,并且生成响应,或者在第二等待时间期间等待附加的话语输入,可以减少控制目标的误操作并且可以输出更快的响应。
另外,由于根据本发明示例性实施例的语音识别设备100基于车辆1的当前状态生成关于预测话语的询问,所以询问可以适合用户的意图,控制目标可以根据用户的意图来驱动。
图4是用于描述通过分析所说语句来生成指令的方法的图,其中分析由根据本发明示例性实施例的语音识别设备执行。
参考图4,示例性地示出了用户说出“ (Khai,请打开空调)”的情况。当用户没有连续地说出“ (请打开空调)”而是在“(表示“空调”且表示宾语)”之后停止说话时,控制器400不会立即分析输入语句,而是在第一等待时间t1期间等待附加的语音输入。
当在第一等待时间t1期间没有附加的输入语音并且第一所说语句不包括控制目标和控制命令中的至少一个时,控制器400在第二等待时间t2期间等待附加的语音输入。
当在第二等待时间期间输入“(打开)”时,控制器400在与第一等待时间t1相对应的时间过去之后分析整句所说语句。在图4中,整句所说语句是“(请打开空调)”。由于整句所说语句包括控制目标和控制命令两者,因此存在生成指令所需的所有元素。
就此而言,第一等待时间指的是可以确定话语已经结束的时间段。第一等待时间可以比第二等待时间短,并且第一等待时间和第二等待时间可以是预先设定的并且可以根据用户的设置来调整。
如上所述,通过组合对应于控制目标的目标代码和对应于控制命令的控制命令代码来生成指令。包含在由用户说出的语句中的控制目标可以被称呼为各种名称。例如,用户可以说出“(空调)、(空气调节器)、A/C”等。虽然用户说出不同的名称,但是指示的目标是相同的。因此,一个目标代码被分配给相同的控制目标。
以相同的方式,控制命令也可以用各种名称说出。例如,用户可以说出“(打开)、(开始)、(启动)”等等,并且全部对应于相同的控制命令以操作控制目标。因此,一个控制命令代码被分配给相同的控制命令。
图5是根据本发明示例性实施例的控制语音识别设备的方法的流程图。
参考图5,当用户开始说话(710)时,根据本发明示例性实施例的语音识别设备100经由语音输入装置200接收用户的语音输入(720)。当用户的话语停止时,控制器400确定在第一等待时间期间是否有向语音输入装置200输入的附加语音(730)。当在第一等待时间期间没有附加的输入语音时,控制器400将输入语音转换为语音数据并分析语音数据中包括的所说语句(740)。当用户的话语在第一等待时间内继续时,语音输入继续。
这样,控制器400确定分析的第一所说语句是否包括控制目标和控制命令两者,并且确定基于此生成的指令是否已完成(750)。
当第一所说语句包括控制目标和控制命令两者时,指令完成,因此控制器400经由输出装置500输出与该指令相对应的响应,并将该指令发送到驱动装置600以控制控制目标的操作(760)。
当第一所说语句不包括控制目标和控制命令中的一个或多个时,指令没有完成,因此控制器400在第二等待时间期间等待附加的语音输入(770)。
控制器400确定在第二等待时间内是否输入了附加的语音(780)。当确定输入了附加语音时,控制器400在经过了与第一等待时间相对应的时间之后,重新分析包括第一所说语句和包括在附加语音数据中的第二所说语句在内的整句所说语句。
当在第二等待时间内未输入附加语音时,控制器400基于第一所说语句和车辆的当前状态生成关于预测话语的询问(790)。
关于预测话语的询问是参考数据库300生成的。控制器400可以参考数据库300生成关于具有最高概率的预测话语的询问。
图6、图7、图8和图9是示例性地示出由根据示例性实施例的语音识别设备100执行的响应消息的输出的图
参考图6,当用户说出“ (请打开空调)”时,控制器400等待第一等待时间,分析第一所说语句“ (请打开空调)”,并且生成与其对应的指令。在这方面,指令是“aircon on”。由于指令已完成,控制器400通过将指令发送到驱动装置600来操作空调。输出装置500输出分析的所说语句和对该指令的响应消息。
参考图7,当用户仅说出“(表示空调且表示宾语)”时,控制器400在第一等待时间之后通过分析语句来提取“(空调)”作为控制目标并且提取“aircon”作为与其对应的目标代码,从而生成指令“aircon null”。在这种情况下,由于没有输入控制命令,所以指令没有完成。因此,控制器400在第二等待时间期间等待附加的语音输入。当输入附加语音“(请打开)”时,控制器400在经过了与第一等待时间相对应的时间之后分析整句所说语句。在这种情况下,既有控制目标也有控制命令,因此指令完成为“aircon on”。由于指令已完成,控制器400将指令发送到驱动装置600以对空调进行操作。
参考图8,当在用户仅说出“(表示音乐且表示宾语)”之后经过第一等待时间并且在第二等待时间期间没有附加的语音输入时,控制器400提取“(音乐)”作为控制目标,提取“music”作为与其对应的目标代码,并且通过确认正在播放音乐的车辆的当前状态生成询问,例如“ (当前正在播放音乐。您想关闭音乐吗?)”输出装置500输出所生成的询问。控制器400响应于询问生成与由用户说出的“(请关闭)”相对应的指令,并将该指令发送到驱动装置600以关闭音乐。
参考图9,当在用户仅发出“(请关闭)”之后经过第一等待时间并且在第二等待时间期间没有附加的语音输入时,控制器400提取“(关闭)”作为控制命令并且提取“off”作为与其对应的控制命令代码。控制器400在车辆中当前“on(开启)”的系统中识别可以执行控制命令“(关闭)”的系统,并生成询问“ (当前可以关闭的系统是空调(aircon)和除雾器(defog)。您想关闭哪一个?)”控制器400响应于询问而生成与由用户说出的“(空调)”相对应的指令,并将该指令发送到驱动装置600以关闭空调。
如上所述,根据控制根据本发明示例性实施例的语音识别设备的方法,可以通过设置第一等待时间和第二等待时间,通过在第一等待时间之后分析话语来确定指令是否完成,以及根据确定结果生成响应或在第二等待时间期间等待附加的话语输入,可以减少故障并且可以输出更快的响应。
此外,根据本发明示例性实施例的控制语音识别设备的方法,询问可以符合用户的意图,并且控制目标可以按照用户的期望进行操作,因为关于预测话语的询问是基于车辆的当前状态生成的。
同时,前述实施例可以以存储可由计算机执行的指令的记录介质的形式来实施。指令可以以程序代码的形式存储,并且通过在由处理器执行时创建程序模块来执行所公开的示例性实施例的操作。记录介质可以被实现为计算机可读记录介质。
计算机可读记录介质包括存储可由计算机读取的指令的所有类型的记录介质,包括只读存储器(ROM)、随机存取存储器(RAM)、磁带、磁盘、闪存和光学数据存储装置。
从以上描述中显而易见的是,根据本发明的示例性实施例的语音识别设备及其控制方法,即使当用户的讲话速度相对较慢时,也可通过调整用户的话语的输入的等待时间来输入用户的完整话语。
根据本发明的示例性实施例的语音识别设备及其控制方法,通过设置第一等待时间和第二等待时间,通过在第一等待时间之后分析话语确定指令是否完成,以及根据该确定结果生成响应或在第二等待时间期间等待附加的话语输入,可以减少故障并且可以输出更快的响应。
此外,根据本发明示例性实施例的语音识别设备的控制方法,询问可以符合用户的意图,并且控制目标可以按照用户的期望进行操作,因为关于预测话语的询问是基于车辆的当前状态生成的。
为了便于解释和在所附权利要求中精确限定,使用了术语“高”,“低”,“内部”,“外部”,“上”,“下”,“高”,“低”,“向上”,“向下”,“前”,“后”,“以后”,“内”,“外”,“向内”,“向外”,“内部”,“外部”,“向前”和“向后”,以参考附图中显示的这些特征的位置来描述示例性实施例的特征。
已经出于说明和描述的目的呈现了本发明的具体示例性实施例的前述描述。其并非旨在穷举或将本发明限制于所公开的确切形式,并且显然根据上述教导可以进行许多修改和变化。选择和描述示例性实施例是为了解释本发明的特定原理及其实际应用,以使本领域的其他技术人员能够制造和利用本发明的各种示例性实施例以及其各种替代和修改。本发明的范围意在由所附权利要求及其等同形式限定。
Claims (19)
1.一种语音识别设备,包括:
语音输入装置,配置为接收用户的语音的输入;
数据库,配置为存储用于生成指令的指令代码;
控制器,配置为将所述语音转换为语音数据,在预定的等待时间之后分析包括在所述语音数据中的由用户说出的语句,生成与所分析的所说语句相对应的指令,并且确定所说语句是否包括控制目标和控制命令;
输出装置,配置为输出所分析的所说语句和对所述指令的响应消息;和
驱动装置,配置为根据所述指令对所述控制目标进行操作。
2.根据权利要求1所述的语音识别设备,其中,当在第一等待时间期间没有输入附加语音时,所述控制器配置为分析包括在所述语音数据中的第一所说语句并且参考所述数据库生成与所述第一所说语句相对应的指令。
3.根据权利要求2所述的语音识别设备,其中,当所述第一所说语句包括所述控制目标和所述控制命令时,所述控制器配置为确定所述指令完成并将所述指令发送到所述驱动装置。
4.根据权利要求2所述的语音识别设备,其中,当所述第一所说语句不包括所述控制目标和所述控制命令中的一个或多个时,所述控制器配置为在第二等待时间期间接收附加语音的输入。
5.根据权利要求4所述的语音识别设备,其中,当在所述第二等待时间期间输入附加语音时,在经过与所述第一等待时间相对应的时间之后,所述控制器重新分析包括所述第一所说语句和包括在附加语音数据中的第二所说语句在内的整句所说语句。
6.根据权利要求4所述的语音识别设备,其中,当在所述第二等待时间期间未输入附加语音时,所述控制器配置为基于所述第一所说语句和车辆的当前状态生成关于预测话语的询问。
7.根据权利要求6所述的语音识别设备,其中,所述控制器配置为响应于关于所述预测话语的所述询问来分析由用户说出的语句,从而生成与所分析的所说语句相对应的指令,并且将所述指令发送到所述驱动装置。
8.根据权利要求1所述的语音识别设备,其中,所述控制器配置为将所说语句拆分为语素和词,从拆分为语素和词的所说语句中提取控制目标和控制命令,并且通过组合与所述控制目标相对应的目标代码和与所述控制命令相对应的控制命令代码而生成所述指令。
9.根据权利要求8所述的语音识别设备,其中,所述数据库包括与所述控制目标相对应的目标代码和与所述控制命令相对应的控制命令代码。
10.根据权利要求1所述的语音识别设备,其中,所述数据库包括与所述控制目标相对应的目标代码、与所述控制命令相对应的控制命令代码、对所述指令的响应消息和关于预测话语的询问。
11.一种控制语音识别设备的方法,所述方法包括以下步骤:
接收用户的语音的输入;
通过将所述语音转换为语音数据来生成指令,并且在预定的等待时间之后分析包括在所述语音数据中的由用户说出的语句;
确定所说语句是否包括控制目标和控制命令;
输出所分析的所说语句和对所述指令的响应消息;以及
根据所述指令对所述控制目标进行操作。
12.根据权利要求11所述的方法,其中,生成所述指令的步骤还包括以下步骤:
当在第一等待时间期间没有输入附加语音时,分析包括在所述语音数据中的第一所说语句;以及
参考数据库生成与所述第一所说语句相对应的指令。
13.根据权利要求12所述的方法,其中,当所述第一所说语句包括所述控制目标和所述控制命令时,通过根据所述指令对所述控制目标进行操作来执行对所述控制目标的操作。
14.根据权利要求12所述的方法,其中接收用户的语音的输入的步骤还包括以下步骤:当所述第一所说语句不包括所述控制目标和所述控制目标中的一个或多个时,在第二等待时间期间接收附加语音的输入。
15.根据权利要求14所述的方法,其中,生成所述指令的步骤还包括以下步骤:当在所述第二等待时间期间输入附加语音时,在经过与所述第一等待时间相对应的时间之后,重新分析包括所述第一所说语句和包括在附加语音数据中的第二所说语句在内的整句所说语句。
16.根据权利要求14所述的方法,其中,生成所述指令的步骤还包括以下步骤:当在所述第二等待时间期间未输入附加语音时,基于所述第一所说语句和车辆的当前状态生成关于预测话语的询问。
17.根据权利要求16所述的方法,其中,生成所述指令的步骤还包括以下步骤:响应于关于所述预测话语的所述询问来分析由用户说出的语句,并生成与所分析的所说语句相对应的指令。
18.根据权利要求11所述的方法,其中,通过将所说语句拆分为语素和词,从拆分为语素和词的所说语句中提取控制目标和控制命令,并且通过组合与所述控制目标相对应的目标代码和与所述控制命令相对应的控制命令代码而生成指令,从而执行所述指令的生成。
19.根据权利要求12所述的方法,其中,所述数据库包括与所述控制目标相对应的目标代码、与所述控制命令相对应的控制命令代码、对所述指令的响应消息和关于预测话语的询问。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2018-0007201 | 2018-01-19 | ||
KR1020180007201A KR20190088737A (ko) | 2018-01-19 | 2018-01-19 | 음성 인식 장치 및 그 제어 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110060669A true CN110060669A (zh) | 2019-07-26 |
Family
ID=67145235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810510328.6A Pending CN110060669A (zh) | 2018-01-19 | 2018-05-24 | 语音识别设备及其控制方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190228767A1 (zh) |
KR (1) | KR20190088737A (zh) |
CN (1) | CN110060669A (zh) |
DE (1) | DE102018207735A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128168A (zh) * | 2019-12-30 | 2020-05-08 | 斑马网络技术有限公司 | 语音控制方法、装置及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11354406B2 (en) * | 2018-06-28 | 2022-06-07 | Intel Corporation | Physics-based approach for attack detection and localization in closed-loop controls for autonomous vehicles |
JP6956921B2 (ja) * | 2019-04-23 | 2021-11-02 | 三菱電機株式会社 | 機器制御装置、および、機器制御方法 |
CN110415696A (zh) * | 2019-07-26 | 2019-11-05 | 广东美的制冷设备有限公司 | 语音控制方法、电器控制装置、电器及电器控制系统 |
CN112533041A (zh) * | 2019-09-19 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 视频播放方法、装置、电子设备和可读存储介质 |
KR20230103641A (ko) | 2021-12-31 | 2023-07-07 | 현대자동차주식회사 | 친환경 차량 및 그를 위한 음향 입출력 지원 방법 |
KR20240139251A (ko) * | 2023-03-14 | 2024-09-23 | 김시환 | 근거리 통신망이 이용되는 스마트폰 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4412504B2 (ja) * | 2007-04-17 | 2010-02-10 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識用プログラム |
KR100988397B1 (ko) * | 2008-06-09 | 2010-10-19 | 엘지전자 주식회사 | 이동 단말기 및 그의 텍스트 수정방법 |
US20160004502A1 (en) * | 2013-07-16 | 2016-01-07 | Cloudcar, Inc. | System and method for correcting speech input |
US9576575B2 (en) * | 2014-10-27 | 2017-02-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Providing voice recognition shortcuts based on user verbal input |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
-
2018
- 2018-01-19 KR KR1020180007201A patent/KR20190088737A/ko not_active Application Discontinuation
- 2018-05-01 US US15/968,044 patent/US20190228767A1/en not_active Abandoned
- 2018-05-17 DE DE102018207735.5A patent/DE102018207735A1/de not_active Ceased
- 2018-05-24 CN CN201810510328.6A patent/CN110060669A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128168A (zh) * | 2019-12-30 | 2020-05-08 | 斑马网络技术有限公司 | 语音控制方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
DE102018207735A1 (de) | 2019-07-25 |
US20190228767A1 (en) | 2019-07-25 |
KR20190088737A (ko) | 2019-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060669A (zh) | 语音识别设备及其控制方法 | |
KR101678087B1 (ko) | 차량 및 그 제어방법 | |
US10160413B2 (en) | Vehicle and control method thereof | |
KR101736109B1 (ko) | 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법 | |
EP1591979A1 (en) | Vehicle mounted controller | |
JP2017090613A (ja) | 音声認識制御システム | |
KR20200093091A (ko) | 단말기, 그를 가지는 차량 및 그 제어 방법 | |
CN113711306A (zh) | 车辆系统的语音控制 | |
US20190248365A1 (en) | Integrated control system for vehicle and controlling method thereof | |
KR101741647B1 (ko) | 차량 및 그 제어방법 | |
US20230315997A9 (en) | Dialogue system, a vehicle having the same, and a method of controlling a dialogue system | |
KR101755308B1 (ko) | 음성 인식 모듈, 그를 가지는 단말기 및 차량 | |
US20170334292A1 (en) | Information providing apparatus for vehicle | |
JP2019100130A (ja) | 車両制御装置及びコンピュータプログラム | |
JP4900197B2 (ja) | 経路導出装置、車両制御装置、及びナビゲーション装置 | |
US11966664B2 (en) | Terminal and vehicle | |
US20210303263A1 (en) | Dialogue system and vehicle having the same, and method of controlling dialogue system | |
JP3677833B2 (ja) | ナビゲーション装置,ナビゲート方法及び自動車 | |
JP2020144285A (ja) | エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム | |
JP2002318684A (ja) | 自動車内の機能要素またはコントロール類に関する説明情報を供給する情報システム | |
JP2947143B2 (ja) | 音声認識装置及びナビゲーション装置 | |
US20200349936A1 (en) | Method for operating a motor vehicle having an operating device | |
KR101744742B1 (ko) | 사운드인식 장치, 이를 포함하는 차량 및 그 제어방법 | |
KR101804766B1 (ko) | 음성 인식 장치, 이를 포함하는 차량 및 그 제어방법 | |
KR101597528B1 (ko) | 내비게이션 장치 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190726 |
|
WD01 | Invention patent application deemed withdrawn after publication |