CN117275483A - 一种车载语音控制辅助方法、装置和汽车 - Google Patents
一种车载语音控制辅助方法、装置和汽车 Download PDFInfo
- Publication number
- CN117275483A CN117275483A CN202311296669.5A CN202311296669A CN117275483A CN 117275483 A CN117275483 A CN 117275483A CN 202311296669 A CN202311296669 A CN 202311296669A CN 117275483 A CN117275483 A CN 117275483A
- Authority
- CN
- China
- Prior art keywords
- voice control
- voice
- target object
- user
- control instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000009471 action Effects 0.000 claims abstract description 23
- 230000008439 repair process Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 230000007613 environmental effect Effects 0.000 claims description 14
- 239000013589 supplement Substances 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 13
- 238000004378 air conditioning Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 241000203475 Neopanax arboreus Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及汽车语音控制技术领域,提供了一种车载语音控制辅助方法、装置和汽车。该方法包括:当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;若语音控制指令的内容中缺失目标操作,则通过获取与目标对象相关的预设场景状况确定用户对目标对象的意向操作,以及对手部图像进行识别确定用户的手在空中的手势动作对应的指示操作利用所述向操作或/和指示操修复语音控制指令的内容中的目标操作,以控制目标对象响应所述目标操作。本申请能够进一步提高语音识别的准确率,并且识别方式更加安全。
Description
技术领域
本申请涉及汽车语音控制技术领域,尤其涉及一种车载语音控制辅助方法、装置和汽车。
背景技术
车载语音技术是一种将语音识别和语音合成技术应用于汽车内部系统的技术,使得车内用户能够通过语音指令与车辆的各种功能和系统进行交互。车载语音技术通常包括两个主要组成部分:语音识别和语音合成。语音识别技术用于将驾驶员的语音指令转换为计算机可理解的文本或指令。而语音合成技术则将计算机生成的文本或指令转化为口头语音输出,反馈给驾驶员。
以驾驶员为例,通过车载语音技术,驾驶员可以使用语音指令来控制导航系统、娱乐系统、通信系统以及其他车辆功能,而无需使用物理按钮或触摸屏。例如,驾驶员可以通过语音指令告诉导航系统目的地地址,或通过语音指令拨打电话或发送短信。
然而,由于语音识别系统对于某些口音、方言或发音较模糊的词汇识别不准确,或者不同汽车的系统和供应商有所差异,实际使用车载语音技术的过程中,经常会遇到语音内容识别不准的问题。为了提高语音识别的准确度,现有技术有结合用户语音和用户在屏幕上的滑动手势的方式来增强语音内容的识别,弥补语音识别模型不够准确的问题。然而这种结合的方式要求用户在屏幕上进行操作,在实际驾车过程中,车内用户并非都能接触到屏幕,并且如果是驾驶员使用屏幕,还会导致其分心,影响安全驾驶。因此,现有增强识别语音指令的内容的方式虽然能够帮助提供语音识别的准确率,但是由于需要用户参与屏幕操作,存在安全隐患,还需进一步改进。
发明内容
有鉴于此,本申请实施例提供了一种车载语音控制辅助方法、装置和汽车,以解决现有技术中如何提高车载语音控制的识别准确性的问题。
本申请实施例的第一方面,提供了一种车载语音控制辅助方法,包括:当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据预设场景状况确定用户对目标对象的意向操作;对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;尝试利用意向操作和指示操作中的至少一者,修复语音控制指令的内容中的目标操作;在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应目标操作。
本申请实施例的第二方面,提供了一种车载语音控制辅助装置,包括:唤醒监测模块,被配置为当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;语音识别模块,被配置为对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;意向识别模块,被配置为若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据预设场景状况确定用户对目标对象的意向操作;指示识别模块,被配置为对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;指令修复模块,被配置为尝试利用意向操作和指示操作中的至少一者,修复语音控制指令的内容中的目标操作;控制响应模块,被配置为在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应目标操作。
本申请实施例的第三方面,提供了一种汽车,包括语音控制系统和控制器,该控制器包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:上述车载语音控制辅助方法通过当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据预设场景状况确定用户对目标对象的意向操作;对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;尝试利用意向操作和指示操作中的至少一者,修复语音控制指令的内容中的目标操作;在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应目标操作,这种修复不需要用户与其他对象进行交互操作,因此识别方式更为安全,并且用于修复的内容不止用户手部操作一种,相比于现有技术中单一结合用户在屏幕的滑动手势,能够更为有效地修复语音指令的内容,从而提高语音识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种车载语音控制辅助方法的流程示意图;
图2是本申请实施例提供的一种车载语音控制辅助装置的结构示意图;
图3是本申请实施例提供的一种汽车的结构示意图;
图4是本申请实施例提供的图3所示汽车中一种控制器的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
图1是本申请实施例提供的一种车载语音控制辅助方法的流程示意图。实际应用中,可以将图1的车载语音控制辅助方法应用于具有车载语音控制功能的汽车中,并由汽车的控制器执行。
如图1所示,该车载语音控制辅助方法包括:
S101,当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;
S102,对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;
S103,若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据预设场景状况确定用户对目标对象的意向操作;
S104,对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;
S105,尝试利用意向操作和指示操作中的至少一者,修复语音控制指令的内容中的目标操作;
S106,在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应目标操作。
根据本申请实施例提供的技术方案,通过当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据预设场景状况确定用户对目标对象的意向操作;对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;尝试利用意向操作和指示操作中的至少一者,修复语音控制指令的内容中的目标操作;在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应目标操作,这种修复不需要用户与其他对象进行交互操作,因此识别方式更为安全,并且用于修复的内容不止用户手部操作一种,相比于现有技术中单一结合用户在屏幕的滑动手势,能够更为有效地修复语音指令的内容,从而提高语音识别的准确率。
上述步骤S101中,语音唤醒指令是指通过语音识别技术来唤醒某个设备或系统的特定功能或操作。它允许用户使用特定的语音词或短语来激活设备,并进行相应的交互或操作。具体而言,在车载语音技术中,语音唤醒指令常用于激活车辆内部系统的语音识别功能。通过说出特定的语音唤醒词或短语,例如,“Hey,车名”,即可启动车载语音系统,接着用户可以继续使用其他语音控制指令与车辆的各种功能进行交互。值得一提的是,用户可以先发出语音唤醒指令,当激活车辆内部系统的语音识别功能之后,再发出其他语音控制指令来对车辆的一些功能进行控制。
语音控制指令是指除了语音唤醒指令之外,用于控制车辆内部系统和功能的语音指令。通过说出特定的语音指令,车内用户可以实现对导航系统、娱乐系统、通信系统和其他车辆功能的操作。具体而言,语音控制指令并不唯一,可能因车辆制造商和系统而异。
在本申请一些实施例中,常见的语音控制指令包括:
导航指令,用户可以使用语音指令告诉导航系统要前往的目的地,例如“导航到地方A”或“带我去地址B”。
媒体控制指令,用户可以使用语音指令控制车辆的娱乐系统,例如“播放音乐”、“调整音量”或“切换到收音机”。
通信指令,用户可以使用语音指令来拨打电话、发送短信或使用其他通信功能。例如,“拨打电话号码C”或“发送短信给D”。
温度和空调指令,用户可以使用语音指令调整车辆的温度和空调系统,例如“提高温度”、“打开空调”或“关闭后排座椅加热”。
设置指令,用户可以使用语音指令进行各种设置和调整,例如“调整座椅位置”、“设置驾驶员个人配置”或“打开天窗”。
具体地,用户图像是指发出语音控制指令的用户的头像。其中,获取发出语音控制指令的用户图像的具体实施方式并不唯一。
在一些实施例中,上述步骤S101中,获取发出语音控制指令的用户在空中的手部图像,包括:识别语音控制指令的声源位置;利用预设在车内的摄像头采集声源位置的用户图像,并利用图像识别算法自动提取用户图像中在空中的手部图像。
具体地,由于语音唤醒指令与语音控制指令往往是由一个人发出的,当接收到语音唤醒指令时,之后如果接收到语音控制指令,则识别语音控制指令的声源位置,采集声源位置的图像作为用户图像,并采用图像识别算法对提取出用户图像中在空中的手部图像。这种根据语音控制指令的声源位置作为图像采集的目标位置,并将声源位置的图像作为用户图像进行手部图像的提取,可以快速得到用户的手部图像,提高获取手部图像的速度。
在一些实施例中,上述步骤S101中,获取发出语音控制指令的用户在空中的手部图像,包括:分别识别语音唤醒指令和语音控制指令的声源位置;判断语音唤醒指令和语音控制指令的声源位置是否一致;若不一致,则采集语音唤醒指令所在声源位置的第一图像,以及语音控制指令所在声源位置的第二图像,并利用图像识别算法同时提取出第一图像和第二图像中空中的手部图像;若一致,则采集语音控制指令的声源位置的第二图像,并利用图像识别算法提取出第二图像中空中的手部图像;并将第二图像作为发出语音控制指令的用户图像。
具体地,第一图像和第二图像可以是一张图像,也可以是多张图像,本申请实施例对此不作限制。具体而言,本实施例通过分别识别语音唤醒指令和语音控制指令的声源位置,并且对两种指令对应的声源位置进行图像采集,依次得到第一图像和第二图像,如果判断两种指令对应的声源位置一致,则将语音控制指令所在声源位置对应的第二图像,并提取第二图像中用户在空中的手部图像;如果判断两种指令对应的声源位置不一致,则同时采集两个声源位置对应的第一图像和第二图像均作为用户图像,并提取第一图像和第二图像中用户在空中的手部图像。同样,当采集的到第一图像和第二图像后,可以利用图像识别算法来提取其中的用户在空中的手部图像。
相比于上一实施例中获取发出语音控制指令的用户在空中的手部图像的方式,本实施例考虑到发出唤醒语音指令和语音控制指令不是同一用户的情况,对用户在空中的手部图像的采集更为全面,避免了用户图像与发出语音控制指令的用户不一致的情况,提高了用户图像的准确性。
上述步骤S102中,目标对象是指语音控制指令中用户所要控制的车辆内部系统和功能而涉及的控制对象。具体而言,目标对象包括但不限于车辆的导航系统、娱乐系统、通信系统、车窗系统、温度空调系统以及系统设置中的任一功能对象等。此外,对目标对象的目标操作即为用户想要对相应系统或功能进行的控制动作。
例如,以下是一些常见的语音控制指令所要控制的目标对象和相应的目标操作:
1.当用户想要使用语音来控制或操作导航系统时,用户发出"打开导航"的语音控制指令,那么在该语音控制指令中,目标对象为“导航”或“导航系统”,而目标操作为“打开”;
2.当用户想要使用语音来控制或操作娱乐系统的音量时,用户发出"调高音量"的语音控制指令,那么在该语音控制指令中,目标对象为“娱乐系统的音量”,而目标操作为“调高”;
3.当用户想要使用语音来控制或操作车内温度和空调系统时,用户发出“降低风扇速度”或“升高空调温度”的语音控制指令,那么在该语音控制指令中,目标对象分别为“车内温度和空调系统的风扇速度”和“车内温度和空调系统的空调温度”,而目标操作对应为“降低”和“升高”;
4.当用户想要使用语音来操作设置和个性化功能时,用户发出“打开天窗”的语音控制指令,那么在该语音控制指令中,目标对象为“天窗”,而目标操作对应为“打开”。
值得一提的是,实际应用中语音控制指令中的目标对象和目标操作也可以为其他内容,语音控制指令具体所要控制的目标对象和相应的目标操作可能因车辆制造商、车型和系统版本而有所不同,具体的目标对象和目标操作并不仅限于上述示例内容,本申请实施例对此不作限制。
在一些实施例中,步骤S102中,在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,还包括:若语音控制指令的内容中缺失目标对象,则发出请求用户确定目标对象的第一提示语音,并开始第一倒计时;判断在第一倒计时内是否接收到含有目标对象的语音补充指令;若有,则控制语音补充指令所要控制的目标对象响应语音控制指令的内容中目标操作;若没有,则结束基于语音唤醒指令的语音控制操作。
具体地,若通过语音识别,无法确定语音控制指令中所要控制的目标对象,则在车辆上发出第一提示语音,例如,第一提示语音的内容为“请问您想要控制的目标对象是什么”。之后,用户如果发出语音补充指令,则对语音补充指令进行识别来确定目标对象,然后控制语音补充指令所要控制的目标对象响应该操作;用户如果没有发出语音补充指令,或者仍无法识别出语音补充指令所要控制的目标对象,则结束基于语音唤醒指令的语音控制操作。此外,语音补充指令必须在第一提示语音之后发出,并且必须在第一倒计时的时间内发出,否则可能无法准确识别出目标对象。第一倒计时可以是用户预先设置的一个时长阈值,或者也可以根据识别到的操作对预先设置的时长阈值进行调整后得到的新的时长阈值,本申请实施例对此不作限制。
本实施例针对无法识别语音控制指令中目标对象的情况,通过发出请求用户确定目标对象的第一提示语音,来提示用户在第一倒计时内重新发出语音补充指令,以弥补和修复原语音控制指令不清楚的缺陷,使用户不需要重新发出语音唤醒指令来进行控制,提高了语音控制的效率。
在一些实施例中,在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,还包括:若语音控制指令的内容中同时缺失目标对象和目标操作,发出请求用户重新发出语音控制指令的第二提示语音,并开始第二倒计时;判断在第二倒计时内是否接收到新的语音控制指令;若有,则对新的语音控制指令进行识别,在得到新的语音控制指令的内容含有目标对象和目标操作的情况下,控制目标对象响应目标操作;若没有,则结束基于语音唤醒指令的语音控制操作。
具体地,第二提示语音的内容并不唯一,例如,第二提示语音的内容可以为“请重新发出语音控制指令”或者“无法识别,请再次发出语音控制指令”等。同样,用户必须在第二倒计时内发出新的语音控制指令,否则无效或者结束基于语音唤醒指令的语音控制操作。其中,第二倒计时可以是用户预先设置的一个时长阈值,或者也可以根据识别到的操作对预先设置的时长阈值进行调整后得到的新的时长阈值,本申请实施例对此不作限制。
与上述实施例的区别在于:本实施例针对无法识别语音控制指令中目标对象和目标操作的情况,通过发出第二提示语音,来请求用户在第二倒计时内重新发出语音控制指令,以便系统能够根据新的语音控制指令来确定控制的目标对象和目标操作,而不需要用户再次发出唤醒指令,避免了语音反复的情况。
在一些实施例中,在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,还包括:若语音控制指令的内容含有目标对象和目标操作,直接控制目标对象响应目标操作。
与上述两个实施例的不同之处在于:本实施例根据语音控制指令,能够直接识别出所要控制的目标对象和目标操作,即该语音控制指令是一个清晰且完整的指令,不需要再通过图像识别来对语音控制指令进行补漏。因此,在确定目标对象和目标操作的情况下,控制目标对象响应该操作,快速实现语音控制。
上述步骤S103中,预设场景状况包括与目标对象预先关联的环境参数和环境图像。
具体地,在一些实施例中,步骤S103中,获取与目标对象相关的预设场景状况,包括:获取与目标对象预先关联的环境参数和环境图像;将环境参数和环境图像输入预先训练完成的机器学习模型中,并在机器学习模型的输出得到用户想要对目标对象的意图操作。
值得一提的是,环境参数和环境图像是与目标对象相关联的。环境参数包括但不限于车内温度、车外温度、车内音量等,而环境图像包括用户图像,车内图像、车外图像等。例如,假设目标对象为空调,则环境参数包括车内温度、车外温度、而环境图像包括用户图像,如果用户想要调高空调温度,则说明用户感到冷,或者车内温度小于车外温度等,因此可通过预先训练的机器学习模型,将车内温度、车外温度和用户图像输入机器学习模型,来自动预测用户的意图操作。
这里的机器学习模型包括但不限于神经网络模型,并且使用机器学习模型来预先训练一个预测用户的意图操作的具体实施方式并不唯一。例如,可以通过语音控制指令的内容中的目标对象作为样本来进行自然语言处理模型训练,从而可以根据语音控制指令的内容上下文来自动识别与目标对象预先关联的环境参数,比如,语音控制指令的内容中的目标对象为空调,那么与空调预先关联的环境参数可以包括车内温度、车外温度和用户体表温度等参数信息;与此同时,目标对象为空调预先关联的环境图像还包括用户图像,可以预先采集用户图像作为样本,并标记出用户图像中的用户行为,然后进行神经网络模型训练,以此训练得到一个能够识别用户的行为的模型,通过输入用户图像即可得到对应的用户行为。具体来说,假设车内温度小于车外温度,并且通过向预先训练完成的神经网络模型中输入用户图像后,识别得到“用户搓手”或“用户抱紧”的行为时,训练完成的机器学习模型的输出的意图操作为“升高空调温度”。当然,实际应用中也可以采用其他手段来实现上述机器学习模型的训练,本申请对此不作限制。
上述步骤S104中,手势动作是指用户手部在空中的静态手形,本实施例中,手势动作的具体内容并不唯一,例如,手势动作可以为五指张开、握拳、单指和双指等。
值得一提的是,每一种手势动作对应一种指示操作,而这些指示操作可以对不同目标对象进行操作或控制。
例如,请参见下表1:
表1
其中,由表1可知,每一种手势动作与一种目标操作相唯一关联,而同一指示操作可以用于控制或操作不同的目标对象,例如,导航系统/设置和个性化功能均可以与指示操作“打开”对应,若用户想要发出"打开导航"或“打开天窗”的语音控制指令,而通过对语音控制指令识别的内容中没有识别到目标操作,只有“导航”或“天窗”,此时如果通过手部图像识别到指示操作为“打开”,则可以修复得到用户发出语音控制指令的内容为“打开导航”或“打开天窗”。
上述S105中,利用预设场景状况和手部图像对应的预设操作中的至少一者来修复语音控制指令的内容中的目标操作,就是使用预设场景状况对应的意图操作,或者手部图像对应的指示操作来与语音控制指令的内容中目标对象结合,以起到修复的作用。
具体而言,如果基于预设场景状况能够确定意图操作,或者基于手部图像嫩够确定指示操作,则利用该意图操作或指示操作来与目标对象结合,以起到修复语音控制指令内容的作用。而如果通过预设场景状况和手部图像能够同时获得意图操作或指示操作,则优选采用指示操作来来与目标对象结合,以修复语音控制指令的内容。
在一些实施例中,尝试利用预设场景状况和手部图像对应的预设操作中的至少一者,修复语音控制指令的内容中的目标操作之后,若未成功修复得到对目标对象的目标操作,则结束语音唤醒指令的语音控制。
具体地,如果根据手部图像没有检测到预设的手势动作,此时无法对语音控制指令所要控制的目标对象进行相应的目标操作。
优选地,在一些实施例中,可以在屏幕上显示该目标对象的各种操作和对应的手势动作,供用户参考,以便用户可以按照显示的手势动作来在空中作出相同的手势动作,以便通过手部图像来识别相应的目标操作。或者,也可以发出第三提示语音,例如“请您说出对目标对象想要执行的操作”,用户如果在第三倒计时内发出操作语音指令,则对用户发出的操作语音指令进行识别,以确定对目标对象的目标操作。值得一提的是,第三倒计时可以是用户预先设置的一个时长阈值,或者也可以对预先设置的时长阈值进行调整后得到的新的时长阈值,本申请实施例对此不作限制。
本实施例通过在识别用户图像中是否有预设的手势之后,若用户图像中没有预设的手势,检测该目标对象是否有预先关联的手势;若有,则在屏幕中显示手势关联操作的提示,并发出请求用户发出操作语音指令的第三提示语音,并开始第三倒计时;判断在第三倒计时内是否接收到操作语音指令,或者识别到用户做出预设的手势;若有,则控制目标对象响应该操作语音指令对应的操作,或者该预设的手势对应的操作;若没有,则结束该语音唤醒指令的语音控制,使得在根据语音控制指令没有识别到对目标对象的操作的情况下,能够快速确定对目标对象的操作,弥补了单次语音唤醒下语音控制指令无法实现控制目标的缺陷,提升了车载语音控制的准确性和控制效率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图2是本申请实施例提供的一种车载语音控制辅助装置的示意图。如图2所示,该车载语音控制辅助装置包括:
唤醒监测模块201,被配置为当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;
语音识别模块202,被配置为对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;
意向识别模块203,被配置为若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据所述预设场景状况确定用户对目标对象的意向操作;
指示识别模块204,被配置为对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;
指令修复模块205,被配置为尝试利用所述意向操作和指示操作中的至少一者,修复所述语音控制指令的内容中的目标操作;
控制响应模块206,被配置为在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应所述目标操作。
根据本申请实施例提供的技术方案,通过当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据预设场景状况确定用户对目标对象的意向操作;对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;尝试利用意向操作和指示操作中的至少一者,修复语音控制指令的内容中的目标操作;在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应目标操作,这种修复不需要用户与其他对象进行交互操作,因此识别方式更为安全,并且用于修复的内容不止用户手部操作一种,相比于现有技术中单一结合用户在屏幕的滑动手势,能够更为有效地修复语音指令的内容,从而提高语音识别的准确率。
在一些实施例中,图2中唤醒监测模块201在获取发出语音控制指令的用户在空中的手部图像时,具体被配置为识别语音控制指令的声源位置;利用预设在车内的摄像头采集所述声源位置的用户图像,并利用图像识别算法自动提取用户图像中在空中的手部图像。
在一些实施例中,图2中唤醒监测模块201在获取发出语音控制指令的用户在空中的手部图像时,具体被配置为分别识别语音唤醒指令和语音控制指令的声源位置;判断语音唤醒指令和语音控制指令的声源位置是否一致;若不一致,则采集语音唤醒指令所在声源位置的第一图像,以及语音控制指令所在声源位置的第二图像,并利用图像识别算法同时提取出第一图像和第二图像中空中的手部图像;若一致,则采集语音控制指令的声源位置的第二图像,并利用图像识别算法提取出第二图像中空中的手部图像;并将第二图像作为发出语音控制指令的用户图像。
在一些实施例中,该车载语音控制辅助装置还包括:
第一弥补模块207,被配置为在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,若语音控制指令的内容中缺失目标对象,则发出请求用户确定目标对象的第一提示语音,并开始第一倒计时;判断在第一倒计时内是否接收到含有目标对象的语音补充指令;若有,则控制语音补充指令所要控制的目标对象响应所述语音控制指令的内容中目标操作;若没有,则结束基于语音唤醒指令的语音控制操作。
在一些实施例中,该车载语音控制辅助装置还包括:
第二弥补模块208,被配置为在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,若语音控制指令的内容中同时缺失目标对象和目标操作,发出请求用户重新发出语音控制指令的第二提示语音,并开始第二倒计时;判断在第二倒计时内是否接收到新的语音控制指令;若有,则对新的语音控制指令进行识别,在得到新的语音控制指令的内容含有目标对象和目标操作的情况下,控制目标对象响应所述目标操作;若没有,则结束基于语音唤醒指令的语音控制操作。
在一些实施例中,该车载语音控制辅助装置还包括:
第三弥补模块209,被配置为在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,若语音控制指令的内容含有目标对象和目标操作,直接控制目标对象响应所述目标操作。
在一些实施例中,图2中的意向识别模块203具体被配置为获取与目标对象预先关联的环境参数和环境图像;将所述环境参数和环境图像输入预先训练完成的机器学习模型中,并在所述机器学习模型的输出得到用户想要对目标对象的意图操作。
在一些实施例中,图2中的控制响应模块206具体被配置为在尝试利用所述预设场景状况和所述手部图像对应的预设操作中的至少一者,修复所述语音控制指令的内容中的目标操作之后,若未成功修复得到对目标对象的目标操作,则结束所述语音唤醒指令的语音控制。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图3是本申请实施例提供的一种汽车的结构示意图,如图3所示,该汽车3包括语音控制系统31和控制器32,控制器32用于对该语音控制系统31进行控制。
优选地,本实施例中汽车为新能源汽车,包括但不限于增程式汽车和纯电式汽车。
车载的语音控制系统是一种允许用户使用语音指令控制车辆内部系统和功能的技术。通过车载的语音控制系统,用户可以通过说出特定的语音指令来执行各种操作,从而降低分散驾驶注意力的风险,并提供更便捷的操作方式。
具体而言,车载的语音控制系统通常使用语音识别技术将用户的语音指令转化为电子命令,然后通过车载系统中的智能助手或控制模块来执行相应的操作。这使得用户可以通过简单的语音指令来调整音量、更改媒体内容、导航到特定地点、拨打电话等功能。
车载的语音控制系统的工作原理主要包括语音识别、语义理解和命令执行三个主要步骤。
首先,语音识别技术将用户的语音指令转化为电子命令,语音识别利用算法和模型,将用户说出的语音信号转换为文本。
接下来,语义理解技术将语音识别的文本转化为可执行的命令。语义理解通过分析语音指令的结构、词义和上下文信息,理解用户的意图和要求。
最后,命令执行模块将经过语义理解的指令转化为实际的车辆操作。命令执行模块与车辆内部系统和功能进行通信,执行用户的语音指令,例如调整音量、切换媒体、导航等等。
图4是本申请实施例提供的控制器的示意图。如图4所示,该实施例的控制器32包括:处理器321、存储器322以及存储在该存储器322中并且可在处理器321上运行的计算机程序323。处理器321执行计算机程序323时实现上述各个方法实施例中的步骤。或者,处理器321执行计算机程序323时实现上述各装置实施例中各模块的功能。
控制器32可以是整车控制器、语音控制器或域控制器等电子部件。控制器32可以包括但不仅限于处理器321和存储器322。本领域技术人员可以理解,图4仅仅是控制器32的示例,并不构成对控制器32的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器321可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器322可以是控制器32的内部存储单元,例如,控制器32的硬盘或内存。存储器322也可以是控制器32的外部存储设备,例如,控制器32上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器322还可以既包括控制器32的内部存储单元也包括外部存储设备。存储器322用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种车载语音控制辅助方法,其特征在于,包括:
当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音控制指令的用户在空中的手部图像;
对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;
若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据所述预设场景状况确定用户对目标对象的意向操作;
对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;
尝试利用所述意向操作和指示操作中的至少一者,修复所述语音控制指令的内容中的目标操作;
在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应所述目标操作。
2.根据权利要求1所述的方法,其特征在于,获取发出语音控制指令的用户在空中的手部图像,包括:
识别语音控制指令的声源位置;
利用预设在车内的摄像头采集所述声源位置的用户图像,并利用图像识别算法自动提取用户图像中在空中的手部图像。
3.根据权利要求1所述的方法,其特征在于,获取发出语音控制指令的用户在空中的手部图像,包括:
分别识别语音唤醒指令和语音控制指令的声源位置;
判断语音唤醒指令和语音控制指令的声源位置是否一致;
若不一致,则采集语音唤醒指令所在声源位置的第一图像,以及语音控制指令所在声源位置的第二图像,并利用图像识别算法同时提取出第一图像和第二图像中空中的手部图像;
若一致,则采集语音控制指令的声源位置的第二图像,并利用图像识别算法提取出第二图像中空中的手部图像;
并将第二图像作为发出语音控制指令的用户图像。
4.根据权利要求1所述的方法,其特征在于,在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,还包括:
若语音控制指令的内容中缺失目标对象,则发出请求用户确定目标对象的第一提示语音,并开始第一倒计时;
判断在第一倒计时内是否接收到含有目标对象的语音补充指令;
若有,则控制语音补充指令所要控制的目标对象响应所述语音控制指令的内容中目标操作;
若没有,则结束基于语音唤醒指令的语音控制操作。
5.根据权利要求1所述的方法,其特征在于,在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,还包括:
若语音控制指令的内容中同时缺失目标对象和目标操作,发出请求用户重新发出语音控制指令的第二提示语音,并开始第二倒计时;
判断在第二倒计时内是否接收到新的语音控制指令;
若有,则对新的语音控制指令进行识别,在得到新的语音控制指令的内容含有目标对象和目标操作的情况下,控制目标对象响应所述目标操作;
若没有,则结束基于语音唤醒指令的语音控制操作。
6.根据权利要求1所述的方法,其特征在于,在对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作之后,还包括:
若语音控制指令的内容含有目标对象和目标操作,直接控制目标对象响应所述目标操作。
7.根据权利要求1-6中任一项所述的方法,其特征在于,获取与目标对象相关的预设场景状况,包括:
获取与目标对象预先关联的环境参数和环境图像;
将所述环境参数和环境图像输入预先训练完成的机器学习模型中,并在所述机器学习模型的输出得到用户想要对目标对象的意图操作。
8.根据权利要求7所述的方法,其特征在于,尝试利用所述预设场景状况和所述手部图像对应的预设操作中的至少一者,修复所述语音控制指令的内容中的目标操作之后,若未成功修复得到对目标对象的目标操作,则结束所述语音唤醒指令的语音控制。
9.一种车载语音控制辅助装置,其特征在于,包括:
唤醒监测模块,被配置为当检测到语音唤醒指令时,接收用户的语音控制指令,并同时获取发出语音指令的用户在空中的手部图像;
语音识别模块,被配置为对语音控制指令的内容进行识别,并判断语音控制指令的内容中是否包含用户所要控制的目标对象和对目标对象的目标操作;
意向识别模块,被配置为若语音控制指令的内容中缺失目标操作,则获取与目标对象相关的预设场景状况,并根据所述预设场景状况确定用户对目标对象的意向操作;
指示识别模块,被配置为对手部图像进行识别,确定用户的手在空中的手势动作,每种手势动作对应一种预设的指示操作;
指令修复模块,被配置为尝试利用所述意向操作和指示操作中的至少一者,修复所述语音控制指令的内容中的目标操作;
控制响应模块,被配置为在成功修复得到对目标对象的目标操作的情况下,控制目标对象响应所述目标操作。
10.一种汽车,包括整车控制器和语音控制系统,所述整车控制器包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311296669.5A CN117275483A (zh) | 2023-10-07 | 2023-10-07 | 一种车载语音控制辅助方法、装置和汽车 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311296669.5A CN117275483A (zh) | 2023-10-07 | 2023-10-07 | 一种车载语音控制辅助方法、装置和汽车 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117275483A true CN117275483A (zh) | 2023-12-22 |
Family
ID=89202297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311296669.5A Pending CN117275483A (zh) | 2023-10-07 | 2023-10-07 | 一种车载语音控制辅助方法、装置和汽车 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275483A (zh) |
-
2023
- 2023-10-07 CN CN202311296669.5A patent/CN117275483A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9679557B2 (en) | Computer-implemented method for automatic training of a dialogue system, and dialogue system for generating semantic annotations | |
JP4304952B2 (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
US8005681B2 (en) | Speech dialog control module | |
KR101601985B1 (ko) | 지원 기능을 갖춘 차량 시스템 및 차량 시스템 작동 방법 | |
WO2019201304A1 (zh) | 基于人脸识别的语音处理方法及其设备 | |
US20170286785A1 (en) | Interactive display based on interpreting driver actions | |
EP2045140A1 (en) | Adjustment of vehicular elements by speech control | |
WO2004070703A1 (ja) | 車載制御装置 | |
CN206595039U (zh) | 一种车载语音交互系统 | |
CN109599103B (zh) | 车辆控制方法、装置、系统、计算机可读存储介质和汽车 | |
JP2017090613A (ja) | 音声認識制御システム | |
CN112309380A (zh) | 一种语音控制方法、系统、设备及汽车 | |
JP2003114698A (ja) | コマンド受付装置及びプログラム | |
US9715878B2 (en) | Systems and methods for result arbitration in spoken dialog systems | |
CN112061059B (zh) | 一种车辆的屏幕调节方法、装置、车辆和可读存储介质 | |
CN110956967A (zh) | 基于声纹识别的车辆控制方法与车辆 | |
CN117275483A (zh) | 一种车载语音控制辅助方法、装置和汽车 | |
CN111756986A (zh) | 一种摄像头控制方法、存储介质、装置及具有其的电子设备 | |
CN115580967A (zh) | 车辆灯光的声控集成控制系统及方法 | |
JP2004301875A (ja) | 音声認識装置 | |
CN110199349B (zh) | 用于运行具有操作设备的机动车的方法 | |
CN110931003A (zh) | 一种语音功能的控制交互方法及系统 | |
CN113534780B (zh) | 一种遥控泊车参数及功能定义方法、汽车及可读存储介质 | |
JP2007183516A (ja) | 音声対話装置及び音声認識方法 | |
JP2020144285A (ja) | エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |