CN115116439A - 一种语音控制方法、装置、终端设备及存储介质 - Google Patents
一种语音控制方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN115116439A CN115116439A CN202210044979.7A CN202210044979A CN115116439A CN 115116439 A CN115116439 A CN 115116439A CN 202210044979 A CN202210044979 A CN 202210044979A CN 115116439 A CN115116439 A CN 115116439A
- Authority
- CN
- China
- Prior art keywords
- information
- voice command
- determining
- compensation
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000007 visual effect Effects 0.000 claims abstract description 30
- 230000006399 behavior Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 8
- 230000008451 emotion Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本申请适用于车辆控制技术领域,提供了一种语音控制方法、装置、终端设备及存储介质。本申请实施例中获取语音命令;当上述语音命令中存在缺失信息时,获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息;根据上述辅助信息对上述语音命令进行信息补偿,得到补偿后的语音命令;执行上述补偿后的语音命令,从而致使车辆准确响应乘车人员下达的语音命令。
Description
技术领域
本申请属于车辆控制技术领域,尤其涉及一种语音控制方法、装置、终端设备及存储介质。
背景技术
随着社会的发展,车辆在人们的生活中越来越常见,现有的车辆中通过在车辆内增设语音控制功能,来提升人们操控车辆的便捷性,但由于现实场景中每个人的说话风格和方式都是不同的,就会导致车辆内的控制设备经常会接收到一些意图不明确的模糊命令,从而致使车辆无法准确响应乘车人员下达的语音命令。
发明内容
本申请实施例提供了一种语音控制方法、装置、终端设备及存储介质,可以解决车辆无法准确响应乘车人员下达的语音命令的问题。
第一方面,本申请实施例提供了一种语音控制方法,包括:
获取语音命令;
当上述语音命令中存在缺失信息时,获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息;
根据上述辅助信息对上述语音命令进行信息补偿,得到补偿后的语音命令;
执行上述补偿后的语音命令。
第二方面,本申请实施例提供了一种语音控制装置,包括:
命令获取模块,用于获取语音命令;
信息获取模块,用于当上述语音命令中存在缺失信息时,获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息;
信息补偿模块,用于根据上述辅助信息对上述语音命令进行信息补偿,得到补偿后的语音命令;
执行模块,用于执行上述补偿后的语音命令。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现上述任一种语音控制方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述的计算机程序被处理器执行时实现上述任一种语音控制方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一种语音控制方法。
本申请实施例中获取语音命令,并进行相应的判断,当上述语音命令中存在缺失信息时,通过获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息,来根据上述辅助信息对上述语音命令进行信息补偿,得到补偿后的语音命令,即得到较为准确的语音命令,从而执行上述补偿后的语音命令,致使车辆准确响应乘车人员下达的语音命令。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语音控制方法的第一种流程示意图;
图2是本申请实施例提供的语音控制方法的第二种流程示意图;
图3是本申请实施例提供的应用场景示意图;
图4是本申请实施例提供的语音控制方法的第三种流程示意图;
图5是本申请实施例提供的语音控制装置的结构示意图;
图6是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1所示为本申请实施例中一种语音控制方法的流程示意图,该方法的执行主体可以是终端设备,该终端设备可以设置于车辆内,如图1所示,上述语音控制方法可以包括如下步骤:
步骤S101、获取语音命令。
在本实施例中,车辆内的乘车人员可以通过声音唤醒终端设备中的语音助手,以使语音助手检测乘车人员发出的语音命令,以实现通过分析语音命令来了解乘车人员的意图,即乘车人员期望终端设备执行的操作,从而达到语音控制车辆的目的,终端设备通过执行语音命令实现车辆与乘车人员之间的交互过程。具体地,终端设备可以通过SDK检测来获取乘车人员下达的语音命令。
具体地,终端设备可以通过预先设置唤醒词,从而在检测到用户发出的语音中存在上述唤醒词时,触发执行相应语音命令的功能。
步骤S102、当语音命令中存在缺失信息时,获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息。
在本实施例中,由于检测到的语音命令有可能是模糊命令,即所获取的语音命令中存在缺失信息,致使终端设备不能响应该语音命令,所以在获取语音命令后需判断语音命令中是否存在缺失信息,例如,语音命令为缺少待操作对象的“打开”,又或者是语音命令为缺少具体操作方式的“空调”。因此,终端设备通过获取辅助信息来应对存在缺失信息的语音命令,上述辅助信息包括视觉信息和/或车辆信息,从而通过不同的情景来利用不同传感器获取的信息,以实现针对性的辅助处理语音命令,并在有需求时以多模态的方式辅助处理语音命令,提升了语音命令的精准性,以及在保证语音命令精准性的基础之上提高了处理速度。其中,上述车辆信息包括但不限于是车辆的运行状态、车辆速度、车辆环境,上述车辆环境包括但不限于是车辆周围的天气状况、车辆周围的车辆状况等,上述视觉信息包括但不限于是乘车人员的行为信息、乘车人员的视线注视区域等,上述乘车人员的行为信息包括但不限于是乘车人员的情绪信息、动作信息等。
具体地,可以在车辆内设置摄像装置,从而通过摄像装置获取车内至少一个乘车人员的图像信息,再利用神经网络对图像信息进行处理从而得到乘车人员的视觉信息。终端设备可以周期性的获取车辆信息和视觉信息,并进行记录。
在一个实施例中,在获取车内至少一个乘车人员的图像信息之后,可基于图像信息对车内至少一个乘车人员进行行为预测,以得到至少一个乘车人员分别对应的行为信息。
步骤S103、根据辅助信息对语音命令进行信息补偿,得到补偿后的语音命令。
在本实施例中,终端设备通过辅助信息来分析当前乘车人员的环境需求,从而基于分析出的环境需求确定出语音命令中的缺失信息,再将得到的缺失信息对上述语音命令进行补全,即对语音命令进行信息补偿,以得到补偿后的语音命令,从而提高了语音命令的准确性。其中,上述缺失信息包括待操作对象、待操作对象的位置、具体操作方式等信息。
在一个实施例中,如图2所示,上述步骤S103可以包括:
步骤S201、根据视觉信息确定乘车人员的视线注视区域和行为信息。
在本实施例中,由于乘车人员下达语音命令时会关注该语音命令对应的待操作对象的情况,故而当语音命令中存在的缺失信息为待操作对象时,终端设备可以通过视觉信息来确定出乘车人员的视线注视区域和行为信息,从而可以通过行为信息从乘车人员的视线注视区域中确定出语音命令对应的待操作对象。其中,上述行为信息包括乘车人员的情绪、动作等,上述乘车人员的情绪包括但不限于是快乐、愤怒、悲哀、恐惧、疲劳等,上述乘车人员的动作包括但不限于是抽烟、打电话、玩游戏等。
在一个实施例中,在上述步骤S201之前还可以包括:终端设备可以通过车辆中可基于乘车人员的语音命令去操作的待操作对象所处的位置来对车内进行区域划分,该划分后的各个区域相互互斥,即同一时刻乘车人员只会关注于一个区域,从而从划分后的各个区域中确定出乘车人员的视线注视区域。其中,上述车辆的区域划分可以在终端设备中的用户引导界面进行显示,以便于乘车人员可以通过该用户引导界面所显示的区域划分确定出满足其需求最简单的语音命令,从而提高了便携性。
示例性地,如图3所示,图3中终端设备根据车辆上的车窗、后视镜、空调、挡风玻璃位置划分为4个区域,分别为A区域、B区域、C区域、D区域,其中,A区域中存在左车窗、左后视镜;B区域中存在前方玻璃;C区域中存在空调;D区域中存在右车窗、右后视镜。
在一个实施例中,上述步骤S201可以包括:终端设备可以根据视觉信息确定第一预设时间内乘车人员对至少两个预设区域的注视次数,该预设区域为上述进行区域划分后的各个区域,最后根据注视次数从至少两个预设区域中确定视线注视区域,即选取注视次数最多的区域为视线注视区域。
在一个实施例中,上述步骤S201可以包括:终端设备可以根据视觉信息确定乘车人员发出语音命令时所注视的区域,将该区域确定为视线注视区域。
步骤S202、从视线注视区域中确定至少一个待操作对象。
在本实施例中,由于视线注视区域中存在很多物体,所以终端设备可以从视线注视区域中确定出可基于乘车人员的语音命令去操作的待操作对象,从而加快确定语音命令对应的待操作对象速度。例如,从视线注视区域A中确定出左车窗和左后视镜。
步骤S203、根据车辆信息和行为信息从至少一个待操作对象中确定目标对象。
在本实施例中,终端设备为保证乘车人员的安全,可先根据车辆信息对待操作对象进行排除,再根据行为信息从排除后的待操作对象中确定目标对象。可以理解的是,出于安全考虑,终端设备可以根据车辆信息排除一些在当前环境下操作会影响安全的目标对象,例如,在根据车辆信息确定车辆的运行状态为行驶状态时,不对座椅、后视镜、HUT进行调整,以提高安全性,但在行驶状态下可对车窗、空调等待操作对象进行操作。
示例性地,基于上述示例,当前语音命令为“打开”时,由于该语音命令没有明确的对象和位置,所以通过确定上述视线注视区域为A区域,得到位于A区域中的待操作对象,即左车窗和左后视镜,并继续根据车辆信息进行确定,若根据车辆信息确定车辆处于停车状态,则说明左车窗、左后视镜均可为目标对象,再根据行为信息确定乘车人员当前情绪为愤怒或疲劳,动作为正在抽烟,则确定当前环境需求为乘车人员需要冷静,从而确定出目标对象为左车窗,本示例通过确定视线注视区域以缩减可能为目标对象的待操作对象的范围,并由车辆信息进一步排除可能存在安全隐患的待操作对象,以保证车辆安全性,再通过行为信息最终确定目标对象,从而确保目标对象的准确性。
在一个实施例中,终端设备还可仅根据车辆信息对待操作对象进行排除,从而确定出目标对象,例如,基于上述示例,若根据车辆信息确定车辆处于行驶状态,由于为了安全考虑车辆在行驶过程中不能调节后视镜,所以将左后视镜排除,则确定目标对象为左车窗,本示例通过确定视线注视区域以缩减可能为目标对象的待操作对象的范围,再通过车辆信息即可快速确定出目标对象,在保证准确性的基础上还可进一步保证车辆安全性。
在一个实施例中,终端设备还可仅根据行为信息对待操作对象进行排除,从而确定出目标对象,例如,基于上述示例,若当前语音命令为“打开”,且上述视线注视区域为D区域,则确定上述待操作对象为右车窗、右后视镜,若根据行为信息确定乘车人员中处于副驾驶座位的人员当前情绪为愤怒,且正在打电话,则确定当前环境需求为副驾驶座位的人员需要冷静,则确定出目标对象为右车窗,本示例通过确定视线注视区域以缩减可能为目标对象的待操作对象的范围,再通过行为信息来最终确定目标对象,从而确保目标对象的准确性。
在一个实施例中,终端设备还可进一步基于所确定出的环境需求确定至少一个目标对象,且该至少一个目标对象需满足符合车辆安全性、满足天气状况等预设规则,例如,在面对环境需求为乘车人员需要冷静的情况时,还可在打开车窗的同时开启空调。又或者,当乘车人员在抽烟时看向空调区域,说明当前环境需求为需对车内空气进行净化,所以在根据车辆信息确定天气状况不属于预设异常天气时可在开启空调的同时打开窗户,其中,上述异常天气包括但不限于是下雨天气、雾霾天气等。
步骤S204、根据目标对象对语音命令进行信息补偿。
在本实施例中,终端设备在确定出目标对象后,再根据该目标对象对语音命令进行信息补偿,从而完善语音命令。
在一个实施例中,如图4所示,上述步骤S103可以包括:
步骤S401、根据语音命令确定至少一个待操作对象。
在本实施例中,由于乘车人员下达语音命令时会存在待操作对象没有说清楚的情况,例如,语音命令中仅有车窗,但并未说明是左车窗还是右车窗,即没有明确的待操作对象的位置,所以终端设备可先根据语音命令确定至少一个待操作对象,再根据所确定的待操作对象进行后续判断,以确定出是否存在符合环境需求的待操作对象。
步骤S402、根据视觉信息确定乘车人员的视线注视区域。
在本实施例中,由于乘车人员下达语音命令时会关注该语音命令对应的待操作对象的情况,故而终端设备可以通过视觉信息来确定出乘车人员的视线注视区域,从而实现对待操作对象进行排除的目的。例如,不同的车窗对应不同的区域,基于上述示例,车窗分别存在于的A区域和D区域中,故而可通过确定视线注视区域来明确待操作的车窗。
步骤S403、根据车辆信息和视线注视区域从至少一个待操作对象中确定目标对象。
在本实施例中,终端设备为保证乘车人员的安全,可先根据车辆信息对待操作对象进行排除,再根据视线注视区域从排除后的待操作对象中确定目标对象。
示例性地,基于上述示例,若当前语音命令为“调高一点”,由于根据该语音命令可以选取出能够进行调高操作的待操作对象,例如在本示例中可调高的待操作对象为空调和座椅,在确定出待操作对象后,再继续根据车辆信息进行确定,若根据车辆信息确定车辆处于停车状态,则说明座椅和空调均可调节,并继续根据视线注视区域确定对应的目标对象,例如,若视线注视区域为B区域,则可确定当前需调高座椅,即目标对象为座椅,若视线注视区域为C区域,则可确定当前需调高空调温度,即目标对象为空调,本示例通过确定语音命令确定可能为目标对象的待操作对象的范围,并由车辆信息进一步排除可能存在安全隐患的待操作对象,以保证车辆安全性,再通过视线注视区域最终确定目标对象,从而确保目标对象的准确性。
在一个实施例中,终端设备还可仅根据车辆信息对待操作对象进行排除,从而确定出目标对象,例如,基于上述示例,若根据车辆信息确定车辆处于行驶状态,由于为了安全考虑车辆在行驶过程中不能调节座椅,所以可将座椅排除,从而确定目标对象为空调。又或者终端设备可以根据车辆信息中的其他信息进行判断,若根据车辆信息确定车辆环境中的车内温度低于预设阈值,则可确定目标对象为空调,本示例在通过确定语音命令确定可能为目标对象的待操作对象的范围后,仅通过车辆信息即可快速确定出目标对象,在保证准确性的基础上还可进一步保证车辆安全性。
在一个实施例中,终端设备还可仅根据视线注视区域对待操作对象进行排除,从而确定出目标对象,例如,基于上述示例,若当前语音命令为“打开车窗”,由于车窗分别存在于A区域和D区域中,故而可通过确定视线注视区域来明确待操作的车窗,若视线注视区域为A区域,则目标对象为左车窗;若视线注视区域为D区域,则目标对象为右车窗,本示例在通过确定语音命令确定可能为目标对象的待操作对象的范围后,仅通过视线注视区域即可快速确定出目标对象,从而确保目标对象的准确性。
步骤S404、根据目标对象对语音命令进行信息补偿。
在本实施例中,终端设备在确定出目标对象后,再根据该目标对象对语音命令进行信息补偿,从而完善语音命令。
在一个实施例中,步骤S103可以包括:终端设备可先根据语音命令确定至少一个待操作对象,再根据所确定的待操作对象进行后续判断,以确定出是否存在符合环境需求的待操作对象。具体地,由于乘车人员下达语音命令时会存在某些行为信息,例如情绪变化、动作变化等,故而终端设备可以通过视觉信息确定乘车人员的行为信息,以根据行为信息来从待操作对象中确定目标对象。此外,终端设备为保证乘车人员的安全,可进一步先根据车辆信息对待操作对象进行排除,再根据行为信息从排除后的待操作对象中确定目标对象,在确定出目标对象后,再根据该目标对象对语音命令进行信息补偿,从而完善语音命令。
示例性地,基于上述示例,若当前语音命令为“打开车窗”,则终端设备可通过车辆内的乘车人员的行为信息判断需打开的车窗位置,若处于副驾驶的乘车人员当前情绪为愤怒,且正在打电话,则确定当前环境信息为副驾驶座位的人员需要冷静,则确定出目标对象为右车窗,本示例在通过确定语音命令确定可能为目标对象的待操作对象的范围后,仅通过行为信息即可快速确定出目标对象,从而确保目标对象的准确性。
在一个实施例中,上述步骤S103可以包括:终端设备可以预先通过在神经网络的特征层面上进行图像特征和语音特征的融合,来建立补偿模型,从而根据该补偿模型对辅助信息进行处理,得到补偿信息,并根据补偿信息对语音命令进行信息补偿。
步骤S104、执行补偿后的语音命令。
在本实施例中,终端设备在得到补偿后的语音命令后,需判断补偿后的语音命令是否能够执行,若不能执行,则进行二次轮询,即提醒乘车人员再次发出语音命令,或者对该语音命令进行丢弃;若能执行,则执行该补偿后的语音命令,从而通过多模态的方式完善的车内乘车人员发出的语音命令,致使车辆准确响应乘车人员发出的语音命令,避免在语音命令存在缺失时不响应语音命令的情况。
在一个实施例中,在步骤S104之后,还可以包括:终端设备通过检测第二预设时间内的乘车人员的操作信息,以实现对乘车人员进行分析,再根据所得到的操作信息对补偿模型进行调整。可以理解的是,终端设备通过学习可以更好的理解语音命令存在缺失的情况时的用户意图,从而提高用户体验。
示例性地,终端设备根据补偿后的语音命令打开窗户后,检测到关闭窗户,又或者调整了窗户打开的比例,又或者额外打开音乐等操作信息时,对检测得到的操作信息进行记录,并作为输入去训练模型,从而更好的满足用户需求。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文所述的一种语音控制方法,图5所示为本申请实施例中一种语音控制装置的结构示意图,如图5所示,上述语音控制装置可以包括:
命令获取模块501,用于获取语音命令。
信息获取模块502,用于当语音命令中存在缺失信息时,获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息。
信息补偿模块503,用于根据辅助信息对语音命令进行信息补偿,得到补偿后的语音命令。
执行模块504,用于执行补偿后的语音命令。
在一个实施例中,上述信息补偿模块503可以包括:
第一区域确定单元,用于根据视觉信息确定乘车人员的视线注视区域和行为信息。
第一对象确定单元,用于从视线注视区域中确定至少一个待操作对象。
第一目标确定单元,用于根据车辆信息和行为信息从至少一个待操作对象中确定目标对象。
第一信息补偿单元,用于根据目标对象对语音命令进行信息补偿。
在一个实施例中,上述第一区域确定单元可以包括:
次数确定子单元,用于根据视觉信息确定第一预设时间内乘车人员对至少两个预设区域的注视次数。
区域确定子单元,用于根据注视次数从至少两个预设区域中确定视线注视区域。
在一个实施例中,上述信息补偿模块503还可以包括:
第二对象确定单元,用于根据语音命令确定至少一个待操作对象。
第二区域确定单元,用于根据视觉信息确定乘车人员的视线注视区域。
第二目标确定单元,用于根据车辆信息和视线注视区域从至少一个待操作对象中确定目标对象。
第二信息补偿单元,用于根据目标对象对语音命令进行信息补偿。
在一个实施例中,上述信息补偿模块503还可以包括:
第三对象确定单元,用于根据语音命令确定至少一个待操作对象。
信息确定单元,用于根据视觉信息确定乘车人员的行为信息。
第三目标确定单元,用于根据车辆信息和行为信息从至少一个待操作对象中确定目标对象。
第三信息补偿单元,用于根据目标对象对语音命令进行信息补偿。
在一个实施例中,上述信息补偿模块503还可以包括:
信息处理单元,用于根据预设的补偿模型对辅助信息进行处理,得到补偿信息。
第四信息补偿单元,用于根据补偿信息对语音命令进行信息补偿。
在一个实施例中,上述语音控制装置还可以包括:
检测模块,用于检测第二预设时间内的乘车人员的操作信息。
调整模块,用于根据操作信息对补偿模型进行调整。
本申请实施例中获取语音命令,并进行相应的判断,当上述语音命令中存在缺失信息时,通过获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息,来根据上述辅助信息对上述语音命令进行信息补偿,得到补偿后的语音命令,即得到较为准确的语音命令,从而执行上述补偿后的语音命令,致使车辆准确响应乘车人员下达的语音命令。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述系统实施例以及方法实施例中的对应过程,在此不再赘述。
图6为本申请实施例提供的终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。
如图6所示,该实施例的终端设备6包括:至少一个处理器600(图6中仅示出一个),与上述处理器600连接的存储器601,以及存储在上述存储器601中并可在上述至少一个处理器600上运行的计算机程序602,例如语音控制程序。上述处理器600执行上述计算机程序602时实现上述各个语音控制方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,上述处理器600执行上述计算机程序602时实现上述各装置实施例中各模块的功能,例如图5所示模块501至504的功能。
示例性的,上述计算机程序602可以被分割成一个或多个模块,上述一个或者多个模块被存储在上述存储器601中,并由上述处理器600执行,以完成本申请。上述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述上述计算机程序602在上述终端设备6中的执行过程。例如,上述计算机程序602可以被分割成命令获取模块501、信息获取模块502、信息补偿模块503、执行模块504,各模块具体功能如下:
命令获取模块501,用于获取语音命令;
信息获取模块502,用于当语音命令中存在缺失信息时,获取辅助信息;上述辅助信息包括视觉信息和/或车辆信息;
信息补偿模块503,用于根据辅助信息对语音命令进行信息补偿,得到补偿后的语音命令;
执行模块504,用于执行补偿后的语音命令。
上述终端设备6可包括,但不仅限于,处理器600、存储器601。本领域技术人员可以理解,图6仅仅是终端设备6的举例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备、总线等。
所称处理器600可以是中央处理单元(Central Processing Unit,CPU),该处理器600还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述存储器601在一些实施例中可以是上述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。上述存储器601在另一些实施例中也可以是上述终端设备6的外部存储设备,例如上述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述存储器601还可以既包括上述终端设备6的内部存储单元也包括外部存储设备。上述存储器601用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如上述计算机程序的程序代码等。上述存储器601还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音控制方法,其特征在于,包括:
获取语音命令;
当所述语音命令中存在缺失信息时,获取辅助信息;所述辅助信息包括视觉信息和/或车辆信息;
根据所述辅助信息对所述语音命令进行信息补偿,得到补偿后的语音命令;
执行所述补偿后的语音命令。
2.如权利要求1所述的语音控制方法,其特征在于,所述根据所述辅助信息对所述语音命令进行信息补偿,包括:
根据所述视觉信息确定乘车人员的视线注视区域和行为信息;
从所述视线注视区域中确定至少一个待操作对象;
根据所述车辆信息和所述行为信息从所述至少一个待操作对象中确定目标对象;
根据所述目标对象对所述语音命令进行信息补偿。
3.如权利要求2所述的语音控制方法,其特征在于,所述根据所述视觉信息确定乘车人员的视线注视区域和行为信息,包括:
根据视觉信息确定第一预设时间内所述乘车人员对至少两个预设区域的注视次数;
根据所述注视次数从所述至少两个预设区域中确定所述视线注视区域。
4.如权利要求1所述的语音控制方法,其特征在于,所述根据所述辅助信息对所述语音命令进行信息补偿,包括:
根据所述语音命令确定至少一个待操作对象;
根据所述视觉信息确定乘车人员的视线注视区域;
根据所述车辆信息和所述视线注视区域从所述至少一个待操作对象中确定目标对象;
根据所述目标对象对所述语音命令进行信息补偿。
5.如权利要求1所述的语音控制方法,其特征在于,所述根据所述辅助信息对所述语音命令进行信息补偿,包括:
根据所述语音命令确定至少一个待操作对象;
根据所述视觉信息确定乘车人员的行为信息;
根据所述车辆信息和所述行为信息从所述至少一个待操作对象中确定目标对象;
根据所述目标对象对所述语音命令进行信息补偿。
6.如权利要求1所述的语音控制方法,其特征在于,所述根据所述辅助信息对所述语音命令进行信息补偿,包括:
根据预设的补偿模型对所述辅助信息进行处理,得到补偿信息;
根据所述补偿信息对所述语音命令进行信息补偿。
7.如权利要求4所述的语音控制方法,其特征在于,在执行所述补偿后的语音命令之后,还包括:
检测第二预设时间内的乘车人员的操作信息;
根据所述操作信息对所述补偿模型进行调整。
8.一种语音控制装置,其特征在于,包括:
命令获取模块,用于获取语音命令;
信息获取模块,用于当所述语音命令中存在缺失信息时,获取辅助信息;所述辅助信息包括视觉信息和/或车辆信息;
信息补偿模块,用于根据所述辅助信息对所述语音命令进行信息补偿,得到补偿后的语音命令;
执行模块,用于执行所述补偿后的语音命令。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种语音控制方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种语音控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210044979.7A CN115116439A (zh) | 2022-01-14 | 2022-01-14 | 一种语音控制方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210044979.7A CN115116439A (zh) | 2022-01-14 | 2022-01-14 | 一种语音控制方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115116439A true CN115116439A (zh) | 2022-09-27 |
Family
ID=83325107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210044979.7A Pending CN115116439A (zh) | 2022-01-14 | 2022-01-14 | 一种语音控制方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116439A (zh) |
-
2022
- 2022-01-14 CN CN202210044979.7A patent/CN115116439A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109416733B (zh) | 便携式个性化 | |
CN108725357B (zh) | 基于人脸识别的参数控制方法、系统与云端服务器 | |
US10764536B2 (en) | System and method for a dynamic human machine interface for video conferencing in a vehicle | |
CN111653277A (zh) | 车辆语音控制方法、装置、设备、车辆及存储介质 | |
CN112947740A (zh) | 基于动作分析的人机交互方法、车载装置 | |
JP2022122981A (ja) | 車載ブルートゥースの接続方法、装置、電子機器及び記憶媒体 | |
CN112083795A (zh) | 对象控制方法及装置、存储介质和电子设备 | |
WO2019200308A1 (en) | Methods, systems, and media for controlling access to vehicle features | |
CN113867527A (zh) | 车窗控制方法、装置、电子设备及存储介质 | |
US20220335292A1 (en) | Information processing device, information processing method, and program | |
CN116883977A (zh) | 一种乘客状态监控方法、装置、终端设备和车辆 | |
EP4369185A1 (en) | Execution instruction determination method and apparatus, device, and storage medium | |
CN115116439A (zh) | 一种语音控制方法、装置、终端设备及存储介质 | |
CN117095680A (zh) | 车辆控制方法、装置、设备及存储介质 | |
EP4365733A1 (en) | Management system, method and apparatus, and device and storage medium | |
EP4369186A1 (en) | Control method and apparatus, device, and storage medium | |
CN115859219A (zh) | 多模态交互方法、装置、设备及存储介质 | |
CN115101070A (zh) | 车辆控制方法、装置、车辆及电子设备 | |
CN111422200B (zh) | 调节车辆设备的方法、装置及电子设备 | |
CN113561988A (zh) | 一种基于视线追踪的语音控制方法、汽车及可读存储介质 | |
CN114103849A (zh) | 车辆控制方法、装置、车辆及计算机可读存储介质 | |
CN112786042A (zh) | 车载语音设备的调整方法、装置、设备及存储介质 | |
CN112506353A (zh) | 车辆交互系统、方法、存储介质和车辆 | |
CN112951216B (zh) | 一种车载语音处理方法及车载信息娱乐系统 | |
CN117162950A (zh) | 一种车辆控制方法、车辆及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |