CN114360527B

CN114360527B - 车载语音交互方法、装置、设备及存储介质

Info

Publication number: CN114360527B
Application number: CN202111667890.8A
Authority: CN
Inventors: 杨竞喆; 孙晓欣; 李国华; 黄海荣; 曹阳
Original assignee: Ecarx Hubei Tech Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-09-26
Anticipated expiration: 2041-12-30
Also published as: CN114360527A

Abstract

本申请提供一种车载语音交互方法、装置、设备及存储介质，该车载语音交互方法应用于车载终端，车载终端与车载语音助手通信连接。在检测到车辆内存在语音信号且语音信号的发出者不存在预设对话行为时，若确定车辆内仅有一人且仅有的该一人不具备耳机佩戴特征，则对语音信号进行语义识别，响应于识别结果控制车载语音助手进行语音反馈。否则，进一步判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，响应于判断结果控制车载语音助手进行语音反馈。无需唤醒车载语音助手，便可与车载语音助手随时交互，用户与车载语音助手的交互方式更接近于人与人之间的交互，交互方式简单易行，有效提升了用户使用体验。

Description

车载语音交互方法、装置、设备及存储介质

技术领域

本申请涉及信息技术领域，尤其涉及一种车载语音交互方法、装置、设备及存储介质。

背景技术

随着人工智能技术的不断发展，车载智能语音助手在车辆中被广泛使用。目前的车载智能语音助手与用户的交互方式主要分为被动式和主动式两种，被动式交互是指用户主动与语音助手进行交互，主动式交互是指语音助手主动与用户进行交互。

在被动式交互中，用户主动与语音助手进行交互主要通过这几种方式进行，第一种是用户通过按压硬按键或点击软按键的方式首先唤醒语音助手，然后再说出命令；第二种是用户通过主唤醒词首先唤醒语音助手后，然后再说出命令；第三种是用户直接说出特定的免唤醒命令词，语音助手执行对应操作。

用户通过前两种方式唤醒语音助手后，语音助手仅在一定的时间内可以接收用户的命令，语音助手退出唤醒状态后，用户还需要再重新唤醒，使得交互流程繁琐。第三种方式交互虽然支持全场景，但该方式仅支持少量的特定命令词，对于用户而言需要牢记特定命令词，交互使用范围不但受限，也会造成用户体验不佳。

发明内容

本申请提供一种车载语音交互方法、装置、设备及存储介质，用于提供一种车载语音交互方法，实现用户无需唤醒语音助手也可无时间限制的持续性地与语音助手交互。

第一方面，本申请提供一种车载语音交互方法，应用于车载终端，所述车载终端与车载语音助手通信连接；所述方法，包括：

在检测到车辆内存在语音信号且所述语音信号的发出者不存在预设对话行为时，判断所述车辆内是否仅有一人且仅有的所述一人不具备耳机佩戴特征，得到第一判断结果；

若所述第一判断结果为否，判断所述语音信号的发出者在第一时长内是否注视过所述车载语音助手的指定虚拟区域，得到第二判断结果，响应于所述第二判断结果控制所述车载语音助手进行语音反馈；

若所述第一判断结果为是，对所述语音信号进行语义识别，得到第一识别结果，响应于所述第一识别结果控制所述车载语音助手进行语音反馈。

在一种可能的设计中，所述响应于所述第二判断结果控制所述车载语音助手进行语音反馈，包括：

若所述第二判断结果为是，则对所述语音信号进行语义识别，得到第二识别结果，响应于所述第二识别结果以及所述车载语音的交互状态控制所述车载语音助手进行语音反馈；

若所述第二判断结果为否，获取第二时长内的前期语音信号，根据预设高频语言库以及所述前期语音信号控制所述车载语音助手进行所述语音反馈，所述第二时长为出现所述语音信号前的预设时长。

在一种可能的设计中，所述根据预设高频语言库以及所述前期语音信号控制所述车载语音助手进行所述语音反馈，包括：

对所述前期语音信号进行语义识别以及上下文解析，以获得所述前期语音信号包括的前期语音指令；

根据所述前期语音指令判断所述车辆内是否存在预设人与人对话行为；

若是，根据所述语音信号和所述预设高频语言库控制所述车载语音助手进行所述语音反馈；

若否，对所述语音信号进行语义识别，得到第三识别结果，响应于所述第三识别结果以及所述车载语音助手的交互状态控制所述车载语音助手进行语音反馈。

在一种可能的设计中，所述根据所述语音信号和所述预设高频语言库控制所述车载语音助手进行所述语音反馈，包括：

使用预设语言解析模型对所述语音信号进行语义识别，以获得第一语音指令；

判断所述预设高频语言库是否包含所述第一语音指令；

若是，根据所述车载语音助手的交互状态控制所述车载语音助手进行所述语音反馈；

若否，结束所述车载语音交互方法。

在一种可能的设计中，所述根据所述车载语音助手的交互状态控制所述车载语音助手进行所述语音反馈，包括：

判断所述车载语音助手的交互状态是否为空闲状态，所述空闲状态是指所述车载语音助手当前未与除过所述语音信号的发出者之外的其他人进行交互；

若是，控制所述车载语音助手做出所述第一语音指令相对应的反馈；

若否，控制所述车载语音助手生成第一提示语音，并播报所述第一提示语音，所述第一提示语音用于表征所述车载语音助手未处于所述空闲状态。

在一种可能的设计中，所述对所述语音信号进行语义识别，得到第三识别结果，响应于所述第三识别结果以及所述车载语音助手的交互状态控制所述车载语音助手进行语音反馈，包括：

使用预设语言解析模型对所述语音信号进行语义识别，以获得第二语音指令，所述第三识别结果包括所述第二语音指令；

判断车载指令库是否包含所述第二语音指令，所述车载指令库包括所述车载语音助手可理解的任意指令；

若否，并确定所述车载语音助手的交互状态为空闲状态时，控制所述车载语音助手生成第一提示表情，并在所述指定虚线区域显示所述第一提示表情，所述第一提示表情用于表征所述车载语音助手无法理解所述第二语音指令。

在一种可能的设计中，若确定所述车载指令库未包含所述第二语音指令，且所述车载语音助手的交互状态非所述空闲状态，控制所述车载语音助手保持当前交互状态，且不响应于所述第二语音指令做出任何反馈。

在一种可能的设计中，所述判断所述语音信号的发出者在第一时长内是否注视过所述车载语音助手的指定虚拟区域，得到第二判断结果，包括：

通过预设视线跟踪模型获取所述第一时长内所述语音信号的发出者的视线方向；

判断所述视线方向是否指向所述指定虚拟区域；

若是，则得到的所述第二判断结果为是；

若否，则得到的所述第二判断结果为否。

在一种可能的设计中，所述对所述语音信号进行语义识别，得到第一识别结果，响应于所述第一识别结果控制所述车载语音助手进行语音反馈，包括：

使用预设语言解析模型对所述语音信号进行语义识别，以获得第三语音指令，所述第一识别结果包括所述第三语音指令；

判断车载指令库是否包含所述第三语音指令，所述车载指令库包括所述车载语音助手可理解的任意指令；

若是，控制所述车载语音助手做出所述第三语音指令相对应的反馈；

若否，控制所述车载语音助手生成第二提示表情，并在所述指定虚拟区域显示所述第二提示表情，所述第二提示表情用于表征所述车载语音助手无法理解所述第三语音指令。

在一种可能的设计中，所述判断所述车辆内是否仅有一人且仅有的所述一人不具备耳机佩戴特征，包括：

对获取到的所述车辆内的图像进行人物特征识别，根据识别到的人物特征获取所述车辆内的人数；

若根据所述车辆内的人数确定所述车辆内仅有一人，则通过所述人物特征识别检测仅有的所述一人是否未处于耳机佩戴状态，若是，则所述第一判断结果为是；

若根据所述车辆内的人数确定所述车辆内非一人，或者，仅有的所述一人处于耳机佩戴状态，则所述第一判断结果为否。

在一种可能的设计中，检测所述语音信号的发出者是否存在所述预设对话行为，包括：

获取所述车辆的车速以及蓝牙连接状态；

通过预设图像识别模型获取所述语音信号的发出者的面部朝向以及通话状态特征；

根据所述车速、所述蓝牙连接状态、所述面部朝向以及所述通话状态特征确定所述语音信号的发出者是否不存在所述预设对话行为。

在一种可能的设计中，所述根据所述车速、所述蓝牙连接状态、所述面部朝向以及所述通话状态特征确定所述语音信号的发出者是否不存在所述预设对话行为，包括：

判断所述蓝牙连接状态是否为手机占用状态；

根据所述车速判断所述车辆是否为停车状态；

获取所述面部朝向与所述车辆的正前方之间的偏离角度，将所述偏离角度与预设角度进行比较；

识别所述通话状态特征是否与手持通话状态相符；

若所述蓝牙连接状态不为所述手机占用状态，和/或，所述通话状态特征与所述手持通话状态不相符，则所述语音信号的发出者不存在所述电话对话行为；和/或，

若所述车辆不为所述停车状态，和/或，所述偏离角度小于所述预设角度，则所述语音信号的发出者不存在所述窗外对话行为。

在一种可能的设计中，检测所述车辆内是否存在所述语音信号，包括：

通过所述人物特征识别检测所述车辆内是否有人；

若是，检测目标人是否存在唇动信号，所述目标人为所述车辆内的所有人；

若存在所述唇动信号，并通过定向拾音模型检测到所述唇动信号对应的目标人发出所述语音信号，则所述车辆存在所述语音信号。

在一种可能的设计中，若所述车辆内无人，或者，所述车辆内有人但不存在所述语音信号，结束所述车载语音交互方法；或者，

若所述语音信号的发出者存在所述预设对话行为，结束所述车载语音交互方法。

第二方面，本申请提供一种车载语音交互装置，包括：

第一处理模块，用于在检测到车辆内存在语音信号且所述语音信号的发出者不存在预设对话行为时，判断所述车辆内是否仅有一人且仅有的所述一人不具备耳机佩戴状态，得到第一判断结果；

第二处理模块，用于若所述第一判断结果为否，判断所述语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果，响应于所述第二判断结果控制所述车载语音助手进行语音反馈；

第三处理模块，用于若所述第一判断结果为是，对所述语音信号进行语义识别，得到第一识别结果，响应于所述第一识别结果控制所述车载语音助手进行语音反馈。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现第一方面所提供的任意一种可能的车载语音交互方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所提供的任意一种可能的车载语音交互方法。

第五方面，本申请还提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现第一方面所提供的任意一种可能的车载语音交互方法。

本申请提供一种车载语音交互方法、装置、设备及存储介质，该车载语音交互方法应用于车载终端，车载终端与车载语音助手通信连接。在当检测到车辆内存在语音信号且该语音信号的发出者不存在预设对话行为时，首先判断车辆内是否仅有一人且仅有的该一人不具备耳机佩戴特征，得到第一判断结果。若第一判断结果为否，进一步判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果，并响应于第二判断结果控制车载语音助手进行语音反馈。而若第一判断结果为是，则对语音信号进行语义识别，响应于识别结果控制车载语音助手进行语音反馈。从而无需唤醒车载语音助手，便可与车载语音助手随时地进行交互，使得用户与车载语音交互方式更接近于人与人之间的交互，交互方式简单易行，有效提升用户使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种车载语音交互方法的流程示意图；

图3为本申请实施例提供的另一种车载语音交互方法的流程示意图；

图4为本申请实施例提供的再一种车载语音交互方法的流程示意图；

图5为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图6为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图7为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图8为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图9为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图10为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图11为本申请实施例提供的又一种车载语音交互方法的流程示意图；

图12为本申请实施例提供的一种车载语音交互装置的结构示意图；

图13为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术的车载语音助手的被动式交互方式中，有两种方式均需唤醒车载语音助手才可进行交互，分析其原因在于，当前的交互方式中无法区分用户是否在与车载语音助手说话，因而需要唤醒，以避免任意场景下都将用户语音全部接收处理所造成的误交互情况。而对于被动式交互方式中的第三种方式而言，分析其存在问题的主要原因在于，当前交互方式中车载语音助手不支持自然语言理解，无法理解自然语言所表示的用户意图。

基于对现有技术所存在缺陷的原因分析，本申请提供的车载语音交互方法的发明构思在于：通过车辆本地侧的图像识别、行为识别、语音识别等检测识别能力以及自然语言语义理解能力，对车辆内是否存在语音信号进行检测，以及对语音信号的发出者是否存在例如电话对话行为或窗外对话行为等预设对话行为进行检测。在检测到车辆内存在语音信号且语音信号的发出者不存在预设对话行为的情况下，并进一步确定出车辆内只有一人且该一人不具备耳机佩戴特征时，则可得知车辆内仅有的该一人就为语音信号的发出者，该仅有一人所发出的语音信号就是在与车载语音助手交互，进而对语音信号进行语义识别，车载语音助手响应于识别结果进行语音反馈。而若检测车辆内并非一人，或者车辆内仅有一人但该一人具备耳机佩戴特征，则需再判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果，根据第二判断结果控制车载语音助手进行语音反馈。从而无需唤醒车载语音助手，基于检测识别能力判断出车辆内的用户是否在与车载语音助手讲话，简化了交互方式，便于随时进行交互。并基于自然语言语义理解能力对语音信号进行语义识别，使得用户与车载语音交互方式更接近于人与人之间的交互，有效提升用户使用体验。

以下，对本申请实施例的示例性应用场景进行介绍。

图1为本申请实施例提供的一种应用场景示意图，如图1所示，车辆100中配置有车载语音助手101，用于与用户进行语音交互。车载终端102为车辆100的监控管理系统的前端设备，车载语音助手101与车载终端102之间通信连接，例如通过蓝牙、网络等方式连接。其中，车载终端102被配置为可以执行本申请实施例提供的车载语音交互方法，车载语音助手101无需被唤醒即可与用户随时进行交互，并通过语义识别使得用户与车载语音助手102之间的交互方式更接近于人与人之间的交互，提升用户使用体验。

需要说明的是，车载语音助手101的可以为任意的车载智能语音交互设备，其可以包括能够实现语音交互功能的相应硬件和/或软件，比如相应硬件可以安装于车辆100内，相应软件可以配置于车载终端102内。本申请实施例对于车载语音助手101的具体型号、功能等不作限定。车载终端102可以例如TCU(Transmission Control Unit)控制单元等，对此本申请实施例不作限定。

需要说明的是，上述应用场景仅仅是示意性的，本申请实施例提供的支付校验方法、装置、设备及存储介质包括但不仅限于上述应用场景。

图2为本申请实施例提供的一种车载语音交互方法的流程示意图，本申请实施例提供的车载语音交互方法应用于车载终端，车载终端与车载语音助手通信连接。如图2所示，本申请实施例包括：

S101：检测车辆内是否存在语音信号。

例如基于图像识别能力检测车辆内是否存在语音信号，换言之，对车辆内是否有人在说话进行检测。

在一种可能的设计中，本步骤S101可能的实现方式如图3所示。图3为本申请实施例提供的另一种车载语音交互方法的流程示意图。如图3所示，本申请实施例包括：

S1011：通过人物特征识别检测车辆内是否有人。

例如通过具备图像识别能力的相应装置采集车辆内图像，对图像进行人物特征识别，根据识别到的人物特征判断车辆内是否有人。

人物特征例如五官特征、人声特征、四肢特征、穿戴特征等。五官特征例如人类的眼睛、耳朵等五官特征。人声特征例如人类的音频、音色等特征。四肢特征例如人类的手、腿等特征。穿戴特征例如穿着衣物特征、首饰佩戴特征、耳机佩戴特征等。

具备图像识别能力的装置可以定义为预设图像识别模型，其可以为能够进行图像特征识别的任意模型，对此，本申请实施例不作限定。

S1012：若否，结束车载语音助手交互方法。

S1013：若是，检测目标人是否存在唇动信号。

其中，目标人为车辆内的所有人。

若检测到车辆内有人，则进一步利用检测车辆内的人机目标人是否存在唇动信号。其中，唇动信号用于表征嘴唇说话时的动作，具体地，若存在唇动信号即表示可能在说话，若无则表示一定未说话。另外，目标人是指车辆内的所有人，可以是一人或多人。

例如可以采用能够检测到嘴唇是否在动的任意模型对是否存在唇动信号进行检测，例如采用摄像头检测是否露出嘴唇，若露出即为存在唇动信号，本申请实施例对于检测唇动信号的具体形式不作限定。

S1014：若存在唇动信号，并通过定向拾音模型检测到唇动信号对应的目标人发出语音信号，则确定车辆存在语音信号。

若目标人存在唇动信号，仅能表明目标人可能在说话，并不能确定目标人一定在说话。因而，进一步通过定向拾音模型检测唇动信号对应的目标人是否发出语音信号，若是，则表明车辆中存在语音信号。语音信号是指表示人类自然语言的语音信号。

定向拾音模型例如可以具备多音区定向拾音功能，能够采集到声音信号并对声音信号是否为语音信号进行辨别。本申请实施例对于预设定向拾音模型的具体功能不作限定。

而若通过上述判断确定车辆内无人，或者车辆内有人但不存在语音信号，则车载语音助手不进行车载语音交互，即结束本申请实施例提供的车载语音交互方法。其中，即使存在唇动信号或者声音信号但不存在语音信号时，车载语音助手依然不进行车载语音交互，例如存在声音信号但该声音信号中不存在语音信号，均可将声音信号认定为噪声。

本申请实施例提供的车载语音交互方法，利用图像识别能力对车辆内是否存在语音信号进行检测，以为后续的语音信号是否用于车载语音交互提供前提条件。另外，各种能够实现图像识别能力的检测模型设置在本地侧，可以确保车辆内用户的隐私安全并提高响应及时度。

通过上述步骤若检测到车辆内不存在语音信号，则执行步骤S102。相反地，若检测到车辆内存在语音信号，即表示车辆内有人且车辆内的人在说话，则进一步执行步骤S103。

S102：若否，结束车载语音交互方法。

S103：若是，检测语音信号的发出者是否存在预设对话行为。

其中，预设对话行为包括电话对话行为或窗外对话行为。

车辆内有人在说话，即存在语音信号，进一步检测该语音信号的发出者是否存在电话对话行为或窗外对话行为等这样的预设对话行为。

车辆内有人说话，但该说话行为可能是车辆内的人在打电话或者在和窗外的人或物进行交谈。例如，打电话即为电话对话行为。和窗外的人或物进行交谈即为窗外对话行为。故而，需进一步对语音信号的发出者是否存在例如电话对话行为或窗外对话行为等预设对话行为进行判断。

可以通过预设图像识别模型、车辆的车速以及车辆内的人是否存在向车窗外转头等行为判断出说话的人即语音信号的发出者，是否存在电话对话行为或者窗外对话行为。

若检测出语音信号的发出者存在预设对话行为，则表明车辆内的人所发出的该语音信号用于打电话或者在和窗外的人或物交谈，故而车载语音助手不响应于语音信号进行交互，即执行步骤S104。反之，若检测出语音信号的发出者不存在预设对话行为，则表明车辆内的人所发出的该语音信号可能用于车载语音助手的交互，即进一步执行步骤S105。

S104：若是，结束车载语音交互方法。

S105：若否，判断车辆内是否仅有一人且仅有的一人不具备耳机佩戴特征，得到第一判断结果。

判断车辆内的人是否为一人，并且判断该一人是否不具备耳机佩戴特征，换言之，判断车辆内是否只有一个人且该一个人未佩戴耳机。例如通过图像检测的方式检测是否存在耳机佩戴特征以确定是否处于耳机佩戴状态，将得到的判断结果定义为第一判断结果。

在一种可能的设计中，本步骤S105可能的实现方式如图4所示，图4为本申请实施例提供的再一种车载语音交互方法的流程示意图。如图4所示，本申请实施例包括：

S1051：对获取到的语音信号的发声区域图像进行人物特征识别，根据识别到的人物特征获取车辆内的人数。

对获取到的语音信号的发声区域图像进行人物特征识别，依据识别到的人物特征确定车辆内人的数量，即车辆内的人数。人物特征的具体内容参考步骤S1011，在此不再赘述。

S1052：若根据车辆内的人数确定车辆内仅有一人，则通过人物特征识别检测仅有的一人是否不具有耳机佩戴特征，若是，则第一判断结果为是。

S1053：若根据车辆内的人数确定车辆内非一人，或者，仅有的一人具有耳机佩戴特征，则第一判断结果为否。

获取到车辆内的人数后，若该人数是一，即车辆内仅有一人。则进一步通过人物特征识别检测仅有的该一人是否不具有耳机佩戴特征。例如，具备耳机佩戴特征即佩戴耳机，则存在通过耳机打电话行为，故而在本步骤中需对是否不具有耳机佩戴特征进行检测，以排除语音信号用于通过耳机打电话行为的可能。

若检测到该一人不具有耳机佩戴特征，则表明第一判断结果为是。换言之，第一判断结果为是是指车辆内仅有一人且该一人未佩戴耳机。

反之，若获取到的车辆内的人数并非一人，比如多人，或者获取到的车辆内的人数为一人，但该一人具有耳机佩戴状态，则均表明第一判断结果为否。换言之，第一判断结果为否，是指车辆内的人数并非一人，或者车辆内仅有一人但该一人佩戴耳机。

通过人物特征识别对车辆内是否仅有一人以及该一人是否不具备耳机佩戴特征进行判断。若确定车辆内并非一人，或者仅有一人但该一人佩戴耳机，则需进一步对语音信号是否用于车载语音助手的交互进行判断，即执行步骤S106。反之，若确定出车辆内仅有一人且该一人未佩戴耳机，则表明车辆内存在的语音信号由该一人发出，且该语音信号不用于通过耳机打电话的行为，再结合车辆内不存在预设对话行为，即可判定语音信号用于车载语音助手的交互，执行步骤S107。

S106：若第一判断结果为否，判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果，响应于第二判断结果控制车载语音助手进行语音反馈。

在确定出车辆内并非一人，或者仅有一人但该一人佩戴耳机，则表明语音信号可能用于车辆内人与人之间的交谈或者该一人通过耳机打电话。故而需进一步对语音信号是否用于车载语音助手的交互进行判断。

例如，可以通过判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域来进一步确定语音信号是否用于车载语音助手的交互，若注视过，则确定语音信号用于车载语音助手的交互。若未注视过，则语音信号可能用于车载语音助手的交互，也可能是在与车辆内的其他人交谈，或者车辆内仅有的一人在通过耳机打电话。因此，通过判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域得到第二判断结果，进而响应于第二判断结果控制车载语音助手进行语音反馈。车载语音助手的指定虚拟区域可以例如车载语音助手的界面、或者虚拟形象区域等。

在一种可能的设计中，本步骤S106中判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果，可能的实现方式，包括：

首先通过预设视线跟踪模型获取第一时长内语音信号的发出者的视线方向，然后判断视线方向是否指向指定虚拟区域，若指向，则表明语音信号的发出者在第一时长内注视过指定虚拟区域，得到的第二判断结果则为是。反之，若未指向，则表明语音信号的发出者在第一时长内未注视过指定虚拟区域，得到的第二判断结果则为否。第一时长是指发出语音信号期间。

S107：若第一判断结果为是，对语音信号进行语义识别，得到第一识别结果，响应于第一识别结果控制车载语音助手进行语音反馈。

通过前述实施例的描述可知，第一判断结果为是是指车辆内仅有一人且该一人未佩戴耳机，因此，结合当前场景中车辆内不存在预设对话行为，则可判定语音信号用于车载语音助手的交互。故而对语音信号进行语义识别，以识别出语音信号所要表达的用户意图即第一识别结果，进而控制车载语音助手响应于第一识别结果进行语音反馈。

对语音信号进行语义识别目的在于识别出语音信号所要表达的用户意图，使得车载语音助手与用户之间的交互可以基于自然语言进行，而非特定的命令词，进而可以使得交互体验更接近与人和人之间的交互，有利于提高交互体验。

在一种可能的设计中，本步骤S107中对语音信号进行语义识别，得到第一识别结果，响应于第一识别结果控制车载语音助手进行语音反馈，可能的实现方式如图5所示。图5为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图5所示，本申请实施例包括：

S1071：使用预设语言解析模型对语音信号进行语义识别，以获得第三语音指令。

其中，第一识别结果包括第三语音指令。

利用预设语言解析模型对语音信号进行语义识别，以识别出语音信号所要表达的用户意图，将该用户意图定义为第三语音指令，进行语义识别得到的识别结果也即第一识别结果包括第三语音指令。

预设语言解析模型可以为能够进行语义识别的任意模型，本申请实施例对于预设语言解析模型的具体内容不作限定。预设语言解析模型的功能实现可以不受网络连接状态影响，例如在无网或弱网环境下也不会影响语义识别效果。

S1072：判断车载指令库是否包含第三语音指令。

其中，车载指令库包括车载语音助手可理解的任意指令。

车载指令库种包括有车载语言助手可理解的任意指令。判断车载指令库是否包含第三语音指令，若包含，表示车载语音助手理解该第三语音指令，则执行步骤S1073。反之，若未包含，则表示车载语音助手不理解该第三语音指令，则执行步骤S1074。

S1073：若是，控制车载语音助手做出第三语音指令相对应的反馈。

车载指令库包含第三语音指令，车载终端可以控制车载语音助手响应于第三语音指令做出相对应的反馈。

S1074：若否，控制车载语音助手控制车载语音助手生成第二提示表情，并在指定虚拟区域显示第二提示表情。

其中，第二提示表情用于表征车载语音助手无法理解第三语音指令。

车载指令库未包含第三语音指令，则表示该第三指令为车载语音助手无法理解的指令。为了提高用户体验，此时可以控制车载语音助手控制车载语音助手生成第二提示表情，比如卡通表情、动作等，并在指定虚拟区域显示第二提示表情，以向用户表示车载语音助手无法理解该第三语音指令。

本申请实施例提供的车载语音交互方法，通过检测识别手段对车辆内存在语音信号是否用于车载语音助手的交互进行确定，达到可以区分出用户的说话就是在与车载语音助手说话，从而无需唤醒车载语音助手即可与车载语音助手随时交互。并且，通过对语音信号的语义识别，使得车载语音助手与用户之间的交互可以基于自然语言进行，而非特定的命令词，进而可以使得交互体验更接近与人和人之间的交互，有利于提高用户交互体验。

在一种可能的设计中，步骤S106中响应于第二判断结果控制车载语音助手进行语音反馈可能的实现方式如图6所示。图6为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图6所示，本申请实施例包括：

S201：若第二判断结果为否，获取第二时长内的前期语音信号，根据预设高频语言库以及前期语音信号控制车载语音助手进行语音反馈。

其中，第二时长为出现语音信号前的预设时长。

S202：若第二判断结果为是，则对语音信号进行语义识别，得到第二识别结果，响应于第二识别结果以及车载语音的交互状态控制车载语音助手进行语音反馈。

判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果。

若第二判断结果为否，即语音信号的发出者在第一时长内未注视过指定虚拟区域。另外，此时车辆内并非一人或者仅有一人但该一人佩戴耳机，因此，此种情况中的语音信号可能存在三种用途，一种可能用于车载语音助手的交互，另一种可能是在车辆内人与人之间交谈，再一种可能是车辆内仅有的一人在通过耳机打电话。

故而，可以获取语音信号发出之前的预设时长内的语音信号，即获取第二时长内的前期语音信号，通过前期语音信号以及预先构建的预设高频语言库对此种情况中语音信号的三种可能用途进行区分，即根据预设高频语言库以及前期语音信号控制车载语音助手进行语音反馈。其中，预设高频语言库中包括常用的交互指令。预设时长例如30秒等。

若第二判断结果为是，即语音信号的发出者在第一时长内注视过车载语音助手的指定虚拟区域，则可以确定语音信号用于车载语音助手的交互。而由于此时车辆内并非一人或者仅有一人但该一人佩戴耳机，故而对语音信号进行语义识别，得到第二识别结果，并结合车载语音助手的交互状态控制车载语音助手进行语音反馈。其中，车载语音助手的交互状态用于表征车载语音助手当前是否在与除语音信号的发出者之外的其他用户交互，若当前未与其他用户交互则车载语音助手的交互状态为空闲状态。

在一种可能的设计中，步骤S201中根据预设高频语言库以及前期语音信号控制车载语音助手进行语音反馈可能的实现方式如图7所示。图7为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图7所示，本申请实施例包括：

S2011：对前期语音信号进行语义识别以及上下文解析，以获得前期语音信号包括的前期语音指令。

例如使用预设语言解析模型对前期语音信号进行语义识别以及上下文解析，以得到前期语音信号所包括的前期语音指令。其中，进行上下文解析是指在对前期语音信号进行语义识别的基础上获取前期语音信号的上下关联度，以准确获得前期语音信号所包括的前期语音指令，前期语音指令为前期语音信号所要表达的用户意图的指令。

S2012：根据前期语音指令判断车辆内是否存在预设人与人对话行为。

此种情况中的语音信号可能存在三种用途，一种可能用于车载语音助手的交互，另一种可能是在车辆内人与人之间交谈，再一种可能是车辆内仅有的一人在通过耳机打电话。其中后两种为人与人对话行为。因此，在本步骤中通过前期语音指令判断车辆内是否存在预设人与人对话行为，预设人与人对话行为是指大概率的人与人对话行为，其中大概率的人与人对话行为中不完全排除车载语音交互。

可选地，可以根据车载语音助手的实际使用情况设置预设条件，从而通过判断前期语音指令是否满足预设条件判断车辆内是否存在预设人与人对话行为的。比如，在车载语音助手的交互中，表达用户意图的指令通常逐条下发，所下发的通常为车载语音助手可理解的指令。换言之，用户的语音指令通常为一条或两条，并包含在车载指令库中。所谓一条可以理解为一句话包含一个动作，比如“打开空调”、“打开天窗”等。因此，预设条件可以通过预设数量以及是否包含在车载指令库中体现。

假设，预设条件为前期语音指令的数量大于或者等于预算数量且均未包含在车载指令库中，前期语音指令满足预设条件，表示车辆内存在预设人与人对话行为，未满足预设条件，表示车辆内不存在预设人与人对话行为。

当前期语音指令满足预设条件，即当前期语音指令的数量大于或者等于预设数量，且均未包含在车载指令库，则表明语音信号大概率是在进行人与人对话行为，换言之，根据前期语音指令判断出车辆内存在预设人与人对话行为，进一步则执行步骤S2013。反之，前期语音指令则未满足预设条件，比如当前期语音指令的数量小于预设数量，或者包含在在车载指令库，或者前期语音指令的数量大于或者等于预设数量但均包含在车载指令库中，都为不满足预设条件，可以确定出语音信号不是大概率在进行人与人对话行为，即根据前期语音指令判断出车辆内不存在预设人与人对话行为，进一步则执行步骤S2014。

S2013：若是，根据语音信号和预设高频语言库控制车载语音助手进行语音反馈。

车辆内存在预设人与人对话行为时，无法完全排除语音信号是用于车载语音助手交互，故而，当根据前期语音指令判断出车辆内存在预设人与人对话行为时，可以基于预设高频语言库对语音信号是否用于车载语音助手交互进一步确定。预设高频语言库中包含常用的交互指令。

S2014：若否，对语音信号进行语义识别，得到第三识别结果，响应于第三识别结果以及车载语音助手的交互状态控制车载语音助手进行语音反馈。

根据前期语音指令判断出车辆内不存在预设人与人对话行为时，表明语音信号不是大概率在进行人与人对话行为。故而对语音信号进行自然语言的语义识别，例如得到第三识别结果，响应于第三识别结果与车载语音助手的交互状态控制车载语音助手进行语音反馈。

本申请实施例提供的车载语音交互方法，在当车辆内并非一人，或者车辆内仅一人但该一人佩戴耳机，且语音信号的发出者未注视过车载语音助手的指定虚拟区域时，根据前期语音信号所包括的前期语音指令判断车辆内是否存在大概率的人与人对话，进而语音信号的用途区分为大概率的人与人对话和非大概率的人与人对话。再根据预设高频库或者进行语义识别并结合车载语音助手的交互状态控制车载语音助手进行语音反馈。无需唤醒车载语音助手，随时采用自然语言与车载语音助手交互，提高交互体验。

图8为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图8所示，本申请实施例包括：

S301：根据前期语音指令确定车辆内存在预设人与人对话行为。

本步骤S301的实现过程在图7所示实施例中已详细描述，再此不再赘述。

S302：使用预设语言解析模型对语音信号进行语义识别，以获得第一语音指令。

使用预设语言解析模型对语音信号进行语义识别，以识别语音信号所要表达的用户意图，该用户意图定义为第一语音指令，即获得第一语音指令。

预设语言解析模型为能够进行自然语言的语义识别的任意模型，本申请实施例对于预设语言解析模型的具体内容不作限定。

S303：判断预设高频语言库是否包含第一语音指令。

由于预设人与人对话行为中不能完全排除语音信号是用于车载语音助手的交互，而预设高频语言库中包含有常用的交互指令，故而判断预设高频语言库中是否包含第一语音指令，若包含，则表明语音信号是在进行车载语音助手的交互。反之，若不包含，则表明语音信号是在进行人与人对话行为，例如车内人与人对话，或者仅有的一人通过耳机打电话，车载语音助手不响应于第一语音指令。

因此，经过判断，若预设高频语言库未包含第一语音指令，则结束车载语音交互方法，即执行步骤S304。若预设高频语言库中包含第一语音指令，则只要车载语音助手的交互状态为空闲状态时即对第一语音指令进行反馈，即根据车载语音助手的交互状态控制车载语音助手进行语音反馈，执行步骤S305。

S304：若否，结束车载语音交互方法。

S305：若是，判断车载语音助手的交互状态是否为空闲状态。

其中，空闲状态是指车载语音助手当前未与除过语音信号的发出者之外的其他人进行交互。

判断车载语音助手当前是否在与除语音信号的发出者之外的其他人进行交互，若是，表明车载语音助手的交互状态非空闲状态。反之，若否，表明车载语音助手的交互状态未空闲状态。

若车载语音助手的交互状态为空闲状态，则控制车载语音助手针对第一语音指令做出对应反馈，即执行步骤S306。若车载语音助手的交互状态非空闲状态，即执行步骤S307。

S306：若是，控制车载语音助手做出第一语音指令相对应的反馈。

车载语音助手针对第一语音指令做出对应反馈，进行用户与车载语音助手之间的交互。

S307：若否，控制车载语音助手生成第一提示语音，并播报第一提示语音。

其中，第一提示语音用于表征车载语音助手未处于空闲状态。

车载语音助手的交互状态未处于空闲状态，表明车载语音助手当前在与语音信号发出者之外的其他人进行交互，故而控制车载语音助手生成第一提示语音，例如“稍等一下”等，并播报该第一提示语音，以提示车载语音助手未处于空闲状态。

本申请实施例提供的车载语音交互方法，根据前期语音指令确定出车辆内存在预设人与人对话行为时，进一步根据预设高频语言库以及语音信号控制车载语音助手进行语音反馈。具体地，首先使用预设语言解析模型对语音信号进行语义识别，识别出语音信号所要表达的用户意图，即第一语音指令，并当预设高频语言库包含该第一语音指令且车载语音助手处于空闲状态时做出第一语音指令对应反馈。针对语音信号的用途是大概率的人与人对话的情景，基于检测识别能力以及自然语言理解功能实现用户与车载语音助手之间的随时交互，无需唤醒车载语音助手，也无需用户牢记特定命令词，提升了交互体验。

图9为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图9所示，本申请实施例包括：

S401：根据前期语音指令确定车辆内不存在预设人与人对话行为。

本步骤S401的实现过程在图7所示实施例中已详细描述，再此不再赘述。

S402：使用预设语言解析模型对语音信号进行语义识别，以获得第二语音指令。

其中，第三识别结果包括第二语音指令。

根据前期语音指令确定车辆内不存在预设人与人对话行为，则表明语音信号不是大概率在进行人与人对话行为。故而对语音信号进行自然语言的语义识别，得到第三识别结果，响应于第三识别结果与车载语音助手的交互状态控制车载语音助手进行语音反馈。

具体地，利用预设语言解析模型对语音信号进行语义识别，以识别出语音信号所要表达的用户意图，将该用户意图定义为第二语音指令，进行语义识别得到的识别结果也即第三识别结果包括第二语音指令。

预设语言解析模型可以为能够进行语义识别的任意模型，本申请实施例对于预设语言解析模型的具体内容不作限定。

S403：判断车载指令库是否包含第二语音指令。

其中，车载指令库包括车载语音助手可理解的任意指令。

车载指令库种包括有车载语言助手可理解的任意指令。判断车载指令库是否包含第二语音指令，若包含，表示车载语音助手理解该第二语音指令，根据车载语音助手的交互状态控制车载语音助手进行语音反馈，即执行步骤S404。反之，若未包含，则表示车载语音助手不理解该第二语音指令，则执行步骤S405。

S404：若是，根据车载语音助手的交互状态控制车载语音助手进行语音反馈。

车载指令库包含第二语音指令，表明车载语音助手理解该第二语音指令，进而根据车载语音助手的交互状态控制车载语音助手进行语音反馈，其实现方式与步骤S305至步骤S307相类似。例如判断车载语音助手的交互状态是否为空闲状态，若是，控制车载语音助手做出第二语音指令相对应的反馈。若否，控制车载语音助手生成第二提示语音，并播报第二提示语音，第二提示语音用于表征车载语音助手未处于空闲状态。

S405：若否，判断车载语音助手的交互状态是否为空闲状态。

若车载指令库不包含第二语音指令，表示车载语音助手不理解该第二语音指令。此时判断车载语音助手的交互状态是否为空闲状态，若是，即执行步骤S406，若否，即执行步骤S407。

S406：若是，控制车载语音助手控制车载语音助手生成第一提示表情，并在指定虚拟区域显示第一提示表情。

其中，第一提示表情用于表征车载语音助手无法理解第二语音指令。

由于车载语音助手无法理解该第二语音指令，故而，为了提高用户体验，可以控制车载语音助手控制车载语音助手生成第一提示表情，比如卡通表情、动作等，并在指定虚拟区域显示第一提示表情，以向用户表示车载语音助手无法理解该第二语音指令。

S407：若否，控制车载语音助手保持当前交互状态，且不响应于第二语音指令做出任何反馈。

车载语音助手的交互状态不为空闲状态，而由于此时车载语音助手也不理解第二语音指令，故而控制车载语音助手保持当前交互状态，且不响应于第二语音指令做出任何反馈。

本申请实施例提供的车载语音交互方法，根据前期语音指令确定出车辆内不存在预设人与人对话行为时，进一步对语音信号利用预设语言解析模型进行语义识别，得到表达用户意图的第二语音指令，若车载语音助手理解第二语音指令，并处于空闲状态则直接做出第二语音指令对应反馈。而若理解第二语音指令但非空闲状态则可以生成第二提示语音以提醒用户车载语音助手当前未处于空闲状态。但当车载语音助手不理解第二语音指令时，若为空闲状态可以控制车载语音助手生成第一提示表情并显示第一提示表情，以提醒用户不理解第二语音指令。而当车载语音助手不理解第二语音指令且非空闲状态是则不响应于第二语音指令做出任何反馈，并保持自身非空闲状态的当前交互状态。针对语音信号的用途不是大概率的人与人对话的情景，基于检测识别能力以及自然语言理解功能实现用户与车载语音助手之间的随时交互，无需唤醒车载语音助手，也无需用户牢记特定命令词，提升了交互体验。

在一种可能的设计中，步骤S202中对语音信号进行语义识别，得到第二识别结果，响应于第二识别结果以及车载语音的交互状态控制车载语音助手进行语音反馈可能的实现方式如图10所示。图10为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图10所示，本申请实施例包括：

S501：使用预设语言解析模型对语音信号进行语义识别，以获得第四语音指令。

其中，第二识别结果包括第二语音指令。

语音信号的发出者在第一时长内注视过指定虚拟区域，即可认为语音信号用于车载语音助手的交互。故而利用预设语言解析模型对语音信号进行语义识别，以识别出语音信号所要表达的用户意图，将该用户意图定义为第四语音指令，进行语义识别得到的识别结果也即第二识别结果包括第四语音指令。

S502：判断车载指令库是否包含第四语音指令。

其中，车载指令库包括车载语音助手可理解的任意指令。

车载指令库种包括有车载语言助手可理解的任意指令。判断车载指令库是否包含第四语音指令，若包含，表示车载语音助手理解该第四语音指令，根据车载语音助手的交互状态控制车载语音助手进行语音反馈，即执行步骤S503。反之，若未包含，则表示车载语音助手不理解该第四语音指令，则执行步骤S504。

S503：若是，根据车载语音助手的交互状态控制车载语音助手进行语音反馈。

车载指令库包含第四语音指令，表明车载语音助手理解该第四语音指令，进而根据车载语音助手的交互状态控制车载语音助手进行语音反馈，其实现方式与步骤S305至步骤S307相类似。例如判断车载语音助手的交互状态是否为空闲状态，若是，控制车载语音助手做出第四语音指令相对应的反馈。若否，控制车载语音助手生成第三提示语音，并播报第三提示语音，第三提示语音用于表征车载语音助手未处于空闲状态。

S504：若否，判断车载语音助手的交互状态是否为空闲状态。

若车载指令库不包含第四语音指令，表示车载语音助手不理解该第四语音指令。此时判断车载语音助手的交互状态是否为空闲状态，若是，即执行步骤S505，若否，即执行步骤S506。

S505：若是，控制车载语音助手生成第三提示表情，并在指定虚拟区域显示第三提示表情。

其中，第三提示表情用于表征车载语音助手无法理解第四语音指令。

由于车载语音助手无法理解该第四语音指令，故而，为了提高用户体验，可以控制车载语音助手生成第三提示表情，比如卡通表情、动作等，并在指定虚拟区域显示第三提示表情，以向用户表示车载语音助手无法理解该第四语音指令。

S506：若否，控制车载语音助手保持当前交互状态，且不响应于第四语音指令做出任何反馈。

车载语音助手的交互状态不为空闲状态，而由于此时车载语音助手也不理解第四语音指令，故而控制车载语音助手保持当前交互状态，且不响应于第四语音指令做出任何反馈。

本申请实施例提供的车载语音交互方法，语音信号的发出者在第一时长内注视过指定虚拟区域，即认为语音信号用于车载语音助手的交互。进一步对语音信号利用预设语言解析模型进行语义识别，得到表达用户意图的第四语音指令，若车载语音助手理解第四语音指令，并处于空闲状态则直接做出第四语音指令对应反馈。而若理解第四语音指令但非空闲状态则可以生成第三提示语音以提醒用户车载语音助手当前未处于空闲状态。但当车载语音助手不理解第四语音指令时，若车载语音助手的交互状态为空闲状态则可以生成第三提示表情并显示第三提示表情，以提醒用户不理解第四语音指令。而当车载语音助手不理解第四语音指令且非空闲状态时则不响应于第四语音指令做出任何反馈，并保持自身非空闲状态的当前交互状态。针对车辆内并非一人，或者车辆内仅一人但该一人佩戴耳机，但语音信号的发出者在第一时长内注视过车载语音助手的指定虚拟区域的情景，基于检测识别能力以及自然语言理解功能实现用户与车载语音助手之间的随时交互，无需唤醒车载语音助手，也无需用户牢记特定命令词，提升了交互体验。

在一种可能的设计中，步骤S103检测语音信号的发出者是否存在预设对话行为可能的实现方式如图11所示。图11为本申请实施例提供的又一种车载语音交互方法的流程示意图。如图11所示，本申请实施例包括：

S601：获取车辆的车速以及蓝牙连接状态；

S602：通过预设图像识别模型获取语音信号的发出者的面部朝向以及通话状态特征；

S603：根据车速、蓝牙连接状态、面部朝向以及通话状态特征确定语音信号的发出者是否不存在预设对话行为。

基于本地侧的检测识别能力以及车辆的行驶状态例如车速及蓝牙连接状态综合判断语音信号的发出者是否存在电话对话行为或者窗外对话行为。

具体地，首先获取车辆的车速以及蓝牙连接状态，并通过预设图像识别模型获取语音信号的发出者的面部朝向以及通话状态特征，通话状态特征可以例如描述打电话的特征。结合所获取到的各种状态数据以及特征数据对语音信号的发出者是否存在电话对话行为或窗外对话行为进行判断。

在一种可能的设计中，步骤S603可能的实现方式包括：

例如，当蓝牙连接有手机时，通过蓝牙可以免提拨打电话。故而，判断蓝牙连接状态是否为手机占用状态，若是，则表明语音信号的发出者存在电话对话行为。而若不是，则表明语音信号的发出者不存在电话对话行为。

又和/或，例如，手持电话以做通话状的场景可以通过预设图像识别模型得以检测，故而将获取到的通话状态特征与手持通话状态进行比对，以识别出通话状态特征是否与手持通话状态相符，若相符，则表示语音信号的发出者存在电话对话行为，反之，若不相符，则语音信号的发出者不存在电话对话行为。和/或

再和/或，例如，当车辆为停车状态时，可能会存在窗外对话行为。故而，根据车速判断车辆是否为停车状态，若是，则确定语音信号的发出者存在窗外对话行为。若不是，则语音信号的发出者不存在窗外对话行为。

又和/或，例如，车辆内的人若与窗外人进行交谈则会存在转头行为，故而，获取语音信号的发出者的面部朝向与车辆的正前方之间的偏离角度，将偏离角度与预设角度进行比较，若偏离角度大于或者等于预设角度，则表示语音信号的发出者存在窗外对话行为。相反，若偏离角度小于预设角度，则表示语音信号的发出者不存在窗外对话行为。预设角度的具体取值根据实际情况设置，本申请实施例不限定。

需要说明的时，上述实施例描述的确定语音信号的发出者是否存在预设对话行为的各实现方式仅是示意性举例说明，确定语音信号的发出者是否存在预设对话行为还可以包括其他可行方式，对此，本申请实施例不作限定。

本申请实施例提供的车载语音交互方法，基于本地侧的检测识别能力以及车辆的行驶状态例如车速及蓝牙连接状态综合判断语音信号的发出者是否存在电话对话行为或者窗外对话行为，以对语音信号用于电话对话行为或者窗外对话行为的情景进行排除，便于确定语音信号用于车载语音助手的交互，从而无需唤醒车载语音助手，也无需用户牢记特定命令词，可以实现全场景下用户与车载语音助手的随时交互，提升了交互体验。并且在本地测实现各种检测识别能力，可以确保车辆内用户的隐私安全并提高响应及时度。

图12为本申请实施例提供的一种车载语音交互装置的结构示意图。如图12所示，本申请实施例提供的车载语音交互装置700，包括：

第一处理模块701，用于在检测到车辆内存在语音信号且语音信号的发出者不存在预设对话行为时，判断车辆内是否仅有一人且仅有的一人不具备耳机佩戴特征，得到第一判断结果。

第二处理模块702，用于若第一判断结果为否，判断语音信号的发出者在第一时长内是否注视过车载语音助手的指定虚拟区域，得到第二判断结果，响应于第二判断结果控制车载语音助手进行语音反馈。

第三处理模块703，用于若第一判断结果为是，对语音信号进行语义识别，得到第一识别结果，响应于第一识别结果控制车载语音助手进行语音反馈。

在一种可能的设计种，第二处理模块702，具体用于：

若第二判断结果为否，获取第二时长内的前期语音信号，根据预设高频语言库以及前期语音信号控制车载语音助手进行语音反馈，第二时长为出现语音信号前的预设时长；

若第二判断结果为是，则对语音信号进行语义识别，得到第二识别结果，响应于第二识别结果以及车载语音的交互状态控制车载语音助手进行语音反馈。

在一种可能的设计中，第二处理模块702，还具体用于：

对前期语音信号进行语义识别以及上下文解析，以获得前期语音信号包括的前期语音指令；

根据前期语音指令判断车辆内是否存在预设人与人对话行为；

若是，根据语音信号和预设高频语言库控制车载语音助手进行语音反馈；

若否，对语音信号进行语义识别，得到第三识别结果，响应于第三识别结果以及车载语音助手的交互状态控制车载语音助手进行语音反馈。

在一种可能的设计中，第二处理模块702，还具体用于：

使用预设语言解析模型对语音信号进行语义识别，以获得第一语音指令；

判断预设高频语言库是否包含第一语音指令；

若是，根据车载语音助手的交互状态控制车载语音助手进行语音反馈；

若否，结束车载语音交互方法。

在一种可能的设计中，第二处理模块702，还具体用于：

判断车载语音助手的交互状态是否为空闲状态，空闲状态是指车载语音助手当前未与除过语音信号的发出者之外的其他人进行交互；

若是，控制车载语音助手做出第一语音指令相对应的反馈；

若否，控制车载语音助手生成第一提示语音，并播报第一提示语音，第一提示语音用于表征车载语音助手未处于空闲状态。

在一种可能的设计中，第二处理模块702，还具体用于：

使用预设语言解析模型对语音信号进行语义识别，以获得第二语音指令，第三识别结果包括第二语音指令；

判断车载指令库是否包含第二语音指令，车载指令库包括车载语音助手可理解的任意指令；

若否，并确定车载语音助手的交互状态为空闲状态时，控制车载语音助手生成第一提示表情，并在指定虚线区域显示第一提示表情，第一提示表情用于表征车载语音助手无法理解第二语音指令。

若确定车载指令库未包含第二语音指令，且车载语音助手的交互状态非空闲状态，第二处理模块702，还用于：

控制车载语音助手保持当前交互状态，且不响应于第二语音指令做出任何反馈。

在一种可能的设计中，第二处理模块702，还具体用于：

通过预设视线跟踪模型获取第一时长内语音信号的发出者的视线方向；

判断视线方向是否指向指定虚拟区域；

若是，则得到的第二判断结果为是；

若否，则得到的第二判断结果为否。

在一种可能的设计中，第三处理模块703，还具体用于：

使用预设语言解析模型对语音信号进行语义识别，以获得第三语音指令，第一识别结果包括第三语音指令；

判断车载指令库是否包含第三语音指令，车载指令库包括车载语音助手可理解的任意指令；

若是，控制车载语音助手做出第三语音指令相对应的反馈；

若否，控制车载语音助手生成第二提示表情，并在指定虚拟区域显示第二提示表情，第二提示表情用于表征车载语音助手无法理解第三语音指令。

在一种可能的设计中，第一处理模块701，还具体用于：

对获取到的语音信号的发声区域图像进行人物特征识别，根据识别到的人物特征获取车辆内的人数；

若根据车辆内的人数确定车辆内仅有一人，则通过人物特征识别检测仅有的一人是否不具有耳机佩戴特征，若是，则第一判断结果为是；

若根据车辆内的人数确定车辆内非一人，或者，仅有的一人具有耳机佩戴特征，则第一判断结果为否。

在一种可能的设计中，第一处理模块701，还具体用于：

获取车辆的车速以及蓝牙连接状态；

通过预设图像识别模型获取语音信号的发出者的面部朝向以及通话状态特征；

根据车速、蓝牙连接状态、面部朝向以及通话状态特征确定语音信号的发出者是否不存在预设对话行为。

在一种可能的设计中，第一处理模块701，还具体用于：

判断蓝牙连接状态是否为手机占用状态；

根据车速判断车辆是否为停车状态；

获取面部朝向与车辆的正前方之间的偏离角度，将偏离角度与预设角度进行比较；

识别通话状态特征是否与手持通话状态相符；

若蓝牙连接状态不为手机占用状态，和/或，通话状态特征与手持通话状态不相符，则语音信号的发出者不存在电话对话行为；和/或，

若车辆不为停车状态，和/或，偏离角度小于预设角度，则语音信号的发出者不存在窗外对话行为。

在一种可能的设计中，第一处理模块701，还具体用于：

通过人物特征识别检测车辆内是否有人；

若是，检测目标人是否存在唇动信号，目标人为车辆内的所有人；

若存在唇动信号，并通过定向拾音模型检测到唇动信号对应的目标人发出语音信号，则车辆存在语音信号。

在一种可能的设计中，若车辆内无人，或者，车辆内有人但不存在语音信号，或者语音信号的发出者存在预设对话行为，第一处理模块701，还用于：结束车载语音交互方法。

本申请实施例提供的车载语音交互装置，可以执行上述方法实施例中的车载语音交互方法的相应步骤，其实现原理和技术效果类似，在此不再赘述。

图13为本申请实施例提供的一种电子设备的结构示意图。如图13所示，该电子设备可以包括：处理器801，以及与处理器801通信连接的存储器802。

存储器802，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机执行指令。

存储器802可能包含高速RAM存储器，也可能还包括非易失性存储器(MoM-volatile memory)，例如至少一个磁盘存储器。

处理器801用于执行存储器802存储的计算机执行指令，以实现车载语音交互方法。

其中，处理器801可能是一个中央处理器(CeMtral ProcessiMg UMit，简称为CPU)，或者是特定集成电路(ApplicatioM Specific IMtegrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选地，存储器802既可以是独立的，也可以跟处理器801集成在一起。当存储器802是独立于处理器801之外的器件时，电子设备800，还可以包括：

总线803，用于连接处理器801以及存储器802。总线可以是工业标准体系结构(industry standard architecture，简称为ISA)总线、外部设备互连(peripheralcomponent，PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器802和处理器801集成在一块芯片上实现，则存储器802和处理器801可以通过内部接口完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-OMly Memory)、随机存取存储器(RAM，RaMdomAccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有计算机执行指令，计算机执行指令用于上述实施例中的车载语音交互方法。

本申请还提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现上述实施例中的车载语音交互方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种车载语音交互方法，其特征在于，应用于车载终端，所述车载终端与车载语音助手通信连接；所述方法，包括：

若所述第一判断结果为是，对所述语音信号进行语义识别，得到第一识别结果，响应于所述第一识别结果控制所述车载语音助手进行语音反馈；

所述响应于所述第二判断结果控制所述车载语音助手进行语音反馈，包括：

若所述第二判断结果为否，获取第二时长内的前期语音信号，根据预设高频语言库以及所述前期语音信号控制所述车载语音助手进行所述语音反馈，所述第二时长为出现所述语音信号前的预设时长；

若所述第二判断结果为是，则对所述语音信号进行语义识别，得到第二识别结果，响应于所述第二识别结果以及所述车载语音的交互状态控制所述车载语音助手进行语音反馈。

2.根据权利要求1所述的车载语音交互方法，其特征在于，所述根据预设高频语言库以及所述前期语音信号控制所述车载语音助手进行所述语音反馈，包括：

3.根据权利要求2所述的车载语音交互方法，其特征在于，所述根据所述语音信号和所述预设高频语言库控制所述车载语音助手进行所述语音反馈，包括：

判断所述预设高频语言库是否包含所述第一语音指令；

若否，结束所述车载语音交互方法。

4.根据权利要求3所述的车载语音交互方法，其特征在于，所述根据所述车载语音助手的交互状态控制所述车载语音助手进行所述语音反馈，包括：

5.根据权利要求2所述的车载语音交互方法，其特征在于，所述对所述语音信号进行语义识别，得到第三识别结果，响应于所述第三识别结果以及所述车载语音助手的交互状态控制所述车载语音助手进行语音反馈，包括：

6.根据权利要求5所述的车载语音交互方法，其特征在于，若确定所述车载指令库未包含所述第二语音指令，且所述车载语音助手的交互状态非所述空闲状态，控制所述车载语音助手保持当前交互状态，且不响应于所述第二语音指令做出任何反馈。

7.根据权利要求1-6任一项所述的车载语音交互方法，其特征在于，所述判断所述语音信号的发出者在第一时长内是否注视过所述车载语音助手的指定虚拟区域，得到第二判断结果，包括：

判断所述视线方向是否指向所述指定虚拟区域；

若是，则得到的所述第二判断结果为是；

若否，则得到的所述第二判断结果为否。

8.根据权利要求1所述的车载语音交互方法，其特征在于，所述对所述语音信号进行语义识别，得到第一识别结果，响应于所述第一识别结果控制所述车载语音助手进行语音反馈，包括：

9.根据权利要求8所述的车载语音交互方法，其特征在于，所述判断所述车辆内是否仅有一人且仅有的所述一人不具备耳机佩戴特征，包括：

对获取到的语音信号的发声区域图像进行人物特征识别，根据识别到的人物特征获取所述车辆内的人数；

若根据所述车辆内的人数确定所述车辆内仅有一人，则通过所述人物特征识别检测仅有的所述一人是否不具有所述耳机佩戴特征，若是，则所述第一判断结果为是；

若根据所述车辆内的人数确定所述车辆内非一人，或者，仅有的所述一人具有所述耳机佩戴特征，则所述第一判断结果为否。

10.根据权利要求9所述的车载语音交互方法，其特征在于，检测所述语音信号的发出者是否存在所述预设对话行为，包括：

获取所述车辆的车速以及蓝牙连接状态；

11.根据权利要求10所述的车载语音交互方法，其特征在于，所述根据所述车速、所述蓝牙连接状态、所述面部朝向以及所述通话状态特征确定所述语音信号的发出者是否不存在所述预设对话行为，包括：

判断所述蓝牙连接状态是否为手机占用状态；

根据所述车速判断所述车辆是否为停车状态；

识别所述通话状态特征是否与手持通话状态相符；

若所述蓝牙连接状态不为所述手机占用状态，和/或，所述通话状态特征与所述手持通话状态不相符，则所述语音信号的发出者不存在电话对话行为；和/或，

若所述车辆不为所述停车状态，和/或，所述偏离角度小于所述预设角度，则所述语音信号的发出者不存在窗外对话行为。

12.根据权利要求11所述的车载语音交互方法，其特征在于，检测所述车辆内是否存在所述语音信号，包括：

通过所述人物特征识别检测所述车辆内是否有人；

13.根据权利要求12所述的车载语音交互方法，其特征在于，若所述车辆内无人，或者，所述车辆内有人但不存在所述语音信号，结束所述车载语音交互方法；或者，

14.一种车载语音交互装置，其特征在于，包括：

第三处理模块，用于若所述第一判断结果为是，对所述语音信号进行语义识别，得到第一识别结果，响应于所述第一识别结果控制所述车载语音助手进行语音反馈；

所述第二处理模块，具体用于若所述第二判断结果为否，获取第二时长内的前期语音信号，根据预设高频语言库以及所述前期语音信号控制所述车载语音助手进行所述语音反馈，所述第二时长为出现所述语音信号前的预设时长；

15.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至13任一项所述的车载语音交互方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至13任一项所述的车载语音交互方法。