CN116153308B

CN116153308B - 一种智能座舱3d语音交互系统及方法

Info

Publication number: CN116153308B
Application number: CN202310106659.4A
Authority: CN
Inventors: 章笑春
Original assignee: Rivotek Technology Jiangsu Co Ltd
Current assignee: Rivotek Technology Jiangsu Co Ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-10-27
Anticipated expiration: 2043-02-13
Also published as: CN116153308A

Abstract

本发明涉及智能座舱语音交互技术领域，具体涉及一种智能座舱3D语音交互系统及方法，该系统包括：信息接收模块，用于接收交互信息，将交互信息发送到指令触发模块；指令触发模块，用于接收交互信息，将交互信息转换为计算机指令发送到策略匹配模块；策略匹配模块，用于生成语音交互的交互策略，根据计算机指令匹配交互策略发送到指令执行模块；指令执行模块，用于根据交互策略调用软件或硬件接口实现语音交互功能。本发明主要兼容主动式和被动式两套语音交互框架，不排斥其他语音交互框架；基于现有语音交互框架，引入“交互音区”的逻辑策略，根据交互需求，实现音源方位变化，为用户提供“听声辨位”的体验，达到3D语音交互效果。

Description

一种智能座舱3D语音交互系统及方法

技术领域

本发明涉及智能座舱语音交互技术领域，具体涉及一种智能座舱3D语音交互系统及方法。

背景技术

随着车联网和人工智能技术的兴起，越来越多的功能被搭载在车机上，层出不穷的功能与日趋复杂的界面对驾驶者在驾驶过程中的注意力进行了争夺。对于当前“人机共驾”阶段，语音交互技术的独特优势得以显现——帮助驾驶者降低对车内设备的手动操作依赖，增加驾驶安全性。目前，语音交互是智能座舱的重要交互方式之一，例如，用户可以通过对话，与硬件进行控制域的交互，执行“打开后尾门、打开左后车窗、放倒右前座椅”等控制；用户可以通过收听，与软件进行信息域的交互，接收“右前未系安全带、后排有物品遗漏、左后方来车请注意开门、右前胎压异常”等信息。

当前对于智能座舱语音交互领域的探索尚处于起步阶段，现有方案的语音交互功能多以2D形式传递具有空间方位属性的信息，声音信号由中控扬声器发出，不符合直觉交互需求，存在明显的用户体验层缺陷；框架逻辑中，尚未引入分区交互逻辑，主要表现在未对不同方位的扬声器进行特定指令的调度。因此，需要提出一种智能座舱3D语音交互系统及方法。

发明内容

针对现有智能座舱语音交互功能多以2D形式传递具有空间方位属性的信息、不符合直觉交互需求，框架逻辑中尚未引入分区交互逻辑的问题，提出了一种智能座舱3D语音交互系统及方法，根据交互需求，就近调用一个或一组扬声器设备，实现音源方位变化，达到3D语音交互效果。

为了实现上述目的，本发明通过如下的技术方案来实现：

一种智能座舱3D语音交互系统，智能座舱内和智能座舱外共有至少6个扬声器，根据扬声器所在方位划分交互音区，每个扬声器对应一个交互音区，所述系统包括：信息接收模块、指令触发模块、策略匹配模块和指令执行模块；

所述信息接收模块用于接收交互信息，将所述交互信息发送到指令触发模块；所述交互信息为一条或多条；

所述指令触发模块用于接收所述交互信息，将所述交互信息转换为计算机指令发送到策略匹配模块；

所述策略匹配模块用于生成语音交互的交互策略，根据所述计算机指令匹配交互策略发送到指令执行模块；

所述指令执行模块用于根据所述交互策略调用软件或硬件接口实现语音交互功能。

作为本发明的一种优选方案，所述交互信息包括主动式语音交互信息和被动式语音交互信息，所述主动式语音交互信息包括唤醒事件信息和语音文字信息，所述被动式语音交互信息包括疲劳提醒信息、开门安全提醒信息和异常检查提醒信息。

作为本发明的一种优选方案，所述信息接收模块包括唤醒监听引擎、语音识别引擎、人脸识别引擎、场景识别引擎和应用进程监听引擎；

所述唤醒监听引擎用于监听唤醒系统语音助手的唤醒事件信息；

所述唤醒事件信息包括语音唤醒词唤醒、实体按键唤醒或虚拟按键唤醒；

所述语音识别引擎用于将麦克风收录的用户语音转换为语音文字信息；

所述人脸识别引擎用于对驾驶员人脸进行识别，监听驾驶员的疲劳参数，当所述疲劳参数达到系统预设的疲劳阈值时触发疲劳提醒信息；

所述场景识别引擎用于监听用户行为和车外环境，当后方来车且用户准备开门时触发开门安全提醒信息；

所述应用进程监听引擎用于监听车辆运行状态，当车辆运行出现异常时触发异常检查提醒信息。

作为本发明的一种优选方案，所述指令触发模块包括语义理解引擎和场景决策引擎；所述计算机指令包括语音指令和状态指令；

所述语义理解引擎用于将所述主动式语音交互信息转换为语音指令；

所述场景决策引擎用于将所述被动式语音交互信息转换为状态指令。

作为本发明的一种优选方案，所述策略匹配模块包括对象策略匹配引擎和目标策略匹配引擎；所述交互策略包括对象匹配策略和目标匹配策略；

所述对象策略匹配引擎用于根据交互对象所在方位生成对象匹配策略，调度交互对象所在交互音区内的扬声器进行语音交互；所述交互对象所在方位根据声源进行定位；

所述对象匹配策略为根据所述计算机指令生成交互策略对应动作，在桌面语音对话框显示“好的”，通过TTS语音合成技术在交互对象所在的交互音区播报指令执行模块的执行结果；

所述目标策略匹配引擎用于根据交互目标所在方位生成目标匹配策略，调度交互目标所在交互音区内的扬声器进行语音交互；

所述目标匹配策略为根据所述计算机指令生成交互策略对应动作，在桌面语音对话框显示“好的”，通过TTS语音合成技术在交互目标所在的交互音区播报指令执行模块的执行结果。

作为本发明的一种优选方案，所述目标策略匹配引擎和对象策略匹配引擎部署在云端或本地客户端；

若部署在云端，所述云端包括管理模块、云端存储模块和下发模块；

所述管理模块用于对所述交互策略进行增加、删除、修改、查询操作；

所述云端存储模块用于对系统数据进行存储和更新；

所述下发模块用于下发所述交互策略到指令执行模块；

若部署在本地客户端，所述本地客户端包括本地存储模块、处理模块和通讯模块；

所述本地存储模块用于对系统数据进行存储和更新；

所述处理模块用于根据所述计算机指令匹配交互策略；

所述通讯模块用于将所述交互策略通过接口调用发送给指令执行模块。

一种智能座舱3D语音交互方法，所述方法包括：

唤醒系统语音助手，所述唤醒方式包括唤醒词唤醒、实体按键唤醒或虚拟按键唤醒；

车载麦克风采集用户语音，生成主动式语音交互信息并进行语音识别和语义理解，将所述语音消息转换为计算机指令；

生成语音交互的交互策略，根据所述计算机指令匹配交互策略，具体包括：

根据交互对象所在方位，将所述计算机指令转化为对象匹配策略；

根据交互目标所在方位，将所述计算机指令转化为目标匹配策略；

根据所述交互策略调用软件或硬件接口实现语音交互功能。

作为本发明的一种优选方案，所述方法还包括：对用户行为和车外环境进行监听，根据监听结果主动生成被动式语音交互信息，并转换为状态指令。

一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一项所述的一种智能座舱3D语音交互系统中的交互过程。

一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一项所述的一种智能座舱3D语音交互系统中的交互过程。

与现有技术相比，本发明具有的有益效果是：

本发明方案简单易于推广，主要兼容主动式和被动式两套语音交互框架，不排斥其他语音交互框架。基于现有语音交互框架，引入“交互音区”的逻辑策略，根据交互需求，根据交互对象所在方位或交互目标所需方位，就近调用1个或1组扬声器设备，实现音源方位变化，为用户提供“听声辨位”的体验，达到3D语音交互效果，提升智能座舱人机交互的准确性，增强虚拟与现实融合交互的有效性，有效改善用户体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。其中：

图1为本发明实施例中的系统结构图；

图2为本发明实施例中交互音区划分示意图；

图3为本发明实施例中的方法流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

如图1所示，为本发明的一个实施例，该实施例提供了一种智能座舱3D语音交互系统，硬件基础为智能座舱内和智能座舱外共有至少6个扬声器，根据扬声器所在方位划分交互音区，每个扬声器对应一个交互音区，软件基础为包含指令触发、策略匹配、指令执行等语音交互流程。

如图2所示，该实施例中共划分为8个交互音区，车机中控屏处为交互音区1，右侧后视镜处为交互音区2，左侧后视镜处为交互音区3，右侧车门处为交互音区4，左侧车门处为交互音区5，右后方为交互音区6，左后方为交互音区7，后备箱处为交互音区8。该系统包括：信息接收模块、指令触发模块、策略匹配模块和指令执行模块。

本发明主要兼容主动式和被动式两套语音交互框架，不排斥其他语音交互框架，相较市面上的方案，策略匹配过程中，引入了“交互音区”策略，功能逻辑预设在系统中，系统运行时执行相关操作，功能逻辑可本地写死，也可云端配置。

信息接收模块用于接收交互信息，将交互信息发送到指令触发模块；所述交互信息可以是一条也可以是多条；

交互信息包括主动式语音交互信息和被动式语音交互信息，所述主动式语音交互信息包括唤醒事件信息、语音文字信息等，被动式语音交互信息包括疲劳提醒信息、开门安全提醒信息、异常检查提醒信息等。

信息接收模块包括唤醒监听引擎、语音识别引擎、人脸识别引擎、场景识别引擎、应用进程监听引擎等；

唤醒监听引擎用于监听唤醒系统语音助手的唤醒事件信息；唤醒事件信息包括语音唤醒词唤醒、实体按键唤醒、虚拟按键唤醒等；

可选地，用户通过语音唤醒，如“嗨，妮可妮可”；

可选地，用户通过实体按键唤醒，如点击方向盘语音唤醒按键；

可选地，用户通过虚拟按键唤醒（即界面中可交互的元素），如点击状态栏语音唤醒图标；

语音识别引擎用于将麦克风收录的用户语音转换为语音文字信息；例如：用户说“打开后备箱”，将该条语音通过语音识别引擎转换为语音文字信息；

人脸识别引擎用于对驾驶员人脸进行识别，监听驾驶员的疲劳参数，当疲劳参数达到系统预设的疲劳阈值时触发疲劳提醒信息；

场景识别引擎用于监听用户行为和车外环境，当后方来车且用户准备开门时触发开门安全提醒信息；

应用进程监听引擎用于监听车辆运行状态，当车辆运行出现异常时触发异常检查提醒信息。

指令触发模块用于接收交互信息，将交互信息转换为计算机指令发送到策略匹配模块；

指令触发模块包括语义理解引擎、场景决策引擎等；计算机指令包括语音指令、状态指令等；计算机指令可以是一条也可以是多条；

语义理解引擎用于将主动式语音交互信息转换为语音指令；

例如：语音操控车机，文字“打开后备箱”经过语义理解转化为指令“open_the _trunk”，将该语音指令发送到策略匹配模块；又如：语音操控车机，文字“打开后备箱和车窗”经过语义理解转化为语音指令1“open_the _trunk”和语音指令2“open_all_windows”，语音指令1和语音指令2发送到策略匹配模块；再如：语音查询信息，文字“今天天气怎么样”经过语义理解转化为语音指令“query_weather，date=2022_11_22，place=beijing”，将该语音指令发送到策略匹配模块。

场景决策引擎用于将被动式语音交互信息转换为状态指令，状态指令即场景建议指令，基于被动式语音交互框架，即主动建议流程；

例如：疲劳提醒信息，“疲劳参数阈值≥N”，经过场景决策引擎转化为状态指令“remind=actionB”，将该状态指令发送到策略匹配模块；

再如，开门安全提醒信息，“开门行为参数阈值≥N”且“后方来车参数≠0”，经过场景决策引擎转化为状态指令“remind=actionC”，将该状态指令发送到策略匹配模块。

策略匹配模块用于生成语音交互的交互策略，根据计算机指令匹配交互策略发送到指令执行模块；

策略匹配模块包括对象策略匹配引擎、目标策略匹配引擎等一个或多个策略匹配引擎；交互策略包括对象匹配策略、目标匹配策略等；

计算机指令对应的逻辑维度，可以是一个也可以是多个维度，比如仅有TTS交互策略；每种交互策略，可以是一个逻辑也可以是多个维度，比如动作包含车机硬件响应、界面响应。

对象策略匹配引擎用于根据交互对象所在方位生成对象匹配策略，调度交互对象所在交互音区内的扬声器进行语音交互；所述交互对象所在方位根据声源进行定位；

对象匹配策略为根据所述计算机指令生成交互策略对应动作，在桌面语音对话框显示“好的”，通过TTS语音合成技术在交互对象所在的交互音区播报指令执行模块的执行结果；

例如：打开后备箱，后备箱位于音区8，则配置对应音区的参数。指令“open_the _trunk”，交互策略对应动作=open_the _trunk，TTS，if success=“后备箱已打开”，if fail=“（具体原因）”，GUI，语音对话框words=“好的”，交互音区=“8”。

所述目标匹配策略为根据所述计算机指令生成交互策略对应动作，在桌面语音对话框显示“好的”，通过TTS语音合成技术在交互目标所在的交互音区播报指令执行模块的执行结果；

例如：打开后备箱，若交互对象是主驾，则配置对应音区的参数。指令“open_the _trunk”，交互策略对应动作=open_the _trunk，TTS，if success=“后备箱已打开”，if fail=“（具体原因）”，GUI，语音对话框words=“好的”，交互音区=“（交互对象所在方位）”：交互音区=3；当交互对象为副驾时，交互音区=2；以此类推。

目标策略匹配引擎和对象策略匹配引擎部署在云端或本地客户端；

所述云端存储模块用于对系统数据进行存储和更新；

所述下发模块用于下发所述交互策略到指令执行模块；下发时机不作限制，优选由运营人员主动推送下发，可选固定时间下发。

所述本地存储模块用于对系统数据进行存储和更新；

所述处理模块用于根据所述计算机指令匹配交互策略；

指令执行模块用于根据所述交互策略调用软件或硬件接口实现语音交互功能，例如：调用扬声器8播报语音“后备箱已打开”。

该实施例的使用场景主要有两类：

一是根据交互对象所在方位，就近调度扬声器进行语音交互：

例如，左后方用户发出语音命令，交互对象是左后用户，为减少对其他乘客的声音干扰，使用左后分区的扬声器进行语音交互；

再如，车外用户发出语音命令，交互对象是车外用户，为使得车外用户能听得清，使用车外分区的扬声器进行语音交互。

二是根据交互目标所需方位，就近调度扬声器进行语音交互：

例如，左后方来车时，交互目的是传递来车方位，为清晰传递方位感知，使用左后分区的扬声器进行语音交互；

再如，左前方胎压异常时，交互目的是传递异常方位，为清晰传递方位感知，使用左前分区的扬声器进行语音交互。

如图3所示，为本发明的另一实施例，该实施例提供了一种智能座舱3D语音交互方法，具体包括：

根据所述交互策略调用软件或硬件接口实现语音交互功能。

该方法还包括：对用户行为和车外环境进行监听，根据监听结果主动生成被动式语音交互信息，并转换为状态指令。

综上所述，本发明方案简单易于推广，主要兼容主动式和被动式两套语音交互框架，不排斥其他语音交互框架。基于现有语音交互框架，引入“交互音区”的逻辑策略，根据交互需求，根据交互对象所在方位或交互目标所需方位，就近调用1个或1组扬声器设备，实现音源方位变化，为用户提供“听声辨位”的体验，达到3D语音交互效果，提升智能座舱人机交互的准确性，增强虚拟与现实融合交互的有效性，有效改善用户体验。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器、磁盘或光盘等。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种智能座舱3D语音交互系统，智能座舱内和智能座舱外共有至少6个扬声器，根据扬声器所在方位划分交互音区，每个扬声器对应一个交互音区，其特征在于，所述系统包括：信息接收模块、指令触发模块、策略匹配模块和指令执行模块；

所述信息接收模块用于接收交互信息，将所述交互信息发送到指令触发模块；所述交互信息为一条或多条；所述交互信息包括主动式语音交互信息和被动式语音交互信息，所述主动式语音交互信息包括唤醒事件信息和语音文字信息，所述被动式语音交互信息包括疲劳提醒信息、开门安全提醒信息和异常检查提醒信息；

所述指令触发模块用于接收所述交互信息，将所述交互信息转换为计算机指令发送到策略匹配模块；所述指令触发模块包括语义理解引擎和场景决策引擎；所述计算机指令包括语音指令和状态指令；所述语义理解引擎用于将所述主动式语音交互信息转换为语音指令；所述场景决策引擎用于将所述被动式语音交互信息转换为状态指令；

所述策略匹配模块用于生成语音交互的交互策略，根据所述计算机指令匹配交互策略发送到指令执行模块；所述策略匹配模块包括对象策略匹配引擎和目标策略匹配引擎；所述交互策略包括对象匹配策略和目标匹配策略；

2.根据权利要求1所述的一种智能座舱3D语音交互系统，其特征在于，所述信息接收模块包括唤醒监听引擎、语音识别引擎、人脸识别引擎、场景识别引擎和应用进程监听引擎；

3.根据权利要求1所述的一种智能座舱3D语音交互系统，其特征在于，所述目标策略匹配引擎和对象策略匹配引擎部署在云端或本地客户端；

所述云端存储模块用于对系统数据进行存储和更新；

所述下发模块用于下发所述交互策略到指令执行模块；

所述本地存储模块用于对系统数据进行存储和更新；

所述处理模块用于根据所述计算机指令匹配交互策略；

4.基于权利要求1-3任一项所述的一种智能座舱3D语音交互系统的语音交互方法，其特征在于，所述方法包括：

根据所述交互策略调用软件或硬件接口实现语音交互功能。

5.根据权利要求4所述的一种智能座舱3D语音交互系统的语音交互方法，其特征在于，所述方法还包括：对用户行为和车外环境进行监听，根据监听结果主动生成被动式语音交互信息，并转换为状态指令。

6.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一项所述的一种智能座舱3D语音交互系统中的交互过程。

7.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至3任一项所述的一种智能座舱3D语音交互系统中的交互过程。