CN115273843B

CN115273843B - 场景自适应的车载语音交互系统及方法

Info

Publication number: CN115273843B
Application number: CN202210845946.2A
Authority: CN
Inventors: 徐俊
Original assignee: Shanghai Enterprise Information Technology Co ltd
Current assignee: Shanghai Enterprise Information Technology Co ltd
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2023-12-05
Anticipated expiration: 2042-07-18
Also published as: CN115273843A

Abstract

本发明提出场景自适应的车载语音交互方法与系统,属于语音控制技术领域。方法包括步骤S100：接收用户输入的语音激活指令；S200：用户输入语音操作序列；S300：基于用户输入的语音操作序列确定目标语音序列；S400：执行所述目标语音序列对应的操作命令。基于车载环境参数与目标语音序列调节当前语音激活指令持续时长；当步骤S200再次执行时，在调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列。系统包括语音接收单元、目标语音序列筛选单元、车载环境参数获取单元、车载命令执行单元以及语音激活指令持续时长确定单元。本发明实现了连续语音指令输入场景下的指令激活时长的场景自适应调节，提升用户体验。

Description

场景自适应的车载语音交互系统及方法

技术领域

本发明属于语音控制技术领域，尤其涉及一种场景自适应的车载语音交互系统及方法。

背景技术

随着汽车智能化和语音技术的发展，语音在汽车上的运用越来越广泛。在用户驾驶车辆的过程中，能够无接触地实现用户对车辆或者车辆上车载系统的控制，可以在保障行车安全的情况下增强用户的使用体验；通过语音，而不是手去操作与控制车以及多媒体，很好地解放了双手，能极大提高驾车安全性。

语音交互的过程通常为：用户输入唤醒词(例如，您好，XX)或者一键按钮激活语音交互过程，然后，用户输入语音指令(例如，打开空调)，车载系统就会自动执行相应的命令(即打开空调)。

先前的语音交互控制只能识别单个指令而不能识别连续指令，如果要执行连续指令，则需要多次进行唤醒。例如，用户想要打开空调并且调到26℃，则至少需要输入四次语音指令：(1)“您好，xx”；(2)“打开空调”；(3)“您好，XX”；(4)“空调调到26度”。

为此，众多智能驾驶厂商已开发出连续语音指令交互功能，即一次唤醒后可以在预定时间段(例如20秒)内接收用户输入的连续语音指令，识别其中的多个语音指令并连续执行多个操作。以上述为例，用户只需要一次输入指令“您好，XX，打开空调，空调调到26度”或者“您好，XX，空调调到26度”，车载系统就会自动执行“打开空调-温度调节至26度”的连续两个操作。

然而，实际应用中发现，为达到上述连续指令输入与识别，车载系统必须在预定时间段(例如20秒)内持续保持激活状态，即使用户的语音指令已经输入完毕，转为正常交流(例如私密谈话)阶段，车载系统依然会继续接收用户的“语音指令”(但是此时接收到的语音已经是用户正常谈话而不是语音指令)并试图进行指令操作识别，在给用户带来困扰同时，也会带来车载系统的流量和能量损耗，降低了用户体验。

发明内容

为解决上述技术问题，本发明提出一种场景自适应的车载语音交互系统及方法。

具体的，在本发明的第一个方面，提供一种场景自适应的车载语音交互方法，所述方法包括如下步骤：

S100：接收用户输入的语音激活指令；

S200：用户输入语音操作序列；

S300：基于所述用户输入的语音操作序列确定目标语音序列；

S400：执行所述目标语音序列对应的操作命令；

S500：获取当前的车载环境参数；

S600：基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长；

当所述步骤S200再次执行时，在所述调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列。

其中，所述车载环境参数包括车内环境参数与车外环境参数；

所述车内环境参数包括车内有效乘客人数、车内有效乘客年龄段、车内有效乘客性别；

所述有效乘客是指输入语音操作序列的乘客；

通过所述用户输入的语音操作序列确定所述车内环境参数；

所述车外环境参数包括车辆行驶速度、车辆行驶环境，所述车辆行驶环境包括直行、弯道、倒车、白天与夜晚。

通过车载传感器确定所述车外环境参数。

所述目标语音序列是从所述用户输入的语音操作序列中筛选出来的属于同一个用户输入的语音操作序列。

具体的，所述步骤S600基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长，具体包括：

基于车载环境参数确定第一调节比例值W₁；

基于所述目标语音序列确定第二调节基准值T_B；

设当前语音激活指令持续时长为T_Cur；

则调节后的语音激活指令持续时长T'_Cur＝T_B+W₁T_Cur；

其中，T_B为目标语音序列Op_o中所有连续相邻的语音序列之间的时间间隔的和。

第一个方面所述方法还可以通过计算机设备，基于计算机程序指令执行，计算机程序指令可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。

上述技术方案中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

因此，在本发明的第二个方面，提供一种场景自适应的车载语音交互系统，所述系统包括语音接收单元、目标语音序列筛选单元、车载环境参数获取单元、车载命令执行单元以及语音激活指令持续时长确定单元；

其中，各个单元的功能原理介绍如下：

所述语音接收单元用于接收用户输入的语音激活指令与语音操作序列；

所述目标语音序列筛选单元用于从所述用户输入的语音操作序列中筛选出目标语音序列；

具体的，所述目标语音序列是从所述用户输入的语音操作序列中筛选出来的属于同一个用户输入的语音操作序列；

所述车载环境参数获取单元用于获取当前的车载环境参数；

所述车载命令执行单元用于执行所述目标语音序列对应的操作命令；

所述语音激活指令持续时长调节单元用于基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长；

在初次启动时，所述语音接收单元接收用户输入的连续语音序列；

再次启动时，所述语音接收单元在所述调节后的当前语音激活指令持续时长内获取用户输入的连续语音序列。

与上述方法方案相对应，第二个方面所述的系统在具体执行时，所述车载环境参数包括车内环境参数；

在初次启动时，所述语音接收单元通过所述用户输入的语音操作序列确定所述车内环境参数。

所述系统还包括多种车载传感器，

所述车载环境参数包括车外环境参数；

所述车外环境参数包括车辆行驶速度、车辆行驶环境，所述车辆行驶环境包括直行、弯道、倒车、白天与夜晚；

通过所述多种车载传感器确定所述车外环境参数。

所述语音激活指令持续时长调节单元基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长，具体包括：

基于车载环境参数确定第一调节比例值W₁；

基于目标语音序列确定第二调节基准值T_B；

设当前语音激活指令持续时长为T_Cur；

则调节后的语音激活指令持续时长T'_Cur＝T_B+W₁T_Cur；

可以看到，不同于现有技术提及的连续语音指令输入是在固定的预设时间内识别，本发明的当前语音激活指令持续时长是可以根据场景自适应调节的。

具体的，在初次启动时，尽可能多的接收用户输入语音操作序列，以确定当前的车载环境参数，然后基于车载环境参数确定第一调节比例值W₁；并基于所述目标语音序列确定第二调节基准值T_B；从而调节当前语音激活指令持续时长，使得再次探测到用户输入语音操作序列时，在所述调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列，而不是依旧在原有的固定的预设时间内识别，能够使得识别过程既能符合场景需求，又能够提升用户体验，降低对用户私密谈话的干扰。

本发明的更多实施例和改进效果将结合附图和具体实施例进一步介绍。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是通常的车载语音交互方法的主体流程示意图；

图2是本发明一个实施例的一种场景自适应的车载语音交互方法示意图；

图3是本发明一个实施例的一种场景自适应的车载语音交互方法系统的单元结构示意图；

图4是实现图1或图2所述方法的计算机设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

图1是通常的车载语音交互方法的主体流程示意图，主要包括四个步骤S100-S400；

S100：接收用户输入的语音激活指令；

S200：用户输入语音操作序列；

S300：基于所述用户输入的语音操作序列确定目标语音序列；

S400：执行所述目标语音序列对应的操作命令；

下面以用户想要某XX车载系统(语音唤醒词为XX)自动打开空调为例，介绍各个步骤的具体实现：

步骤S100：接收用户输入的语音激活指令，这里的语音激活指令可以是唤醒词或者按压或者触摸唤醒按钮，例如，用户口述“您好，XX”，则车载系统进入语音序列获取激活状态，准备捕捉接下来用户口述的进一步指令序列；

S200：用户输入语音操作序列；

在这里，用户可以简单输入，也可以复杂输入，例如，

“帮我打开空调”、“打开空调”、“空调打开”、“太热了”……

S300：基于所述用户输入的语音操作序列确定目标语音序列；

此时，基于用户前述步骤S200的语音输入，车载系统可以判断出的一个对应目标语音序列为“打开空调”；

S400：执行所述目标语音序列对应的操作命令；

此时，车载系统打开空调。

在仅支持单个语音指令的车载系统中，步骤S400之后，语音交互流程就会停止，用户想要再次激活语音交互流程，则必须回到步骤S100，重复上述过程，每次只能执行一个指令；

在支持连续语音指令序列交互的车载系统中，在步骤S400中，语音交互流程会继续等待用户指令输入，直到预设交互时间(语音激活指令持续时长)结束，例如，持续20s，而不管用户是否实际上已经不想进行语音交互，即语音激活指令持续时长每次都是固定的，某些厂商还可以提供时长设定按钮，但每次设定后都不会更改，降低了用户体验。

为此，本发明的实施例对此进行了改进，参见图2，图2是本发明一个实施例的一种场景自适应的车载语音交互方法示意图；

图2中，在图1基础上，所述方法还包括：

步骤S500：获取当前的车载环境参数；

步骤S600：基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长；

需要注意的是，在图2的场景中，图2的步骤S200与图1的步骤S200的含义不相同。

前述为方便介绍技术，图1的步骤S200默认了是“在预设的语音激活指令持续时长内，接收用户输入的语音操作序列”，以20s为例，图1的步骤S200仅接收20s以内的用户输入语音操作序列；

而在图2本发明的实施例中，步骤S200在首次启动时，不存在上述限制，即图2的步骤S200执行的是“接收用户输入语音操作序列，直至用户不再输入”，没有时间限制(虽然事实上存在预设的语音激活指令持续时长的初始值)，以最大程度的获取当前的车载环境参数尤其是车内环境参数。

这里的首次启动，可以理解为车载交互系统在每次熄火后重新启动后的首次进行语音交互。

基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长，例如将20s调节为10s或者25s。

此时，当所述步骤S200再次执行时，在所述调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列。

在上述实施例中，所述车载环境参数包括车内环境参数，

所述有效乘客是指输入语音操作序列的乘客；

通过所述用户输入的语音操作序列确定所述车内环境参数。

作为示例，可以通过初次启动时获得的用户输入的语音操作序列，来确定车内有效乘客人数、车内有效乘客年龄段、车内有效乘客性别。

具体的，可以通过语音序列的不同音色、音频或者声音强度或者其他声音属性，来识别出车内有效乘客人数、车内有效乘客年龄段、车内有效乘客性别，此类方法属于现有技术，本发明实施例对此不做具体展开，具体如何识别也不是本发明的重点，可以通过各种方法来进行识别，只要得到车内有效乘客人数、车内有效乘客年龄段、车内有效乘客性别即可。

在此基础上，基于车内环境参数确定第一调节比例值W₁；

可以理解，这里的第一调节比例值W₁可以为正数，也可以是负数，具体可基于大量历史数据与用户的反馈数据确定。

作为距离的实例，设车内有效乘客人数P、车内有效乘客年龄段R、车内有效乘客性别G；

则根据历史数据，若P＝1，则W₁＝0.5；因为此时只有驾驶员一人(本发明中，驾驶员作为乘客看待)；

若3>P>2,年龄段R∈[20,35]的乘客人数大于1，性别G大于1(即至少存在两个用户)，则W₁＝1.0；因为，此时大概率车辆后排无人，即只有前排乘客会发出语音指令，均为有效指令；

若P>3,则W₁＝-0.5；因为此时大概率后排有人，而后排语音指令应当视为干扰量。

当然，上述车内有效乘客人数P、车内有效乘客年龄段R、车内有效乘客性别G与W₁的对应关系，可以由车机系统基于历史数据基于学习模型给出初始的关系式，然后基于用户反馈进行反馈调整，或者，直接由用户配置，本发明对此不作具体限制。

同样的，还可以基于车外环境参数确定所述第一调节比例值W₁；

显然，可通过车载传感器确定所述车外环境参数。

作为示例，当车外环境较好时(例如行驶速度较低、执行、白天)时，可设置W₁∈(0,1]之间的正数，当车外环境较差时(例如行驶速度较高、弯道/倒车、夜晚/隧道)，可设置W₁∈(-1,0)之间的负数。

上述车外环境参数与第一调节比例值的对应关系，同样可以由车载系统自动化配置，并基于用户反馈进行调节。

作为优选，假设基于车内环境参数确定第一调节比例值W‘₁，同时基于车外参数确定另一个第一调节比例值W‘’₁；

则基于车载环境参数确定第一调节比例值

当然，还可以仅考虑车内环境参数或者车外环境参数确定所述第一调节比例值。

在另外一个方面，基于所述目标语音序列确定第二调节基准值T_B；

具体的，所述用户输入的语音操作序列为连续语音序列Op，所述连续语音序列Op包括N个语音序列，即Op＝{Op₁,Op₂,…,Op_N}；N≥2；

语音序列Op_i与语音序列Op_i+1之间的间隔时间为t_i；i＝1,2,…,N-1；

所述步骤S300基于连续语音序列Op确定目标语音序列Op_o，具体如下：

当t_i≥T_H时，将Op_i+1从Op中剔除；

显然，此时剔除了长时间停顿的语音序列，因为不连续；

当t_i＜T_H并且Op_i和Op_i+1来自于不同用户时，将Op_i+1从Op中剔除；

在这个标准中，确保所述目标语音序列是从所述用户输入的语音操作序列中筛选出来的属于同一个用户输入的语音操作序列。

其中，T_H为预先设置的间隔时间阈值，0.05ms＜T_H≤1s。

此时，所述步骤S600基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长，具体包括：

基于车载环境参数确定第一调节比例值W₁；

基于所述目标语音序列确定第二调节基准值T_B；

设当前语音激活指令持续时长为T_Cur；

例如，当前语音激活指令持续时长T_Cur系统设定的初始值为20s；

则调节后的语音激活指令持续时长T'_Cur＝T_B+W₁T_Cur；

可以了，上述调节公式T'_Cur＝T_B+W₁T_Cur本身也可以在用户调节与反馈中自适应学习与拟合，以达到更好的效果。

例如，上述公式还可以为：T'_Cur＝W‘₁T_B+W“₁T_Cur；可以提供选项，供用户选择。

因此，图2的实施例的实际实现步骤如下：

步骤S100：接收用户输入的语音激活指令；

步骤S200：当初次开启语音捕捉时，持续捕捉用户输入的语音操作序列直至用户不再进行语音输入；

步骤S300：基于所述用户输入的语音操作序列确定目标语音序列；

步骤S400：执行所述目标语音序列对应的操作命令；

步骤S500：获取当前的车载环境参数；

步骤S700：当所述步骤S200再次执行时，在所述调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列。

在图1-图2的基础上，参见图3，图3是本发明一个实施例的一种场景自适应的车载语音交互方法系统的单元结构示意图。

在图3中，所述系统可用于实现图2所述方法，系统包括语音接收单元、目标语音序列筛选单元、车载环境参数获取单元、车载命令执行单元以及语音激活指令持续时长确定单元；

可理解的是，图2所述方法的对应步骤的执行模块在图3均有对应的单元，即使后续图3并未提及。

所述车载环境参数获取单元用于获取当前的车载环境参数；

所述车载环境参数包括车内环境参数；

所述系统还包括多种车载传感器，

所述车载环境参数包括车外环境参数；

通过所述多种车载传感器确定所述车外环境参数。

基于车载环境参数确定第一调节比例值W₁；

基于目标语音序列确定第二调节基准值T_B；

设当前语音激活指令持续时长为T_Cur；

则调节后的语音激活指令持续时长T'_Cur＝T_B+W₁T_Cur；

当t_i≥T_H时，将Op_i+1从Op中剔除；

其中，T_H为预先设置的间隔时间阈值，0.05ms＜T_H≤1s。

关于图3中所述系统的各单元模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

图1或图2所述方法步骤可通过计算机程序指令自动化实现，计算机程序指令通过计算机设备执行。

因此，更多的实施例还提供了一种计算机设备，如图4所示，为本公开实施例提供的计算机设备结构示意图，包括通过总线连接通信的控制器410和存储器420。所述存储器420存储有控制器410可执行的机器可读指令，控制器410用于执行存储器420中存储的机器可读指令。

所述机器可读指令被控制器410执行时，控制器410执行下述步骤：

步骤S100：接收用户输入的语音激活指令；

步骤S400：执行所述目标语音序列对应的操作命令；

步骤S500：获取当前的车载环境参数；

可以看到，本发明的当前语音激活指令持续时长是可以根据场景自适应调节的。具体的，在初次启动时，尽可能多的接收用户输入语音操作序列，以确定当前的车载环境参数，然后基于车载环境参数确定第一调节比例值W₁；并基于所述目标语音序列确定第二调节基准值T_B；从而调节当前语音激活指令持续时长，使得再次探测到用户输入语音操作序列时，在所述调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列，而不是依旧在原有的固定的预设时间内识别，能够使得识别过程既能符合场景需求，又能够提升用户体验，降低对用户私密谈话的干扰。

需要注意的是，本发明的每个实施例均可以单独解决部分技术问题，其组合可以解决全部技术问题，但是并不要求每一个单独的实施例都解决所有技术问题并达到所有技术效果。

本发明未特别明确的部分模块结构，以现有技术记载的内容为准。本发明在前述背景技术部分以及具体实施例部分提及的现有技术可作为本发明的一部分，用于理解部分技术特征或者参数的含义。本发明的保护范围以权利要求实际记载的内容为准。

Claims

1.一种场景自适应的车载语音交互方法，所述方法包括如下步骤：

S100：接收用户输入的语音激活指令；

S200：用户输入语音操作序列；

S300：基于所述用户输入的语音操作序列确定目标语音序列；

S400：执行所述目标语音序列对应的操作命令；

其特征在于：

所述方法还包括：

步骤S500：获取当前的车载环境参数；

当所述步骤S200再次执行时，在调节后的当前语音激活指令持续时长内获取用户输入的语音操作序列；

所述用户输入的语音操作序列为连续语音序列Op，所述连续语音序列Op包括N个语音序列，即Op＝{Op₁，Op₂，…，Op_N)；N≥2；

语音序列Op_i与语音序列Op_i+1之间的间隔时间为t_i；i＝1，2，…，N-1；

当t_i≥T_H时，将Op_i+1从0p中剔除；

其中，T_H为预先设置的间隔时间阈值，0.05ms＜T_H≤1s。

2.如权利要求1所述的一种场景自适应的车载语音交互方法，其特征在于：

所述车载环境参数包括车内环境参数与车外环境参数；

3.如权利要求1所述的一种场景自适应的车载语音交互方法，其特征在于：

所述步骤S600基于所述车载环境参数与所述目标语音序列调节当前语音激活指令持续时长，具体包括：

基于车载环境参数确定第一调节比例值W₁；

基于所述目标语音序列确定第二调节基准值T_B；

设当前语音激活指令持续时长为T_Cur；

则调节后的语音激活指令持续时长T′_Cur＝T_B+W₁T_Cur；

4.如权利要求2所述的一种场景自适应的车载语音交互方法，其特征在于：

所述有效乘客是指输入语音操作序列的乘客；

通过所述用户输入的语音操作序列确定所述车内环境参数；

通过车载传感器确定所述车外环境参数。

5.一种场景自适应的车载语音交互系统，所述系统包括语音接收单元、目标语音序列筛选单元、车载环境参数获取单元、车载命令执行单元以及语音激活指令持续时长确定单元：

其特征在于：

所述车载环境参数获取单元用于获取当前的车载环境参数；

再次启动时，所述语音接收单元在调节后的当前语音激活指令持续时长内获取用户输入的连续语音序列；

基于车载环境参数确定第一调节比例值W₁；

基于目标语音序列确定第二调节基准值T_B；

设当前语音激活指令持续时长为T_Cur；

则调节后的语音激活指令持续时长T′_Cur＝T_B+W₁T_Cur；

6.如权利要求5所述的一种场景自适应的车载语音交互系统，其特征在于：

所述车载环境参数包括车内环境参数；

7.如权利要求5所述的一种场景自适应的车载语音交互系统，其特征在于：

所述系统还包括多种车载传感器，

所述车载环境参数包括车外环境参数；

通过所述多种车载传感器确定所述车外环境参数。

8.如权利要求5所述的一种场景自适应的车载语音交互系统，其特征在于：