CN117370961A

CN117370961A - 一种车辆语音交互方法及系统

Info

Publication number: CN117370961A
Application number: CN202311650259.6A
Authority: CN
Inventors: 龚循飞; 邓建明; 廖程亮; 于勤; 邓辉辉; 樊华春; 罗锋; 张俊; 熊慧慧
Original assignee: Jiangxi Isuzu Motors Co Ltd
Current assignee: Jiangxi Isuzu Motors Co Ltd
Priority date: 2023-12-05
Filing date: 2023-12-05
Publication date: 2024-01-09
Anticipated expiration: 2043-12-05
Also published as: CN117370961B

Abstract

本发明提供了一种车辆语音交互方法及系统，该方法包括：当实时监测到用户进入车辆内部时，通过预设拍摄装置实时采集用户的实时人脸图像，并在预设图像数据库中实时判断是否存在与实时人脸图像适配的目标人脸图像；若在预设图像数据库中实时判断到存在与实时人脸图像适配的目标人脸图像，则实时采集用户的声音信息，并对声音信息进行解析处理，以实时判断声音信息是否满足预设要求；若实时判断到声音信息满足预设要求，则判定用户为预绑定人员，并对应启用车辆内部的语音交互权限。本发明能够有效的避免语音控制混淆的现象发生，对应大幅提升了用户的使用体验。

Description

一种车辆语音交互方法及系统

技术领域

本发明涉及汽车技术领域，特别涉及一种车辆语音交互方法及系统。

背景技术

随着科技的进步以及生产力的快速发展，汽车已经在人们的日常生活中得到普及，并且汽车内部的功能也越来越智能化，给人们的日常生活以及工作提供了极大的便利。

其中，车辆语音交互技术是指通过语音识别、语义理解、对话管理以及语音合成等技术，以实现人与汽车之间的自然、高效、智能的交互方式，能够使用户通过语音的方式控制车辆内部的各项功能，给用户带来便利。

然而，在实际应用的过程中，现有技术缺乏对用户身份信息的识别以及验证，从而导致车内的任一用户均能够触发语音交互功能，从而容易出现语音控制发生混淆的现象，对应降低了用户的使用体验。

发明内容

基于此，本发明的目的是提供一种车辆语音交互方法及系统，以解决现有技术能够使任一用户均能够触发语音交互功能，导致容易出现语音控制混淆的现象。

本发明实施例第一方面提出了：

一种车辆语音交互方法，其中，所述方法包括：

当实时监测到用户进入车辆内部时，通过预设拍摄装置实时采集所述用户的实时人脸图像，并在预设图像数据库中实时判断是否存在与所述实时人脸图像适配的目标人脸图像；

若在所述预设图像数据库中实时判断到存在与所述实时人脸图像适配的目标人脸图像，则实时采集所述用户的声音信息，并对所述声音信息进行解析处理，以实时判断所述声音信息是否满足预设要求；

若实时判断到所述声音信息满足所述预设要求，则判定所述用户为预绑定人员，并对应启用所述车辆内部的语音交互权限。

本发明的有益效果是：通过实时采集用户的人脸图像，并对应判断预设图像数据库中是否存在有目标人脸图像，若是，则说明当前用户已经使用过当前车辆，进一步的，再实时采集当前用户的声音信息，与此同时，进行对应的解析处理，以进一步确认当前用户的声音是否已经使用过语音交互系统，基于此，就能够准确的判断出当前用户是否为已经绑定号的用户，若是，则能够直接使当前用户使用当前车辆内部的语音交互系统，从而能够有效的防止所有人均能够使用车辆内部的语音交互系统，以避免出现语音控制混淆的现象，对应大幅提升了用户的使用体验。

进一步的，所述在预设图像数据库中实时判断是否存在于所述实时人脸图像适配的目标人脸图像的步骤包括：

当获取到所述实时人脸图像时，对所述实时人脸图像进行灰度化处理，以生成对应的灰度人脸图像；

对所述灰度人脸图像进行全盘扫描，以逐一检测出所述灰度人脸图像中的各个像素点分别对应的像素值，并根据所述像素值实时判断所述预设图像数据库中是否存在所述目标人脸图像。

进一步的，所述根据所述像素值实时判断所述预设图像数据库中是否存在所述目标人脸图像的步骤包括：

当获取到所述灰度人脸图像时，实时检测出所述灰度人脸图像中包含的特征部位，并实时检测出所述特征部位中包含的目标像素值；

提取出所述预设图像数据库中包含的若干存储图像，并实时判断是否存在所述存储图像包含所述目标像素值；

若实时判断到存在所述存储图像包含所述目标像素值，则将包含有所述目标像素值的存储图像设定为所述目标人脸图像。

进一步的，所述对所述声音信息进行解析处理，以实时判断所述声音信息是否满足预设要求的步骤包括：

提取出所述声音信息中包含的音频信息，并根据所述音频信息生成对应的频谱图，所述频谱图为曲线图；

逐一检测出所述频谱图中分别包含的若干极大值点以及若干极小值点，并检测出若干所述极大值点与若干所述极小值点之间的变化规律，以实时判断所述变化规律是否满足所述预设要求。

进一步的，所述检测出若干所述极大值点与若干所述极小值点之间的变化规律，以实时判断所述变化规律是否满足所述预设要求的步骤包括：

逐一检测出相邻所述极大值点与所述极小值点之间产生的若干斜率，并根据若干所述斜率的大小生成对应的斜率变化图；

检测出所述斜率变化图中的最大值以及最小值，并计算出所述最大值与所述最小值之间的目标差值，以实时判断所述目标差值是否满足所述预设要求。

进一步的，所述实时判断所述目标差值是否满足所述预设要求的步骤包括：

当获取到所述目标差值时，实时判断所述目标差值是否在预设差值阈值内；

若实时判断到所述目标差值在所述预设差值阈值内，则判定所述目标差值满足所述预设要求，并判定所述用户为所述预绑定人员。

进一步的，所述对应启用所述车辆内部的语音交互权限的步骤包括：

当确定所述用户为所述预绑定人员时，启用所述车辆内部的语音交互系统，并开启所述语音交互系统内部的语音交互权限，且向所述用户发出对应的提示信息，所述提示信息包括声音提示以及文字提示。

本发明实施例第二方面提出了：

一种车辆语音交互系统，其中，所述系统包括：

采集模块，用于当实时监测到用户进入车辆内部时，通过预设拍摄装置实时采集所述用户的实时人脸图像，并在预设图像数据库中实时判断是否存在与所述实时人脸图像适配的目标人脸图像；

解析模块，用于若在所述预设图像数据库中实时判断到存在与所述实时人脸图像适配的目标人脸图像，则实时采集所述用户的声音信息，并对所述声音信息进行解析处理，以实时判断所述声音信息是否满足预设要求；

处理模块，用于若实时判断到所述声音信息满足所述预设要求，则判定所述用户为预绑定人员，并对应启用所述车辆内部的语音交互权限。

进一步的，所述采集模块具体用于：

进一步的，所述采集模块还具体用于：

进一步的，所述解析模块具体用于：

进一步的，所述解析模块还具体用于：

进一步的，所述处理模块具体用于：

本发明实施例第三方面提出了：

一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上面所述的车辆语音交互方法。

本发明实施例第四方面提出了：

一种可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上面所述的车辆语音交互方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明第一实施例提供的车辆语音交互方法的流程图；

图2为本发明第六实施例提供的车辆语音交互系统的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，所示为本发明第一实施例提供的车辆语音交互方法，本实施例提供的车辆语音交互方法能够有效的防止所有人均能够使用车辆内部的语音交互系统，以避免出现语音控制混淆的现象，对应提升了用户的使用体验。

具体的，本实施例提供的车辆语音交互方法具体包括以下步骤：

步骤S10，当实时监测到用户进入车辆内部时，通过预设拍摄装置实时采集所述用户的实时人脸图像，并在预设图像数据库中实时判断是否存在与所述实时人脸图像适配的目标人脸图像；

步骤S20，若在所述预设图像数据库中实时判断到存在与所述实时人脸图像适配的目标人脸图像，则实时采集所述用户的声音信息，并对所述声音信息进行解析处理，以实时判断所述声音信息是否满足预设要求；

步骤S30，若实时判断到所述声音信息满足所述预设要求，则判定所述用户为预绑定人员，并对应启用所述车辆内部的语音交互权限。

具体的，在本实施例中，首先需要说明的是，该车辆语音交互方法具体应用在安装有语音交互系统的车辆中，用于实时控制语音交互系统的语音交互权限，以避免出现语音控制混淆的现象。基于此，当设置在车辆内部的整车控制器实时检测到用户进入车辆内部时，通过预先设置在车辆内部的摄像头实时采集当前用户的实时人脸图像，进一步的，在上述整车控制器内部已经设置好的图像数据库中实时判断是否存在与当前实时人脸图像适配的目标人脸图像，即当前用户的人脸图像是否预先记录在上述预设图像数据库中。

进一步的，若是，则说明当前用户是当前车辆的使用者，基于此，为了进一步提升判断的准确性，还需要进一步采集当前用户的声音信息，并立即对当前声音信息进行解析处理，即通过解析结果实时判断当前用户的声音信息是否满足预设要求。具体的，若是，则能够直接确定当前用户为预绑定人员，即是当前车辆的拥有者或者使用者，从而可以给当前用户提供当前车辆内部的语音交互系统，即开启语音交互权限，以使当前用户能够使用语音交互功能。

第二实施例

具体的，在本实施例中，需要说明的是，上述在预设图像数据库中实时判断是否存在与所述实时人脸图像适配的目标人脸图像的步骤包括：

具体的，在本实施例中，需要说明的是，为了便于准确的匹配出需要的目标人脸图像，在实时获取到需要的实时人脸图像之后，此时可以对当前人脸图像进行灰度化处理，以生成对应的灰度人脸图像，其中，需要说明的是，对图像进行灰度化处理能够有效的提升图像的识别效率。

进一步的，对上述灰度人脸图像进行全盘扫描，以逐一检测出当前灰度人脸图像中的各个像素点分别对应的像素值，基于此，最后通过实时检测出的像素值判断上述预设图像数据库中是否存在需要的目标人脸图像。

具体的，在本实施例中，还需要说明的是，上述根据所述像素值实时判断所述预设图像数据库中是否存在所述目标人脸图像的步骤包括：

具体的，在本实施例中，还需要说明的是，在通过上述步骤获取到需要的灰度人脸图像之后，此时可以同步检测出当前灰度人脸图像中包含的特征部位，具体的，实时检测出人体面部的眼睛、嘴巴以及鼻子等特征部位。进一步的，对应实时检测出当前特征部位所包含的目标像素值。与此同时，同步提取出上述预设图像数据库中所包含的若干存储图像，并实时判断当前若干存储图像中是否包含上述目标像素值。具体的，若是，则说明上述预设图像数据库中已经存储有当前用户的人脸图像，对应的，若否，则说明没有存储当前用户的人脸图像，进一步的，将包含有上述目标像素值的存储图像设定为需要的目标人脸图像，以便于后续的处理。

第三实施例

另外，在本实施例中，需要说明的是，上述对所述声音信息进行解析处理，以实时判断所述声音信息是否满足预设要求的步骤包括：

另外，在本实施例中，需要说明的是，为了能够准确的判断上述用户所发出的声音信息是否满足预设要求，在采集到用户发出的声音信息之后，此时立即提取出当前声音信息中所包含的音频信息，由于该音频信息中包含有若干音频值，从而能够进一步制备出对应的频谱图，并且该频谱图为曲线图。

进一步的，逐一检测出当前频谱图中的相邻极大值点与极小值点之间的变化规律，具体的，该变化规律能够反应出当前用户说话的音色以及说话频率，基于此，就能够进一步实时判断当前变化规律是否满足预设要求。

另外，在本实施例中，还需要说明的是，上述检测出若干所述极大值点与若干所述极小值点之间的变化规律，以实时判断所述变化规律是否满足所述预设要求的步骤包括：

另外，在本实施例中，还需要说明的是，在通过上述方式检测出若干极大值点以及若干极小值点之后，此时可以进一步逐一检测出相邻的极大值点与极小值点之间产生的若干斜率，并实时根据产生的斜率的大小生成对应的斜率变化图，同理，该斜率变化图也是一种曲线图。基于此，在该斜率变化图中最终检测出需要的最大值以及最小值，并对应计算出当前最大值与最小值之间的目标差值，并最终根据该目标差值实时判断当前用户的声音信息是否满足上述预设要求，以便于后续的处理。

第四实施例

其中，在本实施例中，需要指出的是，所述实时判断所述目标差值是否满足所述预设要求的步骤包括：

其中，在本实施例中，需要指出的是，在通过上述步骤获取到需要的目标差值之后，此时就可以对上述变化规律进行量化处理，基于此，需要实时判断当前目标差值是否在预先设置好的差值阈值内，具体的，若是，则说明当前用户的声音信息满足预设要求，并立即判定当前用户为预绑定人员，对应的，若否，则说明当前用户的声音信息不满足预设要求，则不能向当前用户提供语音交互功能，基于此，能够有效的控制语音交互功能的权限。

第五实施例

其中，在本实施例中，需要指出的是，所述对应启用所述车辆内部的语音交互权限的步骤包括：

其中，在本实施例中，需要指出的是，在通过上述方式确定当前用户为预绑定人员之后，此时就可以对应启用当前车辆内部的语音交互系统，进一步的，再开启当前语音交互系统的语音交互权限。

进一步的，为了能够使用户及时的获知语音交互功能已开启，可以立即向当前用户发出对应的提示信息，具体的，可以为声音提示或者文字提示。

请参阅图2，本发明第六实施例提供了：

一种车辆语音交互系统，其中，所述系统包括：

其中，上述车辆语音交互系统中，所述采集模块具体用于：

其中，上述车辆语音交互系统中，所述采集模块还具体用于：

其中，上述车辆语音交互系统中，所述解析模块具体用于：

其中，上述车辆语音交互系统中，所述解析模块还具体用于：

其中，上述车辆语音交互系统中，所述处理模块具体用于：

本发明第七实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述实施例提供的车辆语音交互方法。

本发明第八实施例提供了一种可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述实施例提供的车辆语音交互方法。

综上所述，本发明上述实施例提供的车辆语音交互方法及系统能够有效的防止所有人均能够使用车辆内部的语音交互系统，以避免出现语音控制混淆的现象，对应大幅提升了用户的使用体验。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种车辆语音交互方法，其特征在于，所述方法包括：

若实时判断到所述声音信息满足所述预设要求，则判定所述用户为预绑定人员，并对应启用所述车辆内部的语音交互权限；

所述对所述声音信息进行解析处理，以实时判断所述声音信息是否满足预设要求的步骤包括：

逐一检测出所述频谱图中分别包含的若干极大值点以及若干极小值点，并检测出若干所述极大值点与若干所述极小值点之间的变化规律，以实时判断所述变化规律是否满足所述预设要求；

所述检测出若干所述极大值点与若干所述极小值点之间的变化规律，以实时判断所述变化规律是否满足所述预设要求的步骤包括：

检测出所述斜率变化图中的最大值以及最小值，并计算出所述最大值与所述最小值之间的目标差值，以实时判断所述目标差值是否满足所述预设要求；

所述实时判断所述目标差值是否满足所述预设要求的步骤包括：

若实时判断到所述目标差值在所述预设差值阈值内，则判定所述目标差值满足所述预设要求，并判定所述用户为所述预绑定人员；

所述对应启用所述车辆内部的语音交互权限的步骤包括：

2.根据权利要求1所述的车辆语音交互方法，其特征在于：所述在预设图像数据库中实时判断是否存在于所述实时人脸图像适配的目标人脸图像的步骤包括：

3.根据权利要求2所述的车辆语音交互方法，其特征在于：所述根据所述像素值实时判断所述预设图像数据库中是否存在所述目标人脸图像的步骤包括：

4.一种车辆语音交互系统，其特征在于，用于实现如权利要求1至3中任意一项所述的车辆语音交互方法，所述系统包括：

5.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任意一项所述的车辆语音交互方法。

6.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任意一项所述的车辆语音交互方法。