CN116153311A

CN116153311A - 一种音频处理方法、装置、车辆及计算机可读存储介质

Info

Publication number: CN116153311A
Application number: CN202310146091.9A
Authority: CN
Inventors: 李勉
Original assignee: Avatr Technology Chongqing Co Ltd
Current assignee: Avatr Technology Chongqing Co Ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-23

Abstract

本申请提供一种音频处理方法、装置、车辆及计算机可读存储介质，所述方法包括：响应于接收到的音频处理请求，获取待处理信息，所述待处理信息为对预设检测区域内的当前发声用户进行检测得到的信息；获取训练好的拒识模型，所述训练好的拒识模型是基于具有多模态特征的训练数据通过训练得到的；利用所述训练好的拒识模型对所述待处理信息进行处理，得到处理结果；基于所述处理结果，对所述待处理信息执行对应的处理操作。通过音频处理装置对用户语音进行识别处理，即使在开启全双工或免唤醒功能的情况下，音频处理装置能够对无效语音和有效语音进行区分，通过对无效语音进行过滤，能够减少无效语音对用户的影响，提高车辆智能化程度。

Description

一种音频处理方法、装置、车辆及计算机可读存储介质

技术领域

本申请涉及车辆自动化控制技术领域，涉及但不限于一种音频处理方法、装置、车辆及计算机可读存储介质。

背景技术

智能座舱(intelligent cabin)旨在集成多种互联网技术(IT，InternetTechnology)和人工智能(AI，Artificial Intelligence)技术，打造全新的车内一体化数字平台，为驾驶员提供智能体验，促进行车安全。

车载语音识别系统是智能座舱不可缺少的一部分，通过车载语音识别系统对用户下发的语音指令进行识别并响应。传统技术中，在用户下发语音指令之前，首先需要使用唤醒词将车载语音识别系统从待机状态唤醒，给用户带来不便。为便于用户，相关技术中车载语音识别系统可以设置免唤醒功能，开启该功能后，用户无需每次唤醒车载语音识别系统，但是带来了新的问题：车载语音识别系统处于持续录音状态，可能会将用户的正常对话当成控制指令进行识别并响应，对用户造成不便，甚至影响行车安全。车载语音识别系统如何在唤醒状态识别出非人机交互的语音，成为亟需解决的技术问题之一。

发明内容

有鉴于此，本申请实施例提供一种音频处理方法、装置、车辆及计算机可读存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种音频处理方法，所述方法包括：

响应于接收到的音频处理请求，获取待处理信息，所述待处理信息为对预设检测区域内的当前发声用户进行检测得到的信息；

获取训练好的拒识模型，所述训练好的拒识模型是基于具有多模态特征的训练数据通过训练得到的；

利用所述训练好的拒识模型对所述待处理信息进行处理，得到处理结果；

基于所述处理结果，对所述待处理信息执行对应的处理操作。

在一些实施例中，所述获取训练好的拒识模型，包括：

获取预设的初始拒识模型和样本数据集；

根据所述样本数据集，获取训练数据集和所述训练数据集包括的各训练数据的标识信息；

基于各训练数据和所述各训练数据的标识信息，对所述初始拒识模型进行训练，得到训练好的拒识模型。

在一些实施例中，所述根据所述样本数据集，获取训练数据集和所述训练数据集包括的各训练数据的标识信息，包括：

确定所述样本数据集包括的各样本数据的类型，所述样本数据的类型包括音频数据类型和音频图像数据类型；

根据所述各样本数据的类型，对所述各样本数据进行特征提取，得到各样本数据对应的训练数据，一个训练数据包括多模态特征；

获取各训练数据的标识信息。

在一些实施例中，所述待处理信息包括当前音频特征和当前文本特征；

所述响应于接收到的音频处理请求，获取待处理信息，包括：

响应于接收到的音频处理请求，确定在预设的检测区域内存在发声用户，控制音频采集装置对所述检测区域内当前发声用户的音频进行采集，得到当前音频数据；

对所述当前音频数据进行特征提取，得到当前音频特征和当前文本特征，所述当前音频特征包括频谱、音量、语速和信噪比。

在一些实施例中，所述待处理信息包括当前音频特征、当前文本特征和当前行为特征；

响应于接收到的音频处理请求，确定在预设的检测区域内存在发声用户，控制音频采集装置对所述检测区域内当前发声用户的音频进行采集，得到当前音频数据，并控制图像采集装置对所述检测区域内的图像进行采集，得到当前图像数据；

对所述当前音频数据进行特征提取，得到当前音频特征和当前文本特征；

对所述当前图像数据进行特征提取，得到当前发声用户的当前行为特征，所述当前行为特征包括所述当前发声用户的视角和所述当前发声用户在所述检测区域内所处的位置。

在一些实施例中，所述待处理信息还包括历史文本特征；

所述响应于接收到的音频处理请求，获取待处理信息，还包括：

获取当前文本特征对应的历史文本特征，所述历史文本特征是根据历史音频数据确定的，所述历史音频数据为上次检测到存在发声用户时获取到的音频数据。

在一些实施例中，所述基于所述处理结果，对所述待处理信息执行对应的处理操作，包括：

当所述处理结果表征所述待处理信息为拒识信息时，对所述待处理信息执行拒识操作；

当所述处理结果表征所述待处理信息为非拒识信息时，对所述待处理信息执行识别操作。

在一些实施例中，所述当所述处理结果表征所述待处理信息为拒识信息时，对所述待处理信息执行拒识操作，包括：

当所述处理结果表征所述待处理信息为拒识信息时，将所述待处理信息包括的当前文本特征保存至存储空间；

控制处理装置拒绝响应所述待处理信息。

在一些实施例中，所述当所述处理结果表征所述待处理信息为非拒识信息时，对所述待处理信息执行识别操作，包括：

当所述处理结果表征所述待处理信息为非拒识信息时，将所述待处理信息包括的当前文本特征保存至存储空间；

对所述当前文本特征进行自然语言理解，确定所述当前发声用户的目标意图；

根据所述目标意图确定控制指令，并执行所述控制指令；和/或，

对所述目标意图进行自然语言生成，确定响应文本特征；控制语音输出装置根据所述响应文本特征输出响应音频信息。

本申请实施例提供一种音频处理装置，所述装置包括：

第一获取模块，用于响应于接收到的音频处理请求，获取待处理信息，所述待处理信息为对预设检测区域内的当前发声用户进行检测得到的信息；

第二获取模块，用于获取训练好的拒识模型，所述训练好的拒识模型是基于具有多模态特征的训练数据通过训练得到的；

处理模块，用于利用所述训练好的拒识模型对所述待处理信息进行处理，得到处理结果；

第一执行模块，用于基于所述处理结果，对所述待处理信息执行对应的处理操作。

本申请实施例提供一种车辆，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，当所述处理器执行所述可执行指令时，所述处理器执行上述音频处理方法的步骤。

本申请实施例提供一种计算机可读存储介质，所述存储介质中存储有至少一可执行指令，当处理器执行所述可执行指令时，所述处理器执行上述音频处理方法的步骤。

本申请实施例提供的音频处理方法，应用于车辆，当检测装置检测到车内有用户说话时，发送音频处理请求至音频处理装置。音频处理装置响应于接收到的音频处理请求，获取待处理信息，该待处理信息为对车内当前发声用户进行检测得到的信息；获取基于具有多模态特征的训练数据通过训练得到的训练好的拒识模型；利用该训练好的拒识模型对待处理信息进行处理，得到处理结果，该处理结果表征待处理信息为拒识信息或非拒识信息；最后基于处理结果，对待处理信息执行对应的处理操作，当处理结果表征待处理信息为拒识信息时，确定当前发声用户发出的音频是无效语音输入信息，对待处理信息执行拒识操作。通过音频处理装置对用户语音进行识别处理，即使在开启全双工或免唤醒功能的情况下，音频处理装置能够对无效语音和有效语音进行区分，通过对无效语音进行过滤，能够减少无效语音对用户的影响，提升车辆智能化程度。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为本申请实施例提供的音频处理方法的一种实现流程示意图；

图2为本申请实施例提供的音频处理方法中获取训练好的拒识模型步骤的一种实现流程示意图；

图3为本申请实施例提供的音频处理方法中获取待处理信息步骤的一种实现流程示意图；

图4为本申请实施例提供的音频处理方法中获取待处理信息步骤的另一种实现流程示意图；

图5为本申请实施例提供的音频处理方法的另一种实现流程示意图；

图6为本申请实施例提供的基于多模态语义理解的车载语音拒识方法的整体业务实现流程示意图；

图7为本申请实施例提供的基于多模态语义理解的车载语音拒识方法中利用拒识模型对输入特征进行拒识服务处理的实现流程示意图；

图8为本申请实施例提供的车载语音拒识方法中对拒识模型进行更新的流程示意图；

图9为本申请实施例提供的音频处理装置的另一种组成结构示意图；

图10为本申请实施例提供的车辆的一种组成结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在车辆行驶过程中，若前方车辆是大型货车时可能会遮挡红绿灯，后车驾驶员无法获取红绿灯状态，容易出现闯红灯的状况，可能会引发交通事故，降低交通路口通行效率。为了解决该问题，本申请实施例提供一种音频处理方法，下面结合实现本申请实施例的装置对本申请实施例提供的方法进行说明。图1为本申请实施例提供的音频处理方法的一种实现流程示意图，如图1所示，该音频处理方法包括以下步骤：

步骤S101，响应于接收到的音频处理请求，获取待处理信息。

本申请实施例提供的音频处理方法，应用于车辆，可以由车辆中车载语音识别系统的音频处理装置来执行。

当车载语音识别系统的检测装置检测到车内有用户说话时，生成并发送音频处理请求至音频处理装置，以使音频处理装置对用户说的话进行处理，确定该用户是否在和车载语音识别系统对话，若是和车载语音识别系统进行对话，则对其进行识别，若不是和车载语音识别系统进行对话(例如和车内其他用户对话、或自言自语、或唱歌等等)，则不对其进行识别。本申请实施例提供的方法，用于确定是否需要对当前说话用户的对话进行识别。音频处理装置接收到检测装置发送的音频处理请求后，响应于该音频处理请求，获取待处理信息，该待处理信息为对预设检测区域内(如车辆内)的当前发声用户进行检测得到的信息。本申请实施例中，在进行检测时，至少对该用户的对话音频进行检测，对检测到的音频信息进行处理得到待处理信息。

在一些实施例中，除音频信息外，还可以对该用户的行为进行检测，对检测到的音频信息和行为信息进行处理得到待处理信息。

步骤S102，获取训练好的拒识模型。

其中，训练好的拒识模型是基于具有多模态特征的训练数据通过训练得到的。这里的多模态特征，可以包括音频特征和文本特征，还可以包括上下文特征和行为特征中至少一个。

音频处理装置可以预先训练拒识模型，将训练好的拒识模型存储在自身的存储空间中。当需要进行音频处理时，从存储空间获取预先训练好的拒识模型。若音频处理装置预先未存储训练好的拒识模型，在需要进行音频处理时，基于具有多模态特征的训练数据通过训练得到训练好的拒识模型。

步骤S103，利用所述训练好的拒识模型对所述待处理信息进行处理，得到处理结果。

本申请实施例中，根据训练好的拒识模型，对待处理信息进行处理，以确定其是否为拒识信息。当处理结果表征待处理信息为非拒识信息时，确定当前发声用户的对话为有效语音输入信息，对其进行识别并响应。当处理结果表征待处理信息为拒识信息时，确定当前发声用户的对话为无效语音输入信息，无需对其进行识别与响应。如此使得车载语音识别系统能够对有效语音和无效语音进行区分，将车载语音识别系统设置为免唤醒状态，过滤掉非人机交互的正常对话，能够减少识别无效语音对用户的影响，提升车辆智能化程度。

步骤S104，基于所述处理结果，对所述待处理信息执行对应的处理操作。

当处理结果表征待处理信息为非拒识信息时，对待处理信息进行识别，以确定当前发声用户的意图，并对意图进行响应，例如当用户想要听歌时，音频处理装置控制语音输出装置播放音乐；当用户想要与音频处理装置聊天时，根据用户的对话，确定对应的答复内容并输出。

当处理结果表征待处理信息为拒识信息时，对待处理信息进行拒识处理，车载语音识别系统的检测装置继续检测。

本申请实施例提供的音频处理方法，当音频处理装置接收到音频处理请求时，确定检测到预设检测区域内存在发声用户，对该预设检测区域内的当前发声用户进行检测得到待处理信息；获取训练好的拒识模型，该训练好的拒识模型是基于具有多模态特征的训练数据通过训练得到的；然后利用训练好的拒识模型对待处理信息进行处理，得到处理结果；基于处理结果，对待处理信息执行对应的处理操作。如此实现音频处理装置对无效语音和有效语音进行区分的功能，这样即使在车载语音识别系统开启全双工或免唤醒功能的情况下，音频处理装置对待处理信息进行处理，能够区分出无效语音，对有效语音和无效语音执行不同的处理操作，能够减少无效语音对用户的影响，提升车辆智能化程度。

在一些实施例中，上述图1所示实施例的步骤S102中的训练好的拒识模型，可以通过图2所示的以下步骤来训练获得。

步骤S201，获取预设的初始拒识模型和样本数据集。

该初始拒识模型是基于多个变量和各变量对应的初始参数构建得到，不同的变量对应不同的模态特征，各初始参数可以为预设值。其中模态特征可以包括音频特征和文本特征，在此基础上，还可以包括行为特征和/或上下文特征。

样本数据集包括多个样本数据，样本数据可以包括音频数据，或者包括音频数据和图像数据。

步骤S202，根据所述样本数据集，获取训练数据集和所述训练数据集包括的各训练数据的标识信息。

在一种实现方式中，该步骤可以实现为：先确定样本数据集包括的各样本数据的类型；根据各样本数据的类型，对各样本数据进行特征提取，得到各样本数据对应的训练数据；获取各训练数据的标识信息。

其中，样本数据的类型包括音频数据类型和音频图像数据类型，当样本数据仅包括音频数据时，确定其类型为音频数据类型。对音频数据类型的一个样本数据进行特征提取，可以是提取该音频数据的音频特征(可以包括频谱、音量、语速和信噪比等特征)和文本特征，该文本特征可以为对音频数据进行自然语言处理得到的文本，如此得到一个样本数据对应的训练数据，该训练数据包括音频特征和文本特征这两个模态特征。在此基础上，还可以提取该音频数据之前和之后采集的音频数据对应的文本特征，作为上下文特征，如此得到一个样本数据对应的训练数据，该训练数据包括音频特征、文本特征和上下文特征这三个模态特征。最后获取训练数据的标识信息，该标识信息用于标记该训练数据为有效语音还是无效语音。

当样本数据包括音频数据和图像数据时，确定其类型为音频图像数据类型。对音频数据类型的一个样本数据进行特征提取，一方面是提取该样本数据中音频数据的音频特征(可以包括频谱、音量、语速和信噪比等特征)和文本特征，该文本特征可以为对音频数据进行自然语言处理得到的文本；另一方面是提取该样本数据中图像数据的行为特征(可以包括当前发声用户的位置、视角等特征)，如此得到一个样本数据对应的训练数据，该训练数据包括音频特征、文本特征和行为特征这三个模态特征。在此基础上，还可以提取该音频数据之前和之后采集的音频数据对应的文本特征，作为上下文特征，如此得到一个样本数据对应的训练数据，该训练数据包括音频特征、文本特征、行为特征和上下文特征这四个模态特征。最后获取该训练数据的标识信息，该标识信息用于标记该训练数据为有效语音还是无效语音。

当样本数据包括图像数据时，结合当前发声用户的位置、视角等行为特征，能够确定当前发声用户的位置及其是否看向车载语音识别系统的输出装置，一般情况下，与未看向输出装置相比，看向输出装置的发声用户与车载语音识别系统进行对话的可能性更大，结合该特点，能够更加准确地对用户语音是否为无效输入进行识别，进一步提高对无效语音的识别效果，减少无效语音对用户的影响，提升车辆智能化程度。

步骤S203，基于各训练数据和所述各训练数据的标识信息，对所述初始拒识模型进行训练，得到训练好的拒识模型。

根据各训练数据包括的多个模态特征以及各训练数据的标识信息，对初始拒识模型进行训练，达到训练结束条件(如收敛或训练次数达到预设次数)时，得到训练好的拒识模型。可以将训练好的拒识模型进行存储，以便后续使用。

在一些实施例中，在用户日常使用训练好的拒识模型进行音频处理的过程中，可以对用户的实际使用信息进行存储，当实际使用数据达到一定量或者训练好的拒识模型使用一段时间后，音频处理装置可以根据获得的用户实际使用数据，对训练好的拒识模型进行更新，得到更新后的拒识模型。并将更新后的拒识模型存储至存储空间中。在后续使用车载语音识别系统中，利用更新后的拒识模型进行音频处理，能够为用户提供符合该用户讲话习惯的个性化服务，进一步提高对无效语音的识别效果。

在一些实施例中，上述图1所示实施例中的待处理信息包括当前音频特征和当前文本特征。上述图1所示实施例中的步骤S101“响应于接收到的音频处理请求，获取待处理信息”可以通过图3所示的以下步骤来实现：

步骤S301，响应于接收到的音频处理请求，确定在预设的检测区域内存在发声用户，控制音频采集装置对所述检测区域内当前发声用户的音频进行采集，得到当前音频数据。

当车载语音识别系统的检测装置检测到车内有用户说话时，生成并发送音频处理请求至音频处理装置，音频处理装置接收到音频处理请求，确定车内有用户在说话，该用户即为当前发声用户。音频处理装置控制车载语音识别系统的音频采集装置对当前发声用户的音频进行采集，得到当前音频数据。这里的音频采集装置可以为麦克风。

步骤S302，对所述当前音频数据进行特征提取，得到当前音频特征和当前文本特征。

利用音频采集装置采集的当前音频数据为语音，可以对其进行语音识别和文本识别，分别得到当前音频特征和当前文本特征，其中当前音频特征可以包括频谱、音量、语速和信噪比。

本申请实施例中，当检测到车内有用户说话时，利用音频采集装置对音频进行采集，得到当前音频数据，然后对其进行特征提取，得到当前音频特征和当前文本特征，如此得到包括当前音频特征和当前文本特征的待处理信息。

在一些实施例中，上述图1所示实施例中的待处理信息包括当前音频特征、当前文本特征和当前行为特征。上述图1所示实施例中的步骤S101“响应于接收到的音频处理请求，获取待处理信息”可以通过图4所示的以下步骤来实现：

步骤S401，响应于接收到的音频处理请求，确定在预设的检测区域内存在发声用户，控制音频采集装置对所述检测区域内当前发声用户的音频进行采集，得到当前音频数据。

步骤S402，控制图像采集装置对所述检测区域内的图像进行采集，得到当前图像数据。

当车载语音识别系统的检测装置检测到车内有用户说话时，生成并发送音频处理请求至音频处理装置，音频处理装置接收到音频处理请求，确定车内有用户在说话，该用户即为当前发声用户。

音频处理装置控制车载语音识别系统的音频采集装置对当前发声用户的音频进行采集，得到当前音频数据；控制车载语音识别系统的图像采集装置对当前发声用户的图像进行采集，得到当前图像数据。这里的音频采集装置可以为麦克风，图像采集装置可以为摄像头。

在实际应用中，可以同时控制音频采集装置和图像采集装置进行音频和图像的采集；音频采集装置和图像采集装置可以集成设计为一个装置。

步骤S403，对所述当前音频数据进行特征提取，得到当前音频特征和当前文本特征。

利用音频采集装置采集的当前音频数据，可以对其进行语音识别和文本识别，分别得到当前音频特征和当前文本特征，其中当前音频特征可以包括频谱、音量、语速和信噪比。

步骤S404，对所述当前图像数据进行特征提取，得到当前发声用户的当前行为特征。

利用图像采集装置采集的当前图像数据，可以对其进行图像识别，分别得到当前行为特征，该当前行为特征包括当前发声用户的视角和当前发声用户在检测区域内所处的位置。

本申请实施例中，当检测到车内有用户说话时，利用音频采集装置对音频进行采集，得到当前音频数据，利用图像采集装置对图像进行采集，得到当前图像数据。然后分别对其进行特征提取，得到当前音频特征、当前文本特征和当前行为特征，如此得到包括当前音频特征、当前文本特征和当前行为特征的待处理信息。

在一些实施例中，在上述步骤S302或步骤S403得到当前文本特征之后，上述方法还可以包括：

步骤S11，获取当前文本特征对应的历史文本特征。

该历史文本特征是根据历史音频数据确定的，该历史音频数据为上次检测到存在发声用户时获取到的音频数据，即历史音频数据为采集当前音频数据前一次采集得到的数据。

本申请实施例中，待处理信息除上述特征外，还可以包括历史文本特征。在图3所示实施例的基础上，得到的待处理信息可以包括当前音频特征、当前文本特征和历史文本特征。在图4所示实施例的基础上，得到的待处理信息可以包括当前音频特征、当前文本特征、当前行为特征和历史文本特征。

在上述实施例的基础上，本申请实施例再提供一种音频处理方法，图5为本申请实施例提供的音频处理方法的另一种实现流程示意图，如图5所示，该音频处理方法包括以下步骤：

步骤S501，响应于接收到的音频处理请求，获取待处理信息。

所述待处理信息为对预设检测区域内的当前发声用户进行检测得到的信息。

本申请实施例中的步骤S501至步骤S503，与图1所示实施例中步骤S101至步骤S103一一对应，步骤S501至步骤S503的实现过程，可以参见图1所示实施例中对应步骤的详细描述。

步骤S502，获取训练好的拒识模型。

步骤S503，利用所述训练好的拒识模型对所述待处理信息进行处理，得到处理结果。

步骤S504，判断处理结果是否表征待处理信息为拒识信息。

当处理信息表征待处理信息为拒识信息时，进入步骤S505；当处理信息表征待处理信息为非拒识信息时，进入步骤S506。

步骤S505，对所述待处理信息执行拒识操作。

这里的拒识操作，至少包括对待处理信息拒绝响应的控制操作。

在一些实施例中，对待处理信息执行拒识操作，可以包括以下操作：将所述待处理信息包括的当前文本特征保存至存储空间；控制处理装置拒绝响应所述待处理信息。当前文本特征，可以为对待处理信息进行语音识别得到的文本特征，也可以为对语音识别得到的原始文本特征进行关键信息提取得到的文本特征。将待处理信息对应的当前文本特征记录在存储空间中形成日志，可用于对下次对话进行辅助处理，还可以进行日志记录查询。

步骤S506，对所述待处理信息执行识别操作。

在一些实施例中，对待处理信息执行识别操作，可以包括以下操作：将所述待处理信息包括的当前文本特征保存至存储空间；对所述当前文本特征进行自然语言理解，确定所述当前发声用户的目标意图；根据所述目标意图确定控制指令，并执行所述控制指令。

自然语言就是人们平时在生活中常用的表达方式，自然语言理解就是希望机器像人一样，具备正常人的语言理解能力。通过自然语言理解，音频处理装置获得当前发声用户说的话的意图，根据意图确定并执行控制指令。这里的控制指令，可以为控制车辆执行某项操作的指令，例如当前发声用户说“降下车窗”，确定的控制指令为降下车窗的控制指令，并执行该指令，使车窗降下。

在一些实施例中，对待处理信息执行识别操作，可以包括以下操作：将所述待处理信息包括的当前文本特征保存至存储空间；对所述当前文本特征进行自然语言理解，确定所述当前发声用户的目标意图；对所述目标意图进行自然语言生成，确定响应文本特征；控制语音输出装置根据所述响应文本特征输出响应音频信息。

当用户与车载语音识别系统进行人机对话时，音频处理装置无需执行控制指令，根据当前发声用户的目标意图，确定与之对应的回复内容，并将其通过语音输出装置(如扬声器)输出，例如，当前发声用户说“前方路段路况怎么样”，确定的响应音频信息可以为“前方路段畅通”。

在一些实施例中，对待处理信息执行识别操作，可以包括以下操作：将所述待处理信息包括的当前文本特征保存至存储空间；对所述当前文本特征进行自然语言理解，确定所述当前发声用户的目标意图；根据所述目标意图确定控制指令，并执行所述控制指令；对所述目标意图进行自然语言生成，确定响应文本特征；控制语音输出装置根据所述响应文本特征输出响应音频信息。

当用户与车载语音识别系统进行对话需要车辆执行某项指令时，车辆执行该项指令后，还可以向用户反馈执行结果，此时根据目标意图确定控制指令和响应音频信息，例如，当前发声用户说“好热，打开空调”，确定的控制指令为打开空调并启动制冷模式，确定的响应音频信息可以为“已开始制冷”。

本申请实施例提供的方法，通过音频处理装置对当前发声用户的音频进行处理，实现音频处理装置对无效语音和有效语音进行区分的功能，这样即使在车载语音识别系统开启全双工或免唤醒功能的情况下，音频处理装置对待处理信息进行处理，能够区分出无效语音，对有效语音进行识别并执行对应的指令，对无效语音拒识，如此能够减少无效语音对用户的影响，提升车辆智能化程度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

智能座舱内，用户与虚拟助手进行对话的过程中，虚拟助手会进行录音，环境中所有的人声都会被录入并进行语音识别，包括周围不相关的人声。尤其是在开启了全双工或免唤醒功能的情况下，虚拟助手处于持续录音的状态，如果无法将不相关人声过滤掉，而是当成正常的指令进行响应，会对用户产生很大的打扰，严重影响语音交互体验。

现阶段车载语音识别系统在唤醒状态下无法有效识别非人机交互语音输入。为了解决该技术问题，本申请实施例提供一种基于多模态语义理解的车载语音拒识方法。

图6为本申请实施例提供的基于多模态语义理解的车载语音拒识方法的整体业务实现流程示意图，如图6所示，当检测到语音时，利用自动语音识别技术ASR将用户的语音转换为文本，利用拒识模型对文本进行拒识服务处理，得到处理结果，然后判断处理结果是否为拒识，当处理结果为拒识时，对当前语音不进行识别，直接下一次语音检测；当处理结果不为拒识时，即需要对用户当前语音进行指令识别，对文本进行自然语言理解NLU，将理解结果输入至对话管理，得到对话文本，对对话文本进行自然语言生成NLG，得到响应文本，最后基于TTS技术将响应文本转化为响应语音进行输出。

本申请实施例提供的方法中，拒识模型的训练过程，主要包括以下过程：获取训练数据和标识信息、模型训练和模型更新。

1)获取训练数据和标识信息。

语音交互系统的研究对象是用户与机器的交互，在系统内部，将用户语音输入分成有效语音输入和无效语音输入两类。基于此，可以将标识信息定义为标识1和标识2，其中标识1用于标识语音输入为无效语音输入，标识2用于标识语音输入为有效语音输入。

①有效语音输入，主要包括三种类型，具体如下：

意图明确：用户在一句话中表达了一个明确的意图。

例如：打开空调，是车控垂直领域的意图。

模糊意图：用户的表达可能涉及多个候选意图，缺乏上下文信息的情况下存在歧义。

例如：小猪佩奇，既可能是听电台故事的意图，也可能是看电影视频的意图，没有场景信息的情况下，会认为是多意图。

多意图：用户在一句话中表达了多个明确的意图。

例如：关掉空调，打开车窗。用户一句话表达了关闭空调和打开车窗两个意图。

②无效语音输入

无效语音输入是指不应该响应的用户输入非人机交互数据，主要包括两种类型：车内多人对话和无意义表达。

车内多人对话：车载场景下存在多人对话的场景，在唤醒状态下，这些对话内容会被当作人机交互输入送往语义理解系统。例如：说话人A说：“你怎么吃了这么久”。说话人B说：“因为好吃呀。”

无意义表达又分为两类：乱序无意义和不完整表达。

a)乱序无意义：从文本上看是不可理解的，大多是由于音频不清晰或者ASR错误导致。例如，“播放换酒的哥”实际为“播放怀旧的歌”的错误识别结果。如果未能纠错的话，无法识别出正确的歌名槽位，可能会播放不满足用户预期的结果。

b)不完整表达：由于用户停顿和VAD的原因，造成一句话不完整，声音截断。

根据上述规则获取的数据进行标记，得到样本数据集和样本数据集中各样本数据的标识信息。

2)模型训练。

根据样本数据进行特征建模，获取用于建模的多个模态特征，可以包括音频特征、文本特征、说话人特征(对应上文中的行为特征)及上下文特征。针对不同模态的特征采用不同的模型设计。要判断用户是不是在与虚拟助手交互，需要多模态的信息：用户的声音特点，有没有在对着虚拟助手讲话，用户周围有没有其他人等，这需要根据用户的语气、语调、语速等声学信息，以及用户位置、用户眼神等视觉信息辅助判别。

图7为本申请实施例提供的基于多模态语义理解的车载语音拒识方法中利用拒识模型对输入特征进行拒识服务处理的实现流程示意图，如图7所示，模型采用的是基于语音和语义特征的深度神经网络模型，主要用到了四类特征：

语音特征：包括频谱、音量、语速、信噪比等特征，作为语音编码器Enco der的输入。

文本特征：文本特征方面，将ASR得到的文本查询，ASR解码输出的置信度、语序、语法规则等特征，输入文本编码器Encoder进行编码。

说话人特征(对应上文中的用户行为特征)：用户位置、用户眼神等视觉信息特征。

上下文特征：把当前query的上文信息，包括上一轮的语义特征、上一轮说话人、用户历史行为信息等特征，加入到模型中。

语音Encoder采用卷积神经网络(CNN，Convolutional Neural Networks)、长短期记忆网络(LSTM，Long Short-Term Memory)和注意力机制(Attentio n Mechanism)网络，文本Encoder采用使用卷积神经网络来进行文本分类(TextCNN)，两个Encoder的输出合并说话人特征和上下文特征，输入到分类层，得到拒识服务的处理结果。

针对不同模态的特征可以采用不同的模型设计，训练拒识模型。当考虑音频特征和文本特征时，根据训练数据和标识信息训练得到的拒识模型，能够对语音输入信息进行识别，但是识别准确率较低，可能会将无效语音输入信息误识为非拒识信息进行识别响应；当考虑音频特征、文本特征和说话人特征(或上下文特征)时，根据训练数据和标识信息训练得到的拒识模型，能够在一定程度上提高语音输入信息的识别效果；当考虑音频特征、文本特征、说话人特征和上下文特征时，根据训练数据和标识信息训练得到的拒识模型，能够进一步提高语音输入信息的识别效果。

3)模型更新。根据用户行为反馈更新迭代算法模型。

本申请实施例中的拒识模型为基于多模态特征融合的神经网络模型，该模型可以用于智能座舱内过滤无效语音输入的场景。图8为本申请实施例提供的车载语音拒识方法中对拒识模型进行更新的流程示意图，如图8所示，记录在线的用户行为，根据在线的用户行为和离线挖掘的用户行为，对拒识模型进行更新训练，得到新的拒识模型，再利用新的拒识模型对查询Query进行拒识服务处理。

在一些实施例中，可以通过图像采集装置采集车内图像，利用说话人唇动信息锁定说话人身份；也可以通过动态识音、波束形成等技术实现对车内不同音区收音，分辨声音来自哪个人，如此使车内的部分语音指令实现个人定制化服务。

本申请实施例提供的基于神经网络模型的拒识方法，具有成本低、安全性高的优点，能够有效过滤智能座舱场景下的无效语音输入，提升全双工和免唤醒功能下的语音交互用户体验。

基于前述的实施例，本申请实施例提供一种音频处理装置，该装置包括的各模块、以及各模块包括的各单元，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU，Central ProcessingUnit)、微处理器(MPU，Microprocessor Unit)、数字信号处理器(DSP，Digital SignalProcessing)或现场可编程门阵列(FPG A，Field Programmable Gate Array)等。

本申请实施例再提供一种音频处理装置，图9为本申请实施例提供的音频处理装置的另一种组成结构示意图，如图9所示，所述音频处理装置900包括：

第一获取模块901，用于响应于接收到的音频处理请求，获取待处理信息，所述待处理信息为对预设检测区域内的当前发声用户进行检测得到的信息；

第二获取模块902，用于获取训练好的拒识模型，所述训练好的拒识模型是基于具有多模态特征的训练数据通过训练得到的；

处理模块903，用于利用所述训练好的拒识模型对所述待处理信息进行处理，得到处理结果；

第一执行模块904，用于基于所述处理结果，对所述待处理信息执行对应的处理操作。

在一些实施例中，所述第二获取模块902，还用于：

获取预设的初始拒识模型和样本数据集；

在一些实施例中，所述第二获取模块902，还用于：

获取各训练数据的标识信息。

在一些实施例中，所述待处理信息包括当前音频特征和当前文本特征；所述第一获取模块901，还用于：

在一些实施例中，所述待处理信息包括当前音频特征、当前文本特征和当前行为特征；所述第一获取模块901，还用于：

在一些实施例中，所述待处理信息还包括历史文本特征；所述第一获取模块901，还用于：

在一些实施例中，所述第一执行模块904，还用于：

控制处理装置拒绝响应所述待处理信息。

在一些实施例中，所述第一执行模块904，还用于：

这里需要指出的是：以上音频处理装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果。对于本申请音频处理装置实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例提供一种计算机可读存储介质，该存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述实施例中提供的音频处理方法中的步骤。

本申请实施例提供一种电子设备，例如车辆，图10为本申请实施例提供的车辆的一种组成结构示意图，根据图10示出的车辆1000的示例性结构，可以预见车辆1000的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图10所示的车辆1000包括：一个处理器1001、至少一个通信总线1002、用户接口1003、至少一个外部通信接口1004和存储器1005。其中，通信总线1002配置为实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏，外部通信接口1004可以包括标准的有线接口和无线接口。其中，所述处理器1001配置为执行存储器中存储的音频处理方法的程序，以实现上述实施例提供的音频处理方法中的步骤。

以上车辆和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请车辆和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取训练好的拒识模型，包括：

获取预设的初始拒识模型和样本数据集；

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本数据集，获取训练数据集和所述训练数据集包括的各训练数据的标识信息，包括：

获取各训练数据的标识信息。

4.根据权利要求1所述的方法，其特征在于，所述待处理信息包括当前音频特征和当前文本特征；

5.根据权利要求1所述的方法，其特征在于，所述待处理信息包括当前音频特征、当前文本特征和当前行为特征；

6.根据权利要求4或5所述的方法，其特征在于，所述待处理信息还包括历史文本特征；

7.根据权利要求1所述的方法，其特征在于，所述基于所述处理结果，对所述待处理信息执行对应的处理操作，包括：

8.根据权利要求7所述的方法，其特征在于，所述当所述处理结果表征所述待处理信息为拒识信息时，对所述待处理信息执行拒识操作，包括：

控制处理装置拒绝响应所述待处理信息。

9.根据权利要求7所述的方法，其特征在于，所述当所述处理结果表征所述待处理信息为非拒识信息时，对所述待处理信息执行识别操作，包括：

10.一种车辆，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，当所述处理器执行所述可执行指令时，所述处理器执行权利要求1至9任一项所述音频处理方法的步骤。