CN117238284A

CN117238284A - 语音处理方法、装置及相关设备

Info

Publication number: CN117238284A
Application number: CN202210645470.8A
Authority: CN
Inventors: 闫新
Original assignee: Shanghai Jidu Automobile Co Ltd
Current assignee: Shanghai Jidu Automobile Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2023-12-15

Abstract

本公开提供了一种语音处理方法、装置及相关设备，涉及语音技术领域。该方法包括：获取目标语音信号；通过车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果，并向第一云端服务器发送所述目标语音信号；在所述第一语音处理结果满足第一条件的情况下，根据所述第一语音处理结果执行反馈操作。本公开不仅可以提高语音服务的反馈速度，还可以保证语音服务持续可用，进而提高语音服务的稳定性。

Description

语音处理方法、装置及相关设备

技术领域

本公开涉及语音技术领域，尤其涉及一种语音处理方法、装置及相关设备。

背景技术

随着车辆智能化发展，语音功能在车辆座舱领域的重要性越来越高。目前，受限于车机终端的资源，车载语音功能的实现大部分是基于云端对语音信号进行语音处理，再把语音处理结果返回给车机终端。然而，由于车辆的移动属性，容易导致网络稳定性较差，进而导致语音处理的延迟时间较长，甚至无法使用语音功能。

发明内容

本公开提供了一种语音处理方法、装置及相关设备。

根据本公开的第一方面，提供了一种语音处理方法，应用于车机终端，包括：

获取目标语音信号；

通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果，并向第一云端服务器发送所述目标语音信号；

在所述第一语音处理结果满足第一条件的情况下，根据所述第一语音处理结果执行反馈操作。

根据本公开的第二方面，提供了一种语音处理装置，包括：

获取模块，用于获取目标语音信号；

第一处理模块，用于通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果，并向第一云端服务器发送所述目标语音信号；

第一执行模块，用于在所述第一语音处理结果满足第一条件的情况下，根据所述第一语音处理结果执行反馈操作。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现第一方面的方法。

根据本公开的技术，在第一语音处理结果满足第一条件的情况下，可以直接基于第一语音处理结果执行反馈操作，而无需等待第一云端服务器返回的目标语音信号的语音处理结果，这样不仅可以提高语音服务的反馈速度，还可以使得语音服务不受限于网络，保证语音服务持续可用，进而提高语音服务的稳定性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的语音处理方法的流程图；

图2是本公开实施例可应用的一种语音识别系统架构的示意图；

图3是本公开实施例提供的语音处理装置的结构图之一；

图4是本公开实施例提供的语音处理装置的结构图之二；

图5是本公开实施例提供的语音处理装置的结构图之三；

图6是本公开实施例提供的语音处理装置的结构图之四；

图7是本公开实施例提供的语音处理装置的结构图之五；

图8是本公开实施例提供的语音处理装置的结构图之六；

图9是本公开实施例提供的电子设备的结构图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本公开实施例提供一种语音处理方法，应用于车机终端，包括如下步骤：

步骤101，获取目标语音信号。

本实施例中，上述目标语音信号可以是接收的初始语音信号，也可以是初始语音信号经过预处理后的语音信号，例如，初始语音信号经过回声消除和降噪处理(EchoCancellation&Noise Reduction，ECNR)、波束形成(Beamforming)和生源定位后的语音信号。

步骤102，通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果，并向第一云端服务器发送所述目标语音信号。

本实施例中，上述车机终端的第一语音处理模块可以包括语音识别(AutomaticSpeech Recognition，ASR)模块，或者可以包括ASR模块和自然语言理解(NaturalLanguage Understanding，NLU)模块，或者可以包括ASR模块、NLU模块和对话管理(DialogManagement，DM)模块等。可以理解的是，上述ASR模块、NLU模块和DM模块可以是硬件形式的模块，也可以是软件形式的模块，例如，上述ASR模块为预先训练的ASR模型，上述NLU模块为预先训练的NLU模型。

上述第一语音处理结果可以是ASR模块输出的语音识别结果，或者可以是NLU模块输出的自然语言理解结果，或者可以是DM模块输出的对话结果等。示例性的，车机终端可以基于车机终端的ASR模块对目标语音信号进行语音识别，得到语音识别结果，上述第一语音处理结果即为改语音识别结果；或者车机终端可以基于车机终端的ASR模块对目标语音信号进行语音识别，得到语音识别结果，并通过车机终端的NLU模块对语音识别结果进行自然语言理解，得到自然语言理解结果，上述第一语音处理结果即为该自然语言理解结果；或者，车机终端可以基于车机终端的ASR模块对目标语音信号进行语音识别，得到语音识别结果，并通过车机终端的NLU模块对语音识别结果进行自然语言理解，得到自然语言理解结果，并通过车机终端的DM模块基于自然语言理解结果生成对话结果，其中，上述第一语音处理结果即为该对话结果。

可以理解的是，上述自然语言理解结果可以用于表示用户意图，例如，查询天气，播放音乐，关闭车窗，打开空调等。上述对话结果可以包括基于上述自然语言理解结果确定的回复信息，例如，若上述自然语言理解结果指示需要播放音乐，则上述对话处理结果可以包括待播放音乐相关信息，若上述自然语言理解结果指示关闭车窗，则上述对话结果可以包括关闭车窗的相关控制指令，若上述自然语言理解结果指示查看天气，则上述对话结果可以包括用于天气回复的文本。

此外，在一些可选实施例中，车机终端的NLU模块的数量可以是多个，这样车机终端可以基于多个NLU模块对语音识别结果进行自然语言理解，得到多个自然语言理解结果，并可以对多个自然语言理解结果进行仲裁，确定目标自然语言理解结果。例如，将多个自然语言理解结果中对应的评价分值最大的自然语言理解结果确定为目标自然语言理解结果。

步骤103，在所述第一语音处理结果满足第一条件的情况下，根据所述第一语音处理结果执行反馈操作。

示例性的，上述第一语音处理结果满足第一条件，可以包括上述第一语音处理结果对应的处理时长小于预设时长，或者，上述第一语音处理结果对应的评价分值大于预设分值等。其中，上述第一语音处理结果对应的处理时长可以理解为车机终端从获取目标语音信号到获取到该第一语音处理结果所花费的时间。对于上述第一语音处理结果对应的评价分值，在上述第一语音处理结果为语音识别结果的情况下，上述第一语音处理结果对应的评价分值可以是指上述目标语音信号识别为该语音识别结果的概率值或置信度等；在上述第一语音处理结果为自然语言理解结果的情况下，上述第一语音处理结果对应的评价分值可以是指上述目标语音信号识别为该自然语言理解结果的概率值或置信度等；在上述第一语音处理结果为对话结果的情况下，上述第一语音处理结果对应的评价分值也可以是上述目标语音信号识别为该对话结果对应的自然语言理解结果的概率值或置信度等。

对于上述步骤103，示例性的，在第一语音处理结果为语音识别结果的情况下，可以向车机终端上运行的通信客户端发送该第一语音处理结果，或者可以进一步通过车机终端的NLU模块对该第一语音处理结果进行自然语言理解得到自然语言理解结果，通过车机终端的DM模块根据自然语言理解结果确定对话结果，并基于对话结果执行对应的操作；在第一语音处理结果为自然语言理解结果的情况下，可以通过车机终端的DM模块根据第一语音处理结果确定对话结果，并基于对话结果执行对应的操作；在第一语音处理结果为对话结果的情况下，可以直接基于对话结果执行对应的操作。

以上述第一语音处理结果为自然语言理解结果为例，若根据第一语音处理结果判断需要查询天气，则可以获取天气相关信息，并可以在车机终端显示天气信息或者语音播报天气信息；若根据第一语音处理结果判断需要播放某一音乐，则可以获取对应音乐信息，并调用对应音乐应用播放该音乐；若根据第一语音处理结果判断需要关闭主驾车窗，则可以生成关闭主驾车窗相关控制指令，并将关闭主驾车窗相关控制指令发送给对应的车窗关闭执行机构以关闭主驾车窗。

根据本公开实施例提供的语音处理方法，在第一语音处理结果满足第一条件的情况下，可以直接基于第一语音处理结果执行反馈操作，而无需等待第一云端服务器返回的目标语音信号的语音处理结果，这样不仅可以提高语音服务的反馈速度，还可以使得语音服务不受限于网络，保证语音服务持续可用，进而提高语音服务的稳定性。

在一些可选的实施例中，所述方法还包括：

在所述第一语音处理结果不满足所述第一条件的情况下，从所述第一云端服务器接收所述目标语音信号的第二语音处理结果，并根据所述第二语音处理结果执行反馈操作。

上述第一云端服务器可以包括第二语音处理模块，该第二语音处理模块可以包括ASR模块、NLU模块和DM模块。在一些可选的实施例中，上述第二语音处理结果可以与上述第一语音处理结果的类型相同，例如，上述第一语音处理结果和上述第二语音处理结果均为语音识别结果；或者，上述第一语音处理结果和上述第二语音处理结果均为自然语言理解结果；或者，上述第一语音处理结果和上述第二语音处理结果均为对话结果。在一些可选的实施例中，上述第二语音处理结果可以与上述第一语音处理结果的类型不同，例如，上述第一语音处理结果为语音识别结果，上述第二语音处理结果为自然语言理解结果或者对话结果。

以上述第二语音处理结果为自然语音理解结果为例，第一云端服务器可以在接收到目标语音信号后，通过第一云端服务器的ASR模块对目标语音信号进行语音识别，得到语音识别结果，通过第一云端服务器的NLU模块对语音识别结果进行自然语言理解，得到自然语言理解结果，并将自然语言理解结果(即第二语音处理结果)发送给车机终端。

在一些可选的实施例中，第一云端服务器的NLU模块的数量可以是多个，这样第一云端服务器可以基于多个NLU模块对语音识别结果进行自然语言理解，得到多个自然语言理解结果，并可以对多个自然语言理解结果进行仲裁，确定第二目标自然语言理解结果。例如，将多个自然语言理解结果中对应的评价分值最大的自然语言理解结果确定为第二目标自然语言理解结果。

示例性的，上述基于第二语音处理结果执行反馈操作，可以为直接根据第二语音处理结果执行反馈操作，或者可以为将第一语音处理结果和第二语音处理结果进行仲裁，确定目标语音处理结果，并根据目标语音处理结果执行反馈操作，例如，将第一语音处理结果和第二语音处理结果中对应的评价分值较高的一个语音处理结果作为目标语音处理结果。

本实施例中，在所述第一语音处理结果不满足所述第一条件的情况下，可以等待第一云端服务器返回的目标语音信号的第二语音处理结果，并可以基于第二语音处理结果执行反馈操作，这样可以提高语音服务的质量。

在一些可选的实施例中，所述通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果之后，所述方法还包括如下至少一项：

在所述第一语音处理结果为语音识别结果的情况下，若所述第一语音处理结果包括目标关键词，则确定所述第一语音处理结果满足所述第一条件；

在所述第一语音处理结果为自然语言理解结果的情况下，若所述第一语音处理结果与目标意图项匹配，则确定所述第一语音处理结果满足所述第一条件。

上述目标关键词可以是预设的关键词。示例性的，上述目标关键词可以基于一些对于语音处理速度要求较高的语音指令设置，例如，音乐、导航、空调、车窗等。在一些可选的实施例中，可以接收用户输入的多个关键词，并将用户输入的多个关键词作为目标关键词。

上述目标意图项可以是预设的意图项。示例性的，上述目标意图项可以包括一些对于语音处理速度要求较高的意图项。例如，音乐播放控制、地图导航、空调控制、车窗控制等。在一些可选实施例中，可以将用户选择的意图项确定为上述目标意图项，或者可以根据用户针对语音服务的反馈信息确定上述目标意图项，例如，在结束某次语音服务后用户反馈的语音响应太慢或语音响应不准确等信息。

实际应用中，车机终端获取第二语音处理结果的时间往往晚于获得第一语音处理结果的时间。因此，本实施例在第一语音处理结果包括目标关键词或者与目标意图项匹配的情况下，可以直接基于第一语音处理结果执行反馈操作，这样可以提高语音响应的速度。

在一些可选实施例中，所述若所述第一语音处理结果包括目标关键词，则确定所述第一语音处理结果满足所述第一条件，包括：

若所述第一语音处理结果包括目标关键词，且所述第一语音处理结果对应的评价分值大于预设分值，则确定所述第一语音处理结果满足所述第一条件；

所述若所述第一语音处理结果与目标意图项匹配，则确定所述第一语音处理结果满足所述第一条件，包括：

若所述第一语音处理结果与目标意图项匹配，且所述第一语音处理结果对应的评价分值大于预设分值，则确定所述第一语音处理结果满足所述第一条件。

本实施例中，在第一语音处理结果包括目标关键词或者与目标意图项匹配，且所述第一语音处理结果对应的评价分值大于预设分值的情况下，根据所述第一语音处理结果执行反馈操作，这样可以在提高语音反馈的速度的同时，兼顾语音反馈的准确性。

在一些可选的实施例中，所述方法还包括：

在接收到针对参数项配置的第一输入的情况下，显示N个参数项，其中，所述参数项包括关键词或意图项，N为正整数；

接收针对所述N个参数项中的M个参数项的选择输入，M为小于或等于N的正整数；

将所述M个参数项确定为目标参数项，其中，所述目标参数项包括所述目标关键词或所述目标意图项。

示例性的，上述第一输入可以是针对车机终端上设置的参数项配置控件的点击输入、按压输入或滑动输入等；或者上述第一输入可以是包含用于触发参数项配置的唤醒词的语音输入。

上述参数项可以包括意图项或关键词。上述N个参数项可以是用户常用的一些参数项。以上述参数项为意图项为例，车机终端可以获取历史进行自然语言理解识别得到的多个意图项，统计各个意图项的出现频次，并从所述多个意图项中获取出现频次大于预设频次的N个意图项，或者可以从所述多个意图项中获取出现频次位于前N的N个意图项。

在车机终端显示N个参数项之后，用户可以通过触控输入或者语音输入等方式从N个参数项中选择M个参数项。车机终端接收到用户的选择输入的情况下，将用户选择的参数项设置为目标参数项。

本公开实施例通过用户设置目标关键词或者目标意图项，这样可以使得设置的目标关键词或者目标意图项更为贴合用户的需求，进而可以使得语音响应更为贴合用户的需求。

在一些可选的实施例中，所述第一语音处理结果为自然语言理解结果；

所述根据所述第一语音处理结果执行反馈操作，包括：

在根据所述第一语音处理结果确定需要获取第一内容服务数据的情况下，若所述车机终端存储的内容服务数据中存在所述第一内容服务数据，则从所述车机终端存储的内容服务数据获取所述第一内容服务数据，并输出所述第一内容服务数据；

若所述车机终端存储的内容服务数据中不存在所述第一内容服务数据，则从第二云端服务器获取所述第一内容服务数据，输出所述第一内容服务数据，并在所述车机终端存储所述第一内容服务数据。

上述车机终端可以预先存储一些常用的内容服务数据。示例性的，车机终端的DM模块在根据所述第一语音处理结果确定需要获取第一内容服务数据的情况下，可以优先判断车机终端存储的内容服务数据中是否存在上述第一内容服务数据，若存在，则可以直接从车机终端存储的内容服务数据中获取上述第一内容服务数据，若不存在，则可以从第二云端服务器(内容服务(Content Provider Service Provider，CPSP)服务器)获取所述第一内容服务数据，显示上述所述第一内容服务数据或者语音播报上述第一内容服务数据，并可在所述车机终端存储所述第一内容服务数据。

本公开实施例通过优先从车机终端存储的内容服务数据获取第一内容服务数据，这样可以提高获取第一内容服务数据的效率，进而提高语音反馈的速度。

在一些可选的实施例中，所述方法还包括：

在所述车机终端启动或者所述车机终端的语音功能被激活的情况下，从所述第二云端服务器获取第二内容服务数据并存储于所述车机终端，其中，所述第二内容服务数据为满足第二条件的内容服务数据。

上述第二内容服务数据可以包括一些较为常用的内容服务数据(例如，使用频次超过预设频次的内容服务数据)，或者，内容更新较为不频繁的内容服务数据(例如，内容更新时长大于预设时长的内容服务数据)，或者用户选择的特定类型的内容服务数据(例如，天气类的内容服务数据、股票类的内容服务数据、新闻类的内容服务数据等)。

在一些可选的实施例中，车机终端可以每隔预设时间间隔更新其存储的部分或全部内容服务数据；或者，车机终端可以针对不同类型的内容服务数据，采用不同时间间隔更新其对应的内容服务数据，例如，对于一些内容变更较频繁的内容服务数据，可以按照第一时间间隔进行更新，即每隔第一时间间隔从第二云端服务器获取该类型的内容服务数据以更新车机终端存储的对应的内容服务数据，对于一些内容变更较不频繁的内容服务数据，可以按照第二时间间隔进行更新，即每隔第二时间间隔从第二云端服务器获取该类型的内容服务数据以更新车机终端存储的对应的内容服务数据，其中，第二时间间隔大于第一时间间隔。

本实施例通过在车机终端启动或者车机终端的语音功能被激活的情况下，从所述第二云端服务器获取第二内容服务数据并存储于车机终端，这样便于快速的从车机终端存储的内容服务数据中获取相关内容服务数据，进而提高语音反馈的速度。

在一些可选的实施例中，所述第一语音处理结果为自然语言理解结果，所述根据所述第一语音处理结果执行反馈操作，包括：

在根据所述第一语音处理结果确定需要进行语音回复的情况下，若所述车机终端存储的语音文件中存在与待播报文本对应的第一语音文件，则从所述车机终端存储的语音文件中获取所述第一语音文件，并播放所述第一语音文件；其中，所述待播报文本为根据所述第一语音处理结果确定的文本；

若所述车机终端存储的语音文件中不存在与所述待播报文本对应的第一语音文件，则合成所述待播报文本对应的第一语音文件，播放所述第一语音文件，并在所述车机终端关联存储所述第一语音文件和所述待播报文本。

示例性的，车机终端可以预先存储一些语音文件以及各个语音文件对应的文本，车机终端的DM模块在根据所述第一语音处理结果确定需要进行语音回复的情况下，可以根据所述第一语音处理结果确定待播报文本，并判断车机终端存储的语音文件中是否存在该待播报文本对应的语音文件(即第一语音文件)。例如，可以分别将待播报文本与车机终端存储的各个文本进行比对，若存在匹配的文本，则将该文本对应的语音文件作为待播报文本对应的第一语音文件，并播放该第一语音文件；若不存在匹配的文本，则确定车机终端存储的语音文件中不存在与待播报文本对应的第一语音文件，该情况下，可以合成所述待播报文本对应的第一语音文件，播放所述第一语音文件，并可在所述车机终端关联存储所述第一语音文件和所述待播报文本，例如，在所述车机终端存储第一语音文件、待播报文本以及两者的对应关系。

本公开实施例中，车机终端优先从本地存储的语音文件获取与待播报文本对应的第一语音文件，这样可以提高获取第一语音文件的效率，进而提高语音响应的效率。

在一些可选的实施例中，所述合成所述待播报文本对应的第一语音文件，包括：

若所述车机终端所连接网络的网络状态满足所述预设网络条件，则向第三云端服务器发送所述待播报文本，并接收所述第三云端服务器发送的所述待播报文本对应的第一语音文件；

若所述车机终端所连接网络的网络状态不满足所述预设网络条件，则通过所述车机终端的语音合成模块合成所述待播报文本对应的第一语音文件。

本实施例中，在所述车机终端所连接网络的网络状态满足预设网络条件的情况下，车机终端可以向第三云端服务器发送所述待播报文本。第三云端服务器可以通过第三云端服务器的语音合成模块对待播报文本进行语音合成，生成第一语音文件，并向车机终端发送第一语音文件。车机终端可以播放第一音频文件，并关联存储第一语音文件和待播报文本。示例性的，上述关联存储第一语音文件和待播报文本可以包括存储第一语音文件、待播报文本以及第一语音文件和待播报文本之间的对应关系。

在所述车机终端所连接网络的网络状态不满足预设网络条件的情况下，车机终端可以通过车机终端的语音合成模块合成所述待播报文本对应的第一语音文件，播放第一语音文件，并关联存储第一语音文件和待播报文本。

在一些可选的实施例中，在播放第一语音文件之后，在检测到所述车机终端所连接网络的网络状态满足预设网络条件的情况下，车机终端可以向所述第三云端服务器发送所述待播报文本，接收第三云端服务器发送的第一语音文件，并关联存储第一语音文件和待播报文本，在该情况下，可以删除之前存储的第一语音文件和待播报文本，这样可以提高存储的待播报文本对应的语音文件的准确性。

需要说明的是，上述车机终端所连接网络的网络状态可以用于衡量网络质量的优劣，示例性的，上述网络状态可以包括但不限于上述车机终端所连接网络的网络类型和网络速度等中的至少一项。其中，上述网络类型可以包括但不限于移动网络、WIFI网络、局域网络等。上述预设网络条件可以对应于上述网络状态进行合理设置，例如，网络速度大于预设值，或者网络类型为预设类型。

此外，上述第三云端服务器也可以称为TTS服务器。上述第一云端服务器和第三云端服务器可以是同一个服务器，也就是说一个服务器集成有ASR模块、NLU模块、DM模块和TTS模块；也可以是不同的服务器，本实施例对此不做限定。

本公开实施例通过在车机终端所连接网络的网络状态良好的情况下通过第三云端服务器获取待播报文本对应的第一语音文件，可以保证语音服务的质量，在车机终端所连接网络的网络状态较差的情况下通过车机终端的语音合成模块合成所述待播报文本对应的第一语音文件，可以保证语音服务的持续可用。

在一些可选的实施例中，所述第一语音处理模块包括第一语音识别模型和第一自然语言理解模型，所述方法还包括：

按照第一频率从所述第一云端服务器接收语音识别模型和自然语言理解模型；

分别根据从所述第一云端服务器接收的语音识别模型和自然语言理解模型，更新所述第一语音识别模型和所述第一自然语言理解模型。

本实施例中，上述第一频率可以是预设的频率值，具体可以根据实际需求进行合理设置，例如，每天、每周或每月等。

具体的，上述第一云端服务器可以按照上述第一频率进行用于车机终端的语音识别模型和自然语言理解模型的训练，以优化语音识别模型和自然语言理解模型，并将训练得到的语音识别模型和自然语言理解模型发送给车机终端。车机终端可以基于从第一云端服务器接收的语音识别模型和自然语言理解模型更新车机终端存储的第一语音识别模型和第一自然语言理解模型。这样可以保证车机终端存储的第一语音识别模型和第一自然语言理解模型的持续更新和优化，进而提高车机终端的第一语音识别模型和第一自然语言理解模型的识别结果的准确性。

在一些可选地实施例中，车机终端可以接收用户针对语音识别结果的反馈信息，例如，识别结果准确或者不准确的反馈信息，并将获取的反馈信息发送给第一云端服务器，进而第一云端服务器可以基于反馈信息进行语音识别模型和自然语言理解模型训练。

在一些可选的实施例中，所述获取目标语音信号，包括：

接收初始语音信号；

对所述初始语音信号进行第一预处理，得到所述目标语音信号；其中，所述第一预处理包括如下至少一项：回声消除和降噪处理，生源定位处理，波束形成处理，唤醒检测，音区选择，压缩编码。

本实施例中，上述生源定位处理，例如，波达方向(Direction of Arrival，DOA)定位处理，可以对语音信号进行生源定位，从而确定语音信号所属的音区。上述波束形成处理，即将多麦克风收集的语音信号进行加权，在目标信号的方向形成一个拾音波束，同时衰减来自其他方向的反射声。

上述唤醒检测，即检测语音信号所属的音区是否已被唤醒，具体的，在语音信号所属的音区已被唤醒的情况下，可以执行上述步骤102至步骤103，否则不对该语音信号进行处理。上述音区选择，可以是指在接收到多个音区的语音信号的情况下，选择已被唤醒音区的语音信号执行上述步骤102至步骤103。例如，在主驾的音区已被唤醒，副驾的音区未被唤醒的情况下，在接收到主驾的语音信号和副驾的语音信号的情况下，可以选择主驾的语音信号执行上述步骤102至步骤103。

上述压缩编码，例如，采用OPUS编码格式对语音信号进行编码，用于减少语音信号的大小，进而可以减少将语音信号上传至第一云端服务器的资源开销。

为了便于理解，以下结合具体应用场景对本公开实施例进行说明：

示例性的，如图2所示，车机终端的麦克风接收初始语音信号之后，将初始语音信号发送给前端信号处理模块，前端信号处理模块用于对初始语音信号进行前端信号处理，包括ECNR、唤醒检测、DOA和波束形成等处理，并将经过前端信号处理后的语音信号传输给音频分发模块。

音频分发模块用于对经过前端信号处理后的语音信号进行音区选择和压缩编码，得到目标语音信号，并将目标语音信号一路发给离线ASR识别模块，另一路通过网络请求模块上传到云端做ASR识别处理。可以理解的是，上述音频分发模块可以在车机终端连接网络的网络状态满足预设网络条件的情况下，将目标语音信号一路发给离线ASR识别模块，另一路通过网络请求模块上传到云端语音服务器(即第一云端服务器)进行ASR识别处理，在车机终端连接网络的网络状态不满足预设网络条件的情况下，仅将目标语音信号发给离线ASR识别模块。其中，上述网络请求模块可以是车机终端的通信模块。

离线ASR模块用于对目标语音信号进行语音识别生成离线语音识别结果，并传输给离线NLU模块。离线NLU模块用于对离线语音识别结果进行自然语言理解，得到离线自然语音理解结果，并将离线自然语音理解结果传输给离线仲裁模块。

相应的，云端语音服务器通过云端通信模块接收目标语音信号，并传给云端ASR对目标语音信号。云端ASR用于对目标语音进行语音识别生成云端语音识别结果，并传输给云端分发排序模块。云端分发排序模块用于将云端语音识别结果分发给多个云端NLU模块。云端NLU模块用于对云端语音识别结果进行自然语言理解，得到云端自然语音理解结果，并将云端自然语音理解结果传输给云端分发排序模块。云端分发排序模块将多个云端自然语音理解结果传给云端仲裁模块，并将云端仲裁结果传输给云端通信模块。云端通信模块将云端仲裁结果经由网络请求模块传给离线仲裁模块。

离线仲裁模块可以基于离线自然语音理解结果和云端仲裁结果进行仲裁，确定目标自然语音理解结果，并将目标自然语音理解结果传给车机终端的DM模块进行处理。DM模块用于对目标自然语音理解结果进行解析后生成对话结果，并基于对话结果执行对应的操作或动作。

例如，如果DM模块判断需要内容服务(CPSP)数据的情况下，则会优先从CPSP缓存里面获取内容服务数据，若没有对应的CPSP数据，则向CPSP服务器请求对应的CPSP数据，车机终端发起网络CPSP资源请求成功后，将获取的CPSP数据缓存在车机终端；如果DM模块判断需要调用车内控制功能，比如，车控功能、系统设置功能、地图应用、音乐应用等，则通过对应接口调用车内控制功能；如果DM判断需要显示界面，则会调起各个应用界面；如果DM判断需要语音回复，则可以调用文本到语音(Text To Speech，TTS)模块给用户声音反馈。

需要说明的是，上述TTS模块，可以包括TTS SDK和TTS缓存(Cache)等子模块，TTS模块有离线合成语音能力，不依赖于网络。TTS模块会优先从TTS Cache匹配当前待播报文本是否已经有缓存语音文件，如果已经有缓存语音文件则直接播放该语音文件，避免合成语音文件耗时；当TTS Cache没有匹配到缓存语音文件，并且当前网络良好的时候，会优先连接网络，通过TTS服务器合成语音文件后返回车机终端播放，并将TTS服务器合成的语音文件缓存在TTS Cache；当没有网络的时候，则会直接使用离线合成音频能力合成语音文件。

此外，云端语音服务器的离线ASR模型训练平台可以用于训练离线ASR识别模型。云端语音服务器的离线NLU模型训练平台可以用于训练离线NLU模型。上述模型下载和更新模块，用于下载和更新云端训练好的离线ASR模型和离线NLU模型，保证离线ASR模型和离线NLU模型能够以一定的频率更新，不断优化离线ASR和离线NLU的准确率，更好的理解用户输入指令，提高语音响应的准确性。

需要说明的是，上述实施例中涉及的各个模块，可以是硬件形式的模块，也可以是软件形式的模块，本实施例对此不做限定。

如图3所示，本公开实施例提供一种语音处理装置300，包括：

获取模块301，用于获取目标语音信号；

第一处理模块302，用于通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果，并向第一云端服务器发送所述目标语音信号；

第一执行模块303，用于在所述第一语音处理结果满足第一条件的情况下，根据所述第一语音处理结果执行反馈操作。

可选地，如图4所示，所述装置还包括：

第二处理模块304，用于在所述第一语音处理结果不满足所述第一条件的情况下，从所述第一云端服务器接收所述目标语音信号的第二语音处理结果，并根据所述第二语音处理结果执行反馈操作。

可选地，如图5所示，所述装置还包括第一确定模块305，具体用于如下至少一项：

所述通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果之后，在所述第一语音处理结果为语音识别结果的情况下，若所述第一语音处理结果包括目标关键词，则确定所述第一语音处理结果满足所述第一条件；

可选地，所述第一确定模块305具体用于：

或者

可选地，如图6所示，所述装置还包括：

显示模块306，用于在接收到针对参数项配置的第一输入的情况下，显示N个参数项，其中，所述参数项包括关键词或意图项，N为正整数；

第一接收模块307，用于接收针对所述N个参数项中的M个参数项的选择输入，M为小于或等于N的正整数；

第二确定模块308，用于将所述M个参数项确定为目标参数项，其中，所述目标参数项包括所述目标关键词或所述目标意图项。

可选地，所述第一语音处理结果为自然语言理解结果；

所述第一执行模块303具体用于：

可选地，如图7所示，所述装置还包括：

存储模块309，用于在所述车机终端启动或者所述车机终端的语音功能被激活的情况下，从所述第二云端服务器获取第二内容服务数据并存储于所述车机终端，其中，所述第二内容服务数据为满足第二条件的内容服务数据。

可选地，所述第一语音处理结果为自然语言理解结果，所述第一执行模块303具体用于：

可选地，所述第一语音处理模块包括第一语音识别模型和第一自然语言理解模型，如图8所示，所述装置还包括：

第二接收模块310，用于按照第一频率从所述第一云端服务器接收语音识别模型和自然语言理解模型；

更新模块311，用于分别根据从所述第一云端服务器接收的语音识别模型和自然语言理解模型，更新所述第一语音识别模型和所述第一自然语言理解模型。

可选的，所述获取模块301具体用于：

接收初始语音信号；

本公开提供的语音处理装置能够实现语音处理方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

本公开的实施例还提供了一种车辆，该车辆包括上述实施例提供的语音处理装置。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如语音处理方法。例如，在一些实施例中，语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音处理方法，其特征在于，应用于车机终端，所述方法包括：

获取目标语音信号；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述通过所述车机终端的第一语音处理模块对所述目标语音信号进行语音处理，得到第一语音处理结果之后，所述方法还包括如下至少一项：

4.根据权利要求3所述的方法，其特征在于，所述若所述第一语音处理结果包括目标关键词，则确定所述第一语音处理结果满足所述第一条件，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述第一语音处理结果为自然语言理解结果；

所述根据所述第一语音处理结果执行反馈操作，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1-5任一项所述的方法，其特征在于，所述第一语音处理结果为自然语言理解结果，所述根据所述第一语音处理结果执行反馈操作，包括：

9.根据权利要求1-5任一项所述的方法，其特征在于，所述第一语音处理模块包括第一语音识别模型和第一自然语言理解模型，所述方法还包括：

10.根据权利要求1-5任一项所述的方法，其特征在于，所述获取目标语音信号，包括：

接收初始语音信号；

11.一种语音处理装置，其特征在于，应用于车机终端，所述装置包括：

获取模块，用于获取目标语音信号；

12.一种车辆，其特征在于，包括权利要求11所述的语音处理装置。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-10中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如权利要求1-10中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如权利要求1-10中任一项所述的方法。