CN112509585A

CN112509585A - 车载设备的语音处理方法、装置、设备及存储介质

Info

Publication number: CN112509585A
Application number: CN202011530797.8A
Authority: CN
Inventors: 王坤; 贺学焱; 何文策
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-16
Also published as: KR20210098880A; EP3958256A3; JP2022037100A; EP3958256B1; JP7213943B2; EP3958256A2; US20210343287A1

Abstract

本申请公开了一种车载设备的语音处理方法，涉及人工智能领域中的语音技术、车联网技术、智能车辆技术。具体实现方案为：获取用户语音；对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析；如果本地的文本数据库中存在与离线识别文本匹配的文本，则对离线识别文本进行解析，得到用户语音的离线解析结果；根据离线解析结果控制车载设备。因此，本申请在确保弱网场景下车载设备的语音处理准确性的同时，提高了语音处理效率。本申请还公开了一种车载设备的语音处理装置、设备及存储介质。

Description

车载设备的语音处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能领域中的语音技术、车联网技术、智能车辆技术，尤其涉及一种车载设备的语音处理方法、装置、设备及存储介质。

背景技术

随着物联网技术、智能车辆技术、语音技术等技术的发展，车载设备的智能化程度越来越高，甚至可以实现语音助手的功能。车载设备在实现语音助手的功能时，通过识别用户语音来执行一些设定的操作，例如打开车窗、打开车内空调、播放音乐。

车载设备在识别用户语音时，通常采用离线语音识别或者在线语音识别。离线语音识别的准确度较低，仅能识别少数句式，适用性不高。在线语音识别的准确度高，然而车载场景的网络性能不稳定，容易出现弱网场景，弱网场景下线语音识别的效率不高，影响车载设备的语音响应速度。

如何提高弱网场景下车载设备的语音响应速度是亟需解决的问题。

发明内容

本申请提供了一种车载设备的语音处理方法、装置、设备及存储介质。

根据本申请的第一方面，提供了一种车载设备的语音处理方法，包括：

获取用户语音；

对所述用户语音进行离线识别，得到离线识别文本，并将所述用户语音发送至服务器，以对所述用户语音进行在线的语音识别和语义解析；

如果本地的文本数据库中存在与所述离线识别文本匹配的文本，则对所述离线识别文本进行解析，得到所述用户语音的离线解析结果；

根据所述离线解析结果控制车载设备。

根据本申请的第二方面，提供了一种车载设备的语音处理装置，包括：

获取单元，用于获取用户语音；

识别单元，用于对所述用户语音进行离线识别，得到离线识别文本，并将所述用户语音发送至服务器，以对所述用户语音进行在线的语音识别和语义解析；

解析单元，用于如果文本数据库中存在与所述离线识别文本匹配的文本，则对所述离线识别文本进行解析，得到所述用户语音的离线解析结果；

控制单元，用于根据所述离线解析结果控制车载设备。

根据本申请的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法。

根据本申请的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如第一方面所述的方法。

根据本申请的第五方面，提供了一种计算机程序产品，所述程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

根据本申请的第六方面，提供了一种车辆，包括车体，所述车体的中控设备包括如第三方面所述的电子设备。

根据本申请的技术方案，同时对用户语音进行离线识别和在线识别，若离线识别得到的离线识别文本位于本地的文本数据库中，则对离线识别文本进行解析得到离线解析结果，依照离线解析结果控制车载设备，从而在车载环境下尤其车辆的弱网场景下，确保了用户语音处理的准确性，并提高了用户语音处理的效率，进而确保车载设备的语音响应准确性，并提高了车载设备的语音响应效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是可以实现本申请实施例的应用场景示例图；

图2是根据本申请第一实施例的示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请第三实施例的示意图；

图5是根据本申请第四实施例的示意图；

图6是根据本申请第五实施例的示意图；

图7是根据本申请第六实施例的示意图；

图8是根据本申请第七实施例的示意图；

图9是用来实现本申请实施例的车载设备的语音处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着车辆的智能化程度越来越高，车载设备可以实现语音助手的功能。例如，车辆的中控设备上可以安装语音助手，语音助手采集、识别并解析用户语音，得到解析结果，中控设备可以基于解析结果执行相应的控制操作。例如，用户语音为“播放音乐”时，中控设备打开音乐软件并播放音乐，又如，用户语音为“打开车窗”时，中控设备控制车窗打开，又如，用户语音为“打开空调”时，中控设备控制车内的空调打开。

语音助手识别和解析用户语音的方式通常包括两种：一是离线的语音识别和语义解析，二是在线的语音识别和语义解析。

其中，语音识别是将语音识别或者翻译为相应的文本。

其中，语义解析是对文本所包含的语义进行解析。

在语义解析中，意思相近的不同文本可以解析得到相同或者相近的语义，例如，“导航到加油站”和“导航到附近的加油站”的语义几乎相同，“来点音乐”和“播放音乐”的语义相同。因此，为了确保用户更换不同的语言表达来表示同一意思时中控设备可以执行同样的操作，对用户语音进行语音识别后还要进行语义解析。

上述识别和解析用户语音的两种方式，存在以下优缺点：

(一)离线的语音识别和语义解析的效率较高，但受车载设备的计算能力和存储能力的限制，离线的语音识别和语义解析的准确性不高，且仅能识别少数句式，适用性不高。

(二)在线的语音识别和语义解析可以在计算能力和存储能力优秀的设备上进行，准确性较高，但效率受网络限制。

车辆在行驶时通常会路过一些网络信号强度弱的地区，例如经过隧道、桥下。在网络信号强度弱的地区，也即在弱网场景下，在线的语义识别的效率不高，甚至车载设备可能长时间无法响应用户语音。

本申请的实施例提供一种车载设备的语音处理方法、装置、设备以及存储介质，应用于数据处理领域中的语音技术、物联网技术、智能车辆技术，以达到在车载的弱网场景下在确保车载设备的语音响应的准确性的同时，提高了车载设备的语音响应的效率。

图1是可以实现本申请实施例的一种应用场景的示例图。如图1所示，该应用场景包括车辆101、服务器102和位于车辆101内的车载设备103，车载设备103与服务器102之间可以进行网络通信。车载设备103可将用户语音发送给服务器102，以在服务器102上对用户语音进行在线解析。

其中，车载设备103例如为车辆101上的中控设备。或者，车载设备103例如为与车辆101上的中控设备进行通信的其他电子设备，例如手机、可穿戴式智能设备、平板电脑等。

图2是根据本申请第一实施例的示意图。如图2所示，本实施例提供的车载设备的语音处理方法，包括：

S201、获取用户语音。

示例性地，本实施例的执行主体为如图1所示的车载设备。

在一个示例中，车载设备上设有语音采集器，车载设备通过语音采集器采集车辆内的用户语音。其中，语音采集器例如为麦克风。

在另一个示例中，车辆上设置有语音采集器，语音采集器与车载设备进行通信，因此车载设备可以接收语音采集器在车辆内采集的用户语音。

其中，语音采集器与车载设备可以通过有线或者无线方式进行直接或者间接通信，例如：如果车载设备为车辆的中控设备时，中控设备可以直接接收语音采集器在车辆内采集的用户语音；如果车载设备为与车辆的中控设备通信的其他电子设备，则车载设备可以接收中控设备转发的由语音采集器在车辆内采集的用户语音。

示例性地，车载设备在处于语音唤醒状态下获取用户语音，以避免在用户无需使用语音功能时进行用户语音的获取，造成误识别或者对车载设备进行误控制的后果。

示例性地，用户例如语音输入唤醒词、或者例如通过车载设备上的物理按键或者车载设备的屏幕上的虚拟按键，使车载设备进入语音唤醒状态。

S202、对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析。

其中，在车载设备上预先部署有语音识别模型，语音识别模型例如为神经网络模型，在此对语音识别模型不做限制。

具体的，在获取用户语音之后，通过语音识别模型对用户语音进行离线识别，同时将用户语音发送给服务器，由服务器对用户语音进行在线的语音识别和语义解析，以同时对用户语音进行离线识别和在线识别。车载设备将用户语音发送给服务器的速率受网络信号强度的限制，在弱网场景下该速率不高，在线识别的效率低于离线识别的效率。同时进行用户语音的离线识别和在线识别，会先获得用户语音的离线识别文本。

其中，离线识别文本可以是单个词语，也可以是多个词语构成的一个或多个语句。例如，离线识别文本为单个词语时，离线识别文本为“导航”；离线识别文本为单个语句时，离线文本为“导航去加油站”；离线识别文本为多个语句时，离线文本为“起点为A地，终端为B地，开始导航”。

S203、如果本地的文本数据库中存在与离线识别文本匹配的文本，则对离线识别文本进行解析，得到用户语音的离线解析结果。

其中，在车载设备上预先存储有文本数据库，文本数据库包括多个预设的文本，文本数据库中的文本离线解析时的准确性较高。用户语音的离线解析结果可以理解为通过离线方式解析得到的用户语音的语义。

具体的，在获得离线识别文本后，可在文本将离线识别文本与文本数据库中的多个文本进行文本匹配。例如，可提取离线识别文本的文本特征、文本数据库中各文本的文本特征，将离线识别文本的文本特征与文本数据库中各文本的文本特征进行匹配。在此对文本匹配过程不做限制。

如果在文本数据库中存在与离线识别文本匹配的文本，也即，如果文本数据库中存在离线识别文本，则说明通过离线方式对离线识别文本进行解析的准确性较高，因此在车载设备上对离线识别文件进行解析，得到用户语音的离线解析结果，并执行S204。

S204、根据离线解析结果控制车载设备。

其中，车载设备中预先设置有多个语义与控制操作的映射关系。

例如，语义“播放音乐”对应的控制操作为：启动车载设备中的音乐播放应用程序并播放音乐；又如，语义“启动空调”对应的控制操作为：向车内的空调发送启动指令。

具体的，在得到离线解析结果后，可在多个语义与控制操作的映射关系查找离线解析结果对应的控制操作并执行，以控制车载设备。

可以看出，根据离线解析结果不仅可以直接或者间接控制车载设备。例如，当前的车载设备为中控设备时，可直接控制中控设备打开相应的应用程序，也可以直接控制中控设备向其他车载设备发送控制指令，实现对其他车载设备例如空调、车窗、雨刷的间接控制。

本实施例，获取用户语音，同时对用户语音进行离线识别和在线识别，在弱网场景下在线识别的效率明显低于离线识别的效率，因此会获得用户语音的离线识别文本。在得到离线识别文本后，如果本地的文本数据库中存在离线识别文本，则表明可采用离线的语义解析且离线的语义解析的准确性较高，因此对离线识别文本进行离线的语义解析，得到用户语音的离线解析结果。基于离线解析结果控制车载设备。

因此，本实施例通过离线识别与在线识别同时进行并有条件地采用离线识别的方式，在确保语音处理的准确性的同时，提高了语音处理的效率，进而在确保车载设备的语音响应的准确性的同时，提高了车载设备的语音响应的效率。

图3是根据本申请第二实施例的示意图。如图3所示，本实施例提供的车载设备的语音处理方法，包括：

S301、获取用户语音。

S302、对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析。

S303、确定本地的文本数据库中是否存在于离线识别文本匹配的文本。

如果文本数据库中存在与离线识别文本匹配的文本，则执行S304，以采用离线方式对用户语音进行识别和解析。

如果文本数据库中不存在与离线识别文本匹配的文本，则无法确保对离线识别文本进行离线解析能够达到较高的准确性，可执行S306，以采用在线方式对用户语音进行识别和解析。

S304、对离线识别文本进行解析，得到用户语音的离线解析结果。

S305、根据离线解析结果控制车载设备。

其中，S301-S305的实现过程可参照前述实施例，不再赘述。

S306、等待服务器返回的用户语音的在线解析结果。

具体的，在线识别至少要经过两次收发过程，一次是车载设备将用户语音发送给服务器，另一次是服务器将用户语音的在线解析结果返回给车载设备，而离线识别不存在这些收发过程。在弱网环境下，车载设备与服务器之间的通信速率较慢，因此，在离线识别得到用户语音的离线识别文本后，如果文本数据库中不存在与离线识别文本匹配的文本，则需要等待服务器返回用户语音的在线解析结果。

示例性地，服务器的计算性能和存储性能优于车载设备，因此，相较于车载设备，服务器可以通过更完善、准确性更好的语音识别模型和语义解析模型，对用户语音进行识别和解析，以确保用户语音的解析准确性。

S307、在接收到服务器返回的在线解析结果后，根据在线解析结果控制车载设备。

其中，用户语音的在线解析结果可以理解为通过在线方式(即通过远端的服务器)解析得到的用户语音的语义。

具体的，在等待到服务器返回的在线解析结果后，根据在线解析结果控制车载设备，其中，根据在线解析结果控制车载设备与对根据离线解析结果控制车载设备的过程相似，可参照前述实施例的描述，不再赘述。

本实施例，获取用户语音，同时对用户语音进行离线识别和在线识别，在弱网场景下在线识别的效率明显低于离线识别的效率，因此会获得用户语音的离线识别文本。在得到离线识别文本后，如果本地的文本数据库中存在与离线识别文本匹配的文本，则表明可采用离线的语义解析且离线的语义解析的准确性较高，因此对离线识别文本进行离线的语义解析，得到用户语音的离线解析结果，基于离线解析结果控制车载设备。

如果本地的文本数据库中不存在与离线识别文本匹配的文本，则为确保用户语音处理的准确性，等待服务器返回的在线解析结果，基于在线解析结果控制车载设备。

因此，本实施例通过离线识别与在线识别同时进行、并依据文本数据库设置了采用离线解析和采用在线解析的条件，在确保语音处理的准确性的同时，提高了语音处理的效率，进而在确保车载设备的语音响应的准确性的同时，提高了车载设备的语音响应的效率。

图4是根据本申请第三实施例的示意图。如图4所示，本实施例提供的车载设备的语音处理方法，包括：

S401、获取用户语音。

S402、对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析。

其中，S401-S402的实现过程可参照前述实施例，不再赘述。

S403、如果本地的文本数据库中存在与离线识别文本匹配的文本，则在文本数据库中多个文本与解析语义的预设映射关系中，获取与离线识别文本相关联的解析语义。

其中，文本数据库中包括多个文本与解析语义的预设映射关系，解析语义即语义。在多个文本与解析语义的预设映射关系中，多个文本可以对应同一个解析语义，也可以对应不同的解析语义。例如，文本“播放音乐”和文本“来首音乐”对应同一个解析语义，文本“打开空调”和文本“播放音乐”对应不同的解析语义。

具体的，如果文本数据库中存在与离线识别文本匹配的文本，则可在文本数据库中多个文本与解析语义的预设映射关系中，获取与离线识别文本匹配的文本所对应的解析语义，与离线识别文本匹配的文本所对应的解析语义即与离线识别文本相关联的解析语义，确保了离线解析的准确性。

S404、将与离线识别文本相关联的解析语义确定为离线解析结果。

S405、根据离线解析结果控制车载设备。

其中，S405的实现过程可参照前述实施例，不再赘述。

本实施例中，在对用户语音进行离线识别的同时，将用户语音发送给服务器，以对用户语音进行在线识别和在线解析。在先获得用户语音的离线识别文本后，如果本地的文本数据库中存在与离线识别文本匹配的文本，则依据文本数据库中多个文本与解析语义的映射关系，确定与离线识别文本相关联的离线解析结果，确保了采用离线方式对离线识别文本进行解析的准确性。再依据离线解析结果控制车载设备。

因此，本实施例通过离线识别与在线识别同时进行、并在文本数据库中包括离线识别文本的情形下依据多个文本与解析语义的映射关系确定离线解析结果，在确保语音处理的准确性的同时，提高了语音处理的效率，进而在确保车载设备的语音响应的准确性的同时，提高了车载设备的语音响应的效率。

图5是根据本申请第四实施例的示意图。如图5所示，本实施例提供的车载设备的语音处理方法，包括：

S501、获取用户语音。

S502、对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析。

其中，S501-S502的实现过程可参照前述实施例，不再赘述。

S503、如果本地的文本数据库中存在与离线识别文本匹配的文本，则通过语义解析模型对离线识别文本进行解析，得到离线解析结果，其中，语义解析模型在训练过程中采用的训练数据包括文本数据库中的文本。

其中，车载设备上预先部署有语义解析模型，语义解析模型的输入为文本，输出为文本的语义。例如，语义解析模型采用自然语言处理领域的语言模型，在此对语义解析模型的具体结构不做限制。

具体的，如果本地的文本数据库中存在与离线识别文本匹配的文本，则通过在本地部署的语义解析模型对离线识别文本进行解析，得到离线识别文本的解析语义，也即离线识别文本的离线解析结果。

示例性的，车载设备部署语义解析模型之前，车载设备或者服务器可依据预先采集的训练数据对语义解析模型进行训练，以提高语义解析模型的语义解析准确性。其中，训练数据包括文本数据库中的所有文本，在训练时，依据文本数据库中的所有文本对语义解析模型进行训练，至少保证了语义解析模型对文本数据库中各文本进行语义解析的准确性。

进一步的，在依据文本数据库中的所有文本对语义解析模型进行训练后，再通过训练后的语义解析模型对文本数据库中的所有文本进行解析，将文本数据库中无法被语义解析模型准确解析的文本，从文本数据库中删除，以确保语义解析模型对文本数据库中文本进行解析的100％准确性。

S504、根据离线解析结果控制车载设备。

其中，S504的实现过程可参照前述实施例，不再赘述。

本实施例中，通过离线识别与在线识别同时进行、并在文本数据库中包括离线识别文本的情形下依据本地部署的语义解析模型对离线识别文本进行解析，其中，语义解析模型的训练数据包括文本数据库中的文本。因此，通过对文本数据库中文本的解析准确性较高的语义解析模型，确保离线方式下语义解析的准确性，实现在确保语音处理准确性的同时，提高了语音处理的效率，进而在确保车载设备的语音响应的准确性的同时，提高了车载设备的语音响应的效率。

在一些实施例中，文本数据库可包括车厂预先设定的文本，例如车厂可以先设定一些问句、陈述句和/或关键词作为文本数据库中的文本，并设置好每个文本对应的语义和每个语义对应的操作。因此，通过离线方式可以准确地对车厂预先设定的文本进行准确地识别和解析。

在一些实施例中，文本数据库除了包括车厂预先设定的文本外，还可以基于预先采集的用户历史数据构建文本数据库，使得文本数据库能够覆盖用户的语音习惯，对用户常使用的语音内容进行准确地离线识别和解析。

其中，文本数据库的构建可以在车载设备上进行。或者，文本数据库的构建也可以在服务器上进行。服务器构建文本数据库的过程中，还可构建文本数据库中多个文本与解析语义的映射关系，将包括多个文本与解析语义的映射关系的文本数据库发送给车载设备；或者，服务器可基于文本数据库训练语义解析模型，将文本数据库和语义解析模型发送给车载设备。

以文本数据库的构建和语义解析模型的训练在服务器上执行为例，图6是根据本申请第五实施例的示意图，如图6所示，文本数据库和语义解析模型可通过下述过程获得：

S601、获取预先采集的用户历史数据。

其中，车载设备预先采集用户历史数据并存储，用户历史数据包括在历史时间段内用户通过语音输入的多个文本。历史时间段为在当前时刻之前的一段时间，例如过去一个月、过去半个月。

示例性地，由于车载设备的存储空间有限，车载设备可以记录用户在最近一个月内或者最近一周内输入的用户语音所对应的文本，超过最近一个月内或者最近一周内的文本可以删除或者被覆盖。

S602、将用户历史数据发送给服务器。

在一个示例中，车载设备可以主动将用户历史数据发送给服务器，例如每隔预设时间向服务器发送一次用户历史数据。

在另一个示例中，车载设备在接收到服务器的数据获取请求后，将预先采集的用户历史数据发送给服务器。

在另一个示例中，服务器自身可以采集不同的车载设备的用户历史数据，例如对在线识别时车载设备发送的用户语音所对应的文本进行保存。

S603、接收服务器返回的文本数据库和语义解析模型。

具体的，服务器在接收到用户历史数据后，如果服务器上不存在文本数据库，则基于用户历史数据构建文本数据库，如果服务器上存在文本数据库，则基于用户历史数据更新文本数据库。服务器基于构建或者更新的文本数据库，训练语义解析模型。

服务器在构建或者更新文本数据库时，一种可能的实施方式为：对用户历史数据中重复的文本进行筛选，也即将重复的文本从用户历史数据中筛选掉，由筛选后的用户历史数据库的各文本构建文本数据库，或者将筛选后的用户历史数据与文本数据库进行合并，以更新文本数据库。

服务器在构建或者更新文本数据库时，另一种可能的实施方式为：统计用户历史数据中各文本在用户历史数据中的出现频率或者占比；按照用户历史数据中各文本的出现频率和/或占比，对用户历史数据中的多个文本进行筛选；根据用户历史数据中筛选后的文本，构建或者更新文本数据库。

其中，在得到各文本在用户历史数据的出现频率或者占比时，可按照各文本的出现频率或者占比从高到低的顺序对各文本进行排序，从中获取出现频率大于等于第一阈值的文本和/或占比大于等于第二阈值的文本。

所以，构建的文本数据库中包括用户历史数据中出现频率大于等于第一阈值的文本，和/或文本数据库中的所有文本在用户历史数据中的总占比大于等于预设的第二阈值，有效地提高了文本数据库所包含的文本的合理性，使得文本数据库能够覆盖用户最近经常使用的语音内容。其中，第一阈值和第二阈值可以为预设的相同阈值或不同阈值。

服务器在构建或者更新文本数据库时，又一种可能的实施方式为：预先为不同时间段设置不同的时间权重；在构建或者更新文本数据库时，确定用户历史数据中各文本的时间权重；针对用户历史数据中的各文本，基于文本的时间权重与文本在用户历史数据中的出现次数的乘积，计算用户历史数据中各个文本的文本权重；依照文本权重从高到低的顺序，从用户历史数据中挑选预设数量个文本用于构建或者更新文本数据库，或者，从用户历史数据中挑选文本权重大于预设的权重阈值的文本用于构建或者更新文本数据库。因此，既考虑到文本的出现次数和/或出现频率，又考虑到文本的出现时间，提高文本数据库所包含的文本的合理性，使得文本数据库能够对用户最近经常使用的语音内容进行准确地离线识别和解析。

上述各示例中文本数据库的构建和/或更新过程也可以在车载设备上执行，车载设备将构建和/或更新的文本数据库发送给服务器，服务器基于文本数据库训练语义解析模型，再将语义解析模型发送给服务器。

图7是根据本申请第六实施例的示意图，如图7所示，车载设备的语音处理方法包括：

S701、获取用户语音。

其中，S701的实现过程可参照前述实施例，不再赘述。

S702、获取车载设备的信号强度。

其中，车载设备的信号强度是指车载设备的网络信号或者通信信号的信号强度。例如，可以通过车载设备与服务器之间的数据传输速率来衡量车载设备的信号强度，还可以通过车载设备上预设的信号检测软件或者硬件来检测车载设备的信号强度。

S703、确定车载设备的信号强度是否大于预设的强度阈值；

具体的，如果信号强度小于等于预设的强度阈值，则说明当前的车载场景属于弱网场景，对用户语音进行在线识别的效率不高，因此执行S704。如果信号强度大于强度阈值，则说明当前的车载场景的网络信号较佳，对用户语音进行在线识别的效率较高，执行S709。

S704、对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器。

S705、确定本地的文本数据库中存在与离线识别文本匹配的文本。

具体的，如果本地的文本数据库中存在与离线识别文本匹配的文本，则执行S706，否则执行S708。

S706、对离线识别文本进行解析，得到用户语音的离线解析结果。

S707、根据离线解析结果控制车载设备。

S708、等待服务器返回的用户语音的在线解析结果。

具体的，等待服务器返回的用户语音的在线解析结果，若接收到服务器返回的用户语音的在线解析结果，则执行S710。

其中，S704-S708的实现过程可参照前述实施例，不再赘述。

S709、将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析。

具体的，在车载设备的信号强度大于强度阈值的情形下，直接将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析，并执行S710，而无需进行离线识别。

S710、在接收到服务器返回的在线解析结果后，根据在线解析结果控制车载设备。

其中，S710的实现过程可参照前述实施例，不再赘述。

本实施例中，在对用户语音进行识别和解析之前，通过获取车载设备的信号强度，对当前场景是否为弱网场景进行判断，在弱网场景下才进行离线识别和在线识别的同时进行，否则直接进行在线识别。因此，确保在弱网场景下通过离线识别和在线识别的同时进行，提高用户语音处理的效率，同时又尽可能确保用户语音处理的准确性，进而在弱网场景下确保车载设备的语音响应的准确性的同时，提高了车载设备的语音响应的效率。

图8是根据本申请第八实施例的示意图。如图8所示，本实施例提供的车载设备的语音处理装置，包括：

获取单元801，用于获取用户语音；

识别单元802，用于对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析；

解析单元803，用于如果文本数据库中存在与离线识别文本匹配的文本，则对离线识别文本进行解析，得到用户语音的离线解析结果；

控制单元804，用于根据离线解析结果控制车载设备。

在一种可能的实现方式中，解析单元803还包括：

在线解析模块，用于如果文本数据库中不存在与离线识别文本匹配的文本，则等待服务器返回的用户语音的在线解析结果；

在一种可能的实现方式中，控制单元804还包括：

控制子模块，用于在接收到服务器返回的在线解析结果后，根据在线解析结果控制车载设备。

在一种可能的实现方式中，解析单元803包括：

第一离线解析模块，用于在文本数据库中多个文本与解析语义的预设映射关系中，获取与离线识别文本相关联的解析语义，将与离线识别文本相关联的解析语义确定为离线解析结果。

在一种可能的实现方式中，解析单元803包括：

第二离线解析模块，用于通过语义解析模型对离线识别文本进行解析，得到离线解析结果，其中，语义解析模型在训练过程中采用的训练数据包括文本数据库中的文本。

在一种可能的实现方式中，获取单元801包括：

历史数据获取模块，用于获取预先采集的用户历史数据，用户历史数据包括在历史时间段内用户通过语音输入的多个文本；

装置还包括：

发送单元，用于将用户历史数据发送给服务器；

接收单元，用于接收服务器返回的文本数据库和语义解析模型。

在一种可能的实现方式中，获取单元801包括：

历史数据获取模块，用于获取预先采集的用户历史数据，用户历史数据包括在历史时间段内用户输入的语音识别得到的多个文本；

装置还包括：

数据处理单元，用于按照用户历史数据中各文本的出现频率和/或占比，对用户历史数据中的多个文本进行筛选，根据用户历史数据中筛选后的文本，得到文本数据库；

其中，文本数据库包括用户历史数据中出现频率大于等于预设第一阈值的文本，和/或文本数据库中的所有文本在用户历史数据中的总占比大于等于预设的第二阈值。

在一种可能的实现方式中，获取单元801包括：

信号获取模块，用于获取车载设备的信号强度；

识别单元802，包括：

第一识别子模块，用于如果信号强度小于等于预设的强度阈值，则对用户语音进行离线识别，得到离线识别文本，并将用户语音发送至服务器。

在一种可能的实现方式中，识别单元802还包括：

第二识别子模块，用于如果信号强度大于强度阈值，则将用户语音发送至服务器，以对用户语音进行在线的语音识别和语义解析；

控制单元804包括：

控制子单元，用于在接收到服务器返回的在线解析结果后，根据在线解析结果控制车载设备。

图8提供的车载设备的语音处理装置，可以执行前述相应方法实施例，其实现原理和技术效果类似，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

根据本申请的实施例，本申请还提供了一种计算机程序产品，程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图9示出了可以用来实施本申请的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如车载设备的语音处理方法。例如，在一些实施例中，车载设备的语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的车载设备的语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行车载设备的语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种车载设备的语音处理方法，包括：

获取用户语音；

根据所述离线解析结果控制车载设备。

2.根据权利要求1所述的方法，所述方法还包括：

如果所述文本数据库中不存在与所述离线识别文本匹配的文本，则等待所述服务器返回的所述用户语音的在线解析结果；

在接收到所述服务器返回的在线解析结果后，根据所述在线解析结果控制车载设备。

3.根据权利要求1所述的方法，所述对所述离线识别文本进行解析，得到所述用户语音的离线解析结果，包括：

在所述文本数据库中多个文本与解析语义的预设映射关系中，获取与所述离线识别文本相关联的解析语义；

将所述与所述离线识别文本相关联的解析语义确定为所述离线解析结果。

4.根据权利要求1所述的方法，所述对所述离线识别文本进行解析，得到所述用户语音的离线解析结果，包括：

通过语义解析模型对所述离线识别文本进行解析，得到所述离线解析结果，其中，所述语义解析模型在训练过程中采用的训练数据包括所述文本数据库中的文本。

5.根据权利要求4所述的方法，所述方法还包括：

获取预先采集的用户历史数据，所述用户历史数据包括在历史时间段内用户通过语音输入的多个文本；

将所述用户历史数据发送给所述服务器；

接收所述服务器返回的所述文本数据库和所述语义解析模型。

6.根据权利要求1-4任一项所述的方法，所述方法还包括：

获取预先采集的用户历史数据，所述用户历史数据包括在历史时间段内用户输入的语音识别得到的多个文本；

按照所述用户历史数据中各文本的出现频率和/或占比，对所述用户历史数据中的多个文本进行筛选；

根据所述用户历史数据中筛选后的文本，得到所述文本数据库；

其中，所述文本数据库包括所述用户历史数据中出现频率大于等于预设第一阈值的文本，和/或所述文本数据库中的所有文本在所述用户历史数据中的总占比大于等于预设的第二阈值。

7.根据权利要求1-4任一项所述的方法，所述方法还包括：

获取所述车载设备的信号强度；

所述对所述用户语音进行离线识别，得到离线识别文本，并将所述用户语音发送至服务器，包括：

如果所述信号强度小于等于预设的强度阈值，则对所述用户语音进行离线识别，得到所述离线识别文本，并将所述用户语音发送至所述服务器。

8.根据权利要求7所述的方法，所述方法还包括：

如果所述信号强度大于所述强度阈值，则将所述用户语音发送至所述服务器，以对所述用户语音进行在线的语音识别和语义解析；

9.一种车载设备的语音处理装置，包括：

获取单元，用于获取用户语音；

控制单元，用于根据所述离线解析结果控制车载设备。

10.根据权利要求9所述的装置，所述解析单元还包括：

在线解析模块，用于如果所述文本数据库中不存在与所述离线识别文本匹配的文本，则等待所述服务器返回的所述用户语音的在线解析结果；

所述控制单元还包括：

控制子模块，用于在接收到所述服务器返回的所述在线解析结果后，根据所述在线解析结果控制车载设备。

11.根据权利要求9所述的装置，所述解析单元包括：

第一离线解析模块，用于在所述文本数据库中多个文本与解析语义的预设映射关系中，获取与所述离线识别文本相关联的解析语义，将所述与所述离线识别文本相关联的解析语义确定为所述离线解析结果。

12.根据权利要求9所述的装置，所述解析单元包括：

第二离线解析模块，用于通过语义解析模型对所述离线识别文本进行解析，得到所述离线解析结果，其中，所述语义解析模型在训练过程中采用的训练数据包括所述文本数据库中的文本。

13.根据权利要求12所述的装置，所述获取单元包括：

历史数据获取模块，用于获取预先采集的用户历史数据，所述用户历史数据包括在历史时间段内用户通过语音输入的多个文本；

所述装置还包括：

发送单元，用于将所述用户历史数据发送给所述服务器；

接收单元，用于接收所述服务器返回的所述文本数据库和所述语义解析模型。

14.根据权利要求9-12任一项所述的装置，所述获取单元包括：

历史数据获取模块，用于获取预先采集的用户历史数据，所述用户历史数据包括在历史时间段内用户输入的语音识别得到的多个文本；

所述装置还包括：

数据处理单元，用于按照所述用户历史数据中各文本的出现频率和/或占比，对所述用户历史数据中的多个文本进行筛选，根据所述用户历史数据中筛选后的文本，得到所述文本数据库；

15.根据权利要求9-12任一项所述的装置，所述获取单元包括：

信号获取模块，用于获取所述车载设备的信号强度；

所述识别单元，包括：

第一识别子模块，用于如果所述信号强度小于等于预设的强度阈值，则对所述用户语音进行离线识别，得到所述离线识别文本，并将所述用户语音发送至所述服务器。

16.根据权利要求15所述的装置，所述识别单元还包括：

第二识别子模块，用于如果所述信号强度大于所述强度阈值，则将所述用户语音发送至所述服务器，以对所述用户语音进行在线的语音识别和语义解析；

所述控制单元包括：

控制子单元，用于在接收到所述服务器返回的在线解析结果后，根据所述在线解析结果控制车载设备。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-8任一项所述的方法。

20.一种车辆，包括车体，所述车体的中控设备包括如权利要求17所述的电子设备。