CN111627439B

CN111627439B - 音频数据的处理方法和装置、存储介质和电子设备

Info

Publication number: CN111627439B
Application number: CN202010437681.3A
Authority: CN
Inventors: 朱绍明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2022-07-22
Anticipated expiration: 2040-05-21
Also published as: CN111627439A

Abstract

本发明公开了一种音频数据的处理方法和装置、存储介质和电子设备。该方法包括：在服务器上获取终端设备采集到的音频数据以及终端设备的设备状态；在服务器上对音频数据进行语音识别处理，得到音频数据对应的目标文本；在设备状态处于睡眠状态的情况下，在服务器上对目标文本执行第一处理操作，得到第一处理结果，并向终端设备发送第一处理结果，第一处理操作用于确定目标文本是否包括预定的唤醒词；在设备状态处于唤醒状态的情况下，在服务器上对目标文本执行第二处理操作，得到第二处理结果，并向终端设备发送第二处理结果，其中，第二处理操作用于对目标文本执行语义识别处理。上述方案可应用于人工智能语音识别、自然语言处理等领域。

Description

音频数据的处理方法和装置、存储介质和电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频数据的处理方法和装置、存储介质和电子设备。

背景技术

随着互联网的快速发展，人们的生活变得越来越智能化，因此人们也越来越习惯地使用智能终端完成各种需求。而且随着人工智能相关技术的日益成熟，各类终端的智能化程度也越来越高。其中，语音交互的方式作为智能终端中人机交互主流的交流应用之一，也越来越受到用户的青睐。

智能终端如果通过语音交互的方式进行开启，那么在启动过程中需要用到唤醒词，当智能终端识别到设定的唤醒词时就会启动，然后识别用户语音。同时为了避免唤醒词语音对用户语音的识别结果产生影响，需要对唤醒进行过滤消除。目前智能终端的唤醒词消除技术大都是通过对输入音频与唤醒词音频进行对比，相匹配则过滤。通过上述方式，智能终端需要额外预留资源用于唤醒词消除功能的实现，增加了终端制造的成本。

针对相关技术中，通过将输入音频与唤醒词进行对比的方式来过滤唤醒词的方式，存在额外占用智能终端资源的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频数据的处理方法和装置、存储介质和电子设备，以至少解决相关技术中，通过将输入音频与唤醒词进行对比的方式来过滤唤醒词的方式，存在额外占用智能终端资源的技术问题。

根据本发明实施例的一个方面，提供了一种音频数据的处理方法，包括：在服务器上获取终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；在上述服务器上对上述音频数据进行语音识别处理，得到上述音频数据对应的目标文本；在上述设备状态处于上述睡眠状态的情况下，在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并向上述终端设备发送上述第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。

根据本发明实施例的另一方面，还提供了一种音频数据的处理装置，包括：向服务器上发送终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；在上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理结果为上述服务器对上述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；在上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理结果为上述服务器对上述目标文本执行第二处理操作所得到的，上述第二处理操作用于对上述目标文本执行语义识别处理。

根据本发明实施例的又一个方面，提供了一种音频数据的处理方法，包括：向服务器发送终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；在上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理结果为上述服务器对上述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；在上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理结果为上述服务器对上述目标文本执行第二处理操作所得到的，上述第二处理操作用于对上述目标文本执行语义识别处理。

根据本发明实施例的又一方面，还提供了一种音频数据的处理装置，包括：第一发送单元，用于向服务器发送终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；第二获取单元，用于在上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理结果为上述服务器对上述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；第三获取单元，用于在上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理结果为上述服务器对上述目标文本执行第二处理操作所得到的，上述第二处理操作用于对上述目标文本执行语义识别处理。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频数据的处理方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述音频数据的处理方法。

在本发明实施例中，首先通过服务器获取终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；然后，在上述服务器上对上述音频数据进行语音识别处理，该音频数据对应的目标文本；如果上述设备状态处于上述睡眠状态的情况下，可以在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并将第一处理结果发送给上述终端设备，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；如果上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并将上述第二处理结果发送给上述终端设备，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。通过上述方式，通过服务器对终端设备采集到的音频数据进行处理，然后服务器结合音频数据的语音识别结果和终端设备的设备状态对唤醒词进行处理，这种通过服务器处理唤醒词的方式，避免了终端设备对输入音频与唤醒词进行对比的来过滤唤醒词的，使终端设备可以不用占用额外的资源，降低了终端设备的制造成本，提高了智能终端的资源空间，节约了终端设备的制造成本。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种音频数据的处理方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的音频数据的处理方法的流程示意图(一)；

图3是根据本发明实施例的一种可选的音频数据的处理方法的流程示意图(二)；

图4是根据本发明实施例的一种可选的音频数据的处理方法的流程示意图(三)；

图5是根据本发明实施例的一种可选的音频数据传输过程的示意图；

图6是根据本发明实施例的一种可选的语音识别过程的流程示意图

图7是根据本发明实施例的一种可选的文本识别过程的示意图；

图8是根据本发明实施例的一种可选的音频数据的处理装置的结构示意图；

图9是根据本发明实施例的另一种可选的音频数据的处理装置的结构示意图；

图10是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例中涉及到的技术术语包括：

1、唤醒词：智能终端实时检测说话人的特定片段，用于唤醒智能终端进行有效语音识别。

2、自动语音识别(Automatic Speech Recognition，简称ASR)。

3、自然语言处理(Natural Language Processing，简称NLP)。

根据本发明实施例的一个方面，提供了一种音频数据的处理方法。可选地，上述音频数据的处理方法可以但不限于应用于如图1所示的应用环境中。如图1所示，终端设备102采集音频数据以及上述终端设备的设备状态，并通过网络将音频数据以及上述终端设备的设备状态发送给服务器104。服务器104接收到音频数据以及上述终端设备的设备状态后，在上述服务器上对上述音频数据进行语音识别处理，得到上述音频数据对应的目标文本；在上述设备状态处于上述睡眠状态的情况下，在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并向上述终端设备发送上述第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；在上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。以上仅为一种示例，本申请实施例在此不作限定。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可选地，上述方法主要应用于人工智能语音识别、自然语言处理等领域。

需要说明的是，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

需要说明的是，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

可选地，上述方法可以应用于智能音箱、电视盒子等多个项目和产品应用中，本实施例在此不作任何限定。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，该方法可以由服务器执行，也可以由终端设备执行，或者由服务器和终端设备共同执行，本实施例中，以由服务器(例如，上述服务器104)执行为例进行说明。如图2所示，上述音频数据的处理方法的流程可以包括步骤：

步骤S202，在服务器上获取终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态。

可选地，终端设备(如智能音箱)采集音频数据，然后将音频数据和终端设备自己的设备状态发送给服务器，其中，设备状态可以包括唤醒状态和睡眠状态。

步骤S204，在上述服务器上对上述音频数据进行语音识别处理，得到上述音频数据对应的目标文本。

可选地，服务器可以对获取到的音频数据进行语音识别处理，从而得到该音频数据对应的目标文本。

步骤S206，在上述设备状态处于上述睡眠状态的情况下，在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并向上述终端设备发送上述第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词。

可选地，如果获取到的终端设备的设备状态为睡眠状态，可以在服务上对目标文本执行第一处理操作，并得到第一处理操作对应的第一处理结果，然后向终端设备发送该第一处理结果。通过第一处理操作可以确定出目标文本中是否包含预定的唤醒词。

步骤S208，在上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。

可选地，如果获取到的终端设备的设备状态为唤醒状态，可以在服务上对目标文本执行第二处理操作，并得到第二处理操作对应的第二处理结果，然后向终端设备发送该第二处理结果。其中，第二处理操作可以用于对目标文本执行语义识别处理，如识别目标文本对应的执行命令语义等。

通过本实施例，首先通过服务器获取终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；然后，在上述服务器上对上述音频数据进行语音识别处理，该音频数据对应的目标文本；如果上述设备状态处于上述睡眠状态的情况下，可以在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并将第一处理结果发送给上述终端设备，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；如果上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并将上述第二处理结果发送给上述终端设备，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。通过上述方式，通过服务器对终端设备采集到的音频数据进行处理，然后服务器结合音频数据的语音识别结果和终端设备的设备状态对唤醒词进行处理，这种通过服务器处理唤醒词的方式，避免了终端设备对输入音频与唤醒词进行对比的来过滤唤醒词的，使终端设备可以不用占用额外的资源，降低了终端设备的制造成本，提高了智能终端的资源空间，节约了终端设备的制造成本。

可选地，在本实施例中，上述在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并向上述终端设备发送上述第一处理结果，包括：确定上述目标文本是否包括上述预定的唤醒词；在上述目标文本包括上述唤醒词的情况下，生成第一唤醒指令，并向上述终端设备发送上述第一唤醒指令，其中，上述第一唤醒指令用于指示上述终端设备将上述设备状态从上述睡眠状态调整为上述唤醒状态；和/或在上述目标文本不包括上述唤醒词的情况下，生成第一无效语音指令，并向上述终端设备发送上述第一无效语音指令，其中，上述第一无效语音指令用于指示上述终端设备重置上述睡眠状态。

可选地，在上述设备状态处于上述睡眠状态的情况下，通过服务器对目标文本进行分析，确定目标文本中是否包含预定的唤醒词，如果目标文本中包括了唤醒词，则生成第一唤醒指令，并向终端设备发送该第一唤醒指令，当终端设备接收到该第一唤醒指令时，终端设备可以从睡眠状态调整为唤醒状态。和/或

在上述设备状态处于上述睡眠状态的情况下，通过服务器对目标文本进行分析，确定目标文本中是否包含预定的唤醒词，如果目标文本中不包括唤醒词，则生成第一无效语音指令，并向终端设备发送该第一无效语音指令，当终端设备接收到该第一无效语音指令时，终端设备可以重置睡眠状态，或者，终端设备还可发出提示信息，该提示信息用于提示目标对象重新发出命令语音。

通过本实施例，服务器通过判断目标文本中是否包含唤醒词，可以生成不同的指令，从而向终端设备发送不同的指令，进而控制终端设备的设备状态，避免了占用终端设备的资源进行唤醒词的消除，提高了终端设备处理唤醒词的效率，降低了终端设备的制造成本。

可选地，在本实施例中，上述在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，包括：对上述目标文本执行语义识别处理，得到上述目标文本的目标语义；执行与上述目标语义对应的上述第二处理操作，得到上述第二处理结果；向上述终端设备发送上述第二处理结果。

可选地，在上述设备状态处于上述唤醒状态的情况下，可以对识别到的目标文本进行语音识别，从而得到该目标文本对应的目标语义，然后执行与目标语义对应的第二处理操作，得到第二处理结果，并向终端设备发送第二处理结果。

举例来说，如果目标语义对应的第二处理操作为“播放XXX歌曲”，则可以将搜索到的歌曲以及播放该歌曲的命令结果发送给终端设备。

可理解，上述仅为一种示例，本实施例对此不作具体限定。

通过本实施例，可以通过服务器实现对语音命令的处理，避免了终端设备直接处理语音命令，减少了终端设备的制造成本。

可选地，在本实施例中，执行与上述目标语义对应的搜索操作，得到搜索结果，其中，上述第二处理操作包括上述搜索操作，上述第二处理结果包括上述搜索结果。

可选地，在目标语义为一种搜索语义时，可以使服务器执行对应的搜索操作，并得到对应的搜索结果，其中，上述第二处理操作可以为一种搜索操作，如搜索天气、搜索音乐、搜索书籍、搜索菜谱等等。

可选地，在本实施例中，在上述向上述终端设备发送上述第二处理结果之后，上述方法还包括：向上述终端设备发送重置命令，其中，上述重置命令用于指示上述终端设备将上述设备状态由上述唤醒状态调整为上述睡眠状态。

可选地，在终端设备处理唤醒状态、且向上述终端设备发送上述第二处理结果之后，服务器可以向终端设备发送重置命令，在终端设备结果接收到该重置命令时，可以使终端设备的设备状态由唤醒状态调整为睡眠状态。

可选地，在本实施例中，上述在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，包括：在上述目标文本包括上述唤醒词的情况下，生成第二唤醒指令，并向上述终端设备发送上述第二唤醒指令，其中，上述第二唤醒指令用于指示将上述终端设备的上述设备状态保持为上述唤醒状态；和/或在上述目标文本不包括上述唤醒词、且上述目标文本的语义识别结果不为上述目标语义的情况下，生成第二无效语音指令，并向上述终端设备发送上述第二无效语音指令，其中，上述第二无效语音指令用于指示上述终端设备从上述唤醒状态调整为上述睡眠状态。

可选地，在终端设备处于唤醒状态的情况下，服务器可以确定目标文本中是否包括预定的唤醒词，如果目标文本中包括唤醒词，可以生成第二唤醒指令，并向终端设备发送该第二唤醒指令，当终端设备接收到第二唤醒指令之后，终端设备可以将终端设备的设备状态继续保持为唤醒状态；和/或

如果目标文本中不包括唤醒词、并且目标文本的语义识别结果并不是目标语义时，则生成第二无效语音指令，并向终端设备发送该第二无效语音指令，在终端设备接收到该无效语音指令的情况下，终端设备可以将终端设备的设备状态由唤醒状态调整为睡眠状态。

可选地，在本实施例中，上述在上述服务器上对上述音频数据进行语音识别处理，得到上述音频数据对应的目标文本，包括：对上述音频数据进行声学特征提取，得到上述音频数据对应的一组声学特征；对上述一组声学特征进行声学打分，得到上述一组声学特征对应的一组打分结果，其中，上述一组打分结果与上述一组声学特征一一对应，上述一组打分结果中的一个打分结果用于表示上述一组声学特征中的一个声学特征与一个预先设定的词的相似度；根据上述一组声学特征和上述一组打分结果确定上述目标文本，其中，上述目标文本由一组预先设定的词组成，上述目标文本至少包括上述一个预先设定的词。

可选地，服务器在获取到音频数据之后，可以对该音频数据进行声学特征提取，得到该音频数据对应的一组声学特征，然后对该一组声学特征进行声学打分，可以得到该一组声学特征对应的一组打分结果，并且一组声学特征与该一组打分结果一一对应，该一组打分结果中的一个打分结果表示一组声学特征中的一个声学特征与预先设定的词的相似度，然后，可以根据该一组声学特征和一组打分结果来确定出目标文本，最后将该目标文本确定为一组预先设定的词。

上述预先设定的词可以为服务器中数据库中的词。

通过本实施例，可以快速准确的确定音频数据对应的目标文本，提高了对音频数据的处理效率。

可选地，在本实施例中，在上述向上述终端设备发送上述第一处理结果之后，上述方法还包括：在上述第一处理结果指示上述终端设备将上述设备状态从上述睡眠状态调整为上述唤醒状态，在上述终端设备上将上述设备状态从上述睡眠状态调整为上述唤醒状态。

可选地，在上述向上述终端设备发送上述第一处理结果之后，如果上述第一处理结果指示上述终端设备将上述设备状态从上述睡眠状态调整为上述唤醒状态，则可以在上述终端设备上将上述设备状态从上述睡眠状态调整为上述唤醒状态。

可选地，在本实施例中，在上述向上述终端设备发送上述第二处理结果之后，上述方法还包括：在上述终端设备上播放上述第二处理结果，或者，播放与上述第二处理结果对应的信息。

可选地，在上述向上述终端设备发送上述第二处理结果之后，可以在终端设备上播放第二处理结果，或者播放与该第二处理结果对应的信息。例如，播放音乐，播放电子书籍，播报天气情况，等等。

可选地，在本实施例中，作为一种可选的实施方式，如图2所示，为另一种可选地音频数据的处理方法的流程，具体可以包括以下步骤：

步骤S302，向服务器发送终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态。

步骤S304，在上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理结果为上述服务器对上述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词。

可选地，在终端设备的设备状态处于睡眠状态的情况下，获取服务器对上述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的第一处理结果，其中，该第一处理结果用于确定上述目标文本是否包括预定的唤醒词。

例如，第一处理结果为打开终端设备，等等。

步骤S306，在上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理结果为上述服务器对上述目标文本执行第二处理操作所得到的，上述第二处理操作用于对上述目标文本执行语义识别处理。

可选地，在终端设备的设备状态处于唤醒状态的情况下，获取服务器对目标文本执行第二处理操作所得到的第二处理结果，其中，该第二处理结果用于对上述目标文本执行语义识别处理。

例如，第二处理结果为搜索结果，如搜索到某一首歌曲等等。

通过本实施例，终端设备将采集到的音频数据以及上述终端设备的设备状态发送给服务器；在终端设备的上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；在终端设备的上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。通过上述方式，通过服务器对终端设备采集到的音频数据进行处理，然后服务器结合音频数据的语音识别结果和终端设备的设备状态对唤醒词进行处理，然后终端设备获取处理结果，这种通过服务器处理唤醒词的方式，避免了终端设备对输入音频与唤醒词进行对比的来过滤唤醒词的，使终端设备可以不用占用额外的资源，降低了终端设备的制造成本。

可选地，在本实施例中，上述向服务器上发送终端设备采集到的音频数据以及上述终端设备的设备状态，包括：在上述终端设备检测到音频输入的情况下，向上述服务器发送上述音频数据以及上述终端设备的上述设备状态。

可选地，不论上述终端设备处于睡眠状态还是唤醒状态，只要上述终端设备检测到音频输入的情况下，终端设备就可以将采集到的该音频数据和上述终端设备的上述设备状态发送给服务器。

下面结合可选示例对音频数据的处理方法的流程进行说明。如图4所示，该方法的具体实现过程，包括以下步骤：

步骤S401，初始化智能终端，设置为“睡眠”状态；终端状态分为：“唤醒”与“睡眠”；

步骤S402，智能终端检测语音输入。

步骤S403，智能终端检测是否有音频数据传入。

步骤S404，若智能终端检测到有音频数据传入，则将音频数据与终端状态传输给服务器端，若智能终端没有检测到音频数据传入，则继续检测。

如图5所示，当终端检测到说话人的音频，则将音频发送至服务器端。

步骤S405，服务端获取智能终端的音频数据，并将音频数据输入到ASR服务模块中，得到文本结果。

步骤S406，判断终端是否为“唤醒”状态，在判断为是的情况下，跳转至步骤S407，在判断为否的情况下，跳转至步骤S409。

步骤S407，在判断终端为“唤醒”状态的情况下，通过NLP服务模块对输入的文本结果进行语义理解处理得到相应的执行命令。

步骤S408，服务器端发送执行命令到终端。

步骤S409，若文本结果为唤醒词，发送“唤醒”命令至终端，否则发送“无效语音”命令至终端。

步骤S410，终端获取到服务端的命令数据，若为“唤醒”命令，则更新状态为“唤醒”状态，跳至步骤402；若为“无效语音”命令，则重置终端状态为“睡眠”状态，跳至步骤402，若为执行命令，则进行相应操作，并重置为“睡眠”状态，结束本次语音交互，跳至步骤402，开始新的一次语音交互。

在一种可能的实施例中，ASR服务模块，获取输入音频，进行语音识别处理过程如图6所示，语音识别过程包括以下步骤：

步骤S601，特征提取，对输入的音频数据进行声学特征提取，获取到音频数据的所有声学特征。

步骤S602，声学打分，对获取到的所有声学特征进行声学打分，得到所有特征的声学得分。

步骤S603，选择解码网络，根据终端状态选择解码网络。若是“睡眠”状态，则选择唤醒词解码网络；若是“唤醒”状态，则选择通用解码网络。

为了提高唤醒词的唤醒成功率，对预先准备好的解码网络进行特殊处理，对解码网络中的唤醒词路径进行加强，使得在解码过程中，更易于触发唤醒词路径。

步骤S604，解码过程，根据提前准备好的语音模型、获取到的特征声学得分，以及选择的解码网络，解码得到识别文本结果。

步骤S605，根据终端的当前状态处理文本结果，并输出识别结果。若终端为睡眠状态，则进入唤醒过程；若为唤醒状态，则进入语义理解过程。

需要说明的是，唤醒过程如下所述：

ASR服务模块识别文本结果，若识别文本结果为唤醒词，服务器端发送“唤醒”命令给智能终端，使智能终端进入唤醒状态；若识别文本结果不是唤醒词，服务器端发送“无效语音”命令给智能终端。

需要说明的是，语义理解过程如下所述：

步骤1，ASR服务模块将文本识别结果传输给NLP服务模块。

如图7所示，为服务端的ASR服务模块将文本识别结果传输给NLP服务模块的过程。

步骤2，NLP服务模块对输入的文本结果进行语义理解处理得到相应的执行命令。

步骤3，NLP服务模块将执行命令传输给智能终端。

通过本实施例，在典型的应用场景如智能音箱中，可以降低智能音箱的制造成本，消除唤醒词影响，提高了用户语音识别的准确率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种音频数据的处理装置，如图8所示，该装置包括：

第一获取单元802，用于在服务器上获取终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；

第一处理单元804，用于在上述服务器上对上述音频数据进行语音识别处理，得到上述音频数据对应的目标文本；

第二处理单元806，用于在上述设备状态处于上述睡眠状态的情况下，在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并向上述终端设备发送上述第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；

第三处理单元808，用于在上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。

作为一种可选的技术方案，上述第二处理单元，包括：第一确定模块，用于确定上述目标文本是否包括上述预定的唤醒词；第一发送模块，用于在上述目标文本包括上述唤醒词的情况下，生成第一唤醒指令，并向上述终端设备发送上述第一唤醒指令，其中，上述第一唤醒指令用于指示上述终端设备将上述设备状态从上述睡眠状态调整为上述唤醒状态；和/或第二发送模块，用于在上述目标文本不包括上述唤醒词的情况下，生成第一无效语音指令，并向上述终端设备发送上述第一无效语音指令，其中，上述第一无效语音指令用于指示上述终端设备重置上述睡眠状态。

作为一种可选的技术方案，上述第三处理单元，包括：第一处理模块，用于对上述目标文本执行语义识别处理，得到上述目标文本的目标语义；第二处理模块，用于执行与上述目标语义对应的上述第二处理操作，得到上述第二处理结果；第三发送模块，用于向上述终端设备发送上述第二处理结果。

作为一种可选的技术方案，上述第二处理模块，还用于执行与上述目标语义对应的搜索操作，得到搜索结果，其中，上述第二处理操作包括上述搜索操作，上述第二处理结果包括上述搜索结果。

作为一种可选的技术方案，上述装置还包括：第四发送模块，用于向上述终端设备发送重置命令，其中，上述重置命令用于指示上述终端设备将上述设备状态由上述唤醒状态调整为上述睡眠状态。

作为一种可选的技术方案，上述第三处理单元，还用于在上述目标文本包括上述唤醒词的情况下，生成第二唤醒指令，并向上述终端设备发送上述第二唤醒指令，其中，上述第二唤醒指令用于指示将上述终端设备的上述设备状态保持为上述唤醒状态；和/或在上述目标文本不包括上述唤醒词、且上述目标文本的语义识别结果不为上述目标语义的情况下，生成第二无效语音指令，并向上述终端设备发送上述第二无效语音指令，其中，上述第二无效语音指令用于指示上述终端设备从上述唤醒状态调整为上述睡眠状态。

作为一种可选的技术方案，上述第一处理单元，包括：第三处理模块，用于对上述音频数据进行声学特征提取，得到上述音频数据对应的一组声学特征；第四处理模块，用于对上述一组声学特征进行声学打分，得到上述一组声学特征对应的一组打分结果，其中，上述一组打分结果与上述一组声学特征一一对应，上述一组打分结果中的一个打分结果用于表示上述一组声学特征中的一个声学特征与一个预先设定的词的相似度；第二确定模块，用于根据上述一组声学特征和上述一组打分结果确定上述目标文本，其中，上述目标文本由一组预先设定的词组成，上述目标文本包括上述一个预先设定的词。

作为一种可选的技术方案，上述装置还包括：第四处理单元，用于在上述第一处理结果指示上述终端设备将上述设备状态从上述睡眠状态调整为上述唤醒状态，在上述终端设备上将上述设备状态从上述睡眠状态调整为上述唤醒状态。

作为一种可选的技术方案，上述装置还包括：播放单元，用于在上述终端设备上播放上述第二处理结果，或者，播放与上述第二处理结果对应的信息。

根据本发明实施例的另一方面，还提供了一种音频数据的处理装置，如图9所示，该装置包括：

第一发送单元902，用于向服务器发送终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；

第二获取单元904，用于在上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理结果为上述服务器对上述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；

第三获取单元906，用于在上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理结果为上述服务器对上述目标文本执行第二处理操作所得到的，上述第二处理操作用于对上述目标文本执行语义识别处理。

通过本实施例，终端设备将采集到的音频数据以及上述终端设备的设备状态发送给服务器；在终端设备的上述设备状态处于上述睡眠状态的情况下，获取第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；在终端设备的上述设备状态处于上述唤醒状态的情况下，获取第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。通过上述方式，通过服务器对终端设备采集到的音频数据进行处理，然后服务器结合音频数据的语音识别结果和终端设备的设备状态对唤醒词进行处理，然后终端设备获取处理结果，这种通过服务器处理唤醒词的方式，避免了终端设备对输入音频与唤醒词进行对比的来过滤唤醒词的，使终端设备可以不用占用额外的资源，降低了终端设备的制造成本，提高了智能终端的资源空间，节约了终端设备的制造成本。

作为一种可选的技术方案，上述第一发送单元，还用于在所述终端设备检测到音频输入的情况下，向所述服务器发送所述音频数据以及所述终端设备的所述设备状态。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，在服务器上获取终端设备采集到的音频数据以及上述终端设备的设备状态，其中，上述设备状态包括睡眠状态和唤醒状态；

S2，在上述服务器上对上述音频数据进行语音识别处理，得到上述音频数据对应的目标文本；

S3，在上述设备状态处于上述睡眠状态的情况下，在上述服务器上对上述目标文本执行第一处理操作，得到第一处理结果，并向上述终端设备发送上述第一处理结果，其中，上述第一处理操作用于确定上述目标文本是否包括预定的唤醒词；

S4，在上述设备状态处于上述唤醒状态的情况下，在上述服务器上对上述目标文本执行第二处理操作，得到第二处理结果，并向上述终端设备发送上述第二处理结果，其中，上述第二处理操作用于对上述目标文本执行语义识别处理。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取器)、磁盘或光盘等。

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频数据的处理方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图10所示，该电子设备包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的音频数据的处理方法和装置对应的程序命令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频数据的处理方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述音频数据的处理装置中的第一获取单元802，第一处理单元804、第二处理单元806、第三处理单元808。此外，还可以包括但不限于上述音频数据的处理装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：连接总线1008，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频数据的处理方法，其特征在于，应用于服务器，包括：

在所述服务器上获取终端设备采集到的音频数据以及所述终端设备的设备状态，其中，所述设备状态包括睡眠状态和唤醒状态，所述终端设备的设备状态为在所述终端设备检测到音频输入的情况下，向所述服务器发送的所述音频数据和所述终端设备的所述设备状态；

在所述服务器上对所述音频数据进行语音识别处理，得到所述音频数据对应的目标文本，具体为，将音频数据输入到ASR服务模块中，得到文本结果，其中包括，选择解码网络，根据终端状态选择解码网络，所述解码网络为预先准备好且进行特殊处理，对解码网络中的唤醒词路径进行加强；若是“睡眠”状态，则选择唤醒词解码网络；若是“唤醒”状态，则选择通用解码网络；

在所述设备状态处于所述睡眠状态的情况下，在所述服务器上对所述目标文本执行第一处理操作，得到第一处理结果，并向所述终端设备发送所述第一处理结果，其中，所述第一处理操作用于确定所述目标文本是否包括预定的唤醒词；

在所述设备状态处于所述唤醒状态的情况下，在所述服务器上对所述目标文本执行第二处理操作，得到第二处理结果，并向所述终端设备发送所述第二处理结果，其中，所述第二处理操作用于对所述目标文本执行语义识别处理，包括，通过NLP服务模块对输入的文本结果进行语义理解处理得到相应的执行命令；

所述在所述服务器上对所述目标文本执行第一处理操作，得到第一处理结果，并向所述终端设备发送所述第一处理结果，包括：

确定所述目标文本是否包括所述预定的唤醒词；

在所述目标文本包括所述唤醒词的情况下，生成第一唤醒指令，并向所述终端设备发送所述第一唤醒指令，其中，所述第一唤醒指令用于指示所述终端设备将所述设备状态从所述睡眠状态调整为所述唤醒状态；和/或

在所述目标文本不包括所述唤醒词的情况下，生成第一无效语音指令，并向所述终端设备发送所述第一无效语音指令，其中，所述第一无效语音指令用于指示所述终端设备重置所述睡眠状态；

所述在所述服务器上对所述目标文本执行第二处理操作，得到第二处理结果，并向所述终端设备发送所述第二处理结果，包括：

对所述目标文本执行语义识别处理，得到所述目标文本的目标语义；

执行与所述目标语义对应的所述第二处理操作，得到所述第二处理结果；

向所述终端设备发送所述第二处理结果。

2.根据权利要求1所述的方法，其特征在于，所述执行与所述目标语义对应的所述第二处理操作，得到所述第二处理结果：包括：

执行与所述目标语义对应的搜索操作，得到搜索结果，其中，所述第二处理操作包括所述搜索操作，所述第二处理结果包括所述搜索结果。

3.根据权利要求1所述的方法，其特征在于，所述在所述服务器上对所述目标文本执行第二处理操作，得到第二处理结果，并向所述终端设备发送所述第二处理结果，包括：

在所述目标文本包括所述唤醒词的情况下，生成第二唤醒指令，并向所述终端设备发送所述第二唤醒指令，其中，所述第二唤醒指令用于指示将所述终端设备的所述设备状态保持为所述唤醒状态；和/或

在所述目标文本不包括所述唤醒词、且所述目标文本的语义识别结果不为所述目标语义的情况下，生成第二无效语音指令，并向所述终端设备发送所述第二无效语音指令，其中，所述第二无效语音指令用于指示所述终端设备从所述唤醒状态调整为所述睡眠状态。

4.根据权利要求1所述的方法，其特征在于，所述在所述服务器上对所述音频数据进行语音识别处理，得到所述音频数据对应的目标文本，包括：

对所述音频数据进行声学特征提取，得到所述音频数据对应的一组声学特征；

对所述一组声学特征进行声学打分，得到所述一组声学特征对应的一组打分结果，其中，所述一组打分结果与所述一组声学特征一一对应，所述一组打分结果中的一个打分结果用于表示所述一组声学特征中的一个声学特征与一个预先设定的词的相似度；

根据所述一组声学特征和所述一组打分结果确定所述目标文本，其中，所述目标文本由一组预先设定的词组成，所述目标文本至少包括所述一个预先设定的词。

5.根据权利要求1至4中任一项中所述的方法，其特征在于，在所述向所述终端设备发送所述第二处理结果之后，所述方法还包括：

在所述终端设备上播放所述第二处理结果，或者，播放与所述第二处理结果对应的信息。

6.一种音频数据的处理方法，其特征在于，应用于终端设备，包括：

向服务器发送所述终端设备采集到的音频数据以及所述终端设备的设备状态，其中，所述设备状态包括睡眠状态和唤醒状态；

在所述设备状态处于所述睡眠状态的情况下，获取第一处理结果，其中，所述第一处理结果为所述服务器对所述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，所述第一处理操作用于确定所述目标文本是否包括预定的唤醒词，得到所述音频数据对应的目标文本过程具体为，将音频数据输入到ASR服务模块中，得到文本结果，其中包括，选择解码网络，根据终端状态选择解码网络，所述解码网络为预先准备好且进行特殊处理，对解码网络中的唤醒词路径进行加强；若是“睡眠”状态，则选择唤醒词解码网络；若是“唤醒”状态，则选择通用解码网络；

在所述设备状态处于所述唤醒状态的情况下，获取第二处理结果，其中，所述第二处理结果为所述服务器对所述目标文本执行第二处理操作所得到的，所述第二处理操作用于对所述目标文本执行语义识别处理；

所述向服务器发送终端设备采集到的音频数据以及所述终端设备的设备状态，包括：在所述终端设备检测到音频输入的情况下，向所述服务器发送所述音频数据以及所述终端设备的所述设备状态；

其中，所述在所述设备状态处于所述睡眠状态的情况下，获取第一处理结果，由所述服务器通过如下方式确定：确定所述目标文本是否包括所述预定的唤醒词；在所述目标文本包括所述唤醒词的情况下，生成第一唤醒指令，并向所述终端设备发送所述第一唤醒指令，其中，所述第一唤醒指令用于指示所述终端设备将所述设备状态从所述睡眠状态调整为所述唤醒状态；和/或在所述目标文本不包括所述唤醒词的情况下，生成第一无效语音指令，并向所述终端设备发送所述第一无效语音指令，其中，所述第一无效语音指令用于指示所述终端设备重置所述睡眠状态；

所述在所述设备状态处于所述唤醒状态的情况下，获取第二处理结果，包括：

在所述服务器上对所述目标文本执行语义识别处理，得到所述目标文本的目标语义，包括，通过NLP服务模块对输入的文本结果进行语义理解处理得到相应的执行命令；

在所述服务器上执行与所述目标语义对应的所述第二处理操作，得到所述第二处理结果；

接收所述第二处理结果。

7.一种音频数据的处理装置，其特征在于，设置于服务器，包括：

第一获取单元，用于在所述服务器上获取终端设备采集到的音频数据以及所述终端设备的设备状态，其中，所述设备状态包括睡眠状态和唤醒状态，所述终端设备的设备状态为在所述终端设备检测到音频输入的情况下，向所述服务器发送的所述音频数据和所述终端设备的所述设备状态；

第一处理单元，用于在所述服务器上对所述音频数据进行语音识别处理，得到所述音频数据对应的目标文本，具体为，将音频数据输入到ASR服务模块中，得到文本结果，其中包括，选择解码网络，根据终端状态选择解码网络，所述解码网络为预先准备好且进行特殊处理，对解码网络中的唤醒词路径进行加强；若是“睡眠”状态，则选择唤醒词解码网络；若是“唤醒”状态，则选择通用解码网络；

第二处理单元，用于在所述设备状态处于所述睡眠状态的情况下，在所述服务器上对所述目标文本执行第一处理操作，得到第一处理结果，并向所述终端设备发送所述第一处理结果，其中，所述第一处理操作用于确定所述目标文本是否包括预定的唤醒词；

第三处理单元，用于在所述设备状态处于所述唤醒状态的情况下，在所述服务器上对所述目标文本执行第二处理操作，得到第二处理结果，并向所述终端设备发送所述第二处理结果，其中，所述第二处理操作用于对所述目标文本执行语义识别处理；

所述第二处理单元，包括：

第一确定模块，用于确定所述目标文本是否包括所述预定的唤醒词；

第一发送模块，用于在所述目标文本包括所述唤醒词的情况下，生成第一唤醒指令，并向所述终端设备发送所述第一唤醒指令，其中，所述第一唤醒指令用于指示所述终端设备将所述设备状态从所述睡眠状态调整为所述唤醒状态；和/或

第二发送模块，用于在所述目标文本不包括所述唤醒词的情况下，生成第一无效语音指令，并向所述终端设备发送所述第一无效语音指令，其中，所述第一无效语音指令用于指示所述终端设备重置所述睡眠状态；

所述装置用于通过如下方式在所述服务器上对所述目标文本执行第二处理操作，得到第二处理结果，并向所述终端设备发送所述第二处理结果：

对所述目标文本执行语义识别处理，得到所述目标文本的目标语义，包括，通过NLP服务模块对输入的文本结果进行语义理解处理得到相应的执行命令；

向所述终端设备发送所述第二处理结果。

8.一种音频数据的处理装置，其特征在于，设置于终端设备，包括：

第一发送单元，用于向服务器发送所述终端设备采集到的音频数据以及所述终端设备的设备状态，其中，所述设备状态包括睡眠状态和唤醒状态；

第二获取单元，用于在所述设备状态处于所述睡眠状态的情况下，获取第一处理结果，其中，所述第一处理结果为所述服务器对所述音频数据进行语音识别处理得到的目标文本执行第一处理操作所得到的，所述第一处理操作用于确定所述目标文本是否包括预定的唤醒词，得到所述音频数据对应的目标文本过程具体为，将音频数据输入到ASR服务模块中，得到文本结果，其中包括，选择解码网络，根据终端状态选择解码网络，所述解码网络为预先准备好且进行特殊处理，对解码网络中的唤醒词路径进行加强；若是“睡眠”状态，则选择唤醒词解码网络；若是“唤醒”状态，则选择通用解码网络；

第三获取单元，用于在所述设备状态处于所述唤醒状态的情况下，获取第二处理结果，其中，所述第二处理结果为所述服务器对所述目标文本执行第二处理操作所得到的，所述第二处理操作用于对所述目标文本执行语义识别处理；

所述装置用于通过如下方式向服务器发送终端设备采集到的音频数据以及所述终端设备的设备状态：在所述终端设备检测到音频输入的情况下，向所述服务器发送所述音频数据以及所述终端设备的所述设备状态；

其中，所述第一处理结果由所述服务器通过如下方式确定：确定所述目标文本是否包括所述预定的唤醒词；在所述目标文本包括所述唤醒词的情况下，生成第一唤醒指令，并向所述终端设备发送所述第一唤醒指令，其中，所述第一唤醒指令用于指示所述终端设备将所述设备状态从所述睡眠状态调整为所述唤醒状态；和/或在所述目标文本不包括所述唤醒词的情况下，生成第一无效语音指令，并向所述终端设备发送所述第一无效语音指令，其中，所述第一无效语音指令用于指示所述终端设备重置所述睡眠状态；

所述装置还用于如下方式在所述设备状态处于所述唤醒状态的情况下，获取第二处理结果：

接收所述第二处理结果。

9.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至5任意一项所述的方法，或权利要求6所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至5任意一项所述的方法，或权利要求6所述的方法。