CN107729433B

CN107729433B - 一种音频处理方法及设备

Info

Publication number: CN107729433B
Application number: CN201710908678.3A
Authority: CN
Inventors: 蔡杭; 冯波; 雷鸣
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2022-04-22
Anticipated expiration: 2037-09-29
Also published as: CN107729433A

Abstract

本发明公开了一种音频处理方法及设备，该方法应用在音频处理设备中，所述方法包括：获得音频数据；处理所述音频数据，获得第一子数据和第二子数据，其中，所述第一子数据和第二子数据具有重叠的采集时间；识别所述第一子数据获得第一识别结果，识别所述第二子数据获得第二识别结果，其中，所述第一识别结果和第二识别结果是能分别被响应的结果。该方法在多个发声源同时发出语音命令，尤其是语音重叠在一起时，能够准确的区分和判断出所采集到的语音命令，不会造成语音命令的混乱。

Description

一种音频处理方法及设备

技术领域

本发明涉及电子设备的控制领域，特别涉及一种音频处理方法及设备。

背景技术

目前在对电子设备控制时可以使用语音命令的方式来控制，例如单一的用户本人或其他设备发出“你好，电视机，请开机”，则能够执行语音命令的语音助手设备接收到语音命令后会自动打开电视。但是如果多个用户同时发出语音命令时，语音助手设备会发生逻辑混乱，不能判断语音命令是什么，例如用户A发出语音“你好，电视机，请调到CCTV5”，同时用户B发出语音“你好，空调，请调到26度”，此时语音助手设备不能判断接收到了什么命令，从而造成执行命令失败。

发明内容

本发明实施例的目的在于提供一种音频处理方法及设备，该方法在多个发声者同时发出语音命令时，能够准确的区分和判断出所采集到的语音命令，不会造成语音命令的混乱。

为了解决上述技术问题，本发明的实施例采用了如下技术方案：一种音频处理方法，应用在音频处理设备中，所述方法包括：

获得音频数据；

处理所述音频数据，获得第一子数据和第二子数据，其中，所述第一子数据和第二子数据具有重叠的采集时间；

识别所述第一子数据获得第一识别结果，识别所述第二子数据获得第二识别结果，其中，所述第一识别结果和第二识别结果是能分别被响应的结果。

作为优选，所述的处理所述音频数据，获得第一子数据和第二子数据包括：

至少确定预设声纹特征中不同的第一特征和第二特征；

匹配所述音频数据和所述第一特征，将符合所述第一特征的音频数据处理为所述第一子数据；

匹配所述音频数据和所述第二特征，将符合所述第二特征的音频数据处理为所述第二子数据。

至少分析所述音频数据中的声纹特征；

依据具有相同第一声纹特征的音频数据生成第一子数据；

依据具有相同第二声纹特征的音频数据生成第二子数据，其中，所述第一声纹特征和所述第二声纹特征不同。

作为优选，所述的处理所述音频数据，获得第一子数据和第二子数据还包括：

分析所述音频数据中的声纹特征，识别所述音频数据并对所述音频数据的内容进行语义分析，以生成分析结果；

根据所述分析结果将所述音频数据处理为所述第一子数据和第二子数据。

作为优选，所述方法还包括：

根据获得所述第一识别结果和第二识别结果的先后顺序，依次响应识别结果。

作为优选，所述方法还包括：

获得所述第一识别结果和所述第二识别结果后，分析所述第一识别结果和所述第二识别结果；

当所述第一识别结果的内容和所述第二识别结果的内容不冲突时，分别响应所述第一识别结果和第二识别结果；

当所述第一识别结果的内容和所述第二识别结果的内容冲突时，根据优先级属性响应其中一个识别结果。

本发明实施例还提供了一种音频处理设备，包括：

音频获得装置，配置为获得音频数据；

处理装置，配置为处理所述音频数据，获得第一子数据和第二子数据，其中，所述第一子数据和第二子数据具有重叠的采集时间；并且识别所述第一子数据获得第一识别结果，识别所述第二子数据获得第二识别结果，其中，所述第一识别结果和第二识别结果是能分别被响应的结果。

作为优选，所述处理装置包括：

所述预设单元，配置为至少确定预设声纹特征中不同的第一特征和第二特征；

所述匹配单元，配置为匹配所述音频数据和第一特征，将符合所述第一特征的音频数据处理为第一子数据，并匹配所述音频数据和第二特征，将符合所述第二特征的音频数据处理为所述第二子数据。

作为优选，所述处理装置进一步配置为至少分析所述音频数据中的声纹特征，依据具有相同第一声纹特征的音频数据生成第一子数据，依据具有相同第二声纹特征的音频数据生成第二子数据，其中，所述第一声纹特征和所述第二声纹特征不同。

本发明实施例还提供了一种音频处理设备，包括处理器和存储器，所述存储器中存储有可执行代码，所述处理器配置为执行所述可执行代码以：

获得音频数据；

本发明实施例的有益效果在于：该方法在多个发声源同时发出语音命令，尤其是语音重叠在一起时，能够准确的区分和判断出所采集到的语音命令，不会造成语音命令的混乱。

附图说明

图1为本发明实施例的音频处理方法的流程图；

图2为本发明实施例的图1中步骤S2的一个实施例的流程图；

图3为本发明实施例的图1中步骤S2的另一个实施例的流程图；

图4为本发明实施例的图1中步骤S2的又一个实施例的流程图；

图5为本发明实施例的音频处理方法中一个实施例的流程图；

图6为本发明实施例的音频处理设备的结构示意图。

附图标记说明

1-音频获得装置 2-处理装置 3-电子设备

具体实施方式

此处参考附图描述本发明的各种方案以及特征。

应理解的是，可以对此处发明的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本发明的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且与上面给出的对本发明的大致描述以及下面给出的对实施例的详细描述一起用于解释本发明的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本发明的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本发明的具体实施例；然而，应当理解，所发明的实施例仅仅是本发明的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本发明模糊不清。因此，本文所发明的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本发明。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本发明的相同或不同实施例中的一个或多个。

本发明实施例的一种音频处理方法，应用在音频处理设备中，能够对用户的语音命令(包括多个用户同一时间段内下达的语音命令)等音频数据进行合理的处理，以达到控制电子设备3的目的，如图1所示，该音频处理方法包括以下步骤：

S1，获得音频数据。音频数据可以是至少一个发音源发出的音频所构成的数据，如用户发出的语音命令，或者多个用户发出的语音命令，在一个实施中，该音频数据为在一个时间段内所获得的数据，而获得该音频数据的方式可以为多种，如可以通过音频获得装置1获得一个时间段内不同发音源产生的音频数据。而音频获得装置1包括音频采集装置，音频采集装置可以为麦克风，或麦克风阵列等多种采集设备；音频获得装置1也可以为远程服务器的网络传输装置(例如远程服务器使用的网络交换机)，该网络传输装置接收发音源处的采集设备(如麦克风，或麦克风阵列等)采集到的音频数据，从而网络传输装置将获得的音频数据发送至远程服务器进行处理(如网络交换机将接收到的音频数据发送给远程服务器)。举例说明，在家庭中在对家用电器进行控制时可以使用该音频处理方法，并通过音频处理设备(或叫做语音助手)等硬件设备来实现控制家用电器等电子设备3的目的，具体来说，可以使用音频获得装置1获得不同的用户的语音命令，而用户发出的语音可能是重叠的，获得完成后音频获得装置1将获得到的音频数据发送给处理装置2以供处理，从而控制家用电器，如打开电视，调节空调的温度等。

S2，处理音频数据，获得第一子数据和第二子数据，其中，第一子数据和第二子数据具有重叠的采集时间。在一个实施例中，在处理音频数据时可以由本地处理设备处理，如与音频获得装置1连接的本地处理设备(如家庭服务器等)处理，在本地便能够将音频数据处理为第一子数据和第二子数据，进而获得第一子数据和第二子数据，进一步来说，可以从音频数据中分别提取出第一子数据和第二子数据，从而获得第一子数据和第二子数据；在另一个实施例中，在处理音频数据时可以由远程服务器进行，也就是将音频获得装置1从本地获得的音频数据，发送到远程服务器进行处理，由远程服务器将音频数据处理为第一子数据和第二子数据(即从音频数据中分别提取出第一子数据和第二子数据)，进而获得第一子数据和第二子数据。远程服务器可以同时为多个服务点(如多个家庭，多个办公室)服务，但每个服务点由同一音频获得装置1获得音频，而服务器针对一个服务点服务时只针对该服务点的同一音频获得装置1获得的音频数据进行处理。

举例说明，在家庭环境中在对家用电器进行控制时，由至少一个麦克风采集用户的语音命令，可以将采集到的语音命令交由家庭服务器进行处理，也可以由通信网络将语音命令发从至远程服务器来处理。其中的第一子数据和第二子数据具有重叠的采集时间，也就是第一子数据对应的音频和第二子数据对应的音频在采集时是叠加在一起的，例如两个用户在同一时间分别发出了语音命令，两个语音命令是重叠在一起的，在处理该音频数据后，获得一个语音命令对应的第一子数据，并获得另一个语音命令对应的第二子数据。

为了将诸如两个语音命令区分开来，处理音频数据方式有多种，如可以分析音频数据中的声纹，也可以分析音频数据的内容对应的语义，进而从音频数据中区分出不同发声源发出的音频，获得第一子数据和第二子数据。具体来说，声纹是用电声学仪器显示的携带言语信息的声波频谱，声纹不仅具有特定性，而且有相对稳定性的特点。作为人的用户发出的语音可保持长期相对稳定不变，不同的用户其声纹始终不相同，因而可以分析音频数据中的声纹特征，进而区分出是哪个用户发出了与之相对应的一个语音命令(对应了第一子数据)，另外一个用户发出了与之相对应的另一个语音命令(对应了第二子数据)。例如在家庭环境中，女主人和男主人同时分别对电视机和空调发出了语音命令，如男主人发出“你好，语音助手，帮我打开电视并调到CCTV5”的语音命令，女主人发出“你好，语音助手，帮我开启空调并调到26度”的语音命令，由于男主人和女主人的声纹不同，因此可以从获得的音频数据中区分出“Hey，语音助手，帮我打开电视并调到CCTV5”是男主人发出的，“你好，语音助手，帮我开启空调并调到26度”是由女主人发出的。

S3，识别第一子数据获得第一识别结果，识别第二子数据获得第二识别结果，其中，第一识别结果和第二识别结果是能分别被响应的结果。由于音频数据不能够被直接响应和执行，因此在获取的第一子数据后需要对第一子数据进行识别获得第一识别结果，对第二子数据进行识别获得第二识别结果，再分别对第一识别结果和第二识别结果进行响应。在本实施例中，第一识别结果和第二识别结果为被识别出的语音命令，结合上述例子进行说明，在获取到男主人和女主人发出的语音命令对应的音频数据后，对该音频数据进行处理获得第一子数据和第二子数据，其中，第一子数据对应了男主人发出的语音命令，第二子数据对应了女主人发出的语音命令。识别第一子数据获得第一识别结果，该第一识别结果为语音命令“你好，语音助手，帮我打开电视并调到CCTV5”；类似的识别第二子数据获得第二识别结果，该第二识别结果为语音命令“你好，语音助手，帮我开启空调并调到26度”。随后便响应上述语音命令，以便使电视和空调来执行该命令。

在本发明的一个实施例中，如图2所示，所述的处理音频数据，获得第一子数据和第二子数据的步骤包括以下步骤：

S21，至少确定预设声纹特征中不同的第一特征和第二特征。预设声纹特征可以预先对用户的声纹进行采集(如上述例子中预先采集男主人和女主人的声纹)，并存储在相应的处理设备(如家庭服务器或远程服务器等)上，在预设声纹特征中至少确定一个发音源的声纹特征为第一特征，另一个发音源的声纹特征为第二特征，例如将男主人的声纹特征设为第一特征，将女主人的声纹特征设为第二特征，第一特征和第二特征不同。具体来说，声纹特征包括了音频的音色、音域和音调等多个主要特征，第一特征和第二特征在音频的音色、音域和音调等均不相同，均具有各自的特点。

S22，匹配音频数据和第一特征，将符合第一特征的音频数据处理为第一子数据。在匹配音频数据和第一特征时，可以将音频数据与预设声纹特征进行对比，以便将音频数据中符合第一特征的数据挑选出来处理为第一子数据，在一个实施例中，所述的符合第一特征为音频数据中的声纹特征符合第一特征，例如上述例子中男主人发出的语音命令的音色、音域和音调符合第一特征。

S23，匹配音频数据和第二特征，将符合第二特征的音频数据处理为第二子数据。在匹配音频数据和第二特征时，可以将音频数据与预设声纹特征进行对比，以便将音频数据中符合第二特征的数据挑选出来处理为第二子数据，在一个实施例中，所述的符合第二特征为音频数据中的声纹特征符合第二特征，例如上述例子中女主人发出的语音命令的音色、音域和音调符合第二特征。

在本发明的另一个实施例中，如图3所示，所述的处理音频数据，获得第一子数据和第二子数据的步骤包括以下步骤：

S24，至少分析音频数据中的声纹特征。具体来说，在获得到音频数据后并对其进行分析，由于第一子数据和第二子数据具有重叠的采集时间，因此分析声纹特征是将具有不同的声纹特征的音频数据区分开来，得到不同发声源发出的音频数据，即分别得到第一子数据和第二子数据。

S25，依据具有相同第一声纹特征的音频数据生成第一子数据。结合上述例子进行说明，男主人发出的所有的语音命令的声纹特征均相同，可以将所有具有男主人声纹特征的音频数据归为一类，并依据具有男主人声纹特征的音频数据生成第一子数据，即对应男主人的语音数据。

S26，依据具有相同第二声纹特征的音频数据生成第二子数据，其中，第一声纹特征和第二声纹特征不同。结合上述例子进行说明，女主人发出的所有的语音命令的声纹特征均相同，可以将所有具有女主人声纹特征的音频数据归为另一类，并依据具有女主人声纹特征的音频数据生成第二子数据，即对应女主人的语音数据。需要说明的是，该实施例中上述处理过程可以不预先对男主人和女主人的声纹特征进行预先存储，只是将具有相同声纹特征的音频数据进行归类，以确定同一类的音频数据为同一个发音源发出，进而在叠加的音频中区分出不同的发音源对应的音频。

在本发明的又一个实施例中，如图4所示，所述的处理音频数据，获得第一子数据和第二子数据还的步骤包括以下步骤：

S27，分析音频数据中的声纹特征，识别音频数据并对音频数据的内容进行语义分析，以生成分析结果。在分析了音频数据中的声纹特征后，能够将具有相同声纹特征的音频数据预归为一类，此时还不能将归为此类的音频数据处理为第一子数据，还需要识别音频数据并对音频数据的内容进行语义分析，以做出进一步精确的判断。在对音频数据的内容进行语义分析时可以根据内容中前后的语言进行判断，例如“空调，开到26度”和“电视，切换到CCTV5”两个语音中，分析认为空调并不能切换到CCTV5，电视也并不能开到26度，因此可以进一步判断“空调，开到26度”为同一个发音源发出的语音，“电视，切换到CCTV5”为另一个发音源发出的语音，进而对预归为一类的具有相同声纹特征的音频数据再进行综合分析，并生成分析结果。

S28，根据分析结果将音频数据处理为第一子数据和第二子数据。该分析结果极为精确，也是获得的第一子数据和第二子数据更为准确，即从音频数据中准确的获取到一个发音源对应的第一子数据，另一个发音源对应的第二子数据。

在本发明的一个实施例中，该音频处理方法还包括以下步骤：根据获得第一识别结果和第二识别结果的先后顺序，依次响应识别结果。举例来说，该响应识别结果的方式是根据先到先处理的原则，对识别结果进行响应，如首先识别出了第一识别结果为“空调，开到26度”，便响应该第一识别结果，控制空调调节到26度，随后识别出了第二识别结果为“电视，切换到CCTV5”，便响应该第二识别结果，控制电视切换到CCTV5频道。

在本发明的另一个实施例中，如图5所示，该音频处理方法还包括以下步骤：

S4，获得第一识别结果和第二识别结果后，分析第一识别结果和第二识别结果。具体的，分析第一识别结果和第二识别结果的内容是否有冲突，如第一识别结果为男主人发出的语音命令“将空调调节为25度”，而同时第二识别结果为女主人发出的语音命令“将空调调节为26度”，此时认为第一识别结果和第二识别结果的内容有冲突。类似的，如果第一识别结果为男主人发出的语音命令“电视，切换到CCTV5”，而同时第二识别结果为女主人发出的语音命令“将空调调节为26度”，此时认为第一识别结果和第二识别结果的内容没有冲突。

S5，当第一识别结果的内容和第二识别结果的内容不冲突时，分别响应第一识别结果和第二识别结果。具体来说，当内容不冲突时，分别响应第一识别结果和第二识别结果，可以首先响应第一识别结果，也可以首先响应第二识别结果。

S6，当第一识别结果的内容和第二识别结果的内容冲突时，根据优先级属性响应其中一个识别结果。具体来说，可以预先对第一识别结果的内容和第二识别结果的内容设置优先级属性，在一个实施例中，将内容中存在“立刻，马上”等词语时可以将其设置为较高的优先级，当内容有冲突时，可以优先响应内容中包含有“立刻，马上”等词语的识别结果。在另一个实施例中，可以将首先获得的识别结果的优先级设置较高，以在第一识别结果的内容和第二识别结果的内容冲突时，首先响应先行获得的识别结果。在又一个实施例中，可以根据识别结果对应的用户身份来设置优先级，如将女主人对应的第二识别结果设置较高优先级，以在第一识别结果的内容和第二识别结果的内容冲突时，首先响应第二识别结果。

本发明实施例还提供了一种音频处理设备，能够对用户的语音命令(包括多个用户同一时间段内下达的语音命令)等音频数据进行合理的处理，以达到控制电子设备3的目的，如图6所示，该音频处理设备包括音频获得装置1和处理装置2。

音频获得装置1配置为获得音频数据；

处理装置2配置为处理音频数据，获得第一子数据和第二子数据，其中，第一子数据和第二子数据具有重叠的采集时间；并且识别第一子数据获得第一识别结果，识别第二子数据获得第二识别结果，其中，第一识别结果和第二识别结果是能分别被响应的结果。

音频数据可以是至少一个发音源发出的音频所构成的数据，如用户发出的语音命令，或者多个用户发出的语音命令，在一个实施中，该音频数据为音频获得装置1在一个时间段内所获得的数据，而获得该音频数据的方式可以为多种，如可以通过音频获得装置1获得一个时间段内不同发音源产生的音频数据，而音频获得装置1包括音频采集装置，音频采集装置可以为麦克风，或麦克风阵列等多种采集设备；音频获得装置1也可以为远程服务器的网络传输装置(例如远程服务器使用的网络交换机)，该网络传输装置接收发音源处的采集设备(如麦克风，或麦克风阵列等)采集到的音频数据，从而网络传输装置将获得的音频数据发送至远程服务器进行处理(如网络交换机将接收到的音频数据发送给远程服务器)。举例说明，在家庭中在对家用电器进行控制时可以使用该音频处理方法，并通过音频处理设备(或叫做语音助手)等硬件设备来实现控制家用电器等电子设备3的目的，具体来说，可以使用音频获得装置1获得不同的用户的语音命令，而用户发出的语音可能是重叠的，获得完成后音频获得装置1将获得到的音频数据发送给处理装置2以供处理，从而控制家用电器，如打开电视，调节空调的温度等。

在一个实施例中，处理装置2可以为本地处理设备，在处理音频数据时可以由本地处理设备处理，如与音频获得装置1连接的本地处理设备(如家庭服务器等)处理，在本地便能够将音频数据处理为第一子数据和第二子数据，进而获得第一子数据和第二子数据，进一步来说，处理装置2可以从音频数据中分别提取出第一子数据和第二子数据，从而获得第一子数据和第二子数据；在另一个实施例中，处理装置2也可以为远程服务器，在处理音频数据时可以由远程服务器进行，也就是将音频获得装置1从本地获得的音频数据发送到远程服务器进行处理，由远程服务器将音频数据处理为第一子数据和第二子数据(即从音频数据中分别提取出第一子数据和第二子数据)，进而获得第一子数据和第二子数据。远程服务器可以同时为多个服务点(如多个家庭，多个办公室)服务，但每个服务点由同一音频获得装置1获得音频，而服务器针对一个服务点服务时只针对该服务点的同一音频获得装置1获得的音频数据进行处理。

举例说明，在家庭环境中在对家用电器进行控制时，由至少一个麦克风采集用户的语音命令，可以将采集到的语音命令交由家庭服务器进行处理，也可以由通信网络将语音命令发从至远程服务器来处理。其中的第一子数据和第二子数据具有重叠的采集时间，也就是第一子数据对应的音频和第二子数据对应的音频在采集时是叠加在一起的，例如两个用户在同一时间分别发出了语音命令，两个语音命令是重叠在一起的，在处理装置2处理该音频数据后，获得一个语音命令对应的第一子数据，并获得另一个语音命令对应的第二子数据。

由于音频数据不能够被直接响应和执行，因此处理装置2在获取的第一子数据后需要对第一子数据进行识别获得第一识别结果，对第二子数据进行识别获得第二识别结果，再分别对第一识别结果和第二识别结果进行响应。在本实施例中，第一识别结果和第二识别结果为被识别出的语音命令，结合上述例子进行说明，在音频获得装置1获取到男主人和女主人发出的语音命令对应的音频数据后，处理装置2对该音频数据进行处理获得第一子数据和第二子数据，其中，第一子数据对应了男主人发出的语音命令，第二子数据对应了女主人发出的语音命令。识别第一子数据获得第一识别结果，该第一识别结果为语音命令“你好，语音助手，帮我打开电视并调到CCTV5”；类似的识别第二子数据获得第二识别结果，该第二识别结果为语音命令“你好，语音助手，帮我开启空调并调到26度”。随后便响应上述语音命令，以便使电视和空调来执行该命令。

在本发明的一个实施例中，处理装置2包括预设单元和匹配单元。

预设单元配置为至少确定预设声纹特征中不同的第一特征和第二特征。预设单元在预设声纹特征时可以预先对用户的声纹进行采集(如上述例子中预先采集男主人和女主人的声纹)，并存储在相应的处理设备(如家庭服务器或远程服务器等)上，在预设声纹特征中至少确定一个发音源的声纹特征为第一特征，另一个发音源的声纹特征为第二特征，例如预设单元将男主人的声纹特征设为第一特征，将女主人的声纹特征设为第二特征，第一特征和第二特征不同。具体来说，声纹特征包括了音频的音色、音域和音调等多个主要特征，第一特征和第二特征在音频的音色、音域和音调等均不相同，均具有各自的特点。

匹配单元配置为匹配音频数据和第一特征，将符合第一特征的音频数据处理为第一子数据；匹配音频数据和第二特征，将符合第二特征的音频数据处理为所述第二子数据。匹配单元在匹配音频数据和第一特征时，可以将音频数据与预设声纹特征进行对比，以便将音频数据中符合第一特征的数据挑选出来处理为第一子数据，在一个实施例中，所述的符合第一特征为音频数据中的声纹特征符合第一特征，例如上述例子中男主人发出的语音命令的音色、音域和音调符合第一特征。匹配单元在匹配音频数据和第二特征时，可以将音频数据与预设声纹特征进行对比，以便将音频数据中符合第二特征的数据挑选出来处理为第二子数据，在一个实施例中，所述的符合第二特征为音频数据中的声纹特征符合第二特征，例如上述例子中女主人发出的语音命令的音色、音域和音调符合第二特征。

在本发明的另一个实施例中，处理装置2进一步配置为至少分析音频数据中的声纹特征。具体来说，处理装置2在获得到音频数据后对其进行分析，由于第一子数据和第二子数据具有重叠的采集时间，因此分析声纹特征是将具有不同的声纹特征的音频数据区分开来，得到不同发声源发出的音频数据，即分别得到第一子数据和第二子数据。

依据具有相同第一声纹特征的音频数据生成第一子数据。结合上述例子进行说明，男主人发出的所有的语音命令的声纹特征均相同，利用处理装置2可以将所有具有男主人声纹特征的音频数据归为一类，并依据具有男主人声纹特征的音频数据生成第一子数据，即对应男主人的语音数据。

依据具有相同第二声纹特征的音频数据生成第二子数据，其中，第一声纹特征和所述第二声纹特征不同。结合上述例子进行说明，女主人发出的所有的语音命令的声纹特征均相同，利用处理装置2可以将所有具有女主人声纹特征的音频数据归为另一类，并依据具有女主人声纹特征的音频数据生成第二子数据，即对应女主人的语音数据。需要说明的是，该实施例中上述处理过程可以不预先对男主人和女主人的声纹特征进行预先存储，只是利用处理装置2将具有相同声纹特征的音频数据进行归类，以确定同一类的音频数据为同一个发音源发出，进而在叠加的音频中区分出不同的发音源对应的音频。

在本发明的又一个实施例中，处理装置2还包括语义单元。

处理装置2分析音频数据中的声纹特征，并利用语义单元识别音频数据并对音频数据的内容进行语义分析，以生成分析结果。在分析了音频数据中的声纹特征后，处理装置2能够将具有相同声纹特征的音频数据预归为一类，此时还不能将归为此类的音频数据处理为第一子数据，还需要语义单元识别音频数据并对音频数据的内容进行语义分析，以做出进一步精确的判断。语义单元在对音频数据的内容进行语义分析时可以根据内容中前后的语言进行判断，例如“空调，开到26度”和“电视，切换到CCTV5”两个语音中，分析认为空调并不能切换到CCTV5，电视也并不能开到26度，因此可以进一步判断“空调，开到26度”为同一个发音源发出的语音，“电视，切换到CCTV5”为另一个发音源发出的语音，进而对预归为一类的具有相同声纹特征的音频数据再进行综合分析，并生成分析结果。

处理装置2根据分析结果将音频数据处理为第一子数据和第二子数据。该分析结果极为精确，也是获得的第一子数据和第二子数据更为准确，即处理装置2从音频数据中准确的获取到一个发音源对应的第一子数据，另一个发音源对应的第二子数据。

在本发明的一个实施例中，处理装置2包括响应单元，响应单元配置为根据获得第一识别结果和第二识别结果的先后顺序，依次响应识别结果。举例来说，响应单元响应识别结果的方式是根据先到先处理的原则，对识别结果进行响应，如首先识别出了第一识别结果为“空调，开到26度”，响应单元便响应该第一识别结果，控制空调调节到26度，随后识别出了第二识别结果为“电视，切换到CCTV5”，响应单元便响应该第二识别结果，控制电视切换到CCTV5频道。

在本发明的另一个实施例中，处理装置2包括冲突单元，所述冲突单元配置为获得第一识别结果和第二识别结果后，分析第一识别结果和第二识别结果，当第一识别结果的内容和第二识别结果的内容不冲突时，驱使处理装置2分别响应第一识别结果和第二识别结果，当第一识别结果的内容和第二识别结果的内容冲突时，驱使处理装置2根据优先级属性响应其中一个识别结果。

具体的，冲突单元分析第一识别结果和第二识别结果的内容是否有冲突，如第一识别结果为男主人发出的语音命令“将空调调节为25度”，而同时第二识别结果为女主人发出的语音命令“将空调调节为26度”，此时认为第一识别结果和第二识别结果的内容有冲突。类似的，如果第一识别结果为男主人发出的语音命令“电视，切换到CCTV5”，而同时第二识别结果为女主人发出的语音命令“将空调调节为26度”，此时认为第一识别结果和第二识别结果的内容没有冲突。

当第一识别结果的内容和第二识别结果的内容不冲突时，冲突单元驱使处理装置2分别响应第一识别结果和第二识别结果，可以首先响应第一识别结果，也可以首先响应第二识别结果。

当第一识别结果的内容和第二识别结果的内容冲突时，冲突单元驱使处理装置2根据优先级属性响应其中一个识别结果。具体来说，冲突单元可以预先对第一识别结果的内容和第二识别结果的内容设置优先级属性，在一个实施例中，将内容中存在“立刻，马上”等词语时可以将其设置为较高的优先级，当内容有冲突时，可以冲突单元驱使处理装置2优先响应内容中包含有“立刻，马上”等词语的识别结果。在另一个实施例中，冲突单元可以将首先获得的识别结果的优先级设置较高，以在第一识别结果的内容和第二识别结果的内容冲突时，驱使处理装置2首先响应先行获得的识别结果。在又一个实施例中，冲突单元可以根据识别结果对应的用户身份来设置优先级，如将女主人对应的第二识别结果设置较高优先级，以在第一识别结果的内容和第二识别结果的内容冲突时，驱使处理装置2首先响应第二识别结果。

本发明实施例还提供了一种音频处理设备，包括处理器和存储器，存储器中存储有可执行代码，处理器配置为执行可执行代码以做以下工作：

获得音频数据。音频数据可以是至少一个发音源发出的音频所构成的数据，如用户发出的语音命令，或者多个用户发出的语音命令，在一个实施中，该音频数据为在一个时间段内所获得的数据，而获得该音频数据的方式可以为多种，如可以通过音频获得装置1获得一个时间段内不同发音源产生的音频数据。而音频获得装置1包括音频采集装置，音频采集装置可以为麦克风，或麦克风阵列等多种采集设备；音频获得装置1也可以为远程服务器的网络传输装置(例如远程服务器使用的网络交换机)，该网络传输装置接收发音源处的采集设备(如麦克风，或麦克风阵列等)采集到的音频数据，从而网络传输装置将获得的音频数据发送至远程服务器进行处理(如网络交换机将接收到的音频数据发送给远程服务器)。举例说明，在家庭中在对家用电器进行控制时可以使用该音频处理方法，并通过音频处理设备(或叫做语音助手)等硬件设备来实现控制家用电器等电子设备3的目的，具体来说，可以使用音频获得装置1获得不同的用户的语音命令，而用户发出的语音可能是重叠的，获得完成后音频获得装置1将获得到的音频数据发送给处理装置2以供处理，从而控制家用电器，如打开电视，调节空调的温度等。

处理音频数据，获得第一子数据和第二子数据，其中，第一子数据和第二子数据具有重叠的采集时间。在一个实施例中，在处理音频数据时可以由本地处理设备处理，如与音频获得装置1连接的本地处理设备(如家庭服务器等)处理，在本地便能够将音频数据处理为第一子数据和第二子数据，进而获得第一子数据和第二子数据，进一步来说，可以从音频数据中分别提取出第一子数据和第二子数据，从而获得第一子数据和第二子数据；在另一个实施例中，在处理音频数据时可以由远程服务器进行，也就是将音频获得装置1从本地获得的音频数据发送到远程服务器进行处理，由远程服务器将音频数据处理为第一子数据和第二子数据(即从音频数据中分别提取出第一子数据和第二子数据)，进而获得第一子数据和第二子数据。远程服务器可以同时为多个服务点(如多个家庭，多个办公室)服务，但每个服务点由同一音频获得装置1获得音频，而服务器针对一个服务点服务时只针对该服务点的同一音频获得装置1获得的音频数据进行处理。

识别第一子数据获得第一识别结果，识别第二子数据获得第二识别结果，其中，第一识别结果和第二识别结果是能分别被响应的结果。由于音频数据不能够被直接响应和执行，因此在获取的第一子数据后需要对第一子数据进行识别获得第一识别结果，对第二子数据进行识别获得第二识别结果，再分别对第一识别结果和第二识别结果进行响应。在本实施例中，第一识别结果和第二识别结果为被识别出的语音命令，结合上述例子进行说明，在获取到男主人和女主人发出的语音命令对应的音频数据后，对该音频数据进行处理获得第一子数据和第二子数据，其中，第一子数据对应了男主人发出的语音命令，第二子数据对应了女主人发出的语音命令。识别第一子数据获得第一识别结果，该第一识别结果为语音命令“你好，语音助手，帮我打开电视并调到CCTV5”；类似的识别第二子数据获得第二识别结果，该第二识别结果为语音命令“你好，语音助手，帮我开启空调并调到26度”。随后便响应上述语音命令，以便使电视和空调来执行该命令。

在本发明的一个实施例中，处理器进一步配置为执行可执行代码做以下工作：

至少确定预设声纹特征中不同的第一特征和第二特征。预设声纹特征可以预先对用户的声纹进行采集(如上述例子中预先采集男主人和女主人的声纹)，并存储在相应的处理设备(如家庭服务器或远程服务器等)上，在预设声纹特征中至少确定一个发音源的声纹特征为第一特征，另一个发音源的声纹特征为第二特征，例如将男主人的声纹特征设为第一特征，将女主人的声纹特征设为第二特征，第一特征和第二特征不同。具体来说，声纹特征包括了音频的音色、音域和音调等多个主要特征，第一特征和第二特征在音频的音色、音域和音调等均不相同，均具有各自的特点。

匹配音频数据和第一特征，将符合第一特征的音频数据处理为第一子数据。在匹配音频数据和第一特征时，可以将音频数据与预设声纹特征进行对比，以便将音频数据中符合第一特征的数据挑选出来处理为第一子数据，在一个实施例中，所述的符合第一特征为音频数据中的声纹特征符合第一特征，例如上述例子中男主人发出的语音命令的音色、音域和音调符合第一特征。

匹配音频数据和第二特征，将符合第二特征的音频数据处理为第二子数据。在匹配音频数据和第二特征时，可以将音频数据与预设声纹特征进行对比，以便将音频数据中符合第二特征的数据挑选出来处理为第二子数据，在一个实施例中，所述的符合第二特征为音频数据中的声纹特征符合第二特征，例如上述例子中女主人发出的语音命令的音色、音域和音调符合第二特征。

在本发明的另一个实施例中，处理器进一步配置为执行可执行代码做以下工作：

至少分析音频数据中的声纹特征。具体来说，在获得到音频数据后并对其进行分析，由于第一子数据和第二子数据具有重叠的采集时间，因此分析声纹特征是将具有不同的声纹特征的音频数据区分开来，得到不同发声源发出的音频数据，即分别得到第一子数据和第二子数据。

依据具有相同第一声纹特征的音频数据生成第一子数据。结合上述例子进行说明，男主人发出的所有的语音命令的声纹特征均相同，可以将所有具有男主人声纹特征的音频数据归为一类，并依据具有男主人声纹特征的音频数据生成第一子数据，即对应男主人的语音数据。

依据具有相同第二声纹特征的音频数据生成第二子数据，其中，第一声纹特征和第二声纹特征不同。结合上述例子进行说明，女主人发出的所有的语音命令的声纹特征均相同，可以将所有具有女主人声纹特征的音频数据归为另一类，并依据具有女主人声纹特征的音频数据生成第二子数据，即对应女主人的语音数据。需要说明的是，该实施例中上述处理过程可以不预先对男主人和女主人的声纹特征进行预先存储，只是将具有相同声纹特征的音频数据进行归类，以确定同一类的音频数据为同一个发音源发出，进而在叠加的音频中区分出不同的发音源对应的音频。

在本发明的又一个实施例中，处理器进一步配置为执行可执行代码做以下工作：

分析音频数据中的声纹特征，识别音频数据并对音频数据的内容进行语义分析，以生成分析结果。在分析了音频数据中的声纹特征后，能够将具有相同声纹特征的音频数据预归为一类，此时还不能将归为此类的音频数据处理为第一子数据，还需要识别音频数据并对音频数据的内容进行语义分析，以做出进一步精确的判断。在对音频数据的内容进行语义分析时可以根据内容中前后的语言进行判断，例如“空调，开到26度”和“电视，切换到CCTV5”两个语音中，分析认为空调并不能切换到CCTV5，电视也并不能开到26度，因此可以进一步判断“空调，开到26度”为同一个发音源发出的语音，“电视，切换到CCTV5”为另一个发音源发出的语音，进而对预归为一类的具有相同声纹特征的音频数据再进行综合分析，并生成分析结果。

根据分析结果将音频数据处理为第一子数据和第二子数据。该分析结果极为精确，也是获得的第一子数据和第二子数据更为准确，即从音频数据中准确的获取到一个发音源对应的第一子数据，另一个发音源对应的第二子数据。

在本发明的一个实施例中，处理器配置为执行可执行代码还做以下工作：根据获得第一识别结果和第二识别结果的先后顺序，依次响应识别结果。举例来说，该响应识别结果的方式是根据先到先处理的原则，对识别结果进行响应，如首先识别出了第一识别结果为“空调，开到26度”，便响应该第一识别结果，控制空调调节到26度，随后识别出了第二识别结果为“电视，切换到CCTV5”，便响应该第二识别结果，控制电视切换到CCTV5频道。

在本发明的另一个实施例中，处理器配置为执行可执行代码还做以下工作：

获得第一识别结果和第二识别结果后，分析第一识别结果和第二识别结果。具体的，分析第一识别结果和第二识别结果的内容是否有冲突，如第一识别结果为男主人发出的语音命令“将空调调节为25度”，而同时第二识别结果为女主人发出的语音命令“将空调调节为26度”，此时认为第一识别结果和第二识别结果的内容有冲突。类似的，如果第一识别结果为男主人发出的语音命令“电视，切换到CCTV5”，而同时第二识别结果为女主人发出的语音命令“将空调调节为26度”，此时认为第一识别结果和第二识别结果的内容没有冲突。

当第一识别结果的内容和第二识别结果的内容不冲突时，分别响应第一识别结果和第二识别结果。具体来说，当内容不冲突时，分别响应第一识别结果和第二识别结果，可以首先响应第一识别结果，也可以首先响应第二识别结果。

当第一识别结果的内容和第二识别结果的内容冲突时，根据优先级属性响应其中一个识别结果。具体来说，可以预先对第一识别结果的内容和第二识别结果的内容设置优先级属性，在一个实施例中，将内容中存在“立刻，马上”等词语时可以将其设置为较高的优先级，当内容有冲突时，可以优先响应内容中包含有“立刻，马上”等词语的识别结果。在另一个实施例中，可以将首先获得的识别结果的优先级设置较高，以在第一识别结果的内容和第二识别结果的内容冲突时，首先响应先行获得的识别结果。在又一个实施例中，可以根据识别结果对应的用户身份来设置优先级，如将女主人对应的第二识别结果设置较高优先级，以在第一识别结果的内容和第二识别结果的内容冲突时，首先响应第二识别结果。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种音频处理方法，应用在音频处理设备中，所述方法包括：

获得音频数据；其中，所述音频数据包括多个用户发出的语音命令的音频所构成的数据；

识别所述第一子数据获得第一识别结果，识别所述第二子数据获得第二识别结果，其中，所述第一识别结果和第二识别结果是被识别出的能分别被响应的语音命令；

分别响应所述第一识别结果和所述第二识别结果；

其中，所述处理所述音频数据，获得第一子数据和第二子数据，包括：

分析所述音频数据中的声纹特征，将具有相同声纹特征的音频数据预归为一类；

识别预归为一类的所述音频数据，并根据所述音频数据的内容中前后的语言对预归为一类的具有相同声纹特征的所述音频数据的内容进行综合语义分析，以生成分析结果；

2.根据权利要求1所述的方法，所述的处理所述音频数据，获得第一子数据和第二子数据包括：

至少确定预设声纹特征中不同的第一特征和第二特征；

3.根据权利要求1所述的方法，所述方法还包括：

4.根据权利要求1所述的方法，所述方法还包括：

5.一种音频处理设备，包括：

音频获得装置，配置为获得音频数据；其中，所述音频数据包括多个用户发出的语音命令的音频所构成的数据；

处理装置，配置为处理所述音频数据，获得第一子数据和第二子数据，其中，所述第一子数据和第二子数据具有重叠的采集时间；并且识别所述第一子数据获得第一识别结果，识别所述第二子数据获得第二识别结果，其中，所述第一识别结果和第二识别结果是被识别出的能分别被响应的语音命令；分别响应所述第一识别结果和所述第二识别结果；

所述处理装置进一步配置为：分析所述音频数据中的声纹特征，将具有相同声纹特征的音频数据预归为一类；识别预归为一类的所述音频数据，并根据所述音频数据的内容中前后的语言对预归为一类的具有相同声纹特征的所述音频数据的内容进行综合语义分析，以生成分析结果；根据所述分析结果将所述音频数据处理为所述第一子数据和第二子数据。

6.根据权利要求5所述的音频处理设备，所述处理装置包括：

预设单元，配置为至少确定预设声纹特征中不同的第一特征和第二特征；

匹配单元，配置为匹配所述音频数据和第一特征，将符合所述第一特征的音频数据处理为第一子数据，并匹配所述音频数据和第二特征，将符合所述第二特征的音频数据处理为所述第二子数据。

7.一种音频处理设备，包括处理器和存储器，所述存储器中存储有可执行代码，所述处理器配置为执行所述可执行代码以：

分别响应所述第一识别结果和所述第二识别结果；