CN109994122A

CN109994122A - 语音数据的处理方法、装置、设备、介质和系统

Info

Publication number: CN109994122A
Application number: CN201711488055.1A
Authority: CN
Inventors: 余涛; 田彪; 刘礼; 许敏强; 曹晶皓; 陈一宁; 薛彬
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-09
Anticipated expiration: 2037-12-29
Also published as: CN109994122B

Abstract

本申请实施例公开了一种语音数据的处理方法、装置、设备、介质和系统，用以在去除串扰音的同时，增强可扩展性，降低升级难度。所述方法包括：在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比；根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音；保留类型为主音的语音数据，去除类型为串扰音的语音数据。

Description

语音数据的处理方法、装置、设备、介质和系统

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音数据的处理方法、装置、设备、介质和系统。

背景技术

在多个麦克风的应用场景中，一个发言人发言时，除了发言人对应的麦克风会接收到声音，其它麦克风也会接收到声音，其它麦克风接收到的这部分声音就属于串扰音。

在进行语音数据处理时，需要去除串扰音。目前，去除串扰音主要有以下两种方案：

第一种方案为在前端麦克风中增加防串扰模块。此种方案防串扰模块设置在麦克风中，其在去除串扰音时，基于单通道(或者单麦克风)的语音数据进行去除，实际效果并不理想，而且每个麦克风中都需要增加防串扰模块，成本较高。

第二种方案为在后端逻辑控制模块中增加专门防串扰硬件。此种方案中防串扰硬件的工作原理为：声源活跃度检测器(Source Activity Detector，SAD)通过估算信噪比(Signal-to-Noise Ratio，SNR)判断每个麦克风是否有语音数据输入，在判定麦克风中有语音数据输入时，将麦克风采集的语音数据输入到逻辑控制模块，逻辑控制模块根据各个麦克风的信号，来选择激活不同的均衡器，最终多路语音数据在均衡器的处理下输出去除串扰的语音数据。其中，均衡器是一个可动态调节权重的反馈系统。此种方案相较于第一种方案，虽然其去除串扰音的效果优于第一种方案，但是其受硬件性能限制，所能支持的最大麦克风数量在出厂时已经固定，可扩展性较差，升级难度大。

综上所述，现有技术中去除串扰音的方案，可扩展性差，因此升级难度大。

发明内容

本申请实施例提供了一种语音数据的处理方法、装置、设备、计算机可读存储介质和系统，用以在去除串扰音的同时，增强可扩展性，降低升级难度。

根据本申请实施例的第一方面，提供一种语音数据的处理方法，包括：

在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比；

根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音；

保留类型为主音的语音数据，去除类型为串扰音的语音数据。

根据本申请实施例的第二方面，提供一种语音数据的处理装置，包括：

计算模块，用于在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比；

数据类型确定模块，用于根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音；

处理模块，用于保留类型为主音的语音数据，去除类型为串扰音的语音数据。

根据本申请实施例的第三方面，提供一种语音数据的处理设备，包括：存储器和处理器；该存储器用于储存有可执行程序代码；该处理器用于读取存储器中存储的可执行程序代码以执行上述语音数据的处理方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现上述语音数据的处理方法。

根据本申请实施例的第五方面，提供一种语音数据的处理设备，包括：处理器和多个麦克风；其中，

多个麦克风，用于采集多路语音数据；

处理器，与多个麦克风通信连接，用于接收多个麦克风采集的多路语音数据，对多路语音数据进行时域对齐处理，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据，其中，语音数据的类型包括主音和串扰音。

根据本申请实施例的第六方面，提供一种语音数据的处理系统，包括：前端语音采集设备和后端语音处理设备；其中，

前端语音采集设备，用于采集多路语音数据，将采集到的多路语音数据发送至后端语音处理设备进行处理，并接收后端语音处理设备针对多路语音数据的处理结果；

后端语音处理设备，用于接收前端语音采集设备采集的多路语音数据，对多路语音数据进行时域对齐处理，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据，将保留的语音数据作为处理结果发送至前端语音采集设备，其中，语音数据的类型包括主音和串扰音。

根据本申请实施例中的语音数据的处理方法、装置、设备、计算机可读存储介质和系统，通过确定多路语音数据中每路语音数据的类型，进而保留类型为主音的语音数据，去除类型为串扰音的语音数据，从而实现去除多路语音数据中的串扰音，同时多路语音数据的数量可灵活变化，增强了可扩展性，降低了升级难度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了多人会议场景下串扰音的形成原理示意图；

图2示出了根据本申请实施例的一个确定语音数据的类型的流程示意图；

图3示出了根据本申请实施例的另一确定语音数据的类型的流程示意图；

图4示出了根据本申请实施例的语音数据的处理方法的流程示意图；

图5示出了根据本申请实施例的语音数据的处理装置的结构示意图；

图6示出了根据本申请实施例的一个语音数据的处理设备的结构示意图；

图7示出了根据本申请实施例的另一语音数据的处理设备的结构示意图；

图8示出了根据本申请实施例的再一语音数据的处理设备的结构示意图；

图9示出了根据本发明实施例的去除串扰音的应用场景示意图；

图10示出了能够实现根据本申请实施例的语音数据的处理方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本申请，并不被配置为限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在有多个麦克风的应用场景中，例如，法院庭审场景、多人会议场景，多个麦克风之间通常存在严重的语音串扰，这将严重影响后续语音回放和语音识别的效果。

以多人会议场景为例，如图1所示，多人会议场景中有三个参会人员，分别为用户A、用户B和用户C，每个参会人员均使用麦克风发言。在其中一个参会人员发言时，举例来说，在用户B发言时，除了用户B的麦克风会接收到用户B的声音之外，用户A的麦克风和用户C的麦克风也会接收到用户B的声音，而且用户A的麦克风和用户C的麦克风接收到用户B声音的时刻，稍微晚于用户B的麦克风接收到用户B声音的时刻。如此以来，在对用户B的声音进行语音回放和语音识别时，用户A的麦克风和用户C的麦克风接收到的声音会带来一定的干扰，用户A的麦克风和用户C的麦克风接收到的声音就属于串扰音。

由于在多个麦克风的应用场景中，多个麦克风之间存在严重的语音串扰，因此，在采集到多路语音数据之后，通常需要去除多路语音数据中的串扰音，也即在多路语音数据中确定出串扰音，并去除串扰音。但是现有技术中，在前端麦克风中增加防串扰模块去除串扰音的方案，基于单通道(或者单麦克风)的语音数据去除串扰音，实际效果并不理想，而且每个麦克风中都需要增加防串扰模块，成本较高；而在后端逻辑控制模块中增加专门防串扰硬件的方案，虽然其去除串扰音的效果优于第一种方案，但是其受硬件性能限制，所能支持的最大麦克风数量在出厂时已经固定，可扩展性较差，升级难度大。

鉴于此，本申请实施例提供了一种语音数据的处理方案，包括：在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比；根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音；保留类型为主音的语音数据，去除类型为串扰音的语音数据。

在一个实施方式中，在去除多路语音数据中的串扰音时，多路语音数据可以是多个麦克风实时采集到的语音数据，也可以是已采集的语音数据，本申请对此不做限定。

在一个实施方式中，受限于声音在空气中的传播速度以及不同麦克风之间的距离，不同麦克风接收到同一发言人声音的时刻是不同的。结合图1示出的多人会议场景而言，用户A的麦克风和用户C的麦克风接收到用户B声音的时刻，稍微晚于用户B的麦克风接收到用户B声音的时刻。因此，在去除多路语音数据中的串扰音之前，需要先将多路语音数据在时域进行对齐处理。

在一个示例中，多路语音数据在时域进行对齐处理时，鉴于语音数据的特征随时间变化，其仅在很短的时间段内，具有相对稳定的特征，可以对语音数据进行分帧处理，在对语音数据进行分帧处理之后，将多路语音数据在时域进行对齐处理。

在一个实施方式中，还可以对每路语音数据进行时频转换，在频域对每路语音数据进行降噪处理。具体在对语音数据做时频转换时，可以通过傅里叶变换对语音数据做时频转换，将时域的语音数据转换为频域的语音数据。

实际应用中，串扰音与主音通常有很高的相似度，因此，在多路语音数据中确定串扰音时，可以使用两路语音数据之间的相关性表征两路语音数据之间的相似性，若两路语音数据之间的相关性较高，则表明两路语音数据中的某一路语音数据可能是另一路语音数据的副本，也即两路语音数据中有一路语音数据的语音数据类型为主音，另一路语音数据的语音数据类型为串扰音。

另外，语音数据的信噪比能够反映语音数据中语音信号所占的比重，若某路语音数据的信噪比较大和/或信噪比与目标信噪比的比值较大，则表明此路语音数据中语音信号占的比重较大，此路语音数据为主音的可能性较大；相反，若某路语音数据的信噪比较小和/或信噪比与目标信噪比的比值较小，则表明此路语音数据中噪音信号占的比重较大，此路语音数据为串扰音的可能性较大，其中，目标信噪比为多路语音数据信噪比中的最大值。因此，语音数据的信噪比也可用于在多路语音数据中确定串扰音。

在一个实施方式中，鉴于语音数据之间的相关性和语音数据的信噪比均可用于确定语音数据是否为串扰音，在对多路语音数据进行时域对齐处理之后，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，以根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，也即确定每路语音数据是主音还是串扰音。

在一个实施方式中，计算每路语音数据与其它路语音数据之间的相关性时，可以采用互相关函数以及幅值平方相干函数(Magnitude Squared Coherence，MSC)进行计算。当然，在本申请其它实施例中，也可以采用其它函数进行计算，此处并不用于具体限定。

在另一实施方式中，计算每路语音数据与其它路语音数据之间的相关性时，为了减少非稳态噪声的影响，在采用互相关函数以及MSC计算出每路语音数据与其它路语音数据之间的相关性之后，还可以对计算出的每路语音数据与其它路语音数据之间的相关性进行平滑处理，得到平滑处理后的每路语音数据与其它路语音数据之间的相关性。

在一个示例中，假设两路语音数据为语音数据A和语音数据B，在计算语音数据A和语音数据B当前帧的相关性之后，在利用预先存储的语音数据A和语音数据B前一帧平滑处理后的相关性，对当前帧的相关性进行一阶平滑处理时，可以采用下述公式(1)实现：

P(t)＝α×P(t-1)+(1-α)×p(t) (1)

其中，p(t)为计算出的当前帧的相关性，P(t-1)为前一帧平滑处理后的相关性，P(t)为一阶平滑处理后当前帧的相关性，α为平滑因子，可以根据经验值设定。

在一个实施方式中，在确定每路语音数据与其它路语音数据之间的相关性和每路语音数据的信噪比之后，可以根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音。

在一个示例中，如图2所示，根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型时，针对每路待确定语音数据，可以采用如下步骤确定。

步骤201，确定目标信噪比，也即从多路语音数据的信噪比中确定出最大值作为目标信噪比。

步骤202，判断待确定语音数据的信噪比与目标信噪比的比值是否大于或等于预设比例阈值，其中，预设比例阈值可以根据经验值设定，举例来说，预设比例阈值为95％。

步骤203，在待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值时，确定待确定语音数据的类型为主音。

步骤204，在待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值时，进一步判断待确定语音数据的信噪比是否小于预设信噪比阈值，其中，预设信噪比阈值可以根据经验值设定，举例来说，预设信噪比阈值为80分贝(dB)。

步骤205，在待确定语音数据的信噪比小于预设信噪比阈值时，确定待确定语音数据的类型为串扰音。

步骤206，在待确定语音数据的信噪比大于或等于预设信噪比阈值时，基于待确定语音数据与多路语音数据中其它路语音数据之间的相关性，确定待确定语音数据的类型。

具体来说，基于待确定语音数据与已确定为主音的其它路语音数据之间的相关性，确定待确定语音数据的类型。

具体为判断待确定语音数据与已确定为主音的其它路语音数据之间的相关性是否大于或等于预设相关性阈值，其中，预设相关性阈值可以根据经验值设定，举例来说，预设相关性阈值为90。

步骤207，在待确定语音数据与已确定为主音的其它路语音数据之间的相关性大于或等于预设相关性阈值时，确定待确定语音数据的类型为串扰音。

步骤208，在待确定语音数据与已确定为主音的其它路语音数据之间的相关性小于预设相关性阈值时，确定待确定语音数据的类型为主音。

从上述根据待确定语音数据的信噪比和待确定语音数据与多路语音数据中其它路语音数据之间相关性，确定待确定语音数据的类型的实施过程可以看出，在利用待确定语音数据与其它路语音数据之间的相关性确定待确定语音数据的类型时，实际上是利用待确定语音数据与已确定为主音的其它路语音数据之间的相关性进行确定。

因此，在一个实施方式中，可以先计算每路语音数据的信噪比，然后根据每路语音数据的信噪比以及每路语音数据的信噪比与目标信噪比的比值，确定多路语音数据中部分路语音数据的类型，然后针对多路语音数据中剩余的语音数据，计算这部分语音数据中每路语音数据与已确定为主音的其它路语音数据之间的相关性，并根据计算出的相关性确定这部分语音数据的类型，以降低计算量，提高计算效率，进而降低对实时语音数据处理时的时延。

在另一个示例中，如图3所示，根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型时，针对每路待确定语音数据，可以采用如下步骤确定。

步骤301，确定目标信噪比，也即从多路语音数据的信噪比中确定出最大值作为目标信噪比。

步骤302，根据每路语音数据与其它路语音数据之间的相关性，将多路语音数据划分为第一类语音数据和第二类语音数据。其中，第一类语音数据中，每路语音数据与其它至少一语音数据之间的相关性大于或等于预设相关性阈值，第二类语音数据中包括多路语音数据中除第一类语音数据之外的其它路语音数据，预设相关性阈值可以根据经验值设定，举例来说，预设相关性阈值为90。

步骤303，在第一类语音数据中，判断待确定语音数据的信噪比与目标信噪比的比值是否大于或等于预设比例阈值，其中，预设比例阈值可以根据经验值设定，举例来说，预设比例阈值为95％。

步骤304，在第一类语音数据中，在待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值时，确定待确定语音数据的类型为主音。

步骤305，在第一类语音数据中，在待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值时，确定待确定语音数据的类型为串扰音。

步骤306，在第二类语音数据中，判断待确定语音数据的信噪比是否大于或等于预设信噪比阈值，其中，预设信噪比阈值可以根据经验值设定，举例来说，预设信噪比阈值为80dB。

步骤307，在第二类语音数据中，在确定待确定语音数据的信噪比大于或等于预设信噪比阈值时，确定待确定语音数据的类型为主音。

步骤308，在第二类语音数据中，在确定待确定语音数据的信噪比小于预设信噪比阈值时，确定待确定语音数据的类型为串扰音。

在一个实施方式中，根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型时，也可以仅根据每路语音数据的信噪比与目标信噪比的比值进行判断，具体来说：

针对每路待确定语音数据：若待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，则确定待确定语音数据的类型为主音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，则确定待确定语音数据的类型为串扰音；其中，目标信噪比为多路语音数据信噪比中的最大值，预设比例阈值可以根据经验值设定，举例来说，预设比例阈值为95％。

在一个实施方式中，根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型时，也可以根据每路语音数据的信噪比以及每路语音数据的信噪比与目标信噪比的比值进行判断，具体来说：

针对每路待确定语音数据：若待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，确定待确定语音数据的类型为主音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，且待确定语音数据的信噪比小于预设信噪比阈值，确定待确定语音数据的类型为串扰音；其中，目标信噪比为多路语音数据信噪比中的最大值，预设比例阈值和预设信噪比阈值均可以根据经验值设定，举例来说，预设比例阈值为95％，预设信噪比阈值为80dB。

在一个实施方式中，在确定每路语音数据的类型之后，即可根据每路语音数据的类型，在多路语音数据中去除串扰音，也即保留类型为主音的语音数据以输出，同时去除类型为串扰音的语音数据。

下面结合具体的系统处理流程对上述语音数据的处理方法的执行过程进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

从整体流程而言，如图4所示，语音数据的处理方法400，可以包括以下步骤：

步骤S401，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比。

步骤S402，根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音。

步骤S403，保留类型为主音的语音数据，去除类型为串扰音的语音数据。

本申请实施例中，通过确定每路语音数据的类型，进而保留类型为主音的语音数据，去除类型为串扰音的语音数据，从而实现去除多路语音数据中的串扰音，同时多路语音数据的数量可灵活变化，增强了可扩展性，降低了升级难度。

另外，本申请实施例通过确定每路语音数据的类型，进而根据语音数据的类型确定保留或去除语音数据，去除串扰音的方式，与现有技术中增加防串扰模块以及增加专门防串扰硬件的方式相比，无需复杂的硬件支持，降低了成本。

在实现的时候，上述实施例中的语音数据的处理方法可以通过语音数据的处理装置来实现。如图5所示，语音数据的处理装置500，可以包括：

计算模块501，用于在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比。

数据类型确定模块502，用于根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，其中，语音数据的类型包括主音和串扰音。

处理模块503，用于保留类型为主音的语音数据，去除类型为串扰音的语音数据。

在一个实施方式中，数据类型确定模块502，具体用于：针对每路待确定语音数据：若待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，确定待确定语音数据的类型为主音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，且待确定语音数据的信噪比小于预设信噪比阈值，确定待确定语音数据的类型为串扰音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，且待确定语音数据的信噪比大于或等于预设信噪比阈值，则基于待确定语音数据与多路语音数据中其它路语音数据之间的相关性，确定待确定语音数据的类型；其中，目标信噪比为多路语音数据信噪比中的最大值。

在一个实施方式中，数据类型确定模块502，具体用于：基于待确定语音数据与已确定为主音的其它路语音数据之间的相关性，确定待确定语音数据的类型。

在一个实施方式中，数据类型确定模块502，具体用于：若待确定语音数据与已确定为主音的其它路语音数据之间的相关性大于或等于预设相关性阈值，确定待确定语音数据的类型为串扰音；若待确定语音数据与已确定为主音的其它路语音数据之间的相关性小于预设相关性阈值，确定待确定语音数据的类型为主音。

在一个实施方式中，数据类型确定模块502，具体用于：根据每路语音数据与其它路语音数据之间的相关性，将多路语音数据划分为第一类语音数据和第二类语音数据，其中，第一类语音数据中，每路语音数据与其它至少一语音数据之间的相关性大于或等于预设相关性阈值，第二类语音数据中包括多路语音数据中除第一类语音数据之外的其它路语音数据；针对第一类语音数据中的每路待确定语音数据，若待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，则确定待确定语音数据的类型为主音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，则确定待确定语音数据的类型为串扰音，其中，目标信噪比为多路语音数据信噪比中的最大值；针对第二类语音数据中的每路待确定语音数据，若待确定语音数据的信噪比大于或等于预设信噪比阈值，则确定待确定语音数据的类型为主音，若待确定语音数据的信噪比小于预设信噪比阈值，则确定待确定语音数据的类型为串扰音。

在一个实施方式中，数据类型确定模块502，具体用于：针对每路待确定语音数据：若待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，则确定待确定语音数据的类型为主音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，则确定待确定语音数据的类型为串扰音；其中，目标信噪比为多路语音数据信噪比中的最大值。

在一个实施方式中，数据类型确定模块502，具体用于：针对每路待确定语音数据：若待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，确定待确定语音数据的类型为主音；若待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，且待确定语音数据的信噪比小于预设信噪比阈值，确定待确定语音数据的类型为串扰音；其中，目标信噪比为多路语音数据信噪比中的最大值。

在一个实施方式中，每路语音数据与其它路语音数据之间的相关性是采用互相关函数以及幅值平方相干函数计算的。

在一个实施方式中，每路语音数据与其它路语音数据之间的相关性是采用互相关函数以及幅值平方相干函数计算，并且经过平滑处理得到的。

本申请实施例还提供一种语音数据的处理设备，包括：处理器和多个麦克风；其中，多个麦克风，用于采集多路语音数据；处理器，与多个麦克风通信连接，用于接收多个麦克风采集的多路语音数据，对多路语音数据进行时域对齐处理，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据，其中，语音数据的类型包括主音和串扰音。

参见图6，图6是本申请实施例中语音数据的处理设备的结构示意图。基于图5所示的语音数据的处理装置的基础上增加多个麦克风。

在每个发言者的面前均设有麦克风。麦克风可以采集发言者的语音信号，然后将采集到的语音信号发送至语音采集装置。

语音数据的处理装置，可以设置在语音采集装置中，当一个发言人发言时，多个麦克风均可以采集到发言人的语音信号，也即一个发言人发言时，语音采集装置可以采集到多路语音数据。

此种情况下，语音采集装置中设置的语音数据的处理装置，可以先对语音采集装置采集到的多路语音数据进行时域对齐处理，进而在时域对齐后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据。

在语音采集装置中去除多路语音数据中的串扰音，不但可以减小后续语音数据传输时的传输数据量以及语音数据存储时占用的存储空间，而且能够提高语音数据回放时的语音质量。

参见图7，图7是本发明实施例中另一语音数据的处理设备的结构示意图。基于图5所示语音数据的处理装置的基础上增加多个麦克风和服务器。

在每个发言者的面前均设有麦克风。麦克风可以采集发言者的语音信号，然后将采集到的语音信号发送至语音采集装置，语音采集装置将采集的语音信号发送至服务器。

语音数据的处理装置，可以设置在服务器中，当一个发言人发言时，多个麦克风均可以采集到发言人的语音信号，也即当一个发言人发言时，语音采集装置可以采集到多路语音数据，然后语音采集装置将采集到的多路语音数据发送至服务器。

此种情况下，服务器中设置的语音数据的处理装置，可以先对语音采集装置采集到的多路语音数据进行时域对齐处理，进而在时域对齐后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据。

在服务器中去除多路语音数据中的串扰音，不但可以减小语音数据存储时占用的存储空间，而且能够提高语音数据回放时的语音质量。

图7中用户、麦克风、语音采集装置和服务器位于本地。也就是说，用户、语音采集装置和服务器是在一个局域网中，服务器主要是去除语音采集装置采集到的多路语音数据中的串扰音。

作为一个示例，在多人会议场景中，现场存在多个麦克风，而且需要实时回放麦克风采集到的语音数据，此种场景中，当一个发言人发言时，语音采集装置采集多路语音数据之后，将多路语音数据发送至服务器进行去除串扰音处理，进而在回放时回放去除串扰音之后的语音数据，从而能够提升回放时的语音质量。其中，服务器可以位于会议室的计算机系统中。

参见图8，图8是本发明实施例中再一语音数据的处理设备的结构示意图。基于图5所示语音数据的处理装置的基础上增加多个麦克风和服务器。

图8中用户、麦克风和语音采集装置位于本地，服务器位于云端。麦克风可以采集发言者的语音信号，然后将采集到的语音信号发送至语音采集装置，语音采集装置将采集的语音信号上传至云端服务器。

语音数据的处理装置，可以设置在云端服务器中，当一个发言人发言时，多个麦克风均可以采集到发言人的语音信号，也即当一个发言人发言时，语音采集装置可以采集到多路语音数据，然后语音采集装置将采集到的多路语音数据上传至位于云端服务器。

此种情况下，云端服务器中设置的语音数据的处理装置，可以先对语音采集装置采集到的多路语音数据进行时域对齐处理，进而在时域对齐后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据。

在云端服务器中去除多路语音数据中的串扰音之后，云端服务器将去除串扰音后的语音数据发送至本地进行存储或播放，如此不但能够提高语音数据回放时的语音质量，而且能够减少对本地计算资源的占用，同时能够利用云端的计算能力，提高计算速度。

参见图9，图9是本发明实施例中去除串扰音的应用场景示意图。其中，本发明实施例的语音数据的处理装置可以应用于图9中的应用场景。

多个声学传感器采集同一发言人的语音数据，并将采集到的语音数据输入语音处理设备。

语音处理设备接收多个声学传感器采集的多路语音数据，可以进行去除串扰音处理，然后将去除串扰音后的语音数据发送至服务器，也可以不做处理直接将多路语音数据转发至服务器。

服务端接收语音处理设备发送的语音数据，若语音处理设备将未处理的多路语音数据发送至服务器，则服务器可以对多路语音数据进行去除串扰音处理，然后进行存储或者回放；若语音处理设备将去除串扰音后的语音数据发送至服务器，则服务器可以直接对接收到的语音数据进行存储和回放。

其中，服务器可以位于本地，还可以位于云端，即可以利用多台计算机同时进行数据处理，这样可以远远提高服务端的工作效率。其中，多台计算机的组织形式可以是集中式处理系统，也可以是分布式处理系统。

本申请实施例还提供一种语音数据的处理系统，包括：前端语音采集设备和后端语音处理设备；其中，前端语音采集设备，用于采集多路语音数据，将采集到的多路语音数据发送至后端语音处理设备进行处理，并接收后端语音处理设备针对多路语音数据的处理结果；后端语音处理设备，用于接收前端语音采集设备采集的多路语音数据，对多路语音数据进行时域对齐处理，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据，将保留的语音数据作为处理结果发送至前端语音采集设备，其中，语音数据的类型包括主音和串扰音。

在一个实施方式中，后端语音处理设备可以部署在云服务器中，也即可以在云服务器中去除前端语音采集设备采集的多路语音数据中的串扰音。由于云服务器具有更强的计算能力，因此，在云服务器中去除前端语音采集设备采集的多路语音数据中的串扰音，不再受限于前端处理器的处理速度，能够以更快的速度去除多路语音数据中的串扰音，提高计算效率，进而提高系统响应速度。

图10示出了能够实现根据本申请实施例的语音数据的处理方法和装置的计算设备的示例性硬件架构的结构图。如图10所示，计算设备1000包括输入设备1001、输入接口1002、中央处理器1003、存储器1004、输出接口1005、以及输出设备1006。其中，输入接口1002、中央处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接，输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接，进而与计算设备1000的其他组件连接。

具体地，输入设备1001接收来自外部的输入信息，并通过输入接口1002将输入信息传送到中央处理器1003；中央处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1004中，然后通过输出接口1005将输出信息传送到输出设备1006；输出设备1006将输出信息输出到计算设备1000的外部供用户使用。

也就是说，图10所示的计算设备也可以被实现为语音数据的处理设备，该语音数据的处理设备可以包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1至图5描述的语音数据的处理方法和装置。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

另外，结合上述实施例中的语音数据的处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音数据的处理方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种语音数据的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，包括：

针对每路待确定语音数据：

若所述待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，确定所述待确定语音数据的类型为主音；

若所述待确定语音数据的信噪比与目标信噪比的比值小于所述预设比例阈值，且所述待确定语音数据的信噪比小于预设信噪比阈值，确定所述待确定语音数据的类型为串扰音；

若所述待确定语音数据的信噪比与目标信噪比的比值小于所述预设比例阈值，且所述待确定语音数据的信噪比大于或等于所述预设信噪比阈值，则基于所述待确定语音数据与所述多路语音数据中其它路语音数据之间的相关性，确定所述待确定语音数据的类型；

其中，所述目标信噪比为所述多路语音数据信噪比中的最大值。

3.根据权利要求2所述的方法，其特征在于，所述基于所述待确定语音数据与所述多路语音数据中其它路语音数据之间的相关性，确定所述待确定语音数据的类型，包括：

基于所述待确定语音数据与已确定为主音的所述其它路语音数据之间的相关性，确定所述待确定语音数据的类型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述待确定语音数据与已确定为主音的所述其它路语音数据之间的相关性，确定所述待确定语音数据的类型，包括：

若所述待确定语音数据与已确定为主音的所述其它路语音数据之间的相关性大于或等于预设相关性阈值，确定所述待确定语音数据的类型为串扰音；

若所述待确定语音数据与已确定为主音的所述其它路语音数据之间的相关性小于所述预设相关性阈值，确定所述待确定语音数据的类型为主音。

5.根据权利要求1所述的方法，其特征在于，所述根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，包括：

根据每路语音数据与其它路语音数据之间的相关性，将所述多路语音数据划分为第一类语音数据和第二类语音数据，其中，所述第一类语音数据中，每路语音数据与其它至少一语音数据之间的相关性大于或等于预设相关性阈值，所述第二类语音数据中包括所述多路语音数据中除第一类语音数据之外的其它路语音数据；

针对所述第一类语音数据中的每路待确定语音数据，若所述待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，则确定所述待确定语音数据的类型为主音；若所述待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，则确定所述待确定语音数据的类型为串扰音，其中，所述目标信噪比为所述多路语音数据信噪比中的最大值；

针对所述第二类语音数据中的每路待确定语音数据，若所述待确定语音数据的信噪比大于或等于预设信噪比阈值，则确定所述待确定语音数据的类型为主音，若所述待确定语音数据的信噪比小于预设信噪比阈值，则确定所述待确定语音数据的类型为串扰音。

6.根据权利要求1所述的方法，其特征在于，所述根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，包括：

针对每路待确定语音数据：

若所述待确定语音数据的信噪比与目标信噪比的比值大于或等于预设比例阈值，则确定所述待确定语音数据的类型为主音；

若所述待确定语音数据的信噪比与目标信噪比的比值小于预设比例阈值，则确定所述待确定语音数据的类型为串扰音；

7.根据权利要求1所述的方法，其特征在于，所述根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型包括：

针对每路待确定语音数据：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述每路语音数据与其它路语音数据之间的相关性是采用互相关函数以及幅值平方相干函数计算的。

9.根据权利要求1-7中任一项所述的方法，其特征在于，所述每路语音数据与其它路语音数据之间的相关性是采用互相关函数以及幅值平方相干函数计算，并且经过平滑处理得到的。

10.一种语音数据的处理装置，其特征在于，所述处理装置包括：

11.一种语音数据的处理设备，其特征在于，包括存储器和处理器；所述存储器用于储存有可执行程序代码；所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1-9中任意一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-9中任一项所述的方法。

13.一种语音数据的处理设备，其特征在于，包括：处理器和多个麦克风；其中，

所述多个麦克风，用于采集多路语音数据；

所述处理器，与所述多个麦克风通信连接，用于接收所述多个麦克风采集的多路语音数据，对所述多路语音数据进行时域对齐处理，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据，其中，语音数据的类型包括主音和串扰音。

14.一种语音数据的处理系统，其特征在于，包括：前端语音采集设备和后端语音处理设备；其中，

所述前端语音采集设备，用于采集多路语音数据，将采集到的多路语音数据发送至所述后端语音处理设备进行处理，并接收所述后端语音处理设备针对所述多路语音数据的处理结果；

所述后端语音处理设备，用于接收所述前端语音采集设备采集的多路语音数据，对所述多路语音数据进行时域对齐处理，在时域对齐处理后的多路语音数据中，确定每路语音数据与其它路语音数据之间的相关性、每路语音数据的信噪比，并根据每路语音数据与其它路语音数据之间的相关性和/或每路语音数据的信噪比，确定每路语音数据的类型，保留类型为主音的语音数据，去除类型为串扰音的语音数据，将保留的语音数据作为处理结果发送至所述前端语音采集设备，其中，语音数据的类型包括主音和串扰音。

15.根据权利要求14所述的系统，其特征在于，所述后端语音处理设备部署在云服务器中。