CN112382306A

CN112382306A - 分离说话人音频的方法及装置

Info

Publication number: CN112382306A
Application number: CN202011401496.5A
Authority: CN
Inventors: 邹兴旺; 周强
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-02-19
Anticipated expiration: 2040-12-02
Also published as: CN112382306B

Abstract

本发明公开一种分离说话人音频的方法及装置。在该方法中，音频采集设备获取音频数据集；确定所述音频数据集中各个音频数据所对应的声源角度；根据所述音频数据的声源角度，从所述音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集，其中所述第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。由此，在前端区分不同说话人的音频数据，无需后台设备进行特征相似度比对处理，可以降低后台设备的处理压力，能够在大范围业务场景下适用。

Description

分离说话人音频的方法及装置

技术领域

本发明属于互联网技术领域，尤其涉及一种分离说话人音频的方法及装置。

背景技术

近年来，基于语音的信息处理技术得到了迅猛的发展并具有广泛的应用。其中比较重要的是基于语音对说话人进行识别的技术，这被称为说话人识别，从而得到与说话人身份相匹配的音频数据。例如，说话人识别可应用于对说话人的身份进行确认的场合，如法院审理、远程金融服务、安保，语音检索、反恐、军事等领域亦有应用。

目前，通常会对说话人的音频进行采集，并识别所采集音频中的说话人的声纹特征，从而得到相应的说话人的身份。然而，如果是在噪声环境中，则会导致声纹特征的提取难度增大。另外，声纹识别说话人技术主要通过对样本进行相似度比对从而识别出相应的说话人，而针对同一音轨的两个不同说话人，无法准确分离。此外，声纹特征的识别和匹配过程需要较大的计算难度和强度，对服务器处理设备会造成较大的压力，无法适用于大范围应用下的场景。

针对上述问题，目前业界暂时并未提供较佳的解决方案。

发明内容

本发明实施例提供一种分离说话人音频的方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种分离说话人音频的方法，应用于音频采集设备，所述方法包括：获取音频数据集；确定所述音频数据集中各个音频数据所对应的声源角度；根据所述音频数据的声源角度，从所述音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集，其中所述第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。

第二方面，本发明实施例提供一种分离说话人音频的装置，包括：音频数据集获取单元，被配置为获取音频数据集；声源角度确定单元，被配置为确定所述音频数据集中各个音频数据所对应的声源角度；音频数据子集筛选单元，被配置为根据所述音频数据的声源角度，从所述音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集，其中所述第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：

在获得说话人的音频数据集之后，音频采集设备可以确定各个音频数据所对应的声源角度，并根据声源角度来筛选第一音频数据子集和第二音频数据子集。由此，在音源采集端可以完成针对音频数据的筛选操作，可以区分对应不同角度方向的音源(例如，说话人)所产生的音频数据，无需在后台设备(例如，服务器)基于声源特征进行特征相似度比对处理，可以降低后台设备的处理压力，能够在大范围业务场景下适用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的分离说话人音频的方法的一示例的流程图；

图2示出了根据本发明实施例的确定音频数据所对应的声源角度的一示例的流程图；

图3示出了根据本发明实施例的分离说话人音频的方法的一示例的流程图；

图4示出了根据本发明实施例的由音频数据子集确定目标音频数据的一示例的流程图；

图5示出了根据本发明实施例的分离在对话场景下的说话人音频的系统的一示例的架构示意图；

图6示出了根据本发明一实施例的分离说话人音频的装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了根据本发明实施例的分离说话人音频的方法的一示例的流程图。关于本发明实施例方法的执行主体，其可以是音频采集设备，例如，麦克风、录音笔，等等。

如图1所示，在步骤110中，音频采集设备获取音频数据集。示例性地，麦克风可以持续采集说话人的声音以生成相应的音频数据，并根据对应设定时间长度所产生的音频数据确定相应的音频数据集。

在步骤120中，音频采集设备确定音频数据集中各个音频数据所对应的声源角度。示例性地，音频采集设备采用各种方式来确定相应的声源角度，例如可以通过在音频采集设备中安装已知的或潜在的声源定位模块，从而确定相应的声源角度。

在步骤130中，音频采集设备根据音频数据的声源角度，从音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集。这里，第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。

具体地，第一设定角度范围可以表示第一说话人所在的音源位置，第二设定角度范围可以表示第二说话人所在的音频位置。结合应用场景来说，音频采集设备可以是可穿戴设备，第一说话人可以将音频采集设备佩戴在胸前，并以此与第二说话人进行交流，相应地，第一设定角度范围可以表示在麦克风上方的设定角度范围(例如，±30°)，第二设定角度范围可以表示在麦克风前方的设定角度范围。

通过本发明实施例，从一个全新的技术角度来对不同说话人的音频数据进行处理，使得在音频采集端就可以利用音源角度来区分不同说话人的音频数据，无需后端处理设备(例如，服务器)进行特征识别操作，降低了后端处理设备的处理负担。

在本发明实施例的一些示例，音频采集设备包括多个音频采集模块，例如音频采集设备可以是麦克风序列，可以优化所采集的音频数据的质量。

图2示出了根据本发明实施例的确定音频数据所对应的声源角度的一示例的流程图。

如图2所示，在步骤210中，音频采集设备确定多个音频采集模块分别针对同一声源的第一音频数据的数据采集时间。

需说明的是，音频采集设备中的各个音频采集模块可以分别被安排在特定位置，而存在相应的相对位置关系，例如音频采集设备可以采用T型麦克风阵列。这样，由于设置位置的偏差，使得同一声源发出的声音到达不同的音频采集模块的时间会存在差异。

在步骤220中，音频采集设备根据各个音频采集模块的相对位置关系和数据采集时间，确定声源针对音频采集设备的相对位置信息，以得到第一音频数据所对应的声源角度。示例性地，利用不同的音频采集模块的数据采集时间的时间差和相对位置关系进行计算，从而确定相应的声源角度。

示例性地，通过可穿戴录音笔设备的麦克风阵列结构，固定拾音的角度，通过声学的方式实现音频的分离。

通过本发明实施例，利用音频采集设备中不同音频采集模块之间的相对位置信息和音频采集时间，可以简单、有效地得到较精确的声源角度。

图3示出了根据本发明实施例的分离说话人音频的方法的一示例的流程图。关于本发明实施例方法的执行主体，其可以是计算终端，例如与音频采集设备连接，并对所采集的数据进行优化处理。

如图3所示，在步骤310中，计算终端从音频采集设备接收第一音频数据子集和第二音频数据子集。这里，第一音频数据子集是对应声源角度在第一设定角度范围内的音频数据，第二音频数据子集是对应声源角度在第二设定角度范围内的音频数据，例如音频采集设备可以通过如图1和2的操作流程来得到相应的第一音频数据子集和第二音频数据子集。

在步骤320中，计算终端根据第一音频数据子集和第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据。在本发明实施例的一个示例中，可以直接将第一音频数据子集确定为第一说话人的目标音频数据，并直接将第二音频数据确定为第二说话人的目标音频数据。在本发明实施例的另一示例中，还可以将第一音频数据子集进行优化处理而得到相应的第一说话人的目标语音数据，并将第二音频数据进行优化处理而得到相应的第二说话人的目标语音数据。

图4示出了根据本发明实施例的由音频数据子集确定目标音频数据的一示例的流程图。

如图4所示，在步骤410中，计算终端获取各个音频数据所对应的数据采集时间和声强信息。

在步骤420中，计算终端在第一音频数据子集和第二音频数据子集中，基于声强信息筛除对应相同的数据采集时间的第一音频数据或第二音频数据。示例性地，可以滤除第一音频数据和第二音频数据中对应声强信息较小的音频数据。

在步骤430中，计算终端根据经筛除的第一音频数据子集和第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据。

应理解的是，在一般的对话应用场景下，一个人在说话而另一个人在听，双方交替说话而完成交谈过程。通过本发明实施例，利用声强信息，可以将第一音频数据或第二音频数据进行筛除，保留主要说话人的音频数据，可以降低音频数据整体的数据量，降低后期针对音频数据分析(例如，语音文本转换操作)的工作量。

通过本发明实施例，计算终端可以根据同一时间轴的声音信息进行计算处理，抹掉非角度范围内的声源信号，从而达到人声分离的效果。

在本发明实施例的一些示例中，针对第一音频数据子集和第二音频数据子集中的各个音频数据进行滤波处理，并根据经滤波处理的第一音频数据子集和第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据。具体地，可以将由在第一设定角度范围和第二设定角度范围之外的音源(或，也可以被称为散射音源)所产生的音频数据进行滤除，从而生成相应的目标音频数据。优选地，还可以将在第一设定角度范围和第二设定角度范围内的直射音源所产生的音频数据进行增强处理。

通过本发明实施例，可以有效消除音频数据中的噪音分量，保障第一目标音频数据和第二目标音频数据能够具有较高的质量。

在本发明实施例的一些示例中，计算终端还可以发送第一目标音频数据和第二目标音频数据至云端服务器，以使得云端服务器针对第一目标音频数据和第二目标音频数据进行对话业务分析。具体地，云端服务器可以对目标音频数据进行语音识别而确定相应的对话内容，并对对话内容按照预设的评价标准进行分析，从而确定相应的业务评价指标。

结合应用场景来说，第一说话人可以是商家服务员，第二说话人可以是商家顾客，通过对第一目标音频数据和第二目标音频数据的内容进行分析，可以得到顾客对商家服务的满意度信息。

图5示出了根据本发明实施例的分离在对话场景下的说话人音频的系统的一示例的架构示意图。

如图5所示，系统包括音频采集设备510和计算终端520。具体地，音频采集设备510可以采用由4个麦克风所采集的倒T型麦阵结构，并利用麦克风阵列来采集相应的4路原始音频数据，例如用户可以佩戴录音笔(可以以胸牌形式)，在录音笔上麦克风传感器可以是一个阵列。进而，音频采集设备510可以增强垂直向上角度和水平向前角度范围内的音频，同时抑制非角度内的音频，进而可以缓存近场和远场的2路音频数据，近场的音频数据可以被确定为对应商家服务员的音频数据，远场的音频数据可以被确定为对应顾客的音频数据。

在音频采集设备510中，可以将近场音频数据和远场音频数据进行缓存，并在缓存文件中保留相应的声场信息，以供计算终端二次处理比对和参考。音频采集设备510可以将音频文件发送至计算终端520，例如通过诸如USB连接的有线方式或诸如蓝牙连接的无线方式进行传输。

在计算终端520中，可以基于远近场的音频和声场信息进行计算处理，并增强角度内直射音频的信号，抹掉角度内的非直射信号。进而，计算终端520可以输出近场、远场2路音频，并将其分别确定为服务员音频、顾客音频。

进一步地，计算终端520还可以对音频文件进行压缩处理，并上传云端对象存储或进行后续数据分析处理。这里，可以采用各种非限制性的数据分析手段。

由此，针对一些服务语音对话场景，例如业务办理柜台、资讯台、餐饮等场景，可以通过此方案清晰准确的采集服务者角色、被服务角色的音频。另外，在音频采集端侧就完成说话人的分离，大大减少云端计算的成本。此外，通过AI语音技术进行数据分析和服务测评，促进企业门店服务数字化的进程，让企业管理更直观，用户反馈更及时，提升服务行业的服务质量。

如图6所示，分离说话人音频的装置600包括音频数据集获取单元610、声源角度确定单元620和音频数据子集筛选单元630。

音频数据集获取单元610被配置为获取音频数据集。

声源角度确定单元620被配置为确定所述音频数据集中各个音频数据所对应的声源角度。

音频数据子集筛选单元630被配置为根据所述音频数据的声源角度，从所述音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集，其中所述第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的分离说话人音频的方法的步骤。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例的网关设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分离说话人音频的方法，应用于音频采集设备，所述方法包括：

获取音频数据集；

确定所述音频数据集中各个音频数据所对应的声源角度；

根据所述音频数据的声源角度，从所述音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集，其中所述第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。

2.根据权利要求1所述的方法，其中，所述音频采集设备包括多个音频采集模块，所述确定所述音频数据集中各个音频数据所对应的声源角度包括：

确定所述多个音频采集模块分别针对同一声源的第一音频数据的数据采集时间；

根据各个所述音频采集模块的相对位置关系和所述数据采集时间，确定所述声源针对所述音频采集设备的相对位置信息，以得到所述第一音频数据所对应的声源角度。

3.根据权利要求1所述的方法，其中，所述音频采集设备为可穿戴设备。

4.一种分离说话人音频的方法，应用于计算终端，所述方法包括：

从音频采集设备接收第一音频数据子集和第二音频数据子集，其中所述第一音频数据子集是对应声源角度在第一设定角度范围内的音频数据，所述第二音频数据子集是对应声源角度在第二设定角度范围内的音频数据；

根据所述第一音频数据子集和所述第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据。

5.根据权利要求4所述的方法，其中，所述根据所述第一音频数据子集和所述第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据，包括：

获取各个音频数据所对应的数据采集时间和声强信息；

在所述第一音频数据子集和所述第二音频数据子集中，基于所述声强信息筛除对应相同的数据采集时间的所述第一音频数据或所述第二音频数据；

根据经筛除的第一音频数据子集和第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据。

6.根据权利要求4所述的方法，其中，所述根据所述第一音频数据子集和所述第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据，包括：

针对所述第一音频数据子集和所述第二音频数据子集中的各个音频数据进行滤波处理；

根据经滤波处理的第一音频数据子集和第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据。

7.根据权利要求4所述的方法，其中，在根据所述第一音频数据子集和所述第二音频数据子集，分别确定对应第一说话人的第一目标音频数据和对应第二说话人的第二目标音频数据之后，所述方法还包括：

发送所述第一目标音频数据和所述第二目标音频数据至云端服务器，以使得所述云端服务器针对所述第一目标音频数据和所述第二目标音频数据进行对话业务分析。

8.一种分离说话人音频的装置，包括：

音频数据集获取单元，被配置为获取音频数据集；

声源角度确定单元，被配置为确定所述音频数据集中各个音频数据所对应的声源角度；

音频数据子集筛选单元，被配置为根据所述音频数据的声源角度，从所述音频数据集中筛选对应声源角度在第一设定角度范围内的第一音频数据子集和对应声源角度在第二设定角度范围内的第二音频数据子集，其中所述第一音频数据子集和所述第二音频子集分别用于确定对应第一说话人和第二说话人的音频数据。

9.一种网关设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。