CN112530452A

CN112530452A - 一种后置滤波补偿方法、装置和系统

Info

Publication number: CN112530452A
Application number: CN202011320330.0A
Authority: CN
Inventors: 牛坤; 赵晓朝; 袁志伟
Original assignee: Beijing Moran Cognitive Technology Co Ltd
Current assignee: Beijing Haiyunjiexun Technology Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-19
Anticipated expiration: 2040-11-23

Abstract

本发明公开了一种后置滤波补偿方法，所述方法包括：音频采集步骤，音频分离步骤，泄露估计步骤，泄露消除步骤和泄露补偿步骤。通过音频分离步骤，处理采集的音频信号分离出两路音频信号音频A和音频B；通过泄露补偿步骤，将所述用户a泄露的部分a'补偿到音频A中得到补偿后的音频A”，以及将所述用户b泄露的部分b'补偿到音频B中得到补偿后的音频B”。通过该方法能够有效提高了语音识别的准确度，提高了多人发声场景中的用户体验。

Description

一种后置滤波补偿方法、装置和系统

技术领域

本发明实施例涉及麦克风阵列算法技术领域，特别涉及一种后置滤波补偿方法、装置和系统。

背景技术

麦克风阵列算法有两大类，一类是波束成形算法，另一类是盲源分离算法。盲源分离最早由Herault和Jutten在1985年提出，指的是从多个观测到的混合信号中分析出没有观测的原始信号。通常观测到的混合信号来自多个传感器的输出，并且传感器的输出信号独立性(线性不相关)。盲源分离是当前较火的技术，相较于传统的阵列算法比如波束成形算法有较大的优势，它无需先求得声源的角度位置信息，可以直接进行语音的分离。同时在多人讲话的时候的优势更加明显，传统信号处理无法处理此类场景。

但是，盲源分离算法也存在一些缺陷，例如盲源分离的结果是混淆的；盲源分离要求输入的信号最多一个是高斯分布；盲源分离无法应对长混响场景；盲源分离需要多次迭代，运算量大，收敛速度慢等等。

这里假设两个人a和b同时说话，采集到的音频为C(如果有2个麦克风,则采集到两路语音信号C1和C2,这里统一代指C)。按照正常的分离会分离出两路音频A和B，而且如果处理效果好则A和B中分别包含两个人的说话声音，假设人a分离到A通道,人b分离到B通道，即语音完全分离。但是实际过程中，通常会有残留和泄漏，即a说话的声音也会有部分泄漏到B通道，b说话的人声也会泄漏到A通道，这样会对效果产生较大影响。基于现有技术中的上述问题，本发明提出了一种后置滤波和补偿的方法，基于盲源分离算法进行处理，获得比波束成形算法更好的效果，又能够克服盲源分离算法中的上述问题。

发明内容

针对现有技术中的问题，本发明提供一种后置滤波补偿方法，该方法基于盲源分离算法，所述方法包括以下步骤：

音频采集步骤，对同时发声的用户a和用户b进行音频采集；

音频分离步骤，处理采集的音频信号分离出两路音频信号音频A和音频B，其中音频A对应于用户a，音频B对应于用户b；

泄露估计步骤，估计并保存音频A中由用户b泄露的部分b'和音频B中由用户a泄露的部分a'；

泄露消除步骤，消除音频A中由用户B泄露的部分b'得到A'，消除音频B 中的由用户A泄露的部分a'得到B'；

泄露补偿步骤，将所述用户a泄露的部分a'补偿到音频A'中得到补偿后的音频A″，以及将所述用户b泄露的部分b'补偿到音频B'中得到补偿后的音频B″，将音频A″作为用户a的音频信号，将音频B″作为用户b的音频信号。

进一步的，所述音频采集步骤前还包括：预先针对每个人生成包括位置信息和注册声纹信息的二元组，n个二元组组成二元组集合 T＝{T₁,T₂,T₃,……,T_n-1,T_n}＝{(L₁,S₁),(L₂,S₂)(L₃,S₃),……,(L_n-1,S_n-1),(L_n,S_n)}，其中，所述n为所述用户a和用户b所处的会话环境中发声的总人数，所述T_n表示第 n个人对应的二元组，所述L_n表示第n个人的位置信息，所述S_n表示第n个人的注册声纹信息。

优选的，在所述音频分离步骤中，通过盲源分离算法处理采集的音频信号，分离出两路音频信号音频A和音频B。

优选的，从分离出的n路音频信息中选择判定VAD有效的2路音频进行识别，根据获得的声源定位和声纹信息与所述二元组集合T的n个二元组元素进行匹配度打分，确定匹配度分值最高的二元组为所述音频信号二元组信息。

优选的，在所述泄露消除步骤，通过后置滤波消除方法消除音频A中由用户B泄露的部分b'和音频B中的由用户A泄露的部分a'。

本发明还提供一种后置滤波补偿装置，所述装置基于盲源分离算法，所述装置包括：

音频采集模块，用于对同时发声的用户a和用户b进行音频采集；

音频分离模块，用于处理采集的音频信号分离出两路音频信号音频A和音频B，其中音频A对应于用户a，音频B对应于用户b；

泄露估计模块，用于估计并保存音频A中由用户b泄露的部分b'和音频B 中由用户a泄露的部分a'；

泄露消除模块，用于消除音频A中由用户B泄露的部分b'得到A'，消除音频B中的由用户A泄露的部分a'得到B'；

泄露补偿模块，用于将所述用户a泄露的部分a'补偿到音频A'中得到补偿后的音频A″，以及将所述用户b泄露的部分b'补偿到音频B'中得到补偿后的音频B″，将音频A″作为用户a的音频信号，将音频B″作为用户b的音频信号。

进一步的，所述装置还包括二元组生成模块，用于预先针对每个人生成包括位置信息和注册声纹信息的二元组，n个二元组组成二元组集合 T＝{T₁,T₂,T₃,……,T_n-1,T_n}＝{(L₁,S₁),(L₂,S₂)(L₃,S₃),……,(L_n-1,S_n-1),(L_n,S_n)}，其中，所述n为所述用户a和用户b所处的会话环境中发声的总人数，所述T_n表示第 n个人对应的二元组，所述L_n表示第n个人的位置信息，所述S_n表示第n个人的注册声纹信息。

优选的，所述音频分离模块通过盲源分离算法处理采集的音频信号，分离出两路音频信号音频A和音频B。

优选的，所述音频分离模块从分离出的n路音频信息中选择判定VAD有效的2路音频进行识别，根据获得的声源定位和声纹信息与所述二元组集合T的n 个二元组元素进行匹配度打分，确定匹配度分值最高的二元组为所述音频信号二元组信息。

优选的，所述泄露消除模块还用于通过后置滤波消除方法消除音频A中由用户B泄露的部分b'和音频B中的由用户A泄露的部分a'。

本发明还提供一种后置滤波补偿装置，所述后置滤波补偿装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种后置滤波补偿系统，所述后置滤波补偿系统包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如前所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如前所述的方法。

本发明还提供一种后置滤波补偿系统，所述系统包括：如前所述的后置滤波补偿装置。

本发明的后置滤波补偿方法、装置和系统，通过对传统的声源定位和波束成型方案进行改进，有效对多人同时讲话的音频进行区分。并且通过对泄露信息的过滤和补偿，有效提高了语音识别的准确度，提高了多人发声场景(例如，实时转录系统)中的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的后置滤波补偿方法流程图。

图2是本发明另一个实施例中的后置滤波补偿装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。以下结合具体实施例对本发明的方法和装置进行具体描述。

实施例一

本发明实施例提供一种后置滤波补偿方法，该方法基于盲源分离算法，如图1所示，所述方法包括以下步骤：

音频采集步骤，对同时发声的用户a和用户b进行音频采集；

优选的，所述泄露估计步骤中，所述泄漏估计采用分离后的音频信号A和音频信号B的相关系数确认对应的泄漏估计向量lemdaA和lemdaB,进而确认音频信号A和音频信号B相互的泄漏量a'和b'。

优选的，所述泄漏消除步骤中，所述泄露消除采用 MMSE(Minimum mean squareerror)优化准则进行残留的信号消除。

实际生活中，两个交流发声的场景非常常见，例如，医生问诊时医生和病人的对话，商超咨询或结账时购买者和商超店员的对话，银行柜台办理业务时用户和银行柜员的对话，或者4S店中消费者和汽车销售代理的对话等等。

多人交流发声的场景也非常常见，例如会议就是典型的多人交流发声的场景。本实施例的会议指的是具有实时转录功能的会议系统，也即屏幕上能够显示发言人以及文字显示其发言内容。

为了对说话人进行定位，传统的做法通常是先通过角度定位，对声源的位置做语音增强，然后对增强后的语音信号进行声纹的判别。这种方法的一个最大的缺陷是声纹准确度不高，当某一方向上存在多人时，无法准确的区分出具体是哪个人在讲话。另外，基于传统的声源定位和波束成形的方案，在多人同时讲话的时候也无法有效进行区分。

所述音频分离步骤具体为，预先设定每个人的角度信息和注册声纹信息，生成二元组集合T＝{T₁,T₂,T₃,……,T_n-1,T_n}＝{(L₁,S₁),(L₂,S₂)(L₃,S₃),……,(L_n-1, S_n-1),(L_n,S_n)}，结合盲源分离算法处理采集的音频信号，分离出两路音频信号音频A和音频B。

根据本实施例的方法，对于有n个人参加的会议，由于会议过程中人员是固定位置，会议开始时，根据会议人员通过预先设定每个人的角度信息和注册声纹信息，生成一个二元组集合T， T＝{T₁,T₂,T₃,……,T_n-1,T_n}＝{(L₁,S₁),(L₂,S₂)(L₃,S₃),……,(L_n-1,S_n-1),(L_n,S_n)},其中， n表示n个人，T_n表示第n个人对应的二元组，L_n表示第n个人的位置信息， S_n表示第n个人的注册声纹信息，所述位置信息可以具体为第n个人和音频采集装置的角度信息。所述每个二元组还对应一个人的唯一的信息，具体为ID或者姓名或者编号。

在实际会议转录过程中，根据所述二元组集合T对会议中的音频进行识别。预先设定音频处理路数为m，优选的所述m＝n，也即m为参加会议的人数， m<n时，为音频处理路数小于参加会议人数的情况，例如同一方向上前后坐了两个人。当单人说话时，某一路(例如第i路)为实际说话人的音频，其他m-1 路音频为空，对所述第i路实际说话人的音频进行VAD(Voice Activity Detection，语音端点检测技术)判断，优选的，根据语音的时域或频域特征进行处理。所述VAD判断包括以下处理步骤中的至少一个：(1)从带有噪声的语音中准确的定位出语音的开始和结束点，判断有音频的内容；(2)去掉语音中的静音成分，获取输入语音中有效语音；(3)去除噪声，对语音进行增强。然后，针对VAD 判断后的音频内容进行ASR(Automatic Speech Recognition,自动语音识别技术) 识别，通过识别和理解过程把VAD处理后的音频内容转变为文本。

优选的，在VAD判断中结合声源定位和声纹信息的打分高低进行综合判断, 确定最终的说话人信息。具体的，根据VAD判断获得的声源定位和声纹信息与所述二元组集合T的n个二元组元素进行匹配度打分，匹配度高的打分高，匹配度低的打分低，确定匹配度最高的二元组为所述音频信号二元组信息，进而得到说话人信息。

进一步的，在所述在实际会议过程中，当换另一个人说话时,这时分离的音频会切换到另外一路(例如从所述i路切换到j路，i和j的取值均为1～m)，也即当分离的音频发生路数切换时，可以确定为发生了说话人的切换，同样重复上述VAD判断，再根据角度定位信息和声纹信息综合得到该说话人的信息。

更进一步的，在所述在实际会议过程中，当多人同时说话时，由于在常规的会议场景中，一般不会有多人同时进行有效发言，因此，所述多人同时说话假设为2个人同时说话。此时，通过分离出相应人的信息，判定VAD有效的2 路音频进行识别。再结合声纹和声源定位信息判断两个人的信息。优选的，所述音频分离步骤中处理采集的音频信号分离出两路音频信号音频A和音频B，具体为：预先设定每个人的位置信息和注册声纹信息，生成二元组集合T，从分离出的n路音频信息中选择判定VAD有效的2路音频进行识别，结合声源定位信息和声纹确定两个人的信息。

实施例二

本发明实施例提供一种后置滤波补偿装置，如图2所示，所述装置基于盲源分离算法，所述装置包括：

进一步的，所述装置还包括二元组生成模块，用于预先针对每个人生成包括位置信息和注册声纹信息的二元组，n个二元组组成二元组集合，其中，所述 n为所述用户a和用户b所处的会话环境中发声的总人数。

优选的，所述音频分离模块从分离出的n路音频信息中选择判定VAD有效的2路音频进行识别，结合声源定位信息和声纹确定两个人的信息。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

1.泄漏估计采用分离后的a和b信号的相关系数确认对应的泄漏估计向量lemdaA和lemdaB,进而确认信号a和b相互的泄漏量a'和b'。

Claims

1.一种后置滤波补偿方法，该方法基于盲源分离算法，其特征在于，所述方法包括以下步骤：

音频采集步骤，对同时发声的用户a和用户b进行音频采集；

泄露消除步骤，消除音频A中由用户B泄露的部分b'得到A'，消除音频B中的由用户A泄露的部分a'得到B'；

泄露补偿步骤，将所述用户a泄露的部分a'补偿到音频A'中得到补偿后的音频A”，以及将所述用户b泄露的部分b'补偿到音频B'中得到补偿后的音频B”，将音频A”作为用户a的音频信号，将音频B”作为用户b的音频信号。

2.如权利要求1所述的后置滤波补偿方法，其特征在于，所述音频采集步骤前还包括：预先针对每个人生成包括位置信息和注册声纹信息的二元组，n个二元组组成二元组集合T＝{T₁,T₂,T₃,……,T_n-1,T_n}＝{(L₁,S₁),(L₂,S₂)(L₃,S₃),……,(L_n-1,S_n-1),(L_n,S_n)}，其中，所述n为所述用户a和用户b所处的会话环境中发声的总人数，所述T_n表示第n个人对应的二元组，所述L_n表示第n个人的位置信息，所述S_n表示第n个人的注册声纹信息。

3.如权利要求1或2所述的后置滤波补偿方法，其特征在于，在所述音频分离步骤中，通过盲源分离算法处理采集的音频信号，分离出两路音频信号音频A和音频B。

4.如权利要求2所述的后置滤波补偿方法，其特征在于，从分离出的n路音频信息中选择判定VAD有效的2路音频进行识别，根据获得的声源定位和声纹信息与所述二元组集合T的n个二元组元素进行匹配度打分，确定匹配度分值最高的二元组为所述音频信号二元组信息。

5.如权利要求1-4任一项所述的后置滤波补偿方法，其特征在于，在所述泄露消除步骤，通过后置滤波消除方法消除音频A中由用户B泄露的部分b'和音频B中的由用户A泄露的部分a'。

6.一种后置滤波补偿装置，所述装置基于盲源分离算法，其特征在于，所述装置包括：

泄露估计模块，用于估计并保存音频A中由用户b泄露的部分b'和音频B中由用户a泄露的部分a'；

泄露补偿模块，用于将所述用户a泄露的部分a'补偿到音频A'中得到补偿后的音频A”，以及将所述用户b泄露的部分b'补偿到音频B'中得到补偿后的音频B”，将音频A”作为用户a的音频信号，将音频B”作为用户b的音频信号。

7.如权利要求6所述的后置滤波补偿装置，其特征在于，所述装置还包括二元组生成模块，用于预先针对每个人生成包括位置信息和注册声纹信息的二元组，n个二元组组成二元组集合T＝{T₁,T₂,T₃,……,T_n-1,T_n}＝{(L₁,S₁),(L₂,S₂)(L₃,S₃),……,(L_n-1,S_n-1),(L_n,S_n)}，其中，所述n为所述用户a和用户b所处的会话环境中发声的总人数，所述T_n表示第n个人对应的二元组，所述L_n表示第n个人的位置信息，所述S_n表示第n个人的注册声纹信息。

8.如权利要求6或7所述的后置滤波补偿装置，其特征在于，所述音频分离模块，通过盲源分离算法处理采集的音频信号，分离出两路音频信号音频A和音频B。

9.如权利要求7所述的后置滤波补偿装置，其特征在于，所述音频分离模块从分离出的n路音频信息中选择判定VAD有效的2路音频进行识别，根据获得的声源定位和声纹信息与所述二元组集合T的n个二元组元素进行匹配度打分，确定匹配度分值最高的二元组为所述音频信号二元组信息。

10.如权利要求6-9任一项所述的后置滤波补偿装置，其特征在于，所述泄露消除模块还用于通过后置滤波消除方法消除音频A中由用户B泄露的部分b'和音频B中的由用户A泄露的部分a'。