CN112562718A

CN112562718A - 基于topk多路音源有效信号筛选系统及方法

Info

Publication number: CN112562718A
Application number: CN202011372222.8A
Authority: CN
Inventors: 陶亚雄; 王彬
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-26

Abstract

本发明涉及通信技术领域，具体涉及一种基于TOPK多路音源有效信号筛选系统，包括：输入单元，用于输入N路语音与N路背景声音所形成的混音；预判单元，用于采用VAD算法对各路语音逐个进行预判；分级单元，用于对VAD值为1的语音，采用AMDF算法将语音信号依次分为1～10级，并进行赋值；筛选单元，用于按设定的缓存量对各时刻的N路缓存信号，筛选出M路最强信号；纠错单元，用于利用信号相关性，采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号；输出模块，用于输出补齐后的M路最强信号。本发明结合VAD算法、AMDF算法和FEC算法，解决了现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号的技术问题。

Description

基于TOPK多路音源有效信号筛选系统及方法

技术领域

本发明涉及通信技术领域，具体涉及一种基于TOPK多路音源有效信号筛选系统及方法。

背景技术

随着移动智能设备的广泛应用以及技术的不断发展，语音逐渐成为人机交互的手段。但是，实际的环境中会存在各种声音源，不同声音源发出的声音会相互干扰，形成多路音源，从而影响用户的体验。因此，有必要采取必要的措施对多路音源进行筛选，挑选出有效的声音信号，如TOPK，也即排序算法进行挑选。

比如说，专利CN106484833A公开了一种音源筛选方法，包括步骤：获得音频播放设备传输来的用于搜索音频文件的至少一个搜索信息；基于至少一个搜索信息，获得M个音源，M为大于零的整数；从M个音源中获取N个音频文件，N为大于等于M的整数；从N个音频文件中确定出符合预设音频质量的K个音频文件，K为小于等于M的正整数；将K个音频文件的相关信息发送给音频播放设备。通过这样的方式，但能够对有效语音信号进行检测，将有效语音信号与噪声干扰信号进行区分。

但是对于直播教学而言，通常包含多人参与的互动讨论环节，具有多个参与者，从而形成多路音源。当每个参与者都在说话时，各路终端将会采集到多路语音及多路背景声，导致参与者接收到的会是多路语音与多路背景声形成的混音，而上述技术方案主要是针对单人或者双人说话的场景。也即，现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号。

发明内容

本发明提供一种基于TOPK多路音源有效信号筛选系统，解决了现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号的技术问题。

本发明提供的基础方案为：基于TOPK多路音源有效信号筛选系统，包括：

输入单元，用于输入N路语音与N路背景声音所形成的混音；

预判单元，用于采用VAD算法对各路语音逐个进行预判：若语音正常，VAD值为1；若语音输出状态不确定，VAD值为0；若语音无输出，VAD值为—1；

分级单元，用于对VAD值为1的语音，采用AMDF算法将语音信号依次分为1～10级，并进行赋值；

筛选单元，用于接收N路语音信号，按设定的缓存量对各时刻的N路缓存信号，筛选出M路最强信号；

纠错单元，用于利用信号相关性，采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号；

输出模块，用于输出补齐后的M路最强信号。

本发明的工作原理及优点在于：多路音源为N路语音与N路背景声音所形成的混音，为了筛选出M路有效信号，首先，采用VAD算法，也即语音端点检测算法，对各路语音逐个进行预判，挑选出语音正常，也即VAD值为1的语音，VAD算法能够从纯净或者带噪声的语音信号中标识出语音片段与非语音片段，从而在远场语音交互场景中检测到语音。然后，采用AMDF算法，也即平均幅度差函数，将VAD值为1的语音分级并进行赋值，并按照设定的缓存量对各时刻的N路缓存信号筛选出M路最强信号。最后，采用FEC算法，也即前向纠错算法，补齐M路最强信号因时延而导致丢失的前端语音信号，即可得到M路有效信号。通过这样的方式，在直播教学过程中，能够从多路语音与多路背景声形成的混音中分离并筛选出有效信号。

本发明结合VAD算法、AMDF算法和FEC算法，解决了现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号的技术问题。

进一步，纠错单元还用于对M路最强信号逐个进行声纹识别，保留与预设声纹特征符合的最强信号，删除与预设声纹特征不符合的最强信号。

有益效果在于：声纹是用电声学仪器显示的携带言语信息的声波频谱，具有特定性和相对稳定性，通过这样的方式，预先设置N个参与者的声纹特征，可以准确地对M路最强信号进行识别，从而去除杂音。

进一步，纠错单元还用于对M路最强信号逐个进行小波分解，得到小波信号序列，并根据小波信号序列得到有效语音信号。

有益效果在于：在高信噪比的情况下，语音信号部分的能量要比噪声信号部分的能量大得多，但在低信噪比的情况下，噪声信号的能量较大，这会干扰对信号的检测，通过这样的方式，可以避免将噪声误检为有效语音信号，从而提高了对有效语音信号的检测的准确性。

进一步，根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值，将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。

有益效果在于：通过这样的方式，采集小波信号序列中所有样点的能量信息后，再根据小波信号序列的能量分布情况，对有效语音信号进行判断检测，有利于提高有效语音信号检测的准确性。

进一步，纠错单元还用于对M路最强信号进行前期处理，包括预加重处理，加窗处理和端点检测。

有益效果在于：考虑到声纹识别的外部噪声和参与者自身发声的不稳定因素，通过这样的方式，有利于保证声纹识别的灵敏性。

本发明还提供一种基于TOPK多路音源有效信号筛选方法，包括步骤：

S1、输入N路语音与N路背景声音所形成的混音；

S2、采用VAD算法对各路语音逐个进行预判：若语音正常，VAD值为1；若语音输出状态不确定，VAD值为0；若语音无输出，VAD值为—1；

S3、对VAD值为1的语音，采用AMDF算法将语音信号依次分为1～10级，并进行赋值；

S4、接收N路语音信号，按设定的缓存量对各时刻的N路缓存信号，筛选出M路最强信号；

S5、利用信号相关性，采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号；

S6、输出补齐后的M路最强信号。

本发明的工作原理及优点在于：首先，采用VAD算法对各路语音逐个进行预判，挑选出语音正常，也即VAD值为1的语音，VAD算法能够从纯净或者带噪声的语音信号中标识出语音片段与非语音片段，从而在远场语音交互场景中检测到语音。然后，采用AMDF算法，也即平均幅度差函数，将VAD值为1的语音分级，并按照设定的缓存量对各时刻的N路缓存信号筛选出M路最强信号。最后，采用FEC算法，也即前向纠错算法，补齐M路最强信号因时延而导致丢失的前端语音信号，即可得到M路有效信号。通过这样的方式，在直播教学过程中，能够从多路语音与多路背景声形成的混音中分离并筛选出有效信号。

进一步，S5中，还对M路最强信号逐个进行声纹识别，保留与预设声纹特征符合的最强信号，删除与预设声纹特征不符合的最强信号。

有益效果在于：预先设置N个参与者的声纹特征，可以准确地对M路最强信号进行识别，从而去除杂音。

进一步，S5中，还对M路最强信号逐个进行小波分解，得到小波信号序列，并根据小波信号序列得到有效语音信号。

有益效果在于：在低信噪比的情况下，噪声信号的能量较大，这样可以避免将噪声误检为有效语音信号，从而提高对有效语音信号的检测的准确性。

有益效果在于：采集小波信号序列中所有样点的能量信息后，再根据小波信号序列的能量分布情况，对有效语音信号进行判断检测，有利于提高有效语音信号检测的准确性。

进一步，S5中，还对M路最强信号进行前期处理，包括预加重处理，加窗处理和端点检测。

有益效果在于：通过这样的方式，有利于保证声纹识别的灵敏性，同时还可以降低算法的复杂性。

附图说明

图1为本发明基于TOPK多路音源有效信号筛选系统实施例的系统结构框图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例1

实施例基本如附图1所示：包括：

输入单元，用于输入N路语音与N路背景声音所形成的混音；

输出模块，用于输出补齐后的M路最强信号。

在本实施例中，输入单元为麦克风，预判单元、分级单元、筛选单元和纠错单元集成在服务器上，通过软件/程序/代码实现其功能，输出单元为扬声器，麦克风与扬声器均与服务器连接。

具体实施过程如下：

S1、输入N路语音与N路背景声音所形成的混音。

在本实施例中，在直播教学的多人参与的互动讨论环节，具有N参与者，从而形成N路音源。具体而言，当每个参与者都在说话时，每个参与者都会形成一路音源，每路音源都包含参与者说话的语音以及说话时的背景声，从而使得麦克风采集到的是N路语音与N路背景声形成的混音。

S2、采用VAD算法对各路语音逐个进行预判。

当N路语音与N路背景声形成的混音采集完毕后，将其输入到服务器，由预判单元采用VAD算法对N路语音逐个进行预判，也即，逐个判断N路语音中是否有语音输出，并计算VAD值。比如说，对第K(1≤K≤N)路语音而言，若语音正常，VAD值为1；若语音输出状态不确定，VAD值为0；若语音无输出，VAD值为—1。

S3、对VAD值为1的语音，采用AMDF算法将语音信号依次分为1～10级，并进行赋值。

当N路语音的VAD值均被计算完毕后，对于VAD值为1的语音而言，分级单元采用AMDF算法逐一将语音信号依次分为1～10级，并进行赋值。比如说，对第K(1≤K≤N)路语音而言，分级的结果为语音信号为4级。

S4、接收N路语音信号，按设定的缓存量对各时刻的N路缓存信号，筛选出M路最强信号。

当分级完毕后，筛选单元接收N路语音信号，按设定的缓存量对各时刻的N路缓存信号，筛选出M路最强信号，也即筛选出语音信号级别最高的M路信号，其中，M≤N。

S5、利用信号相关性，采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号。

由于时延的缘故，M路最强信号可能会丢失前端语音信号，因此，M路最强信号被筛选出来以后，纠错单元采用FEC算法逐一补齐M路最强信号因时延导致丢失的前端语音信号。

S6、输出补齐后的M路最强信号。

最后，扬声器输出或者播放补齐后的M路最强的语音。

实施例2

与实施例1不同之处仅在于，在S5中，纠错单元先对M路最强信号进行前期处理，包括预加重处理，加窗处理和端点检测，然后对M路最强信号逐个进行声纹识别，保留与预设声纹特征符合的最强信号，删除与预设声纹特征不符合的最强信号，从而去除杂音。

最后，对M路最强信号逐个进行小波分解，得到小波信号序列，并根据小波信号序列得到有效语音信号。具体而言，针对M个最强信号，逐个对其中的音频帧信号进行小波分解，从而得到与每个音频帧信号对应的多个小波分解信号，每个小波分解信号中包含多个样点以及每个样点的音频强度值；按照音频帧信号在其最强信号中的分帧顺序，将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列，并获取小波信号序列中所有样点的音频强度值中的最大值和最小值，根据最大值和最小值确定音频强度阈值，比如说，音频强度阈值＝(最大值+最小值)/2。获取小波信号序列中音频强度值大于音频强度阈值的样点，将小波信号序列中音频强度值大于音频强度阈值的样点在其最强信号中对应样点的信号确定为有效语音信号。

实施例3

与实施例2不同之处仅在于，在对多路音源进行分类之前，先对多路语音进行补齐处理。具体而言，服务器上预先储存有与课堂直播教学相关的文字语料库，当网络信号不好的时候，语音信号可能会出现间断的情况，从而缺失掉部分语音信号，这时候就需要对缺失的语音信号进行补齐。

首先，当网络信号不好的时候，将间断的语音信号的前、后部分语音信号提取出来，并将其转换为文字，通过语义识别算法并结合文字语料库，对缺失的语音信号进行对应的文字内容填补。也即，根据语义理解填入缺失的语音信号对应的文字内容，并将该文字内容转换为语音信号，从实现对间断的语音信号的补齐。

然后，当网络信号良好的时候，对录制的整个直播过程进行回放，人工对补齐的语音信号进行核实，如果核实通过，则不对补齐的语音信号做任何修改；反之，如果核实不通过，则人工对补齐的语音信号进行修改。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于TOPK多路音源有效信号筛选系统，其特征在于，包括：

输入单元，用于输入N路语音与N路背景声音所形成的混音；

输出模块，用于输出补齐后的M路最强信号。

2.如权利要求1所述的基于TOPK多路音源有效信号筛选系统，其特征在于，纠错单元还用于对M路最强信号逐个进行声纹识别，保留与预设声纹特征符合的最强信号，删除与预设声纹特征不符合的最强信号。

3.如权利要求2所述的基于TOPK多路音源有效信号筛选系统，其特征在于，纠错单元还用于对M路最强信号逐个进行小波分解，得到小波信号序列，并根据小波信号序列得到有效语音信号。

4.如权利要求3所述的基于TOPK多路音源有效信号筛选系统，其特征在于，根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值，将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。

5.如权利要求4所述的基于TOPK多路音源有效信号筛选系统，其特征在于，纠错单元还用于对M路最强信号进行前期处理，包括预加重处理，加窗处理和端点检测。

6.基于TOPK多路音源有效信号筛选方法，其特征在于，包括步骤：

S1、输入N路语音与N路背景声音所形成的混音；

S6、输出补齐后的M路最强信号。

7.如权利要求6所述的基于TOPK多路音源有效信号筛选方法，其特征在于，S5中，还对M路最强信号逐个进行声纹识别，保留与预设声纹特征符合的最强信号，删除与预设声纹特征不符合的最强信号。

8.如权利要求7所述的基于TOPK多路音源有效信号筛选方法，其特征在于，S5中，还对M路最强信号逐个进行小波分解，得到小波信号序列，并根据小波信号序列得到有效语音信号。

9.如权利要求8所述的基于TOPK多路音源有效信号筛选方法，其特征在于，根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值，将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。

10.如权利要求9所述的基于TOPK多路音源有效信号筛选方法，其特征在于，S5中，还对M路最强信号进行前期处理，包括预加重处理，加窗处理和端点检测。