CN112562711A

CN112562711A - 多路音源信号分类系统及方法

Info

Publication number: CN112562711A
Application number: CN202011372338.1A
Authority: CN
Inventors: 王彬; 陶亚雄
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-26

Abstract

本发明涉及通信技术领域，具体涉及一种多路音源信号分类系统，包括：采集单元，用于采集第一电子设备接收到的第一语音信号；滤波单元，用于通过自适应滤波的方式分离远端声和近端声；分离单元，用于通过左、右声道分离近端语音和近端背景声；消除单元，用于将近端左、右声道信号进行叠加，并对右声道进行线性处理，消除近端背景声；控制单元，用于控制第二电子设备接收近端语音和/或近端背景声；输出单元，用于输出近端语音和/或近端背景声。本发明解决了现有技术不能对多路音源所形成的混音信号进行分类处理与控制，使得第二用户不能够按照个人需求接收第一用户的语音或者背景声音的技术问题。

Description

多路音源信号分类系统及方法

技术领域

本发明涉及通信技术领域，具体涉及一种多路音源信号分类系统及方法。

背景技术

目前，随着信息网络技术的不断发展以及智能移动终端的广泛应用，直播教学日益受到教师们的重视，可以使得学生在个人选定的时间与地点观看直播，从而极大地方便了学生的学习过程。对于学生群体而言，受限于经济成本，移动终端设备相对低廉，语音信号中残余回声多、噪声严重，故而，有必要采取措施对直播教学的语音信号进行处理。

比如说，文件CN110197669A公开了一种语音信号处理方法，包括步骤：接收解码的远端声，并于播放解码后的远端声的同时采集近端信号；估计并补偿延迟，对远端及近端信号进行数据对齐操作；将对齐后的远端和近端信号送入带反馈的自适应回声抑制单元，抑制近端信号中的回声；抑制近端信号中的残余回声与啸叫；抑制近端信号中的噪声；将近端信号通过网络传输出去。通过这样的方式，能够对语音信号中的回声、残余回声以及噪声进行抑制。

对于直播教学而言，在通话过程中，第一用户采用第一电子设备、第二用户采用第二电子设备进行交流，第一电子设备将会采集到第一用户的语音、背景声音以及第二用户的语音，从而会使得第二用户接收到的是第一用户的语音、背景声音以及第二用户的语音形成的混音信号。在上述技术方案中，只针对语音信号进行整体回声、残余回声以及噪声抑制，无法对混音信号进行分类处理。也即，现有技术不能对多路音源所形成的混音信号进行分类处理与控制，使得第二用户不能够按照个人需求接收第一用户的语音或者背景声音。

发明内容

本发明提供一种多路音源信号分类系统及方法，解决了现有技术不能对多路音源所形成的混音信号进行分类处理与控制，使得第二用户不能够按照个人需求接收第一用户的语音或者背景声音的技术问题。

本发明提供的基础方案为：多路音源信号分类系统，包括：

采集单元，用于采集第一电子设备接收到的第一语音信号，第一语音信号包括远端声和近端声，远端声为第二电子设备发送的语音信号，近端声包括近端语音和近端背景声，近端语音为第一用户的语音；

滤波单元，用于通过自适应滤波的方式分离远端声和近端声；

分离单元，用于通过左、右声道分离近端语音和近端背景声；

消除单元，用于将近端左、右声道信号进行叠加，并对右声道进行线性处理，消除近端背景声；

控制单元，用于控制第二电子设备接收近端语音和/或近端背景声；

输出单元，用于输出近端语音和/或近端背景声。

本发明的工作原理及优点在于：当采集第一电子设备接收到的第一语音信号后，通过自适应滤波的方式对第一语音信号中的远端声和近端声进行分离，剔除掉远端声(也即第二电子设备发送的语音信号)，从而得到近端声。接着，通过左、右声道对近端声中的近端语音、近端背景声进行分离，并将近端左、右声道信号叠加，对右声道进行线性处理，从而消除近端背景声，得到近端语音。最后，第二用户可以通过第二电子设备按照个人的实际需求，选择性地接收近端语音和/或近端背景声。通过这样的方式，对远端声进行过滤，同时去除近端声中的近端噪声，确保了第二用户选择性接收近端语音和/或近端背景声。

进一步，近端声还包括近端回声，近端回声为第一电子设备播放远端声时产生的回声；分离单元还用于通过左、右声道分离近端回声。

有益效果在于：近端回声是第一电子设备播放远端声时产生的回声，它会对近端语音的质量进行干扰，通过这样的方式将其分离，有利于提高第二用户接收到的语音质量。

进一步，消除单元还用于抑制残余回声，残余回声为没有被完全分离的近端回声。

有益效果在于：对实际情况而言，近端回声很多时候难以被完全分离出去，通过这样的方式，可以降低近端回声对第二用户接收到的语音的质量的影响。

进一步，近端声还包括噪声，消除单元还用于抑制近端声中的噪声。

有益效果在于：直播教学的环境比较复杂，近端声中除了背景声、近端回声之外，可能还有其他的杂音，比如说电流声，通过这样的方式，对噪声信号进行掩蔽，可有效提高第二用户接收到的语音的音质。

进一步，滤波单元还用于估计并补偿延迟，对远端声及近端声进行数据对齐。

有益效果在于：由于数据传输延迟等原因，第一电子设备采集到的回声信号与接收的远端声也会存在延迟，通过这样的方式，可实现数据对齐。

本发明还提供一种多路音源信号分类方法，包括步骤：

S1、采集第一电子设备接收到的第一语音信号，第一语音信号包括远端声和近端声，远端声为第二电子设备发送的语音信号，近端声包括近端语音和近端背景声，近端语音为第一用户的语音；

S2、通过自适应滤波的方式分离远端声和近端声；

S3、通过左、右声道分离近端语音和近端背景声；

S4、将近端左、右声道信号叠加后，对右声道进行线性处理，消除近端背景声；

S5、控制第二电子设备接收近端语音和/或近端背景声；

S6、输出近端语音和/或近端背景声。

本发明的工作原理及优点在于：通过自适应滤波的方式对第一语音信号中的远端声和近端声进行分离，剔除掉远端声(也即第二电子设备发送的语音信号)，从而得到近端声。并且，通过左、右声道对近端声中的近端语音、近端背景声进行分离，对右声道进行线性处理，从而消除近端背景声，得到近端语音，从而第二用户可以通过第二电子设备按照个人的实际需求，选择性地接收近端语音和/或近端背景声。

进一步，S1中，近端声还包括近端回声，近端回声为第一电子设备播放远端声时产生的回声；S3中，还通过左、右声道分离近端回声。

有益效果在于：近端回声会对近端语音的质量进行干扰，将其分离有利于提高第二用户接收到的语音的质量。

进一步，S4中，还抑制残余回声，残余回声为没有被完全分离的近端回声。

有益效果在于：近端回声很多时候难以被完全分离出去，这样可以降低近端回声对第二用户接收到的语音的质量的影响。

进一步，S1中，近端声还包括噪声；S3中，还抑制近端声中的噪声。

有益效果在于：近端声中除了背景声、近端回声之外，可能还有其他的杂音，对噪声信号进行掩蔽，可有效提高第二用户接收到的语音的音质。

进一步，S2中，还估计并补偿延迟，对远端声及近端声进行数据对齐。

有益效果在于：由于数据传输延迟等原因，第一电子设备采集到的回声信号与接收的远端声也会存在延迟，这样可实现数据对齐。

附图说明

图1为本发明实施例多路音源信号分类系统的系统结构框图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例1

本发明实施例多路音源信号分类系统实施例基本如附图1所示，包括：

输出单元，用于输出近端语音和/或近端背景声。

在本实施例中，采集单元为麦克风，滤波单元、分离单元、消除单元和控制单元集成在服务器上，通过软件/程序/代码实现其功能，输出单元为扬声器，麦克风与扬声器均安装在服务器上。

具体实施过程如下：

S1、采集第一电子设备接收到的第一语音信号。

本实施例中，通过麦克风采集第一电子设备接收到的第一语音信号，第一语音信号包括远端声和近端声，远端声为第二电子设备发送的语音信号，近端声包括近端语音、近端回声、噪音和近端背景声，近端语音为第一用户的语音，近端回声为第一电子设备播放远端声时产生的回声。

S2、通过自适应滤波的方式分离远端声和近端声。

第一语音信号采集完毕后，滤波单元通过自适应滤波的方式将第一语音信号中的远端声和近端声分离开来。具体而言，本实施例中，利用信号的相关性，通过自适应滤波方式，也即归一化最小均方自适应滤波(NLMS)算法将远端声和近端声分离开来，从而得到单独的远端声和近端声。

S3、通过左、右声道分离近端语音和近端背景声。

对第一语音信号中的远端声和近端声进行分离后，可得到近端声，近端声中包括近端语音、近端回声、噪音和近端背景声；其中，近端语音为第一用户的语音，近端回声为第一电子设备播放远端声时产生的回声。此时，分离单元通过左、右声道将近端语音和近端背景声分离开来，也将近端回声分离出来；与此同时，并对近端声中的噪声进行抑制，比如说，采用高斯滤波或者中值滤波的算法进行处理。这样，近端声中基本就只包含近端语音。

S4、将近端左、右声道信号叠加后，对右声道进行线性处理，消除近端背景声。

接着，消除模块将近端左、右声道信号叠加后，对右声道进行线性处理，比如说，采用线性处理算法(LP)，消除近端背景声。此外，还对残余回声进行抑制，残余回声为没有被完全分离的近端回声，比如说，采用自适应算法进行抑制。

S5、控制第二电子设备接收近端语音和/或近端背景声。

考虑到第二用户可能的需求，控制单元控制第二电子设备接收近端语音和/或近端背景声。具体而言，在第二用户需要接收近端语音时，控制输出近端语音；在第二用户需要接收近端背景声时，控制输出近端背景声；在第二用户需要接收近端语音+近端背景声时，控制输出近端语音+近端背景声。

S6、输出近端语音和/或近端背景声。

扬声器根据第二用户的实际需求输出近端语音和/或近端背景声。具体而言，在第二用户需要接收近端语音时，输出近端语音；在第二用户需要接收近端背景声时，输出近端背景声；在第二用户需要接收近端语音+近端背景声时，输出近端语音+近端背景声。

实施例2

与实施例1不同之处仅在于，由于数据传输延迟等原因，第一电子设备采集到的回声信号与接收的远端声也会存在延迟，S2中估计并补偿延迟，对远端声及近端声进行数据对齐。本实施例中，通过在线实时估计得到，也即通过计算当前帧近端信号与缓冲区中最近几帧的远端声的相似度来实现。

实施例3

与实施例2不同之处仅在于，在对多路音源进行分类之前，先对多路语音进行补齐处理。具体而言，服务器上预先储存有与课堂直播教学相关的文字语料库，当网络信号不好的时候，语音信号可能会出现间断的情况，从而缺失掉部分语音信号，这时候就需要对缺失的语音信号进行补齐。

首先，当网络信号不好的时候，将间断的语音信号的前、后部分语音信号提取出来，并将其转换为文字，通过语义识别算法并结合文字语料库，对缺失的语音信号进行对应的文字内容填补。也即，根据语义理解填入缺失的语音信号对应的文字内容，并将该文字内容转换为语音信号，从实现对间断的语音信号的补齐。

然后，当网络信号良好的时候，对录制的整个直播过程进行回放，人工对补齐的语音信号进行核实，如果核实通过，则不对补齐的语音信号做任何修改；反之，如果核实不通过，则人工对补齐的语音信号进行修改。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.多路音源信号分类系统，其特征在于，包括：

输出单元，用于输出近端语音和/或近端背景声。

2.如权利要求1所述的多路音源信号分类系统，其特征在于，近端声还包括近端回声，近端回声为第一电子设备播放远端声时产生的回声；分离单元还用于通过左、右声道分离近端回声。

3.如权利要求2所述的多路音源信号分类系统，其特征在于，消除单元还用于抑制残余回声，残余回声为没有被完全分离的近端回声。

4.如权利要求3所述的多路音源信号分类系统，其特征在于，近端声还包括噪声，消除单元还用于抑制近端声中的噪声。

5.如权利要求4所述的多路音源信号分类系统，其特征在于，滤波单元还用于估计并补偿延迟，对远端声及近端声进行数据对齐。

6.多路音源信号分类方法，其特征在于，包括步骤：

S2、通过自适应滤波的方式分离远端声和近端声；

S3、通过左、右声道分离近端语音和近端背景声；

S5、控制第二电子设备接收近端语音和/或近端背景声；

S6、输出近端语音和/或近端背景声。

7.如权利要求6所述的多路音源信号分类方法，其特征在于，S1中，近端声还包括近端回声，近端回声为第一电子设备播放远端声时产生的回声；S3中，还通过左、右声道分离近端回声。

8.如权利要求7所述的多路音源信号分类方法，其特征在于，S4中，还抑制残余回声，残余回声为没有被完全分离的近端回声。

9.如权利要求8所述的多路音源信号分类方法，其特征在于，S1中，近端声还包括噪声；S3中，还抑制近端声中的噪声。

10.如权利要求9所述的多路音源信号分类方法，其特征在于，S2中，还估计并补偿延迟，对远端声及近端声进行数据对齐。