CN113271430A

CN113271430A - 网络视频会议中防干扰方法、系统、设备及存储介质

Info

Publication number: CN113271430A
Application number: CN202110520836.4A
Authority: CN
Inventors: 赵慧
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-17
Anticipated expiration: 2041-05-13
Also published as: CN113271430B

Abstract

本公开提供一种网络视频会议中防干扰方法、系统、设备及存储介质，其中的方法包括：预先获取各个用户的第一声纹特征；在各个用户参加网络视频会议的过程中，连续采集每个用户的视频会议终端输入的声音数据并进行实时处理以依次识别出该用户的多段第二声纹特征；对于每个用户依次计算其多段第二声纹特征与第一声纹特征的相似度；分别判断该用户的每段第二声纹特征与第一声纹特征的相似度计算结果是否超过预设的相似度阈值；若是，则将该用户的该段第二声纹特征对应的声音数据转化为数字信号后传输给其他用户的终端；若否，则将该用户的该段第二声纹特征对应的声音数据屏蔽。本公开提供的技术方案可以解决网络视频会议过程中存在干扰音的问题。

Description

网络视频会议中防干扰方法、系统、设备及存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种网络视频会议中防干扰方法、一种网络视频会议中防干扰系统、一种计算机设备以及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，远程办公越来越常见，而网络视频会议是远程办公必不可少的沟通交流方式之一。但是在开会过程中，经常由于与会者所处环境存在其他声音输入，如身边有人在说话或者发出其他噪音而打断主讲人的讲话，也影响其他与会者的听力理解质量，但是输入干扰音的与会者其本人往往并没有意识到自己这边的环境声音输入影响到了大家。

目前，这类情况通常的解决方法是，如果某一与会者的环境声音输入影响到了其他与会者，需要其他与会者通知输入干扰音的与会者关闭话筒，但此前的干扰影响已经形成了，不可挽回；或者，在会议开始前，除了主讲人外，其他与会者都关闭话筒，但是当其他与会者想在会议中发表讲话时，还需要手动打开话筒，使用非常不便；或者，所有与会者都寻找一个较为安静的环境参加网络视频会议，但此环境不仅需要安静，同时还要满足一定的网络要求，条件较为苛刻，难以满足。

因此，目前亟待提出一种可以解决网络视频会议过程中存在干扰音的问题的方案。

发明内容

为了至少部分解决现有技术中存在的技术问题而完成了本公开。

根据本公开实施例的一方面，提供一种网络视频会议中防干扰方法，所述方法包括：

预先获取各个用户的第一声纹特征；

在各个用户参加网络视频会议的过程中，连续采集每个用户的视频会议终端输入的声音数据，并分别对每个用户的视频会议终端输入的声音数据进行实时处理以依次识别出各用户的多段第二声纹特征；

对于每个用户，依次计算其多段第二声纹特征与第一声纹特征的相似度；

分别判断该用户的每段第二声纹特征与第一声纹特征的相似度计算结果是否超过预设的相似度阈值；

若是，则将该用户的该段第二声纹特征对应的声音数据转化为数字信号后传输给其他用户的视频会议终端；

若否，则将该用户的该段第二声纹特征对应的声音数据屏蔽。

根据本公开实施例的另一方面，提供一种网络视频会议中防干扰系统，所述系统包括：

获取模块，其设置为预先获取各个用户的第一声纹特征；

声音采集模块，其设置为在各个用户参加网络视频会议的过程中，连续采集每个用户的视频会议终端输入的声音数据；

声纹识别模块，其设置为分别对所述声音采集模块采集的每个用户的视频会议终端输入的声音数据进行实时处理以依次识别出各用户的多段第二声纹特征；

相似度计算模块，其设置为对于每个用户，依次计算其多段第二声纹特征与第一声纹特征的相似度；

判断模块，其设置为分别判断该用户的每段第二声纹特征与第一声纹特征的相似度计算结果是否超过预设的相似度阈值；

转化模块，其设置为在所述判断模块的判断结果为超过预设的相似度阈值时，将该用户的该段第二声纹特征对应的声音数据转化为数字信号；

传输模块，其设置为将所述转化模块转化成的数字信号传输给其他用户的视频会议终端；以及，

屏蔽模块，其设置为在所述判断模块的判断结果为不超过预设的相似度阈值时，将该用户的该段第二声纹特征对应的声音数据屏蔽。

根据本公开实施例的又一方面，提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行前述网络视频会议中防干扰方法。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行前述网络视频会议中防干扰方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例提供的网络视频会议中防干扰方法，通过将各个与会者的视频会议终端输入的声音数据识别为声纹特征，再与预先获取的该与会者本人的声纹特征进行相似度计算，只有计算结果超过预设相似度阈值的声纹特征对应的声音数据才被转化为数字信号后传输给其他用户的视频会议终端，而不超过预设相似度阈值的声纹特征对应的声音数据则作为干扰音被直接屏蔽掉，避免影响到其他与会者，从而有效解决网络视频会议过程中存在干扰音的问题，保证了网络视频会议质量。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本公开技术方案的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1为本公开实施例提供的网络视频会议中防干扰方法的流程示意图；

图2为本公开实施例提供的网络视频会议中防干扰系统的结构示意图；

图3为本公开实施例提供的计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序；并且，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

图1为本公开实施例提供的网络视频会议中防干扰方法的流程示意图。如图1所示，所述方法包括如下步骤S101至S106。

S101.预先获取各个用户的第一声纹特征，用于后续身份认证；

S102.在各个用户参加网络视频会议的过程中，连续采集每个用户的视频会议终端输入的声音数据，并分别对每个用户的视频会议终端输入的声音数据进行实时处理以依次识别出各用户的多段第二声纹特征；

本步骤中，针对每个用户，都连续采集其视频会议终端输入的声音数据；在会议上，由于发言方讲话时每两句话之间往往会存在停顿，便于其他与会者的听力理解，相应地，连续采集的发言方的视频会议终端输入的声音数据就是一段一段的声音数据，那么分别对这些段声音数据进行实时处理，就可以依次识别出多段第二声纹特征，其中每一段声音数据对应一段第二声纹特征；需要说明的是，各用户的第二声纹特征是基于其视频会议终端输入的声音数据识别出的，而各用户的视频会议终端输入的声音可能是该用户本人发出的声音，也可能是外界干扰音；

S103.对于每个用户，依次计算其多段第二声纹特征与第一声纹特征的相似度；

S104.分别判断该用户的每段第二声纹特征与第一声纹特征的相似度计算结果是否超过预设的相似度阈值，若是，则执行步骤S105；若否，则执行步骤S106；

S105.将该用户的该段第二声纹特征对应的声音数据转化为数字信号后传输给其他用户的视频会议终端；

S106.将该用户的该段第二声纹特征对应的声音数据屏蔽。

其中，相似度阈值可由本领域技术人员根据实际需求进行设定与调整，一般情况下可设定为85～99％，经发明人多次试验验证，当相似度阈值设定为97.42％时，屏蔽效果最佳。

上述用户指的是网络视频会议的与会者。用户的视频会议终端指的是与会者参加网络视频会议所使用的终端，通常支持多种类型的终端，例如智能手机、平板电脑、笔记本电脑、台式机等；终端内需安装网络视频会议软件，以形成两个或两个以上不同位置的个人或群体，通过互联网传输线路及多媒体设备，达到即时且互动的沟通，完成会议目的之系统，具体为一种典型的视频通信系统，在通信的发送端能够将图像和声音信号变成数字化信号，在接收端再把数字化信号重现为视觉、听觉可获取的信息。

本实施例中，通过将各个与会者的视频会议终端输入的声音数据识别为声纹特征，再与预先获取的该与会者本人的声纹特征进行相似度计算，只有计算结果超过预设相似度阈值的声纹特征对应的声音数据才被转化为数字信号后传输给其他用户的视频会议终端，而不超过预设相似度阈值的声纹特征对应的声音数据则作为干扰音被直接屏蔽掉，避免影响到其他与会者，从而有效解决网络视频会议过程中存在干扰音的问题，保证了网络视频会议质量。

当然，除了声音数据以外，还可以视需求调用各个用户的视频会议终端的图像采集设备实时采集当前图像，并与声音数据各自转化为数字信号后一起传输给其他用户的视频会议终端。一般地，用户可设置手动或者自动允许网络视频会议软件在网络视频会议期间调用其视频会议终端的图像采集设备实时采集当前图像。

在一种具体实施方式中，步骤S101包括如下步骤S1011至S1013。

S1011.在每个用户注册网络视频会议软件账号时，采集该用户本人预设时长的声音数据；其中，预设时长可由本领域技术人员根据实际需求进行设定，例如，可设定为5s；

S1012.对所采集的该用户本人的声音数据进行预处理以降低噪声；

S1013.对预处理后的声音数据进行识别以得该用户的第一声纹特征。

本实施例中，在每个用户注册网络视频会议软件账号时，网络视频会议软件会调用终端的音频输入设备(麦克风)强制采集该用户本人一段时长的声音数据，先经过初步的降噪处理，再通过现有的语音识别算法进行计算，就能得出该用户的第一声纹特征并存入该用户的账号信息中，用于后续使用过程中的身份认证。

当用户打开视频会议终端中的网络视频会议软件后，需登录个人账号，账号信息包括用户名、密码及第一声纹特征，然后在后续进行声纹特征对比分析时，就可以依次计算实时识别出的各段第二声纹特征与从该用户的账号信息中提取出的第一声纹特征的相似度，通过相似度值大小来判定当前输入声音是否来自网络视频会议软件账号对应的用户本人，具体地，若相似度值大于预设的相似度阈值，则认定为网络视频会议软件账号对应的用户本人发出的声音，否则，认定为不是网络视频会议软件账号对应的用户本人发出的声音，可视为外界干扰音，从而实现对声音输入者的身份进行校验和鉴别。

在一种具体实施方式中，在步骤S102中，分别对每个用户的视频会议终端输入的声音数据进行实时处理以依次识别出各用户的多段第二声纹特征，具体为：

将每个用户的视频会议终端输入的声音数据先进行实时的维纳滤波处理和词嵌入语谱图降维处理，再输入至联合训练后的深度卷积神经网络和长短期记忆网络模型从而依次识别出各用户的多段第二声纹特征。

本实施例中，当用户打开并登录视频会议终端中的网络视频会议软件后，需输入会议号才能点击进入会议。在进入会议后，网络视频会议软件调用终端的音频输入设备(麦克风)开始采集当前的声音数据。

对于每个用户而言，将连续采集到的该用户的各段声音数据先进行实时的维纳滤波处理，以消除声音数据中的噪声；再进行实时的词嵌入语谱图降维处理，以降低声纹语谱图存在的冗余信息；最后输入联合训练后的深度卷积神经网络(Convolutional NeuralNetworks，CNN)和长短期记忆网络(Long Short-Term Memory networks，LSTM)，就能识别出该用户的各段第二声纹特征。

其中，维纳滤波处理采用维纳滤波器(wiener filtering)实现，其本质是使估计误差(定义为期望响应与滤波器实际输出之差)均方值最小化，根据过去观测值和当前观测值来估计信号的当前值。相比于传统的滤波器只能滤除信号和干扰频带没有重叠的情况，维纳滤波器还能滤除信号和干扰频带有重叠的情况。

词嵌入(word embedding)是一种词的类型表示，具有相似意义的词具有相似的表示，是将词汇映射到实数向量的方法总称。语谱图是目前深度学习研究领域在声纹识别方向中常用到的一种特征表示，它是语音频谱的时间序列图。词嵌入语谱图降维处理指的是，先通过快速傅里叶变换将待识别语音片段(即一段声音数据)的时间刻度、频率和振幅转化以生成待识别语音片段的语谱图，再将待识别语音片段的语谱图通过词嵌入处理进行降维处理。

将词嵌入语谱图降维处理后的声音数据输入联合训练后的深度卷积神经网络和长短期记忆网络，就能得出声音数据的声纹特征。具体地，先采用深度卷积神经网络捕捉语谱图的空间信息，再采用长短期记忆网络捕捉其时序声纹特征。

先定义一个CNN_LSTM模型，具体可以通过在前端添加CNN层然后紧接着LSTM层作为全连接层输出来被定义；然后利用已有的声音数据及其对应的声纹特征对CNN_LSTM模型进行联合训练，就可以得出联合训练后的深度卷积神经网络和长短期记忆网络模型。

在一种具体实施方式中，在步骤S106之后，还包括如下步骤S107：

S107.向该用户的视频会议终端发送提示信息，以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。

其中，提醒内容可以为：您当前有其他声音输入，请注意会议环境。

本公开实施例提供的网络视频会议中防干扰方法，在各个与会者的网络视频会议软件账号信息中预先设定该与会者的声纹特征，然后在各个与会者参加网络视频会议的过程中，各个与会者的视频会议终端开启语音输入功能后，如果某个与会者的视频会议终端检测到有声音输入，则对输入的声音数据进行实时处理以识别出第二声纹特征，再计算其与该与会者的网络视频会议软件账号信息中的第一声纹特征的相似度，若二者的相似度值超过预设的相似度阈值，可以证明当前声音输入者为该与会者本人(即为网络视频会议软件账号对应的用户)，则将当前输入的声音数据转化为数字信号后传输给其他与会者的视频会议终端，从而在其他与会者的视频会议终端处重现为听觉可获取的信息；若二者的相似度值不超过预设的相似度阈值，可以证明当前声音输入者不是该与会者本人(即不是网络视频会议软件账号对应的用户)，将其定义为外界干扰音，并予以屏蔽，不会转化成数字信号传输给其他与会者的视频会议终端，同时，该与会者的视频会议终端的网络视频会议软件会弹出提示，以提醒该与会者注意会议环境，从而有效解决了网络视频会议过程中在与会者不知情下外界声音干扰输入的问题，保证了网络视频会议质量。

图2为本公开实施例提供的网络视频会议中防干扰系统的结构示意图。如图2所示，所述系统2包括：获取模块21、声音采集模块22、声纹识别模块23、相似度计算模块24、判断模块25、转化模块26、传输模块27和屏蔽模块28。

其中，获取模块21设置为预先获取各个用户的第一声纹特征；声音采集模块22设置为在各个用户参加网络视频会议的过程中，连续采集每个用户的视频会议终端输入的声音数据；声纹识别模块23设置为分别对所述声音采集模块22采集的每个用户的视频会议终端输入的声音数据进行实时处理以依次识别出各用户的多段第二声纹特征；相似度计算模块24设置为对于每个用户，依次计算其多段第二声纹特征与第一声纹特征的相似度；判断模块25设置为分别判断该用户的每段第二声纹特征与第一声纹特征的相似度计算结果是否超过预设的相似度阈值；转化模块26设置为在所述判断模块25的判断结果为超过预设的相似度阈值时，将该用户的该段第二声纹特征对应的声音数据转化为数字信号；传输模块设置为将所述转化模块26转化成的数字信号传输给其他用户的视频会议终端；屏蔽模块28设置为在所述判断模块25的判断结果为不超过预设的相似度阈值时，将该用户的该段第二声纹特征对应的声音数据屏蔽。

在一种具体实施方式中，所述获取模块21包括：声音采集单元、预处理单元和第一声纹识别单元。

其中，声音采集单元设置为在每个用户注册网络视频会议软件账号时，采集该用户本人预设时长的声音数据；预处理单元设置为对所述声音采集单元采集的该用户本人的声音数据进行预处理；第一声纹识别单元设置为对所述预处理单元处理后的声音数据进行识别以得出该用户的第一声纹特征。

在一种具体实施方式中，所述声纹识别模块23包括：第一处理单元、第二处理单元和第二声纹识别单元。

第一处理单元设置为对所述声音采集模块采集的每个用户的视频会议终端输入的声音数据进行实时的维纳滤波处理；第二处理单元设置为对所述第一处理单元处理后的声音数据进行实时的词嵌入语谱图降维处理；第二声纹识别单元设置为将所述第二处理单元处理后的声音数据输入联合训练后的深度卷积神经网络和长短期记忆网络模型，从而依次识别出各用户的多段第二声纹特征。

在一种具体实施方式中，所述系统2还包括：提示模块29。

提示模块29设置为在所述屏蔽模块28将该用户的该段第二声纹特征对应的声音数据屏蔽之后，向该用户的视频会议终端发送提示信息，以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。

本公开实施例提供的网络视频会议中防干扰系统，在各个与会者的网络视频会议软件账号信息中预先设定该与会者的声纹特征，然后在各个与会者参加网络视频会议的过程中，各个与会者的视频会议终端开启语音输入功能后，如果某个与会者的视频会议终端检测到有声音输入，则对输入的声音数据进行实时处理以识别出第二声纹特征，再计算其与该与会者的网络视频会议软件账号信息中的第一声纹特征的相似度，若二者的相似度值超过预设的相似度阈值，可以证明当前声音输入者为该与会者本人(即为网络视频会议软件账号对应的用户)，则将当前输入的声音数据转化为数字信号后传输给其他与会者的视频会议终端，从而在其他与会者的视频会议终端处重现为听觉可获取的信息；若二者的相似度值不超过预设的相似度阈值，可以证明当前声音输入者不是该与会者本人(即不是网络视频会议软件账号对应的用户)，将其定义为外界干扰音，并予以屏蔽，不会转化成数字信号传输给其他与会者的视频会议终端，同时，该与会者的视频会议终端的网络视频会议软件会弹出提示，以提醒该与会者注意会议环境，从而有效解决了网络视频会议过程中在与会者不知情下外界声音干扰输入的问题，保证了网络视频会议质量。

基于相同的技术构思，本公开实施例相应还提供一种计算机设备，如图3所示，所述计算机设备3包括存储器31和处理器32，所述存储器31中存储有计算机程序，当所述处理器32运行所述存储器31存储的计算机程序时，所述处理器32执行前述网络视频会议中防干扰方法。

基于相同的技术构思，本公开实施例相应还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，所述处理器执行前述网络视频会议中防干扰方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种网络视频会议中防干扰方法，其特征在于，包括：

预先获取各个用户的第一声纹特征；

2.根据权利要求1所述的方法，其特征在于，所述预先获取各个用户的第一声纹特征，包括：

在每个用户注册网络视频会议软件账号时，采集该用户本人预设时长的声音数据；以及，

对所采集的该用户本人的声音数据进行预处理，再对预处理后的声音数据进行识别以得出该用户的第一声纹特征。

3.根据权利要求1所述的方法，其特征在于，所述分别对每个用户的视频会议终端输入的声音数据进行实时处理以依次识别出各用户的多段第二声纹特征，具体为：

4.根据权利要求1-3中任一项所述的方法，其特征在于，在将该用户的该段第二声纹特征对应的声音数据屏蔽之后，还包括：

向该用户的视频会议终端发送提示信息，以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。

5.一种网络视频会议中防干扰系统，其特征在于，包括：

获取模块，其设置为预先获取各个用户的第一声纹特征；

6.根据权利要求5所述的系统，其特征在于，所述获取模块包括：

声音采集单元，其设置为在每个用户注册网络视频会议软件账号时，采集该用户本人预设时长的声音数据；

预处理单元，其设置为对所述声音采集单元采集的该用户本人的声音数据进行预处理；

第一声纹识别单元，其设置为对所述预处理单元处理后的声音数据进行识别以得出该用户的第一声纹特征。

7.根据权利要求5所述的系统，其特征在于，所述声纹识别模块包括：

第一处理单元，其设置为对所述声音采集模块采集的每个用户的视频会议终端输入的声音数据进行实时的维纳滤波处理；

第二处理单元，其设置为对所述第一处理单元处理后的声音数据进行实时的词嵌入语谱图降维处理；

第二声纹识别单元，其设置为将所述第二处理单元处理后的声音数据输入联合训练后的深度卷积神经网络和长短期记忆网络模型，从而依次识别出各用户的多段第二声纹特征。

8.根据权利要求5-7中任一项所述的系统，其特征在于，还包括：

提示模块，其设置为在所述屏蔽模块将该用户的该段第二声纹特征对应的声音数据屏蔽之后，向该用户的视频会议终端发送提示信息，以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1至4中任一项所述的网络视频会议中防干扰方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，所述处理器执行根据权利要求1至4中任一项所述的网络视频会议中防干扰方法。