CN112672095A

CN112672095A - 远程会议系统

Info

Publication number: CN112672095A
Application number: CN202011558687.2A
Authority: CN
Inventors: 汪秀兵; 王亮; 赵君; 闫振利
Original assignee: China Unicom Online Information Technology Co Ltd
Current assignee: China Unicom Online Information Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112672095B

Abstract

本发明提供一种能够对会议视频的背景以及语音进行过滤，从而既可以保证会议的正常进行、又可以避免暴露隐私的远程会议系统，在该远程会议系统中，由于处理服务器中存储有每个参会人员预先设定的视频处理信息，该视频处理信息中存储有参会人员的体貌特征信息，在处理服务器获取到会议终端发送的会议音视频流后，通过参会人员的体貌特征信息对会议音视频流的视频图像进行识别并从中分离出参会人员图像，并将该参会人员图像与场景替换用背景模板合成为过滤视频帧，因此，处理服务器可以准确地从会议音视频流中区分出他人与参会人员，从而避免将路过的他人错误地识别为参会人员导致图像分离错误并对会议造成干扰。

Description

远程会议系统

技术领域

本发明涉及一种远程会议系统。

背景技术

随着远程办公、远程教学逐渐被人们所接受，人们可以通过持有的计算机、平板等终端来远程参与会议。在远程会议的过程中，传统的远程会议系统往往会通过摄像头、麦克风等设备采集到参会人员的视频图像和语音，并直接发送到其他参与会议的用户终端上进行播放，从而使得各个参会人员在远程状态下也能面对面地进行即时沟通。

然而，远程会议毕竟不同于常规的线下会议，参会人员往往会因为各种原因，不得不在家、咖啡店等相对不太正式的场合下参加会议，这样就容易导致一些问题：例如在咖啡馆办公时，语音中含有因为周边对话以及环境产生的杂音，视频中拍摄到无意路过的他人等，这些情况会对其他参会人员造成干扰，影响会议的进行。并且，出于上述原因，各个参会人员的视频背景也往往比较随意，无法统一，显得不够正式。

另外，远程会议还存在隐私安全方面的问题，如在家的参会人员会被拍摄到家中的情况、孩子打闹、家人的一些不适宜的对话等均会被远程会议系统采集到并发送给其他参会人员，造成隐私暴露。

发明内容

为解决上述问题，提供一种可以对会议视频的背景以及语音进行过滤，从而既可以保证会议的正常进行、又可以避免暴露隐私的远程会议系统，本发明采用了如下技术方案：

本发明提供了一种远程会议系统，其特征在于，包括：多个会议终端，分别由多个参与会议的参会人员持有；以及处理服务器，分别与各个会议终端相通信连接，其中，会议终端具有音视频采集部、输入显示部以及终端通信部，处理服务器具有视频处理信息存储部、视频处理信息获取部、图像识别分离部、过滤视频帧合成部、音频降噪处理部、音视频流融合部以及服务侧通信部，视频处理信息存储部存储有参会人员的人员识别信息以及相应每一个参会人员预先设定的视频处理信息，该视频处理信息至少包括音频过滤用降噪比、场景替换用背景模板以及参会人员的体貌特征数据，音视频采集部在参会人员参与会议时，对参会人员进行音视频采集从而得到该参会人员的会议音视频流，终端通信部将会议音视频流与参会人员的人员识别信息对应地实时发送给处理服务器，视频处理信息获取部根据接收到的人员识别信息从存储部中获取到对应的视频处理信息作为当前视频处理信息，图像识别分离部根据当前视频处理信息中的体貌特征数据对会议音视频流中的视频帧进行体貌识别，并从视频帧中逐帧分离出对应于参会人员的参会人员图像，过滤视频帧合成部将每一帧的参会人员图像与当前视频处理信息中的场景替换用背景模板进行合成得到过滤视频帧，音频降噪处理部根据当前视频处理信息中的音频过滤用降噪比对会议音视频流中的音频进行降噪处理得到过滤音频，音视频流融合部将过滤视频帧以及过滤音频进行融合得到会议过滤音视频流，服务侧通信部将会议过滤音视频流发送给参与会议的其他参会人员的会议终端并进行播放。

发明作用与效果

根据本发明的远程会议系统，由于处理服务器中存储有每个参会人员预先设定的视频处理信息，该视频处理信息中存储有参会人员的体貌特征信息，在处理服务器获取到会议终端发送的会议音视频流后，通过参会人员的体貌特征信息对会议音视频流的视频图像进行识别并从中分离出参会人员图像，并将该参会人员图像与场景替换用背景模板合成为过滤视频帧，因此，处理服务器可以准确地从会议音视频流中区分出他人与参会人员，从而避免将路过的他人错误地识别为参会人员导致图像分离错误并对会议造成干扰。另外，还由于处理服务器根据过滤用降噪比对会议音视频流中的音频进行降噪处理，因此还可以避免远程会议过程中因为环境噪音而对会议造成干扰。

附图说明

图1是本发明实施例中远程会议系统的框图；

图2是本发明实施例中会议终端的框图；

图3是本发明实施例中视频处理信息设定画面的示意图；

图4是本发明实施例中会议展示画面的示意图；

图5是本发明实施例中处理服务器的框图；

图6是本发明实施例中会议信息存储部中存储的内容；

图7是本发明实施例中视频处理信息存储部中存储的内容；

图8是本发明实施例中不雅行为识别部的框图；

图9是本发明实施例中异常时的会议展示画面的示意图；

图10是本发明实施例中视频处理信息设定过程的流程图；以及

图11是本发明实施例中会议参与过程的流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合附图对本发明的远程会议系统的实施例进行详细地说明。

作为一种实施形态，本发明提供一种远程会议系统，其特征在于，包括：多个会议终端，分别由多个参与会议的参会人员持有；以及处理服务器，分别与各个会议终端相通信连接，其中，会议终端具有音视频采集部、输入显示部以及终端通信部，处理服务器具有视频处理信息存储部、视频处理信息获取部、图像识别分离部、过滤视频帧合成部、音频降噪处理部、音视频流融合部以及服务侧通信部，视频处理信息存储部存储有参会人员的人员识别信息以及相应每一个参会人员预先设定的视频处理信息，该视频处理信息至少包括音频过滤用降噪比、场景替换用背景模板以及参会人员的体貌特征数据，音视频采集部在参会人员参与会议时，对参会人员进行音视频采集从而得到该参会人员的会议音视频流，终端通信部将会议音视频流与参会人员的人员识别信息对应地实时发送给处理服务器，视频处理信息获取部根据接收到的人员识别信息从存储部中获取到对应的视频处理信息作为当前视频处理信息，图像识别分离部根据当前视频处理信息中的体貌特征数据对会议音视频流中的视频帧进行体貌识别，并从视频帧中逐帧分离出对应于参会人员的参会人员图像，过滤视频帧合成部将每一帧的参会人员图像与当前视频处理信息中的场景替换用背景模板进行合成得到过滤视频帧，音频降噪处理部根据当前视频处理信息中的音频过滤用降噪比对会议音视频流中的音频进行降噪处理得到过滤音频，音视频流融合部将过滤视频帧以及过滤音频进行融合得到会议过滤音视频流，服务侧通信部将会议过滤音视频流发送给参与会议的其他参会人员的会议终端并进行播放。

在这样的实施形态中，还可以有这样的特征：其中，体貌特征数据包括参会人员的体型特征数据以及参会人员模板图像，处理服务器还具有不雅行为识别部，不雅行为识别部具有：不雅信息存储单元，预先存储有多种对应各种不雅动作的不雅动作特征点；不雅动作识别判断单元，用于根据体型特征数据对参会人员图像进行人体识别从而识别出每一视频帧中参会人员的动作特征点，并根据不雅动作特征点对动作特征点进行相似度匹配从而判断视频帧中参会人员是否存在不雅动作；不雅画面识别判断单元，采用预设的不雅画面识别模型对每一视频帧进行识别从而判断视频帧是否含有不雅画面；以及参会人员图像替换单元，用于在不雅动作识别判断单元以及不雅画面识别判断单元中任意一个判断为是时，将参会人员模板图像对相应视频帧中分离得到的参会人员图像进行替换作为新的参会人员图像。

在这样的实施形态中，还可以有这样的特征：其中，不雅信息存储单元还预先存储有多种不雅关键词，不雅行为识别部还具有：不雅用语识别判定单元，用于对过滤音频进行语音识别得到语音文本，并根据被存储的不雅关键词对语音文本进行字词匹配从而判断过滤音频中是否含有不雅关键词；以及音频屏蔽处理单元，根据被识别出的不雅关键词对过滤音频中对应的语音段进行屏蔽处理从而形成新的过滤音频。

在这样的实施形态中，还可以有这样的特征：其中，处理服务器还具有统计判断部，统计判断部用于统计不雅行为识别部识别出会议音视频流中出现不雅行为的次数，并判断该次数是否高于预定阈值，当预定次数被判断高于预定阈值，服务侧通信部就停止会议过滤音视频流的发送。

在这样的实施形态中，还可以有这样的特征：其中，会议终端还具有画面存储部，画面存储部具有视频处理信息设定画面，输入显示部显示视频处理信息画面让参会人员通过音视频采集部录制一段音视频流作为样本音视频流并输入样本背景模板，终端通信部将样本音视频流与人员识别信息对应地发送给处理服务器，体貌信息提取部基于预定的体貌信息提取方法对样本音视频流中的视频进行识别从而提取出参会人员的体貌特征数据，降噪比生成部根据预定的纯色音频以及带人声音频对样本音视频流中的音频进行处理并生成预测降噪比，图像识别分离部还基于体貌特征数据从样本音视频流中分离出参会人员图像作为样本图像，过滤视频帧合成部还将每一帧样本图像与样本背景模板进行合成得到样本过滤视频帧，音频降噪处理部还根据当前视频处理信息中的音频过滤用降噪比对会议音视频流中的音频进行降噪处理得到样本过滤音频，音视频流融合部还将样本过滤视频帧以及样本过滤音频进行融合得到样本过滤音视频流，服务侧通信部将样本过滤音视频流根据人员识别信息发送给对应的会议终端，从而通过视频处理信息设定画面让参会人员进行确认，一旦人员对样本过滤音视频流进行了确认，视频处理信息存储部就将预测降噪比作为音频过滤用降噪比、场景替换用背景模板以及体貌特征数据组成一个视频处理信息，并将该视频处理信息与参会人员的人员识别信息进行对应存储。

在这样的实施形态中，还可以有这样的特征：其中，体貌特征数据包括人脸特征数据以及体型特征数据，图像识别分离部根据当前视频处理信息中的体貌特征数据对会议音视频流中的视频帧进行体貌识别时，根据人脸特征数据识别出视频帧中参会人员的人脸图像，并根据体型特征数据确定与人脸图像相对应的人体图像，进一步将该人体图像进行分离作为参会人员图像，参会人员图像为参会人员的半身像或是全身像。

在这样的实施形态中，还可以有这样的特征：其中，视频处理信息还包括处理信息识别号，视频处理信息存储部中每一个人员识别信息对应有多个针对不同场景设定的视频处理信息，会议终端还具有画面存储部，画面存储部存储有会议开始画面，输入显示部显示会议开始画面并让参会人员选择需要采用的视频处理信息的处理信息识别号，终端通信部将会议音视频流与用户的用户识别信息对应地实时发送给处理服务器时，还将处理信息识别号对应地发送给处理服务器，视频处理信息获取部在根据接收到的用户识别信息从存储部中获取到对应的视频处理信息时，还从中获取处理信息识别号与接收到的处理信息识别号相一致的视频处理信息作为当前视频处理信息。

在这样的实施形态中，还可以有这样的特征：其中，处理服务器还具有会议信息存储部，会议信息存储部存储有每一个会议的会议识别号以及对应的参与该会议的所有参会人员的人员识别信息，服务侧通信部在发送会议过滤音视频流时，根据会议对应的所有人员识别信息发送给其他参会人员的会议终端。

<实施例>

图1是本发明实施例中远程会议系统的框图。

如图1所示，远程会议系统10包括多个会议终端11、处理服务器12以及通信网络13。

会议终端11为参会人员14所持有的PC、智能手机、平板等设备，这些会议终端11均通过通信网络13(如互联网)与处理服务器12相通信连接。从图1中可以看出，本实施例中，整个远程会议系统包括k个会议，每个会议由一定数量的参会人员参加，如参会人员 14a、14b以及14c三人是会议15-1的参与人员、会议15-2有i个参会人员、会议15-k有j 个参会人员。

本实施例中，会议终端11中预先存储有参会人员14的人员识别信息，该人员识别信息可以为参会人员的用户名及密码。

图2是本发明实施例中会议终端的框图。

会议终端11具有画面存储部21、输入显示部22、音视频采集部23、终端通信部24以及用于控制上述各部的终端控制部25。

画面存储部21存储有操作选择画面、视频处理信息设定画面、会议参与画面以及会议展示画面。

操作选择画面用于在会议终端11启动时显示，用于让参会人员选择需要进行的操作并进入对应的画面。本实施例中，操作选择画面可以让参会人员选择视频处理信息设定操作以及会议参与操作。

视频处理信息设定画面用于在参会人员选择视频处理信息设定操作时显示。

图3是本发明实施例中视频处理信息设定画面的示意图。

如图3所示，视频处理信息设定画面211具有样本音视频流录制按钮212、背景画面录制按钮213、录制内容显示部分214以及确认按钮215。当参会人员点击样本音视频流录制按钮212时，音视频采集部23就会开始音视频流的采集，并通过录制内容显示部分214显示正在录制的内容；同样地，当参会人员点击背景画面录制按钮213，录制内容显示部分214会提示参会人员正在录制背景画面，并显示音视频采集部23录制的背景图像。

一旦参会人员在完成录制后并点击确认按钮215，终端通信部24就将通过样本音视频流录制按钮212录制的音视频流作为样本音视频流、并将通过背景画面录制按钮213录制的背景图像作为样本背景模板，进一步将该样本音视频流、样本背景模板以及人员识别信息发送给处理服务器12。

会议参与画面用于在参会人员选择会议参与操作后显示，该会议参与画面中显示有一个会议识别号输入框、处理信息识别号选定框以及一个确认参与按钮。其中，会议识别号输入框用于让参会人员14输入需要参与的会议15的会议识别号，处理信息识别号选定框中显示有对应参会人员14的人员识别信息的多个视频处理信息的处理信息识别号让参会人员14 进行选定。

一旦参会人员14点击确认参与按钮后，就进入会议展示画面，同时终端通信部24会将音视频采集部23采集的会议音视频流、会议识别号、处理信息识别号以及人员识别信息对应地发送给处理服务器12。

会议展示画面用于显示处理服务器12输出的过滤音视频流从而让参会人员进行视频会议。

图4是本发明实施例中会议展示画面的示意图。

如图4所示，以会议参与画面中参会人员14a参与了会议15-1为例，会议展示画面216 具有多个播放部分217，用于同步播放所有参与会议15-1的参会人员14a、14b以及14c的过滤音视频流。

输入显示部22用于显示上述画面，从而让参会人员通过这些画面完成相应的人机交互。

音视频采集部23包括前置摄像头以及麦克风，用于在参会人员通过会议参与画面确认参与会议后，通过前置摄像头以及麦克风对参会人员进行音视频流的采集，随后终端通信部 24会将该音视频流作为会议音视频流实时地发送给处理服务器12。

本实施例中，音视频流包括拍摄有参会人员的上半身的视频以及录制有其语音的音频。

另外，当参会人员通过点击视频处理信息设定画面211的样本音视频流录制按钮212 以及背景画面录制按钮213开始录制后，音视频采集部23也会进行音视频流的采集。

图5是本发明实施例中处理服务器的框图。

如图5所示，处理服务器12具有会议信息存储部31、视频处理信息存储部32、音视频处理控制部33、视频处理信息获取部34、图像识别分离部35、过滤视频帧合成部38、音频降噪处理部36、不雅行为识别部37、音视频流融合部39、统计判断部40、体貌信息提取部41、降噪比生成部42、服务测通信部43以及用于控制上述各部的服务测控制部44。

图6是本发明实施例中会议信息存储部中存储的内容。

如图6所示，会议信息存储部31存储有会议识别号311、会议信息312、会议主持人的人员识别信息313以及参与该会议的其他素有参会人员的人员识别信息314。

会议识别号311为自动生成的编号，会议信息312为会议的名称、主题、文件等会议相关信息。本实施例中，会议信息存储部31每一条记录均对应于一个会议，如会议识别号为 1的记录对应于会议15-1、会议识别号2的记录对应于会议15-2等，这些记录均由作为会议主持人的参会人员在申请新的会议时创建并存储至会议信息存储部31中。

图7是本发明实施例中视频处理信息存储部中存储的内容。

如图7所示，视频处理信息存储部32存储有人员识别信息321以及相对应的至少一个视频处理信息322。

每个视频处理信息中包括处理信息识别号323、音频过滤用降噪比324、场景替换用背景模板325以及参会人员的体貌特征数据326。

处理信息识别号323为每个视频处理信息的唯一编号。

音频过滤用降噪比324为预先设定好的降噪比率，音频降噪处理部36可以基于该降噪比率对音频进行降噪处理。

场景替换用背景模板325为参会人员预先录制好的背景图像。

体貌特征数据326包括参会人员的人脸特征数据、体型特征数据以及参会人员模板图像。

人脸特征数据以及体型特征数据预先由体貌信息提取部41对样本音视频流进行提取得到，人脸特征数据为参会人员的人脸特征点等特征数据，体型特征数据为参会人员人体的尺寸数据(如围度尺寸、曲线尺寸等)和人体特征点等体型特征数据。

参会人员模板图像为图像识别分离部35根据人脸特征数据、体型特征数据对样本音视频流中参会人员的图像进行分离得到的参会人员图像。

以人员识别信息为10001的参会人员14a为例，从图7中可以看出，该参会人员14a预先设定有两个视频处理信息。这两个视频处理信息所对应的实际场景可以是不同的，例如，第一个视频处理信息对应于咖啡厅的场景而第二个视频处理信息可以对应于家庭场景。此时，第一个视频处理信息中的音频过滤用降噪比以及体貌特征数据均是针对咖啡厅的环境而采集设定的，如因为咖啡厅的环境较为嘈杂而降噪比设定较高，体貌特征数据是在光照较为明亮的背景下采集得到的；而家庭场景则因为较为安静，因此降噪比设定得较低，体貌特征数据的采集环境相对咖啡厅较暗。

一旦参会人员14a通过会议终端11a显示的会议参与画面中确定参与会议15-1，音视频采集部23就开始进行采集并通过终端通信部24将会议音视频流、人员识别信息“10001” 以及处理信息识别号“20001”对应地发送给处理服务器12，此时，音视频处理控制部33 就控制视频处理信息获取部34、图像识别分离部35、音频降噪处理部36、不雅行为识别部 37、过滤视频帧合成部38、音视频流融合部39以及统计判断部40来对该会议音视频流进行过滤处理。具体地：

视频处理信息获取部34根据从会议终端11接收到的人员识别信息以及处理信息识别号，从视频处理信息存储部31中获取到对应的视频处理信息作为当前视频处理信息，

图像识别分离部35根据当前视频处理信息中的体貌特征数据对会议音视频流中的视频帧来逐帧地进行体貌识别，即通过人脸特征数据匹配出参会人员的人脸，进一步根据该人脸通过体型特征数据识别出参会人员的身体所在，并分离出参会人员的参会人员图像。

音频降噪处理部36根据当前视频处理信息中的音频过滤用降噪比对音视频数据中的音频数据进行降噪处理，从而形成过滤音频。本实施例中，音频降噪处理部36的降噪处理幅度取决于音频过滤用降噪比的高低。

不雅行为识别部37用于对会议音视频流进行不雅行为的识别。

图8是本发明实施例中不雅行为识别部的框图。

如图8所示，不雅行为识别部37具有不雅信息存储单元371、不雅动作识别判断单元 372、不雅画面识别判断单元373、参会人员图像替换单元374、不雅用语识别判断单元375 以及过滤音频屏蔽单元376。

不雅信息存储单元371预先存储有多种对应各种不雅动作的不雅动作特征点以及对应各种不雅用语的不雅关键词。

本实施例中，不雅动作特征点为预先针对一些做出不雅动作的人体图像进行三维建模、并确定特征点得到的动作特征点，；不雅关键词为含有各种不雅用于的关键词或关键词。

不雅动作识别判断单元372基于和预先得到不雅动作特征点的动作识别方法相一致的方法，对图像识别分离部35分离出的参会人员图像进行三维建模、并确定特征点得到动作特征点。进一步，不雅动作识别判断单元372分别将动作特征点与各个不雅动作特征点进行匹配，从而根据匹配程度来判断参会人员是否存在不雅动作。

若匹配程度较高(如相似度高于一定阈值)，则不雅动作识别判断单元372就判断参会人员存在不雅动作。

不雅画面识别判断单元373具有一个预设的不雅画面识别模型，该不雅画面识别模型预先通过一个具有各种不雅图像的训练集训练得到。不雅画面识别判断单元373通过将视频帧输入不雅画面识别模型，即可得到视频帧是否为不雅画面的判断结果。

在不雅动作识别判断单元372以及不雅图像识别判断单元373中任意一个或两个判定为是时，参会人员图像替换单元374将参会人员模板图像对相应视频帧中分离得到的参会人员图像进行替换作为新的参会人员图像。

不雅用语识别判断单元375对过滤音频进行语音识别得到语音文本，并将不雅信息存储单元371存储的各种不雅关键词分别与语音文本进行字词匹配。若语音文本中含有与不雅关键词相一致的字符，则不雅用语识别判断单元375判断过滤音频中是否含有不雅关键词。

过滤音频屏蔽单元376根据不雅用语识别判断单元375识别出的不雅关键词对过滤音频中对应的语音词进行屏蔽处理从而形成新的过滤音频。

本实施例中，不雅用语识别判断单元375在识别得到语音文本时，还会对应地识别出语音文本中每个字词在过滤音频中的时间戳，过滤音频屏蔽单元376就根据不雅关键词所对应的时间戳，对过滤音频中相应一段语音进行消音处理。

本实施例中，消音处理可以通过预设的屏蔽音对语音段进行覆盖或是直接删除该段的语音。

当某一视频帧中存在不雅图像或是参会人员做出不雅动作时，参会人员图像替换单元 374将参会人员模板图像对相应视频帧中分离得到的参会人员图像进行替换作为新的参会人员图像，此时，音视频处理控制部33就控制过滤视频帧合成部38将当前视频处理信息中的场景替换用背景模板与新的参会人员图像进行合成，从而得到对应于当前这一存在不雅图像的过滤视频帧。

当视频帧中不存在不雅图像以及不雅动作时，过滤视频帧合成部38就正常地将场景替换用背景模板与图像识别分离部35分离出的参会人员图像进行合成，并得到过滤视频帧。

音视频流融合部39用于将过滤视频帧合成部38合成出的过滤视频帧与过滤语音进行融合，从而得到过滤掉不雅图像、不雅动作、不雅语音以及噪音的会议过滤音视频流。

接下来，针对参会人员14a的会议音视频流通过过滤处理得到的会议过滤音视频流，服务测通信部43就根据最初接收到的会议识别号“1”以及会议信息存储部31中对应的人员识别信息“10001”、“10002”和“10003”，将会议过滤音视频流实时地发送给对应的会议终端11a、11b和11c。

另外，在每一次不雅行为识别部37识别出会议音视频流中存在不雅图像、不雅动作和不雅用语等不雅行为时，服务测通信部43还根据接收到的人员识别信息发送一个预定的提醒消息给对应的会议终端11，并在会议展示画面中进行显示(如通过弹窗提示或是滚动提示)来提醒相应的参会人员注意。

统计判断部40用于统计中出现不雅行为识别部识别出会议音视频流中出现不雅行为的次数，并判断该次数是否高于预定阈值。

图9是本发明实施例中异常时的会议展示画面的示意图。

当统计判断部40判断次数高于预定阈值时，表示参会人员的会议音视频流中频繁或长时间地产生不雅行为，此时，音视频处理控制部33就会控制服务测通信部43停止进行过滤音视频流的发送，仅将场景替换用背景模板与参会人员模板图像合成的图像以及异常状态信息发送给其他参会人员的会议终端11，这些会议终端11上显示的会议展示画面如图9所示，在对应参会人员11a的播放部分217中显示有场景替换用背景模板401与参会人员模板图像 402，并且在右下角显示有“异常状态”提示，对应参会人员11b和11c的播放部分217仍然正常显示。

通过上述过程，即可完成针对参会人员14a的音视频过滤处理，本实施例中，针对每一位参会人员的会议终端11所发送的会议音视频流，音视频处理控制部33均会控制相应的各部并行地执行上述过滤处理，从而对所有参会人员的音视频完成过滤并在各个会议终端11 上进行显示。

另外，在参与会议前，参会人员需要预先设定好其将要采用的视频处理信息，即，通过输入显示部22显示的视频处理信息设定画面进行视频处理信息的设定。一旦参会人员确认了样本音视频流以及样本背景模板的录制，终端通信部24就将其与人员识别信息一并发送给处理服务器12。

体貌信息提取部41基于预定的体貌信息提取方法对样本音视频流中的视频进行识别从而提取出参会人员的体貌特征数据。

本实施例中，体貌信息提取方法主要包括人脸特征数据的提取以及体型特征数据的提取。

在样本音视频流(参会人员需要预先保证样本音视频流只有自身存在)中，针对人脸特征数据的提取：体貌信息提取部41通过人脸识别方法定位到参会人员的人脸，并通过对该人脸进行特征提取得到人脸特征数据。针对体型特征数据的提取，体貌信息提取部41首先从样本视频帧中识别出参会人员的人体轮廓，进一步基于该人体轮廓计算得到参会人员人体的尺寸数据和人体特征点。

降噪比生成部42根据预定的纯色音频以及带人声音频对样本音视频流中的音频进行处理并生成预测降噪比。

本实施例中，当参会人员录制样本音视频流时的环境越嘈杂，即音频中含有的噪声越多，降噪比生成部42生成的预测降噪比就越大，从而增强音频降噪处理部36的降噪幅度。

另外，在体貌信息提取部41提取到体貌特征数据且降噪比生成部42生成预测降噪比后，音视频处理控制部33会控制图像识别分离部35、过滤视频帧合成部38、音频降噪处理部 36以及音视频流融合部39根据用户录制的样本背景模板、被提取到的体貌特征数据和预测降噪比对样本音视频流进行过滤处理。具体地：

图像识别分离部35基于体貌特征数据从样本音视频流中分离出参会人员图像作为样本图像，过滤视频帧合成部38将每一帧样本图像与样本背景模板进行合成得到样本过滤视频帧，音频降噪处理部36根据预测降噪比对会议音视频流中的音频进行降噪处理得到样本过滤音频，最后音视频流融合部39将样本过滤视频帧以及样本过滤音频进行融合得到样本过滤音视频流。

通过上述过程即可得到根据预测降噪比和体貌特征数据处理得到的样本过滤音视频流，接下来服务侧通信部43将该样本过滤音视频以及预测降噪比发送给会议终端11让参会人员 14确认。

一旦参会人员确认没有问题，视频处理信息存储部32将预测降噪比作为音频过滤用降噪比、场景替换用背景模板、以及体貌特征数据作为视频处理信息，并将该视频处理信息与参会人员的人员识别信息进行对应存储。另外，本实施例中，体貌特征数据中的参会人员样本图像即图像识别分离部35从样本音视频流中分离出的样本图像。

若参会人员确认存在问题，如预测降噪比过大、导致样本过滤音视频流中的音频被过度过滤，或者对场景替换用背景模板不满等，则参会人员可以通过视频处理信息设定画面进行调整并重复上述过程直到参会人员确认没有问题。

图10是本发明实施例中视频处理信息设定过程的流程图。

如图10所示，当参会人员14a在参加会议前，需要设定视频处理信息并选择视频处理信息设定操作时，开始如下步骤：

步骤S1-1，会议终端11a显示视频处理信息设定画面让参会人员14a录制样本音视频流以及样本背景模板，一旦参会人员14a确认录制完成，则终端通信部24将样本音视频流、样本背景模板和人员识别信息对应地发送给处理服务器12并进入步骤S1-2；

步骤S1-2，体貌信息提取部41对样本音视频流中的视频进行识别从而提取出参会人员的体貌特征数据，然后进入步骤S1-3；

步骤S1-3，降噪比生成部42根据预定的纯色音频以及带人声音频对样本音视频流中的音频进行处理并生成预测降噪比，然后进入步骤S1-4；

步骤S1-4，图像识别分离部35基于步骤S1-2提取的体貌特征数据从样本音视频流中分离出参会人员图像作为样本图像，然后进入步骤S1-5；

步骤S1-5，过滤视频帧合成部38将步骤S1-4中分离出的每一帧样本图像分别与样本背景模板进行合成得到样本过滤视频帧，然后进入步骤S1-6；

步骤S1-6，音频降噪处理部36根据步骤S1-3中生成的预测降噪比对会议音视频流中的音频进行降噪处理得到样本过滤音频，然后进入步骤S1-7；

步骤S1-7，音视频流融合部39将样本过滤视频帧以及样本过滤音频进行融合得到样本过滤音视频流，然后进入步骤S1-8；

步骤S1-8，服务侧通信部43将样本过滤音视频流根据步骤S1-1发送的人员识别信息发送给对应的会议终端14a，然后进入步骤S1-9；

步骤S1-9，会议终端11a显示视频处理信息设定画面并显示接收到的样本过滤音视频流让参会人员确认是否存在问题，若存在问题则进入步骤S1-10，若没有问题则进入步骤S1-11；

步骤S1-10，会议终端11a显示视频处理信息设定画面并显示接收到的样本过滤音视频流让参会人员调整预测降噪比或重新录制样本背景模板，然后进入步骤S1-6；

步骤S1-11，视频处理信息存储部32将预测降噪比、场景替换用背景模板以及体貌特征数据作为视频处理信息，并将该视频处理信息与参会人员的人员识别信息进行对应存储，然后进入结束状态。

在通过上述过程完成视频处理信息的预先设定后，参会人员14a接下来就需要参与会议 14-1。

图11是本发明实施例中会议参与过程的流程图。

如图11所示，当参会人员14a需要参加会议并选择会议参与操作时，开始如下步骤：

步骤S2-1，会议终端11a显示会议参与画面从而让参会人员14a输入会议识别号、并选定处理信息识别号，一旦参会人员14a确认参与则进入步骤S2-2；

步骤S2-2，音视频采集部23启动并实时采集参会人员14a的会议音视频流，然后进入步骤S2-3；

步骤S2-3，终端通信部24将步骤S2-1输入的会议识别号以及处理信息识别号与参会人员14a的人员识别信息对应发送给处理服务器12，同时将步骤S2-2采集的会议音视频流实时发送给处理服务器12，然后进入步骤S2-4；

步骤S2-4，视频处理信息获取部34根据从会议终端11接收到的人员识别信息以及处理信息识别号，从视频处理信息存储部31中获取到对应的视频处理信息作为当前视频处理信息，然后进入步骤S2-5；

步骤S2-5，图像识别分离部35根据当前视频处理信息中的体貌特征数据对会议音视频流中的视频帧来逐帧地进行体貌识别，并分离出参会人员的参会人员图像，然后进入步骤 S2-6；

步骤S2-6，音频降噪处理部36根据当前视频处理信息中的音频过滤用降噪比对音视频数据中的音频数据进行降噪处理得到过滤音频，然后进入步骤S2-7；

步骤S2-7，不雅动作识别判断单元372对步骤S2-5分离出的参会人员图像进行人体识别从而识别出每一帧参会人员图像对应的动作特征点，并根据该动作特征点以及不雅信息存储单元371中存储的各个不雅动作特征点判断参会人员是否存在不雅动作，若判断为是则进入步骤S2-9，若判断为否则进入步骤S2-8；

步骤S2-8，不雅画面识别判断单元373通过不雅画面识别模型对从会议终端11接收到的会议音视频流进行识别，从而判断每一视频帧中是否存在不雅画面，若判断为是则进入步骤S2-9，若判断为否则进入步骤S2-10；

步骤S2-9，参会人员图像替换单元374将参会人员模板图像对步骤S2-5分离出的参会人员图像进行替换作为新的参会人员图像，然后进入步骤S2-10；

步骤S2-10，不雅用语识别判断单元375对过滤音频进行语音识别得到语音文本，并根据该语音文本以及不雅信息存储单元371存储的各种不雅关键词判断过滤音频中是否含有不雅关键词，若判断为是则进入步骤S2-11，若判断为否则进入步骤S2-12；

步骤S2-11，过滤音频屏蔽单元376根据步骤S2-10识别出的不雅关键词对过滤音频中对应的语音词进行屏蔽处理从而形成新的过滤音频，然后进入步骤S2-12；

步骤S2-12，过滤视频帧合成部38将参会人员图像与样本背景模板进行合成得到会议过滤视频帧，然后进入步骤S2-9；

步骤S2-13，音视频流融合部39将会议过滤视频帧以及过滤音频进行融合得到会议过滤音视频流，然后进入步骤S2-10；

步骤S2-14，服务侧通信部43根据对应步骤S2-3中会议识别号的所有人员识别信息，将步骤S2-9融合得到的会议过滤音视频流发送给对应的会议终端11进行显示，然后重复步骤S2-3至S2-9直到会议结束并进入结束状态。

另外，在上述过程中，在每一次不雅行为识别部37进行判断后，统计判断部40就统计步骤S2-7至S2-中判断出不雅行为的次数，并判断该次数是否高于预定阈值，若是，则服务侧通信部43停止将会议过滤音视频流发送给对应的会议终端11a，并将由场景替换用背景模板与参会人员模板图像合成的图像以及异常状态信息发送给其他参会人员的会议终端 11b和11c。

实施例作用与效果

根据本实施例提供的远程会议系统，由于处理服务器中存储有每个参会人员预先设定的视频处理信息，该视频处理信息中存储有参会人员的体貌特征信息，在处理服务器获取到会议终端发送的会议音视频流后，通过参会人员的体貌特征信息对会议音视频流的视频图像进行识别并从中分离出参会人员图像，并将该参会人员图像与场景替换用背景模板合成为过滤视频帧，因此，处理服务器可以准确地从会议音视频流中区分出他人与参会人员，从而避免将路过的他人错误地识别为参会人员导致图像分离错误并对会议造成干扰。另外，还由于处理服务器根据过滤用降噪比对会议音视频流中的音频进行降噪处理，因此还可以避免远程会议过程中因为环境噪音而对会议造成干扰。

另外，在上述实施例中，由于处理服务器还具有不雅行为识别部，可以对会议音视频流中的不雅图像以及参会人员的不雅动作进行识别，并在识别到这些不雅行为时，将参会人员图像替换为预先设定的参会人员模板图像，因此，在结合过滤视频帧合成部合成背景图像的基础上，虽然会议音视频流中可能会出现一些不雅行为，但都会通过一系列由参会人员模板图像和场景替换用背景模板组成的过滤视频帧来完成过滤，从而实现了在保证会议正常进行的同时，将不雅图像屏蔽掉，同时，这样也进一步地保护了参会人员的隐私安全。

进一步，在上述实施例中，还由于不雅行为识别部具有不雅用语识别判定单元以及音频屏蔽处理单元，因此在参会人员的语音中出现粗口等不雅用语时，也可以进行屏蔽，进一步地保证了会议可以正常进行。

另外，还由于具有统计判断部对不雅行为进行统计，因此当参会人员的会议音视频流中出现较多不雅行为时，可以暂时中止该参会人员的会议过滤音视频流的传输，从而减少过激的不雅行为对会议造成的影响。

另外，实施例中，还由于视频处理信息为多个，且由参会人员针对每一个场景进行设定，因此，并且，由于体貌特征数据也是针对不同环境进行提取从而得到的，因此当参会人员在这样的场景下，其采光等变化均不大，因此采集到的体貌特征数据更具有针对性，进一步地提升了对参会人员图像的识别精度，保证最终生成的过滤视频帧的准确性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

例如，在上述实施例中，样本背景模板是由参会人员通过视频处理信息设定画面进行录制得到。在本发明的其他方案中，样本背景模板也可以是预先设定并存储在处理服务器中的图像或视频，让参会人员从中选定一个作为样本背景模板。

例如，在上述实施例中，当统计判断部判断某位参会人员的音视频流中发生不雅行为的次数高于预定阈值时，服务测通信部43就停止进行过滤音视频流的发送从而禁止参会人员的会议音视频图像发送给其他参会人员。在本发明的其他方案中，该禁止状态可以设定为持续一段时间的状态，或者可以设定为能够由会议主持人解除的状态。

Claims

1.一种远程会议系统，其特征在于，包括：

多个会议终端，分别由多个参与会议的参会人员持有；以及

处理服务器，分别与各个所述会议终端相通信连接，

其中，所述会议终端具有音视频采集部、输入显示部以及终端通信部，

所述处理服务器具有视频处理信息存储部、视频处理信息获取部、图像识别分离部、过滤视频帧合成部、音频降噪处理部、音视频流融合部以及服务侧通信部，

视频处理信息存储部存储有所述参会人员的人员识别信息以及相应每一个所述参会人员预先设定的视频处理信息，该视频处理信息至少包括音频过滤用降噪比、场景替换用背景模板以及所述参会人员的体貌特征数据，

所述音视频采集部在所述参会人员参与所述会议时，对所述参会人员进行音视频采集从而得到该参会人员的会议音视频流，

所述终端通信部将所述会议音视频流与所述参会人员的人员识别信息对应地实时发送给所述处理服务器，

所述视频处理信息获取部根据接收到的所述人员识别信息从所述存储部中获取到对应的视频处理信息作为当前视频处理信息，

所述图像识别分离部根据所述当前视频处理信息中的体貌特征数据对所述会议音视频流中的视频帧进行体貌识别，并从所述视频帧中逐帧分离出对应于所述参会人员的参会人员图像，

所述过滤视频帧合成部将每一帧的所述参会人员图像与所述当前视频处理信息中的所述场景替换用背景模板进行合成得到过滤视频帧，

所述音频降噪处理部根据所述当前视频处理信息中的所述音频过滤用降噪比对所述会议音视频流中的音频进行降噪处理得到过滤音频，

所述音视频流融合部将所述过滤视频帧以及所述过滤音频进行融合得到会议过滤音视频流，

所述服务侧通信部将所述会议过滤音视频流发送给参与所述会议的其他所述参会人员的会议终端并进行播放。

2.根据权利要求1所述的远程会议系统，其特征在于：

其中，所述体貌特征数据包括所述参会人员的体型特征数据以及参会人员模板图像，

所述处理服务器还具有不雅行为识别部，

所述不雅行为识别部具有：

不雅信息存储单元，预先存储有多种对应各种不雅动作的不雅动作特征点；

不雅动作识别判断单元，用于根据所述体型特征数据对所述参会人员图像进行人体识别从而识别出每一所述视频帧中所述参会人员的动作特征点，并根据所述不雅动作特征点对所述动作特征点进行相似度匹配从而判断所述视频帧中所述参会人员是否存在不雅动作；

不雅画面识别判断单元，采用预设的不雅画面识别模型对每一所述视频帧进行识别从而判断所述视频帧是否含有不雅画面；以及

参会人员图像替换单元，用于在所述不雅动作识别判断单元以及所述不雅画面识别判断单元中任意一个判断为是时，将所述参会人员模板图像对相应所述视频帧中分离得到的所述参会人员图像进行替换作为新的参会人员图像。

3.根据权利要求2所述的远程会议系统，其特征在于：

其中，所述不雅信息存储单元还预先存储有多种不雅关键词，

所述不雅行为识别部还具有：

不雅用语识别判定单元，用于对所述过滤音频进行语音识别得到语音文本，并根据被存储的所述不雅关键词对所述语音文本进行字词匹配从而判断所述过滤音频中是否含有不雅关键词；以及

音频屏蔽处理单元，根据被识别出的所述不雅关键词对所述过滤音频中对应的语音段进行屏蔽处理从而形成新的过滤音频。

4.根据权利要求2所述的远程会议系统，其特征在于：

其中，所述处理服务器还具有统计判断部，

所述统计判断部用于统计所述不雅行为识别部识别出所述会议音视频流中出现不雅行为的次数，并判断该次数是否高于预定阈值，

当所述预定次数被判断高于所述预定阈值，所述服务侧通信部就停止所述会议过滤音视频流的发送。

5.根据权利要求1所述的远程会议系统，其特征在于：

其中，所述会议终端还具有画面存储部，

所述画面存储部具有视频处理信息设定画面，

所述输入显示部显示所述视频处理信息画面让所述参会人员通过所述音视频采集部录制一段音视频流作为样本音视频流并输入样本背景模板，

所述终端通信部将所述样本音视频流与所述人员识别信息对应地发送给所述处理服务器，

所述体貌信息提取部基于预定的体貌信息提取方法对所述样本音视频流中的视频进行识别从而提取出所述参会人员的体貌特征数据，

所述降噪比生成部根据预定的纯色音频以及带人声音频对所述样本音视频流中的音频进行处理并生成预测降噪比，

所述图像识别分离部还基于所述体貌特征数据从所述样本音视频流中分离出所述参会人员图像作为样本图像，

所述过滤视频帧合成部还将每一帧所述样本图像与所述样本背景模板进行合成得到样本过滤视频帧，

所述音频降噪处理部还根据所述预测降噪比对所述会议音视频流中的音频进行降噪处理得到样本过滤音频，

所述音视频流融合部还将所述样本过滤视频帧以及所述样本过滤音频进行融合得到样本过滤音视频流，

所述服务侧通信部将所述样本过滤音视频流根据所述人员识别信息发送给对应的所述会议终端，从而通过所述视频处理信息设定画面让所述参会人员进行确认，

一旦所述人员对所述样本过滤音视频流进行了确认，所述视频处理信息存储部就将所述预测降噪比作为音频过滤用降噪比、所述场景替换用背景模板以及所述体貌特征数据组成一个视频处理信息，并将该视频处理信息与所述参会人员的人员识别信息进行对应存储。

6.根据权利要求1所述的远程会议系统，其特征在于：

其中，所述体貌特征数据包括人脸特征数据以及体型特征数据，

所述图像识别分离部根据所述当前视频处理信息中的体貌特征数据对所述会议音视频流中的视频帧进行体貌识别时，根据所述人脸特征数据识别出所述视频帧中所述参会人员的人脸图像，并根据所述体型特征数据确定与所述人脸图像相对应的人体图像，进一步将该人体图像进行分离作为所述参会人员图像，

所述参会人员图像为所述参会人员的半身像或是全身像。

7.根据权利要求1所述的远程会议系统，其特征在于：

其中，所述视频处理信息还包括处理信息识别号，

所述视频处理信息存储部中每一个所述人员识别信息对应有多个针对不同场景设定的所述视频处理信息，

所述会议终端还具有画面存储部，

所述画面存储部存储有会议开始画面，

所述输入显示部显示所述会议开始画面并让所述参会人员选择需要采用的视频处理信息的处理信息识别号，

所述终端通信部将所述会议音视频流与所述用户的用户识别信息对应地实时发送给所述处理服务器时，还将所述处理信息识别号对应地发送给所述处理服务器，

所述视频处理信息获取部在根据接收到的所述用户识别信息从所述存储部中获取到对应的视频处理信息时，还从中获取所述处理信息识别号与接收到的所述处理信息识别号相一致的所述视频处理信息作为所述当前视频处理信息。

8.根据权利要求1所述的远程会议系统，其特征在于：

其中，所述处理服务器还具有会议信息存储部，

所述会议信息存储部存储有每一个会议的会议识别号以及对应的参与该会议的所有参会人员的人员识别信息，

所述服务侧通信部在发送所述会议过滤音视频流时，根据所述会议对应的所有所述人员识别信息发送给其他所述参会人员的所述会议终端。