CN113301291B - 网络视频会议中防干扰方法、系统、设备及存储介质 - Google Patents

网络视频会议中防干扰方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113301291B
CN113301291B CN202110520179.3A CN202110520179A CN113301291B CN 113301291 B CN113301291 B CN 113301291B CN 202110520179 A CN202110520179 A CN 202110520179A CN 113301291 B CN113301291 B CN 113301291B
Authority
CN
China
Prior art keywords
user
video conference
conference terminal
module
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110520179.3A
Other languages
English (en)
Other versions
CN113301291A (zh
Inventor
赵慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202110520179.3A priority Critical patent/CN113301291B/zh
Publication of CN113301291A publication Critical patent/CN113301291A/zh
Application granted granted Critical
Publication of CN113301291B publication Critical patent/CN113301291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开提供一种网络视频会议中防干扰方法、系统、设备及存储介质,其中的方法包括:在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;若检测到某个用户的视频会议终端输入了声音数据,则调用该用户的视频会议终端的图像采集设备实时采集当前图像;判断图像中是否有人像;若有,则基于采集的预设时长的图像判断该用户是否在讲话;若该用户在讲话,则将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端;若实时采集的当前图像中没有人像或者该用户未讲话,则将该用户的视频会议终端输入的声音数据屏蔽。本公开提供的技术方案可以解决网络视频会议过程中存在干扰音的问题。

Description

网络视频会议中防干扰方法、系统、设备及存储介质
技术领域
本公开涉及通信技术领域,尤其涉及一种网络视频会议中防干扰方法、一种网络视频会议中防干扰系统、一种计算机设备以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,远程办公越来越常见,而网络视频会议是远程办公必不可少的沟通交流方式之一。但是在开会过程中,经常由于与会者所处环境存在其他声音输入,如身边有人在说话或者发出其他噪音而打断主讲人的讲话,也影响其他与会者的听力理解质量,但是输入干扰音的与会者其本人往往并没有意识到自己这边的环境声音输入影响到了大家。
目前,这类情况通常的解决方法是,如果某一与会者的环境声音输入影响到了其他与会者,需要其他与会者通知输入干扰音的与会者关闭话筒,但此前的干扰影响已经形成了,不可挽回;或者,在会议开始前,
除了主讲人外,其他与会者都关闭话筒,但是当其他与会者想在会议中发表讲话时,还需要手动打开话筒,使用非常不便;或者,所有与会者都寻找一个较为安静的环境参加网络视频会议,但此环境不仅需要安静,同时还要满足一定的网络要求,条件较为苛刻,难以满足。
因此,目前亟待提出一种可以解决网络视频会议过程中存在干扰音的问题的方案。
发明内容
为了至少部分解决现有技术中存在的技术问题而完成了本公开。
根据本公开实施例的一方面,提供一种网络视频会议中防干扰方法,所述方法包括:
在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;
若检测到某个用户的视频会议终端输入了声音数据,则调用该用户的视频会议终端的图像采集设备实时采集当前图像;
判断实时采集的当前图像中是否有人像;
若有,则基于采集的预设时长的图像判断该用户是否在讲话;
若该用户在讲话,则将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端;
若实时采集的当前图像中没有人像或者该用户未讲话,则将该用户的视频会议终端输入的声音数据屏蔽。
根据本公开实施例的另一方面,提供一种网络视频会议中防干扰系统,所述系统包括:
检测模块,其设置为在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;
调用模块,其设置为在所述检测模块检测到某个用户的视频会议终端输入了声音数据时,调用该用户的视频会议终端的图像采集设备实时采集当前图像;
第一判断模块,其设置为判断实时采集的当前图像中是否有人像;
第二判断模块,其设置为在所述第一判断模块的判断结果为有人像时基于该用户的视频会议终端的图像采集设备采集的预设时长的图像判断该用户是否在讲话;
转化模块,其设置为在所述第二判断模块的判断结果为该用户在讲话时,将该用户的视频会议终端输入的声音数据转化为数字信号;
传输模块,其设置为将所述转化模块转化成的数字信号传输给其他用户的视频会议终端;以及,
屏蔽模块,其设置为在所述第一判断模块的判断结果为没有人像时,或者所述第二判断模块的判断结果为该用户未讲话时,将该用户的视频会议终端输入的声音数据屏蔽。
根据本公开实施例的又一方面,提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行前述网络视频会议中防干扰方法。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述网络视频会议中防干扰方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例提供的网络视频会议中防干扰方法,通过实时检测各个用户的视频会议终端是否输入了声音数据,并在检测到某个用户的视频会议终端输入了声音数据时调用该用户的视频会议终端的图像采集设备实时采集当前图像以判断该用户是否在讲话,只有判断结果为该用户在讲话时才将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端,否则将该用户的视频会议终端输入的声音数据作为干扰音直接屏蔽掉,避免影响到其他用户,从而有效解决网络视频会议过程中存在干扰音的问题,保证了网络视频会议质量。
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
图1为本公开实施例提供的网络视频会议中防干扰方法的流程示意图;
图2为本公开实施例提供的网络视频会议中防干扰系统的结构示意图;
图3为本公开实施例提供的计算机设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序;并且,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互任意组合。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
图1为本公开实施例提供的网络视频会议中防干扰方法的流程示意图。如图1所示,所述方法包括如下步骤S101至S106。
S101.在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;
具体地,当用户打开并登录视频会议终端中的网络视频会议软件后,需输入会议号才能点击进入会议;在进入会议后,网络视频会议软件调用终端的音频输入设备(麦克风)开始检测是否输入了声音数据;
S102.若检测到某个用户的视频会议终端输入了声音数据,则调用该用户的视频会议终端的图像采集设备实时采集当前图像;
S103.判断实时采集的当前图像中是否有人像,若是,则执行步骤S104;若否,则执行步骤S106;
S104.基于采集的预设时长的图像判断该用户是否在讲话,若是,则执行步骤S105;若否,则执行步骤S106;
其中,预设时长可由本领域技术人员根据实际需求进行设定与调整,例如可设定为1~5秒;
S105.将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端;
S106.将该用户的视频会议终端输入的声音数据屏蔽。
上述用户指的是网络视频会议的与会者。用户的视频会议终端指的是与会者参加网络视频会议所使用的终端,通常支持多种类型的终端,例如智能手机、平板电脑、笔记本电脑、台式机等,具备图像采集设备(摄像头)、图像显示设备(屏幕)、音频输入设备(麦克风)和音频输出设备(扬声器);终端内需安装网络视频会议软件,以形成两个或两个以上不同位置的个人或群体,通过互联网传输线路及多媒体设备,达到即时且互动的沟通,完成会议目的之系统,具体为一种典型的视频通信系统,在通信的发送端能够将图像和声音信号变成数字化信号,在接收端再把数字化信号重现为视觉、听觉可获取的信息。
本实施例中,通过实时检测各个用户的视频会议终端是否输入了声音数据,并在检测到某个用户的视频会议终端输入了声音数据时调用该用户的视频会议终端的图像采集设备实时采集当前图像以判断该用户是否在讲话,只有判断结果为该用户在讲话时才将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端,否则将该用户的视频会议终端输入的声音数据作为干扰音直接屏蔽掉,避免影响到其他用户,从而有效解决网络视频会议过程中存在干扰音的问题,保证了网络视频会议质量。
在一种具体实施方式中,步骤S104包括如下步骤S1041至S1043。
S1041.对预设时长的图像进行面部定位,以提取出多幅面部图像;
S1042.对所述多幅面部图像分别进行面部器官定位,以提取出多幅嘴部及喉部部分的局部特征图像;
S1043.基于所述多幅嘴部及喉部部分的局部特征图像判断该用户是否在讲话。
本实施例中,视频会议软件通过调用用户的视频会议终端的图像采集设备对会议中的用户图像进行采集,对于采集到的预设时长的图像,先进行用户面部图像提取,再进行嘴部及喉部部分的局部特征图像提取,并根据提取出的局部特征图像判断该用户是否在讲话,以减少计算量,提高计算速度。
在一种具体实施方式中,步骤S1043包括如下步骤Sa至Sd。
Sa.分别计算所述多幅嘴部及喉部部分的局部特征图像的特征值;
Sb.判断所述多幅嘴部及喉部部分的局部特征图像的特征值是否有运动变化,若是,则执行步骤Sc;若否,则执行步骤Sd;
Sc.判定该用户在讲话;
Sd.判定该用户未讲话。
本实施例中,通过监测用户嘴部及喉部部分的局部特征图像的特征值的变化情况,实现对该用户嘴部及喉部运动变化的监测与识别,以监测该用户是否有连续口形变化,从而判断该用户是否在讲话。
其中,可采用局部特征分析(LFA,Local Feature Analysis)算法实现面部器官定位,有效提取出嘴部及喉部部分的局部特征图像,以及对局部特征图像进行分析与运算,获取相应的特征值。由于LFA算法属于现有成熟技术,故对其具体算法及实现方式不再赘述。
在一种具体实施方式中,在步骤Sb判断为所述多幅嘴部及喉部部分的局部特征图像的特征值有运动变化之后,还包括如下步骤Se和Sf。
Se.获取该用户的说话口型模型;
Sf.判断所述多幅嘴部及喉部部分的局部特征图像的特征值的运动变化情况是否与该用户的说话口型模型相匹配,若是,则执行步骤Sc;若否,则执行步骤Sd。
本实施例中,即使用户的嘴部及喉部部分的局部特征图像的特征值有运动变化,也不一定证明该用户是在讲话,还需将局部特征图像的特征值的运动变化情况与该用户的说话口型模型进行数据对比与匹配,如果二者相匹配,则表明该用户在讲话;若二者不能匹配,则表明该用户没有在讲话,可能在打哈气等。
在一种具体实施方式中,在步骤S101之前,还包括如下步骤S107:
S107.预先获取各个用户的第一面部特征。
具体地,在每个用户注册网络视频会议软件账号时,网络视频会议软件会调用终端的图像采集设备强制采集该用户本人的图像,先经过初步的降噪处理,再通过现有的面部识别算法进行计算,就能得出该用户的第一面部特征并存入该用户的账号信息中,用于后续使用过程中的身份认证。
相应地,在步骤S103之后,还包括如下步骤S108和S109。
S108.对当前图像进行识别以得出该用户的第二面部特征;
需要说明的是,各用户的第二面部特征是基于其视频会议终端的图像采集设备实时采集的当前图像识别出的,而各用户的视频会议终端的图像采集设备实时采集的当前图像中的人像可能是该用户本人,也可能是其他人;
S109.将该用户的第二面部特征与其第一面部特征进行对比,并根据对比结果判断当前图像中的人像是否为该用户本人,若是,则执行步骤S104,即执行基于采集的预设时长的图像判断该用户是否在讲话的步骤;若否,则执行步骤S106,即执行将该用户的视频会议终端输入的声音数据屏蔽的步骤。
本实施例中,当用户打开视频会议终端中的网络视频会议软件后,需登录个人账号,账号信息包括用户名、密码及第一面部特征,然后在后续进行面部特征对比分析时,就可以将当前图像识别出的第二面部特征与从该用户的账号信息中提取出的第一面部特征进行对比以判断当前图像中的人像是否为该用户本人(即网络视频会议软件账号对应的用户本人),从而实现对用户身份进行校验和鉴别。并且,只有在用户本人的情况下,才执行后续的基于采集的预设时长的图像判断该用户是否在讲话的步骤;如果不是用户本人,则直接将该用户的视频会议终端输入的声音数据屏蔽。
在一种具体实施方式中,在步骤S104判断为该用户在讲话之后,还包括如下步骤S110和S111。
S110.获取该用户的手机号码;
S111.基于该用户的手机号码在其运营商处查询该用户的手机号码当前是否处于通话状态(即是否在打电话),若是,则执行步骤S106,即执行将该用户的视频会议终端输入的声音数据屏蔽的步骤;若否,则执行步骤S105,即执行将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端的步骤。
本实施例中,在判断为该用户在讲话之后,继续判断该用户是否在打电话,如果该用户在打电话,则视为干扰音,直接将该用户的视频会议终端输入的声音数据屏蔽;否则,认为该用户正在会议上发表讲话,将其声音数据转化为数字信号后传输给其他用户的视频会议终端。
在一种具体实施方式中,在步骤S106之后,还包括如下步骤S112:
S112.向该用户的视频会议终端发送提示信息,以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。
其中,提醒内容可以为:您当前有其他声音输入,请注意会议环境。
本实施例中,通过向用户的视频会议终端发送提示信息,提醒该用户当前有外界声音的干扰。
在一种具体实施方式中,在步骤S102之后,还包括如下步骤S113至S115。
S113.判断该用户是否允许在网络视频会议期间开启其视频会议终端的图像采集设备,若是,则在步骤S104判断为该用户在讲话之后,执行步骤S114;若否,则在步骤S1034判断为该用户在讲话之后,执行步骤S115;
S114.将该用户的视频会议终端的图像采集设备采集到的图像与该用户的视频会议终端输入的声音数据各自转化为数字信号后一起传输给其他用户的视频会议终端;
S115.仅将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端。
本实施例中,对于视频会议软件调用用户的视频会议终端的图像采集设备所采集的图像,分为两种情况:1)用户预先设置手动或者自动允许网络视频会议软件在网络视频会议期间开启其视频会议终端的图像采集设备,即允许将图像采集设备抓取的当前图像与音频输入设备输入的声音数据各自转化为数字信号后一起传输给其他用户的视频会议终端,使得其他用户既能看到该用户的图像又能听到该用户的声音;2)用户禁止网络视频会议软件在网络视频会议期间开启其视频会议终端的图像采集设备,即不允许将图像采集设备抓取的当前图像转化为数字信号后传输给其他用户的视频会议终端,仅允许将音频输入设备输入的声音数据转化为数字信号后传输给其他用户的视频会议终端,而图像采集设备抓取的当前图像仅用于前述图像识别与行为检测而不会传输给其他用户。
本公开实施例提供的网络视频会议中防干扰方法,在各个用户参加网络视频会议的过程中,若检测到某个用户的视频会议终端输入了声音数据,则立即调用该用户的视频会议终端的图像采集设备实时采集当前图像,若当前图像中有人像,则继续判断该人像是否为该用户本人,若为用户本人则基于采集的预设时长的图像判断该用户是否在讲话,若该用户在讲话,则继续判断该用户是否在打电话,若未打电话则将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端,由其他用户的视频会议终端重现为听觉可获取的信息;若当前图像中没有人像、或者该人像不是用户本人、或者该用户未讲话、或者该用户虽然在讲话但是在打电话,则将该用户的视频会议终端输入的声音数据定义为外界干扰音并予以屏蔽,不会转化成数字信号传输给其他用户的视频会议终端,同时该用户的视频会议终端的网络视频会议软件会弹出提示,以提醒该用户注意会议环境,从而对各用户的视频会议终端输入的声音进行相关管控,有效解决了网络视频会议过程中在用户不知情下外界声音干扰输入的问题,保证了网络视频会议质量。
图2为本公开实施例提供的网络视频会议中防干扰系统的结构示意图。如图2所示,所述系统2包括:检测模块201、调用模块202、第一判断模块203、第二判断模块204、转化模块205、传输模块206和屏蔽模块207。
其中,检测模块201设置为在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;调用模块202设置为在所述检测模块201检测到某个用户的视频会议终端输入了声音数据时,调用该用户的视频会议终端的图像采集设备实时采集当前图像;第一判断模块203设置为判断实时采集的当前图像中是否有人像;第二判断模块204设置为在所述第一判断模块203的判断结果为有人像时基于该用户的视频会议终端的图像采集设备采集的预设时长的图像判断该用户是否在讲话;转化模块205设置为在所述第二判断模块204的判断结果为该用户在讲话时,将该用户的视频会议终端输入的声音数据转化为数字信号;传输模块206设置为将所述转化模块205转化成的数字信号传输给其他用户的视频会议终端;屏蔽模块207设置为在所述第一判断模块203的判断结果为没有人像时,或者所述第二判断模块204的判断结果为该用户未讲话时,将该用户的视频会议终端输入的声音数据屏蔽。
在一种具体实施方式中,第二判断模块204包括:第一提取单元、第二提取单元和判断单元。
其中,第一提取单元设置为对该用户的视频会议终端的图像采集设备采集的预设时长的图像进行面部定位,以提取出多幅面部图像;第二提取单元设置为对所述多幅面部图像分别进行面部器官定位,以提取出多幅嘴部及喉部部分的局部特征图像;判断单元设置为基于所述多幅嘴部及喉部部分的局部特征图像判断该用户是否在讲话。
在一种具体实施方式中,判断单元包括:计算子单元和判断子单元。
其中,计算子单元设置为分别计算所述多幅嘴部及喉部部分的局部特征图像的特征值;判断子单元设置为判断所述多幅嘴部及喉部部分的局部特征图像的特征值是否有运动变化,若是,则判定该用户在讲话;若否,则判定该用户未讲话。
在一种具体实施方式中,判断单元还包括:获取子单元和第二判断子单元。
其中,获取子单元设置为获取该用户的说话口型模型;第二判断子单元设置为判断所述多幅嘴部及喉部部分的局部特征图像的特征值的运动变化情况是否与该用户的说话口型模型相匹配,若是,则判定该用户在讲话;若否,则判定该用户未讲话。
在一种具体实施方式中,所述系统2还包括:第一获取模块208、面部识别模块209、对比模块210和第三判断模块211。
其中,第一获取模块208设置为预先获取各个用户的第一面部特征;面部识别模块209设置为,在第一判断模块203的判断结果为有人像时,对当前图像进行识别以得出该用户的第二面部特征;对比模块210设置为将面部识别模块209得到的该用户的第二面部特征与第一获取模块208得到的该用户的第一面部特征进行对比;第三判断模块211设置为根据对比模块210的对比结果判断当前图像中的人像是否为该用户本人。
相应地,第二判断模块204具体设置为,在第三判断模块211的判断结果为该用户本人之后,再执行基于该用户的视频会议终端的图像采集设备采集的预设时长的图像判断该用户是否在讲话的操作;屏蔽模块207还设置为,在第三判断模块211的判断结果为不是该用户本人时,该用户的视频会议终端输入的声音数据屏蔽。
在一种具体实施方式中,所述系统2还包括:第二获取模块212和查询模块213。
其中,第二获取模块212设置为,在第二判断模块204的判断结果为用户在讲话之后,获取该用户的手机号码;查询模块213设置为基于该用户的手机号码在其运营商处查询该用户的手机号码当前是否处于通话状态。
相应地,屏蔽模块207还设置为,在查询模块213的查询结果为该用户的手机号码当前处于通话状态时,将该用户的视频会议终端输入的声音数据屏蔽。转换模块205还设置为,在查询模块213的查询结果为该用户的手机号码当前未处于通话状态时,将该用户的视频会议终端输入的声音数据转化为数字信号,再由传输模块206传输给其他用户的视频会议终端。
在一种具体实施方式中,所述系统2还包括:提示模块214。
提示模块214设置为,在屏蔽模块207将该用户的视频会议终端输入的声音数据屏蔽之后,向该用户的视频会议终端发送提示信息,以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。
在一种具体实施方式中,所述系统2还包括:第四判断模块215。
第四判断模块215设置为判断该用户是否允许在网络视频会议期间开启其视频会议终端的图像采集设备。
相应地,在第二判断模块204的判断结果为用户在讲话,并且第四判断模块215的判断结果为用户允许开启图像采集设备时,转化模块205设置为将该用户的视频会议终端的图像采集设备采集到的图像与该用户的视频会议终端输入的声音数据各自转化为数字信号,再由传输模块206一起传输给其他用户的视频会议终端。
在第二判断模块204的判断结果为用户在讲话,并且第四判断模块215的判断结果为用户不允许开启图像采集设备时,转化模块205设置为仅将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端。
本公开实施例提供的网络视频会议中防干扰系统,在各个用户参加网络视频会议的过程中,若检测到某个用户的视频会议终端输入了声音数据,则立即调用该用户的视频会议终端的图像采集设备实时采集当前图像,若当前图像中有人像,则继续判断该人像是否为该用户本人,若为用户本人则基于采集的预设时长的图像判断该用户是否在讲话,若该用户在讲话,则继续判断该用户是否在打电话,若未打电话则将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端,由其他用户的视频会议终端重现为听觉可获取的信息;若当前图像中没有人像、或者该人像不是用户本人、或者该用户未讲话、或者该用户虽然在讲话但是在打电话,则将该用户的视频会议终端输入的声音数据定义为外界干扰音并予以屏蔽,不会转化成数字信号传输给其他用户的视频会议终端,同时该用户的视频会议终端的网络视频会议软件会弹出提示,以提醒该用户注意会议环境,从而对各用户的视频会议终端输入的声音进行相关管控,有效解决了网络视频会议过程中在用户不知情下外界声音干扰输入的问题,保证了网络视频会议质量。
基于相同的技术构思,本公开实施例相应还提供一种计算机设备,如图3所示,所述计算机设备3包括存储器31和处理器32,所述存储器31中存储有计算机程序,当所述处理器32运行所述存储器31存储的计算机程序时,所述处理器32执行前述网络视频会议中防干扰方法。
基于相同的技术构思,本公开实施例相应还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行前述网络视频会议中防干扰方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (10)

1.一种网络视频会议中防干扰方法,其特征在于,包括:
在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;
若检测到某个用户的视频会议终端输入了声音数据,则调用该用户的视频会议终端的图像采集设备实时采集当前图像;
判断实时采集的当前图像中是否有人像;
若有,则基于采集的预设时长的图像判断该用户是否在讲话;
若该用户在讲话,则将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端;
若实时采集的当前图像中没有人像或者该用户未讲话,则将该用户的视频会议终端输入的声音数据屏蔽;
其中,在基于采集的预设时长的图像判断为该用户在讲话之后,还包括:
获取该用户的手机号码;
基于该用户的手机号码在其运营商处查询该用户的手机号码当前是否处于通话状态;
若是,则将该用户的视频会议终端输入的声音数据屏蔽;
若否,则将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端。
2.根据权利要求1所述的方法,其特征在于,所述基于采集的预设时长的图像判断该用户是否在讲话,包括:
对预设时长的图像进行面部定位,以提取出多幅面部图像;
对所述多幅面部图像分别进行面部器官定位,以提取出多幅嘴部及喉部部分的局部特征图像;以及,
基于所述多幅嘴部及喉部部分的局部特征图像判断该用户是否在讲话。
3.根据权利要求2所述的方法,其特征在于,所述基于所述多幅嘴部及喉部部分的局部特征图像判断该用户是否在讲话,包括:
分别计算所述多幅嘴部及喉部部分的局部特征图像的特征值;
判断所述多幅嘴部及喉部部分的局部特征图像的特征值是否有运动变化;
若是,则判定该用户在讲话;
若否,则判定该用户未讲话。
4.根据权利要求3所述的方法,其特征在于,在判断为所述多幅嘴部及喉部部分的局部特征图像的特征值有运动变化之后,还包括:
获取该用户的说话口型模型;
判断所述多幅嘴部及喉部部分的局部特征图像的特征值的运动变化情况是否与该用户的说话口型模型相匹配;
若是,则判定该用户在讲话;
若否,则判定该用户未讲话。
5.根据权利要求1所述的方法,其特征在于,在各个用户参加网络视频会议之前,还包括:
预先获取各个用户的第一面部特征;
在判断为实时采集的当前图像中有人像之后,还包括:
对当前图像进行识别以得出该用户的第二面部特征;
将该用户的第二面部特征与其第一面部特征进行对比,并根据对比结果判断当前图像中的人像是否为该用户本人;
若是,则执行基于采集的预设时长的图像判断该用户是否在讲话的步骤;
若否,则将该用户的视频会议终端输入的声音数据屏蔽。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在将该用户的视频会议终端输入的声音数据屏蔽之后,还包括:
向该用户的视频会议终端发送提示信息,以使该用户的视频会议终端弹出关于该用户当前有干扰音输入的提醒。
7.根据权利要求1-5中任一项所述的方法,其特征在于,还包括:
判断该用户是否允许在网络视频会议期间开启其视频会议终端的图像采集设备;
若是,则在基于采集的预设时长的图像判断为该用户在讲话之后,将该用户的视频会议终端的图像采集设备采集到的图像与该用户的视频会议终端输入的声音数据各自转化为数字信号后一起传输给其他用户的视频会议终端;
若否,则在基于采集的预设时长的图像判断为该用户在讲话之后,仅将该用户的视频会议终端输入的声音数据转化为数字信号后传输给其他用户的视频会议终端。
8.一种网络视频会议中防干扰系统,其特征在于,包括:
检测模块,其设置为在各个用户参加网络视频会议的过程中,实时检测每个用户的视频会议终端是否输入了声音数据;
调用模块,其设置为在所述检测模块检测到某个用户的视频会议终端输入了声音数据时,调用该用户的视频会议终端的图像采集设备实时采集当前图像;
第一判断模块,其设置为判断实时采集的当前图像中是否有人像;
第二判断模块,其设置为在所述第一判断模块的判断结果为有人像时基于该用户的视频会议终端的图像采集设备采集的预设时长的图像判断该用户是否在讲话;
转化模块,其设置为在所述第二判断模块的判断结果为该用户在讲话时,将该用户的视频会议终端输入的声音数据转化为数字信号;
传输模块,其设置为将所述转化模块转化成的数字信号传输给其他用户的视频会议终端;以及,
屏蔽模块,其设置为在所述第一判断模块的判断结果为没有人像时,或者所述第二判断模块的判断结果为该用户未讲话时,将该用户的视频会议终端输入的声音数据屏蔽;
还包括:第二获取模块,其设置为在第二判断模块的判断结果为用户在讲话之后,获取该用户的手机号码;以及,
查询模块,其设置为基于该用户的手机号码在其运营商处查询该用户的手机号码当前是否处于通话状态;
所述屏蔽模块还设置为,在查询模块的查询结果为该用户的手机号码当前处于通话状态时,将该用户的视频会议终端输入的声音数据屏蔽;
所述转化模块还设置为,在查询模块的查询结果为该用户的手机号码当前未处于通话状态时,将该用户的视频会议终端输入的声音数据转化为数字信号,再由传输模块传输给其他用户的视频会议终端。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据权利要求1至7中任一项所述的网络视频会议中防干扰方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,所述处理器执行根据权利要求1至7中任一项所述的网络视频会议中防干扰方法。
CN202110520179.3A 2021-05-13 2021-05-13 网络视频会议中防干扰方法、系统、设备及存储介质 Active CN113301291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110520179.3A CN113301291B (zh) 2021-05-13 2021-05-13 网络视频会议中防干扰方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110520179.3A CN113301291B (zh) 2021-05-13 2021-05-13 网络视频会议中防干扰方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113301291A CN113301291A (zh) 2021-08-24
CN113301291B true CN113301291B (zh) 2022-12-02

Family

ID=77321596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110520179.3A Active CN113301291B (zh) 2021-05-13 2021-05-13 网络视频会议中防干扰方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113301291B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230283740A1 (en) * 2022-03-03 2023-09-07 International Business Machines Corporation Front-end clipping using visual cues

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110072075A (zh) * 2019-04-30 2019-07-30 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质
CN110602432A (zh) * 2019-08-23 2019-12-20 苏州米龙信息科技有限公司 基于生物识别的会议系统及会议数据传输方法
CN111753769A (zh) * 2020-06-29 2020-10-09 歌尔科技有限公司 终端音频采集控制方法、电子设备及可读存储介质
CN112601045A (zh) * 2020-12-10 2021-04-02 广州虎牙科技有限公司 视频会议的发言控制方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014099809A2 (en) * 2012-12-21 2014-06-26 Dolby Laboratories Licensing Corporation Audio burst collision resolution
WO2015167441A1 (en) * 2014-04-28 2015-11-05 Hewlett-Packard Development Company, L.P. Muting a videoconference

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110072075A (zh) * 2019-04-30 2019-07-30 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质
CN110602432A (zh) * 2019-08-23 2019-12-20 苏州米龙信息科技有限公司 基于生物识别的会议系统及会议数据传输方法
CN111753769A (zh) * 2020-06-29 2020-10-09 歌尔科技有限公司 终端音频采集控制方法、电子设备及可读存储介质
CN112601045A (zh) * 2020-12-10 2021-04-02 广州虎牙科技有限公司 视频会议的发言控制方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113301291A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US10776073B2 (en) System and method for managing a mute button setting for a conference call
CN111402900B (zh) 一种语音交互方法,设备和系统
CN105706073B (zh) 呼叫处理
CN111683183B (zh) 一种多媒体会议非参会对话屏蔽处理方法及其系统
CN108696641B (zh) 通话提示方法、装置、存储介质及移动终端
CN113271430B (zh) 网络视频会议中防干扰方法、系统、设备及存储介质
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
CN115482830B (zh) 语音增强方法及相关设备
US20180158462A1 (en) Speaker identification
CN113301291B (zh) 网络视频会议中防干扰方法、系统、设备及存储介质
CN114333853A (zh) 一种音频数据的处理方法、设备和系统
CN115831155A (zh) 音频信号的处理方法、装置、电子设备及存储介质
CN111009239A (zh) 回声消除方法、回声消除装置及电子设备
US10924608B1 (en) Communication volume level change detection
CN105450970B (zh) 一种信息处理方法及电子设备
CN113284500A (zh) 音频处理方法、装置、电子设备及存储介质
CN112820300A (zh) 音频处理方法及装置、终端、存储介质
CN111988704B (zh) 声音信号处理方法、装置以及存储介质
CN113259620B (zh) 视频会议数据同步方法及装置
US11783837B2 (en) Transcription generation technique selection
CN111988426B (zh) 基于声纹识别的通信方法、装置、智能终端及存储介质
JP2004173124A (ja) 顧客データの管理方法
CN112863511A (zh) 信号处理方法、装置以及存储介质
JP2010103704A (ja) 音声変換装置
US11501575B1 (en) Illicit activity detection based on body language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant