CN115333879B - 一种远程会议方法及系统 - Google Patents
一种远程会议方法及系统 Download PDFInfo
- Publication number
- CN115333879B CN115333879B CN202210951076.7A CN202210951076A CN115333879B CN 115333879 B CN115333879 B CN 115333879B CN 202210951076 A CN202210951076 A CN 202210951076A CN 115333879 B CN115333879 B CN 115333879B
- Authority
- CN
- China
- Prior art keywords
- parameter
- parameters
- parameter set
- basic information
- analysis result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007613 environmental effect Effects 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims description 52
- 230000008030 elimination Effects 0.000 claims description 18
- 238000003379 elimination reaction Methods 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000001815 facial effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/273—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1827—Network arrangements for conference optimisation or adaptation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种远程会议方法及系统,所述方法应用于一种远程会议系统,所述系统包括远程会议装置,所述方法包括:采集获取目标对象的多维度基础信息参数,获得基础信息参数集合;采集获取目标环境的多维度环境状态参数,获得环境状态参数集合;根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合;将分析结果参数集合进行优化,获得优化结果参数集合;设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合;若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
Description
技术领域
本发明涉及远程会议领域,具体为一种远程会议方法及系统。
背景技术
随着文化和经济的全球化,在具有不同母语的人员之间进行的会议也越来越多,尤其是在大多数跨国公司中,经常会有多语言的会议,地理上分散的用户可以共聚一处,通过图形、声音等多种方式交流信息,支持人们远距离进行实时信息交流与共享、开展协同工作的应用系统,视频会议极大的方便了协作成员之间真实、直观的交流,还可以广泛用于现场教学、现场办公、商务谈判等多种领域。
目前的远程会议是在通信的发送端,将图像和声音信号变成数字化信号,在接收端再把它重现为视觉、听觉可获取的信息,其不仅可以听到声音,还可以看到会议参加者,共同面对商讨问题,研究图纸、实物,与真实的会议无异,使每一个与会者确有身临其境之感,还可以同时提供文件传真、静止图文传递等一系列辅助服务项目。
然而在远程会议开会的进程中会遇到一些干扰,例如某一远程会议上终端前的领导正在发表开会内容,旁边出现了某个朋友进入了屏幕前的画面并发出了声音,这样干扰了开会的进程,或者某一远程会议正在展开一场头脑风暴,终端前的员工和其朋友边开会边聊天,但是员工和其朋友的身影及声音都会被别人看到、听到,也会造成不好的影响,远程会议系统比较机械化,不能人性化的过滤掉多余的声音和图像。
发明内容
本申请提供了一种远程会议方法及系统,用于针对解决现有技术中远程会议系统不能人性化的过滤掉多余的声音和图像的技术问题。
鉴于上述问题,本申请提供了一种远程会议方法。
本申请的第一个方面,提供了一种远程会议方法,所述方法应用于一种远程会议系统,所述系统包括远程会议装置,所述方法包括:采集获取目标对象的多维度基础信息参数,获得基础信息参数集合;采集获取目标环境的多维度环境状态参数,获得环境状态参数集合;根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合;将分析结果参数集合进行优化,获得优化结果参数集合;设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合;若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
本申请的第二个方面,提供了一种远程会议方法,所述系统包括:第一获得单元,采集获取目标对象的多维度基础信息参数,获得基础信息参数集合;第二获得单元,采集获取工作环境的多维度环境状态参数,获得环境状态参数集合;第一处理单元,根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合;第二处理单元,将分析结果参数集合进行优化,获得优化结果参数集合;第三处理单元,设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合;第四处理单元,若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
本申请的第三个方面,提供了一种远程会议方法,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使系统以执行如第一方面所述方法的功能。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例通过采集获取目标对象的多维度基础信息参数,获得基础信息参数集合,再采集获取目标环境的多维度环境状态参数,获得环境状态参数集合,根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合,将分析结果参数集合进行优化,获得优化结果参数集合,设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合,若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合,避免了远程会议系统不能人性化的过滤掉多余的声音和图像的技术问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供了一种远程会议方法及系统流程示意图;
图2为本申请提供的一种远程会议方法及系统中生成优化结果的流程示意图;
图3为本申请提供的一种远程会议方法及系统中进行消纹处理的流程示意图;
图4为本申请实施例提供了一种远程会议方法及系统中进行消像处理的流程示意图;
图5为本申请实施例提供了一种远程会议方法及系统结构示意图;
图6为本申请示例性电子设备的结构示意图。
附图标记说明:11、第一获取单元,12、第二获取单元,13、第一处理单元,14、第二处理单元,15、第三处理单元,16、第四处理单元;300、电子设备;301、存储器;302、处理器;303、通信接口;304、滤波器;305、A/D转换器;306、总线架构。
具体实施方式
本申请通过提供了一种远程会议方法及系统,用于针对解决现有技术中远程会议系统不能人性化的过滤掉多余的声音和图像的技术问题。
申请概述
远程会议开会的进程中会遇到一些干扰因素,有时候会干扰到整个会议,如果画面中出现了不必要的人物或者会议讨论中出现了其他的声音,都会造成不好的影响,通过改良之后,远程会议系统会分析目标对象和目标环境等因素,在不影响整个会议进程的前提下通过分析处理更人性化的过滤掉多余的声音和图像。
针对上述技术问题,本申请提供的技术方案总体思路如下:
本申请实施例通过采集获取目标对象的多维度基础信息参数,获得基础信息参数集合,再采集获取目标环境的多维度环境状态参数,获得环境状态参数集合,根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合,将分析结果参数集合进行优化,获得优化结果参数集合,设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合,若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合,避免了远程会议系统不能人性化的过滤掉多余的声音和图像的技术问题。
在介绍了本申请基本原理后,下面,将参考附图对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。基于本申请的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围,另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部。
实施例一
如图1所示,本申请提供了一种远程会议方法,所述方法应用于一种远程会议系统,所述系统包括远程会议装置,所述方法包括:
S100:采集获取目标对象的多维度基础信息参数,获得基础信息参数集合;
具体而言,目标对象指的是参与远程会议的员工,基础信息参数指的是远程会议中终端前员工身处的环境内采集到员工的声音及人脸数据,采集方式包括但不限于:音频采集装置采集远程会议员工的声音信息,摄像采集装置采集远程会议人员的人脸信息。
本申请实施例提供的方法中的步骤S100包括:
S110:采集获取目标对象的声音参数,获得第一基础信息参数;
S120:采集获取目标对象的人脸参数,获得第二基础信息参数;
S130:将所述第一信息参数、第二信息参数作为所述信息参数集合。
本申请实施例中,声音信息指的是目标对象的声纹内容,人脸信息指的是目标对象的身份,这两者都是为了确认目标对象的身份信息,示例性的,当采集到员工A的声音和人脸信息,就知道该声音信息和人脸信息就代表员工A。
S200:采集获取目标环境的多维度环境状态参数,获得环境状态参数集合;
具体而言,目标环境指远程会议中终端前员工身处的环境,环境状态参数指的是远程会议中终端前员工身处的环境内采集到所有的声音、人脸及背景数据,采集方式包括但不限于:音频采集装置采集环境内的声音,摄像采集装置采集环境内的人脸和背景。
本申请实施例提供的方法中的步骤S200包括:
S210:采集获取目标环境的音频参数,获得第一环境状态参数;
S220:采集获取目标环境的人脸参数,获得第二环境状态参数;
S230:采集获取目标环境的背景参数,获得第三环境状态参数;
S240:将所述第一环境状态参数、第二环境状态参数、第三环境状态参数作为所述环境状态参数集合。
本申请实施例中,音频参数是远程会议中终端前员工身处的环境内采集到所有的声音数据,示例性的,远程会议中终端前员工说了一句话或者该员工手机响起了音乐声,远程会议中的其他人都会听到,背景参数是远程会议中终端前员工身处的环境无人时采集到背景数据。
S300:根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合;
本申请实施例中,将基础信息参数集合作为对比模板,将环境状态集合的参数与对比模板匹配得出分析结果参数集合,具体的,将第一环境状态参数与第一基础信息参数对比,将第二环境状态参数与第二基础信息参数对比,示例性的,可能会出现远程会议中终端前员工正在发表讲话、有朋友出现在员工身旁及除了员工声音还有其他声音等情况,将这些情况下的参数与原始采集该员工的声音和人脸参数作比对,得到不同组对比结果。
本申请实施例提供的方法中的步骤S300包括:
S310:根据第一环境状态参数和所述第一基础信息参数分析,获得第一分析结果参数;
S320:根据第二环境状态参数和所述第二基础信息参数分析,获得第二分析结果参数;
S330:将所述第一分析结果参数、第二分析参数集合作为所述分析结果参数集合。
具体的,将第一基础信息参数作为对比模板,将第一环境状态参数与对比模板匹配得出第一分析结果参数,将第二基础信息参数作为对比模板,将第二环境状态参数与对比模板匹配得出第一分析结果参数,示例性的,将原始采集到员工的声音和目前远程会议中终端前人物的声音或环境内其他的声音作对比,得到不同组声音对比结果,将原始采集到员工的人脸和目前远程会议中终端前人物的人脸作对比,得到不同组人脸对比结果,这样就得到了不同组声音人脸对比结果。
S400:将分析结果参数集合进行优化,获得优化结果参数集合;
本申请实施例中,根据第一环境状态参数与第一基础信息参数对比、第二环境状态参数与第二基础信息参数对比得出的分析结果参数集合,只输出符合第一基础信息参数和第二基础信息参数的环境状态参数,示例性的,将原始采集到员工的声音和目前远程会议中终端前人物的声音或环境内其他的声音作对比,将原始采集到员工的人脸和目前远程会议中终端前人物的人脸作对比,这样就得到了不同组声音人脸对比结果,根据不同组声音对比结果,如果远程会议中终端前只出现该员工的声音,则不需要优化,如果远程会议中终端前出现该员工的声音和其他声音,则需要优化,过滤掉其他声音,保留该员工的声音,根据不同组人脸对比结果,如果远程会议中终端前只出现该员工,则不需要优化,如果远程会议中终端前出现该员工和其他人物,则需要优化,保留该员工的人脸,根据原始采集到远程会议中终端前的背景,重新覆盖掉其他人物的人脸区域。
进一步的,如图2所示,本申请实施例提供的方法中的步骤S400包括:
S410:根据所述第一分析结果集合进行消纹处理,生成第一优化结果参数;
S420:根据所述第二分析结果集合进行消像处理,生成第二优化结果参数;
S430:将所述第一优化结果参数、第二优化结果参数作为所述优化结果参数集合。
其中,如图3所示,本申请实施例提供的方法中的步骤S410包括:
S411:根据所述第一信息参数建立基础声纹识别模型,生成基础声纹识别模型数据库参数;
S412:根据所述第一环境状态参数生成对照声纹识别模型参数;
S413:根据所述对照声纹识别模型参数和所述基础声纹识别模型数据库参数比对分析,仅保留所述对照声纹识别模型参数中与所述基础声纹识别模型数据库参数相似度高的声纹参数,生成第一优化结果参数。
本申请实施例中,根据远程会议中终端前员工输入的声音,对该员工的声音进行预加重、分帧和加窗等预处理操作,将该员工声音信号经过A/D转换器转换为数字音频信号,预处理过程如下:先归一化处理,归一化处理的目的是消除不同样本声音之间的大小差异,再预加重,预加重通常使用带有6dB/倍频的一阶数字滤波器来实现,最后对音频信号进行加窗分帧,虽然声音信号是非线性时变信号,但它具有短时平稳的特点,对其进行分帧可以提取其短时特性,通常取帧长为20ms,为了避免帧与帧之间的特性变化过大,帧移通常取帧长的1/2,为了进行短时分析,必须通过加窗来选取窗口内的声音信号,窗口外的声音信号为0,最常用的窗口函数是汉明窗,在数字信号处理过程中,每次傅里叶变换只能对有限长度的时域数据进行变换,因此,需要对时域信号进行信号截断,即使是周期信号,如果截断的时间长度不是周期的整数倍,那么,截取后的信号将会存在泄漏,为了将这个泄漏误差减少到最小程度,我们需要使用加权函数,也叫窗函数,加窗主要是为了使时域信号似乎更好地满足傅里叶处理的周期性要求,减少泄漏,这里面,有很多窗函数可以使用,不过,每种窗函数的使用场景是不同的,由于直接对信号截断会产生频率泄露,为了改善频率泄露的情况,加非矩形窗,一般都是加汉明窗,适用于非周期性的连续信号,一般取256点为一帧,帧间重叠为128点。
预处理后的声音数据经过快速傅里叶变换,计算出每帧数据的频谱参数,再将每帧数据的频谱参数通过一组N个三角形带通滤波器构成的梅尔频率滤波器做卷积运算,之后对每个频带的输出取对数,求出每个输出的对数能量,最后对此N个参数进行离散余弦变换,求出梅尔倒谱系数作为声音特征参数,该声音特征参数就是代表该员工声音的特征,用提取的声音特征参数作为该员工的高斯混合模型反复训练,得到该员工专属的高斯混合声纹模型,并将远程会议中终端前人物的声音与该员工专属的高斯混合声纹模型来匹配运算,以判断该声音是否与该员工的声音匹配,如果匹配度高,说明目前采集到远程会议中终端前人物的声音就是该员工的声音,并且将采集到的声音保留下来,如果匹配度低,说明目前采集到远程会议中终端前人物的声音不是该员工的声音,不保留该采集的声音,如果既有匹配度高的声纹又有匹配度低的声纹,则仅保留匹配度高的声纹对应的声音。
其中,如图4所示,本申请实施例提供的方法中的步骤S420包括:
S421:根据所述第三环境状态参数生成背景图像数据库参数;
S422:根据所述第二基础信息参数生成人脸图像数据库参数;
S423:根据所述第二环境状态参数生成对照人脸图像参数;
S424:通过人脸识别,根据背景图像数据库参数覆盖未识别的对照人脸图像参数图像区域,生成第二优化结果参数。
本申请实施例中,根据搭载的CANN图像消除应用,智能地将图片进行实例分割,可借助实例分割算法MaskRCNN便能自动确定图片中各个目标的位置和类别,图像实例分割是在语义检测的基础上进一步细化,分离对象的前景与背景,实现像素级别的对象分离,并且图像的语义分割与图像的实例分割是两个不同的概念,语义分割仅仅会区别分割出不同类别的物体,而实例分割则会进一步的分割出同一个类中的不同实例的物体,实例分割算法MaskRCNN能自动确定图片中各个目标的位置和类别,并且标识出目标物体的像素位置,画出物体轮廓,即mask区域,指定好待消除的mask区域后,还需要根据背景对消除的区域进行填充,最终生成自然清晰的图片,而MaskRCNN模型使用的是COCO数据集训练的,COCO数据集是一个可用于图像检测,语义分割和图像标题生成的大规模数据集,本应用中主要针对人物进行消除,因此对识别目标做了选择,仅保留人物目标,下面基于GAN模型的修复框架包括粗和精两个自编码器网络架构来实现智能填充mask区域,修复图像,通过粗修自编码器来生成待修复部分的图像的大体轮廓,根据第三环境状态参数得到大量背景图像,自编码器在训练时记录了大量的图像信息,即使图像部分缺失,也具有重建图像的能力,但自编码器生成的图像会模糊,这是自编码器的固有缺陷,因此需要再将该图像送入到第二阶的精修自编码器进行修复质量提升,再由精修自编码器对上面生成的mask内的图像进行精细加工,使该区域图像变得清晰,该阶自编码器的原理是将图像切成一定数量的Patch,并生成可以记录patch间相似度的注意力矩阵,注意力矩阵记录了图片中两两patch的相似度,修复mask内的图像其实就是利用注意力矩阵,将待修复的patch与mask外patch相似度作为权重,将mask外所有patch的特征与对应相似度加权求和之后的结果作为待修复的patch的特征,经过这样的操作后待修补的mask内的图像就能通过使用mask外的上下文信息得到精修,生成更清晰的图像,示例性的,远程会议中终端前除员工外又出现了其他人物,由于未识别该人物的人脸,则智能圈出该人物头像作为mask区域,根据背景图像,智能修复该马赛克区域来覆盖该人物的头像。
S500:设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合。
本申请实施例中,约束条件是指环境状态参数集合中是否只有基础信息参数集合中的参数,示例性的,远程会议中终端前只有员工的声音和人像就满足条件,其他情况中不满足条件。
S600:若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
本申请实施例中,若环境状态参数集合中只出现了基础信息参数集合中的参数,则正常输出远程会议中终端前的声音和人像,若环境状态参数集合中出现了除基础信息参数集合中的参数外还有额外的参数,则输出远程会议中终端前经过消纹和消像优化处理的声音和人像,示例性的,远程会议中终端前只有员工的声音和人像,就正常输出,其他远程会议中终端的人能正常听到员工的声音和人像,远程会议中终端前除员工的声音和人像还出现了其他人物的声音和人像,则经过优化再输出,其他远程会议中终端的人只能听到该员工的声音和人像。
实施例二
基于与前述实施例中一种远程会议方法及系统相同的发明构思,如图4所示,本申请提供了其一种远程会议方法及系统,其中,所述一种远程会议系统,其中,如图5所示,所述系统和通信接口303连接,包括:
第一获得单元11,采集获取目标对象的多维度基础信息参数,获得基础信息参数集合;
第二获得单元12,采集获取目标环境的多维度环境状态参数,获得环境状态参数集合;
第一处理单元13,根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合;
第二处理单元14,将分析结果参数集合进行优化,获得优化结果参数集合;
第三处理单元15,设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合;
第四处理单元16,若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
进一步的,所述系统还包括:
第三获得单元,采集获取目标对象的声音参数,获得第一基础信息参数;
第四获得单元,采集获取目标对象的人脸参数,获得第二基础信息参数;
第五处理单元,将所述第一信息参数、第二信息参数作为所述信息参数集合。
进一步的,所述系统还包括:
第五获得单元,采集获取目标环境的音频参数,获得第一环境状态参数;
第六获得单元,采集获取目标环境的人脸参数,获得第二环境状态参数;
第七获得单元,采集获取目标环境的背景参数,获得第三环境状态参数;
第六处理单元,将所述第一环境状态参数、第二环境状态参数、第三环境状态参数作为所述环境状态参数集合。
进一步的,所述系统还包括:
第七处理单元,根据第一环境状态参数和所述第一基础信息参数分析,获得第一分析结果参数;
第八处理单元,根据第二环境状态参数和所述第二基础信息参数分析,获得第二分析结果参数;
第九处理单元,将所述第一分析结果参数、第二分析参数集合作为所述分析结果参数集合。
进一步的,所述系统还包括:
第十处理单元,根据所述第一分析结果集合进行消纹处理,生成第一优化结果参数;
第十一处理单元,根据所述第二分析结果集合进行消像处理,生成第二优化结果参数;
第十二处理单元,将所述第一优化结果参数、第二优化结果参数作为所述优化结果参数集合。
进一步的,所述系统还包括:
第十三处理单元,根据所述第一信息参数建立基础声纹识别模型,生成基础声纹识别模型数据库参数;
第十四处理单元,根据所述第一环境状态参数生成对照声纹识别模型参数;
第十五处理单元,根据所述对照声纹识别模型参数和所述基础声纹识别模型数据库参数比对分析,仅保留所述对照声纹识别模型参数中与所述基础声纹识别模型数据库参数相似度高的声纹参数,生成第一优化结果参数。
进一步的,所述系统还包括:
第十六处理单元,根据所述第三环境状态参数生成背景图像数据库参数;
第十七处理单元,根据所述第二基础信息参数生成人脸图像数据库参数;
第十八处理单元,根据所述第二环境状态参数生成对照人脸图像参数;
第十九处理单元,通过人脸识别,根据背景图像数据库参数覆盖未识别的对照人脸图像参数图像区域,生成第二优化结果参数。
示例性电子设备
下面参考图6来描述本申请的电子设备。
基于与前述实施例中一种远程会议方法及系统相同的发明构思,本申请还提供了一种远程会议系统,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使得系统以执行实施例一所述方法的步骤。
该电子设备300包括:处理器302、通信接口303、存储器301。可选的,电子设备300还可以包括总线架构306。其中,通信接口303、处理器302以及存储器301可以通过总线架构306相互连接;总线架构306可以是外设部件互连标(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry Standardarchitecture,简称EISA)总线等。所述总线架构306可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器302可以是一个CPU,微处理器,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。
通信接口303,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN),有线接入网等。
存储器301可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable Programmable read-only memory,EEPROM)、只读光盘(compactdiscread-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线架构306与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器301用于存储执行本申请方案的计算机执行指令,并由处理器302来控制执行。处理器302用于执行存储器301中存储的计算机执行指令,从而实现本申请上述实施例提供的一种扫地机器人的激光雷达导航方法。
本领域普通技术人员可以理解:本申请中涉及的第一、第二等各种数字编号仅为描述方便进行的区分,并不用来限制本申请的范围,也不表示先后顺序。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“至少一个”是指一个或者多个。至少两个是指两个或者多个。“至少一个”、“任意一个”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个、种),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指
令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
本申请中所描述的各种说明性的逻辑单元和电路可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本申请中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于终端中。可选地,处理器和存储媒介也可以设置于终端中的不同的部件中。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。
Claims (4)
1.一种远程会议方法,其特征在于,所述方法应用于一种远程会议系统,所述系统包括远程会议装置,所述方法包括:
采集获取目标对象的多维度基础信息参数,获得基础信息参数集合,包括:采集获取目标对象的声音参数,获得第一基础信息参数;采集获取目标对象的人脸参数,获得第二基础信息参数;将所述第一基础信息参数、第二基础信息参数作为所述基础信息参数集合;
采集获取目标环境的多维度环境状态参数,获得环境状态参数集合,包括:采集获取目标环境的音频参数,获得第一环境状态参数;采集获取目标环境的人脸参数,获得第二环境状态参数;采集获取目标环境的背景参数,获得第三环境状态参数;将所述第一环境状态参数、第二环境状态参数、第三环境状态参数作为所述环境状态参数集合;
根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合,包括:根据第一环境状态参数和所述第一基础信息参数分析,获得第一分析结果参数;根据第二环境状态参数和所述第二基础信息参数分析,获得第二分析结果参数;将所述第一分析结果参数、第二分析结果参数作为所述分析结果参数集合;
将分析结果参数集合进行优化,获得优化结果参数集合,包括:根据所述第一分析结果参数进行消纹处理,生成第一优化结果参数;根据所述第二分析结果参数进行消像处理,生成第二优化结果参数;将所述第一优化结果参数、第二优化结果参数作为所述优化结果参数集合;其中,根据所述第一分析结果参数进行消纹处理,生成第一优化结果参数,包括:根据所述第一基础信息参数建立基础声纹识别模型,生成基础声纹识别模型数据库参数;根据所述第一环境状态参数生成对照声纹识别模型参数;根据所述对照声纹识别模型参数和所述基础声纹识别模型数据库参数比对分析,仅保留所述对照声纹识别模型参数中与所述基础声纹识别模型数据库参数相似度高的声纹参数,生成第一优化结果参数;其中,根据所述第二分析结果参数进行消像处理,生成第二优化结果参数,包括:根据所述第三环境状态参数生成背景图像数据库参数;根据所述第二基础信息参数生成人脸图像数据库参数;根据所述第二环境状态参数生成对照人脸图像参数;通过人脸识别,根据背景图像数据库参数覆盖未识别的对照人脸图像参数图像区域,生成第二优化结果参数;
设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合;
若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
2.一种远程会议系统,其特征在于,所述系统包括:
第一获得单元,采集获取目标对象的多维度基础信息参数,获得基础信息参数集合,包括:采集获取目标对象的声音参数,获得第一基础信息参数;采集获取目标对象的人脸参数,获得第二基础信息参数;将所述第一基础信息参数、第二基础信息参数作为所述基础信息参数集合;
第二获得单元,采集获取目标环境的多维度环境状态参数,获得环境状态参数集合,包括:采集获取目标环境的音频参数,获得第一环境状态参数;采集获取目标环境的人脸参数,获得第二环境状态参数;采集获取目标环境的背景参数,获得第三环境状态参数;将所述第一环境状态参数、第二环境状态参数、第三环境状态参数作为所述环境状态参数集合;
第一处理单元,根据所述基础信息参数集合及所述环境状态参数集合进行分析,获得分析结果参数集合,包括:根据第一环境状态参数和所述第一基础信息参数分析,获得第一分析结果参数;根据第二环境状态参数和所述第二基础信息参数分析,获得第二分析结果参数;将所述第一分析结果参数、第二分析结果参数作为所述分析结果参数集合;
第二处理单元,将分析结果参数集合进行优化,获得优化结果参数集合,包括:根据所述第一分析结果参数进行消纹处理,生成第一优化结果参数;根据所述第二分析结果参数进行消像处理,生成第二优化结果参数;将所述第一优化结果参数、第二优化结果参数作为所述优化结果参数集合;其中,根据所述第一分析结果参数进行消纹处理,生成第一优化结果参数,包括:根据所述第一基础信息参数建立基础声纹识别模型,生成基础声纹识别模型数据库参数;根据所述第一环境状态参数生成对照声纹识别模型参数;根据所述对照声纹识别模型参数和所述基础声纹识别模型数据库参数比对分析,仅保留所述对照声纹识别模型参数中与所述基础声纹识别模型数据库参数相似度高的声纹参数,生成第一优化结果参数;其中,根据所述第二分析结果参数进行消像处理,生成第二优化结果参数,包括:根据所述第三环境状态参数生成背景图像数据库参数;根据所述第二基础信息参数生成人脸图像数据库参数;根据所述第二环境状态参数生成对照人脸图像参数;通过人脸识别,根据背景图像数据库参数覆盖未识别的对照人脸图像参数图像区域,生成第二优化结果参数;
第三处理单元,设置约束条件,判断所述环境状态参数集合是否满足所述基础信息参数集合;
第四处理单元,若所述环境状态参数集合满足所述基础信息参数集合,则正常输出,以及,若所述环境状态参数集合不满足所述基础信息参数集合,则输出化结果参数集合。
3.一种远程会议电子设备,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序,当所述程序被所述处理器执行时,使处理器实现如权利要求1所述方法的步骤。
4.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210951076.7A CN115333879B (zh) | 2022-08-09 | 2022-08-09 | 一种远程会议方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210951076.7A CN115333879B (zh) | 2022-08-09 | 2022-08-09 | 一种远程会议方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115333879A CN115333879A (zh) | 2022-11-11 |
CN115333879B true CN115333879B (zh) | 2023-11-07 |
Family
ID=83922389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210951076.7A Active CN115333879B (zh) | 2022-08-09 | 2022-08-09 | 一种远程会议方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115333879B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116708709B (zh) * | 2023-08-01 | 2024-03-08 | 深圳市海域达赫科技有限公司 | 一种基于云服务的通讯系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324562A (zh) * | 2018-03-28 | 2019-10-11 | 青岛海尔多媒体有限公司 | 控制智能会议的方法、装置和系统及计算机可读存储介质 |
CN111683183A (zh) * | 2020-05-29 | 2020-09-18 | 太仓秦风广告传媒有限公司 | 一种多媒体会议非参会对话屏蔽处理方法及其系统 |
CN111726559A (zh) * | 2020-05-29 | 2020-09-29 | 太仓秦风广告传媒有限公司 | 一种用于多媒体视频会议中的图像模糊处理方法及装置 |
CN111754990A (zh) * | 2020-06-24 | 2020-10-09 | 杨文龙 | 语音聊天协同处理方法及装置 |
CN112672095A (zh) * | 2020-12-25 | 2021-04-16 | 联通在线信息科技有限公司 | 远程会议系统 |
CN113271430A (zh) * | 2021-05-13 | 2021-08-17 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11019498B2 (en) * | 2019-07-11 | 2021-05-25 | International Business Machines Corporation | Conference parameter setting based on locational attributes |
US20220238091A1 (en) * | 2021-01-27 | 2022-07-28 | Dell Products L.P. | Selective noise cancellation |
-
2022
- 2022-08-09 CN CN202210951076.7A patent/CN115333879B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324562A (zh) * | 2018-03-28 | 2019-10-11 | 青岛海尔多媒体有限公司 | 控制智能会议的方法、装置和系统及计算机可读存储介质 |
CN111683183A (zh) * | 2020-05-29 | 2020-09-18 | 太仓秦风广告传媒有限公司 | 一种多媒体会议非参会对话屏蔽处理方法及其系统 |
CN111726559A (zh) * | 2020-05-29 | 2020-09-29 | 太仓秦风广告传媒有限公司 | 一种用于多媒体视频会议中的图像模糊处理方法及装置 |
CN111754990A (zh) * | 2020-06-24 | 2020-10-09 | 杨文龙 | 语音聊天协同处理方法及装置 |
CN112672095A (zh) * | 2020-12-25 | 2021-04-16 | 联通在线信息科技有限公司 | 远程会议系统 |
CN113271430A (zh) * | 2021-05-13 | 2021-08-17 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
校园网环境下的语音会议系统;王宝军;计算机时代(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115333879A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950723B (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN111883107B (zh) | 语音合成、特征提取模型训练方法、装置、介质及设备 | |
CN115333879B (zh) | 一种远程会议方法及系统 | |
CN113870892A (zh) | 基于语音识别的会议记录方法、装置、设备及存储介质 | |
CN110503957A (zh) | 一种基于图像去噪的语音识别方法及装置 | |
CN111460094B (zh) | 一种基于tts的音频拼接优化的方法及其装置 | |
CN112420049A (zh) | 数据处理方法、装置及存储介质 | |
CN116708055B (zh) | 智能多媒体视听图像处理方法、系统及存储介质 | |
US11600279B2 (en) | Transcription of communications | |
CN114783454B (zh) | 一种模型训练、音频降噪方法、装置、设备及存储介质 | |
CN115294987A (zh) | 一种会议记录生成方法、装置、设备及存储介质 | |
CN115623134A (zh) | 会议音频处理方法、装置、设备及存储介质 | |
CN112820292B (zh) | 生成会议纪要的方法、装置、电子装置及存储介质 | |
CN111833897B (zh) | 一种用于交互式教育的语音增强方法 | |
US20200184973A1 (en) | Transcription of communications | |
CN113889086A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN113035240A (zh) | 语音播报方法、装置、设备及存储介质 | |
CN113312928A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN114764839A (zh) | 动态视频生成方法、装置、可读存储介质及终端设备 | |
CN111081221A (zh) | 训练数据选择方法、装置、电子设备及计算机存储介质 | |
CN115209218B (zh) | 一种视频信息处理方法、电子设备及存储介质 | |
CN113936698B (zh) | 音频数据的处理方法、装置以及电子设备 | |
CN113329190B (zh) | 一种动漫设计视频制作分析管理方法、设备、系统及计算机存储介质 | |
CN114697687B (zh) | 一种数据处理方法和装置 | |
CN118053439A (zh) | 语音降噪方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |