CN110072075A - 一种基于人脸识别的会议管理方法、系统和可读存储介质 - Google Patents
一种基于人脸识别的会议管理方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN110072075A CN110072075A CN201910359326.6A CN201910359326A CN110072075A CN 110072075 A CN110072075 A CN 110072075A CN 201910359326 A CN201910359326 A CN 201910359326A CN 110072075 A CN110072075 A CN 110072075A
- Authority
- CN
- China
- Prior art keywords
- facial feature
- participant
- feature data
- face
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 36
- 230000001815 facial effect Effects 0.000 claims description 149
- 239000013598 vector Substances 0.000 claims description 34
- 239000000284 extract Substances 0.000 claims description 27
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000000034 method Methods 0.000 description 16
- 210000003128 head Anatomy 0.000 description 10
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 240000006487 Aciphylla squarrosa Species 0.000 description 2
- 241000218691 Cupressaceae Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010792 warming Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明涉及人脸识别技术,具体提供了一种基于人脸识别的会议管理方法、系统和可读存储介质,通过人脸识别技术,对参会者进行面部特征提取,与预设的数据库中的面部特征进行比对,获取人物身份信息,可以自动识别每个参会者的语言信息,自动进行翻译,避免繁琐的人工后台翻译过程,可以满足多语种人员同时进行交流,并最终自动生成会议纪要。通过本发明的技术方案,还可以对会议进行签到;并且还通过面部比对,确定是否为对应参会者,保证了会议的安全性。将参会者的身份信息呈现在视频页面中参会者所在的分屏界面,使得用户能够及时获知每一参会者的身份信息,提高了视频会议的效率,同时提升了用户体验。
Description
技术领域
本发明涉及人脸识别技术领域,尤其涉及一种基于人脸识别的会议管理方法、系统和可读存储介质。
背景技术
视频会议系统,包括软件视频会议系统和硬件视频会议系统,是指两个或两个以上不同地方的个人或群体,通过现有的各种电信通讯传输媒体,将人物的静、动态图像、语音、文字、图片等多种资料分送到各个用户的计算机上,使得在地理上分散的用户可以共聚一处,通过图形、声音等多种方式交流信息,增加双方对内容的理解能力。
现在一些国际或者大型公司会议中,由于存在不同国家和地区的参会者,所以同传系统都需要人工手动选择收听语言,在参会者发言时,后台对发言人进行人工翻译,需要大量的人力。现有的人工智能翻译产品只能满足单人交流,手动切换语种,不能够自动切换语种,并满足多人多语种交流的目的。
另外,在多方视频会议过程中,接入视频会议的用户可能来自同一公司不同地区的分部,或者来自不同的公司,参加视频会议的多方之间可能彼此并不熟悉,若逐一的进行介绍,必然浪费视频会议的时间,降低视频会议的效率,而在视频会议过程中,若用户不能识别出所有的与会者身份,也不便于沟通交流。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于人脸识别的会议管理方法、系统和可读存储介质。
为了实现上述目的,本发明提供了一种基于人脸识别的会议管理方法,包括:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
本方案中,还包括:
在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字,将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
本方案中,还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
本方案中,在建立视频连接之前还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;
将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
本方案中,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
本方案中,还包括:
将所述预设的语言文字转换为会议记录日志。
本发明第二部分还提供了一种基于人脸识别的会议管理系统,该系统包括:存储器、处理器及摄像装置,所述存储器中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被所述处理器执行时实现如下步骤:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
本方案中,还包括:
在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字,将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示;和
对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
本方案中,在建立视频连接之前还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;
将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
本方案中,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
本方案中,还包括:
将所述预设的语言文字转换为会议记录日志。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被处理器执行时,实现如上述的一种基于人脸识别的会议管理方法的步骤。
本发明通过人脸识别技术,对参会者进行面部特征提取,与预设的数据库中的面部特征进行比对,获取人物身份信息,可以自动识别每个参会者的语言信息,自动进行翻译,避免繁琐的人工后台翻译过程,可以满足多语种人员同时进行交流,并最终自动生成会议纪要。通过本发明的技术方案,还可以对会议进行签到;并且还通过面部比对,确定是否为对应参会者,保证了会议的安全性。将参会者的身份信息呈现在视频页面中参会者所在的分屏界面,使得用户能够及时获知每一参会者的身份信息,提高了视频会议的效率,同时提升了用户体验。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一种基于人脸识别的会议管理方法的流程图;
图2示出了本发明会议管理中显示方法流程图;
图3示出了本发明会议管理中警告方法的流程图;
图4示出了本发明一种基于人脸识别的会议管理系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本发明一种基于人脸识别的会议管理方法的流程图。
如图1所示,本发明提供了一种基于人脸识别的会议管理方法,包括:
S102,在建立视频连接之后,确定发言者;
S104,对所述发言者进行人脸识别,提取发言者的面部特征数据;
S106,将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
S108,当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
S110,通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
S112,将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
需要说明的是,会议管理系统的后台预设有面部特征数据库,其中存储有不同的人物特征信息。面部特征数据库可以与公司内部的HR管理连接,直接获取HR管理系统中存储的职员面部特征数据和人物特征信息。
需要说明的是,人物特征信息包含有工作语言、工作职位、工作职能、工作地点、性别、年龄、入职年限、个人简历、兴趣爱好中的一种或几种。
优选的,所述确定发言者具体为:获取发言者发出的发言信号;所述发言信号为语言信号和/或按键信号。例如,发言者发言前需要点击会议视频设备中的发言按键,在获取了按键信号后,会议系统会切换至发言者的发言状态。又例如,发言者直接进行发言,会议视频设备获取发言者的语音信号,则判定为发言者正在发言。
在确定了人物身份信息后,将发言者的语言信息转换为预设的语言文字。所述预设的语言文字可以是后台技术人员自动设置的,例如,预设的语言文字为汉语,则将发言者的语音信息转换为汉语,然后再由汉语翻译成其他语言进行播放。
图2示出了本发明会议管理中显示方法流程图。
如图2所示,在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后;S202,将所述人物身份信息转换为不同语言文字;S204,将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
需要说明的是,每个参会者都对应有自己的工作语言,在发言者进行发言时,会议系统把发言者的人物身份信息翻译成其他参会者自己对应的工作语言,并显示在参会者的分屏界面中。采用此步骤,可以对让参会者了解发言者的基本信息,例如,参会者有美国人、西班牙人、韩国人,其分别对应的工作语言为英语、西班牙语、韩语;则在中国发言人进行发言的时候,在参会者的分屏显示器中会用其对应的语言显示发言人的人物身份信息,包括发言人的职位、入职期限、工作地点等信息。
根据本发明实施例,对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
在匹配成功后,形成签到信息,用以记录参会者是否参会和缺席,并且还可以实时的记录参会者的参会时间,提高了会议的管理,增加了工作效率。
图3示出了本发明会议管理中警告方法的流程图。
如图3所示,根据本发明实施例,在建立视频连接之前还包括:
S302,对参会者进行人脸识别,提取参会者的面部特征数据;
S304,将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
S306,若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
需要说明的是,若匹配不成功,则代表此参会者并不是预定的参会人员,为了会议的安全考虑则会屏蔽此参会者的分屏界面,并且切断语言通话,还可以发送警告信息至服务器端进行记录,也可以发送给其他参会者进行提醒。采用此步骤可以做到会议的安全,保证了商业秘密不被窃听和泄露。
根据本发明实施例,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
需要说明的是,在进行局部特征和全局特征计算时,可采用如下方法:将参会者的头像和人脸信息与伽柏Gabor函数相卷积,得到参会者头像和人脸信息不同空间位置的多个Gabor特征;将多个Gabor特征按照空间位置进行分块,并将每块内的Gabor特征串接成一个Gabor特征向量,得到多个Gabor特征向量,将多个Gabor特征向量中预设数量的Gabor特征向量作为头像和人脸信息的局部特征。通过二维离散傅里叶变换获取与会者的头像信息中的低频部分作为头像信息的全局特征。局部特征的提取采用Gabor特征提取方法,全局特征的提取采用二维离散傅里叶变换的方式。为了更好地提取正面照片的局部特征,将得到的正面照片的Gabor特征按照空间位置进行分块,例如:采用四宫格或九宫格的分块方式,每一个块内的Gabor特征被串接成一个特征向量,则可以得到多个Gabor特征向量,称为局部Gabor特征向量(Local Gabor Feature Vector,LGFV)。将多个局部Gabor特征向量中预设数量个的局部Gabor特征向量作为正面照片的局部特征,预设数量个的局部Gabor特征向量可以以一定的规则顺序排列,其中,预设数量可以根据人脸中重要的位置进行设置,例如,提取眼睛、鼻子、嘴巴三个部位的局部Gabor特征向量作为局部特征。提取正面照片的全局特征时,通过二维离散傅里叶变换(Discrete Fourier Transform,DFT)提取正面照片的低频部分作为全局特征。将正面照片的局部特征和全局特征组合成一个特征向量,即为员工甲正面照片的面部特征数据,以此方法,计算员工甲的侧面照片的面部特征数据,然后将员工甲的面部特征数据与身份信息的对应关系存储在面部特征数据库中。
根据本发明实施例,还包括:
将所述预设的语言文字转换为会议记录日志。例如,将发言人的发言记录为汉语进行保存,形成会议记录日志,方便在会议后查阅会议记录内容。
图4示出了本发明一种基于人脸识别的会议管理系统的框图。
如图4,本发明第二部分还提供了一种基于人脸识别的会议管理系统,该系统包括:存储41、处理器42及摄像装置43,所述存储器中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被所述处理器执行时实现如下步骤:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
需要说明的是,会议管理系统的后台预设有面部特征数据库,其中存储有不同的人物特征信息。面部特征数据库可以与公司内部的HR管理连接,直接获取HR管理系统中存储的职员面部特征数据和人物特征信息。摄像装置43为视频会议设备的摄像头或拍摄装置等用于实现图像采集的装置。
需要说明的是,人物特征信息包含有工作语言、工作职位、工作职能、工作地点、性别、年龄、入职年限、个人简历、兴趣爱好中的一种或几种。
优选的,所述确定发言者具体为:获取发言者发出的发言信号;所述发言信号为语言信号和/或按键信号。例如,发言者发言前需要点击会议视频设备中的发言按键,在获取了按键信号后,会议系统会切换至发言者的发言状态。又例如,发言者直接进行发言,会议视频设备获取发言者的语音信号,则判定为发言者正在发言。
在确定了人物身份信息后,将发言者的语言信息转换为预设的语言文字。所述预设的语言文字可以是后台技术人员自动设置的,例如,预设的语言文字为汉语,则将发言者的语音信息转换为汉语,然后再由汉语翻译成其他语言进行播放。
根据本发明实施例,在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字,将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
需要说明的是,每个参会者都对应有自己的工作语言,在发言者进行发言时,会议系统把发言者的人物身份信息翻译成其他参会者自己对应的工作语言,并显示在参会者的分屏界面中。采用此步骤,可以对让参会者了解发言者的基本信息,例如,参会者有美国人、西班牙人、韩国人,其分别对应的工作语言为英语、西班牙语、韩语;则在中国发言人进行发言的时候,在参会者的分屏显示器中会用其对应的语言显示发言人的人物身份信息,包括发言人的职位、入职期限、工作地点等信息。
根据本发明实施例,对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
在匹配成功后,形成签到信息,用以记录参会者是否参会和缺席,并且还可以实时的记录参会者的参会时间,提高了会议的管理,增加了工作效率。
根据本发明实施例,在建立视频连接之前还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;
将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
需要说明的是,若匹配不成功,则代表此参会者并不是预定的参会人员,为了会议的安全考虑则会屏蔽此参会者的分屏界面,并且切断语言通话,还可以发送警告信息至服务器端进行记录,也可以发送给其他参会者进行提醒。采用此步骤可以做到会议的安全,保证了商业秘密不被窃听和泄露。
根据本发明实施例,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
需要说明的是,在进行局部特征和全局特征计算时,可采用如下方法:将参会者的头像和人脸信息与伽柏Gabor函数相卷积,得到参会者头像和人脸信息不同空间位置的多个Gabor特征;将多个Gabor特征按照空间位置进行分块,并将每块内的Gabor特征串接成一个Gabor特征向量,得到多个Gabor特征向量,将多个Gabor特征向量中预设数量的Gabor特征向量作为头像和人脸信息的局部特征。通过二维离散傅里叶变换获取与会者的头像信息中的低频部分作为头像信息的全局特征。局部特征的提取采用Gabor特征提取方法,全局特征的提取采用二维离散傅里叶变换的方式。为了更好地提取正面照片的局部特征,将得到的正面照片的Gabor特征按照空间位置进行分块,例如:采用四宫格或九宫格的分块方式,每一个块内的Gabor特征被串接成一个特征向量,则可以得到多个Gabor特征向量,称为局部Gabor特征向量(Local Gabor Feature Vector,LGFV)。将多个局部Gabor特征向量中预设数量个的局部Gabor特征向量作为正面照片的局部特征,预设数量个的局部Gabor特征向量可以以一定的规则顺序排列,其中,预设数量可以根据人脸中重要的位置进行设置,例如,提取眼睛、鼻子、嘴巴三个部位的局部Gabor特征向量作为局部特征。提取正面照片的全局特征时,通过二维离散傅里叶变换(Discrete Fourier Transform,DFT)提取正面照片的低频部分作为全局特征。将正面照片的局部特征和全局特征组合成一个特征向量,即为员工甲正面照片的面部特征数据,以此方法,计算员工甲的侧面照片的面部特征数据,然后将员工甲的面部特征数据与身份信息的对应关系存储在面部特征数据库中。
根据本发明实施例,还包括:
将所述预设的语言文字转换为会议记录日志。例如,将发言人的发言记录为汉语进行保存,形成会议记录日志,方便在会议后查阅会议记录内容。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被处理器执行时,实现如上述的一种基于人脸识别的会议管理方法的步骤。
本发明通过人脸识别技术,对参会者进行面部特征提取,与预设的数据库中的面部特征进行比对,获取人物身份信息,可以自动识别每个参会者的语言信息,自动进行翻译,避免繁琐的人工后台翻译过程,可以满足多语种人员同时进行交流,并最终自动生成会议纪要。通过本发明的技术方案,还可以对会议进行签到;并且还通过面部比对,确定是否为对应参会者,保证了会议的安全性。在现有视频会议中,用户可能不能识别出所有的参会者身份,不便于沟通交流,相比现有技术的方案,本发明将参会者的身份信息呈现在视频页面中参会者所在的分屏界面,使得用户能够及时获知每一参会者的身份信息,提高了视频会议的效率,同时提升了用户体验。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于人脸识别的会议管理方法,其特征在于,包括:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
2.根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字;将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示。
3.根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
4.根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,在建立视频连接之前还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;
将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
5.根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,所述对所述发言者进行人脸识别,提取发言者的面部特征数据,包括:
根据所述参会者的面部特征,计算所述面部特征的局部特征和全局特征,并将所述局部特征和全局特征组成一个特征向量,将该特征向量作为所述参会者的面部特征数据。
6.根据权利要求1所述的一种基于人脸识别的会议管理方法,其特征在于,还包括:
将所述预设的语言文字转换为会议记录日志。
7.一种基于人脸识别的会议管理系统,其特征在于,该系统包括:存储器、处理器及摄像装置,所述存储器中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被所述处理器执行时实现如下步骤:
在建立视频连接之后,确定发言者;
对所述发言者进行人脸识别,提取发言者的面部特征数据;
将所述发言者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
当确定所述发言者的面部特征数据与所述面部特征数据库中的任一面部特征数据匹配成功时,获取所述面部特征数据库中该面部特征数据对应的人物身份信息;
通过所述人物身份信息获取语言种类,将所述发言者的发言信息转化为预设的语言文字;
将所述预设的语言文字转换为不同语音信息,发送至其他参会者端进行播放。
8.根据权利要求7所述的一种基于人脸识别的会议管理系统,其特征在于,还包括:
在所述获取所述面部特征数据库中该面部特征数据对应的人物身份信息之后,将所述人物身份信息转换为不同语言文字;将所述不同语言文字发送至对应的参会者所在的分屏界面进行显示;和
对参会者进行人脸识别,提取参会者的面部特征数据;将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;当匹配成功时,形成签到信息。
9.根据权利要求7所述的一种基于人脸识别的会议管理系统,其特征在于,在建立视频连接之前还包括:
对参会者进行人脸识别,提取参会者的面部特征数据;
将所述参会者的面部特征数据与预先建立的面部特征数据库中的面部特征数据进行匹配;
若匹配不成功,则屏蔽所述参会者对应的分屏界面,并发送警告信息至服务器端和/或其他参会者端。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于人脸识别的会议管理方法程序,所述基于人脸识别的会议管理方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种基于人脸识别的会议管理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359326.6A CN110072075B (zh) | 2019-04-30 | 2019-04-30 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
PCT/CN2019/103597 WO2020220546A1 (zh) | 2019-04-30 | 2019-08-30 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910359326.6A CN110072075B (zh) | 2019-04-30 | 2019-04-30 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110072075A true CN110072075A (zh) | 2019-07-30 |
CN110072075B CN110072075B (zh) | 2022-05-13 |
Family
ID=67369764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910359326.6A Active CN110072075B (zh) | 2019-04-30 | 2019-04-30 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110072075B (zh) |
WO (1) | WO2020220546A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110557597A (zh) * | 2019-09-12 | 2019-12-10 | 视联动力信息技术股份有限公司 | 一种视频会议签到方法、服务器、电子设备及存储介质 |
CN110572607A (zh) * | 2019-08-20 | 2019-12-13 | 视联动力信息技术股份有限公司 | 一种视频会议方法、系统及装置和存储介质 |
CN111163281A (zh) * | 2020-01-09 | 2020-05-15 | 北京中电慧声科技有限公司 | 一种基于语音跟踪的全景视频录制方法及装置 |
CN111401699A (zh) * | 2020-03-04 | 2020-07-10 | 深圳创维-Rgb电子有限公司 | 一种智能会议管理方法、机器人及存储介质 |
CN111445591A (zh) * | 2020-03-13 | 2020-07-24 | 平安科技(深圳)有限公司 | 会议签到方法、系统、计算机设备及计算机可读存储介质 |
CN111582822A (zh) * | 2020-05-07 | 2020-08-25 | 维沃移动通信有限公司 | 基于ar的会议方法、装置及电子设备 |
WO2020220546A1 (zh) * | 2019-04-30 | 2020-11-05 | 平安科技(深圳)有限公司 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
CN112862461A (zh) * | 2021-03-03 | 2021-05-28 | 游密科技(深圳)有限公司 | 会议进程控制方法、装置、服务器及存储介质 |
CN113094680A (zh) * | 2021-04-02 | 2021-07-09 | 上海中通吉网络技术有限公司 | 会议室预定方法、装置及设备 |
CN113301291A (zh) * | 2021-05-13 | 2021-08-24 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
CN114333072A (zh) * | 2022-03-10 | 2022-04-12 | 深圳云集智能信息有限公司 | 一种基于会议图像通信的数据处理方法及系统 |
CN115334048A (zh) * | 2022-07-19 | 2022-11-11 | 贵州华云信安科技有限公司 | 一种基于人工智能的视频会议用信息安全系统 |
US11881224B2 (en) * | 2020-09-07 | 2024-01-23 | Pegatron Corporation | Multilingual speech recognition and translation method and related system for a conference which determines quantity of attendees according to their distances from their microphones |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063871B (zh) * | 2022-07-28 | 2022-11-15 | 广州市保伦电子有限公司 | 一种基于人脸识别技术的人工智能会务系统 |
CN117294945A (zh) * | 2023-09-19 | 2023-12-26 | 广东保伦电子股份有限公司 | 一种通过导轨摄像头自动对正发言者面部的智能会议方法 |
CN117636209A (zh) * | 2023-11-24 | 2024-03-01 | 广州市希视科电子产品有限公司 | 一种自动可视化智慧大数据会议管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893948A (zh) * | 2016-03-29 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种视频会议中的人脸识别方法及装置 |
US20170357643A1 (en) * | 2011-12-12 | 2017-12-14 | Google Inc. | Auto-translation for multi user audio and video |
CN108766414A (zh) * | 2018-06-29 | 2018-11-06 | 北京百度网讯科技有限公司 | 用于语音翻译的方法、装置、设备和计算机可读存储介质 |
CN109583413A (zh) * | 2018-12-10 | 2019-04-05 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7225224B2 (en) * | 2002-03-26 | 2007-05-29 | Fujifilm Corporation | Teleconferencing server and teleconferencing system |
JP2015060332A (ja) * | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
US9641563B1 (en) * | 2015-11-10 | 2017-05-02 | Ricoh Company, Ltd. | Electronic meeting intelligence |
CN109361825A (zh) * | 2018-11-12 | 2019-02-19 | 平安科技(深圳)有限公司 | 会议纪要记录方法、终端及计算机存储介质 |
CN109560941A (zh) * | 2018-12-12 | 2019-04-02 | 深圳市沃特沃德股份有限公司 | 会议记录方法、装置、智能终端及存储介质 |
CN110072075B (zh) * | 2019-04-30 | 2022-05-13 | 平安科技(深圳)有限公司 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
-
2019
- 2019-04-30 CN CN201910359326.6A patent/CN110072075B/zh active Active
- 2019-08-30 WO PCT/CN2019/103597 patent/WO2020220546A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170357643A1 (en) * | 2011-12-12 | 2017-12-14 | Google Inc. | Auto-translation for multi user audio and video |
CN105893948A (zh) * | 2016-03-29 | 2016-08-24 | 乐视控股(北京)有限公司 | 一种视频会议中的人脸识别方法及装置 |
CN108766414A (zh) * | 2018-06-29 | 2018-11-06 | 北京百度网讯科技有限公司 | 用于语音翻译的方法、装置、设备和计算机可读存储介质 |
CN109583413A (zh) * | 2018-12-10 | 2019-04-05 | 联想(北京)有限公司 | 一种数据处理方法及装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020220546A1 (zh) * | 2019-04-30 | 2020-11-05 | 平安科技(深圳)有限公司 | 一种基于人脸识别的会议管理方法、系统和可读存储介质 |
CN110572607A (zh) * | 2019-08-20 | 2019-12-13 | 视联动力信息技术股份有限公司 | 一种视频会议方法、系统及装置和存储介质 |
CN110557597A (zh) * | 2019-09-12 | 2019-12-10 | 视联动力信息技术股份有限公司 | 一种视频会议签到方法、服务器、电子设备及存储介质 |
CN111163281A (zh) * | 2020-01-09 | 2020-05-15 | 北京中电慧声科技有限公司 | 一种基于语音跟踪的全景视频录制方法及装置 |
CN111401699A (zh) * | 2020-03-04 | 2020-07-10 | 深圳创维-Rgb电子有限公司 | 一种智能会议管理方法、机器人及存储介质 |
CN111445591A (zh) * | 2020-03-13 | 2020-07-24 | 平安科技(深圳)有限公司 | 会议签到方法、系统、计算机设备及计算机可读存储介质 |
CN111582822A (zh) * | 2020-05-07 | 2020-08-25 | 维沃移动通信有限公司 | 基于ar的会议方法、装置及电子设备 |
US11881224B2 (en) * | 2020-09-07 | 2024-01-23 | Pegatron Corporation | Multilingual speech recognition and translation method and related system for a conference which determines quantity of attendees according to their distances from their microphones |
CN112862461A (zh) * | 2021-03-03 | 2021-05-28 | 游密科技(深圳)有限公司 | 会议进程控制方法、装置、服务器及存储介质 |
CN113094680A (zh) * | 2021-04-02 | 2021-07-09 | 上海中通吉网络技术有限公司 | 会议室预定方法、装置及设备 |
CN113301291A (zh) * | 2021-05-13 | 2021-08-24 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
CN113301291B (zh) * | 2021-05-13 | 2022-12-02 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
CN114333072A (zh) * | 2022-03-10 | 2022-04-12 | 深圳云集智能信息有限公司 | 一种基于会议图像通信的数据处理方法及系统 |
CN115334048A (zh) * | 2022-07-19 | 2022-11-11 | 贵州华云信安科技有限公司 | 一种基于人工智能的视频会议用信息安全系统 |
CN115334048B (zh) * | 2022-07-19 | 2023-10-27 | 贵州华云信安科技有限公司 | 一种基于人工智能的视频会议用信息安全系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020220546A1 (zh) | 2020-11-05 |
CN110072075B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110072075A (zh) | 一种基于人脸识别的会议管理方法、系统和可读存储介质 | |
WO2017193987A1 (zh) | 一种视频会议中参会人员的信息提示方法和装置 | |
CN110891124B (zh) | 一种人工智能代接来电的系统 | |
CN102017513B (zh) | 用于实时网络通信的方法、实时多语种通信的方法及系统 | |
US9064160B2 (en) | Meeting room participant recogniser | |
CN109474763A (zh) | 一种基于语音、语义的ai智能会议系统及其实现方法 | |
US20070250315A1 (en) | Downline Transcription System Using Automatic Tracking And Revenue Collection | |
DE112013001461T5 (de) | Modifizieren des Aussehens eines Teilnehmers während einer Videokonferenz | |
CN106484687A (zh) | 一种基于移动互联网的在线翻译系统及其方法 | |
CN110536029B (zh) | 一种交互方法、网络侧设备、终端设备、存储介质及系统 | |
CN112307800A (zh) | 视频会议中电子铭牌的显示方法和装置 | |
CN103200223A (zh) | 实现远程口语翻译服务的方法 | |
US7631343B1 (en) | Down-line transcription system using automatic tracking and revenue collection | |
CN109726271A (zh) | 识别用户问题内容的方法、装置、设备和存储介质 | |
Williams et al. | On the prospects for redefining universal service: From connectivity to content | |
CN111626061A (zh) | 会议记录生成方法、装置、设备及可读存储介质 | |
CN113573029B (zh) | 一种基于iot的多方音视频交互方法及系统 | |
CN107181881A (zh) | 用于远程人工翻译的方法及装置 | |
JP2003092628A (ja) | 電話リレーサービス方法 | |
EP1444855A1 (de) | Rücksetzen von versendeten informationen | |
Napier | Exploring themes in stakeholder perspectives of video remote interpreting in court | |
CN113676691A (zh) | 一种智能视频会议系统及方法 | |
KR20230006300A (ko) | 화상회의에서의 자동 회의록 생성 시스템 및 방법 | |
CN112511847A (zh) | 视频图像叠加实时语音字幕的方法及装置 | |
CN112291497A (zh) | 一种智能视频客服接入方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |