CN111953922B - 视频会议的人脸辨识方法、服务器及计算机可读存储介质 - Google Patents
视频会议的人脸辨识方法、服务器及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111953922B CN111953922B CN201910408777.4A CN201910408777A CN111953922B CN 111953922 B CN111953922 B CN 111953922B CN 201910408777 A CN201910408777 A CN 201910408777A CN 111953922 B CN111953922 B CN 111953922B
- Authority
- CN
- China
- Prior art keywords
- user
- lip
- human body
- body model
- lips
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012856 packing Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0356—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/157—Conference systems defining a virtual conference space and using avatars or agents
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种视频会议的人脸辨识方法。计算产生第一使用者的音频讯框的一包络曲线中的多段起音时间与多段释音时间;根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度。将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的一第二使用者,使得三维人体模型据以于所述远程模拟出相应所述第一使用者的动作。本发明还提供一种视频会议服务器及计算机可读存储介质,可优化带宽使用率与提升使用者体验。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种视频会议的人脸辨识方法、服务器及计算机可读存储介质。
背景技术
基于H.323通讯协议或会谈启始协议(Session Initiation Protocol,SIP)的视频会议系统使用H.261、H.263、H.264/先进视讯编码(Advanced Video Coding,AVC)、H.264高配置(High Profile)、H.264可适性视讯编码(Scalable Video Coding,SVC)、实时视讯(Real Time Video,RTV)等影像压缩技术,并且支持SVC标准,在受限的网络带宽环境也可使用。
然而,在带宽数据极度缺乏的环境或是网络忙碌的特定时段,常见以下问题。若设定视频会议为高质量影像,则实时传输影像可能会有延迟或每秒显示张数(Frame PerSecond,FPS)(或称,画面更新率)不足的情况。若为了保持视频会议流畅度而降低影像分辨率,则用户会明显感觉到传输影像的质量下降。另外,还可能会有网络等待时间时间增加以及视讯影像与语音不同步(Lip Syc)的问题。
发明内容
鉴于以上内容,有必要提供一种视频会议的人脸辨识方法与使用所述方法的视频会议服务器,可减少带宽使用,使得在低带宽的环境下提高视频会议的传输影像质量。
本发明实施例提供一种视频会议的人脸辨识方法,应用于视频会议装置或视频会议服务器中,包括下列步骤:判断是否曾经取得本地端的第一使用者的三维人体模型;若曾经取得所述第一使用者的三维人体模型,则从历史数据库中取得所述第一使用者的第一三维人体模型;根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框;计算产生所述多个第一音频讯框的包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。
本发明实施例还提供一种视频会议服务器,其包括存储媒体、处理器及存储在所述存储媒体上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时执行以下步骤:判断是否曾经取得本地端的第一使用者的三维人体模型;若曾经取得所述第一使用者的三维人体模型,则从历史数据库中取得所述第一使用者的第一三维人体模型;根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框;计算产生所述多个第一音频讯框的包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。
本发明实施例的视频会议的人脸辨识方法与使用所述方法的视频会议服务器可减少带宽使用,使得在低带宽的环境下提高视频会议的传输影像质量。
附图说明
图1是显示本发明实施例的视频会议的人脸辨识方法的步骤流程图。
图2A是显示本发明实施例的人脸UV贴图的示意图。
图2B是显示本发明实施例的3D头部模型的示意图。
图3A是显示本发明实施例的包络(Envelope)曲线与起音时间(Attack Time)的示意图。
图3B是显示本发明实施例的所述包络曲线与释音时间的示意图。
图4A是显示本发明实施例的唇形幅度变化的示意图。
图4B是显示本发明实施例的正常闭合的唇形的示意图。
图4C是显示本发明实施例的最大程度发音的唇形的示意图。
图5是显示本发明实施例的不出声的各种唇形的示意图。
图6是显示本发明实施例的动态校准唇形的示意图。
主要元件符号说明
唇形完全闭合的门坎值 | 710 |
唇形不完全闭合状态 | 720 |
唇形完全张开状态 | 730 |
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
本发明实施例的人脸辨识方法使用现有的UV贴图技术来取得人脸模型。UV贴图技术是将图片以模型的点群(Vertex)相对关系(U、V轴)贴覆在模型上。以这种模式来贴覆对象的材质时,可以非常精确的依照模型点面结构在不规则形体的对象上正确的包覆所要处理的材质。
图1是显示本发明实施例的视频会议的人脸辨识方法的步骤流程图。
步骤102,判断是否曾经取得使用者A的3D人体模型。
步骤104,若曾经取得使用者A的3D人体模型,则从历史数据库中取得用户A的第一3D人体模型,其中包括用户A的第一人脸UV贴图(如图2A所示)、第一3D头部模型(如图2B所示)以及第一3D头发模型(未显示)。
步骤106,判断是否要重新取图,若不用,则接着执行步骤114。
步骤108,若未曾取得使用者A的3D人体模型,或判断要重新取得使用者A的3D人体模型,则利用一图像处理方法取得使用者A的第二人脸UV贴图、第二3D头部模型以及第二3D头发模型,并经由计算产生使用者A的第二3D人体模型。
步骤110,判断是否完成建立3D人体模型的操作。若确定完成所述建立3D人体模型的操作,则执行步骤114。
步骤112,若尚未完成,表示使用者A不满意目前产生的3D人体模型,则根据用户A的输入指令从所述历史数据库中选择想要的3D人体模型。
步骤114,根据使用者A的发声取得多个音频讯框,并将其中声音频率在50Hz~650Hz范围内的音频讯框过滤出来(例如,多个第一音频讯框)。本步骤主要用于去除非人类的语音区段。
步骤116,计算产生所述多个第一音频讯框的包络(Envelope)曲线,并计算所述包络曲线中的多段起音时间(Attack Time)与多段释音时间(Release Time),如图3A与3B所示。
步骤118,根据所述包络曲线的振幅决定用户A的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度。
如图4A所示,Trising=嘴唇张开时间,Tfalling=嘴唇闭合时间,710表示唇形完全闭合的门坎值,在门坎值以下的唇形处于正常闭合情况。721到723表示唇形由不完全闭合状态开始张开,723到725表示唇形由完全张开状态转为不完全闭合状态。
图4B表示正常闭合的唇形,其中X轴表示唇形的宽度,此时所述唇形的宽度为最大值(X=Xmax),而Y轴表示唇形高度,此时所述唇形的高度为0(Y=0)。图4C表示最大程度发音的唇形,此时所述唇形的宽度为最大值的80%(X轴=Xmaxх80%),且所述唇形的高度为最大值(Y=Ymax)。
步骤120,实时侦测用户A是否发生无语音但唇型发生变化的例外事件。
图5显示不出声的各种唇形,包括惊讶、生气、思考中、微笑、大笑、咬嘴唇…等等。
步骤122,若发生例外事件,将所述例外事件中的唇型讯息传送至用户B,使得所述三D人体模型仿真出相应用户A的唇型。
步骤124,判断例外唇型事件是否结束。
步骤126,若未发生例外事件,或所述例外唇型事件已结束,将使用者A的头部转动的影像讯息及肢体摆动的影像讯息传送至远程的用户B,使得所述3D人体模型于所述远程仿真出相应使用者A的动作。
步骤128,根据使用者A的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准用户A的唇形张开幅度,并将校准封包信息传送给所述远程的使用者B,使得所述三维人体模型根据所述校准封包信息仿真出相应所述第一使用者的唇形。
步骤128的动态校准操作更包括下列处理步骤。
以所述三维人体模型的唇形的最大值(Xmax)为基本单位,实时侦测本地端用户A的语音的包络曲线,并计算所述包络曲线中,超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。
将所述唇形的宽度X、所述唇形的高度Y以及对应使用者A的发声的包络的时戳(Time Stamp)打包并传送给远程使用者B。若本地端使用者A的人脸在某个时间点未朝向镜头或是被手部或其它物体遮住,则忽略所述时间点的校准动作。
实时侦测本地端使用者A的头部转动及肢体位置。若发生变动,则将使用者A的头部与肢体的坐标讯息传送至远程用户B。
如图6所示,P1表示用户A的网络语音(VoIP)封包,P2表示高画质的人脸影像封包,P3表示不定时校准唇形张开幅度的封包,P4表示本地端使用者的头部转动及肢体运动的封包。
步骤130,判断会议是否结束。若会议还未结束,则回到步骤114,继续执行前述操作。
视频会议的人脸辨识方法可节省视频会议所使用的带宽,在带宽不足的情况的下提升使用者的使用体验,让远程使用者在看到与会者影像嘴唇及声音是同步的。此外,与虚拟现实(Virtual Reality,VR)/扩增实境(Augmented Reality,AR)产品搭配使用可让多地与会者在同一会议室内,且所看到的人脸都是真人面孔,提高会议真实程度。
本发明的视频会议的人脸辨识方法更可应用于视频会议装置或视频会议服务器中。
所述视频会议装置或所述视频会议服务器包括一个或多个处理器(未显示)和/或多个模块或单元,用以完成本发明实施例。本发明实施例所称的模块或单元是完成一特定功能的计算机程序段。所述视频会议装置或所述视频会议服务器更包括存储媒体(未显示),用于存储执行本发明实施例的视频会议的人脸辨识方法的程序代码。前述处理器用于执行所述存储媒体中存储的程序代码。
所述存储媒体至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、随机访问内存(RAM)、静态随机访问内存(SRAM)、只读存储器(ROM)、电可擦除可程序设计只读存储器(EEPROM)、可程序设计只读存储器(PROM)、磁性内存、磁盘、光盘等。所述处理器可以是中央处理器(CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于执行软件程序代码运算数据。
对本领域的普通技术人员来说,可以根据本发明实施例提供的技术方案和技术构思结合生成的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明权利要求的保护范围。
Claims (9)
1.一种视频会议的人脸辨识方法,应用于一视频会议装置或一视频会议服务器中,其特征在于,包括:
判断是否曾经取得本地端的第一使用者的三维人体模型;
若曾经取得所述第一使用者的三维人体模型,则从历史数据库中取得所述第一使用者的第一三维人体模型;
根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框;
计算产生所述多个第一音频讯框的包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;
根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;
根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及
将校准封包信息、所述第一使用者的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的唇形与动作。
2.如权利要求1所述的视频会议的人脸辨识方法,其特征在于,所述动态校准操作还包括:
以所述三维人体模型的唇形的宽度的最大值为基本单位,实时侦测所述第一使用者的发声的包络曲线;以及
计算所述包络曲线中,超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。
3.如权利要求2所述的视频会议的人脸辨识方法,其特征在于,所述动态校准操作还包括:
将所述唇形的宽度与高度以及对应所述第一使用者的发声的包络的时戳打包并传送给所述远程的所述第二使用者。
4.如权利要求1所述的视频会议的人脸辨识方法,其特征在于,还包括:
实时侦测所述第一用户是否发生无语音但唇型发生变化的例外事件;以及
若发生所述例外事件,将所述例外事件中的例外唇型讯息传送至所述远程,使得所述三维人体模型仿真出相应所述第一使用者的唇型。
5.一种视频会议服务器,其包括存储媒体、处理器及存储在所述存储媒体上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时执行以下步骤:
判断是否曾经取得本地端的一第一使用者的三维人体模型;
若曾经取得所述第一使用者的三维人体模型,则从一历史数据库中取得所述第一使用者的一第一三维人体模型;
根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在一特定范围内的多个第一音频讯框;
计算产生所述多个第一音频讯框的一包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;
根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;
根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及
将校准封包信息、所述第一使用者的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的一第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。
6.如权利要求5所述的视频会议服务器,其特征在于,所述计算机程序被所述处理器执行时还执行以下步骤:
以所述三维人体模型的唇形的宽度的最大值为基本单位,实时侦测所述第一使用者的发声的包络曲线;以及
计算所述包络曲线中,超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。
7.如权利要求6所述的视频会议服务器,其特征在于,所述计算机程序被所述处理器执行时还执行以下步骤:
将所述唇形的宽度与高度以及对应所述第一使用者的发声的包络的时戳打包并传送给所述远程的所述第二使用者。
8.如权利要求5所述的视频会议服务器,其特征在于,所述计算机程序被所述处理器执行时还执行以下步骤:
实时侦测所述第一用户是否发生无语音但唇型发生变化的例外事件;以及
若发生所述例外事件,将所述例外事件中的例外唇型讯息传送至所述远程,使得所述三维人体模型仿真出相应所述第一使用者的唇型。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求第1至4中任一项所述的视频会议的人脸辨识方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910408777.4A CN111953922B (zh) | 2019-05-16 | 2019-05-16 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
US16/419,607 US10529111B1 (en) | 2019-05-16 | 2019-05-22 | Facial recognition method for video conference and server using the method |
TW108119582A TW202101295A (zh) | 2019-05-16 | 2019-06-05 | 視訊會議之人臉辨識方法與使用該方法的伺服器 |
US16/690,883 US10825222B1 (en) | 2019-05-16 | 2019-11-21 | Facial recognition method for video conference and server using the method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910408777.4A CN111953922B (zh) | 2019-05-16 | 2019-05-16 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111953922A CN111953922A (zh) | 2020-11-17 |
CN111953922B true CN111953922B (zh) | 2022-05-27 |
Family
ID=69058610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910408777.4A Active CN111953922B (zh) | 2019-05-16 | 2019-05-16 | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (2) | US10529111B1 (zh) |
CN (1) | CN111953922B (zh) |
TW (1) | TW202101295A (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD896254S1 (en) * | 2018-10-30 | 2020-09-15 | Perfect Mobile Corp. | Display screen with graphical user interface |
US10692383B1 (en) * | 2019-06-05 | 2020-06-23 | Nanning Fugui Precision Industrial Co., Ltd. | Method for locating vehicle and electronic device employing the method |
CN112672089B (zh) * | 2019-10-16 | 2024-02-06 | 中兴通讯股份有限公司 | 会议控制及与会方法、装置、服务器、终端及存储介质 |
CN112235600B (zh) * | 2020-09-09 | 2022-04-22 | 北京旷视科技有限公司 | 视频数据及视频业务请求的处理方法、装置及系统 |
CN112562721B (zh) * | 2020-11-30 | 2024-04-16 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN113239903B (zh) * | 2021-07-08 | 2021-10-01 | 中国人民解放军国防科技大学 | 一种跨模态唇读的对抗性双重对比自监督学习方法 |
CN113938336A (zh) * | 2021-11-15 | 2022-01-14 | 网易(杭州)网络有限公司 | 会议控制的方法、装置和电子设备 |
CN114581567B (zh) * | 2022-05-06 | 2022-08-02 | 成都市谛视无限科技有限公司 | 一种声音驱动虚拟形象口型方法、装置及介质 |
CN115082991A (zh) * | 2022-06-27 | 2022-09-20 | 平安银行股份有限公司 | 人脸活体检测方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1649409A (zh) * | 2004-01-30 | 2005-08-03 | 株式会社Ntt都科摩 | 移动通信终端及程序 |
CN1991982A (zh) * | 2005-12-29 | 2007-07-04 | 摩托罗拉公司 | 一种使用语音数据激励图像的方法 |
CN101482976A (zh) * | 2009-01-19 | 2009-07-15 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
CN101690071A (zh) * | 2007-06-29 | 2010-03-31 | 索尼爱立信移动通讯有限公司 | 在视频会议和其他通信期间控制化身的方法和终端 |
CN106067989A (zh) * | 2016-04-28 | 2016-11-02 | 江苏大学 | 一种人像语音视频同步校准装置及方法 |
CN108513089A (zh) * | 2017-02-24 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 群组视频会话的方法及装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005057431A (ja) * | 2003-08-01 | 2005-03-03 | Victor Co Of Japan Ltd | テレビ電話端末装置 |
US8976160B2 (en) * | 2005-03-01 | 2015-03-10 | Eyesmatch Ltd | User interface and authentication for a virtual mirror |
US9269157B2 (en) * | 2005-03-01 | 2016-02-23 | Eyesmatch Ltd | Methods for extracting objects from digital images and for performing color change on the object |
US8144148B2 (en) * | 2007-02-08 | 2012-03-27 | Edge 3 Technologies Llc | Method and system for vision-based interaction in a virtual environment |
EP2229672A4 (en) * | 2007-12-21 | 2014-01-22 | Sony Comp Entertainment Us | SYSTEM FOR INSERTING IMITATION OF DELIVERY IN A SCENE AND PROVIDING AN EVALUATION THEREOF |
EP2324417A4 (en) * | 2008-07-08 | 2012-01-11 | Sceneplay Inc | SYSTEM AND METHOD FOR PRODUCING MEDIA |
US8744121B2 (en) * | 2009-05-29 | 2014-06-03 | Microsoft Corporation | Device for identifying and tracking multiple humans over time |
US20100302138A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | Methods and systems for defining or modifying a visual representation |
BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
US8284157B2 (en) * | 2010-01-15 | 2012-10-09 | Microsoft Corporation | Directed performance in motion capture system |
US8659658B2 (en) * | 2010-02-09 | 2014-02-25 | Microsoft Corporation | Physical interaction zone for gesture-based user interfaces |
US8730295B2 (en) * | 2011-06-21 | 2014-05-20 | Broadcom Corporation | Audio processing for video conferencing |
US9286711B2 (en) * | 2011-09-30 | 2016-03-15 | Microsoft Technology Licensing, Llc | Representing a location at a previous time period using an augmented reality display |
US20140099004A1 (en) * | 2012-10-10 | 2014-04-10 | Christopher James DiBona | Managing real-time communication sessions |
US9124762B2 (en) * | 2012-12-20 | 2015-09-01 | Microsoft Technology Licensing, Llc | Privacy camera |
WO2014131197A1 (en) * | 2013-03-01 | 2014-09-04 | Microsoft Corporation | Object creation using body gestures |
US9274606B2 (en) * | 2013-03-14 | 2016-03-01 | Microsoft Technology Licensing, Llc | NUI video conference controls |
JP5913394B2 (ja) * | 2014-02-06 | 2016-04-27 | Psソリューションズ株式会社 | 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム |
US9325939B2 (en) * | 2014-08-14 | 2016-04-26 | Verizon Patent And Licensing Inc. | Method and system for providing gaze-directed correction during a video conferencing session |
US10325395B2 (en) * | 2016-01-20 | 2019-06-18 | Facebook, Inc. | Techniques for animating stickers with sound |
-
2019
- 2019-05-16 CN CN201910408777.4A patent/CN111953922B/zh active Active
- 2019-05-22 US US16/419,607 patent/US10529111B1/en active Active
- 2019-06-05 TW TW108119582A patent/TW202101295A/zh unknown
- 2019-11-21 US US16/690,883 patent/US10825222B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1649409A (zh) * | 2004-01-30 | 2005-08-03 | 株式会社Ntt都科摩 | 移动通信终端及程序 |
CN1991982A (zh) * | 2005-12-29 | 2007-07-04 | 摩托罗拉公司 | 一种使用语音数据激励图像的方法 |
CN101690071A (zh) * | 2007-06-29 | 2010-03-31 | 索尼爱立信移动通讯有限公司 | 在视频会议和其他通信期间控制化身的方法和终端 |
CN101482976A (zh) * | 2009-01-19 | 2009-07-15 | 腾讯科技(深圳)有限公司 | 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置 |
CN106067989A (zh) * | 2016-04-28 | 2016-11-02 | 江苏大学 | 一种人像语音视频同步校准装置及方法 |
CN108513089A (zh) * | 2017-02-24 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 群组视频会话的方法及装置 |
Non-Patent Citations (1)
Title |
---|
唇同步的自动识别与验证研究;侯亚荣等;《计算机工程与设计》;20040228(第02期);8-11 * |
Also Published As
Publication number | Publication date |
---|---|
TW202101295A (zh) | 2021-01-01 |
US10825222B1 (en) | 2020-11-03 |
US10529111B1 (en) | 2020-01-07 |
US20200364918A1 (en) | 2020-11-19 |
CN111953922A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111953922B (zh) | 视频会议的人脸辨识方法、服务器及计算机可读存储介质 | |
CN101622876B (zh) | 用于提供个人视频服务的系统和方法 | |
US9424678B1 (en) | Method for teleconferencing using 3-D avatar | |
US9258525B2 (en) | System and method for reducing latency in video delivery | |
KR20200125775A (ko) | 비디오 회의에서의 배경 수정 | |
US10229507B1 (en) | Expression transfer across telecommunications networks | |
JP2012181704A (ja) | 情報処理装置および情報処理方法 | |
US11671562B2 (en) | Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call | |
US20230353707A1 (en) | Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call | |
US20230106330A1 (en) | Method for creating a variable model of a face of a person | |
US11627283B2 (en) | Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call | |
Websdale et al. | The effect of real-time constraints on automatic speech animation | |
US11910034B2 (en) | Network-based assistance for receiver processing of video data | |
US11368652B1 (en) | Video frame replacement based on auxiliary data | |
WO2023231712A1 (zh) | 数字人驱动方法、数字人驱动设备及存储介质 | |
US20240195940A1 (en) | Generating a User Avatar for Video Communications | |
CN113259707B (zh) | 虚拟人图像处理方法、装置、电子设备及存储介质 | |
US20230247069A1 (en) | Systems and Methods for Adaptive Video Conferencing | |
US20240070958A1 (en) | 3d stream processing | |
TW202221649A (zh) | 利用特徵補償的成像裝置及其成像方法 | |
Stamm | Assessing Image Quality Impact of View Bypass in Cloud Rendering | |
CN110719430A (zh) | 图像数据生成方法、装置、电子设备及存储介质 | |
CN116320433A (zh) | 一种用于编码器的码率计算方法、装置、设备及介质 | |
CN117896483A (zh) | 视频通话方法、装置、电子设备及系统 | |
Chen | Technologies for building networked collaborative environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 530033 plant B of Foxconn Nanning science and Technology Park, No. 51 Tongle Avenue, Jiangnan District, Nanning City, Guangxi Zhuang Autonomous Region Applicant after: Nanning Fulian Fugui Precision Industry Co.,Ltd. Address before: 530007 the Guangxi Zhuang Autonomous Region Nanning hi tech Zone headquarters road 18, China ASEAN enterprise headquarters three phase 5 factory building Applicant before: NANNING FUGUI PRECISION INDUSTRIAL Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |