CN111953922B - 视频会议的人脸辨识方法、服务器及计算机可读存储介质 - Google Patents

视频会议的人脸辨识方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN111953922B
CN111953922B CN201910408777.4A CN201910408777A CN111953922B CN 111953922 B CN111953922 B CN 111953922B CN 201910408777 A CN201910408777 A CN 201910408777A CN 111953922 B CN111953922 B CN 111953922B
Authority
CN
China
Prior art keywords
user
lip
human body
body model
lips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910408777.4A
Other languages
English (en)
Other versions
CN111953922A (zh
Inventor
吴俊德
石志刚
刘东林
蒙文
钟愈强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanning Fulian Fugui Precision Industrial Co Ltd
Original Assignee
Nanning Fulian Fugui Precision Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanning Fulian Fugui Precision Industrial Co Ltd filed Critical Nanning Fulian Fugui Precision Industrial Co Ltd
Priority to CN201910408777.4A priority Critical patent/CN111953922B/zh
Priority to US16/419,607 priority patent/US10529111B1/en
Priority to TW108119582A priority patent/TW202101295A/zh
Priority to US16/690,883 priority patent/US10825222B1/en
Publication of CN111953922A publication Critical patent/CN111953922A/zh
Application granted granted Critical
Publication of CN111953922B publication Critical patent/CN111953922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种视频会议的人脸辨识方法。计算产生第一使用者的音频讯框的一包络曲线中的多段起音时间与多段释音时间;根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度。将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的一第二使用者,使得三维人体模型据以于所述远程模拟出相应所述第一使用者的动作。本发明还提供一种视频会议服务器及计算机可读存储介质,可优化带宽使用率与提升使用者体验。

Description

视频会议的人脸辨识方法、服务器及计算机可读存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种视频会议的人脸辨识方法、服务器及计算机可读存储介质。
背景技术
基于H.323通讯协议或会谈启始协议(Session Initiation Protocol,SIP)的视频会议系统使用H.261、H.263、H.264/先进视讯编码(Advanced Video Coding,AVC)、H.264高配置(High Profile)、H.264可适性视讯编码(Scalable Video Coding,SVC)、实时视讯(Real Time Video,RTV)等影像压缩技术,并且支持SVC标准,在受限的网络带宽环境也可使用。
然而,在带宽数据极度缺乏的环境或是网络忙碌的特定时段,常见以下问题。若设定视频会议为高质量影像,则实时传输影像可能会有延迟或每秒显示张数(Frame PerSecond,FPS)(或称,画面更新率)不足的情况。若为了保持视频会议流畅度而降低影像分辨率,则用户会明显感觉到传输影像的质量下降。另外,还可能会有网络等待时间时间增加以及视讯影像与语音不同步(Lip Syc)的问题。
发明内容
鉴于以上内容,有必要提供一种视频会议的人脸辨识方法与使用所述方法的视频会议服务器,可减少带宽使用,使得在低带宽的环境下提高视频会议的传输影像质量。
本发明实施例提供一种视频会议的人脸辨识方法,应用于视频会议装置或视频会议服务器中,包括下列步骤:判断是否曾经取得本地端的第一使用者的三维人体模型;若曾经取得所述第一使用者的三维人体模型,则从历史数据库中取得所述第一使用者的第一三维人体模型;根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框;计算产生所述多个第一音频讯框的包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。
本发明实施例还提供一种视频会议服务器,其包括存储媒体、处理器及存储在所述存储媒体上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时执行以下步骤:判断是否曾经取得本地端的第一使用者的三维人体模型;若曾经取得所述第一使用者的三维人体模型,则从历史数据库中取得所述第一使用者的第一三维人体模型;根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框;计算产生所述多个第一音频讯框的包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。
本发明实施例的视频会议的人脸辨识方法与使用所述方法的视频会议服务器可减少带宽使用,使得在低带宽的环境下提高视频会议的传输影像质量。
附图说明
图1是显示本发明实施例的视频会议的人脸辨识方法的步骤流程图。
图2A是显示本发明实施例的人脸UV贴图的示意图。
图2B是显示本发明实施例的3D头部模型的示意图。
图3A是显示本发明实施例的包络(Envelope)曲线与起音时间(Attack Time)的示意图。
图3B是显示本发明实施例的所述包络曲线与释音时间的示意图。
图4A是显示本发明实施例的唇形幅度变化的示意图。
图4B是显示本发明实施例的正常闭合的唇形的示意图。
图4C是显示本发明实施例的最大程度发音的唇形的示意图。
图5是显示本发明实施例的不出声的各种唇形的示意图。
图6是显示本发明实施例的动态校准唇形的示意图。
主要元件符号说明
唇形完全闭合的门坎值 710
唇形不完全闭合状态 720
唇形完全张开状态 730
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
本发明实施例的人脸辨识方法使用现有的UV贴图技术来取得人脸模型。UV贴图技术是将图片以模型的点群(Vertex)相对关系(U、V轴)贴覆在模型上。以这种模式来贴覆对象的材质时,可以非常精确的依照模型点面结构在不规则形体的对象上正确的包覆所要处理的材质。
图1是显示本发明实施例的视频会议的人脸辨识方法的步骤流程图。
步骤102,判断是否曾经取得使用者A的3D人体模型。
步骤104,若曾经取得使用者A的3D人体模型,则从历史数据库中取得用户A的第一3D人体模型,其中包括用户A的第一人脸UV贴图(如图2A所示)、第一3D头部模型(如图2B所示)以及第一3D头发模型(未显示)。
步骤106,判断是否要重新取图,若不用,则接着执行步骤114。
步骤108,若未曾取得使用者A的3D人体模型,或判断要重新取得使用者A的3D人体模型,则利用一图像处理方法取得使用者A的第二人脸UV贴图、第二3D头部模型以及第二3D头发模型,并经由计算产生使用者A的第二3D人体模型。
步骤110,判断是否完成建立3D人体模型的操作。若确定完成所述建立3D人体模型的操作,则执行步骤114。
步骤112,若尚未完成,表示使用者A不满意目前产生的3D人体模型,则根据用户A的输入指令从所述历史数据库中选择想要的3D人体模型。
步骤114,根据使用者A的发声取得多个音频讯框,并将其中声音频率在50Hz~650Hz范围内的音频讯框过滤出来(例如,多个第一音频讯框)。本步骤主要用于去除非人类的语音区段。
步骤116,计算产生所述多个第一音频讯框的包络(Envelope)曲线,并计算所述包络曲线中的多段起音时间(Attack Time)与多段释音时间(Release Time),如图3A与3B所示。
步骤118,根据所述包络曲线的振幅决定用户A的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度。
如图4A所示,Trising=嘴唇张开时间,Tfalling=嘴唇闭合时间,710表示唇形完全闭合的门坎值,在门坎值以下的唇形处于正常闭合情况。721到723表示唇形由不完全闭合状态开始张开,723到725表示唇形由完全张开状态转为不完全闭合状态。
图4B表示正常闭合的唇形,其中X轴表示唇形的宽度,此时所述唇形的宽度为最大值(X=Xmax),而Y轴表示唇形高度,此时所述唇形的高度为0(Y=0)。图4C表示最大程度发音的唇形,此时所述唇形的宽度为最大值的80%(X轴=Xmaxх80%),且所述唇形的高度为最大值(Y=Ymax)。
步骤120,实时侦测用户A是否发生无语音但唇型发生变化的例外事件。
图5显示不出声的各种唇形,包括惊讶、生气、思考中、微笑、大笑、咬嘴唇…等等。
步骤122,若发生例外事件,将所述例外事件中的唇型讯息传送至用户B,使得所述三D人体模型仿真出相应用户A的唇型。
步骤124,判断例外唇型事件是否结束。
步骤126,若未发生例外事件,或所述例外唇型事件已结束,将使用者A的头部转动的影像讯息及肢体摆动的影像讯息传送至远程的用户B,使得所述3D人体模型于所述远程仿真出相应使用者A的动作。
步骤128,根据使用者A的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准用户A的唇形张开幅度,并将校准封包信息传送给所述远程的使用者B,使得所述三维人体模型根据所述校准封包信息仿真出相应所述第一使用者的唇形。
步骤128的动态校准操作更包括下列处理步骤。
以所述三维人体模型的唇形的最大值(Xmax)为基本单位,实时侦测本地端用户A的语音的包络曲线,并计算所述包络曲线中,超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。
将所述唇形的宽度X、所述唇形的高度Y以及对应使用者A的发声的包络的时戳(Time Stamp)打包并传送给远程使用者B。若本地端使用者A的人脸在某个时间点未朝向镜头或是被手部或其它物体遮住,则忽略所述时间点的校准动作。
实时侦测本地端使用者A的头部转动及肢体位置。若发生变动,则将使用者A的头部与肢体的坐标讯息传送至远程用户B。
如图6所示,P1表示用户A的网络语音(VoIP)封包,P2表示高画质的人脸影像封包,P3表示不定时校准唇形张开幅度的封包,P4表示本地端使用者的头部转动及肢体运动的封包。
步骤130,判断会议是否结束。若会议还未结束,则回到步骤114,继续执行前述操作。
视频会议的人脸辨识方法可节省视频会议所使用的带宽,在带宽不足的情况的下提升使用者的使用体验,让远程使用者在看到与会者影像嘴唇及声音是同步的。此外,与虚拟现实(Virtual Reality,VR)/扩增实境(Augmented Reality,AR)产品搭配使用可让多地与会者在同一会议室内,且所看到的人脸都是真人面孔,提高会议真实程度。
本发明的视频会议的人脸辨识方法更可应用于视频会议装置或视频会议服务器中。
所述视频会议装置或所述视频会议服务器包括一个或多个处理器(未显示)和/或多个模块或单元,用以完成本发明实施例。本发明实施例所称的模块或单元是完成一特定功能的计算机程序段。所述视频会议装置或所述视频会议服务器更包括存储媒体(未显示),用于存储执行本发明实施例的视频会议的人脸辨识方法的程序代码。前述处理器用于执行所述存储媒体中存储的程序代码。
所述存储媒体至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、随机访问内存(RAM)、静态随机访问内存(SRAM)、只读存储器(ROM)、电可擦除可程序设计只读存储器(EEPROM)、可程序设计只读存储器(PROM)、磁性内存、磁盘、光盘等。所述处理器可以是中央处理器(CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于执行软件程序代码运算数据。
对本领域的普通技术人员来说,可以根据本发明实施例提供的技术方案和技术构思结合生成的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明权利要求的保护范围。

Claims (9)

1.一种视频会议的人脸辨识方法,应用于一视频会议装置或一视频会议服务器中,其特征在于,包括:
判断是否曾经取得本地端的第一使用者的三维人体模型;
若曾经取得所述第一使用者的三维人体模型,则从历史数据库中取得所述第一使用者的第一三维人体模型;
根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框;
计算产生所述多个第一音频讯框的包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;
根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;
根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及
将校准封包信息、所述第一使用者的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的唇形与动作。
2.如权利要求1所述的视频会议的人脸辨识方法,其特征在于,所述动态校准操作还包括:
以所述三维人体模型的唇形的宽度的最大值为基本单位,实时侦测所述第一使用者的发声的包络曲线;以及
计算所述包络曲线中,超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。
3.如权利要求2所述的视频会议的人脸辨识方法,其特征在于,所述动态校准操作还包括:
将所述唇形的宽度与高度以及对应所述第一使用者的发声的包络的时戳打包并传送给所述远程的所述第二使用者。
4.如权利要求1所述的视频会议的人脸辨识方法,其特征在于,还包括:
实时侦测所述第一用户是否发生无语音但唇型发生变化的例外事件;以及
若发生所述例外事件,将所述例外事件中的例外唇型讯息传送至所述远程,使得所述三维人体模型仿真出相应所述第一使用者的唇型。
5.一种视频会议服务器,其包括存储媒体、处理器及存储在所述存储媒体上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时执行以下步骤:
判断是否曾经取得本地端的一第一使用者的三维人体模型;
若曾经取得所述第一使用者的三维人体模型,则从一历史数据库中取得所述第一使用者的一第一三维人体模型;
根据所述第一使用者的发声取得多个音频讯框,并自所述多个音频讯框过滤出声音频率在一特定范围内的多个第一音频讯框;
计算产生所述多个第一音频讯框的一包络曲线,并计算所述包络曲线中的多段起音时间与多段释音时间;
根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小,根据每一段起音时间决定所述嘴唇的张开速度,以及根据每一段释音时间决定所述嘴唇的闭合速度;
根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度,动态校准所述第一使用者的唇形张开幅度;以及
将校准封包信息、所述第一使用者的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的一第二使用者,使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。
6.如权利要求5所述的视频会议服务器,其特征在于,所述计算机程序被所述处理器执行时还执行以下步骤:
以所述三维人体模型的唇形的宽度的最大值为基本单位,实时侦测所述第一使用者的发声的包络曲线;以及
计算所述包络曲线中,超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。
7.如权利要求6所述的视频会议服务器,其特征在于,所述计算机程序被所述处理器执行时还执行以下步骤:
将所述唇形的宽度与高度以及对应所述第一使用者的发声的包络的时戳打包并传送给所述远程的所述第二使用者。
8.如权利要求5所述的视频会议服务器,其特征在于,所述计算机程序被所述处理器执行时还执行以下步骤:
实时侦测所述第一用户是否发生无语音但唇型发生变化的例外事件;以及
若发生所述例外事件,将所述例外事件中的例外唇型讯息传送至所述远程,使得所述三维人体模型仿真出相应所述第一使用者的唇型。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求第1至4中任一项所述的视频会议的人脸辨识方法的步骤。
CN201910408777.4A 2019-05-16 2019-05-16 视频会议的人脸辨识方法、服务器及计算机可读存储介质 Active CN111953922B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910408777.4A CN111953922B (zh) 2019-05-16 2019-05-16 视频会议的人脸辨识方法、服务器及计算机可读存储介质
US16/419,607 US10529111B1 (en) 2019-05-16 2019-05-22 Facial recognition method for video conference and server using the method
TW108119582A TW202101295A (zh) 2019-05-16 2019-06-05 視訊會議之人臉辨識方法與使用該方法的伺服器
US16/690,883 US10825222B1 (en) 2019-05-16 2019-11-21 Facial recognition method for video conference and server using the method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910408777.4A CN111953922B (zh) 2019-05-16 2019-05-16 视频会议的人脸辨识方法、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111953922A CN111953922A (zh) 2020-11-17
CN111953922B true CN111953922B (zh) 2022-05-27

Family

ID=69058610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910408777.4A Active CN111953922B (zh) 2019-05-16 2019-05-16 视频会议的人脸辨识方法、服务器及计算机可读存储介质

Country Status (3)

Country Link
US (2) US10529111B1 (zh)
CN (1) CN111953922B (zh)
TW (1) TW202101295A (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD896254S1 (en) * 2018-10-30 2020-09-15 Perfect Mobile Corp. Display screen with graphical user interface
US10692383B1 (en) * 2019-06-05 2020-06-23 Nanning Fugui Precision Industrial Co., Ltd. Method for locating vehicle and electronic device employing the method
CN112672089B (zh) * 2019-10-16 2024-02-06 中兴通讯股份有限公司 会议控制及与会方法、装置、服务器、终端及存储介质
CN112235600B (zh) * 2020-09-09 2022-04-22 北京旷视科技有限公司 视频数据及视频业务请求的处理方法、装置及系统
CN112562721B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
CN113239903B (zh) * 2021-07-08 2021-10-01 中国人民解放军国防科技大学 一种跨模态唇读的对抗性双重对比自监督学习方法
CN113938336A (zh) * 2021-11-15 2022-01-14 网易(杭州)网络有限公司 会议控制的方法、装置和电子设备
CN114581567B (zh) * 2022-05-06 2022-08-02 成都市谛视无限科技有限公司 一种声音驱动虚拟形象口型方法、装置及介质
CN115082991A (zh) * 2022-06-27 2022-09-20 平安银行股份有限公司 人脸活体检测方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1649409A (zh) * 2004-01-30 2005-08-03 株式会社Ntt都科摩 移动通信终端及程序
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN101690071A (zh) * 2007-06-29 2010-03-31 索尼爱立信移动通讯有限公司 在视频会议和其他通信期间控制化身的方法和终端
CN106067989A (zh) * 2016-04-28 2016-11-02 江苏大学 一种人像语音视频同步校准装置及方法
CN108513089A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 群组视频会话的方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005057431A (ja) * 2003-08-01 2005-03-03 Victor Co Of Japan Ltd テレビ電話端末装置
US8976160B2 (en) * 2005-03-01 2015-03-10 Eyesmatch Ltd User interface and authentication for a virtual mirror
US9269157B2 (en) * 2005-03-01 2016-02-23 Eyesmatch Ltd Methods for extracting objects from digital images and for performing color change on the object
US8144148B2 (en) * 2007-02-08 2012-03-27 Edge 3 Technologies Llc Method and system for vision-based interaction in a virtual environment
EP2229672A4 (en) * 2007-12-21 2014-01-22 Sony Comp Entertainment Us SYSTEM FOR INSERTING IMITATION OF DELIVERY IN A SCENE AND PROVIDING AN EVALUATION THEREOF
EP2324417A4 (en) * 2008-07-08 2012-01-11 Sceneplay Inc SYSTEM AND METHOD FOR PRODUCING MEDIA
US8744121B2 (en) * 2009-05-29 2014-06-03 Microsoft Corporation Device for identifying and tracking multiple humans over time
US20100302138A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Methods and systems for defining or modifying a visual representation
BRPI0904540B1 (pt) * 2009-11-27 2021-01-26 Samsung Eletrônica Da Amazônia Ltda método para animar rostos/cabeças/personagens virtuais via processamento de voz
US8284157B2 (en) * 2010-01-15 2012-10-09 Microsoft Corporation Directed performance in motion capture system
US8659658B2 (en) * 2010-02-09 2014-02-25 Microsoft Corporation Physical interaction zone for gesture-based user interfaces
US8730295B2 (en) * 2011-06-21 2014-05-20 Broadcom Corporation Audio processing for video conferencing
US9286711B2 (en) * 2011-09-30 2016-03-15 Microsoft Technology Licensing, Llc Representing a location at a previous time period using an augmented reality display
US20140099004A1 (en) * 2012-10-10 2014-04-10 Christopher James DiBona Managing real-time communication sessions
US9124762B2 (en) * 2012-12-20 2015-09-01 Microsoft Technology Licensing, Llc Privacy camera
WO2014131197A1 (en) * 2013-03-01 2014-09-04 Microsoft Corporation Object creation using body gestures
US9274606B2 (en) * 2013-03-14 2016-03-01 Microsoft Technology Licensing, Llc NUI video conference controls
JP5913394B2 (ja) * 2014-02-06 2016-04-27 Psソリューションズ株式会社 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
US9325939B2 (en) * 2014-08-14 2016-04-26 Verizon Patent And Licensing Inc. Method and system for providing gaze-directed correction during a video conferencing session
US10325395B2 (en) * 2016-01-20 2019-06-18 Facebook, Inc. Techniques for animating stickers with sound

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1649409A (zh) * 2004-01-30 2005-08-03 株式会社Ntt都科摩 移动通信终端及程序
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
CN101690071A (zh) * 2007-06-29 2010-03-31 索尼爱立信移动通讯有限公司 在视频会议和其他通信期间控制化身的方法和终端
CN101482976A (zh) * 2009-01-19 2009-07-15 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
CN106067989A (zh) * 2016-04-28 2016-11-02 江苏大学 一种人像语音视频同步校准装置及方法
CN108513089A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 群组视频会话的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唇同步的自动识别与验证研究;侯亚荣等;《计算机工程与设计》;20040228(第02期);8-11 *

Also Published As

Publication number Publication date
TW202101295A (zh) 2021-01-01
US10825222B1 (en) 2020-11-03
US10529111B1 (en) 2020-01-07
US20200364918A1 (en) 2020-11-19
CN111953922A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111953922B (zh) 视频会议的人脸辨识方法、服务器及计算机可读存储介质
CN101622876B (zh) 用于提供个人视频服务的系统和方法
US9424678B1 (en) Method for teleconferencing using 3-D avatar
US9258525B2 (en) System and method for reducing latency in video delivery
KR20200125775A (ko) 비디오 회의에서의 배경 수정
US10229507B1 (en) Expression transfer across telecommunications networks
JP2012181704A (ja) 情報処理装置および情報処理方法
US11671562B2 (en) Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
US20230353707A1 (en) Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
US20230106330A1 (en) Method for creating a variable model of a face of a person
US11627283B2 (en) Method for enabling synthetic autopilot video functions and for publishing a synthetic video feed as a virtual camera during a video call
Websdale et al. The effect of real-time constraints on automatic speech animation
US11910034B2 (en) Network-based assistance for receiver processing of video data
US11368652B1 (en) Video frame replacement based on auxiliary data
WO2023231712A1 (zh) 数字人驱动方法、数字人驱动设备及存储介质
US20240195940A1 (en) Generating a User Avatar for Video Communications
CN113259707B (zh) 虚拟人图像处理方法、装置、电子设备及存储介质
US20230247069A1 (en) Systems and Methods for Adaptive Video Conferencing
US20240070958A1 (en) 3d stream processing
TW202221649A (zh) 利用特徵補償的成像裝置及其成像方法
Stamm Assessing Image Quality Impact of View Bypass in Cloud Rendering
CN110719430A (zh) 图像数据生成方法、装置、电子设备及存储介质
CN116320433A (zh) 一种用于编码器的码率计算方法、装置、设备及介质
CN117896483A (zh) 视频通话方法、装置、电子设备及系统
Chen Technologies for building networked collaborative environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 530033 plant B of Foxconn Nanning science and Technology Park, No. 51 Tongle Avenue, Jiangnan District, Nanning City, Guangxi Zhuang Autonomous Region

Applicant after: Nanning Fulian Fugui Precision Industry Co.,Ltd.

Address before: 530007 the Guangxi Zhuang Autonomous Region Nanning hi tech Zone headquarters road 18, China ASEAN enterprise headquarters three phase 5 factory building

Applicant before: NANNING FUGUI PRECISION INDUSTRIAL Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant