CN111953922B

CN111953922B - 视频会议的人脸辨识方法、服务器及计算机可读存储介质

Info

Publication number: CN111953922B
Application number: CN201910408777.4A
Authority: CN
Inventors: 吴俊德; 石志刚; 刘东林; 蒙文; 钟愈强
Original assignee: Nanning Fulian Fugui Precision Industrial Co Ltd
Current assignee: Nanning Fulian Fugui Precision Industrial Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2022-05-27
Anticipated expiration: 2039-05-16
Also published as: TW202101295A; US10825222B1; US10529111B1; US20200364918A1; CN111953922A

Abstract

一种视频会议的人脸辨识方法。计算产生第一使用者的音频讯框的一包络曲线中的多段起音时间与多段释音时间；根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小，根据每一段起音时间决定所述嘴唇的张开速度，以及根据每一段释音时间决定所述嘴唇的闭合速度；根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度，动态校准所述第一使用者的唇形张开幅度。将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的一第二使用者，使得三维人体模型据以于所述远程模拟出相应所述第一使用者的动作。本发明还提供一种视频会议服务器及计算机可读存储介质，可优化带宽使用率与提升使用者体验。

Description

视频会议的人脸辨识方法、服务器及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种视频会议的人脸辨识方法、服务器及计算机可读存储介质。

背景技术

基于H.323通讯协议或会谈启始协议(Session Initiation Protocol，SIP)的视频会议系统使用H.261、H.263、H.264/先进视讯编码(Advanced Video Coding，AVC)、H.264高配置(High Profile)、H.264可适性视讯编码(Scalable Video Coding，SVC)、实时视讯(Real Time Video，RTV)等影像压缩技术，并且支持SVC标准，在受限的网络带宽环境也可使用。

然而，在带宽数据极度缺乏的环境或是网络忙碌的特定时段，常见以下问题。若设定视频会议为高质量影像，则实时传输影像可能会有延迟或每秒显示张数(Frame PerSecond，FPS)(或称，画面更新率)不足的情况。若为了保持视频会议流畅度而降低影像分辨率，则用户会明显感觉到传输影像的质量下降。另外，还可能会有网络等待时间时间增加以及视讯影像与语音不同步(Lip Syc)的问题。

发明内容

鉴于以上内容，有必要提供一种视频会议的人脸辨识方法与使用所述方法的视频会议服务器，可减少带宽使用，使得在低带宽的环境下提高视频会议的传输影像质量。

本发明实施例提供一种视频会议的人脸辨识方法，应用于视频会议装置或视频会议服务器中，包括下列步骤：判断是否曾经取得本地端的第一使用者的三维人体模型；若曾经取得所述第一使用者的三维人体模型，则从历史数据库中取得所述第一使用者的第一三维人体模型；根据所述第一使用者的发声取得多个音频讯框，并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框；计算产生所述多个第一音频讯框的包络曲线，并计算所述包络曲线中的多段起音时间与多段释音时间；根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小，根据每一段起音时间决定所述嘴唇的张开速度，以及根据每一段释音时间决定所述嘴唇的闭合速度；根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度，动态校准所述第一使用者的唇形张开幅度；以及将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者，使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。

本发明实施例还提供一种视频会议服务器，其包括存储媒体、处理器及存储在所述存储媒体上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时执行以下步骤：判断是否曾经取得本地端的第一使用者的三维人体模型；若曾经取得所述第一使用者的三维人体模型，则从历史数据库中取得所述第一使用者的第一三维人体模型；根据所述第一使用者的发声取得多个音频讯框，并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框；计算产生所述多个第一音频讯框的包络曲线，并计算所述包络曲线中的多段起音时间与多段释音时间；根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小，根据每一段起音时间决定所述嘴唇的张开速度，以及根据每一段释音时间决定所述嘴唇的闭合速度；根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度，动态校准所述第一使用者的唇形张开幅度；以及将校准封包信息、所述第一用户的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者，使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。

本发明实施例的视频会议的人脸辨识方法与使用所述方法的视频会议服务器可减少带宽使用，使得在低带宽的环境下提高视频会议的传输影像质量。

附图说明

图1是显示本发明实施例的视频会议的人脸辨识方法的步骤流程图。

图2A是显示本发明实施例的人脸UV贴图的示意图。

图2B是显示本发明实施例的3D头部模型的示意图。

图3A是显示本发明实施例的包络(Envelope)曲线与起音时间(Attack Time)的示意图。

图3B是显示本发明实施例的所述包络曲线与释音时间的示意图。

图4A是显示本发明实施例的唇形幅度变化的示意图。

图4B是显示本发明实施例的正常闭合的唇形的示意图。

图4C是显示本发明实施例的最大程度发音的唇形的示意图。

图5是显示本发明实施例的不出声的各种唇形的示意图。

图6是显示本发明实施例的动态校准唇形的示意图。

主要元件符号说明

唇形完全闭合的门坎值	710
		唇形不完全闭合状态	720
唇形完全张开状态	730

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

本发明实施例的人脸辨识方法使用现有的UV贴图技术来取得人脸模型。UV贴图技术是将图片以模型的点群(Vertex)相对关系(U、V轴)贴覆在模型上。以这种模式来贴覆对象的材质时，可以非常精确的依照模型点面结构在不规则形体的对象上正确的包覆所要处理的材质。

步骤102，判断是否曾经取得使用者A的3D人体模型。

步骤104，若曾经取得使用者A的3D人体模型，则从历史数据库中取得用户A的第一3D人体模型，其中包括用户A的第一人脸UV贴图(如图2A所示)、第一3D头部模型(如图2B所示)以及第一3D头发模型(未显示)。

步骤106，判断是否要重新取图，若不用，则接着执行步骤114。

步骤108，若未曾取得使用者A的3D人体模型，或判断要重新取得使用者A的3D人体模型，则利用一图像处理方法取得使用者A的第二人脸UV贴图、第二3D头部模型以及第二3D头发模型，并经由计算产生使用者A的第二3D人体模型。

步骤110，判断是否完成建立3D人体模型的操作。若确定完成所述建立3D人体模型的操作，则执行步骤114。

步骤112，若尚未完成，表示使用者A不满意目前产生的3D人体模型，则根据用户A的输入指令从所述历史数据库中选择想要的3D人体模型。

步骤114，根据使用者A的发声取得多个音频讯框，并将其中声音频率在50Hz～650Hz范围内的音频讯框过滤出来(例如，多个第一音频讯框)。本步骤主要用于去除非人类的语音区段。

步骤116，计算产生所述多个第一音频讯框的包络(Envelope)曲线，并计算所述包络曲线中的多段起音时间(Attack Time)与多段释音时间(Release Time)，如图3A与3B所示。

步骤118，根据所述包络曲线的振幅决定用户A的嘴唇的张开大小，根据每一段起音时间决定所述嘴唇的张开速度，以及根据每一段释音时间决定所述嘴唇的闭合速度。

如图4A所示，T_rising＝嘴唇张开时间，T_falling＝嘴唇闭合时间，710表示唇形完全闭合的门坎值，在门坎值以下的唇形处于正常闭合情况。721到723表示唇形由不完全闭合状态开始张开，723到725表示唇形由完全张开状态转为不完全闭合状态。

图4B表示正常闭合的唇形，其中X轴表示唇形的宽度，此时所述唇形的宽度为最大值(X＝X_max)，而Y轴表示唇形高度，此时所述唇形的高度为0(Y＝0)。图4C表示最大程度发音的唇形，此时所述唇形的宽度为最大值的80％(X轴＝X_maxх80％)，且所述唇形的高度为最大值(Y＝Y_max)。

步骤120，实时侦测用户A是否发生无语音但唇型发生变化的例外事件。

图5显示不出声的各种唇形，包括惊讶、生气、思考中、微笑、大笑、咬嘴唇…等等。

步骤122，若发生例外事件，将所述例外事件中的唇型讯息传送至用户B，使得所述三D人体模型仿真出相应用户A的唇型。

步骤124，判断例外唇型事件是否结束。

步骤126，若未发生例外事件，或所述例外唇型事件已结束，将使用者A的头部转动的影像讯息及肢体摆动的影像讯息传送至远程的用户B，使得所述3D人体模型于所述远程仿真出相应使用者A的动作。

步骤128，根据使用者A的嘴唇的所述张开大小、所述张开速度与所述闭合速度，动态校准用户A的唇形张开幅度，并将校准封包信息传送给所述远程的使用者B，使得所述三维人体模型根据所述校准封包信息仿真出相应所述第一使用者的唇形。

步骤128的动态校准操作更包括下列处理步骤。

以所述三维人体模型的唇形的最大值(Xmax)为基本单位，实时侦测本地端用户A的语音的包络曲线，并计算所述包络曲线中，超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。

将所述唇形的宽度X、所述唇形的高度Y以及对应使用者A的发声的包络的时戳(Time Stamp)打包并传送给远程使用者B。若本地端使用者A的人脸在某个时间点未朝向镜头或是被手部或其它物体遮住，则忽略所述时间点的校准动作。

实时侦测本地端使用者A的头部转动及肢体位置。若发生变动，则将使用者A的头部与肢体的坐标讯息传送至远程用户B。

如图6所示，P1表示用户A的网络语音(VoIP)封包，P2表示高画质的人脸影像封包，P3表示不定时校准唇形张开幅度的封包，P4表示本地端使用者的头部转动及肢体运动的封包。

步骤130，判断会议是否结束。若会议还未结束，则回到步骤114，继续执行前述操作。

视频会议的人脸辨识方法可节省视频会议所使用的带宽，在带宽不足的情况的下提升使用者的使用体验，让远程使用者在看到与会者影像嘴唇及声音是同步的。此外，与虚拟现实(Virtual Reality，VR)/扩增实境(Augmented Reality，AR)产品搭配使用可让多地与会者在同一会议室内，且所看到的人脸都是真人面孔，提高会议真实程度。

本发明的视频会议的人脸辨识方法更可应用于视频会议装置或视频会议服务器中。

所述视频会议装置或所述视频会议服务器包括一个或多个处理器(未显示)和/或多个模块或单元，用以完成本发明实施例。本发明实施例所称的模块或单元是完成一特定功能的计算机程序段。所述视频会议装置或所述视频会议服务器更包括存储媒体(未显示)，用于存储执行本发明实施例的视频会议的人脸辨识方法的程序代码。前述处理器用于执行所述存储媒体中存储的程序代码。

所述存储媒体至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、随机访问内存(RAM)、静态随机访问内存(SRAM)、只读存储器(ROM)、电可擦除可程序设计只读存储器(EEPROM)、可程序设计只读存储器(PROM)、磁性内存、磁盘、光盘等。所述处理器可以是中央处理器(CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于执行软件程序代码运算数据。

对本领域的普通技术人员来说，可以根据本发明实施例提供的技术方案和技术构思结合生成的实际需要做出其他相应的改变或调整，而这些改变和调整都应属于本发明权利要求的保护范围。

Claims

1.一种视频会议的人脸辨识方法，应用于一视频会议装置或一视频会议服务器中，其特征在于，包括：

判断是否曾经取得本地端的第一使用者的三维人体模型；

若曾经取得所述第一使用者的三维人体模型，则从历史数据库中取得所述第一使用者的第一三维人体模型；

根据所述第一使用者的发声取得多个音频讯框，并自所述多个音频讯框过滤出声音频率在特定范围内的多个第一音频讯框；

计算产生所述多个第一音频讯框的包络曲线，并计算所述包络曲线中的多段起音时间与多段释音时间；

根据所述包络曲线的振幅决定所述第一使用者的嘴唇的张开大小，根据每一段起音时间决定所述嘴唇的张开速度，以及根据每一段释音时间决定所述嘴唇的闭合速度；

根据所述第一使用者的嘴唇的所述张开大小、所述张开速度与所述闭合速度，动态校准所述第一使用者的唇形张开幅度；以及

将校准封包信息、所述第一使用者的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的第二使用者，使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的唇形与动作。

2.如权利要求1所述的视频会议的人脸辨识方法，其特征在于，所述动态校准操作还包括：

以所述三维人体模型的唇形的宽度的最大值为基本单位，实时侦测所述第一使用者的发声的包络曲线；以及

计算所述包络曲线中，超过门坎峰值的唇部的影像像素在嘴唇闭合状态下的宽度与所述最大值的百分比值。

3.如权利要求2所述的视频会议的人脸辨识方法，其特征在于，所述动态校准操作还包括：

将所述唇形的宽度与高度以及对应所述第一使用者的发声的包络的时戳打包并传送给所述远程的所述第二使用者。

4.如权利要求1所述的视频会议的人脸辨识方法，其特征在于，还包括：

实时侦测所述第一用户是否发生无语音但唇型发生变化的例外事件；以及

若发生所述例外事件，将所述例外事件中的例外唇型讯息传送至所述远程，使得所述三维人体模型仿真出相应所述第一使用者的唇型。

5.一种视频会议服务器，其包括存储媒体、处理器及存储在所述存储媒体上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时执行以下步骤：

判断是否曾经取得本地端的一第一使用者的三维人体模型；

若曾经取得所述第一使用者的三维人体模型，则从一历史数据库中取得所述第一使用者的一第一三维人体模型；

根据所述第一使用者的发声取得多个音频讯框，并自所述多个音频讯框过滤出声音频率在一特定范围内的多个第一音频讯框；

计算产生所述多个第一音频讯框的一包络曲线，并计算所述包络曲线中的多段起音时间与多段释音时间；

将校准封包信息、所述第一使用者的头部转动的影像讯息及肢体摆动的影像讯息传送给远程的一第二使用者，使得所述三维人体模型根据所述校准封包信息、所述头部转动的影像讯息及所述肢体摆动的影像讯息于所述远程仿真出相应所述第一使用者的动作。

6.如权利要求5所述的视频会议服务器，其特征在于，所述计算机程序被所述处理器执行时还执行以下步骤：

7.如权利要求6所述的视频会议服务器，其特征在于，所述计算机程序被所述处理器执行时还执行以下步骤：

8.如权利要求5所述的视频会议服务器，其特征在于，所述计算机程序被所述处理器执行时还执行以下步骤：

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求第1至4中任一项所述的视频会议的人脸辨识方法的步骤。