CN107911644A - 基于虚拟人脸表情进行视频通话的方法及装置 - Google Patents
基于虚拟人脸表情进行视频通话的方法及装置 Download PDFInfo
- Publication number
- CN107911644A CN107911644A CN201711262683.8A CN201711262683A CN107911644A CN 107911644 A CN107911644 A CN 107911644A CN 201711262683 A CN201711262683 A CN 201711262683A CN 107911644 A CN107911644 A CN 107911644A
- Authority
- CN
- China
- Prior art keywords
- user
- conjecture
- face
- frame data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008921 facial expression Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000033001 locomotion Effects 0.000 claims description 34
- 230000001815 facial effect Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 18
- 239000011800 void material Substances 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108010022579 ATP dependent 26S protease Proteins 0.000 description 1
- 206010023118 Jamais vu Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种基于虚拟人脸表情进行视频通话的方法及装置,其中,该方法包括:实时连续获取第一用户基于通话终端发送的第一视频帧数据和与第一视频帧数据相对应的第一音频数据,第一视频帧数据包括第一用户的第一人脸特征值;选择虚拟人脸模型,并根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情;实时连续播放虚拟人脸表情,同时解码并播放相对应的第一音频数据。该方法中的视频通话的另一方只需要提供包含人脸特征值的数据即可,之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情,从而可以避免另一侧用户的信息泄露,保证信息安全,可以提高隐私性。
Description
技术领域
本发明涉及视频通话技术领域,特别涉及一种基于虚拟人脸表情进行视频通话的方法及装置。
背景技术
目前,用户在进行视频通话时,一般选择计算机、手机、或者其他的有摄像头的电子设备,通过互联网传输上述电子设备采集的视频信号,进而实现视频通话。具体的,视频通话的双方均使用电子设备的前置摄像头来捕捉人脸或者物体的信息,并通过电子设备的听筒来获取声音信息,从而实现视频通话。
发明人在实现发明创造的过程中,发现现有方案至少存在以下缺陷:
现有的视频通话方式会使用原始的视频图像以及用户的原始声音,隐私性较差;同时,原始的视频图像所需较大的存储空间,在传输原始的视频图像时会占用过高的传输带宽,在网络信号不强、信道状况不好的情况下视频通信效果较差。
发明内容
本发明提供一种基于虚拟人脸表情进行视频通话的方法及装置,用以解决现有视频通话隐私性较差的缺陷。
本发明实施例提供的一种基于虚拟人脸表情进行视频通话的方法,包括:
实时连续获取第一用户基于通话终端发送的第一视频帧数据和与所述第一视频帧数据相对应的第一音频数据,所述第一视频帧数据包括所述第一用户的第一人脸特征值;
选择虚拟人脸模型,并根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情;
实时连续播放所述虚拟人脸表情,同时解码并播放相对应的所述第一音频数据。
在一种可能的实现方式中,所述根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情包括:
根据所述第一视频帧数据确定所述第一用户的人脸特征点的位置坐标,并确定所述第一用户的人脸特征点之间的相对位置;
根据所述第一用户的人脸特征点之间的相对位置调整所述虚拟人脸模型的人脸特征点的位置,并将调整后的虚拟人脸模型作为与所述第一视频帧数据相对应的虚拟人脸表情。
在一种可能的实现方式中,所述确定所述第一用户的人脸特征点之间的相对位置包括:
对所述人脸特征点进行分组,并确定每组中的关键人脸特征点;
分别确定每组中相邻的人脸特征点之间的相对位置,并确定不同组的关键人脸特征点之间的相对位置。
在一种可能的实现方式中,该方法还包括:
实时采集第二用户的人脸图像和原始声音数据;
根据所述人脸图像确定所述第二用户的第二人脸特征值,生成第二视频帧数据,并根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据;
将所述第二视频帧数据和所述第二音频数据发送至所述第一用户的通话终端。
在一种可能的实现方式中,所述第一音频数据为经过变声处理的音频数据;
所述根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据包括:
对所述原始声音数据进行变声处理,将变声处理后的原始声音数据作为与所述第二视频帧数据相对应的第二音频数据。
在一种可能的实现方式中,所述第一视频帧数据还包括:第一用户的人脸运动速度和人脸运动方向;
所述实时连续播放所述虚拟人脸表情,还包括:
在预设虚拟场景下,根据所述人脸运动速度和所述人脸运动方向播放所述虚拟人脸表情;所述预设虚拟场景为视频通话双方同时选择的同一场景,所述虚拟人脸表情的运动速度与所述人脸运动速度相一致,所述虚拟人脸表情的运动方向与所述人脸运动方向相一致。
基于同样的发明构思,本发明实施例还提供一种基于虚拟人脸表情进行视频通话的装置,包括:
获取模块,用于实时连续获取第一用户基于通话终端发送的第一视频帧数据和与所述第一视频帧数据相对应的第一音频数据,所述第一视频帧数据包括所述第一用户的第一人脸特征值;
处理模块,用于选择虚拟人脸模型,并根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情;
播放模块,用于实时连续播放所述虚拟人脸表情,同时解码并播放相对应的所述第一音频数据。
在一种可能的实现方式中,所述处理模块包括:
确定单元,用于根据所述第一视频帧数据确定所述第一用户的人脸特征点的位置坐标,并确定所述第一用户的人脸特征点之间的相对位置;
调整单元,用于根据所述第一用户的人脸特征点之间的相对位置调整所述虚拟人脸模型的人脸特征点的位置,并将调整后的虚拟人脸模型作为与所述第一视频帧数据相对应的虚拟人脸表情。
在一种可能的实现方式中,所述确定单元包括:
分组子单元,用于对所述人脸特征点进行分组,并确定每组中的关键人脸特征点;
确定子单元,用于分别确定每组中相邻的人脸特征点之间的相对位置,并确定不同组的关键人脸特征点之间的相对位置。
在一种可能的实现方式中,该装置还包括:
采集模块,用于实时采集第二用户的人脸图像和原始声音数据;
生成模块,用于根据所述人脸图像确定所述第二用户的第二人脸特征值,生成第二视频帧数据,并根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据;
发送模块,用于将所述第二视频帧数据和所述第二音频数据发送至所述第一用户的通话终端。
在一种可能的实现方式中,所述第一音频数据为经过变声处理的音频数据;
所述生成模块用于:对所述原始声音数据进行变声处理,将变声处理后的原始声音数据作为与所述第二视频帧数据相对应的第二音频数据。
本发明实施例提供的基于虚拟人脸表情进行视频通话的方法及装置,视频通话的另一方只需要提供包含人脸特征值的数据即可,之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情,从而可以避免另一侧用户的信息泄露,保证信息安全,可以提高隐私性。人脸特征值可以只包含人脸特征点的位置坐标,即视频通话过程中只需要传输人脸特征点的位置坐标,大大缩小了所要传输的数据,可以降低占用的传输带宽,在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。同时,以分组的方式计算人脸特征点之间的相对位置,在保证不同人脸特征点之间相对位置准确性的同时,可以提高计算速度。该方案在保护用户隐私的情况下还可以提升对话的趣味性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于虚拟人脸表情进行视频通话的方法流程图;
图2为本发明实施例中人脸特征点的一种排序方式示意图;
图3为本发明实施例中基于虚拟人脸表情进行视频通话的装置的第一结构图;
图4为本发明实施例中基于虚拟人脸表情进行视频通话的装置的第二结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的一种基于虚拟人脸表情进行视频通话的方法,参见图1所示,包括步骤101-103:
步骤101:实时连续获取第一用户基于通话终端发送的第一视频帧数据和与第一视频帧数据相对应的第一音频数据,第一视频帧数据包括第一用户的第一人脸特征值。
本发明实施例提供的方法具体可以由本地终端执行,具体可以由下述的第二用户操作本地终端。步骤101中的第一用户是视频通话的另一侧用户,即第一用户通过步骤101中的通话终端与使用本地终端的第二用户进行视频通话。在视频通话的过程中,第一用户的通话终端会实时逐帧采集第一用户的第一视频帧数据和与第一视频帧数据相对应的第一音频数据,并将该第一视频帧数据和第一音频数据发送至第二用户的本地终端;且该第一视频帧数据中包含可以表示第一用户人脸状态、形状或表情的第一人脸特征值。
步骤102:选择虚拟人脸模型,并根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情。
本发明实施例中,预先设有多种虚拟人脸模型,第二用户可以从中选择一个虚拟人脸模型。具体的,该虚拟人脸模型可以为动物面部模型,或者卡通人物的人脸模型,或者其他人物(如电影明星等)的人脸模型等。同时,第一视频帧数据中的第一人脸特征值可以包含第一用户的人脸特征点的位置坐标,将该位置坐标映射至虚拟人脸模型的特征点的相应位置处,从而可以调整虚拟人脸模型的人脸表情,使得虚拟人脸模型的人脸表情与第一用户的人脸表情尽可能一致。此时,调整后的虚拟人脸模型即可以作为当前的虚拟人脸表情。
步骤103:实时连续播放虚拟人脸表情,同时解码并播放相对应的第一音频数据。
本发明实施例中,在步骤101中逐帧获取第一用户的第一视频帧数据,之后从而可以逐帧确定相对应的虚拟人脸表情,在逐帧播放虚拟人脸表情时使得第二用户可以观看虚拟人脸表情的视频,从而实现在视频通话过程中将第一用户的视频图像转换为虚拟人脸表情,通过虚拟人脸表情展示第一用户的人脸表情。第二用户只能获知第一用户的表情,但并不能直接获得第一用户的人脸图像,从而可以保证第一用户的隐私性。
本发明实施例提供的基于虚拟人脸表情进行视频通话的方法,视频通话的另一方(即第一用户)只需要提供包含人脸特征值的数据即可,之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情,从而可以避免另一侧用户的信息泄露,保证信息安全,可以提高隐私性。
本发明另一实施例提供一种基于虚拟人脸表情进行视频通话的方法,该方法包括上述实施例中的步骤101-103,其实现原理以及技术效果参见图1对应的实施例。同时,本发明实施例中,步骤102中根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情,具体包括步骤A1-A2:
步骤A1:根据第一视频帧数据确定第一用户的人脸特征点的位置坐标,并确定第一用户的人脸特征点之间的相对位置。
本发明实施例中,第一视频帧数据中的第一人脸特征值具体包括人脸特征点的标识以及相对应的位置坐标。例如,采集第一用户的68个人脸特征点,标志分别为01,02,03,…,68,此时的人脸特征值具体可以包括:01-(61.5149,134.076),02-(61.1954,151.526),03-(63.4041,169.403),……,68-(67.9898,186.943)。或者,采集的人脸特征点按照预设顺序排列,此时的第一视频帧数据只包含人脸特征点的位置坐标即可。例如,采集第一用户的68个人脸特征点,此时人脸特征值具体可以包括:(61.5149,134.076),(61.1954,151.526),(63.4041,169.403),……,(67.9898,186.943)共68个位置坐标。人脸特征点的一种排序方式示意图参见图2所示,也可以采用其他排序或定位方式,本申请对此不做限定。
在确定人脸特征点的位置坐标后,根据数学原理即可以确定人脸特征点之间的相对位置,具体可以将人脸特征点之间的距离向量作为上述的相对位置。同时,为避免计算量过大,本发明实施例中,以分组的方式计算人脸特征点之间的相对位置。从理论上来讲,在确定所有人脸特征点的顺序后,依次确定相邻的特征点之间的距离向量后即可以确定所有人脸特征点之间的相对位置(即距离向量);但是在实际应用中,由于每次计算距离向量都会引入距离以及方向上的误差,上述计算方式容易引入过大的误差。例如上述68个人脸特征点的情况,假设只计算01至02之间的距离向量、02至03之间的距离向量、……67至68之间的距离向量,则此时01与68之间的相对位置会存在较大的误差。
本发明实施例中,确定人脸特征点之间的相对位置具体包括步骤B1-B2:
步骤B1:对人脸特征点进行分组,并确定每组中的关键人脸特征点。
具体的,可以根据聚类算法对人脸特征点进行分组,也可以根据人脸特征点所在的位置进行分组,例如将左眼相关的人脸特征点作为一组,将右眼相关的人脸特征点作为一组,将脸型轮廓相关的人脸特征点作为一组等。同时,每组中需要选取一个或多个人脸特征点作为关键的人脸特征点,该关键人脸特征点用于确定组间的相对位置。由于每组中人脸特征点的个数远远小于总的人脸特征点个数(如上述的68个),每组中计算相对位置的误差较小;且分组后的特征点组的数量也较少,计算组间的相对位置时误差同样较小。
步骤B2:分别确定每组中相邻的人脸特征点之间的相对位置,并确定不同组的关键人脸特征点之间的相对位置。
本发明实施例中,上述步骤B1-B2的目的在于提高计算效率,即可以预先对人脸特征点进行分组;同时,预先确定需要计算哪些人脸特征点之间的相对位置即可,在计算过程中并不需要关注哪些人脸特征点为同一组、哪些人脸特征点为关键人脸特征点。本发明实施例中以分组的方式计算人脸特征点之间的相对位置,在保证不同人脸特征点之间相对位置准确性的同时,可以提高计算速度。
步骤A2:根据第一用户的人脸特征点之间的相对位置调整虚拟人脸模型的人脸特征点的位置,并将调整后的虚拟人脸模型作为与第一视频帧数据相对应的虚拟人脸表情。
本发明实施例中,虚拟人脸模型也设有相对应的人脸特征点,在确定第一用户的人脸特征点之间的相对位置后,即可以根据该第一用户的人脸特征点之间的相对位置调整虚拟人脸模型的人脸特征点之间的相对位置,从而形成相对应的虚拟人脸表情。对于每一帧的第一视频帧数据,调整一次虚拟人脸模型的人脸特征点之间的相对位置,即为每一帧的第一视频帧数据生成相应的虚拟人脸表情。
在本发明实施例中,人脸特征值可以只包含人脸特征点的位置坐标,即视频通话过程中只需要传输人脸特征点的位置坐标,大大缩小了所要传输的数据,可以降低占用的传输带宽,在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。
在一种可能的实现方式中,该方法还包括发送视频数据的过程,具体包括步骤C1-C3:
步骤C1:实时采集第二用户的人脸图像和原始声音数据。
步骤C2:根据人脸图像确定第二用户的第二人脸特征值,生成第二视频帧数据,并根据原始声音数据确定与第二视频帧数据相对应的第二音频数据。
步骤C3:将第二视频帧数据和第二音频数据发送至第一用户的通话终端。
本发明实施例提供的方法适用于视频通话场景,即第二用户在接收第一用户发送的视频数据时,第二用户还需要向第一用户发送本地的视频数据。具体的,如上所述,第二用户利用本地终端进行视频通话时,本地终端通过摄像头采集第二用户的人脸图像以及附近环境的原始声音数据;之后利用人脸识别算法,根据第二用户的人脸图像即可以确定第二用户的第二人脸特征值,进而生成包含第二人脸特征值的第二视频帧数据;同时将模拟的原始声音数据转换为数字的第二音频数据,并将该第二视频帧数据和第二音频数据发送至第一用户使用的通话终端。
同样的,第一用户的通话终端在接收到第二视频帧数据和第二音频数据后,与上述步骤101-103中第二用户的本地终端处理第一视频帧数据和第一音频数据的处理方式相似,即第一用户的通话终端也只能获取到第二用户的人脸表情,并不能直接获得第二用户的人脸图像,从而也可以保证第二用户的隐私性。
可选的,本发明实施例中还对音频数据进行变声处理,即视频通话的对方只能获取到变声处理后的声音,可以进一步提高通过的隐私性。具体的,第一音频数据为经过变声处理的音频数据。步骤C2中根据原始声音数据确定与第二视频帧数据相对应的第二音频数据,具体包括:对原始声音数据进行变声处理,将变声处理后的原始声音数据作为与第二视频帧数据相对应的第二音频数据。这样一方面可以保护自己的隐私,一方面提升了对话的趣味性。
在一种可能的实现方式中,该方法还包括步骤D1-D2:
步骤D1:接收第二用户输入的缩放指令,并确定与缩放指令相对应的缩放比例。
步骤D2:根据缩放比例对虚拟人脸表情进行缩放处理。
本发明实施例中,由于视频通话的双方只是传递人脸特征值,并根据人脸特征值以及选择的虚拟人脸模型生成相应的虚拟人脸表情,该方法使得视频通话过程具有较高的可塑性和可扩展性,即根据用户输入的缩放指令可以任意缩放虚拟人脸表情,如上述的步骤D1-D2;同时,用户还可以选择虚拟场景,并将虚拟人脸头像设置于所选的虚拟场景中,从而实现在虚拟的场景中利用虚拟人脸表情来进行视频通话,使得该视频通话方法更加多样化。
在一种可能的实现方式中,第一视频帧数据还包括:第一用户的人脸运动速度和人脸运动方向。
具体的,第一用户基于通话终端采集第一用户的通话视频时,还可以采集第一用户的人脸或头部运动,具体可以利用与该通话终端相匹配的可穿戴头部设备(如智能头盔或智能眼镜等)采集第一用户的人脸运动速度和人脸运动方向。或者第一用户的通话终端在采集到当前时刻第一用户的人脸图像时,同时获取该人脸图像的上一帧的人脸图像,在两帧相邻的人脸图像中选择一个基准点(可以是人脸中的一个点,比如眼睛等;也可以外部环境中共同存在的一个点,外部环境中的某样事物),进而将两帧人脸图像进行比对,确定当前时刻的人脸图像与上一帧的人脸图像之间的相对运动,从而可以确定当前时刻的人脸图像的运动速度和运动方向,可以将该运动速度和运动方向作为第一视频帧数据中的第一用户的人脸运动速度和人脸运动方向。
此时,上述步骤103实时连续播放虚拟人脸表情,还包括:在预设虚拟场景下,根据人脸运动速度和人脸运动方向播放虚拟人脸表情;预设虚拟场景为视频通话双方同时选择的同一场景,虚拟人脸表情的运动速度与人脸运动速度相一致,虚拟人脸表情的运动方向与人脸运动方向相一致。
本发明实施例中,视频通话双方(即第一用户和第二用户)同时选择同一个虚拟场景,即预设虚拟场景,在该预设虚拟场景下播放二者的虚拟人脸表情从而实现视频通话。同时,通过人脸运动速度和人脸运动方向移动相应的虚拟人脸表情,可以增加视频通话双方的互动性,有效降低人之间的生疏感,提升通话的趣味性。例如,视频通话双方可以在该预设的虚拟场景下一起玩顶气球的游戏,使得双方具有更强的交互性。
本发明实施例提供的基于虚拟人脸表情进行视频通话的方法,视频通话的另一方只需要提供包含人脸特征值的数据即可,之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情,从而可以避免另一侧用户的信息泄露,保证信息安全,可以提高隐私性。人脸特征值可以只包含人脸特征点的位置坐标,即视频通话过程中只需要传输人脸特征点的位置坐标,大大缩小了所要传输的数据,可以降低占用的传输带宽,在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。同时,以分组的方式计算人脸特征点之间的相对位置,在保证不同人脸特征点之间相对位置准确性的同时,可以提高计算速度。
以上详细介绍了基于虚拟人脸表情进行视频通话的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种基于虚拟人脸表情进行视频通话的装置,参见图3所示,包括:
获取模块31,用于实时连续获取第一用户基于通话终端发送的第一视频帧数据和与第一视频帧数据相对应的第一音频数据,第一视频帧数据包括第一用户的第一人脸特征值;
处理模块32,用于选择虚拟人脸模型,并根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情;
播放模块33,用于实时连续播放虚拟人脸表情,同时解码并播放相对应的第一音频数据。
在一种可能的实现方式中,处理模块32包括:
确定单元,用于根据第一视频帧数据确定第一用户的人脸特征点的位置坐标,并确定第一用户的人脸特征点之间的相对位置;
调整单元,用于根据第一用户的人脸特征点之间的相对位置调整虚拟人脸模型的人脸特征点的位置,并将调整后的虚拟人脸模型作为与第一视频帧数据相对应的虚拟人脸表情。
在一种可能的实现方式中,确定单元包括:
分组子单元,用于对人脸特征点进行分组,并确定每组中的关键人脸特征点;
确定子单元,用于分别确定每组中相邻的人脸特征点之间的相对位置,并确定不同组的关键人脸特征点之间的相对位置。
在一种可能的实现方式中,参见图4所示,该装置还包括:
采集模块34,用于实时采集第二用户的人脸图像和原始声音数据;
生成模块35,用于根据人脸图像确定第二用户的第二人脸特征值,生成第二视频帧数据,并根据原始声音数据确定与第二视频帧数据相对应的第二音频数据;
发送模块36,用于将第二视频帧数据和第二音频数据发送至第一用户的通话终端。
在一种可能的实现方式中,第一音频数据为经过变声处理的音频数据;
生成模块35用于:对原始声音数据进行变声处理,将变声处理后的原始声音数据作为与第二视频帧数据相对应的第二音频数据。
本发明实施例提供的基于虚拟人脸表情进行视频通话的装置,视频通话的另一方只需要提供包含人脸特征值的数据即可,之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情,从而可以避免另一侧用户的信息泄露,保证信息安全,可以提高隐私性。人脸特征值可以只包含人脸特征点的位置坐标,即视频通话过程中只需要传输人脸特征点的位置坐标,大大缩小了所要传输的数据,可以降低占用的传输带宽,在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。同时,以分组的方式计算人脸特征点之间的相对位置,在保证不同人脸特征点之间相对位置准确性的同时,可以提高计算速度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于虚拟人脸表情进行视频通话的方法,其特征在于,包括:
实时连续获取第一用户基于通话终端发送的第一视频帧数据和与所述第一视频帧数据相对应的第一音频数据,所述第一视频帧数据包括所述第一用户的第一人脸特征值;
选择虚拟人脸模型,并根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情;
实时连续播放所述虚拟人脸表情,同时解码并播放相对应的所述第一音频数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情包括:
根据所述第一视频帧数据确定所述第一用户的人脸特征点的位置坐标,并确定所述第一用户的人脸特征点之间的相对位置;
根据所述第一用户的人脸特征点之间的相对位置调整所述虚拟人脸模型的人脸特征点的位置,并将调整后的虚拟人脸模型作为与所述第一视频帧数据相对应的虚拟人脸表情。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一用户的人脸特征点之间的相对位置包括:
对所述人脸特征点进行分组,并确定每组中的关键人脸特征点;
分别确定每组中相邻的人脸特征点之间的相对位置,并确定不同组的关键人脸特征点之间的相对位置。
4.根据权利要求1所述的方法,其特征在于,还包括:
实时采集第二用户的人脸图像和原始声音数据;
根据所述人脸图像确定所述第二用户的第二人脸特征值,生成第二视频帧数据,并根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据;
将所述第二视频帧数据和所述第二音频数据发送至所述第一用户的通话终端。
5.根据权利要求4所述的方法,其特征在于,所述第一音频数据为经过变声处理的音频数据;
所述根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据包括:
对所述原始声音数据进行变声处理,将变声处理后的原始声音数据作为与所述第二视频帧数据相对应的第二音频数据。
6.根据权利要求1所述的方法,其特征在于,所述第一视频帧数据还包括:第一用户的人脸运动速度和人脸运动方向;
所述实时连续播放所述虚拟人脸表情,还包括:
在预设虚拟场景下,根据所述人脸运动速度和所述人脸运动方向播放所述虚拟人脸表情;所述预设虚拟场景为视频通话双方同时选择的同一场景,所述虚拟人脸表情的运动速度与所述人脸运动速度相一致,所述虚拟人脸表情的运动方向与所述人脸运动方向相一致。
7.一种基于虚拟人脸表情进行视频通话的装置,其特征在于,包括:
获取模块,用于实时连续获取第一用户基于通话终端发送的第一视频帧数据和与所述第一视频帧数据相对应的第一音频数据,所述第一视频帧数据包括所述第一用户的第一人脸特征值;
处理模块,用于选择虚拟人脸模型,并根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情;
播放模块,用于实时连续播放所述虚拟人脸表情,同时解码并播放相对应的所述第一音频数据。
8.根据权利要求7所述的装置,其特征在于,所述处理模块包括:
确定单元,用于根据所述第一视频帧数据确定所述第一用户的人脸特征点的位置坐标,并确定所述第一用户的人脸特征点之间的相对位置;
调整单元,用于根据所述第一用户的人脸特征点之间的相对位置调整所述虚拟人脸模型的人脸特征点的位置,并将调整后的虚拟人脸模型作为与所述第一视频帧数据相对应的虚拟人脸表情。
9.根据权利要求8所述的装置,其特征在于,所述确定单元包括:
分组子单元,用于对所述人脸特征点进行分组,并确定每组中的关键人脸特征点;
确定子单元,用于分别确定每组中相邻的人脸特征点之间的相对位置,并确定不同组的关键人脸特征点之间的相对位置。
10.根据权利要求7所述的装置,其特征在于,还包括:
采集模块,用于实时采集第二用户的人脸图像和原始声音数据;
生成模块,用于根据所述人脸图像确定所述第二用户的第二人脸特征值,生成第二视频帧数据,并根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据;
发送模块,用于将所述第二视频帧数据和所述第二音频数据发送至所述第一用户的通话终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711262683.8A CN107911644B (zh) | 2017-12-04 | 2017-12-04 | 基于虚拟人脸表情进行视频通话的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711262683.8A CN107911644B (zh) | 2017-12-04 | 2017-12-04 | 基于虚拟人脸表情进行视频通话的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107911644A true CN107911644A (zh) | 2018-04-13 |
CN107911644B CN107911644B (zh) | 2020-05-08 |
Family
ID=61854276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711262683.8A Expired - Fee Related CN107911644B (zh) | 2017-12-04 | 2017-12-04 | 基于虚拟人脸表情进行视频通话的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107911644B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101806A (zh) * | 2018-08-17 | 2018-12-28 | 浙江捷尚视觉科技股份有限公司 | 一种基于风格迁移的隐私人像数据标注方法 |
CN109118454A (zh) * | 2018-08-30 | 2019-01-01 | 北京旷视科技有限公司 | 图像数据处理方法、装置、系统、计算机可读存储介质 |
CN109271553A (zh) * | 2018-08-31 | 2019-01-25 | 乐蜜有限公司 | 一种虚拟形象视频播放方法、装置、电子设备及存储介质 |
CN110032414A (zh) * | 2019-03-06 | 2019-07-19 | 联想企业解决方案(新加坡)有限公司 | 远程控制台模式下安全的用户认证的装置和方法 |
CN110213521A (zh) * | 2019-05-22 | 2019-09-06 | 创易汇(北京)科技有限公司 | 一种虚拟即时通信方法 |
CN110390189A (zh) * | 2018-04-19 | 2019-10-29 | 上海擎感智能科技有限公司 | 基于移动终端的隐私保护方法、操作系统、及车辆 |
CN110446000A (zh) * | 2019-08-07 | 2019-11-12 | 三星电子(中国)研发中心 | 一种生成对话人物形象的方法和装置 |
CN110490164A (zh) * | 2019-08-26 | 2019-11-22 | 北京达佳互联信息技术有限公司 | 生成虚拟表情的方法、装置、设备及介质 |
CN110599359A (zh) * | 2019-09-05 | 2019-12-20 | 深圳追一科技有限公司 | 社交方法、装置、系统、终端设备及存储介质 |
CN110719415A (zh) * | 2019-09-30 | 2020-01-21 | 深圳市商汤科技有限公司 | 一种视频图像处理方法、装置、电子设备及计算机可读介质 |
CN110784676A (zh) * | 2019-10-28 | 2020-02-11 | 深圳传音控股股份有限公司 | 数据处理方法、终端设备及计算机可读存储介质 |
CN111614925A (zh) * | 2020-05-20 | 2020-09-01 | 广州视源电子科技股份有限公司 | 人物图像处理方法、装置、相应终端及存储介质 |
CN112135083A (zh) * | 2020-09-27 | 2020-12-25 | 广东小天才科技有限公司 | 一种视频通话过程中脸舞互动的方法及系统 |
CN112565913A (zh) * | 2020-11-30 | 2021-03-26 | 维沃移动通信有限公司 | 视频通话方法、装置和电子设备 |
CN113691833A (zh) * | 2020-05-18 | 2021-11-23 | 北京搜狗科技发展有限公司 | 虚拟主播换脸方法、装置、电子设备及存储介质 |
CN113838178A (zh) * | 2021-08-09 | 2021-12-24 | 惠州Tcl云创科技有限公司 | 一种虚拟形象视频通话方法、终端设备及存储介质 |
CN114710640A (zh) * | 2020-12-29 | 2022-07-05 | 华为技术有限公司 | 基于虚拟形象的视频通话方法、装置和终端 |
WO2023051705A1 (zh) * | 2021-09-30 | 2023-04-06 | 中兴通讯股份有限公司 | 视频通讯方法及装置、电子设备、计算机可读介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1532775A (zh) * | 2003-03-19 | 2004-09-29 | ���µ�����ҵ��ʽ���� | 可视电话终端 |
CN102176197A (zh) * | 2011-03-23 | 2011-09-07 | 上海那里网络科技有限公司 | 一种使用虚拟化身和实时影像进行实时互动的方法 |
CN103369289A (zh) * | 2012-03-29 | 2013-10-23 | 深圳市腾讯计算机系统有限公司 | 一种视频模拟形象的通信方法和装置 |
CN103442137A (zh) * | 2013-08-26 | 2013-12-11 | 苏州跨界软件科技有限公司 | 一种在手机通话中查看对方虚拟人脸的方法 |
CN103647922A (zh) * | 2013-12-20 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 虚拟视频通话方法和终端 |
CN107333086A (zh) * | 2016-04-29 | 2017-11-07 | 掌赢信息科技(上海)有限公司 | 一种在虚拟场景中进行视频通信的方法及装置 |
-
2017
- 2017-12-04 CN CN201711262683.8A patent/CN107911644B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1532775A (zh) * | 2003-03-19 | 2004-09-29 | ���µ�����ҵ��ʽ���� | 可视电话终端 |
CN102176197A (zh) * | 2011-03-23 | 2011-09-07 | 上海那里网络科技有限公司 | 一种使用虚拟化身和实时影像进行实时互动的方法 |
CN103369289A (zh) * | 2012-03-29 | 2013-10-23 | 深圳市腾讯计算机系统有限公司 | 一种视频模拟形象的通信方法和装置 |
CN103442137A (zh) * | 2013-08-26 | 2013-12-11 | 苏州跨界软件科技有限公司 | 一种在手机通话中查看对方虚拟人脸的方法 |
CN103647922A (zh) * | 2013-12-20 | 2014-03-19 | 百度在线网络技术(北京)有限公司 | 虚拟视频通话方法和终端 |
CN107333086A (zh) * | 2016-04-29 | 2017-11-07 | 掌赢信息科技(上海)有限公司 | 一种在虚拟场景中进行视频通信的方法及装置 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390189A (zh) * | 2018-04-19 | 2019-10-29 | 上海擎感智能科技有限公司 | 基于移动终端的隐私保护方法、操作系统、及车辆 |
CN109101806A (zh) * | 2018-08-17 | 2018-12-28 | 浙江捷尚视觉科技股份有限公司 | 一种基于风格迁移的隐私人像数据标注方法 |
CN109118454A (zh) * | 2018-08-30 | 2019-01-01 | 北京旷视科技有限公司 | 图像数据处理方法、装置、系统、计算机可读存储介质 |
CN109271553A (zh) * | 2018-08-31 | 2019-01-25 | 乐蜜有限公司 | 一种虚拟形象视频播放方法、装置、电子设备及存储介质 |
CN110032414A (zh) * | 2019-03-06 | 2019-07-19 | 联想企业解决方案(新加坡)有限公司 | 远程控制台模式下安全的用户认证的装置和方法 |
CN110032414B (zh) * | 2019-03-06 | 2023-06-06 | 联想企业解决方案(新加坡)有限公司 | 远程控制台模式下安全的用户认证的装置和方法 |
CN110213521A (zh) * | 2019-05-22 | 2019-09-06 | 创易汇(北京)科技有限公司 | 一种虚拟即时通信方法 |
CN110446000A (zh) * | 2019-08-07 | 2019-11-12 | 三星电子(中国)研发中心 | 一种生成对话人物形象的方法和装置 |
CN110490164A (zh) * | 2019-08-26 | 2019-11-22 | 北京达佳互联信息技术有限公司 | 生成虚拟表情的方法、装置、设备及介质 |
CN110490164B (zh) * | 2019-08-26 | 2022-05-24 | 北京达佳互联信息技术有限公司 | 生成虚拟表情的方法、装置、设备及介质 |
CN110599359A (zh) * | 2019-09-05 | 2019-12-20 | 深圳追一科技有限公司 | 社交方法、装置、系统、终端设备及存储介质 |
CN110599359B (zh) * | 2019-09-05 | 2022-09-16 | 深圳追一科技有限公司 | 社交方法、装置、系统、终端设备及存储介质 |
CN110719415A (zh) * | 2019-09-30 | 2020-01-21 | 深圳市商汤科技有限公司 | 一种视频图像处理方法、装置、电子设备及计算机可读介质 |
CN110719415B (zh) * | 2019-09-30 | 2022-03-15 | 深圳市商汤科技有限公司 | 一种视频图像处理方法、装置、电子设备及计算机可读介质 |
CN110784676A (zh) * | 2019-10-28 | 2020-02-11 | 深圳传音控股股份有限公司 | 数据处理方法、终端设备及计算机可读存储介质 |
CN110784676B (zh) * | 2019-10-28 | 2023-10-03 | 深圳传音控股股份有限公司 | 数据处理方法、终端设备及计算机可读存储介质 |
CN113691833A (zh) * | 2020-05-18 | 2021-11-23 | 北京搜狗科技发展有限公司 | 虚拟主播换脸方法、装置、电子设备及存储介质 |
CN111614925A (zh) * | 2020-05-20 | 2020-09-01 | 广州视源电子科技股份有限公司 | 人物图像处理方法、装置、相应终端及存储介质 |
CN112135083A (zh) * | 2020-09-27 | 2020-12-25 | 广东小天才科技有限公司 | 一种视频通话过程中脸舞互动的方法及系统 |
CN112565913A (zh) * | 2020-11-30 | 2021-03-26 | 维沃移动通信有限公司 | 视频通话方法、装置和电子设备 |
WO2022143128A1 (zh) * | 2020-12-29 | 2022-07-07 | 华为技术有限公司 | 基于虚拟形象的视频通话方法、装置和终端 |
CN114710640A (zh) * | 2020-12-29 | 2022-07-05 | 华为技术有限公司 | 基于虚拟形象的视频通话方法、装置和终端 |
CN114710640B (zh) * | 2020-12-29 | 2023-06-27 | 华为技术有限公司 | 基于虚拟形象的视频通话方法、装置和终端 |
CN113838178A (zh) * | 2021-08-09 | 2021-12-24 | 惠州Tcl云创科技有限公司 | 一种虚拟形象视频通话方法、终端设备及存储介质 |
WO2023051705A1 (zh) * | 2021-09-30 | 2023-04-06 | 中兴通讯股份有限公司 | 视频通讯方法及装置、电子设备、计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107911644B (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107911644A (zh) | 基于虚拟人脸表情进行视频通话的方法及装置 | |
KR101768980B1 (ko) | 가상 동영상 통화 방법 및 단말 | |
CN108491775B (zh) | 一种图像修正方法及移动终端 | |
CN107103801B (zh) | 远程三维场景互动教学系统及控制方法 | |
US8581953B2 (en) | Method and apparatus for providing animation effect on video telephony call | |
US9030486B2 (en) | System and method for low bandwidth image transmission | |
CN106919248A (zh) | 应用于虚拟现实的内容传输方法以及设备 | |
CN109413563A (zh) | 视频的音效处理方法及相关产品 | |
CN109872297A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110446000A (zh) | 一种生成对话人物形象的方法和装置 | |
CN107211180A (zh) | 用于具有相关联的音频内容的对象的空间音频信号处理 | |
CN108322644A (zh) | 一种图像处理方法、移动终端以及计算机可读存储介质 | |
KR20050102079A (ko) | 이동영상통신을 위한 아바타 데이터베이스 | |
CN107566739A (zh) | 一种拍照方法及移动终端 | |
JPH07255044A (ja) | アニメーション式電子会議室及びビデオ会議システム及びビデオ会議方法 | |
CN103369289A (zh) | 一种视频模拟形象的通信方法和装置 | |
JP2014187559A (ja) | 仮想現実提示システム、仮想現実提示方法 | |
WO2008087621A1 (en) | An apparatus and method for animating emotionally driven virtual objects | |
CN107948516A (zh) | 一种图像处理方法、装置及移动终端 | |
CN112839196B (zh) | 一种实现在线会议的方法、装置以及存储介质 | |
JP2023512966A (ja) | 画像処理方法、電子機器及びコンピュータ可読記憶媒体 | |
CN108280817A (zh) | 一种图像处理方法及移动终端 | |
CN108270971B (zh) | 一种移动终端对焦的方法、设备及计算机可读存储介质 | |
Nagata et al. | Virtual reality technologies in telecommunication services | |
CN107623830A (zh) | 一种视频通话方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200508 |