CN113302622A - 用于提供个性化视频的系统和方法 - Google Patents
用于提供个性化视频的系统和方法 Download PDFInfo
- Publication number
- CN113302622A CN113302622A CN202080009764.0A CN202080009764A CN113302622A CN 113302622 A CN113302622 A CN 113302622A CN 202080009764 A CN202080009764 A CN 202080009764A CN 113302622 A CN113302622 A CN 113302622A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- source
- computing device
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000008921 facial expression Effects 0.000 claims abstract description 49
- 230000001815 facial effect Effects 0.000 claims description 46
- 238000004891 communication Methods 0.000 claims description 33
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 10
- 210000000887 face Anatomy 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 239000011521 glass Substances 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4318—Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/631—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
- H04N23/632—Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters for displaying or modifying preview images prior to image capturing, e.g. variety of image resolutions or capturing parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Processing Or Creating Images (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了用于提供个性化视频的系统和方法。一种示例性方法包括存储一个或多个预处理视频。一个或多个预处理视频可以包括具有至少一个目标面部的至少一个帧。所述方法可以继续接收源面部的图像,例如通过接收用户对另外的图像的选择,并将另外的图像分割成包括源面部的部分和背景。所述方法然后可以继续修改一个或多个预处理视频,以生成一个或多个个性化视频。修改可以包括修改源面部的图像以生成修改的源面部的图像。修改的源面部可以采用目标面部的面部表情。修改还可以包括将至少一个目标面部替换为修改的源面部的图像。
Description
技术领域
本发明总体上涉及数字图像处理。更特别地,本发明涉及用于提供个性化视频的方法和系统。
背景技术
诸如贴纸和表情符号等分享媒体已经成为消息传递应用程序(本文也称为即时消息软件(messenger))中的标准选项。目前,一些即时消息软件为用户提供了通过通信聊天来向其他用户生成和发送图像和短视频的选项。某些现有的即时消息软件允许用户在传输之前修改短视频。然而,现有即时消息软件提供的对短视频的修改仅限于可视化效果、滤镜和文本。当前即时消息软件的用户不能进行复杂的编辑,例如将一个面部替换为另外一个面部。当前的即时消息软件不提供这种视频编辑,这种复杂的视频编辑需要使用第三方视频编辑软件。
发明内容
提供该部分以引入简化形式的技术方案,将在下面的具体实施方式部分中进一步描述该技术方案。本发明内容并非用于确定要求保护的主题的关键特征或基本特征,也并非用于帮助确定要求保护的主题的范围。
根据本发明的一个实施例,公开了一种提供个性化视频的系统。所述系统可以包括至少一个处理器和存储器,该存储器存储处理器可执行代码。处理器可以被配置为在计算设备的存储器中存储一个或多个预处理视频。一个或多个预处理视频可以包括具有至少一个目标面部的至少一个帧。处理器可以被配置为接收源面部的图像。可以接收源面部的图像,将其作为用户从存储在存储器中的一组图像中选择的另外的图像。另外的图像可以被分割成包括源面部的部分和背景。在另外的示例性实施例中,可以通过计算设备的相机采集另外的图像,以及将另外的图像分割成包括源面部的部分和背景,来接收源面部的图像。在采集另外的图像之前,处理器可以经由计算设备的图形显示系统显示另外的图像,以及引导用户将另外的图像中的面部定位在屏幕的预定区域内。
处理器可以被配置为修改一个或多个预处理视频以生成一个或多个个性化视频。可以通过修改源面部的图像以采用目标面部的面部表情,来执行对一个或多个预处理视频的修改。修改一个或多个预处理视频还可以包括将至少一个目标面部替换为修改的源面部的图像。
在修改源面部的图像之前,处理器可以基于至少一个帧确定与参数化面部模型相关联的目标面部表情参数。在本实施例中,修改源面部的图像可以包括基于源面部的图像确定与参数化面部模型相关联的源参数。源参数可以包括源面部表情参数、源面部身份参数和源面部纹理参数。修改源面部图像还可以包括基于参数化面部模型和目标面部表情参数、源面部身份参数以及源面部纹理参数来合成修改的源面部的图像。
处理器还可以被配置为接收另外的源的另外的图像,并基于另外的图像修改一个或多个预处理视频,以生成一个或多个另外的个性化视频。处理器还可以被配置为启用用户与至少一个远程计算设备的至少一个另外的用户之间的通信聊天,接收用户从一个或多个个性化视频中选择的视频,并且通过通信聊天将所选择的视频发送给至少一个另外的用户。
处理器还可以被配置为在通信聊天的窗口中显示所选择的视频。所选择的视频可以以折叠模式显示。在接收到用户已经在通信聊天窗口中点击所选择的视频的指示时,处理器可以以全屏模式显示选择的视频。处理器还可以被配置为在以折叠模式显示所选择的视频时,将与所选择的视频相关联的声音静音,并在以全屏模式显示所选择的视频时,回放与所选择的视频相关联的声音。
根据一个示例性实施例,公开了一种用于提供个性化视频的方法。该方法可以包括通过计算设备存储一个或多个预处理视频。一个或多个预处理视频可以包括具有至少一个目标面部的至少一个帧。所述方法然后可以继续通过计算设备接收源面部的图像。可以接收源面部的图像,将其作为用户从存储在计算设备的存储器中的一组图像中选择另外的图像,并且将另外的图像分割成包括源面部的部分和背景。在另外的示例性实施例中,可以通过计算设备的相机采集另外的图像,并将另外的图像分割成包括源面部的部分和背景,来接收源面部的图像。在采集另外的图像之前,可以经由计算设备的图形显示系统来显示另外的图像,并且可以引导用户将具有另外的图像的面部图像定位在图形显示系统的预定区域内。
所述方法还可以包括通过计算设备修改一个或多个预处理视频,以生成一个或多个个性化视频。修改可以包括修改源面部的图像以生成修改的源面部的图像。修改的源面部可以采用目标面部的面部表情。修改还可以包括将至少一个目标面部替换为修改的源面部的图像。所述方法还可以包括通过计算设备接收另外的源面部的另外的图像,并通过计算设备基于另外的图像修改一个或多个预处理视频,以生成一个或多个另外的个性化视频。
所述方法还可以包括通过计算设备启用计算设备的用户与至少一个另外的计算设备的至少一个另外的用户之间的通信聊天,通过计算设备接收用户从一个或多个个性化视频中选择的视频,并通过计算设备经由通信聊天向至少一个另外的用户发送所选择的视频。所述方法可以继续通过计算设备以折叠模式在通信聊天的窗口中显示所选择的视频。在通过计算设备接收到用户已经在通信聊天的窗口中点击所选择的视频的指示时,可以以全屏模式显示所选择的视频。所述方法可以包括在以折叠模式显示所选择的视频时,使与所选择的视频相关联的声音静音,以及在以全屏模式显示所选择的视频时,回放与所选择的视频相关联的声音。
所述方法还可以包括在修改源面部的图像之前,基于至少一个帧,确定与参数化面部模型相关联的目标面部表情参数。至少一个帧可以包括元数据,诸如目标面部表情参数。在此实施例中,修改源面部图像可以包括基于源面部图像确定与参数化面部模型相关联的源参数。源参数可以包括源面部表情参数、源面部身份参数和源面部纹理参数。修改源面部图像还可以包括基于参数化面部模型和目标面部表情参数、源面部身份参数以及源面部纹理参数,合成修改的源面部的图像。
根据本发明的又一个方面,提供了一种非暂时性处理器可读介质,存储处理器可读指令。当处理器执行处理器可读指令时,这些处理器可读指令使处理器实现上述用于提供个性化视频的方法。
实例的另外的目的、优点和新颖特征将部分地在以下描述中进行阐述,并且部分地在知悉以下描述和附图之后对于本领域技术人员将变得显而易见,或者可以通过实例的制作或操作来获悉。可以通过所附权利要求中特别指出的方法、手段及组合,来实现并获得这些技术方案的目的和优点。
附图说明
在附图中通过示例而非限制的方式示出实施例,其中类似的附图标记表示相似的元件。
图1是示出示例性环境的框图,其中可以实现用于提供个性化视频的系统和方法。
图2是示出计算设备的示例性实施例的框图,该计算设备用于实现提供个性化视频的方法。
图3是示出根据本发明的一些示例性实施例的用于提供个性化视频的系统的框图。
图4是示出根据示例性实施例的个性化视频的生成过程的示意图。
图5是根据本发明的一些示例性实施例的个性化视频生成模块的框图。
图6至图11示出了根据一些示例性实施例的用于在即时消息软件中提供个性化视频的系统的用户界面的屏幕。
图12是示出根据示例性实施例的用于提供个性化视频的方法的流程图。
图13是示出根据示例性实施例的用于分享个性化视频的方法的流程图。
图14示出了一种示例性计算机系统,该计算机系统可以用于实现提供个性化视频的方法。
具体实施方式
以下对实施例的详细描述包括对附图的参考,该附图形成详细描述的一部分。本节中描述的方法并非权利要求的现有技术,并且也不通过包含在本节中而被视为现有技术。附图示出了根据示例性实施例的图示。尽量详细地描述这些在本文中也称为“实例”的示例性实施例,以使得本领域技术人员能够实施本技术方案。在不脱离所要求保护的范围的情况下,可以组合实施例、可以利用其他实施例、或者可以对其进行结构、逻辑和操作上的改变。因此,以下详细描述不应被视为限制性的,并且范围由所附权利要求及其等同方案限定。
就本专利文件的目的而言,除非另有说明或在其使用上下文中另有明确意图,术语“或”和“和”应表示“和/或”。除非另有说明或使用“一个或多个”显然不合适,否则术语“一个”应指“一个或多个”。术语“包含”和“包括”是可互换的,并不旨在进行限制。例如,术语“包括”应解释为“包括但不限于”。
本发明涉及用于提供个性化视频的方法和系统。本发明所提供的实施例至少解决了现有技术的一些问题。可以将本发明设计为在诸如智能手机、平板电脑或移动电话之类的移动设备上实时工作,尽管实施例可以扩展到涉及网络服务或基于云的资源的方法。可以通过在计算机系统上运行的软件和/或通过利用微处理器的组合或其他专门设计的专用集成电路(ASIC)、可编程逻辑设备或其任何组合的硬件,来实现本文描述的方法。特别地,可以通过驻留在诸如磁盘驱动器或计算机可读介质之类的非暂时性存储介质上的一系列计算机可执行指令,来实现本文描述的方法。
本发明的一些实施例可以允许在诸如智能电话的用户计算设备上实时生成个性化视频。可以基于预生成视频来生成个性化视频,例如对演员进行特写的视频。本发明的某些实施例可以允许将预生成视频中的演员的面部替换为用户或其他人的面部以生成个性化视频。在将演员面部替换为用户或其他人的面部时,修改用户或另一个人的面部以采用演员的面部表情。可以在用户与另外的计算设备的另外的用户之间的通信聊天中生成个性化视频。用户可以通过通信聊天选择个性化视频中的一个或多个并将其发送给另一用户。可以基于与预处理视频的模板相关联的预定义关键字对个性化视频进行索引和搜索,这些关键字用于插入用户面部的图像以生成个性化视频。可以根据视频中的情绪和动作,对个性化视频进行排名和分类。
根据本发明的一个实施例,一种用于提供个性化视频的示例性方法可以包括通过计算设备存储一个或多个预处理视频。一个或多个预处理视频可以包括具有至少目标面部的至少一个帧。该方法还可以包括启用用户与至少一个远程计算设备的至少一个另外的用户之间的通信聊天。计算设备可以接收源面部的图像并修改一个或多个预处理视频,以生成一个或多个个性化视频。修改可以包括修改源面部的图像以生成修改的源面部的图像。修改后的源面部可以采用目标面部的面部表情。修改还可以包括将至少一个目标面部替换为修改的源面部的图像。在修改时,可以接收用户从一个或多个个性化视频中选择的视频,并且可以通过通信聊天将所选择的视频发送给至少一个另外的用户。
现在参考附图,描述了示例性实施例。附图是理想化示例性实施例的示意图。因此,本文讨论的示例性实施例不应被理解为限于本文呈现的特定图示,而是这些示例性实施例可以包括偏离且不同于本文呈现的图示,这对于本领域技术人员来说是显而易见的。
图1示出了示例性环境100,其中可以实践用于提供个性化视频的方法。环境100可以包括计算设备105、用户102、计算设备110、用户104、网络120和即时消息软件服务系统130。计算设备105和计算设备110可以指移动设备,诸如手机、智能手机或平板电脑。然而,在另外的实施例中,计算设备105或计算设备110可以指个人计算机、膝上型计算机、上网本、机顶盒、电视设备、多媒体设备、个人数字助理、游戏控制台、娱乐系统、信息娱乐系统、车辆计算机或任何其他计算设备。
计算设备105和计算设备110可以经由网络120通信地连接到即时消息软件服务系统130。即时消息软件服务系统130可以实现为基于云的计算资源。即时消息软件服务系统可以包括在远程位置可用并且可通过网络(例如,互联网)访问的计算资源(硬件和软件)。基于云的计算资源可以被多个用户分享,并且可以根据需要动态重新分配。基于云的计算资源可以包括一个或多个服务器群/集群,其包括可以与网络交换机和/或路由器共处一地的一组计算机服务器。
网络120可以包括任何有线、无线或光网络,包括例如因特网、内联网、局域网(LAN)、个域网(PAN)、广域网(WAN)、虚拟专用网(VPN)、蜂窝电话网络(例如,全球移动系统(GSM)通信网络等)。
在本发明的一些实施例中,计算设备105可以被配置为启用用户102与计算设备110的用户104之间的通信聊天。在通信聊天期间,用户102和用户104可以交换文本消息和视频。视频可以包括个性化视频。可以基于存储在计算设备105或计算设备110中的预生成视频,生成个性化视频。在一些实施例中,预生成视频可以存储在即时消息软件服务系统130中并按需下载到计算设备105或计算设备110。
即时消息软件服务系统130还可以被配置为存储用户档案。用户档案可以包括用户102的面部图像、用户104的面部图像和其他人的面部图像。面部图像可以按需并基于许可下载到计算设备105或计算设备110。此外,可以使用计算设备105生成用户102的面部图像,并将其存储在计算设备105的本地存储器中。可以基于存储在计算设备105中的其他图像,生成面部图像。计算设备105可以进一步使用面部的图像以基于预生成视频来生成个性化视频。类似地,计算设备110可以用于生成用户104的面部图像。用户104的面部图像可以用于在计算设备110上生成个性化视频。在进一步的实施例中,用户102的面部图像和用户104的面部图像可以相互用于在计算设备105或计算设备110上生成个性化视频。
图2是示出计算设备105(或计算设备110)的示例性实施例的框图,该计算设备(或计算设备110)用于实现个性化视频的方法。在图2所示的实例中,计算设备110包括硬件组件和软件组件。特别地,计算设备110包括相机205或任何其他图像采集设备或扫描仪以获取数字图像。计算设备110还可以包括处理器模块210和存储模块215,用于存储软件组件和处理器可读(机器可读)指令或代码,当由处理器模块210执行时,使计算设备105执行方法的至少一些步骤,该方法用于提供如本文所述的个性化视频。计算设备105可以包括图形显示系统230和通信模块240。在其他实施例中,计算设备105可以包括附加的或不同的组件。此外,计算设备105可以包括执行类似于或等同于图2中所描绘的那些功能的更少的组件。
计算设备110还可以包括:即时消息软件220,用于实现与另外的计算设备(例如计算设备110)的通信聊天;以及系统300,用于提供个性化视频。下面参考图3更详细地描述系统300。即时消息软件220和系统300可以实现为存储在存储器215中的软件组件和处理器可读(机器可读)指令或代码,当由处理器模块210执行时,使计算设备105执行方法的至少一些步骤,该方法用于提供如本文所述的通信聊天和个性化视频。
在一些实施例中,用于提供个性化视频的系统300可以集成在即时消息软件220中。即时消息软件220的用户界面和用于提供个性化视频的系统300可以通过图形显示系统230提供。可以通过通信模块240和网络120来实现通信聊天。通信模块240可以包括GSM模块、WiFi模块、BluetoothTM模块等。
图3是根据本发明的一些示例性实施例的用于提供个性化视频的系统300的框图。系统300可以包括用户界面305、面部图像采集模块310、视频数据库320和个性化视频生成模块330。
视频数据库320可以存储一个或多个视频。视频可以包括以前录制的一个演员或多个演员的视频。视频可以包括2D视频或3D场景。可以对视频进行预处理以在每一个帧中分割演员的面部(也称为目标面部)和背景,并识别一组参数,该组参数可以用于进一步插入源面部而不是演员的面部(目标面部)。该组参数可以包括面部纹理、面部表情参数、面部颜色、面部身份参数、面部的位置和角度等。该组参数还可以包括可以在演员的面部上执行的操纵和操作的列表,诸如以照片般逼真的方式执行的演员面部的替换。
面部图像采集模块320可以接收人的图像,并生成人的面部的图像。人的面部的图像可以用作源面部来替换存储在视频数据库320中的视频中的目标面部。可以由计算设备105的相机205采集人的图像。人的图像可以包括存储在计算设备105的存储器215中的图像。图7中提供了面部图像采集模块320的细节。
基于源面部的图像,个性化视频生成模块330可以由存储在数据库320中的一个或多个预生成视频生成个性化视频。模块330可以用源面部替换预生成视频中的演员的面部,同时保持演员面部的面部表情。模块330可以将演员的面部纹理、面部颜色和面部身份替换为源面部的面部纹理、面部颜色和面部身份。模块330还可以在个性化视频中的源面部的眼睛区域上添加眼镜的图像。类似地,模块330可以在个性化视频中的源面部的头上添加头饰(例如,无檐帽、有檐帽、头盔等)的图像。眼镜和头饰的图像可以预先存储在用户的计算设备105中,或生成眼镜和头饰的图像。可以使用DNN生成眼镜和头饰的图像。模块330还可以对个性化视频中的源面部应用阴影或颜色。例如,模块330可以向源面部的面部添加晒黑。
图4是示出根据一些示例性实施例的个性化视频生成模块330的功能400的示意图。个性化视频生成模块330可以接收源面部405的图像和预生成视频410。预生成视频410可以包括一个或多个帧420。帧420可以包括目标面部415。源面部405的面部表情可以与目标面部415的面部表情不同。
在本发明的一些实施例中,个性化视频生成模块330可以被配置为分析源面部405的图像以提取源面部参数430。可以通过将参数化面部模型拟合到源面部405的图像,来提取源面部参数430。参数化面部模型可以包括模板网格。模板网格中顶点的坐标可能取决于两个参数:面部身份和面部表情。因此,源参数430可以包括与源面部405对应的面部身份和面部表情。源参数405还可以包括源面部405的纹理。纹理可以包括模板网格中顶点处的颜色。在一些实施例中,与模板网格相关联的纹理模型可以用于确定源面部405的纹理。
在本发明的一些实施例中,个性化视频生成模块330可以被配置为分析目标视频410的帧420以提取每个帧420的目标面部参数335。可以通过对目标面部415拟合参数化面部模型,来提取目标面部参数435。目标参数435可以包括与目标面部415对应的面部身份和面部表情。目标面部参数430还可以包括目标面部415的纹理。可以使用纹理模型来获得目标面部415的纹理。在本发明的一些实施例中,每个帧420可以包括元数据。元数据可以包括为帧确定的参数。例如,参数可以由即时消息软件服务系统130(如图1所示)确定。参数可以存储在预生成视频410的帧的元数据中。预生成视频可以进一步下载到计算设备105并存储在视频数据库320中。可替代地,个性化视频生成模块330可对预生成视频410进行预处理,以确定目标面部参数435和目标面部415在帧420中的位置参数。个性化视频生成模块330还可以将目标面部的目标面部参数435和位置参数存储在对应帧420的元数据中。通过这种方式,在每次选择预生成视频410以使用不同的源面部进行个性化时,不会重新计算目标面部参数435。
在本发明的一些实施例中,个性化视频生成模块330还可以被配置为将源面部参数430中的面部表情替换为来自目标参数435的面部表情。个性化视频生成模块330可以进一步被配置为使用参数化面部模型、纹理模块和目标参数430以及替换的面部表情,来合成输出面部445。输出面部435可以用于替换目标视频410的帧中的目标面部415以获得示出为个性化视频440的输出视频的帧445。输出面部435是采用目标面部415的面部表情的源面部405。输出视频是基于预定视频410和源面部405的图像生成的个性化视频440。
图5是根据一个示例性实施例的个性化视频生成模块330的框图。个性化视频生成模块330可以包括参数化面部模型505、纹理模型510、DNN515、预处理模块520、参数提取模块525、面部合成模块525以及嘴巴和眼睛生成模块530。模块505至530可以被实现为供硬件设备使用的软件组件,诸如计算设备105、计算设备110、即时消息软件服务系统130等。
在本发明的一些实施例中,可以基于不同年龄、性别和种族背景的预定数量的个体的图像来预生成参数化面部模型505。对于每个个体,图像可以包括具有中性面部表情的个体的图像和具有不同面部表情的个体的一个或多个图像。面部表情可以包括张嘴、微笑、愤怒、惊讶等。
参数化面部模型505可以包括具有预定数量的顶点的模板网格。模板网格可以表示为定义头部形状的3D三角测量。每个个体都可以与个体特定的混合形状相关联。可以根据模板网格对个体特定的混合形状进行调整。个体特定的混合形状可以对应于模板网格中顶点的特定坐标。因此,不同的个体图像可以对应相同结构的模板网格;然而,模板网格中顶点的坐标对于不同图像是不同的。
在本发明的一些实施例中,参数化面部模型可以包括取决于两个参数(面部身份和面部表情)的双线性面部模型。可以基于与个体图像对应的混合形状来构建双线性面部模型。因此,参数化面部模型包括预定结构的模板网格,其中顶点的坐标取决于面部身份和面部表情。
在本发明的一些实施例中,纹理模型510可以包括与个体图像对应的纹理向量的线性空间。纹理向量可以确定为模板网格顶点处的颜色。
参数化面部模型505和纹理模型510可以用于基于面部身份、面部表情和纹理的已知参数来合成面部。参数化面部模型505和纹理模型510还可以用于基于新面部的新图像来确定面部身份、面部表情和纹理的未知参数。
使用参数化面部模型505和纹理模型510合成面部并不耗时;然而,合成的面部可能不真实,尤其是在嘴巴和眼睛区域。在本发明的一些实施例中,可以训练DNN 515来生成面部的嘴巴和眼睛区域的逼真图像。可以使用一组谈话个体的视频来训练DNN 515。可以从视频的帧中采集谈话个体的嘴巴和眼睛区域。可以使用生成对抗网络(GAN)来训练DNN515,以基于预定数量的嘴巴和眼睛区域的先前帧以及当前帧的所需面部表情来预测面部的嘴巴和眼睛区域。可以在面部表情的特定时刻参数中提取嘴巴和眼睛区域的先前帧。DNN515可以允许合成具有面部表情所需参数的嘴巴和眼睛区域。DNN 515还可以允许利用先前帧来获得空间相干性。
GAN对从面部模型、当前表情参数以及来自先前生成图像的嵌入特征渲染的嘴巴和眼睛区域执行调节,并产生相同但更逼真的区域。使用DNN 515生成的嘴巴和眼睛区域可以用于替换由参数化面部模型505合成的嘴巴和眼睛区域。应注意的是,通过DNN合成嘴巴和眼睛区域可能比通过DNN合成整张脸耗时更少。因此,可以通过例如智能手机或平板电脑等移动设备的一个或多个处理器实时使用DNN生成嘴巴和眼睛区域。
在一些实施例中,预处理模块520可以被配置为接收预生成视频410和源面部405的图像。目标视频410可以包括目标面部。预处理单元520还可以被配置为对目标视频的至少一个帧进行分割,以获得目标面部415和目标背景的图像。可以使用神经网络、抠图和平滑来进行分割。
在一些实施例中,预处理模块520还可以被配置为使用参数化面部模型505和纹理模型510,基于目标视频410的至少一个帧,来确定一组目标面部参数。在一些实施例中,目标参数可以包括目标面部身份、目标面部表情和目标纹理。在一些实施例中,预处理模块520还可以被配置为使用参数化面部模型505和纹理模型510,基于源面部405的图像,来确定一组源面部参数。该组源面部参数可以包括源面部身份、源面部表情和源纹理。
在一些实施例中,面部合成模块525可以被配置为将一组源面部参数中的源面部表情替换为目标面部表情,以获得一组输出参数。面部合成模块525还可以被配置为使用一组输出参数以及参数化面部模型505和纹理模型510来合成输出面部。
在一些实施例中,可以将二维(2D)变形应用于目标面部,以获得隐藏在目标面部中的输出面部区域的逼真图像。可以基于参数化面部模型的一组源参数,来确定2D变形的参数。
在一些实施例中,嘴巴和眼睛生成模块530可以被配置为基于源面部表情和目标视频410的至少一个先前帧,使用DNN 515,来生成嘴巴和眼睛区域。嘴巴和眼睛生成模块530还可以被配置为将用参数化面部模型505和纹理模型510合成的输出面部中的嘴巴和眼睛区域替换为用DNN515合成的嘴巴和眼睛区域。
图6示出了根据一些示例性实施例的用于在消息传递应用程序(即时消息软件(messenger))中提供个性化视频的系统的用户界面的示例性屏幕。用户界面600可以包括聊天窗口610和含有视频640的部分。视频640可以包括具有面部部分650而不是面部的预渲染视频。预渲染视频可以包括预告视频,该预告视频旨在向用户展示个性化视频可能看起来如何的示例性表示。可以以白色椭圆的形式示出面部部分650。在一些实施例中,视频640可以包括多个面部部分650以能够创建多人视频,即具有多人面部的视频。用户可以点击视频640中的任何一个以选择视频640中的一个进行修改并发送到聊天窗口610。修改可以包括从用户接收自拍照(即,通过计算设备的前置摄像头拍摄的用户面部的图像)),从自拍照中获取源面部,并通过使用源面部修改选择的视频640以创建个性化视频,本文也称为“画卷(Reel)”。因此,如本文所使用的,Reel是通过将视频模板(没有用户面部的视频)修改为插入用户面部的视频而产生的个性化视频。因此,可以以视听媒体(例如,视频、动画或任何其他类型的媒体)的形式生成个性化视频,该视听媒体对用户的面部进行特写。修改的视频可以发送到聊天窗口610。用户界面600还可以具有按键630,在点击按键630时,用户可以从消息传递应用程序转换到根据本发明的用于提供个性化视频的系统并使用系统的功能。
图7示出了根据一些示例性实施例的用于在即时消息软件中提供个性化视频的系统的用户界面710和720的示例性屏幕。用户界面710和720示出自拍采集模式,在该模式下用户可以拍摄用户面部的图像,然后将其用作源面部。当用户打算采集自拍图像时,用户界面710显示计算设备的相机的实时视图。实时视图可以显示用户面部705。用户界面710可以显示自拍椭圆730和相机按键740。在一个示例性实施例中,相机按键740可以在自拍采集模式中从屏幕底部向上滑动。用户可能需要改变相机的位置,以便将用户面部705定位在自拍椭圆730的边界内。当用户面部705不在自拍椭圆730的中心时,自拍椭圆730可以以虚线的形式设计,并且相机按钮740是半透明的并且不可操作,以指示相机按钮740是不活动的。为了通知用户其面部未居中,可在自拍椭圆730下方显示文本760。文本760可以包括对用户的指令,例如“居中您的面部”、“寻找良好的照明”等。
用户界面720显示了在用户改变相机的位置以采集自拍图像并且用户面部705变得居于自拍椭圆730的中心之后,计算设备的相机的实时视图。特别地,当用户面部705变得居于自拍椭圆730的中心时,自拍椭圆730变成粗实线,并且相机按键740变成不透明且可操作的,以指示相机按键740现在是有效的。为了通知用户,可以在自拍椭圆730下方显示文本760。文本760可以指示用户制作自拍照,例如“自拍一张”、“尽量不要微笑”等。在一些实施例中,用户可以通过按下相机相册按键750从图片库中选择现有的自拍照。
图8示出了根据一些示例性实施例的用于在即时消息软件中提供个性化视频的系统的用户界面810和820的示例性屏幕。在用户自拍照片之后,屏幕上显示用户界面810和820。用户界面810可以显示背景800、当前创建的画卷的图示805和文本815。文本815可以包括例如“创建我的画卷”。用户界面820可以显示被创建的画卷825以及文本部分830和835。可以以全屏模式显示画卷825。文本815可以包括例如“你的画卷准备好了”。可以在画卷825后面提供深色渐变,因此文本830是可见的。文本部分835可以显示例如“使用此自拍在聊天中发送画卷或重新拍摄以再次尝试”以通知用户可以使用用户已经拍摄的自拍照片或拍摄另一张自拍照片。此外,两个按键可以显示在用户界面820上。按键840可以显示为具有蓝色和填充的背景并且可以指示用户“使用这张自拍”。当用户点击按键840,可以启用两人画卷。按键845可以显示为具有白色、带轮廓且透明的背景并且可以指示用户“重新自拍”。当用户点击按键845时,可以激活图7所示的用户界面710,并且可以启动创建画卷的步骤,如参考图7所描述的。用户界面820还可以在按键840和845下面显示下方文本850。下方文本850可以通知用户可以如何删除画卷,例如,“您可以在设置中删除您的画卷自拍”。
图9示出了根据一些示例性实施例的用于在即时消息软件中提供个性化视频的系统的用户界面900的示例性屏幕。可以在用户选择并确认用户的自拍图片后显示用户界面900。用户界面900可以显示聊天窗口610和具有个性化视频910的画卷部分。在一个示例性实施例中,个性化视频910可以在垂直滚动的图块列表中显示,每行具有四个个性化视频910图块。所有个性化视频910都可以自动播放(自动回放)和循环播放(连续播放)。不管是计算设备的声音设置或是用户点击音量按键,都可以关闭所有个性化视频910中的声音。类似于通常在即时消息软件中使用的标签,个性化视频910可以被编入索引并且是可搜索的。
图10示出了根据一些示例性实施例的用于在即时消息软件中提供个性化视频的系统的用户界面1000的示例性屏幕。用户界面1000可以包括聊天窗口610、具有选择的视频1010的个性化视频列表和动作条1020。动作条1020可以从屏幕底部向上滑动以使得用户能够对选择的视频1010采取动作。用户可以通过按键1030至1060从动作条1020对选择的视频1010采取某些动作。按键1030是“查看”按键,使用户能够以全屏模式查看选择的视频1010。按键1040是“导出”按键,使用户能够使用另一应用程序导出所选择的视频1010或将所选择的视频1010保存到计算设备的存储器。按键1050是“新自拍”按键,使用户能够拍摄一张新的自拍。按键1060是“发送”按键,使用户能够将所选择的视频1010发送到聊天窗口610。
用户可以点击按键1030以在全屏模式下查看选择的视频1010。在点击按键1030时,按键1060(“发送”按键)可以保持在动作条1020上的原位,使用户能够将所选择的视频1010插入到聊天窗口610中。当选择的视频1010以全屏模式再现时,其他按键可以淡出。用户可以点击屏幕右侧或向左/向右滑动,以在全屏模式下在视频之间浏览。用户可以移动到下一个视频,直到用户完成一行,然后移动到下一行中的第一个视频。当选择的视频1010以全屏模式显示时,所选择的视频1010的音量对应于计算设备的音量设置。如果音量打开,则所选择的视频1010可以以音量播放。如果音量关闭,则所选择的视频1010可以无音量播放。如果音量关闭但用户点击音量按键,则所选择的视频1010可以以音量播放。如果用户选择不同的视频,则应用相同的设置,即可以以音量播放选择的视频。如果用户离开显示在用户界面1000上的聊天对话视图,则视频的音量设置可以被重置为对应于计算设备的音量设置。
一旦发送所选择的视频1010,发送者和接收者都可以在聊天窗口610中以相同方式查看选择的视频1010。当选择的视频1010处于折叠视图时,选择的视频1010的声音可以关闭。仅当以全屏模式观看选择的视频1010时,才可以播放选择的视频1010的声音。
用户可以在全屏模式下查看所选择的视频1010并将所选择的视频1010向下滑动以从全屏模式退出返回到聊天对话视图。用户也可以点击左上角的向下箭头来关闭它。
点击按键1040,即“导出”按键,可以触发呈现分享表。用户可以通过任何其他平台直接分享所选择的视频1010或将其保存到计算设备上的图片库。某些平台可能会在聊天中自动播放视频,而其他平台可能不会自动播放视频。如果平台不自动播放视频,则可以以图形交换格式(GIF)格式导出所选择的视频1010。一些计算设备的操作系统可能有一个分享菜单,允许选择将哪个文件分享到哪个平台,因此可能不需要添加自定义动作表。某些平台可能无法播放GIF文件并将它们显示为静态图像,并且所选择的视频1010可能会作为视频导出到这些平台中。
图11示出了根据一些示例性实施例的用于在即时消息软件中提供个性化视频的系统的用户界面1110和1120的示例性屏幕。用户界面1110可以包括聊天窗口610、具有所选择的视频1115的个性化视频列表和动作条1020。在点击新自拍按键1050时,可以显示用户界面1120。具体地,当在视频中选择了用户界面1110上所示的状态时,用户可以点击新自拍1050以查看动作表,以允许用户选择是否要从图库中选择自拍(通过“从相机相册中选择”按键1125)或使用计算设备的相机拍摄新的自拍(通过“拍摄自拍”按键1130)。点击“拍摄自拍”按键1130可以引导用户完成如图7所示的过程。
用户使用相机拍摄自拍照或从相机胶卷中选择自拍照后,可以启动如图8所示的流程。点击“从相机相册中选择面部”按键1125将用户带到相机相册页面上的自拍照,该页面可以从聊天窗口610顶部的屏幕底部向上滑动。随后,可以将自拍照定位在参照图7描述的自拍椭圆中。
当用户第一次接收画卷并且还没有创建他自己的画卷时,系统可以鼓励用户创建他自己的画卷。例如,当用户在全屏模式下查看用户从另一个用户接收到的画卷时,可以在画卷的底部显示“创建我的画卷”按键。用户可以点击按键或在画卷上向上滑动以将相机按键带到屏幕上,并进入参考图7详细描述的自拍模式。
在一个示例性实施例中,可以画卷进行分类以让用户容易地找到用户想要传达的一般情绪。可以提供用于多种情绪的预定数量的类别,例如特写的、问候、爱、快乐、沮丧、庆祝等。在一些示例性实施例中,可以使用搜索标签代替类别。
图12是示出根据示例性实施例的用于提供个性化视频的方法1200的流程图。方法1200可以由计算设备105执行。方法1200可以在框1205中开始,通过计算设备存储一个或多个预处理视频。一个或多个预处理视频可以包括至少一个帧。至少一个帧可以包括至少一个目标面部。方法1200可以继续通过计算设备接收源面部的图像,如框1210所示。方法1200可以进一步在框1215处继续,其中可以修改一个或多个预处理视频以生成一个或多个个性化视频。修改可以包括修改源面部的图像以生成修改的源面部的图像。修改的源面部可以采用目标面部的面部表情。修改还可以包括将至少一个目标面部替换为修改的源面部的图像。
图13是示出根据本发明的一些示例性实施例的用于分享个性化视频的方法1300的流程图。可以由计算设备105执行方法1300。方法1300可以提供图12的方法1200的附加步骤。方法1300可以在框1305中开始,通过计算设备启用计算设备的用户与至少一个另外的计算设备的至少一个另外的用户之间的通信聊天。方法1300可以在框1310中继续,通过计算设备接收用户从一个或多个个性化视频中选择的视频。方法1300还可以包括通过计算设备经由通信聊天向至少一个另外的用户发送所选择的视频,如框1315中所示。
图14图示了可以用于实现本文描述的方法的示例性计算系统1400。可以在诸如计算设备105和110、即时消息软件服务系统130、即时消息软件220和用于提供个性化视频的系统300之类的上下文中实现计算系统1400。
如图14所示,计算系统1400的硬件组件可以包括一个或多个处理器1410和存储器1420。存储器1420部分地存储供处理器1410执行的指令和数据。当系统1400在运行时,存储器1420可以存储可执行文件的代码。系统1400还可包括可选的大容量存储设备1430、可选的便携式存储介质驱动器1440、一个或多个可选的输出设备1450、一个或多个可选的输入设备1460、可选的网络接口1470以及一个或多个可选的外围设备1480。计算系统1400还可以包括一个或多个软件组件1495(例如,可以实现用于提供如本文所述的个性化视频的方法的那些软件组件)。
图14中所示的组件被描绘为经由单个总线1490连接。这些组件可以通过一个或多个数据传输装置或数据网络进行连接。处理器1410和存储器1420可以通过本地微处理器总线进行连接,并且大容量存储设备1430、外围设备1480、便携式存储设备1440和网络接口1470可以经由一个或多个输入/输出(I/O)总线进行连接。
可以用磁盘驱动器、固态盘驱动器或光盘驱动器来实现的大容量存储设备1430是用于存储供处理器1410使用的数据和指令的非易失性存储设备。大容量存储设备1430可以存储用于实现本文描述的实施例的系统软件(例如,软件组件1495)。
便携式存储介质驱动器1440与便携式非易失性存储介质(诸如压缩盘(CD)或数字视频盘(DVD))一起操作,以将数据和代码输入到计算系统1400和从其输出。用于实现本文描述的实施例的系统软件(例如软件组件1495)可以存储在此类便携式介质上并且经由便携式存储介质驱动器1440输入到计算系统1400。
可选的输入设备1460提供用户界面的一部分。输入设备1460可以包括用于输入字母数字和其他信息的字母数字小键盘(诸如键盘),或者诸如鼠标、轨迹球、指示笔或光标方向键的指向设备。输入设备1460还可以包括相机或扫描仪。此外,如图14所示的系统1400包括可选的输出设备1450。合适的输出设备包括扬声器、打印机、网络接口和监视器。
网络接口1470可以用于经由一个或多个通信网络(诸如一个或多个有线、无线或光网络,包括例如因特网、内联网、局域网、广域网、蜂窝电话网络、蓝牙无线电和基于IEEE802.14的射频网络等)与外部设备、外部计算设备、服务器和联网系统通信。网络接口1470可以是网络接口卡,诸如以太网卡、光收发器、射频收发器或任何其他类型的可以发送和接收信息的设备。可选的外围设备1480可以包括任何类型的计算机支持设备以向计算机系统添加附加功能。
计算系统1400中含有的组件旨在代表广泛类别的计算机组件。因此,计算系统1400可以是服务器、个人计算机、手持计算设备、电话、移动计算设备、工作站、小型计算机、大型计算机、网络节点或任何其他计算设备。计算系统1400还可以包括不同的总线配置、联网平台、多处理器平台等。可以使用各种操作系统(OS),包括UNIX、Linux、Windows、Macintosh OS、Palm OS和其他合适的操作系统。
上述功能中的一些可以由存储在存储介质(例如计算机可读介质或处理器可读介质)上的指令组成。指令可由处理器检索和执行。存储介质的一些实例是存储设备、磁带、磁盘等。当由处理器执行以指导处理器根据本发明进行操作时,指令是可操作的。本领域技术人员熟悉指令、处理器和存储介质。
值得注意的是,任何适用于执行本文描述的处理的硬件平台都适用于本发明。本文使用的术语“计算机可读存储介质”是指参与向处理器提供指令以供执行的任何介质。此类介质可以采用多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘,诸如固定盘。易失性介质包括动态存储器,诸如系统随机存取存储器(RAM)。传输介质包括同轴电缆、铜线和光纤等,包括导线,该导线包括总线的一个实施例。传输介质也可以采用声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD只读存储器(ROM)盘、DVD、任何其他光学介质、具有标记或孔洞图案的任何其他物理介质、RAM、PROM、EPROM、EEPROM、任何其他存储芯片或盒式磁带、载波或任何其他计算机可读取介质。
各种形式的计算机可读介质可能涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。总线将数据传送到系统RAM,处理器从中检索并执行指令。系统处理器接收到的指令可以在处理器执行之前或之后选择性地存储在固定磁盘上。
因此,已经描述了用于提供个性化视频的方法和系统。尽管已经参考特定示例性实施例描述了实施例,但是显然可以对这些示例性实施例进行各种修改和改变而不脱离本申请的更广泛的精神和范围。因此,说明书和附图被认为是说明性的而不是限制性的。
Claims (20)
1.一种用于提供个性化视频的方法,所述方法包括:
通过计算设备存储一个或多个预处理视频,所述一个或多个预处理视频包括至少一个帧,所述至少一个帧至少包括目标面部;
通过所述计算设备接收源面部的图像;以及
通过所述计算设备以以下方式修改所述一个或多个预处理视频,以生成一个或多个个性化视频:
修改所述源面部的图像以生成修改的源面部的图像,其中所述修改的源面部采用所述目标面部的面部表情;以及
将至少一个目标面部替换为所述修改的源面部的图像。
2.根据权利要求1所述的方法,其中,接收所述源面部的图像包括:
接收用户从存储在所述计算设备的存储器中的一组图像中选择的另外的图像;以及
将所述另外的图像分割成包括所述源面部的部分和背景。
3.根据权利要求1所述的方法,其中,接收所述源面部的图像包括:
通过所述计算设备的相机采集另外的图像;以及
将所述另外的图像分割成包括所述源面部的部分和背景。
4.根据权利要求3所述的方法,进一步包括在采集所述另外的图像之前:
通过所述计算设备的图形显示系统显示所述另外的图像;以及
引导所述用户将所述另外的图像中的面部图像定位在所述图形显示系统的预定区域内。
5.根据权利要求1所述的方法,进一步包括:
通过所述计算设备接收另外的源面部的另外的图像;以及
通过所述计算设备并基于所述另外的图像修改所述一个或多个预处理视频,以生成一个或多个另外的个性化视频。
6.根据权利要求1所述的方法,进一步包括:
通过所述计算设备启用所述计算设备的用户与至少一个另外的计算设备的至少一个另外的用户之间的通信聊天;
通过所述计算设备接收用户从所述一个或多个个性化视频选择的视频;以及
通过所述计算设备经由所述通信聊天向所述至少一个另外的用户发送所选择的视频。
7.根据权利要求6所述的方法,进一步包括:
通过所述计算设备在所述通信聊天的窗口中显示所选择的视频,以折叠模式显示所选择的视频;以及
在通过所述计算设备接收到所述用户已经在所述通信聊天的窗口中点击所选择的视频的指示时,以全屏模式显示所选择的视频。
8.根据权利要求7所述的方法,进一步包括:
以所述折叠模式显示所选择的视频时,将与所选择的视频相关联的声音静音;以及
以所述全屏模式显示所选择的视频时,回放与所选择的视频相关联的声音。
9.根据权利要求1所述的方法,进一步包括在修改所述源面部的图像之前,基于所述至少一个帧确定与参数化面部模型相关联的目标面部表情参数,其中:
修改所述源面部的图像包括:
基于所述源面部的图像,确定与所述参数化面部模型相关联的源参数,所述源参数包括源面部表情参数、源面部身份参数和源面部纹理参数;以及
基于所述参数化面部模型和所述目标面部表情参数、所述源面部身份参数以及所述源面部纹理参数,合成修改的源面部的图像。
10.根据权利要求9所述的方法,其中,所述至少一个帧包括元数据,所述元数据包括所述目标面部表情参数。
11.一种用于提供个性化视频的系统,所述系统包括至少一个处理器和存储器,所述存储器存储处理器可执行代码,其中,所述至少一个处理器被配置为在执行所述处理器可执行代码时实现以下操作:
在计算设备的存储器中存储一个或多个预处理视频,所述一个或多个预处理视频包括至少一个帧,所述至少一个帧至少包括目标面部;
接收源面部的图像;
通过以下方式修改所述一个或多个预处理视频,以生成一个或多个个性化视频:
修改所述源面部的图像以生成修改的源面部的图像,其中,所述修改的源面部采用所述目标面部的面部表情;以及
将至少一个目标面部替换为所述修改的源面部的图像。
12.根据权利要求11所述的系统,其中,接收所述源面部的图像包括:
接收用户从存储在所述存储器中的一组图像中选择的另外的图像;以及
将所述另外的图像分割成包括所述源面部的部分和背景。
13.根据权利要求11所述的系统,其中,接收所述源面部的图像包括:
通过所述计算设备的相机采集另外的图像;以及
将所述另外的图像分割成包括所述源面部的部分和背景。
14.根据权利要求13所述的系统,其中,所述至少一个处理器被配置为在采集所述另外的图像之前:
通过所述计算设备的图形显示系统显示所述另外的图像;以及
引导所述用户将所述另外的图像中的面部图像定位在屏幕的预定区域内。
15.根据权利要求11所述的方法,其中,所述一个处理器被配置为:
接收另外的源面部的另外的图像;以及
基于所述另外的图像修改所述一个或多个预处理视频,以生成一个或多个另外的个性化视频。
16.根据权利要求11所述的方法,其中,所述一个处理器被配置为:
启用用户与至少一个远程计算设备的至少一个另外的用户之间的通信聊天;
接收用户从所述一个或多个个性化视频中选择的视频;以及
经由所述通信聊天向所述至少一个另外的用户发送所选择的视频。
17.根据权利要求16所述的方法,其中,所述一个处理器被配置为:
在所述通信聊天的窗口中显示所选择的视频,以折叠模式显示所选择的视频;以及
在接收到所述用户已经在所述通信聊天的窗口中点击所选择的视频的指示时,以全屏模式显示所选择的视频。
18.根据权利要求17所述的方法,其中,所述一个处理器被配置为:
以所述折叠模式显示所选择的视频时,将与所选择的视频相关联的声音静音;以及
以所述全屏模式显示所选择的视频时,回放与所选择的视频相关联的声音。
19.根据权利要求11所述的系统,其中,所述至少一个处理器还被配置为:在修改所述源面部的图像之前,基于所述至少一个帧确定与参数化面部模型相关联的目标面部表情参数,其中:
修改所述源面部的图像包括:
基于所述源面部的图像,确定与所述参数化面部模型相关联的源参数,所述源参数包括源面部表情参数、源面部身份参数和源面部纹理参数;以及
基于所述参数化面部模型和所述目标面部表情参数、所述源面部身份参数以及所述源面部纹理参数,来合成所述修改的源面部的图像。
20.一种非暂时性处理器可读介质,存储有指令,当一个或多个处理器执行所述指令时,使所述一个或多个处理器实现用于提供个性化视频的方法,所述方法包括:
通过计算设备存储一个或多个预处理视频,所述一个或多个预处理视频包括至少一个帧,所述至少一个帧包括至少目标面部;
启用用户与至少一个远程计算设备的至少一个另外的用户之间的通信聊天;
通过所述计算设备接收源面部的图像;
通过所述计算设备以以下方式修改所述一个或多个预处理视频,以生成一个或多个个性化视频:
修改所述源面部的图像以生成修改的源面部的图像,其中所述修改的源面部采用所述目标面部的面部表情;以及
将至少一个目标面部替换为所述修改的源面部的图像;
接收用户从所述一个或多个个性化视频中选择的视频;以及
经由所述通信聊天向所述至少一个另外的用户发送所选择的视频。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/251,436 | 2019-01-18 | ||
US16/251,436 US10789453B2 (en) | 2019-01-18 | 2019-01-18 | Face reenactment |
US16/594,771 | 2019-10-07 | ||
US16/594,771 US11394888B2 (en) | 2019-01-18 | 2019-10-07 | Personalized videos |
PCT/US2020/014223 WO2020150690A2 (en) | 2019-01-18 | 2020-01-18 | Systems and methods for providing personalized videos |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113302622A true CN113302622A (zh) | 2021-08-24 |
Family
ID=69724073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080009764.0A Pending CN113302622A (zh) | 2019-01-18 | 2020-01-18 | 用于提供个性化视频的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (3) | US11394888B2 (zh) |
EP (1) | EP3912086A2 (zh) |
KR (1) | KR102546016B1 (zh) |
CN (1) | CN113302622A (zh) |
WO (1) | WO2020150690A2 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11508107B2 (en) * | 2018-02-26 | 2022-11-22 | Didimo, Inc. | Additional developments to the automatic rig creation process |
US20220237945A1 (en) * | 2019-11-07 | 2022-07-28 | Hyperconnect Inc. | Method and Apparatus for Generating Reenacted Image |
US11477366B2 (en) * | 2020-03-31 | 2022-10-18 | Snap Inc. | Selfie setup and stock videos creation |
US11704851B2 (en) * | 2020-05-27 | 2023-07-18 | Snap Inc. | Personalized videos using selfies and stock videos |
CN112866798B (zh) * | 2020-12-31 | 2023-05-05 | 北京字跳网络技术有限公司 | 视频生成方法、装置、设备及存储介质 |
CN113612959A (zh) * | 2021-07-23 | 2021-11-05 | 深圳Tcl新技术有限公司 | 视频通话方法、装置、存储介质及电子设备 |
US12020386B2 (en) | 2022-06-23 | 2024-06-25 | Snap Inc. | Applying pregenerated virtual experiences in new location |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078280A1 (en) * | 2014-09-12 | 2016-03-17 | Htc Corporation | Image processing method and electronic apparatus |
CN107637072A (zh) * | 2015-03-18 | 2018-01-26 | 阿凡达合并第二附属有限责任公司 | 视频会议中的背景修改 |
US20180182141A1 (en) * | 2016-12-22 | 2018-06-28 | Facebook, Inc. | Dynamic mask application |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100060176A (ko) * | 2008-11-27 | 2010-06-07 | 주식회사 대우일렉트로닉스 | 방송 프로그램의 얼굴인식을 통한 이미지 합성 장치 및 방법 |
KR20140002131A (ko) * | 2012-06-28 | 2014-01-08 | 에스케이플래닛 주식회사 | 캐릭터 지원 시스템 및 방법 |
KR101815957B1 (ko) * | 2015-02-02 | 2018-01-08 | 한익수 | 온라인 채팅 서비스의 사용자 이모티콘 제공 방법 |
US11783524B2 (en) * | 2016-02-10 | 2023-10-10 | Nitin Vats | Producing realistic talking face with expression using images text and voice |
US20180204601A1 (en) * | 2016-03-01 | 2018-07-19 | Meograph, Inc. | Mobile device video personalization |
US20180068178A1 (en) * | 2016-09-05 | 2018-03-08 | Max-Planck-Gesellschaft Zur Förderung D. Wissenschaften E.V. | Real-time Expression Transfer for Facial Reenactment |
WO2018102880A1 (en) | 2016-12-09 | 2018-06-14 | Frangos Marcus George | Systems and methods for replacing faces in videos |
KR102058190B1 (ko) * | 2018-12-21 | 2019-12-20 | 에스케이플래닛 주식회사 | 캐릭터 서비스 시스템에서의 캐릭터 서비스를 제공하기 위한 장치 |
-
2019
- 2019-10-07 US US16/594,771 patent/US11394888B2/en active Active
-
2020
- 2020-01-18 CN CN202080009764.0A patent/CN113302622A/zh active Pending
- 2020-01-18 KR KR1020217026009A patent/KR102546016B1/ko active IP Right Grant
- 2020-01-18 WO PCT/US2020/014223 patent/WO2020150690A2/en unknown
- 2020-01-18 EP EP20707898.1A patent/EP3912086A2/en active Pending
-
2022
- 2022-05-24 US US17/751,781 patent/US11792504B2/en active Active
-
2023
- 2023-09-05 US US18/242,016 patent/US20230421890A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160078280A1 (en) * | 2014-09-12 | 2016-03-17 | Htc Corporation | Image processing method and electronic apparatus |
CN107637072A (zh) * | 2015-03-18 | 2018-01-26 | 阿凡达合并第二附属有限责任公司 | 视频会议中的背景修改 |
US20180182141A1 (en) * | 2016-12-22 | 2018-06-28 | Facebook, Inc. | Dynamic mask application |
Non-Patent Citations (2)
Title |
---|
PABLO GARRIDO 等: ""Automatic Face Reenactment"", IEEE, pages 4218 - 4224 * |
PABLO GARRIDO 等: "Automatic Face Reenactment", IEEE, 31 December 2014 (2014-12-31), pages 4218 - 4224 * |
Also Published As
Publication number | Publication date |
---|---|
WO2020150690A3 (en) | 2020-09-10 |
US20200236297A1 (en) | 2020-07-23 |
EP3912086A2 (en) | 2021-11-24 |
US20230421890A1 (en) | 2023-12-28 |
KR102546016B1 (ko) | 2023-06-22 |
KR20210118428A (ko) | 2021-09-30 |
US11394888B2 (en) | 2022-07-19 |
US11792504B2 (en) | 2023-10-17 |
WO2020150690A2 (en) | 2020-07-23 |
US20220286624A1 (en) | 2022-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11792504B2 (en) | Personalized videos | |
CN113302659B (zh) | 用于生成具有定制的文本消息的个性化视频的系统和方法 | |
US11558561B2 (en) | Personalized videos featuring multiple persons | |
US11842433B2 (en) | Generating personalized videos with customized text messages | |
US11721046B2 (en) | Customizing soundtracks and hairstyles in modifiable videos of multimedia messaging application | |
US11477366B2 (en) | Selfie setup and stock videos creation | |
KR20230026343A (ko) | 셀피들 및 스톡 비디오들을 사용하는 개인화된 비디오들 | |
KR20150135591A (ko) | 스마트폰에서 얼굴사진 캡쳐(capture) 툴(tool)을 이용하여 2장이상의 얼굴사진을 캡쳐, 이를 애니메이션 아바타 이미지에 맞춰 조합, 합성하는, 사진 애니메이션 아바타 편집 방법 및 서버시스템, 아바타 데이터베이스 연동 및 전송방법, 그리고 스마트폰에서 사진 애니메이션 아바타 디스플레이(display) 발신자 표시 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |