CN111627095B - 表情生成方法及装置 - Google Patents

表情生成方法及装置 Download PDF

Info

Publication number
CN111627095B
CN111627095B CN201910152339.6A CN201910152339A CN111627095B CN 111627095 B CN111627095 B CN 111627095B CN 201910152339 A CN201910152339 A CN 201910152339A CN 111627095 B CN111627095 B CN 111627095B
Authority
CN
China
Prior art keywords
sound
original
expression
target
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910152339.6A
Other languages
English (en)
Other versions
CN111627095A (zh
Inventor
王旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201910152339.6A priority Critical patent/CN111627095B/zh
Publication of CN111627095A publication Critical patent/CN111627095A/zh
Application granted granted Critical
Publication of CN111627095B publication Critical patent/CN111627095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开是关于一种表情生成方法及装置。该方法包括:获取目标对象的原始表情和原始声音;根据所述原始表情确定选自预设动画库中的参考动画的表情;根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;根据所述目标声音以及所述参考动画的表情生成目标表情。本公开可提升动态表情的娱乐性。

Description

表情生成方法及装置
技术领域
本公开涉及终端技术领域,尤其涉及一种表情生成方法及装置。
背景技术
随着面部识别技术在智能终端领域的应用,越来越多的智能手机都嵌入了动态表情功能,该功能可通过扫描用户的面部图像来获取所需的面部表情信息,并进一步实现动态表情的模拟效果,从而具有一定的娱乐性。但是,目前的动态表情大都是基于用户自身的表情模拟以及声音合成而实现的,其功能相对受限,因此娱乐性还有待进一步提升。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种表情生成方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种表情生成方法,包括:
获取目标对象的原始表情和原始声音;
根据所述原始表情确定选自于预设动画库中的参考动画的表情;
根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;
根据所述目标声音以及所述参考动画的表情生成目标表情。
在一个实施例中,根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音包括:
提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;
根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
在一个实施例中,根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音还包括:
获取针对所述预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;
响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征。
在一个实施例中,所述方法还包括:
在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;
在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
在一个实施例中,获取目标对象的原始表情和原始声音包括:
获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;
响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;
响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
在一个实施例中,根据所述原始表情确定选自预设动画库中的参考动画的表情包括:
根据所述原始表情分析得出所述原始表情对应的三维数据;
采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
根据本公开实施例的第二方面,提供一种表情生成装置,包括:
目标获取模块,用于获取目标对象的原始表情和原始声音;
表情确定模块,用于根据所述原始表情确定选自于预设动画库中的参考动画的表情;
声音生成模块,用于根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;
表情生成模块,用于根据所述目标声音以及所述参考动画的表情生成目标表情。
在一个实施例中,所述声音生成模块包括:
提取单元,用于提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
置换单元,用于采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;
生成单元,用于根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
在一个实施例中,所述声音生成模块还包括:
获取单元,用于获取针对所述预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;
调用单元,用于响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征。
在一个实施例中,所述装置还包括:
声音检测模块,用于在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;
特征保存模块,用于在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
在一个实施例中,所述目标获取模块包括:
采集单元,用于获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;
拍摄单元,用于响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;
录制单元,用于响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
在一个实施例中,所述表情确定模块包括:
分析单元,用于根据所述原始表情分析得出所述原始表情对应的三维数据;
模拟单元,用于采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
根据本公开实施例的第三方面,提供一种表情生成装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行第一方面任一实施例所述方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面任一实施例所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
该技术方案一方面可在获取到目标对象的原始表情之后,根据该原始表情来确定参考动画的表情,另一方面还可在预设声音模型中预先学习并存储一些参考声音特征,例如动物或者明星人物的声音特征,并在获取到目标对象的原始声音之后,根据该原始声音结合预存的参考声音特征来确定最终的目标声音,从而生成表情效仿于目标对象、声音效仿于参考声音特征的目标表情,如此便可有效的提升动态表情的娱乐性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的表情生成方法的流程图;
图2是根据一示例性实施例示出的目标对象的原始表情和原始声音的获取方法流程图;
图3是根据一示例性实施例示出的参考动画的表情确定方法流程图;
图4是根据一示例性实施例示出的目标声音的生成方法流程图一;
图5是根据一示例性实施例示出的目标声音的生成方法流程图二;
图6是根据一示例性实施例示出的预设声音模型的完善方法流程图;
图7是根据一示例性实施例示出的表情生成方法的具体过程示意图;
图8a是根据一示例性实施例示出的表情生成装置的模块框图;
图8b是根据一示例性实施例示出的表情生成装置的模块框图;
图8c是根据一示例性实施例示出的表情生成装置的模块框图;
图8d是根据一示例性实施例示出的表情生成装置的模块框图;
图8e是根据一示例性实施例示出的表情生成装置的模块框图;
图8f是根据一示例性实施例示出的表情生成装置的模块框图;
图9是根据一示例性实施例示出的用于表情生成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开实施例所提供的技术方案涉及终端,所述终端可以为手机、平板电脑、笔记本电脑、以及其它具有动态表情功能的智能设备,这里对此不做具体限定。相关技术中,动态表情大都是基于用户自身的表情模拟以及声音合成而实现的,因此其功能相对受限,从而导致娱乐性还有待进一步提升。基于此,本公开实施例一方面可在获取到目标对象的原始表情之后,根据该原始表情来确定参考动画的表情,另一方面还可在预设声音模型中预先学习并存储一些参考声音特征,例如动物或者明星人物的声音特征,并在获取到目标对象的原始声音之后,根据该原始声音结合预存的参考声音特征来确定最终的目标声音,从而生成表情效仿于目标对象、声音效仿于参考声音特征的目标表情,如此便可有效的提升动态表情的娱乐性。
图1示例性示出了本公开实施例所提供的表情生成方法的流程图,可应用于终端设备例如智能手机。根据图1可知,该方法具体包括如下步骤S101至步骤S104:
在步骤S101中,获取目标对象的原始表情和原始声音。
其中,目标对象的原始声音是指通过音频采集装置例如麦克风所录制的声音,目标对象的原始表情是指通过图像采集装置例如摄像头所拍摄的图像表情。考虑到最终生成的动态表情中声音与表情的同步效果,这里需对目标对象的原始表情和原始声音进行同步采集。
本示例性实施方式中,参考图2所示,获取目标对象的原始表情和原始声音的具体方法包括如下步骤S1011至步骤S1013:
在步骤S1011中,获取采集指令,该采集指令指示同步采集目标对象的原始表情和原始声音;
在步骤S1012中,响应采集指令拍摄目标对象的原始表情,该原始表情为三维动态表情或者三维静态表情;
在步骤S1013中,响应采集指令录制目标对象的原始声音,该原始声音为目标对象发出的声音和/或背景声音。
示例的,终端安装有可制作动态表情的应用程序,该动态表情可以模拟用户的面部表情以及预存的声音特征。当用户需要录制动态表情时,可启动该应用程序并点击动态表情对应的标识符号,此时终端便会响应该点击操作而呈现出若干个参考动画例如人物头像、动物头像、或者卡通图像等,这些参考动画存储在预设动画库中,其类型及数量均可进行调整。用户在选择好参考动画之后可点击该参考动画以触发采集指令,此时被选定的参考动画的放大图像显示于终端的界面,而该采集指令指示同步开启摄像头和麦克风,以便于同步采集用户的表情和声音。终端的摄像头在接收到该采集指令之后便可响应该采集指令以在三维结构光的条件下拍摄用户的三维面部图像,并通过进一步的分析处理还原出用户的原始表情,该原始表情可以为动态表情或者静态表情,这里对此不作限定。终端的麦克风在接收到该采集指令之后便可响应该采集指令以录制当前环境中的原始声音,该原始声音可以是用户发出的声音,或者也可以是当前环境的背景声音例如音箱正在播放的歌曲等,这里对此不作限定。如此一来,终端便可成功的获取到目标对象的原始表情和原始声音,从而为后续的处理过程提供基础。
需要说明的是:若要获取目标对象的三维图像,终端就需要采用结构光技术来实现三维图像的采集。基于此,这里将对结构光技术进行简单的描述。结构光的类型主要包括点结构光、线结构光、多线结构光、面结构光、以及相位法结构光。结构光投射到待测物表面之后会被待测物的高度调制,调制后的结构光可被摄像装置采集并传送至计算机内部进行分析计算,从而得到被测物的三维面形数据。其中,调制方式可分为时间调制与空间调制两大类。时间调制方法中最常用的是飞行时间法,该方法记录了光脉冲在空间的飞行时间,并通过飞行时间解算出待测物的面形信息;空间调制方法为结构光场的相位和光强等性质被待测物的高度调制后会产生变化,根据读取这些性质的变化即可得出待测物的面形信息。下面以光栅投影技术(条纹投影技术)为例来阐述结构光技术的具体原理。首先通过计算机编程而产生正弦条纹,并借助投影设备将该正弦条纹投影至被测物表面,然后采用CCD(Charge Coupled Device,电荷耦合器件)相机拍摄该正弦条纹受到被测物调制之后的弯曲程度,接着解调该弯曲条纹以得到相位,再将相位转化为全场的高度,这样即可得到待测物的三维面形数据。基于此可知,结构光技术是基于主动发射红外结构光来照射被测物,从而获取其三维图像数据的技术。
在步骤S102中,根据原始表情确定选自于预设动画库中的参考动画的表情。
其中,预设动画库是指存储有参考动画的数据信息的数据库,其所存储的参考动画可以跟随终端系统而更新,或者根据用户需要而下载更新。
本示例性实施方式中,参考图3所示,根据原始表情确定选自预设动画库中的参考动画的表情的具体方法包括如下步骤S1021至步骤S1023:
在步骤S1021中,根据原始表情分析得出原始表情对应的三维数据;
在步骤S1022中,采用参考动画结合三维数据模拟得到参考动画的表情。
示例的,终端在获取到用户的原始表情之后,可对该原始表情进行分析处理,以得到其所对应的三维数据,并进一步基于该三维数据而对参考动画进行表情的模拟还原。需要说明的是:这里关于原始表情的分析处理过程和参考动画的表情模拟过程不作详述,其可参考结构光技术的实现过程。
在步骤S103中,根据原始声音以及预设声音模型中的参考声音特征生成目标声音,目标声音的声音特征与参考声音特征相同。
其中,目标声音是指最终生成的动态表情所模拟的声音,其例如可以是动物的声音或者明星的声音等。参考声音特征是指预先存储在预设声音模型中的包括音色、音调和响度的声音特征,其需要通过预先录制特定的声音并进行声音特征的提取而得。
具体而言,预设声音模型中的参考声音特征的获取方法包括:采集参考对象的参考声音,该参考对象是指终端需要进行声音模拟学习的对象,这里通过采集不同场景的多段参考声音便可有效的提升声音学习的准确度;提取参考声音的参考声音特征并学习该参考声音特征,该参考声音特征包括但不限于音色、音调、响度、音长和音强等声音特征,终端通过学习相应的声音特征及其稳定性,即可得到所需的声音模型;将该参考对象的参考声音特征进行保存并添加对应的标签,该标签可用于区别不同的参考对象。如此一来,本实施例通过学习不同场景中的参考声音特征并添加相应的标签,即可得到所需的预设声音模型。更进一步的,本实施例还可学习多个不同的参考对象的参考声音特征,并通过添加标签来对其进行区分,其中不同标签所对应的参考声音特征属于不同的参考对象,用户在制作动态表情时进行根据标签来选择需要的参考声音特征即可。
本示例性实施方式中,参考图4所示,根据原始声音以及预设声音模型中的参考声音特征生成目标声音的具体方法包括如下步骤S1031至步骤S1033:
在步骤S1031中,提取原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
在步骤S1032中,采用预设声音模型中选定的参考声音特征置换该原始声音特征;
在步骤S1033中,根据原始声音的内容信息以及置换后的参考声音特征生成目标声音。
示例的,终端在获取到用户的原始声音之后,可提取该原始声音的内容信息以及特征信息即原始声音特征,并采用预设声音模型中的参考声音特征来置换原始声音特征,即采用参考声音特征的各项参数来取代原始声音特征的各项参数,其中各项参数是指音色、音调、响度、音长和音强等声音特征。此时,终端根据原始声音的内容信息以及置换之后的参考声音特征即可合成用户所需的目标声音。由此可知,该目标声音中的文字内容为原始声音中所包含的内容信息,而该目标声音中的声音特征为预设声音模型中存储的参考声音特征。
考虑到可能出现在预设声音模型中包括有多个参考对象对应的参考声音特征的情况,此时还需根据用户选择的参考声音特征来确定目标声音的声音特征。基于此,参考图5所示,根据原始声音以及预设声音模型中的参考声音特征生成目标声音的具体方法还包括如下步骤S1034至步骤S1035:
在步骤S1034中,获取针对预设声音模型中一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;
在步骤S1035中,响应选取指令在预设声音模型中的多个参考声音特征中调用该标签对应的参考声音特征。
示例的,终端在获取到用户的原始声音之后,可提取该原始声音的内容信息以及原始声音特征,并显示可被模仿的参考对象的标签以备用户选择。当然,该参考对象的标签也可在获取用户的原始声音和原始表情之前选择,本实施例对此不作限定。用户在确定好需要的参考声音特征时可点击该参考声音特征对应的标签,此时终端接收到针对于该标签对应的参考声音特征的选取指令,便可响应该选取指令在预设声音模型的多个参考声音特征中调用该标签对应的参考声音特征。进一步的,终端可采用该标签对应的参考声音特征来置换原始声音特征,即采用参考声音特征的各项参数来取代原始声音特征的各项参数,其中的各项参数是指音色、音调、响度、音长和音强等声音特征。此时,终端根据原始声音的内容信息以及置换之后的参考声音特征即可合成用户所需的目标声音。由此可知,该目标声音中的文字内容为原始声音中所包含的内容信息,而该目标声音中的声音特征为预设声音模型中存储的参考声音特征。
在步骤S104中,根据目标声音以及参考动画的表情生成目标表情。
其中,目标表情是指最终生成的动态表情,其不仅包括根据目标对象的原始表情模拟出的参考动画的表情,同时还包括根据目标对象的原始声音以及参考声音特征合成的目标声音。由此可知,该目标表情可以视为是由参考动画的图像、目标对象的表情、目标对象的声音、以及参考声音特征而共同合成的动态表情。
示例的,终端在确定出参考动画的表情并获取到目标声音之后,可根据目标声音以及参考动画的表情最终合成动态的目标表情,并将该目标表情的效果显示于终端界面以便用户观看。用户在确定需要该目标表情时,可点击保存或发送的选项,以便终端响应用户的点击操作而执行相应的命令。
基于上述过程可知,本公开实施例所提供的技术方案,一方面可在获取到目标对象的原始表情之后,根据该原始表情来确定参考动画的表情,另一方面还可在预设声音模型中预先学习并存储一些参考声音特征,例如动物或者明星人物的声音特征,并在获取到目标对象的原始声音之后,根据该原始声音结合预存的参考声音特征来确定最终的目标声音,从而生成表情效仿于目标对象、声音效仿于参考声音特征的目标表情,如此便可有效的提升动态表情的娱乐性,从而提高用户的体验感。
本示例实施方式中,由于在预设声音模型中预先存储有一个或多个参考对象的参考声音特征,因此在获取目标对象的原始声音的过程中,目标对象的原始声音特征可能会与某参考声音特征相同,也就是说,使用终端的用户与录制声音模型的用户可能为同一个用户,此时终端必然能够识别出该原始声音。基于此,若能将日常使用过程中识别出的原始声音特征增加至其对应的参考声音特征中,便可有效的扩大预先声音模型中参考声音特征的存储量,从而有利于提升声音学习的准确度。此时,参考图6所示,本公开实施例中的表情生成方法还可进一步包括如下步骤S105至步骤S106:
在步骤S105中,在提取原始声音的原始声音特征之后,检测原始声音特征与预设声音模型中的任一个参考声音特征是否相同;
在步骤S106中,在检测到原始声音特征与任一个参考声音特征相同时,将原始声音特征保存至该相同的参考声音特征携带的标签中。
示例的,终端在获取到用户的原始声音并提取出该原始声音的特征信息之后,可根据预设声音模型中存储的参考声音特征来检测原始声音特征是否与某个参考声音特征相同。在检测到原始声音特征与某个参考声音特征相同时,例如用户使用自己的手机录制过声音模型,随后又使用自己的手机制作动态表情,此时终端便可将该原始声音特征作为该集合中新的参考声音特征而存储在其所对应的标签之中。如此一来,终端不仅具有声音学习的功能,而且还可以在日常使用过程中通过识别声音模型的主人而对声音模型不断的加强完善,使得声音模型学习的声音与主人的声音越来越为接近,从而提升声音学习的准确率。
下面结合图7对本公开实施例所提供的表情生成方法进行具体的描述。参考图7所示,该表情生成方法可应用于终端,其具体包括如下步骤S701至步骤S710:
在步骤S701中,预先录制某个明星在多种场合中的讲话声音;
在步骤S702中,提取讲话声音中的参考声音特征并进行学习,以形成相应的声音模型;
在步骤S703中,针对该声音模型添加以明星名字命名的标签并保存;
在步骤S704中,采集用户的原始表情和原始声音以录制动态表情;
在步骤S705中,识别该原始声音是否对应有已存储的声音模型;
在步骤S706中,在该原始声音对应有已存储的声音模型时,将该原始声音的声音特征存储在该模型中;
在步骤S707中,根据原始表情确定参考动画的表情;
在步骤S708中,根据用户选择的标签所对应的声音模型以及原始声音合成目标声音;
在步骤S709中,根据目标声音和参考动画的表情生成所需的动态表情;
在步骤S710中,保存并分享该动态表情。
基于上述步骤生成的动态表情,其图像为参考动画的图像、表情为用户自己的表情、声音为预先录制的明星的声音、说话内容为用户表达的内容,如此便可有效的提升动态表情的娱乐性,从而获得良好的用户体验。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图8a是根据示例性实施例示出的表情生成装置的结构示意图,该装置可通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。根据图8a所示,该表情生成装置包括目标获取模块801、表情确定模块802、声音生成模块803和表情生成模块804。其中,目标获取模块801可用于获取目标对象的原始表情和原始声音;表情确定模块802可用于根据所述原始表情确定选自于预设动画库中的参考动画的表情;声音生成模块803可用于根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;表情生成模块804可用于根据所述目标声音以及所述参考动画的表情生成目标表情。
在一个实施例中,参考图8b所示,所述声音生成模块803包括提取单元8031、置换单元8032和生成单元8033。其中,提取单元8031可用于提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;置换单元8032可用于采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;生成单元8033可用于根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
在一个实施例中,参考图8c所示,所述声音生成模块803还包括获取单元8034和调用单元8035。其中,获取单元8034可用于获取针对所述预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;调用单元8035可用于响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征。
在一个实施例中,参考图8d所示,所述表情生成装置还包括声音检测模块805和特征保存模块806。其中,声音检测模块805可用于在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;特征保存模块806可用于在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
在一个实施例中,参考图8e所示,所述目标获取模块801包括采集单元8011、拍摄单元8012和录制单元8013。其中,采集单元8011可用于获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;拍摄单元8012可用于响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;录制单元8013可用于响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
在一个实施例中,参考图8f所示,所述表情确定模块802包括分析单元8021和模拟单元8022。其中,分析单元8021可用于根据所述原始表情分析得出所述原始表情对应的三维数据;模拟单元8022可用于采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
本公开实施例所提供的表情生成装置中国,一方面可在获取到目标对象的原始表情之后,根据该原始表情来确定参考动画的表情,另一方面还可在预设声音模型中预先学习并存储一些参考声音特征,例如动物或者明星人物的声音特征,并在获取到目标对象的原始声音之后,根据该原始声音结合预存的参考声音特征来确定最终的目标声音,从而生成表情效仿于目标对象、声音效仿于参考声音特征的目标表情,如此便可有效的提升动态表情的娱乐性,从而提高用户的体验感。
关于上述实施例中的装置,其各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种表情生成装置,该装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行:
获取目标对象的原始表情和原始声音;
根据所述原始表情确定选自于预设动画库中的参考动画的表情;
根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;
根据所述目标声音以及所述参考动画的表情生成目标表情。
在一个实施例中,上述处理器还可被配置为:
提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;
根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
在一个实施例中,上述处理器还可被配置为:
获取针对所述预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;
响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征。
在一个实施例中,上述处理器还可被配置为:
在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;
在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
在一个实施例中,上述处理器还可被配置为:
获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;
响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;
响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
在一个实施例中,上述处理器还可被配置为:
根据所述原始表情分析得出所述原始表情对应的三维数据;
采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
图9是根据示例性实施例示出的用于表情生成装置的结构框图,该装置90适用于终端设备。例如,装置90可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置90可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置90的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置90的操作。这些数据的示例包括用于在装置90上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置90的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置90生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置90和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置90处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置90处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置90提供各个方面的状态评估。例如,传感器组件914可以检测到装置90的打开/关闭状态,组件的相对定位,例如所述组件为装置90的显示器和小键盘,传感器组件914还可以检测装置90或装置90一个组件的位置改变,用户与装置90接触的存在或不存在,装置90方位或加速/减速和装置90的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置90和其他设备之间有线或无线方式的通信。装置90可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置90可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述用户终端侧的商品展示方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置90的处理器920执行以完成上述终端侧的洁面方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开实施例还提供一种非临时性计算机可读存储介质,当存储介质中的指令由装置90的处理器执行时,使得装置90能够执行上述的终端操作方法,所述方法包括:
获取目标对象的原始表情和原始声音;
根据所述原始表情确定选自于预设动画库中的参考动画的表情;
根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;
根据所述目标声音以及所述参考动画的表情生成目标表情。
在一个实施例中,根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音包括:
提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;
根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
在一个实施例中,根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音还包括:
获取针对所述预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;
响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征。
在一个实施例中,所述方法还包括:
在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;
在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
在一个实施例中,获取目标对象的原始表情和原始声音包括:
获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;
响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;
响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
在一个实施例中,根据所述原始表情确定选自预设动画库中的参考动画的表情包括:
根据所述原始表情分析得出所述原始表情对应的三维数据;
采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims (12)

1.一种表情生成方法,其特征在于,应用于终端,包括:
获取目标对象的原始表情和原始声音;
根据所述原始表情确定选自于预设动画库中的参考动画的表情;
获取针对预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;其中,预设声音模型是终端通过学习生成的,包括:采集参考对象的参考声音,提取参考声音的参考声音特征并进行学习以形成声音模型,将该参考对象的参考声音特征进行保存并添加对应的标签,标签用于区别不同的参考对象;
响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征;
根据所述原始声音以及从预设声音模型中的选取的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;
根据所述目标声音以及所述参考动画的表情生成目标表情。
2.根据权利要求1所述的方法,其特征在于,根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音包括:
提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;
根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
3.根据权利要求1所述的方法,其特征在于,还包括:
在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;
在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
4.根据权利要求1所述的方法,其特征在于,获取目标对象的原始表情和原始声音包括:
获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;
响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;
响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
5.根据权利要求4所述的方法,其特征在于,根据所述原始表情确定选自预设动画库中的参考动画的表情包括:
根据所述原始表情分析得出所述原始表情对应的三维数据;
采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
6.一种表情生成装置,其特征在于,应用于终端,包括:
目标获取模块,用于获取目标对象的原始表情和原始声音;
表情确定模块,用于根据所述原始表情确定选自于预设动画库中的参考动画的表情;
声音生成模块,用于获取针对预设声音模型中的一参考声音特征的选取指令,所述选取指令指向该参考声音特征携带的标签;其中,预设声音模型是终端通过学习生成的,包括:采集参考对象的参考声音,提取参考声音的参考声音特征并进行学习以形成声音模型,将该参考对象的参考声音特征进行保存并添加对应的标签,标签用于区别不同的参考对象;响应所述选取指令在所述预设声音模型中的多个参考声音特征中调用所述标签对应的所述参考声音特征;根据所述原始声音以及预设声音模型中的参考声音特征生成目标声音,所述目标声音的声音特征与所述参考声音特征相同;
表情生成模块,用于根据所述目标声音以及所述参考动画的表情生成目标表情。
7.根据权利要求6所述的装置,其特征在于,所述声音生成模块包括:
提取单元,用于提取所述原始声音的内容信息和原始声音特征,所述原始声音特征包括音色、音调、响度、音长和音强;
置换单元,用于采用所述预设声音模型中选定的参考声音特征置换所述原始声音特征;
生成单元,用于根据所述原始声音的内容信息以及置换之后的所述参考声音特征生成所述目标声音。
8.根据权利要求6所述的装置,其特征在于,还包括:
声音检测模块,用于在提取所述原始声音的原始声音特征之后,检测所述原始声音特征与所述预设声音模型中的任一个参考声音特征是否相同;
特征保存模块,用于在检测到所述原始声音特征与任一个所述参考声音特征相同时,将所述原始声音特征保存至该相同的所述参考声音特征携带的标签中。
9.根据权利要求6所述的装置,其特征在于,所述目标获取模块包括:
采集单元,用于获取采集指令,所述采集指令指示同步采集所述目标对象的原始表情和原始声音;
拍摄单元,用于响应所述采集指令拍摄所述目标对象的原始表情,所述原始表情为三维动态表情或者三维静态表情;
录制单元,用于响应所述采集指令录制所述目标对象的原始声音,所述原始声音为所述目标对象发出的声音和/或背景声音。
10.根据权利要求9所述的装置,其特征在于,所述表情确定模块包括:
分析单元,用于根据所述原始表情分析得出所述原始表情对应的三维数据;
模拟单元,用于采用所述参考动画结合所述三维数据模拟得到所述参考动画的表情。
11.一种终端操作装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任一项所述方法的步骤。
CN201910152339.6A 2019-02-28 2019-02-28 表情生成方法及装置 Active CN111627095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910152339.6A CN111627095B (zh) 2019-02-28 2019-02-28 表情生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910152339.6A CN111627095B (zh) 2019-02-28 2019-02-28 表情生成方法及装置

Publications (2)

Publication Number Publication Date
CN111627095A CN111627095A (zh) 2020-09-04
CN111627095B true CN111627095B (zh) 2023-10-24

Family

ID=72272582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910152339.6A Active CN111627095B (zh) 2019-02-28 2019-02-28 表情生成方法及装置

Country Status (1)

Country Link
CN (1) CN111627095B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105190700A (zh) * 2013-06-04 2015-12-23 英特尔公司 基于化身的视频编码
CN107437272A (zh) * 2017-08-31 2017-12-05 深圳锐取信息技术股份有限公司 基于增强现实的互动娱乐方法、装置及终端设备
CN108564643A (zh) * 2018-03-16 2018-09-21 中国科学院自动化研究所 基于ue引擎的表演捕捉系统
CN108921941A (zh) * 2018-07-10 2018-11-30 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质和电子设备
CN109040641A (zh) * 2018-08-30 2018-12-18 维沃移动通信有限公司 一种视频数据合成方法及装置
CN110531860A (zh) * 2019-09-02 2019-12-03 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10861210B2 (en) * 2017-05-16 2020-12-08 Apple Inc. Techniques for providing audio and video effects

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105190700A (zh) * 2013-06-04 2015-12-23 英特尔公司 基于化身的视频编码
CN107437272A (zh) * 2017-08-31 2017-12-05 深圳锐取信息技术股份有限公司 基于增强现实的互动娱乐方法、装置及终端设备
CN108564643A (zh) * 2018-03-16 2018-09-21 中国科学院自动化研究所 基于ue引擎的表演捕捉系统
CN108921941A (zh) * 2018-07-10 2018-11-30 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质和电子设备
CN109040641A (zh) * 2018-08-30 2018-12-18 维沃移动通信有限公司 一种视频数据合成方法及装置
CN110531860A (zh) * 2019-09-02 2019-12-03 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置

Also Published As

Publication number Publication date
CN111627095A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN109091869B (zh) 虚拟对象的动作控制方法、装置、计算机设备及存储介质
CN106024009B (zh) 音频处理方法及装置
CN105845124B (zh) 音频处理方法及装置
CN102498725B (zh) 自动确定操作模式的移动设备
CN110322760B (zh) 语音数据生成方法、装置、终端及存储介质
CN110572716B (zh) 多媒体数据播放方法、装置及存储介质
CN107871001B (zh) 音频播放方法、装置、存储介质及电子设备
CN113099297B (zh) 卡点视频的生成方法、装置、电子设备及存储介质
CN108965981B (zh) 视频播放方法、装置、存储介质及电子设备
CN108848313B (zh) 一种多人拍照方法、终端和存储介质
CN107945806B (zh) 基于声音特征的用户识别方法及装置
CN110990534B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN109168062A (zh) 视频播放的展示方法、装置、终端设备及存储介质
CN107948729B (zh) 富媒体处理方法、装置、存储介质和电子设备
CN110019897B (zh) 显示图片的方法及装置
CN107885482B (zh) 音频播放方法、装置、存储介质及电子设备
CN109829067B (zh) 音频数据处理方法、装置、电子设备及存储介质
CN111615007A (zh) 视频展示方法、装置和系统
CN111627095B (zh) 表情生成方法及装置
CN116580707A (zh) 基于语音生成动作视频的方法和装置
CN103927334B (zh) 网页获取方法及装置
CN113923517B (zh) 一种背景音乐生成方法、装置及电子设备
CN113792178A (zh) 一种歌曲生成方法、装置、电子设备及存储介质
CN114429599A (zh) 类目分类方法、装置、电子设备和存储介质
CN113709548A (zh) 基于图像的多媒体数据合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant