CN112131988B - 确定虚拟人物唇形的方法、装置、设备和计算机存储介质 - Google Patents

确定虚拟人物唇形的方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN112131988B
CN112131988B CN202010962995.5A CN202010962995A CN112131988B CN 112131988 B CN112131988 B CN 112131988B CN 202010962995 A CN202010962995 A CN 202010962995A CN 112131988 B CN112131988 B CN 112131988B
Authority
CN
China
Prior art keywords
lip
voice
phoneme
key point
point information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010962995.5A
Other languages
English (en)
Other versions
CN112131988A (zh
Inventor
马明明
胡天舒
洪智滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010962995.5A priority Critical patent/CN112131988B/zh
Publication of CN112131988A publication Critical patent/CN112131988A/zh
Priority to US17/205,624 priority patent/US20220084502A1/en
Application granted granted Critical
Publication of CN112131988B publication Critical patent/CN112131988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种确定虚拟人物唇形的方法、装置、设备和计算机存储介质,涉及人工智能技术,具体涉及计算机视觉和深度学习技术。具体实现方案为:确定语音对应的音素序列,所述音素序列中包括各时间点对应的音素;确定所述音素序列中各音素对应的唇形关键点信息;根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像;将检索到的各音素的唇形图像与所述各时间点相对应,得到所述语音对应的唇形图像序列。通过本申请能够实现语音和图像中唇形的同步。

Description

确定虚拟人物唇形的方法、装置、设备和计算机存储介质
技术领域
本申请涉及人工智能技术,特别涉及计算机视觉和深度学习技术。
背景技术
虚拟人物指的是存在于创作型视频中虚构的人物。随着计算机技术的快速发展,出现了使用虚拟人物播报新闻、天气预报、教学、比赛解说、智能交互等应用。虚拟人物视频在合成时涉及到两部分数据,一部分为语音,另一部分为包含唇形的图像。然而在进行实际合成时,如何保证语音和图像中的唇形同步成为一个难题。
发明内容
有鉴于此,本申请提供了一种确定虚拟人物唇形的方法、装置、设备和计算机存储介质,以便于实现语音和图像中唇形的同步。
第一方面,本申请提供了一种确定虚拟人物唇形的方法,包括:
确定语音对应的音素序列,所述音素序列中包括各时间点对应的音素;
确定所述音素序列中各音素对应的唇形关键点信息;
根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像;
将检索到的各音素的唇形图像与所述各时间点相对应,得到所述语音对应的唇形图像序列。
第二方面,本申请提供了一种确定虚拟人物唇形的装置,包括:
第一确定模块,用于确定语音对应的音素序列,所述音素序列中包括各时间点对应的音素;
第二确定模块,用于确定所述音素序列中各音素对应的唇形关键点信息;
检索模块,用于根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像;
对应模块,用于将检索到的各音素的唇形图像与所述各时间点相对应,得到所述语音对应的唇形图像序列。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一项所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:在确定出语音对应的音素序列后,利用各时间点所对应音素的唇形关键点信息查询预先建立的唇形库,得到各音素的唇形图像,并通过各时间点实现语音与唇形的对齐和同步。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1示出了可以应用本发明实施例的示例性系统架构;
图2为本申请实施例提供的确定虚拟人物唇形的方法流程图;
图3为本申请实施例提供的详细方法流程图;
图4为本申请实施例提供的装置结构图;
图5是用来实现本申请实施例的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本发明实施例的确定虚拟人物唇形的装置的示例性系统架构。
如图1所示,该系统架构可以包括终端设备101和102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用,例如语音交互应用、媒体播放类应用、网页浏览器应用、通信类应用等。
终端设备101和102可以是各种有屏电子设备,包括但不限于智能手机、平板电脑、PC(Personal Computer,个人计算机)、智能电视等等。本发明所提供的确定虚拟人物唇形的装置可以设置并运行于上述终端设备101或102中,也可以设置并运行于上述服务器104中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。
例如,确定虚拟人物唇形的装置设置并运行于上述终端设备101,终端设备从服务器端获取语音(该语音可以是服务器端针对文本进行语音合成得到的语音,也可以是服务器端利用文本查询语音库得到的文本对应的语音),或者在本地针对文本进行语音合成得到语音,或者终端利用文本查询语音库得到的文本对应的语音;然后采用本申请实施例中的方法确定该语音的各时间点对应的唇形图像。后续终端设备101可以将该语音与各时间点对应的唇形图像进行合成,得到语音对应的虚拟人物视频并进行播放。
再例如,确定虚拟人物唇形的装置设置并运行于上述服务器104。服务器端可以针对文本进行语音合成得到语音,也可以利用文本查询语音库得到对应的语音。然后采用本申请实施例中的方法确定该语音的各时间点对应的唇形图像。将该语音及其各时间点对应的唇形图像发送给终端设备101,由终端设备将该语音与各时间点对应的唇形图像进行合成,得到语音对应的虚拟人物视频并进行播放。
再例如,确定虚拟人物唇形的装置设置并运行于上述服务器104。服务器端可以针对文本进行语音合成得到语音,也可以利用文本查询语音库得到对应的语音。然后采用本申请实施例中的方法确定该语音的各时间点对应的唇形图像,再将该语音与各时间点对应的唇形图像进行合成,得到语音对应的虚拟人物视频并发送给终端设备。终端设备对接收到的虚拟人物视频进行播放。
服务器104可以是单一服务器,也可以是多个服务器构成的服务器群组。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2为本申请实施例提供的确定虚拟人物唇形的方法流程图,如图2中所示,该方法可以包括以下步骤:
在201中,确定语音对应的音素序列,音素序列中包括各时间点对应的音素。
对于本申请中涉及的语音在不同应用场景下,可以是不同的内容。例如,对于新闻、天气预报、比赛解说等播报类场景下,语音是播报内容对应的语音。例如,对于智能交互场景下,语音是针对用户输入语音所产生的响应文本对应的语音。因此,在大多数场景下,本申请中涉及的语音是由文本所产生的。产生机制可以是对文本进行实时的语音合成后产生,也可以是利用文本实时查询语音库后,得到该文本对应的语音。其中语音库是采用离线方式预先对各种文本进行合成或采集后得到的。
作为其中一种实现方式,本步骤中涉及的语音可以是播报文本或响应文本等类型的文本所对应的一条完整的语音。
作为另一种实现方式,为了降低终端播放视频时对性能、实时性等所产生的影响,可以将语音切分为多个语音段,分别针对语音段生成唇形图像以及虚拟人物视频合成。这种情况下,本步骤中涉及的语音就可以是上述的各语音段。
所谓音素是根据语音的自然属性划分出来的最小语言单位,是构成音节的最小单位或最小的语音片段。音素根据不同的语言可以采用不同的音标进行标记。例如对于中文而言,就可以采用拼音进行标记。举个例子,对于语音“你好啊”,其对应的音素就包括“n”,“i”,“h”,“ao”,“a”五个音素。
本步骤中,确定语音对应的音素序列实际上就是确定该语音中各时间点对应的音素。仍以语音“你好啊”为例,该语音中每个时间点以例如10ms为步长,在第1、2个10ms对应音素“n”,第3、4、5个10ms对应音素“i”,第6个10ms为静音,第7、8个10ms对应音素“h”……。
具体的实现过程,将在图3所示实施例中详述。
在202中,确定音素序列中各音素对应的唇形关键点信息。
通常,唇形可以包括多个关键点,在本申请中称为“唇形关键点”,该多个关键点描述唇形的轮廓。作为一种实现方式,关键点可以分布在唇形的轮廓线上。例如采用14个关键点,这些关键点分别分布在两个嘴角、上下嘴唇的外边缘以及嘴唇内侧的边缘处。除了该例子之外,也可以采用其他数量的关键点。
对于真实人物而言,在发出每个音素时具有一定的唇形轮廓的,能够用特定的唇形关键点信息来进行表征。因为音素的数量是有限的,因此可以预先建立并存储各音素对应的唇形关键点信息,在本步骤中直接查询即可得到。另外,由于唇形关键点的数量和在嘴唇上的位置是一定的,不同唇形之间的区别(例如张合程度、形状等)主要就体现在关键点之间的距离上,因此,本申请实施例中涉及的唇形关键点信息可以包括各关键点之间的距离信息。
在203中,根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像。
唇形库中包括各种唇形图像及其对应的唇形关键点信息。这种通过检索唇形库的方式得到各音素的唇形图像,相比较利用语音直接预测唇形的方式,速度更快,能够有效降低对设备性能的影响。其中唇形库的建立过程以及具体的检索过程,将在后续实施例三中进行详细描述。
在204中,将检索到的各音素的唇形图像与上述各时间点相对应,得到上述语音对应的唇形图像序列。
由于在步骤201确定的音素序列中,语音的各时间点是与音素对应的,而步骤203确定的唇形图像也是与音素对应的,因此可以得到语音的各时间点与唇形图像的对应关系,依据各时间点的顺序也就得到了语音对应的唇形图像序列。
图3为本申请实施例提供的详细方法流程图,如图3中所示,该方法可以包括以下步骤:
在301中,预先构建唇形库。
唇形库可以采用人工方式进行构建,例如,人工采集各种唇形图像,使得采集的唇形图像尽量覆盖各音素的唇形,并记录各唇形图像的关键点信息。
作为一种优选的实施方式,为了降低人力成本,可以预先对真实人物说话过程中的唇形图像进行采集。例如采集真实人物在不断说话过程中的唇形图像,使得采集的唇形图像尽量覆盖各因素的唇形。
然后将采集到的唇形图像基于唇形关键点信息进行聚类。例如,若唇形关键点信息采用唇形关键点之间的距离,则可以基于唇形关键点之间的距离对各唇形图像进行聚类,使得具有相似唇形关键点之间距离的图像被聚类为一个类簇,一个类簇中的唇形是相似的。
再分别从各类簇中选择一个唇形图像及其对应的唇形关键点信息,构建唇形库。例如,可以从各类簇中选择类簇中心的唇形图像,也可以从各类簇中随机选择唇形图像。
在302中,将语音输入语音音素转换模型,得到语音音素转换模型输出的该语音对应的音素序列。
本步骤是图2所示实施例中步骤201的一种优选实施方式,其中,语音音素转换(tts2phone)模型可以基于诸如双向可变长LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated Recurrent Unit,门控循环单元)等循环神经网络预先训练得到。语音音素转换模型的作用是:输入语音的情况下,能够输出该语音的音素序列。
其中预先训练语音音素转换模型的过程可以包括:首先获取训练数据,训练数据包括语音样本和对该语音样本标注得到的音素序列。其中,可以人工对语音样本进行音素标注得到音素序列,也可以借助专用的标注工具对语音样本进行音素标注得到音素序列。然后在训练过程中,将语音样本作为循环神经网络的输入,将对该语音样本标注得到的音素序列作为循环神经网络的目标输出,训练该循环神经网络得到语音音素转换模型。也就是说,语音音素转换模型的训练目标是针对语音样本输出的音素序列与训练样本中标注的音素序列的差异最小化。
本实施例中,通过基于循环神经网络得到的语音音素转换模型得到语音对应的音素序列,这种方式得到的音素序列准确率高,速度快。
步骤303同图2所示实施例中步骤202,在此不做赘述。
在304中,对音素序列中各音素对应的唇形关键点进行平滑处理。
本步骤是对音素序列中各音素之间的唇形关键点进行平滑处理,具体的平滑处理方式本申请并不加以限制,可以采用插值等方式实现。
本步骤是本实施例中的一个优选处理方式,并非必须。其目的是为了后续合成的虚拟人物视频在播放过程中,唇形的过渡比较自然,不发生明显的跳变。
在305中,根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像。
由于唇形库中包括各种唇形图像及其对应的唇形关键点信息,因此,可以利用之前步骤确定出的各唇形关键点信息,分别检索唇形库,找到与各唇形关键点信息最相似的唇形关键点信息对应的唇形图像,分别作为各音素的唇形图像。
若上述唇形关键点信息为各关键点之间的距离信息,则作为其中一种实现方式:一个音素对应的各唇形关键点的距离信息可以表示为一个向量表示,唇形库中各唇形图像对应的各唇形关键点的距离也均可以分别表示为一个向量表示。那么可以基于向量间相似度的匹配方式,在唇形库中进行检索匹配。
在306中,将检索到的各音素的唇形图像与上述各时间点相对应,得到上述语音对应的唇形图像序列。
由于在步骤302确定的音素序列中,语音的各时间点是与音素对应的,而步骤305确定的唇形图像也是与音素对应的,因此可以得到语音的各时间点与唇形图像的对应关系,依据各时间点的顺序也就得到了语音对应的唇形图像序列。
在307中,将上述语音及其对应的唇形图像序列进行合成,得到上述语音对应的虚拟人物视频。
通过上述步骤301~步骤306的处理之后,已经实现了语音与唇形的对齐,即语音的各时间点对应的唇形图像,因此就可以利用上述语音以及该语音对应的唇形图像序列进行合成,得到虚拟人物视频。在该虚拟人物视频中,播放的语音是与图像中的唇形对齐的、同步的。
在具体合成过程中,可以首先从底板库中抽取底板图像。该底板图像包含了虚拟人物形象、背景等等。在合成过程中,各时间点的底板图像可以是相同的,然后对应各个时间点将唇形图像合成于底板图像中。这样产生的视频就是一个虚拟人物形象在语音的各时间点具有该时间点所对应音素的唇形。
以上是对本申请所提供方法进行的详细描述,下面对本申请所提供装置进行的详细描述。
图4为本申请实施例提供的装置结构图,该装置可以为位于终端设备的应用,或者还可以为位于终端设备的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者,还可以位于服务器端,本发明实施例对此不进行特别限定。如图4中所示,该装置可以包括:第一确定模块01、第二确定模块02、检索模块03和对应模块04,还可以包括模型训练模块05、平滑处理模块06、构建模块07和合成模块08。其中,各组成模块的主要功能如下:
第一确定模块01,用于确定语音对应的音素序列,音素序列中包括各时间点对应的音素。
作为其中一种实现方式,本步骤中涉及的语音可以是播报文本或响应文本等类型的文本所对应的一条完整的语音。
作为另一种实现方式,为了降低终端播放视频时对性能、实时性等所产生的影响,可以将语音切分为多个语音段,分别针对语音段生成唇形图像以及虚拟人物视频合成。这种情况下,本步骤中涉及的语音就可以是上述的各语音段。
其中,第一确定模块01可以将语音输入语音音素转换模型,得到语音音素转换模型输出的音素序列。其中语音音素转换模型基于循环神经网络预先训练得到。
第二确定模块02,用于确定音素序列中各音素对应的唇形关键点信息。
检索模块03,用于根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像。
对应模块04,用于将检索到的各音素的唇形图像与各时间点相对应,得到语音对应的唇形图像序列。
模型训练模块05,用于获取训练数据,训练数据包括语音样本和对该语音样本标注得到的音素序列;将语音样本作为循环神经网络的输入,将对该语音样本标注得到的音素序列作为循环神经网络的目标输出,训练循环神经网络得到语音音素转换模型。
其中,循环神经网络可以采用诸如双向可变长LSTM(Long Short-Term Memory,长短期记忆网络)、GRU(Gated Recurrent Unit,门控循环单元)等。
平滑处理模块06,用于对第二确定模块02确定出的音素序列中各音素对应的唇形关键点进行平滑处理。相应地,检索模块03基于平滑处理后的唇形关键点信息进行检索。
本实施例中涉及的唇形库可以包括各种唇形图像及其对应的唇形关键点信息。
唇形库可以采用人工方式进行构建,例如,人工采集各种唇形图像,使得采集的唇形图像尽量覆盖各音素的唇形,并记录各唇形图像的关键点信息。
作为一种优选的实施方式,为了降低人力成本,可以由构建模块07预先对真实人物说话过程中的唇形图像进行采集;将采集到的唇形图像基于唇形关键点信息进行聚类;分别从各类簇中选择一个唇形图像及其对应的唇形关键点信息,构建唇形库。
其中,唇形关键点信息可以包括:各关键点之间的距离信息。
合成模块08,用于将语音以及语音对应的唇形图像序列进行合成,得到语音对应的虚拟人物视频。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的确定虚拟人物唇形的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的确定虚拟人物唇形的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的确定虚拟人物唇形的方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的确定虚拟人物唇形的方法对应的程序指令/模块。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的确定虚拟人物唇形的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据该电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
该电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与该电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种确定虚拟人物唇形的方法,包括:
确定语音对应的音素序列,所述音素序列中包括各时间点对应的音素;所述语音为对文本进行语音合成得到一条语音数据,对所述一条语音数据进行切分后得到的各语音段;
确定所述音素序列中各音素对应的唇形关键点信息;
根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像;所述唇形库包括各种唇形图像及其对应的唇形关键点信息;
将检索到的各音素的唇形图像与所述各时间点相对应,得到所述语音对应的唇形图像序列;其中,
所述根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像,包括:
利用确定出的各唇形关键点信息,分别检索所述唇形库,找到与各唇形关键点信息最相似的唇形关键点信息对应的唇形图像,分别作为各音素的唇形图像。
2.根据权利要求1所述的方法,其中,所述确定语音对应的音素序列包括:
将所述语音输入语音音素转换模型,得到所述语音音素转换模型输出的音素序列;
其中所述语音音素转换模型基于循环神经网络预先训练得到。
3.根据权利要求2所述的方法,其中,所述语音音素转换模型采用以下方式预先训练得到:
获取训练数据,所述训练数据包括语音样本和对该语音样本标注得到的音素序列;
将所述语音样本作为循环神经网络的输入,将对该语音样本标注得到的音素序列作为所述循环神经网络的目标输出,训练所述循环神经网络得到所述语音音素转换模型。
4.根据权利要求1所述的方法,在所述检索预先建立的唇形库之前,还包括:
对所述音素序列中各音素对应的唇形关键点进行平滑处理。
5.根据权利要求1所述的方法,还包括:
预先对真实人物说话过程中的唇形图像进行采集;
将采集到的唇形图像基于唇形关键点信息进行聚类;
分别从各类簇中选择一个唇形图像及其对应的唇形关键点信息,构建所述唇形库。
6.根据权利要求1或5所述的方法,其中,所述唇形关键点信息包括:各关键点之间的距离信息。
7.根据权利要求1至5中任一项所述的方法,还包括:
将所述语音以及所述语音对应的唇形图像序列进行合成,得到所述语音对应的虚拟人物视频。
8.一种确定虚拟人物唇形的装置,包括:
第一确定模块,用于确定语音对应的音素序列,所述音素序列中包括各时间点对应的音素;所述语音为对文本进行语音合成得到一条语音数据,对所述一条语音数据进行切分后得到的各语音段;
第二确定模块,用于确定所述音素序列中各音素对应的唇形关键点信息;
检索模块,用于根据确定出的各唇形关键点信息,检索预先建立的唇形库,得到各音素的唇形图像;所述唇形库包括各种唇形图像及其对应的唇形关键点信息;
对应模块,用于将检索到的各音素的唇形图像与所述各时间点相对应,得到所述语音对应的唇形图像序列;其中,
所述检索模块具体用于,
利用确定出的各唇形关键点信息,分别检索所述唇形库,找到与各唇形关键点信息最相似的唇形关键点信息对应的唇形图像,分别作为各音素的唇形图像。
9.根据权利要求8所述的装置,其中,所述第一确定模块具体用于,将所述语音输入语音音素转换模型,得到所述语音音素转换模型输出的音素序列;
其中所述语音音素转换模型基于循环神经网络预先训练得到。
10.根据权利要求9所述的装置,还包括:
模型训练模块,用于获取训练数据,所述训练数据包括语音样本和对该语音样本标注得到的音素序列;将所述语音样本作为循环神经网络的输入,将对该语音样本标注得到的音素序列作为所述循环神经网络的目标输出,训练所述循环神经网络得到所述语音音素转换模型。
11.根据权利要求8所述的装置,还包括:
平滑处理模块,用于对所述第二确定模块确定出的所述音素序列中各音素对应的唇形关键点进行平滑处理;
所述检索模块基于平滑处理后的唇形关键点信息进行所述检索。
12.根据权利要求8所述的装置,还包括:
构建模块,用于预先对真实人物说话过程中的唇形图像进行采集;将采集到的唇形图像基于唇形关键点信息进行聚类;分别从各类簇中选择一个唇形图像及其对应的唇形关键点信息,构建所述唇形库。
13.根据权利要求8或12所述的装置,其中,所述唇形关键点信息包括:各关键点之间的距离信息。
14.根据权利要求8至12中任一项所述的装置,还包括:
合成模块,用于将所述语音以及所述语音对应的唇形图像序列进行合成,得到所述语音对应的虚拟人物视频。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
CN202010962995.5A 2020-09-14 2020-09-14 确定虚拟人物唇形的方法、装置、设备和计算机存储介质 Active CN112131988B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010962995.5A CN112131988B (zh) 2020-09-14 2020-09-14 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
US17/205,624 US20220084502A1 (en) 2020-09-14 2021-03-18 Method and apparatus for determining shape of lips of virtual character, device and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010962995.5A CN112131988B (zh) 2020-09-14 2020-09-14 确定虚拟人物唇形的方法、装置、设备和计算机存储介质

Publications (2)

Publication Number Publication Date
CN112131988A CN112131988A (zh) 2020-12-25
CN112131988B true CN112131988B (zh) 2024-03-26

Family

ID=73845214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010962995.5A Active CN112131988B (zh) 2020-09-14 2020-09-14 确定虚拟人物唇形的方法、装置、设备和计算机存储介质

Country Status (2)

Country Link
US (1) US20220084502A1 (zh)
CN (1) CN112131988B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887789B (zh) * 2021-01-22 2023-02-21 北京百度网讯科技有限公司 视频生成模型的构建和视频生成方法、装置、设备及介质
CN113096223A (zh) * 2021-04-25 2021-07-09 北京大米科技有限公司 图像生成方法、存储介质和电子设备
CN113223123A (zh) * 2021-05-21 2021-08-06 北京大米科技有限公司 图像处理方法和图像处理装置
CN113380269B (zh) * 2021-06-08 2023-01-10 北京百度网讯科技有限公司 视频图像生成方法、装置、设备、介质和计算机程序产品
CN113689532B (zh) * 2021-08-05 2023-07-18 北京奇艺世纪科技有限公司 基于语音数据重建虚拟角色的方法及装置
CN113744368A (zh) * 2021-08-12 2021-12-03 北京百度网讯科技有限公司 动画合成方法、装置、电子设备及存储介质
CN115052197B (zh) * 2022-03-24 2024-05-28 北京沃丰时代数据科技有限公司 虚拟人像视频的生成方法及装置
CN114663556A (zh) * 2022-03-29 2022-06-24 北京百度网讯科技有限公司 数据交互方法、装置、设备、存储介质以及程序产品
US20230326445A1 (en) * 2022-04-11 2023-10-12 Snap Inc. Animated speech refinement using machine learning
CN114928755B (zh) * 2022-05-10 2023-10-20 咪咕文化科技有限公司 一种视频制作方法、电子设备及计算机可读存储介质
CN114866807A (zh) * 2022-05-12 2022-08-05 平安科技(深圳)有限公司 虚拟形象视频生成方法、装置、电子设备及可读存储介质
CN115002509A (zh) * 2022-05-27 2022-09-02 杭州优链时代科技有限公司 一种3d虚拟数字人植入视频方法及系统
CN115278297B (zh) * 2022-06-14 2023-11-28 北京达佳互联信息技术有限公司 基于驱动视频的数据处理方法、装置、设备及存储介质
CN115695943A (zh) * 2022-10-31 2023-02-03 北京百度网讯科技有限公司 数字人视频生成方法、装置、设备及存储介质
CN116863046B (zh) * 2023-07-07 2024-03-19 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质
CN117095672A (zh) * 2023-07-12 2023-11-21 支付宝(杭州)信息技术有限公司 一种数字人唇形生成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347867A (zh) * 2019-07-16 2019-10-18 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
WO2019223102A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 身份合法性的校验方法、装置、终端设备及介质
CN111277912A (zh) * 2020-02-17 2020-06-12 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654018B1 (en) * 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US20100332229A1 (en) * 2009-06-30 2010-12-30 Sony Corporation Apparatus control based on visual lip share recognition
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
US10839825B2 (en) * 2017-03-03 2020-11-17 The Governing Council Of The University Of Toronto System and method for animated lip synchronization
US11270487B1 (en) * 2018-09-17 2022-03-08 Facebook Technologies, Llc Systems and methods for improving animation of computer-generated avatars

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019223102A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 身份合法性的校验方法、装置、终端设备及介质
CN110347867A (zh) * 2019-07-16 2019-10-18 北京百度网讯科技有限公司 用于生成嘴唇动作视频的方法和装置
CN111277912A (zh) * 2020-02-17 2020-06-12 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Bo Fan.PHOTO-REAL TALKING HEAD WITH DEEP BIDIRECTIONAL LSTM.IEEE.2015,参见第4884-4888页. *
PHOTO-REAL TALKING HEAD WITH DEEP BIDIRECTIONAL LSTM;Bo Fan;IEEE;参见第4884-4888页 *
基于BTSM和DBN模型的唇读和视素切分研究;吕国云;赵荣椿;蒋冬梅;蒋晓悦;侯云舒;Sahli H;;计算机工程与应用(第14期);全文 *

Also Published As

Publication number Publication date
CN112131988A (zh) 2020-12-25
US20220084502A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
CN112233210B (zh) 生成虚拟人物视频的方法、装置、设备和计算机存储介质
US11769482B2 (en) Method and apparatus of synthesizing speech, method and apparatus of training speech synthesis model, electronic device, and storage medium
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
CN112259072A (zh) 语音转换方法、装置和电子设备
CN111221984A (zh) 多模态内容处理方法、装置、设备及存储介质
CN111277912B (zh) 图像处理方法、装置和电子设备
CN112365880A (zh) 语音合成方法、装置、电子设备及存储介质
US20210201912A1 (en) Virtual Object Image Display Method and Apparatus, Electronic Device and Storage Medium
CN112667068A (zh) 虚拟人物的驱动方法、装置、设备及存储介质
CN112509552B (zh) 语音合成方法、装置、电子设备和存储介质
CN111225236B (zh) 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111918094A (zh) 视频处理方法、装置、电子设备和存储介质
CN114401417B (zh) 直播流对象跟踪方法及其装置、设备、介质
US20220076657A1 (en) Method of registering attribute in speech synthesis model, apparatus of registering attribute in speech synthesis model, electronic device, and medium
US20230368461A1 (en) Method and apparatus for processing action of virtual object, and storage medium
CN112382287A (zh) 语音交互方法、装置、电子设备和存储介质
US20220068265A1 (en) Method for displaying streaming speech recognition result, electronic device, and storage medium
CN111726682A (zh) 视频片段生成方法、装置、设备和计算机存储介质
CN112269867A (zh) 用于推送信息的方法、装置、设备以及存储介质
WO2023065963A1 (zh) 互动展示方法、装置、电子设备及可读介质
CN112614484B (zh) 特征信息挖掘方法、装置及电子设备
CN112652311B (zh) 中英文混合语音识别方法、装置、电子设备和存储介质
CN114630190A (zh) 关节姿态参数的确定方法、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant