CN112634861A - 数据处理方法、装置、电子设备和可读存储介质 - Google Patents

数据处理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN112634861A
CN112634861A CN202011611430.9A CN202011611430A CN112634861A CN 112634861 A CN112634861 A CN 112634861A CN 202011611430 A CN202011611430 A CN 202011611430A CN 112634861 A CN112634861 A CN 112634861A
Authority
CN
China
Prior art keywords
model
voice
target
corresponding relation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011611430.9A
Other languages
English (en)
Inventor
梁光
舒景辰
吴雨璇
杨惠
周鼎皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202011611430.9A priority Critical patent/CN112634861A/zh
Publication of CN112634861A publication Critical patent/CN112634861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域,在本发明实施例中,通过预先训练的语音识别模型,可以确定目标视频中目标语音的声学概率分布,进而可以基于该声学概率分布确定目标语音和目标人脸画面之间的对应关系,并基于该对应关系训练对应关系模型,也就是说,通过本发明实施例可以从目标视频中获取训练样本,提高了对应关系模型的训练样本数量,进而可以提高对应关系模型的精度,当对应关系模型的精度得到提升后,待使用语音和基于对应关系模型确定的待使用人脸数据之间具有良好的匹配度,进而可以使得虚拟人像视频中的虚拟人物更加生动。

Description

数据处理方法、装置、电子设备和可读存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、电子设备和可读存储介质。
背景技术
目前,带有机器合成语音的虚拟人物可以应用在各种场景,例如在线教育、视频配音以及解说等等,在各个场景中,虚拟人物可以结合机器合成语音模仿真人说话的声音和脸型,即节省了人力成本,也提升了趣味性。
相关技术中,为了保证虚拟人物脸型与虚拟人物语音的匹配度,需要利用模型来建立语音和人脸的对应关系,如果想要保证上述模型的精度,就必须使用大量的语音和人脸的训练样本来训练上述模型,然而,相关技术中可以获取的训练样本数量有限,不足以保证上述模型的精度,因此,如何保证上述模型的精度是一个亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备和可读存储介质,以提高对应关系模型的训练样本数量,进而提高对应关系模型的精度,使得虚拟人像视频中的虚拟人物更加生动。
第一方面,提供了一种数据处理方法,所述方法应用于电子设备,所述方法包括:
获取目标视频,所述目标视频包括目标人脸画面和目标语音。
根据预先训练的语音识别模型,确定所述目标语音的声学概率分布,所述声学概率分布用于表征所述目标语音中各音素对应的发音概率分布。
根据所述声学概率分布训练对应关系模型,所述对应关系模型用于建立虚拟人脸和通用语音数据的对应关系。
第二方面,提供了一种数据处理方法,所述方法应用于电子设备,所述方法包括:
获取待使用语音。
将所述待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据。
根据所述待使用人脸数据确定虚拟人脸模型。
将所述虚拟人脸模型和所述待使用语音进行合成,确定虚拟人像视频;其中,所述对应关系模型至少基于目标视频中的目标人脸画面和目标语音的对应关系训练,所述目标人脸画面和所述目标语音的对应关系至少基于预先训练的语音识别模型确定。
第三方面,提供了一种数据处理装置,所述装置应用于电子设备,所述装置包括:
第一获取模块,用于获取目标视频,所述目标视频包括目标人脸画面和目标语音。
第一确定模块,用于根据预先训练的语音识别模型,确定所述目标语音的声学概率分布,所述声学概率分布用于表征所述目标语音中各音素对应的发音概率分布。
训练模块,用于根据所述声学概率分布训练对应关系模型,所述对应关系模型用于建立虚拟人脸和通用语音数据的对应关系。
第四方面,提供了一种数据处理装置,所述装置应用于电子设备,所述装置包括:
第二获取模块,用于获取待使用语音。
对应关系模块,用于将所述待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据。
第二确定模块,用于根据所述待使用人脸数据确定虚拟人脸模型。
合成模块,用于将所述虚拟人脸模型和所述待使用语音进行合成,确定虚拟人像视频。其中,所述对应关系模型至少基于目标视频中的目标人脸画面和目标语音的对应关系训练,所述目标人脸画面和所述目标语音的对应关系至少基于预先训练的语音识别模型确定。
第五方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第二方面所述的方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第二方面所述的方法。
在本发明实施例中,虽然目标视频无法直接应用至对应关系模型的训练,但是,通过预先训练的语音识别模型,可以确定目标视频中目标语音的声学概率分布,进而可以基于该声学概率分布确定目标语音和目标人脸画面之间的对应关系,并基于该对应关系训练对应关系模型,也就是说,通过本发明实施例可以从目标视频中获取训练样本,提高了对应关系模型的训练样本数量,进而可以提高对应关系模型的精度,当对应关系模型的精度得到提升后,待使用语音和基于对应关系模型确定的待使用人脸数据之间具有良好的匹配度,进而可以使得虚拟人像视频中的虚拟人物更加生动。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例提供的一种虚拟人物合成过程的示意图;
图2为本发明实施例提供的一种对应关系模型工作过程的示意图;
图3为本发明实施例提供的一种数据处理方法的流程图;
图4为本发明实施例提供的一种目标语音的示意图;
图5为本发明实施例提供的一种语音识别模型训练过程的流程图;
图6为本发明实施例提供一种目标人脸数据和目标语音之间对应关系的示意图;
图7为本发明实施例提供的另一种数据处理方法的流程图;
图8为本发明实施例提供的一种数据处理装置的结构示意图;
图9为本发明实施例提供的另一种数据处理装置的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
目前,带有机器合成语音的虚拟人物可以应用在各种场景,例如在线教育、视频配音以及解说等等,在各个场景中,虚拟人物可以结合机器合成语音模仿真人说话的声音和脸型,即节省了人力成本,也提升了趣味性。
在一种可选的实施方式中,如图1所示,图1为本发明实施例提供的一种虚拟人物合成过程的示意图,该示意图包括:虚拟人脸数据a、合成语音b和虚拟人物c。
在实际应用中,虚拟人脸数据a可以用于生成虚拟人物的人脸部分,合成语音b可以是通过机器语音合成技术生成的语音。
如图1所示,在合成的过程中,可以将虚拟人脸数据a与合成语音b进行合并,得到虚拟人物c,其中,虚拟人脸数据a与合成语音b之间需要进行对齐处理,也就是说,需要使得虚拟人物c说话的脸型(即虚拟人脸数据a)与合成语音b相匹配。
为了保证虚拟人脸数据a与合成语音b之间的匹配度,需要利用语音和人脸的对应关系模型来建立语音和人脸的对应关系。
在一种可选的实施方式中,如图2所示,图2为本发明实施例提供的一种对应关系模型工作过程的示意图,该示意图包括:虚拟人脸数据a、合成语音b、虚拟人物c和对应关系模型21。
具体的,可以将合成语音b输入对应关系模型21中,然后,对应关系模型21可以基于语音数据和虚拟人脸数据的对应关系,确定合成语音b对应的虚拟人脸数据a。
在实际应用中,一段语音数据(例如合成语音b)可以视为由多个音素按照顺序组成的音素序列,音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。也就是说,上述对应关系模型21确定的是语音数据中的音素和虚拟人脸数据的对应关系。
当对应关系模型21根据合成语音b确定虚拟人脸数据a之后,本发明实施例可以进一步将虚拟人脸数据a与合成语音b进行合并,得到虚拟人物c(也即图1所示的过程)。
在图2所示的过程中,若想使得虚拟人物c说话的脸型与合成语音b相匹配,则需要提高对应关系模型的精度。
如果想要保证对应关系模型的精度,就必须使用大量的语音和人脸的训练样本来训练对应关系模型,然而,相关技术中可以获取的训练样本数量有限,不足以保证对应关系模型的精度,因此,如何保证对应关系模型的精度是一个亟需解决的问题。
为了解决上述问题,本发明实施例提供一种数据处理方法,该方法可以应用于电子设备,其中,电子设备可以是终端设备或者服务器,终端设备可以是智能手机、平板电脑或者个人计算机(Personal Computer,PC)等,服务器可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
具体的,如图3所示,该数据处理方法可以包括如下步骤:
在步骤31,获取目标视频。
其中,目标视频包括目标人脸画面和目标语音,在相关技术中,由于对应关系模型的训练样本需要预先建立人脸数据和声音数据的对应关系,所以可以直接获取并应用的训练样本数量有限,不足以保证对应关系模型的精度。在本发明实施例中,可以通过识别一段视频(即目标视频)中的数据,并建立目标视频中目标人脸画面和目标语音的对应关系,以获取更多的训练样本数量。
在步骤32,根据预先训练的语音识别模型,确定目标语音的声学概率分布。
其中,声学概率分布用于表征目标语音中各音素对应的发音概率分布。
也就是说,通过预先训练的语音识别模型,本发明实施例可以确定目标语音中各音素发音概率的分布,进而可以确定在目标视频中,每个视频帧的画面(视频帧包含有目标人脸画面)所对应的发音。
在步骤33,根据声学概率分布训练对应关系模型。
其中,对应关系模型用于建立虚拟人脸和通用语音数据的对应关系。
在本发明实施例中,虽然目标视频无法直接应用至对应关系模型的训练,但是,通过预先训练的语音识别模型,可以确定目标视频中目标语音的声学概率分布,进而可以基于该声学概率分布确定目标语音和目标人脸画面之间的对应关系,进而训练对应关系模型,也就是说,通过本发明实施例可以从目标视频中获取相互对应的人脸数据和语音数据,即可以从目标视频中获取训练样本,提高了对应关系模型的训练样本数量,进而可以提高对应关系模型的精度。
更进一步的,为了更清楚的进行解释说明,本发明实施例提供一种目标视频中目标语音的示意图,如图4所示,该示意图包括:目标语音A和目标语音A中的各个音频帧(1-n)。
在本发明实施例中,目标语音A可以是包含有语言信息的一段语音,该语言信息可以是一段话、一句短语或者一个词等等。
其中,每一个发音包含至少一个音素,例如,“普通话”三个字包含了8个音素,具体为“p,u,t,o,ng,h,u,a”,也即“普”字包含2个音素(p,u),“通”字包含3个音素(t,o,ng),“话”字包含3个音素(h,u,a)。每一个音素包含至少一个状态,其中,状态可以用于表征一种对声音的划分粒度,具体的,状态的划分粒度小于音素且大于音频帧。每一个状态包含至少一个音频帧。
具体的,如图4所示,目标语音A中的音频帧1-9用于表征音素“ng”,音素“ng”包括3个状态(S1、S2和S3),其中,S1包含音频帧1、2和3,S2包含音频帧4和5,S3包含音频帧6、7、8和9。
结合图4所示的内容,对分帧之后的目标语音进行语音识别的过程可以执行为:确定每个音频帧所属的状态,确定状态所组成的音素,以及确定音素所组成的字或单词。
也就是说,在图4所示的内容中,音频帧与状态是强相关的,当确定各音频帧所属的状态时,即确定了语音识别的结果。
基于上述图4所述的帧、状态和音素的对应关系,本发明实施例可以通过隐马尔可夫模型(Hidden Markov Model,HMM)构建语音识别模型,其中,HMM可以用于解决基于状态序列的问题,并输出最大似然估计的识别结果,也就是说,基于HMM构建的语音识别模型可以适用于本发明实施例中的语音识别。
在一种可选的实施方式中,语音识别模型可以是基于高斯混合模型+隐马尔可夫模型(Gaussian Mixture Model+Hidden Markov Model,GMM-HMM)构建的语音识别模型。其中,GMM主要用于确定每个音频帧所属的状态,HMM主要用于确定状态所组成的音素;以及确定音素所组成的字或单词。
在另一种可选的实施方式中,语音识别模型也可以是基于深度神经网络+隐马尔可夫模型(Deep Neural Networks+Hidden Markov Model,DNN-HMM)构建的语音识别模型。其中,其中,DNN主要用于确定每个音频帧所属的状态,HMM主要用于确定状态所组成的音素;以及确定音素所组成的字或单词。
结合图4所示的内容,在本发明实施例中,语音识别模型可以基于隐马尔可夫模型构建,进而,如图5所示,语音识别模型可以基于如下步骤训练:
在步骤51,基于第一训练集训练基础模型,以确定第一模型。
其中,第一训练集包括从至少一个采集对象处采集获取的语音样本。例如,通过采集多个人的语音获取本实施例的语音样本。
具体的,步骤51具体可以执行为:对各语音样本进行特征提取,确定各语音样本的语音特征,以及基于各语音特征和各语音样本对应的文本,训练基础模型,直至基础模型的模型参数收敛,以确定第一模型。
在本发明实施例中,为了扩充对应关系模型的训练样本数量,需要对目标视频中的目标语音进行准确识别,因此,在步骤51中,可以基于多个语音样本以及各语音样本对应的文本(也就是各语音样本对应的文本标注)对基础模型进行训练,直至基础模型的模型参数收敛,进而确定第一模型,该训练后的第一模型可以准确识别语音数据。
在步骤52,基于第二训练集训练第一模型,以确定语音识别模型。
其中,第二训练集包括从特定采集对象处采集获取的语音样本,该特定采集对象也即目标视频的采集对象。
在本发明实施例中,由于第一模型是基于不特定的语音样本训练得到的模型,因此,第一模型具有较好的适用性。然而在本发明实施例中,目标视频中的目标语音通常是一个特定人(特定目标)的语音,因此,可以通过第二训练集对第一模型进行加训,进而得到语音识别模型,由于第二训练集包括特定采集对象的语音样本,所以可以使得训练后的语音识别模型可以更准确的识别该特定采集对象的语音。
在预先训练的语音识别模型确定目标语音的声学概率分布之后,可以基于该声学概率分布训练对应关系模型,具体的,步骤33可以执行为:确定目标人脸画面对应的目标人脸数据,根据声学概率分布中的时间戳信息,建立目标人脸数据和目标语音之间的对应关系,以及根据目标人脸数据和目标语音之间的对应关系训练对应关系模型。
其中,在训练的过程中,目标人脸数据可以作为目标语音的标注。
如图6所示,图6为本发明实施例提供一种目标人脸数据和目标语音之间对应关系的示意图,该示意图包括:时间轴t、音频帧1-11和目标人脸数据61-63。
其中,时间轴包括4个时刻:t1、t2、t3和t4,音频帧1-4对应音素“h”和目标人脸数据61,且音频帧1-4的时间戳处于时刻t1-t2之间,音频帧5-7对应音素“u”和目标人脸数据62,且音频帧5-7的时间戳处于时刻t2-t3之间,音频帧8-11对应音素“a”和目标人脸数据63,且音频帧8-11的时间戳处于时刻t3-t4之间。
结合图6所示的示意图,在一种可选的实施方式中,可以基于各音频帧的时间戳信息,建立音频帧和目标人脸数据的对应关系,进而基于该对应关系训练对应关系模型,即将目标人脸数据作为音频帧的训练标注训练对应关系模型。
在另一种可选的实施方式中,可以基于各音素的时间戳信息,建立音素和目标人脸数据的对应关系,进而基于该对应关系训练对应关系模型。
另外,也可以基于状态对应的时间戳信息,建立状态和目标人脸数据的对应关系,进而基于该对应关系训练对应关系模型,本发明实施例对此不做赘述。
当对应关系模型训练完成后,可以基于训练好的对应关系模型合成虚拟人像视频,其中,虚拟人像视频中包括虚拟人物。
具体的,如图7所示,合成虚拟人像视频的过程可以包括如下步骤:
在步骤71,获取待使用语音。
其中,待使用语音可以是机器合成的语音,也可以是预先录制的语音,当然,也可以是基于其他适用的方式获取的语音,本发明实施例对此不做限定。
在一种可选的实施方式中,待使用语音可以是机器合成语音,具体的,待使用语音可以通过如下步骤确定:
获取输入文本,确定输入文本中至少一个字的发音向量,发音向量至少包括对应字的韵律信息,确定各发音向量对应的发音时长以及发音音调,发音时长用于表征发音的持续时长,发音音调用于表征发音的音高,以及基于发音向量、发音时长以及发音音调,合成输入文本对应的待使用语音。
其中,发音向量可以用于表征输入文本中至少一个字的嵌入(embedding),韵律信息可以用于表征对应字之后的停顿时长。
通过本发明实施例,可以基于发音向量中的韵律信息以及发音向量对应的发音时长,使得待使用语音可以具有停顿、延长音等人类常用的说话形式,也即使得待使用语音可以与人声具有较高的相似度,进而使得虚拟人像视频中的虚拟人物更加生动。
更进一步的,发音音调可以为方言音调,方言音调用于表征方言发音的音高,在本发明实施例中,若发音音调为方言音调,则可以为待使用语音附加方言独有的音高(也即方言独有的发音方式),使得待使用语音更加贴近人类的说话方式,进而使得虚拟人像视频中的虚拟人物更加生动。
在步骤72,将待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据。
在本发明实施例中,因为可以基于扩充的训练数据对对应关系模型进行充分训练,因此,训练后的对应关系模型可以建立语音数据和人脸数据之间准确的对应关系,也就是说,通过预先训练的对应关系模型,可以准确的确定语音数据对应的人脸数据。
在步骤73,根据待使用人脸数据确定虚拟人脸模型。
在一种优选的实施方式中,虚拟人脸模型可以是预先建立的三维数字模型,待使用人脸数据可以是用于指定该三维数字模型的脸型的数据,当预先训练的对应关系模型输出待使用人脸数据后,可以根据该待使用人脸数据确定对应脸型的虚拟人脸模型。
在步骤74,将虚拟人脸模型和待使用语音进行合成,确定虚拟人像视频。
其中,预先训练的对应关系模型至少基于目标视频中的目标人脸画面和目标语音的对应关系训练,目标人脸画面和目标语音的对应关系至少基于预先训练的语音识别模型确定。
在本发明实施例中,通过从目标视频中获取训练样本的方式,提高了对应关系模型的训练样本数量,进而提高了对应关系模型的精度,当对应关系模型的精度得到提升后,待使用语音和基于对应关系模型确定的待使用人脸数据之间具有良好的匹配度,进而可以使得虚拟人像视频中的虚拟人物更加生动。
基于相同的技术构思,本发明实施例还提供了一种数据处理装置,如图8所示,该装置包括:第一获取模块81、第一确定模块82和训练模块83。
第一获取模块81,用于获取目标视频,目标视频包括目标人脸画面和目标语音。
第一确定模块82,用于根据预先训练的语音识别模型,确定目标语音的声学概率分布,声学概率分布用于表征目标语音中各音素对应的发音概率分布。
训练模块83,用于根据声学概率分布训练对应关系模型,对应关系模型用于建立虚拟人脸和通用语音数据的对应关系。
可选的,语音识别模型基于如下模块训练:
第一模型模块,用于基于第一训练集训练基础模型,以确定第一模型,第一训练集包括从至少一个采集对象处采集获取的语音样本。
语音识别模型模块,用于基于第二训练集训练第一模型,以确定语音识别模型,第二训练集包括从特定采集对象处采集获取的语音样本,特定采集对象为目标视频的采集对象。
可选的,第一训练集包括多个语音波形样本以及各语音波形样本对应的标注。
第一模型模块,具体用于:
对各语音样本进行特征提取,确定各语音样本的语音特征。
基于各语音特征和各语音样本对应的文本,训练基础模型,直至基础模型的模型参数收敛,以确定第一模型。
可选的,训练模块83,具体用于:
确定目标人脸画面对应的目标人脸数据。
根据声学概率分布中的时间戳信息,建立目标人脸数据和目标语音之间的对应关系。
根据所述目标人脸数据和所述目标语音之间的对应关系训练对应关系模型。
可选的,如图9所示,该装置还包括:
第二获取模块91,用于获取待使用语音。
对应关系模块92,用于将待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据。
第二确定模块93,用于根据待使用人脸数据确定虚拟人脸模型。
合成模块94,用于将虚拟人脸模型和待使用语音进行合成,确定虚拟人像视频。
可选的,待使用语音通过如下模块确定:
输入文本模块,用于获取输入文本。
发音向量模块,用于确定输入文本中至少一个字的发音向量,发音向量至少包括对应字的韵律信息。
发音时长/发音音调模块,用于确定各发音向量对应的发音时长以及发音音调,发音时长用于表征发音的持续时长,发音音调用于表征发音的音高。
待使用语音模块,用于基于发音向量、发音时长以及发音音调,合成输入文本对应的待使用语音。
可选的,发音音调为方言音调,方言音调用于表征方言发音的音高。
可选的,语音识别模型基于隐马尔可夫模型构建。
在本发明实施例中,虽然目标视频无法直接应用至对应关系模型的训练,但是,通过预先训练的语音识别模型,可以确定目标视频中目标语音的声学概率分布,进而可以基于该声学概率分布确定目标语音和目标人脸画面之间的对应关系,进而训练对应关系模型,也就是说,通过本发明实施例可以从目标视频中获取相互对应的人脸数据和语音数据,即可以从目标视频中获取训练样本,提高了对应关系模型的训练样本数量,进而可以提高对应关系模型的精度。
基于相同的技术构思,本发明实施例还提供了一种数据处理装置,如图9所示,该装置包括:第二获取模块91、对应关系模块92、第二确定模块93和合成模块94。
第二获取模块91,用于获取待使用语音。
对应关系模块92,用于将待使用语音输入预先训练的对应关系模型,以获取预先训练的对应关系模型输出的待使用人脸数据。
第二确定模块93,用于根据待使用人脸数据确定虚拟人脸模型。
合成模块94,用于将虚拟人脸模型和待使用语音进行合成,确定虚拟人像视频;其中,预先训练的对应关系模型至少基于目标视频中的目标人脸画面和目标语音的对应关系训练,目标人脸画面和目标语音的对应关系至少基于预先训练的语音识别模型确定。
可选的,语音识别模型基于如下步骤确定:
第一模型模块,基于第一训练集训练基础模型,以确定第一模型,第一训练集包括从至少一个采集对象处采集获取的语音样本。
语音识别模型模块,用于基于第二训练集训练第一模型,以确定语音识别模型,第二训练集包括从特定采集对象处采集获取的语音样本,特定采集对象和目标视频的采集对象相同。
可选的,第一训练集包括多个语音样本以及各语音样本对应的文本;
第一模型模块,具体用于:
对各语音样本进行特征提取,确定各语音样本的语音特征。
基于各语音特征和各语音样本对应的文本,训练基础模型,直至基础模型的模型参数收敛,以确定第一模型。
可选的,语音识别模型基于隐马尔可夫模型构建。
在本发明实施例中,通过从目标视频中获取训练样本的方式,提高了对应关系模型的训练样本数量,进而提高了对应关系模型的精度,当对应关系模型的精度得到提升后,待使用语音和基于对应关系模型确定的待使用人脸数据之间具有良好的匹配度,进而可以使得虚拟人像视频中的虚拟人物更加生动。
图10是本发明实施例的电子设备的示意图。如图10所示,图10所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器101和存储器102。处理器101和存储器102通过总线103连接。存储器102适于存储处理器101可执行的指令或程序。处理器101可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器101通过执行存储器102所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线103将上述多个组件连接在一起,同时将上述组件连接到显示控制器104和显示装置以及输入/输出(I/O)装置105。输入/输出(I/O)装置105可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置105通过输入/输出(I/O)控制器106与系统相连。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种数据处理方法,其特征在于,所述方法包括:
获取目标视频,所述目标视频包括目标人脸画面和目标语音;
根据预先训练的语音识别模型,确定所述目标语音的声学概率分布,所述声学概率分布用于表征所述目标语音中各音素对应的发音概率分布;以及
根据所述声学概率分布训练对应关系模型,所述对应关系模型用于建立虚拟人脸和通用语音数据的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述语音识别模型基于如下步骤训练:
基于第一训练集训练基础模型,以确定第一模型,所述第一训练集包括从至少一个采集对象处采集获取的语音样本;以及
基于第二训练集训练所述第一模型,以确定所述语音识别模型,所述第二训练集包括从特定采集对象处采集获取的语音样本,所述特定采集对象为所述目标视频的采集对象。
3.根据权利要求2所述的方法,其特征在于,所述第一训练集包括多个语音样本以及各所述语音样本对应的文本;
所述基于第一训练集训练基础模型,以确定第一模型,包括:
对各所述语音样本进行特征提取,确定各所述语音样本的语音特征;以及
基于各所述语音特征和各所述语音样本对应的文本,训练基础模型,直至所述基础模型的模型参数收敛,以确定第一模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述声学概率分布训练对应关系模型,包括:
确定所述目标人脸画面对应的目标人脸数据;
根据所述声学概率分布中的时间戳信息,建立所述目标人脸数据和所述目标语音之间的对应关系;以及
根据所述目标人脸数据和所述目标语音之间的对应关系训练对应关系模型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取待使用语音;
将所述待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据;
根据所述待使用人脸数据确定虚拟人脸模型;以及
将所述虚拟人脸模型和所述待使用语音进行合成,确定虚拟人像视频。
6.根据权利要求5所述的方法,其特征在于,所述待使用语音通过如下步骤确定:
获取输入文本;
确定所述输入文本中至少一个字的发音向量,所述发音向量至少包括对应字的韵律信息;
确定各所述发音向量对应的发音时长以及发音音调,所述发音时长用于表征发音的持续时长,所述发音音调用于表征发音的音高;以及
基于所述发音向量、所述发音时长以及所述发音音调,合成所述输入文本对应的待使用语音。
7.根据权利要求6所述的方法,其特征在于,所述发音音调为方言音调,所述方言音调用于表征方言发音的音高。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述语音识别模型基于隐马尔可夫模型构建。
9.一种数据处理方法,其特征在于,所述方法包括:
获取待使用语音;
将所述待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据;
根据所述待使用人脸数据确定虚拟人脸模型;以及
将所述虚拟人脸模型和所述待使用语音进行合成,确定虚拟人像视频;其中,所述对应关系模型至少基于目标视频中的目标人脸画面和目标语音的对应关系训练,所述目标人脸画面和所述目标语音的对应关系至少基于预先训练的语音识别模型确定。
10.根据权利要求9所述的方法,其特征在于,所述语音识别模型基于如下步骤确定:
基于第一训练集训练基础模型,以确定第一模型,所述第一训练集包括从至少一个采集对象处采集获取的语音样本;以及
基于第二训练集训练所述第一模型,以确定所述语音识别模型,所述第二训练集包括从特定采集对象处采集获取的语音样本,所述特定采集对象为所述目标视频的采集对象。
11.根据权利要求10所述的方法,其特征在于,所述第一训练集包括多个语音样本以及各所述语音样本对应的文本;
所述基于第一训练集训练基础模型,以确定第一模型,包括:
对各所述语音样本进行特征提取,确定各所述语音样本的语音特征;以及
基于各所述语音特征和各所述语音样本对应的文本,训练基础模型,直至所述基础模型的模型参数收敛,以确定第一模型。
12.根据权利要求9-11任一项所述的方法,其特征在于,所述语音识别模型基于隐马尔可夫模型构建。
13.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标视频,所述目标视频包括目标人脸画面和目标语音;
第一确定模块,用于根据预先训练的语音识别模型,确定所述目标语音的声学概率分布,所述声学概率分布用于表征所述目标语音中各音素对应的发音概率分布;以及
训练模块,用于根据所述声学概率分布训练对应关系模型,所述对应关系模型用于建立虚拟人脸和通用语音数据的对应关系。
14.一种数据处理装置,其特征在于,所述装置包括:
第二获取模块,用于获取待使用语音;
对应关系模块,用于将所述待使用语音输入预先训练的对应关系模型进行处理,以获取待使用人脸数据;
第二确定模块,用于根据所述待使用人脸数据确定虚拟人脸模型;以及
合成模块,用于将所述虚拟人脸模型和所述待使用语音进行合成,确定虚拟人像视频;其中,所述对应关系模型至少基于目标视频中的目标人脸画面和目标语音的对应关系训练,所述目标人脸画面和所述目标语音的对应关系至少基于预先训练的语音识别模型确定。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-12中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。
CN202011611430.9A 2020-12-30 2020-12-30 数据处理方法、装置、电子设备和可读存储介质 Pending CN112634861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011611430.9A CN112634861A (zh) 2020-12-30 2020-12-30 数据处理方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011611430.9A CN112634861A (zh) 2020-12-30 2020-12-30 数据处理方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN112634861A true CN112634861A (zh) 2021-04-09

Family

ID=75286677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011611430.9A Pending CN112634861A (zh) 2020-12-30 2020-12-30 数据处理方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112634861A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539240A (zh) * 2021-07-19 2021-10-22 北京沃东天骏信息技术有限公司 动画生成方法、装置、电子设备和存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697514A (zh) * 2009-10-22 2010-04-21 中兴通讯股份有限公司 一种身份验证的方法及系统
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110874557A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
CN111369967A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备
US20200306640A1 (en) * 2019-03-27 2020-10-01 Electronic Arts Inc. Virtual character generation from image or video data
CN111785256A (zh) * 2020-06-28 2020-10-16 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN111933110A (zh) * 2020-08-12 2020-11-13 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备
CN112001992A (zh) * 2020-07-02 2020-11-27 超维视界(北京)传媒科技有限公司 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101697514A (zh) * 2009-10-22 2010-04-21 中兴通讯股份有限公司 一种身份验证的方法及系统
CN103218842A (zh) * 2013-03-12 2013-07-24 西南交通大学 一种语音同步驱动三维人脸口型与面部姿势动画的方法
CN106653052A (zh) * 2016-12-29 2017-05-10 Tcl集团股份有限公司 虚拟人脸动画的生成方法及装置
CN110874557A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
US20200306640A1 (en) * 2019-03-27 2020-10-01 Electronic Arts Inc. Virtual character generation from image or video data
CN111369967A (zh) * 2020-03-11 2020-07-03 北京字节跳动网络技术有限公司 基于虚拟人物的语音合成方法、装置、介质及设备
CN111785256A (zh) * 2020-06-28 2020-10-16 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN112001992A (zh) * 2020-07-02 2020-11-27 超维视界(北京)传媒科技有限公司 基于深度学习的语音驱动3d虚拟人表情音画同步方法及系统
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN111933110A (zh) * 2020-08-12 2020-11-13 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539240A (zh) * 2021-07-19 2021-10-22 北京沃东天骏信息技术有限公司 动画生成方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108763190B (zh) 基于语音的口型动画合成装置、方法及可读存储介质
CN107369440B (zh) 一种针对短语音的说话人识别模型的训练方法及装置
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
CN107972028B (zh) 人机交互方法、装置及电子设备
CN111260761B (zh) 一种生成动画人物口型的方法及装置
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN113538636B (zh) 一种虚拟对象的控制方法、装置、电子设备及介质
CN112599113A (zh) 方言语音合成方法、装置、电子设备和可读存储介质
CN114121006A (zh) 虚拟角色的形象输出方法、装置、设备以及存储介质
KR102528019B1 (ko) 인공지능 기술에 기반한 음성 합성 시스템
CN113112575B (zh) 一种口型生成方法、装置、计算机设备及存储介质
CN117275485B (zh) 一种音视频的生成方法、装置、设备及存储介质
CN112634861A (zh) 数据处理方法、装置、电子设备和可读存储介质
CN113593522A (zh) 一种语音数据标注方法和装置
CN111599339A (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
CN112735379A (zh) 语音合成方法、装置、电子设备和可读存储介质
Um et al. Facetron: A Multi-Speaker Face-to-Speech Model Based on Cross-Modal Latent Representations
CN112233648A (zh) 结合rpa及ai的数据的处理方法、装置、设备及存储介质
CN116580721B (zh) 表情动画的生成方法、装置和数字人平台
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
KR102418465B1 (ko) 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR102532253B1 (ko) 스펙트로그램에 대응하는 어텐션 얼라인먼트의 디코더 스코어를 연산하는 방법 및 음성 합성 시스템
KR102503066B1 (ko) 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination