CN106653052A

CN106653052A - 虚拟人脸动画的生成方法及装置

Info

Publication number: CN106653052A
Application number: CN201611248090.1A
Authority: CN
Inventors: 李松南
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10
Anticipated expiration: 2036-12-29
Also published as: CN106653052B

Abstract

本发明适用于人工智能技术领域，提供了一种虚拟人脸动画的生成方法及装置，包括：将输入文本转化为语音信号；根据语音信号中静音帧的出现位置，对输入文本进行分句处理，得到多个短句；对于每个短句，生成虚拟人脸动画中的一个头部摆动动作；将每个短句映射成至少一个唇形；将每个短句对应的头部摆动动作与唇形融合，以生成每个短句对应的虚拟人脸动画。本发明基于文本与语音结合的方式来生成虚拟人脸动画，通过生成头部摆动动作以及唇形，并将二者融合，为用户提供了更接近现实的视觉感受，避免得到的虚拟人脸动画仅包含唇形信息，提高了虚拟人脸动画的真实性，且无需依赖昂贵、复杂的设备来实现，降低了成本，扩大了虚拟人脸动画的应用范围。

Description

虚拟人脸动画的生成方法及装置

技术领域

本发明属于人工智能技术领域，尤其涉及一种虚拟人脸动画的生成方法及装置。

背景技术

随着人工智能技术的进步，虚拟个人助手如Apple Siri、Google Assistant、以及Microsoft Cortana等已逐步参与到人们的生活中。目前大多数的虚拟个人助手都只能单纯地使用语音与用户交流，而没有一个具体的视觉动画形象，因此，与真实世界中人与人之间的交流依然存在一定的区别。对于电视机、个人电脑、手机等可提供音视频输出的设备而言，创建一个看得见且听得着的虚拟个人助手将是人工智能技术发展的一个重要趋势。

现有的虚拟人脸动画主要基于语音识别技术或基于真实表演者模拟的方式来生成。基于语音识别技术的虚拟人脸动画生成方法大多只能生成与语音同步的嘴唇运动，真实度较低；基于真实表演者模拟的方式来生成的虚拟人脸动画，其需要真实表演者的介入，并且还需要提供昂贵、复杂的动作捕捉设备方可实现，因此，此种虚拟人脸动画的生成方法成本过高，从而导致其应用范围过于狭窄，难以推广使用。

综上，现有的虚拟人脸动画的生成方法存在真实度较低、成本过高以及应用范围过于狭窄的问题。

发明内容

本发明实施例提供一种虚拟人脸动画的生成方法及装置，旨在解决目前虚拟人脸动画的真实度较低、成本过高以及应用范围过于狭窄的问题。

本发明实施例是这样实现的，一种虚拟人脸动画的生成方法，包括：

将输入文本转化为语音信号；

根据所述语音信号中静音帧的出现位置，对所述输入文本进行分句处理，得到多个短句；

对于每个所述短句，生成虚拟人脸动画中的一个头部摆动动作；

将每个所述短句映射成至少一个唇形；

将每个所述短句对应的所述头部摆动动作与所述唇形融合，以生成每个所述短句对应的虚拟人脸动画。

本发明实施例的另一目的在于提供一种虚拟人脸动画的生成装置，包括：

第一获取单元，用于将输入文本转化为语音信号；

分句单元，用于根据所述语音信号中静音帧的出现位置，对所述输入文本进行分句处理，得到多个短句；

生成单元，用于对于每个所述短句，生成虚拟人脸动画中的一个头部摆动动作；

映射单元，用于将每个所述短句映射成至少一个唇形；

融合单元，用于将每个所述短句对应的所述头部摆动动作与所述唇形融合，以生成每个所述短句对应的虚拟人脸动画。

本发明实施例基于文本与语音结合的方式来生成虚拟人脸动画，根据输入文本中的每个短句，生成头部摆动动作以及唇形，为用户提供了更接近现实的视觉感官效果，避免了最后得到的虚拟人脸动画仅包含唇形信息，提高了虚拟人脸动画的真实性。此外，本发明实施例提供的虚拟人脸动画的生成方法无需依赖昂贵、复杂的设备来实现，从而降低了成本，扩大了虚拟人脸动画的应用范围，促进了人工智能技术的发展。

附图说明

图1是本发明实施例提供的虚拟人脸动画的生成方法实现流程图；

图2是本发明实施例提供的虚拟人脸动画的生成方法S102的具体实现流程图；

图3是本发明实施例提供的虚拟人脸动画的生成方法S104的具体实现流程图；

图4是本发明另一实施例提供的虚拟人脸动画的生成方法实现流程图；

图5是本发明另一实施例提供的虚拟人脸动画的生成方法S401的具体实现流程图；

图6是经过语音识别模型处理得到的语音帧中各音素的出现概率示意图；

图7是本发明又一实施例提供的虚拟人脸动画的生成方法实现流程图；

图8是本发明实施例提供的虚拟人脸动画的生成装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，虚拟人脸动画可以显示在计算机、笔记本电脑、手机、平板电脑、VR(Virtual Reality)眼镜等终端中。根据终端所提供的虚拟个人助理(VPA)应用，通过自然语言处理和语义分析技术，可以接受用户发出的语音请求，以视频画面中所显示的具体人物来回答问题，并提供智能推荐，就像有一个面对面的“真人”在与使用该VPA应用的用户进行互动。

图1示出了本发明实施例提供的虚拟人脸动画的生成方法实现流程图，详述如下：

在S101中，将输入文本转化为语音信号。

输入文本，是指以书面形式或以文字表达的方式描绘出来的具体数据信息。一个输入文本可以是一个词语、一个句子、一个段落或者一个篇章。

本实施例中，输入文本为VPA应用在后台数据库或存储器中所存储的任一训练文本。VPA应用接收到用户发出的交互信息时，能够从预存储的多个训练文本中搜索出对应的应答信息，并执行返回，则预存储的的应答信息即为输入文本。

除了VPA应用所对应的输入文本外，本实施例中的输入文本还可以是任意环境下的文本，例如书本中的一个段落。

得到每个输入文本后，将基于书面形式的输入文本转化为基于音频形式的语音信息。该语音信息为人造语音，通过机械的、电子的方法而产生。

将输入文本输入文-语转换软件工具中，可直接输出上述输入文本对应的语音信号，实现了文字到语音的转换功能。该软件工具例如可以是百度语音、狸窝软件、TextAloud、语音合成助手等。

在S102中，根据所述语音信号中静音帧的出现位置，对所述输入文本进行分句处理，得到多个短句。

在本实施例中，对作为准稳态信号的语音信号进行信号分帧，分帧后得到的每个语音帧为固定长度，如0.1s。

语音帧可分为有效语音帧以及静音帧。静音帧无法与输入文本中的任一字符对应，仅作为一个“空语音”存在。除了静音帧之外的语音帧皆为有效语音帧。

以时长来表示语音信号的长度时，在每个时间点均能够对应获得语音信号中的一个语音帧，则该时间点即为语音帧的出现位置。根据语音信号中每个静音帧的出现位置，对输入文本进行分句处理，从而实现将一个输入文本划分为多个短句，每个短句包含若干个输入文本中的连续字符。

作为本发明的一个实施例，S102具体如下：

在S201中，将所述语音信号分解成多个语音帧，所述多个语音帧包括所述静音帧以及音素帧。

将整段的语音信号切分成长度相同的多个短语音信号，每个短语音信号即为一个语音帧。其中，一个语音帧可能是静音帧，也可能是音素帧。

在S203中，对所述输入文本进行分词处理，并获取每个分词对应的多个所述音素帧。

输入文本可看作一个包含若干字符且各个字符有序排列的字符序列，利用预设的分词算法，对该字符序列切分成一个一个单独的字词。分词处理完成后，将得到输入文本中所包含的多个分词，每个分词由一个或多个上述字符组成。

在输入文本对应的语音信号中，由于每个语音帧都是根据输入文本中字符的音素而自动合成产生的，因此，对于每个分词，能够对应地在该语音信号中匹配到多个音素帧。

在S204中，若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧，则获取所述一个或多个静音帧的总时长。

依照分词在输入文本中出现的先后顺序，对上述输入文本中的每个分词进行排序。排序后，提取连续出现的两个分词，则其为相邻的两个分词，且分别称为第一分词、第二分词。通过S203获得第一分词对应的且连续出现的多个语音帧，称为第一语音帧序列，获得第二分词对应的且连续出现的多个语音帧，称为第二语音帧序列。此时，判断第一语音帧序列与第二语音序列之间是否存在有静音帧。

若第一语音帧序列与第二语音序列之间存在静音帧，则可能是单个静音帧，也可能是多个连续的静音帧，因此，需要获取各个静音帧的总时长，即静音时长。

在S205中，当所述总时长大于第一预设阈值时，将相邻的两个分词分别划分至相邻的两个短句中。

在本实施例中，第一预设阈值为一个时间长度值。通常，一个正常人因朗读文本而发出语音时，在朗读过程中会具有一定的韵律感，具体表现为在不同的字词之间会有短暂停顿，则第一预设阈值描述了正常情况下停顿时长的阈值，并预设在系统中。判断静音时长是否大于该第一预设阈值，若静音时长大于该第一预设阈值，则表示此处应当为人造语音中一小段的停顿时间，因此，以静音帧为分割点，将第一语音帧序列与第二语音帧序列分开，则第一语音帧序列对应的第一分词与第一语音帧序列对应的第二分词也能够相应地被分离。分离后的第一分词与第二分词分别位于连续出现的两个短句中。

其中，任一短句中包含有一个或多个分词，每个分词对应的语音帧序列之间并不存在静音帧，或者静音时长未超过第一预设阈值。

在S206中，若划分得到的任意一个所述短句的字符总数大于第二预设阈值，则令所述第一预设阈值减少一个固定值，并重新对该短句进行分句处理，直至得到的每个短句的所述字符总数不大于所述第二预设阈值。

通过S204和S205对每个相邻的分词进行处理后，可得到第一次分句处理的结果，此时得到输入文本被分割后的多个短句。以任一短句为识别对象，识别该短句中包含有多少个字符，即字符总数。若该短句的字符总数大于第二预设阈值，则表示该短句的长度过长，还能够继续分割为长度更短的短句，因此，令第一预设阈值减少一个预设的固定值，使得静音时长的时长判断标准能够被缩短，并再次对字符总数超过第二预设阈值的该短句执行分句处理，以该短句中的相邻分词为第一分词以及第二分词，重新执行S204至S206。

当得到的短句的字符总数小于或等于第二预设阈值时，则该短句无须重复进行分句处理，直接作为输入文本中的一个短句输出。

本发明实施例利用语音信号中的静音帧来对输入文本进行分句处理，并在得到的任一短句的字符总数不满足预设条件之下，多次重复执行分句，保证了最后输出的每个短句，其对应的语音帧序列在虚拟人脸动画中播放时，能够具备真实场景中的语言韵律感，因此能够提高虚拟人脸动画的真实性。

在S103中，对于每个所述短句，生成虚拟人脸动画中的一个头部摆动动作。

实际环境中，当人在说话时，头部会随着说话的内容而摆动，例如头部转动动作或点头动作，并且，通常头部上下摆动的幅度较大。头部摆动动作的产生时刻与短句之间的韵律感有着极大的关联。为了较准确地模拟头部摆动动作的发生时机，在本实施例中，在每一个短句对应的语音帧序列在虚拟人脸动画中播放时，生成对应的一个头部摆动动作。

以一个短句对应的语音帧序列的长度作为头部摆动的周期，即在该语音帧序列播放期间内，刚好完成一个头部摆动动作。对于点头这个动作，头部分别抬到的最低点位置和最高点位置为点头动作的第一极值点位置和第二极值点位置。为了确定头部在哪个时刻到达这两个极值点位置，在一个头部点头动作对应的短句中，获取该短句中具有强调性质的副词的位置，如“很”、“非常”，或者，获取该短句中出现的首个音节，则该副词或者该音节对应的语音帧序列的播放时刻则为头部抬至第一极值点位置的时刻；获取该短句中出现的最后一个音节或者包含下降音的音节，则该最后一个音节或者包含下降音的音节对应的语音帧序列的播放时刻则为头部抬至第二极值点位置的时刻。

在本实施例中，极值点位置的具体高低基于对真实数据的统计分析获得。另外，除了生成韵律节奏的头部摆动动作外，还可以加入随机产生的眼部活动动作等。这些随机动作的生成频率以及幅度，依然基于对真实数据的统计分析而获得。

在S104中，将每个所述短句映射成至少一个唇形。

本实施例以短句中类型有限的音素作为唇形的判断依据。对于每个短句中的音素，唇形对应的音素并非为单个音素，而是音素的组合。通过采用多个音素对应同一个唇形(多对一)或者多个音素对应多个唇形(多对多)的方式，映射成虚拟人脸动画中的一个或者多个唇形。

作为本发明的一个实施例，图3示出了本发明实施例提供的虚拟人脸动画的生成方法S104的具体实现流程，详述如下：

在S301中，获取所述语音信号中的每个音素以及每个所述音素的声强。

通过Stanford NLP、Boson NLP、LTP、Hanlp等预设算法，调用相应的库程序接口，从而实现为输入文本中的每个短句标注汉语拼音。例如，对于短句“我/热爱/这个/职业/”，则拼音标注结果为“我wo3热re4爱ai4这zhe4个ge5职zhi2业ye4”。根据该拼音标注结果，可以从每个拼音中提取出各个音素。比如，从“wo”中提取出的两个音素为“w”和“o”。

通过分析语音信号中音素帧的强度，可以逐一确定出语音信号中每个音素的声强。例如，若音素“w”对应的音素帧为A、B、C，则A、B、C三个音素帧的平均声强可作为音素“w”的声强。

在S302中，在多个所述音素中，以相邻的至少两个音素为一个音素组合，判断所述音素组合是否满足协同发音条件。

协同发音是指在发音时，若声道中两个不同的部位形成阻碍，则这两个阻碍可能是完全阻塞，也可能是其中一个部位的阻塞程度较轻。产生协同发音现象时，将所有可能遇到的音素组合存储于系统中。

以相邻的两个、三个、或N个音素为一个音素组合，判断该音素组合是否满足协同发音条件，即，判断该音素组合是否与预存储于系统中的任一音素组合相同。

在S303中，若所述单位满足协同发音条件，则将相邻的所述至少两个音素映射成一个唇形。

若待判断的音素组合与预存储于系统中的任一音素组合相同，或者，根据满足协同发音的所有音素组合，训练出唇形识别模型。则当不同的音素组合输入唇形识别模型时，能够自动判断该音素组合是否满足协同发音条件，并将构成该音素组合的各个音素自动映射输出为一个唇形。

在音素组合对应的语音帧序列中，以处于饱满时刻的语音帧为关键帧，并通过音素与唇形的对应关系，可以确定关键帧所对应的唇形。对于非关键帧，需要通过相邻关键帧唇形插值的方法来确定其对应的唇形。唇形插值算法例如可以是数学插值方法(如多项式插值算法)，或使用Cohen-Massaro模型的算法等。

在S304中，将相邻的所述至少两个音素的所述声强映射成所述唇形对应的唇部运动幅度。

通过S301获得音素组合中每个音素的声强平均值，每个唇形产生时将会对应一个唇部开口或闭合的运动动作，则该运动动作的幅度大小与该声强平均值大小成正比。

在S105中，将每个所述短句对应的所述头部摆动动作与所述唇形融合，以生成每个所述短句对应的虚拟人脸动画。

使用不同的骨架设定算法在视频画面中生成唇部与头部后，在每个头部摆动动作的摆动周期内，依次播放该头部摆动动作对应的短句所映射出的一个或多个唇形。从而得到了一个头部加唇部同时运动的虚拟人脸动画的显示效果。

作为本发明的另一个实施例，如图4所示，在S202之前，在S201之后，所述方法还包括：

在S401中，获取每个所述语音帧中各音素的出现概率。

其中，如图5所示，S401具体如下：

在S501中，获取包含多条合成语音的语料库。

在S502中，基于所述语料库中的多条所述合成语音，构建并训练语音识别模型。

在S503中，将每个所述语音帧输入所述语音识别模型，以输出每个所述语音帧中各音素的出现概率。

在本实施例中，利用语音合成算法，预先创建一个包含大量合成语音的语料库，并将该语料库结合开源的语音识别训练平台(如KAIDI)，来训练一个基于语音识别模型的语音识别法，然后再将这个语音识别模型提取出来，用于获取每个所述语音帧中各音素的出现概率。

将语音帧输入预先获得的语音识别模型后，可计算出每个语音帧中所包含的每个音素的概率，即各音素在该语音帧中的出现概率。

如图6所示，各个语音帧经过语音识别模型处理后，呈现出每个语音帧中包含的不同音素。在图5中，语音帧中的数字1、2、3、4、5、6代表不同的音素，每种音素具有一个概率值，代表着语音帧中该音素的出现概率。例如，数字4代表音素“w”，数字“2”代表音素“o”，数字“6”代表静音“sil”。经过语音识别模型的判断处理，语音帧1中包含音素“w”的概率是0.8，语音帧2中包含音素“w”的概率是0.9，语音帧4中包含音素“o”的概率是0.8，语音帧8中包含静音“sil”的概率是0.7。

在S402中，获取所述语音信号对应的音素序列，所述音素序列包含按先后顺序依次排列的多个音素。

由于语音信号是由输入文本转换而来的，因此，语音信号所对应的音素序列可根据输入文本中的拼音标注而获得。拼音标注的过程与上述实施例中S301的具体实施过程相同，得到拼音标注结果后，除了汉字符与数字外，将标注的拼音全部提取出来，依次形成一个语音信号对应的音素序列。

例如，拼音标注结果为“我wo3热re4爱ai4这zhe4个ge5职zhi2业ye4”，则音素序列为“w-o-r-e-a-i-zh-e-g-e-zh-i-y-e”。每个音素在音素序列中的排列顺序与其在输入文本对应的拼音标注中出现的先后次序相同。例如，上述音素序列中，“w”会排在在“o”之后。

在S403中，根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率，在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。

在本实施例中，每一个语音帧仅为一个音素帧或者为一个静音帧，每个音素帧在实际中仅与一个音素对应。根据S402中给定的音素序列，对每个语音帧与音素序列中每个音素的对应关系进行判定。

仍以图6为例，若给定的音素序列为“w-o-…”，由于最先出现的语音帧1、2、3中，音素“w”的出现概率相对较大，且音素序列中最先出现的音素为“w”，因此，语音帧1、2、3均对应音素“w”。在音素序列中，音素“w”之后应当是音素“o”，而语音帧4、5、6、7中音素“o”的出现概率也相对较大，因此确定语音帧4、5、6、7均对应音素“o”，第8帧为静音帧，等等。

若音素序列中“o”后面的音素为“i”，而“o”所对应的音素帧之后的一个语音帧为A，且A中“u”与“i”的出现概率均为“0.5”，则根据音素序列中“o”后面不可能出现“u”，因此，语音帧A也应当确定为与音素“i”对应的音素帧。

确定音素对应的多个音素帧后，依照音素帧的出现顺序，能够确定每个音素在虚拟人脸动画中发音的起始时刻与结束时刻。由于音素在其对应的不同语音帧中的出现概率不同，因此，能够以其出现概率最大的一个语音帧所出现的时刻作为该音素在虚拟人脸动画中发音的饱满时刻，或者，以起始时刻与结束时间的中点时刻作为该音素在虚拟人脸动画中发音的饱满时刻。

对于判定为静音帧的语音帧，能够确定其在虚拟人脸动画中播放的具体起始位置与结束位置，以及每个静音帧的长度。并可根据连续静音帧的长度，获得静音时长。

本发明实施例中，基于合成语音来获得语音识别模型，在训练前无需人工对各个语料进行标注，自动化程度高。根据语音识别模型来获取语音帧中各音素的出现概率，并由此得到每个音素对应的语音帧及在虚拟人脸动画中的发音时间点，从而实现了音素与语音帧的强制对齐，因音素能够映射唇形，因而唇形与语音的同步效果得到了显著提升，提高了虚拟人脸动画的真实性。

作为本发明的又一实施例，如图7所示，上述虚拟人脸动画的生成方法还包括：

在S701中，通过情感分析算法对所述输入文本进行处理，以得到所述输入文本的情感类型。

最常用的7种情感类别，分别为：中性、高兴、悲伤、惊讶、恐惧、气愤、恶心。输入文本的不同分词可表达不同的情感类别，因此，输入文本相应地可映射为其中的若干种情感类型，在虚拟人脸动画的不同发音时刻仅对应一种情感类型。

对多个训练文本中具有情感倾向性质的词语(如“伤心”、“讨厌”等)、标点符号(如惊叹号)、包含强烈情感的副词(如“非常”)进行收集与统计，根据统计结果来训练一个情感分类器。然后利用该情感分类器来对输入文本进行情感分析处理，从而输出其对应的情感类型。其中，情感分类器例如可以是简单的支持向量机(Support Vector Machine，SVM)模型，或者是基于深度学习的情感分析模型，如Bidirectional-LSTM模型等。

在S702中，获取所述情感类型对应的骨架系数，所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态。

对于上述七种情感类型(中性、高兴、悲伤、惊讶、恐惧、气愤、恶心)，可以预先通过手工的方式对虚拟人脸动画中的骨架进行操控，以模拟出七种人脸表情。每种表情产生后，将会生产七组不同的骨架系数，并预存储在系统中。在得到输入文本对应的一个或多个情感类型后，可以直接将上述一个或多个情感类别映射到与其一一对应的预存储的骨架系数中。

在S703中，根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。

得到骨架系数后，可使用不同的骨架设定算法生成人脸表情。其中，骨架设定算法为计算机图形对象中预设的一副骨架，通过操控这幅骨架可以实现对该对象的姿态驱动，生成一系列的图像动作。例如，skeleton、blend shapes的线性组合或者skeleton和肌肉生成算法结合的骨架设定算法等。利用上述骨架设定算法生成虚拟人脸的皮肤，在生成后的虚拟人脸皮肤上，在对应的各个时刻点，获取此时的骨架系数，并驱动虚拟人脸生成表达此刻情感类型的一种人脸表情。

特别地，人脸表情与唇部运动的融合方法取决于两者间的骨架设定算法。如果人脸表情与唇部运动使用相同的骨架设定方法，则将两者对应的骨架系数进行融合；如果人脸表情与唇部运动使用相同不同的骨架设定方法，则先生成仅包含人脸表情的三维虚拟人脸模型以及仅包含唇部运动的三维虚拟人脸模型，然后再将两个模型融合至一起。融合的方法例如可以是，直接对两个三维虚拟人脸模型中每个点的三维空间位置值取平均。人脸表情与唇部运动融合后，再与头部运动直接进行融合。

本发明实施例根据输入文本来驱动一幅虚拟人脸动画，且该虚拟人脸动画能够发声、包含头部运动、人脸表情以及与语音同步的唇部运动，难以受到噪声的干扰，准确度高，因此，提高了虚拟人脸动画的真实程度。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于本发明实施例所提供的虚拟人脸动画的生成方法，图8示出了本发明实施例提供的虚拟人脸动画的生成装置的结构框图。为了便于说明，仅示出了与本实施例相关的部分。

参照图8，该装置包括：

第一获取单元81，用于将输入文本转化为语音信号。

分句单元82，用于根据所述语音信号中静音帧的出现位置，对所述输入文本进行分句处理，得到多个短句。

生成单元83，用于对于每个所述短句，生成虚拟人脸动画中的一个头部摆动动作。

映射单元84，用于将每个所述短句映射成至少一个唇形。

融合单元85，用于将每个所述短句对应的所述头部摆动动作与所述唇形融合，以生成每个所述短句对应的虚拟人脸动画。

可选地，所述分句单元82包括：

分帧子单元，用于将所述语音信号分解成多个语音帧，所述多个语音帧包括所述静音帧以及音素帧。

第一获取子单元，用于对所述输入文本进行分词处理，并获取每个分词对应的多个所述音素帧。

第二获取子单元，用于若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧，则获取所述一个或多个静音帧的总时长。

划分子单元，用于当所述总时长大于第一预设阈值时，将相邻的两个分词分别划分至相邻的两个短句中。

分句子单元，用于若划分得到的任意一个所述短句的字符总数大于第二预设阈值，则令所述第一预设阈值减少一个固定值，并重新对该短句进行分句处理，直至得到的每个短句的所述字符总数不大于所述第二预设阈值。

可选地，所述装置还包括：

第二获取单元，用于获取每个所述语音帧中各音素的出现概率。

第三获取单元，用于获取所述语音信号对应的音素序列，所述音素序列包含按先后顺序依次排列的多个音素。

确定单元，用于根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率，在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。

可选地，所述第二获取单元包括：

第三获取子单元，用于获取包含多条合成语音的语料库。

训练子单元，用于基于所述语料库中的多条所述合成语音，构建并训练语音识别模型。

输出子单元，用于将每个所述语音帧输入所述语音识别模型，以输出每个所述语音帧中各音素的出现概率。

可选地，所述装置还包括：

情感分析单元，用于通过情感分析算法对所述输入文本进行处理，以得到所述输入文本的情感类型。

第四获取单元，用于获取所述情感类型对应的骨架系数，所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态。

渲染单元，用于根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种虚拟人脸动画的生成方法，其特征在于，包括：

将输入文本转化为语音信号；

将每个所述短句映射成至少一个唇形；

2.如权利要求1所述的方法，其特征在于，所述根据所述语音信号中静音帧的出现位置，对所述输入文本进行分句处理，得到多个短句，包括：

将所述语音信号分解成多个语音帧，所述多个语音帧包括所述静音帧以及音素帧；

对所述输入文本进行分词处理，并获取每个分词对应的多个所述音素帧；

若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧，则获取所述一个或多个静音帧的总时长；

当所述总时长大于第一预设阈值时，将相邻的两个分词分别划分至相邻的两个短句中；

若划分得到的任意一个所述短句的字符总数大于第二预设阈值，则令所述第一预设阈值减少一个固定值，并重新对该短句进行分句处理，直至得到的每个短句的所述字符总数不大于所述第二预设阈值。

3.如权利要求2所述的方法，其特征在于，在对所述输入文本进行分词处理，并获取每个分词对应的多个所述音素帧之前，所述方法还包括：

获取每个所述语音帧中各音素的出现概率；

获取所述语音信号对应的音素序列，所述音素序列包含按先后顺序依次排列的多个音素；

根据所述音素序列中各个音素的排列顺序以及所述语音帧中各音素的出现概率，在所述多个语音帧中确定所述静音帧以及确定所述音素序列中各音素分别对应的音素帧。

4.如权利要求3所述的方法，其特征在于，所述获取每个所述语音帧中各音素的出现概率包括：

获取包含多条合成语音的语料库；

基于所述语料库中的多条所述合成语音，构建并训练语音识别模型；

将每个所述语音帧输入所述语音识别模型，以输出每个所述语音帧中各音素的出现概率。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

通过情感分析算法对所述输入文本进行处理，以得到所述输入文本的情感类型；

获取所述情感类型对应的骨架系数，所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态；

根据所述骨架系数为所述虚拟人脸动画渲染人脸表情。

6.一种虚拟人脸动画的生成装置，其特征在于，包括：

第一获取单元，用于将输入文本转化为语音信号；

映射单元，用于将每个所述短句映射成至少一个唇形；

7.如权利要求6所述的装置，其特征在于，所述分句单元包括：

分帧子单元，用于将所述语音信号分解成多个语音帧，所述多个语音帧包括所述静音帧以及音素帧；

第一获取子单元，用于对所述输入文本进行分词处理，并获取每个分词对应的多个所述音素帧；

第二获取子单元，用于若相邻的两个分词分别对应的多个所述音素帧之间存在一个或多个静音帧，则获取所述一个或多个静音帧的总时长；

划分子单元，用于当所述总时长大于第一预设阈值时，将相邻的两个分词分别划分至相邻的两个短句中；

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

第二获取单元，用于获取每个所述语音帧中各音素的出现概率；

第三获取单元，用于获取所述语音信号对应的音素序列，所述音素序列包含按先后顺序依次排列的多个音素；

9.如权利要求8所述的装置，其特征在于，所述第二获取单元包括：

第三获取子单元，用于获取包含多条合成语音的语料库；

训练子单元，用于基于所述语料库中的多条所述合成语音，构建并训练语音识别模型；

10.如权利要求6所述的装置，其特征在于，所述装置还包括：

情感分析单元，用于通过情感分析算法对所述输入文本进行处理，以得到所述输入文本的情感类型；

第四获取单元，用于获取所述情感类型对应的骨架系数，所述骨架系数表示虚拟人脸动画中预存储的一种表情姿态；