CN108961431A

CN108961431A - 人物表情的生成方法、装置及终端设备

Info

Publication number: CN108961431A
Application number: CN201810719463.1A
Authority: CN
Inventors: 乔慧; 李伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-12-07

Abstract

本发明实施例提供一种人物表情的生成方法、装置及终端设备，该方法用于虚拟现实和/或增强现实，该方法包括：采集用户输入的表达信息；其中，用户输入的表达信息中包括与人物有关的关键词和关键词对应的对象模型输出的表达信息；并从表达信息中提取关键词；再在预先存储的对象模型库中获取与关键词对应的对象模型；并根据对象模型输出的表达信息，获取对象模型的嘴型变化信息；再根据对象模型以及对象模型的嘴型变化信息，得到对象模型的表情信息。本发明实施例提供的人物表情的生成方法、装置及终端设备，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

Description

人物表情的生成方法、装置及终端设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种人物表情的生成方法、装置及终端设备。

背景技术

随着虚拟现实技术和/或增强现实的不断发展，用于共享应用的三维模型越来越多，通过这些共享应用的三维模型构建三维场景，该三维场景已经广泛应用于很多领域，可以在很大程度上为用户提供更直观的视觉享受，提高用户的体验。

以三维场景应用于动画片领域为例，现有技术中，在播放动画片之前，专业人员需要先获取场景中各对象的三维模型，再通过人工手动的方式将这些对象的三维模型进行组合，从而生成对应的动画片场景。当动画片场景中的人物模型讲话时，无论该人物模型讲什么内容，该人物模型的嘴型都只是简单的一闭一合，使得三维场景中的人物表情单一，生动性和真实性较差。

发明内容

本发明提供一种人物表情的生成方法、装置及终端设备，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

第一方面，本发明实施例提供一种人物表情的生成方法，所述方法用于虚拟现实和/或增强现实，所述方法包括：

采集用户输入的表达信息；其中，所述用户输入的表达信息中包括与人物有关的关键词和所述关键词对应的对象模型输出的表达信息；

从所述表达信息中提取所述关键词；

在预先存储的对象模型库中获取与所述关键词对应的对象模型；

根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息；

根据所述对象模型以及所述对象模型的嘴型变化信息，得到所述对象模型的表情信息。

在一种可能的实现方式中，所述根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息，包括：

将用户输入的表达信息输入至预先训练得到的网络模型中，得到所述表达信息中每一个字的嘴型信息；

根据所述对象模型输出的表达信息及所述表达信息中每一个字的嘴型信息，确定所述对象模型的嘴型变化信息。

从所述表达信息中提取所述对象模型输出的表达信息；

将所述对象模型输出的表达信息输入至预先训练得到的网络模型中，得到所述对象模型输出的表达信息中每一个字的嘴型信息；

根据所述对象模型输出的表达信息中每一个字的嘴型信息，确定所述对象模型的嘴型变化信息。

在一种可能的实现方式中，所述根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息之前，还包括：

收集多个用户对同一个语句进行表达时的视频流；

将所述视频流作为训练样本进行训练，获得网络模型，其中，所述网络模型用于基于不同的表达信息得到该表达信息中的每一个字对应的嘴型。

在一种可能的实现方式中，所述采集用户输入的表达信息，包括：

采集用户输入的文本信息；

相应的，所述从所述表达信息中提取与人物有关的关键词，包括：

根据语义模型对所述文本信息进行切词处理，得到词组；

在所述词组中提取所述与人物有关的关键词。

采集用户输入的语音信息；

对所述语音信息进行语音识别，得到文本信息；

根据语义模型对所述文本信息进行切词处理，得到词组；

从所述词组中提取与所述人物有关的关键词。

在一种可能的实现方式中，所述在预先存储的对象模型库中获取与所述关键词对应的对象模型之前，还包括：

收集所述与人物有关的关键词，并且收集与所述关键词对应的对象模型；

建立对象模型库，所述对象模型库中包含关键词与对象模型之间的关联关系。

第二方面，本发明实施例还提供一种人物表情的生成装置，所述装置用于虚拟现实和/或增强现实，所述装置包括：

采集单元，用于采集用户输入的表达信息；其中，所述用户输入的表达信息中包括与人物有关的关键词和所述关键词对应的对象模型输出的表达信息；

获取单元，用于从所述表达信息中提取所述关键词；

所述获取单元，还用于在预先存储的对象模型库中获取与所述关键词对应的对象模型；

所述获取单元，还用于根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息；

处理单元，用于根据所述对象模型以及所述对象模型的嘴型变化信息，得到所述对象模型的表情信息。

在一种可能的实现方式中，所述获取单元，具体用于将用户输入的表达信息输入至预先训练得到的网络模型中，得到所述表达信息中每一个字的嘴型信息；并根据所述对象模型输出的表达信息及所述表达信息中每一个字的嘴型信息，确定所述对象模型的嘴型变化信息。

在一种可能的实现方式中，所述获取单元，具体用于从所述表达信息中提取所述对象模型输出的表达信息；并将所述对象模型输出的表达信息输入至预先训练得到的网络模型中，得到所述对象模型输出的表达信息中每一个字的嘴型信息；再根据所述对象模型输出的表达信息中每一个字的嘴型信息，确定所述对象模型的嘴型变化信息。

在一种可能的实现方式中，所述采集单元，还用于收集多个用户对同一个语句进行表达时的视频流；并将所述视频流作为训练样本进行训练，获得网络模型，其中，所述网络模型用于基于不同的表达信息得到该表达信息中的每一个字对应的嘴型。

在一种可能的实现方式中，所述采集单元，具体用于采集用户输入的文本信息；

相应的，所述获取单元，具体用于根据语义模型对所述文本信息进行切词处理，得到词组；并在所述词组中提取所述与人物有关的关键词。

在一种可能的实现方式中，所述采集单元，具体用于采集用户输入的语音信息；

相应的，所述获取单元，具体用于对所述语音信息进行语音识别，得到文本信息；并根据语义模型对所述文本信息进行切词处理，得到词组；再从所述词组中提取与所述人物有关的关键词。

在一种可能的实现方式中，所述人物表情的生成装置还包括建立单元；

所述采集单元，还用于收集所述与人物有关的关键词，并且收集与所述关键词对应的对象模型；

所述建立单元，用于建立对象模型库，所述对象模型库中包含关键词与对象模型之间的关联关系。

第三方面，本发明实施例还提供一种终端设备，该终端设备可以包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行上述第一方面任一项所示的人物表情的生成方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其特征在于，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行上述第一方面任一项所示的人物表情的生成方法。

本发明实施例提供的人物表情的生成方法、装置及终端设备，通过采集用户输入的表达信息；并从表达信息中提取关键词；再在预先存储的对象模型库中获取与关键词对应的对象模型；并根据对象模型输出的表达信息，获取对象模型的嘴型变化信息；之后，再根据对象模型以及对象模型的嘴型变化信息，得到对象模型的表情信息。由此可见，本发明实施例提供的人物表情的生成方法、装置及终端设备，在分别获取到关键词对应的对象模型和对象模型的嘴型变化信息之后，可以直接根据对象模型和对象模型的嘴型变化信息得到对象模型的表情信息，与现有技术中通过人工手动对对象模型进行处理并构建三维场景，且人工手动构建的人物模型的嘴型都只是简单的一闭一合相比，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例提供的一种应用场景的示意图；

图2为本发明实施例提供的一种人物表情的生成方法的流程示意图；

图3为本发明实施例提供的另一种人物表情的生成方法的流程示意图；

图4为本发明实施例提供的一种人物表情的生成装置的结构示意图；

图5为本发明实施例提供的另一种人物表情的生成装置的结构示意图；

图6为本发明实施例提供的一种终端设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的三维场景的获取方法可以应用于动画片场景中，示例的，请参见图1所示，图1为本发明实施例提供的一种应用场景的示意图，以某一动画片中某一个穿着裙子的小女孩为例，该小女孩捧着礼物说“我好开心啊，终于买到礼物啦”。现有技术中，动画片中小女孩在说“我好开心啊，终于买到礼物啦”时，其嘴型只是简单的一闭一合，人物表情单一，生动性和真实性较差。为了提高三维场景中人物表情的生动性和真实性，本发明实施例提供了一种人物表情的生成方法，先分别获取与人物有关的关键词对应的对象模型和该对象模型对应的嘴型变化信息，并在获取到与人物有关的关键词对应的对象模型和该对象模型对应的嘴型变化信息之后，直接根据关键词对应的对象模型和该对象模型对应的嘴型变化信息获取该对象模型的表情信息，与现有技术中通过人工手动对对象模型进行处理并构建三维场景，且人工手动构建的人物模型的嘴型都只是简单的一闭一合相比，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

下面以具体的实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例提供的一种人物表情的生成方法的流程示意图，该人物表情的生成方法可以用于虚拟现实和/或增强现实，该人物表情的生成方法可以由人物表情的生成装置执行，该人物表情的生成装置可以独立设置，也可以集成在处理器中。请参见图2所示，该人物表情的生成方法可以包括：

S201、采集用户输入的表达信息。

其中，用户输入的表达信息中包括与人物有关的关键词和关键词对应的对象模型输出的表达信息。

其中，用户输入的表达信息可以通过文本的方式输入，即文本信息；当然，也可以通过语音的方式输入，即语音信息。示例的，当终端设备采集用户输入的文本信息时，可以通过终端设备的屏幕采集用户输入的文本信息；当终端设备采集用户输入的语音信息时，可以通过终端设备的麦克风采集用户输入的语音信息。该表达信息中包括至少一个与人物有关的关键词和关键词对应的对象模型输出的表达信息。

需要说明的是，本发明实施例中的表达信息可以为一句话，也可以为多句话组成的一段话，当然，也可以为多段话组成的一个完整的文本。

S202、从表达信息中提取关键词。

终端设备在通过上述S201采集到用户输入的表达信息之后，就可以提取该表达信息中与人物有关的关键词。示例的，该与人物有关的关键词可以为表示人物的年龄、身高、体重等的词。

S203、在预先存储的对象模型库中获取与关键词对应的对象模型。

其中，关键词对应的对象模型可以为三维模型。

需要说明的是，在获取与关键词对应的对象模型之前，需要预先建立对象模型库，该对象模型库中存储了多个关键词及关键词对应的对象表示模型。对于一个关键词而言，其可以对应一个或多个对象模型。例如，对于关键词“高个子”，其对应的对象模型可以为一个身高较高的男性人物模型，也可以为一个身高较高的女性人物模型。当然，也可以多个关键词对应一个对象模型。获取到的与人物有关的关键词越多，对应的在对象模型库中获取的对象模型的准确度越高。

在通过上述S202在表达信息中提取出与人物有关的关键词之后，就可以在预先建立的对象模型库中查找该关键词对应的对象模型，从而获取到关键词对应的对象模型。

S204、根据对象模型输出的表达信息，获取对象模型的嘴型变化信息。

在本发明实施例中，在获取对象模型的嘴型变化信息时，不是每一句话都简单的对应一闭一合的相同的嘴型变化，而是根据对象模型输出的表达信息确定对象模型的变化信息。当表达信息不同时，对象模型对应的嘴型变化也不同。

S205、根据对象模型以及对象模型的嘴型变化信息，得到对象模型的表情信息。

在通过S203在预先存储的对象模型库中获取与关键词对应的对象模型，及通过S204根据对象模型输出的表达信息，获取对象模型的嘴型变化信息之后，就可以根据该对象模型以及该对象模型的嘴型变化信息，得到对象模型的表情信息，与现有技术中通过人工手动对对象模型进行处理并构建三维场景，且人工手动构建的人物模型的嘴型都只是简单的一闭一合相比，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

本发明实施例提供的人物表情的生成方法，通过采集用户输入的表达信息；并从表达信息中提取关键词；再在预先存储的对象模型库中获取与关键词对应的对象模型；并根据对象模型输出的表达信息，获取对象模型的嘴型变化信息；之后，再根据对象模型以及对象模型的嘴型变化信息，得到对象模型的表情信息。由此可见，本发明实施例提供的人物表情的生成方法，在分别获取到关键词对应的对象模型和对象模型的嘴型变化信息之后，可以直接根据对象模型和对象模型的嘴型变化信息得到对象模型的表情信息，与现有技术中通过人工手动对对象模型进行处理并构建三维场景，且人工手动构建的人物模型的嘴型都只是简单的一闭一合相比，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

为了更清楚地说明本发明实施例提供的人物表情的生成方法，请参见图3所示，图3为本发明实施例提供的另一种人物表情的生成方法的流程示意图，在图3所示的实施例中，以用户输入的表达信息为文本信息为例，该人物表情的生成方法还可以包括：

S301、采集用户输入的文本信息。

其中，用户输入的文本信息中包括与人物有关的关键词和关键词对应的对象模型输出的表达信息。

同样的，本发明实施例中的文本信息可以为一句话，也可以为多句话组成的一段话，当然，也可以为多段话组成的一个完整的文本。并且，该文本信息中包括至少一个与人物有关的关键词和关键词对应的对象模型输出的表达信息。

可选的，终端设备可以通过终端设备的屏幕采集用户输入的文本信息，当然，也可以通过其他方式采集用户输入的文本信息，在此，本发明实施例只是以通过终端设备的屏幕采集用户输入的文本信息为例进行说明，但并不代表本发明实施例仅局限于此。

终端设备在采集到用户输入的文本信息之后，就可以提取该文本信息中的与人物有关的关键词，可选的，在本发明实施例中，提取该文本信息中的与人物有关的关键词可以通过下述S302-S303实现：

S302、根据语义模型对文本信息进行切词处理，得到词组。

在通过上述S301采集到用户输入的文本信息之后，就可以根据语义模型对该文本信息进行切词处理，得到词组。需要说明的是，通过语义模型对文本信息进行切词处理的方法可参见现有技术中已公开的方法，在此，本发明实施例不再进行赘述。

示例的，结合图1所示，终端设备在采集到文本信息“身高为145厘米、体重为40公斤的一个10岁小女孩，穿着小裙子，捧着礼物说“我好开心啊，终于买到礼物啦””之后，可以通过语义模型对该文本信息进行切词处理，得到多个词组，该多个词组至少包括：身高、145厘米、体重、40公斤、10岁、小女孩、穿着、小裙子、捧着、礼物、好开心、终于、买等词组。

S303、在词组中提取与人物有关的关键词。

在根据语义模型对文本信息进行切词处理，得到词组之后，就可以从得到的词组中提取出与人物有关的关键词。

需要说明的是，在上述S301-S303中，只是以表达信息为文本信息，如何提取该文本信息中与人物相关的关键词为例进行说明，当然，表达信息也可以为语音信息，当表达信息为语音信息时，可以先对该语音信息进行语音识别，以得到该语音信息对应的文本信息，从而将用户输入的语音信息转换为其对应的文本信息，之后在该文本信息中提取与人物相关的关键词的方式与上述S302-S303相同，可参见上述S302-S303中的描述，在此，本发明实施例不再进行赘述。

示例的，在通过S302进行分词处理，得到身高、145厘米、体重、40公斤、10岁、小女孩、穿着、小裙子、捧着、礼物、好开心、终于、买等词组之后，就可以在这些词组中提取与人物有关的关键词。可以看出，与人物相关的关键词有：身高、145厘米、体重、40公斤、10岁、小女孩、穿着、小裙子、捧着、礼物、好开心。

S304、收集与人物有关的关键词，并且收集与关键词对应的对象模型。

在获取关键词对应的对象模型的表情信息之前，需要先收集与人物对应的关键词，并且收集与关键词对应的对象模型。需要说明的是，在收集与关键词对应的对象模型时，一个关键词可以对应多个对象模型，当然，也可以多个关键词对应一个对象模型。

可选的，与人物有关的属性可以包括身高、体重、年龄、穿着等特征，则用于表示这些属性的词都可以理解为与人物有关的关键词。在确定与人物有关的关键词之后，就可以进一步收集与这些关键词对应的对象模型。需要说明的是，在收集与关键词对应的对象模型时，该对象模型可以是根据一个关键词确定的，例如，当关键词为高个子时，对应收集的对象模型为一个高个子的人物模型；当然，该对象模型也可以是根据至少两个关键词确定的，例如，当该至少两个关键词包括：身高145厘米、体重40公斤及小女孩时，对应收集的对象模型为身高145厘米、体重40公斤的小女孩的人物模型。

S305、建立对象模型库。

其中，对象模型库中包含关键词与对象模型之间的关联关系。

在通过S304分别收集与人物有关的关键词，并且收集与关键词对应的对象模型之后，就可以根据关键词与对象模型之间的关联关系建立对象模型库。

需要说明的是，S301-S303和S304-S305之间并无先后顺序，可以先执行S301-S303，再执行S304-S305；当然，也可以先执行S304-S305，再执行S301-S303；当然，也可以同时执行S301-S303和S304-S305。在此，本发明实施例只是以先执行S301-S303，再执行S304-S305为例进行说明，但并不代表本发明实施例仅局限于此。通常情况下，可以先执行S304-S305，即先收集与人物有关的关键词，并且收集与关键词对应的对象模型，并建立对象模型库，且不是在每次获取对象模型的表情信息时都需要执行S304-S305，可以在第一次获取对象模型的表情信息时建立一个对象模型库，后续当有新的关键词和其对应的对象模型产生时，可以将该新的关键词和其对应的对象模型添加至该对象模型库，从而对该对象模型库进行更新。

S306、在预先存储的对象模型库中获取与关键词对应的对象模型。

需要说明的是，在预先建立的对象模型库中获取与关键词对应的对象模型时，若在预先存储的对应模型库中，一个关键词对应至少两个对象模型时，可以在至少两个对象模型中任意选择一个作为关键词对应的对象模型，也可以对该至少两个对象模型求平均值，从而得到关键词对应的对象模型。当然，若文本信息中有对该对象模型的进一步地限定时，可以在至少两个对象模型中选择与文本信息匹配的对象模型。

示例的，在通过S303提取到与人物有关的关键词身高、145厘米、体重、40公斤、10岁、小女孩、穿着、小裙子、捧着、礼物及好开心，并通过S305建立对象模型库之后，可以根据这些与人物有关的关键词，在预先建立的对象模型库中，查找并获取身高为145厘米、体重为40公斤、10岁的穿着小裙子，且很开心的捧着礼物的小女孩模型。

在获取到小女孩模型之后，为了使得获取到的小女孩模型更加生动和真实，还可以进一步地根据小女孩输出的文本信息“我好开心啊，终于买到礼物啦”获取该小女孩的嘴型变化信息，请参见下述S307所示：

S307、根据对象模型输出的表达信息，获取对象模型的嘴型变化信息。

可选的，在本发明实施例中，根据对象模型输出的表达信息，获取对象模型的嘴型变化信息，包括下述至少两种可能的实现方式，具体为：

在一种可能的实现方式中，将用户输入的表达信息输入至预先训练得到的网络模型中，得到表达信息中每一个字的嘴型信息；并根据对象模型输出的表达信息及表达信息中每一个字的嘴型信息，确定对象模型的嘴型变化信息。

示例的，在第一种可能的实现方式中，在确定小女孩的嘴型变化信息时，可以先将用户A输入的文本信息“高为145厘米、体重为40公斤的一个10岁小女孩，穿着小裙子，捧着礼物说“我好开心啊，终于买到礼物啦””输入至预先训练得到的网络模型中，从而获取该文本信息种每一个字的嘴型信息；再在这些嘴型信息中找到“我好开心啊，终于买到礼物啦”中的每一个字对应的嘴型信息，这样就可以根据“我好开心啊，终于买到礼物啦”中的每一个字的嘴型信息确定小女孩的嘴型变化信息。

第二种可能的实现方式中，从表达信息中提取对象模型输出的表达信息；将对象模型输出的表达信息输入至预先训练得到的网络模型中，得到对象模型输出的表达信息中每一个字的嘴型信息；根据对象模型输出的表达信息中每一个字的嘴型信息，确定对象模型的嘴型变化信息。

示例的，在第二种可能的实现方式中，在确定小女孩的嘴型变化信息时，可以先在用户A输入的文本信息“高为145厘米、体重为40公斤的一个10岁小女孩，穿着小裙子，捧着礼物说“我好开心啊，终于买到礼物啦””中提取出小女孩说的文本信息“我好开心啊，终于买到礼物啦”，并将该文本信息“我好开心啊，终于买到礼物啦”输入至预先训练得到的网络模型中，从而得到“我好开心啊，终于买到礼物啦”中的每一个字对应的嘴型信息，这样就可以根据“我好开心啊，终于买到礼物啦”中的每一个字的嘴型信息确定小女孩的嘴型变化信息。

当然，在通过上述两种可能的实现方式获取对象模型的嘴型变化信息之前，需要先收集多个用户对同一个语句进行表达时的视频流；并将视频流作为训练样本进行训练，获得网络模型。其中，网络模型用于基于不同的表达信息得到该表达信息中的每一个字对应的嘴型。

示例的，在收集到多个用户对对同一个语句进行表达时的视频流之后，可以对将视频流作为训练样本，通过神经网络模型对该训练样本进行训练，从而得到该网络模型。需要说明的是，不是在每一次获取对象模型的嘴型变化信息之前，都需要对训练样本进行训练以获得网络模型，而是可以在第一次获取对象模型的嘴型变化信息时对训练样本进行训练并获得网络模型，后续当有新的表情样本产生时，可以根据表情样本对网络模型进行更新，这样可以提高该网络模型的准确性。

S308、根据对象模型以及对象模型的嘴型变化信息，得到对象模型的表情信息。

在分别获取到关键词对应的对象模型和该对象模型的嘴型变化信息之后，就可以根据该对象模型以及该对象模型的嘴型变化信息，确定对象模型的表情信息，与现有技术中通过人工手动对对象模型进行处理并构建三维场景，且人工手动构建的人物模型的嘴型都只是简单的一闭一合相比，在实现对三维场景自动构建的基础上，提高了三维场景中人物表情的生动性和真实性。

示例的，在获取到关键词对应的身高为145厘米、体重为40公斤、10岁的穿着小裙子，且很开心的捧着礼物的小女孩模型，且获取到该小女孩说的文本信息“我好开心啊，终于买到礼物啦”中的每一个字的嘴型信息对应的小女孩的嘴型变化信息之后，就可以根据该小女孩模型和小女孩的嘴型变化信息确定该小女孩模型的表情信息，可参见上述图1所示。与现有技术中通过人工手动对对象模型进行处理并构建三维场景，且人工手动构建的人物模型的嘴型都只是简单的一闭一合相比，在实现对三维场景自动构建的基础上，提高了三维场景中小女孩表情的生动性和真实性。

图4为本发明实施例提供的一种人物表情的生成装置40的结构示意图，请参见图4所示，该人物表情的生成装置40可以应用于虚拟现实和/或增强现实，该人物表情的生成装置40可以包括：

采集单元401，用于采集用户输入的表达信息；其中，用户输入的表达信息中包括与人物有关的关键词和关键词对应的对象模型输出的表达信息。

获取单元402，用于从表达信息中提取关键词。

获取单元402，还用于在预先存储的对象模型库中获取与关键词对应的对象模型。

获取单元402，还用于根据对象模型输出的表达信息，获取对象模型的嘴型变化信息。

处理单元403，用于根据对象模型以及对象模型的嘴型变化信息，得到对象模型的表情信息。

可选的，获取单元402，具体用于将用户输入的表达信息输入至预先训练得到的网络模型中，得到表达信息中每一个字的嘴型信息；并根据对象模型输出的表达信息及表达信息中每一个字的嘴型信息，确定对象模型的嘴型变化信息。

可选的，获取单元402，具体用于从表达信息中提取对象模型输出的表达信息；并将对象模型输出的表达信息输入至预先训练得到的网络模型中，得到对象模型输出的表达信息中每一个字的嘴型信息；再根据对象模型输出的表达信息中每一个字的嘴型信息，确定对象模型的嘴型变化信息。

可选的，采集单元401，还用于收集多个用户对同一个语句进行表达时的视频流；并将视频流作为训练样本进行训练，获得网络模型，其中，网络模型用于基于不同的表达信息得到该表达信息中的每一个字对应的嘴型。

可选的，采集单元401，具体用于采集用户输入的文本信息。

相应的，获取单元402，具体用于根据语义模型对文本信息进行切词处理，得到词组；并在词组中提取与人物有关的关键词。

可选的，采集单元401，具体用于采集用户输入的语音信息。

相应的，获取单元402，具体用于对语音信息进行语音识别，得到文本信息；并根据语义模型对文本信息进行切词处理，得到词组；再从词组中提取与人物有关的关键词。

可选的，该人物表情的生成装置40还可以包括建立单元404，请参见图5所示，图5为本发明实施例提供的另一种人物表情的生成装置40的结构示意图。

采集单元401，还用于收集与人物有关的关键词，并且收集与关键词对应的对象模型。

建立单元404，用于建立对象模型库，对象模型库中包含关键词与对象模型之间的关联关系。

本发明实施例所示的人物表情的生成装置40，可以执行上述任一实施例所示的人物表情的生成方法的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

图6为本发明实施例提供的一种终端设备60的结构示意图，请参见图6所示，该终端设备60可以包括处理器601和存储器602。其中，

存储器602用于存储程序指令。

处理器601用于读取存储器602中的程序指令，并根据存储器602中的程序指令执行上述任一实施例所示的人物表情的生成方法。

本发明实施例所示的终端设备60，可以执行上述任一实施例所示的人物表情的生成方法的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，在计算机程序被处理器执行时，执行上述任一实施例所示的人物表情的生成方法，其实现原理以及有益效果类似，此处不再进行赘述。

上述实施例中处理器可以是通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的指令，结合其硬件完成上述方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种人物表情的生成方法，其特征在于，所述方法用于虚拟现实和/或增强现实，所述方法包括：

从所述表达信息中提取所述关键词；

2.根据权利要求1所述的方法，其特征在于，所述根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息，包括：

从所述表达信息中提取所述对象模型输出的表达信息；

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述对象模型输出的表达信息，获取所述对象模型的嘴型变化信息之前，还包括：

收集多个用户对同一个语句进行表达时的视频流；

5.根据权利要求1～3任一项所述的方法，其特征在于，所述采集用户输入的表达信息，包括：

采集用户输入的文本信息；

根据语义模型对所述文本信息进行切词处理，得到词组；

在所述词组中提取所述与人物有关的关键词。

6.根据权利要求1～3任一项所述的方法，其特征在于，所述采集用户输入的表达信息，包括：

采集用户输入的语音信息；

对所述语音信息进行语音识别，得到文本信息；

根据语义模型对所述文本信息进行切词处理，得到词组；

从所述词组中提取与所述人物有关的关键词。

7.根据权利要求1～3中任一项所述的方法，其特征在于，所述在预先存储的对象模型库中获取与所述关键词对应的对象模型之前，还包括：

8.一种人物表情的生成装置，其特征在于，所述装置用于虚拟现实和/或增强现实，所述装置包括：

获取单元，用于从所述表达信息中提取所述关键词；

9.根据权利要求8所述的装置，其特征在于，

所述获取单元，具体用于将用户输入的表达信息输入至预先训练得到的网络模型中，得到所述表达信息中每一个字的嘴型信息；并根据所述对象模型输出的表达信息及所述表达信息中每一个字的嘴型信息，确定所述对象模型的嘴型变化信息。

10.根据权利要求8所述的装置，其特征在于，

所述获取单元，具体用于从所述表达信息中提取所述对象模型输出的表达信息；并将所述对象模型输出的表达信息输入至预先训练得到的网络模型中，得到所述对象模型输出的表达信息中每一个字的嘴型信息；再根据所述对象模型输出的表达信息中每一个字的嘴型信息，确定所述对象模型的嘴型变化信息。

11.根据权利要求9或10所述的装置，其特征在于，

所述采集单元，还用于收集多个用户对同一个语句进行表达时的视频流；并将所述视频流作为训练样本进行训练，获得网络模型，其中，所述网络模型用于基于不同的表达信息得到该表达信息中的每一个字对应的嘴型。

12.根据权利要求8～10任一项所述的装置，其特征在于，

所述采集单元，具体用于采集用户输入的文本信息；

13.根据权利要求8～10任一项所述的装置，其特征在于，

所述采集单元，具体用于采集用户输入的语音信息；

14.根据权利要求8～10中任一项所述的装置，其特征在于，还包括建立单元；

15.一种终端设备，其特征在于，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行权利要求1～7任一项所示的人物表情的生成方法。

16.一种计算机可读存储介质，其特征在于，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行权利要求1～7任一项所示的人物表情的生成方法。