CN109961152B

CN109961152B - 虚拟偶像的个性化互动方法、系统、终端设备及存储介质

Info

Publication number: CN109961152B
Application number: CN201910191769.9A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2021-03-02
Anticipated expiration: 2039-03-14
Also published as: CN109961152A

Abstract

本发明公开了一种虚拟偶像的个性化互动方法，包括步骤：获取本轮互动的用户信息；将所述本轮互动的用户信息作为预先得到的互动模型的输入，得到本轮互动的回复动作；根据本轮互动的互动情感分计算本轮互动的奖赏值；其中，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到；根据所述本轮互动的奖赏值更新所述互动模型；根据所述本轮互动的回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息。本发明还公开了一种虚拟偶像的个性化互动系统、终端设备及存储介质，能根据用户的情感状态更新互动模型，以使得虚拟偶像的应答更满足用户的情感需求，能有效降低互动的单调性，实现虚拟偶像的个性化互动，提高用户的粘度。

Description

虚拟偶像的个性化互动方法、系统、终端设备及存储介质

技术领域

本发明涉及虚拟机器人领域，尤其涉及一种虚拟偶像的个性化互动方法、系统、终端设备及存储介质。

背景技术

随着人工智能相关技术的快速发展，智能机器人的应用越来越广泛。目前，智能机器人领域的研究方向已不再局限于生产机器人、巡逻机器人、家庭机器人等实物机器人，国际上有许多单位展开了对虚拟机器人的研究。虚拟偶像便是虚拟机器人中的其中一种，二次元文化深度影响当今社会文化生活，而虚拟偶像作为二次元文化结合数字技术的产物，未来的市场潜力巨大。

目前，在虚拟机器人领域中，实现虚拟偶像的互动主要是通过获取用户发出语音指令、图像指令或操作指令，使接收到指令的虚拟偶像根据知识图谱进行固定模式的应答。

发明人在实施本发明的过程中发现，在现有技术中，由于针对处于不同情感状态下的用户发出的指令，虚拟偶像也只能做出固定模式的应答，互动的单调性高，导致虚拟偶像的互动缺乏个性化，导致用户的粘度降低。

发明内容

本发明实施例提供一种虚拟偶像的个性化互动方法、系统、终端设备及存储介质，可以根据用户的情感状态更新互动模型，以使得虚拟偶像的应答更满足用户的情感需求，从而可以有效降低互动的单调性，实现虚拟偶像的个性化互动，进而提高用户的粘度。

为实现上述目的，本发明实施例提供了一种虚拟偶像的个性化互动方法，包括步骤：

获取本轮互动的用户信息；其中，所述用户信息记录了用户图像数据和用户语音数据；

将所述本轮互动的用户信息作为预先得到的互动模型的输入，得到本轮互动的回复动作；

根据本轮互动的互动情感分计算本轮互动的奖赏值；其中，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到；

根据所述本轮互动的奖赏值更新所述互动模型；

根据所述回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息；其中，所述虚拟偶像信息记录了虚拟偶像图像数据和虚拟偶像语音数据。

作为上述方案的改进，通过如下步骤预先得到所述互动模型：

获取经过预处理的语料数据；

将所述语料数据作为训练输入，对Encoder-Decoder模型进行训练，得到所述互动模型。

作为上述方案的改进，所述将获取本轮互动的用户信息，包括步骤：

获取本轮互动的用户图像数据和用户语音数据；

根据所述本轮互动的用户图像数据生成本轮互动的表情向量；

根据所述本轮互动的用户语音数据生成本轮互动的语音向量；其中，所述语音向量包括词向量、语速向量、语调向量和声强向量；

将所述本轮互动的表情向量和所述本轮互动的语音向量进行拼接生成高维向量，以作为本轮互动的用户信息。

作为上述方案的改进，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到，包括步骤：

根据所述本轮互动的用户信息，确定本轮互动的用户语义情感类型和用户表情情感类型；

根据上轮互动的互动信息、所述本轮互动的回复动作和所述本轮互动的用户语义情感类型进行加权计算，以得到本轮互动的语义情感分；其中，所述上轮互动的互动信息包括上轮互动的用户信息、上轮互动的回复动作和上轮互动的虚拟偶像信息；

根据所述上轮互动的互动信息、所述本轮互动的回复动作和所述本轮互动的用户表情情感类型进行加权计算，以得到本轮互动的表情情感分；

对所述本轮互动的语义情感分和所述本轮互动的表情情感分进行加权平均，得到所述本轮互动的互动情感分。

作为上述方案的改进，，所述上轮互动的互动信息、所述本轮互动的回复动作、所述本轮互动的用户语义情感类型和所述本轮互动的语义情感分之间满足关系：

r₁＝Score_sent×p_seq2seq(a_i+1|p_i,q_i,a_i)×p_seq2seq(a_i|p_i,q_i)

其中，Score_sent为本轮互动的语义得分，所述本轮互动的语义得分根据所述本轮互动的用户语义情感类型以及对应的权重计算得到，a_i+1为所述本轮互动的回复动作，p_i为所述上轮互动的用户信息，q_i为所述上轮互动的虚拟偶像信息，a_i为所述上轮互动的回复动作，r₁为所述本轮互动的语义情感分，p_seq2seq(a_i+1|p_i,q_i,a_i)为以p_i、q_i和a_i作为输入时互动模型的输出为a_i+1的概率，p_seq2seq(a_i|p_i,q_i)为以p_i和q_i作为输入时互动模型的输出为a_i的概率。

作为上述方案的改进，所述上轮互动的互动信息、所述本轮互动的回复动作、所述本轮互动的用户表情情感类型和所述本轮互动的表情情感分之间满足关系：

r₂＝Score_exp×p_seq2seq(a_i+1|p_i,q_i,a_i)×p_seq2seq(a_i|p_i,q_i)

其中，Score_exp为本轮互动的表情得分，所述本轮互动的表情得分根据所述本轮互动的用户表情情感类型以及对应的权重计算得到，a_i+1为所述本轮互动的回复动作，p_i为所述上轮互动的用户信息，q_i为所述上轮互动的虚拟偶像信息，a_i为所述上轮互动的回复动作，r₂为所述本轮互动的表情情感分，p_seq2seq(a_i+1|p_i,q_i,a_i)为以p_i、q_i和a_i作为输入时互动模型的输出为a_i+1的概率，p_seq2seq(a_i|p_i,q_i)为以p_i和q_i作为输入时互动模型的输出为a_i的概率。

作为上述方案的改进，所述根据所述本轮互动的奖赏值更新所述互动模型,具体为：

基于极大似然估计法，根据所述本轮互动的奖赏值对所述互动模型的策略进行更新，以更新所述互动模型。

本发明还提供了一种虚拟偶像的个性化互动系统，包括：

用户信息获取模块，用于获取本轮互动的用户信息；其中，所述用户信息记录了用户图像数据和用户语音数据；

回复动作生成模块，用于将所述本轮互动的用户信息作为预先得到的互动模型的输入，得到本轮互动的回复动作；

奖赏值计算模块，用于根据本轮互动的互动情感分计算本轮互动的奖赏值；其中，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到；

互动模型更新模块，用于根据所述本轮互动的奖赏值更新所述互动模型；

虚拟偶像响应模块，用于根据所述本轮互动的回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息；其中，所述虚拟偶像信息记录了虚拟偶像图像数据和虚拟偶像语音数据。

本发明还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的虚拟偶像的个性化互动方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的虚拟偶像的个性化互动方法。

与现有技术相比，本发明公开的虚拟偶像的个性化互动方法、系统、终端设备及存储介质，通过将获取到的本轮互动的用户信息作为预先得到的互动模型的输入，从而得到本轮互动的回复动作，根据由所述用户信息计算得到的本轮互动的互动情感分计算本轮互动的奖赏值，从而根据所述本轮互动的奖赏值更新所述互动模型，并根据所述本轮互动的回复动作，控制所述虚拟偶像进行响应，得到本轮互动的虚拟偶像信息。由于在互动的过程中，根据所述用户信息由所述互动模型生成回复动作，以根据所述回复动作控制所述虚拟偶像进行响应并得到本轮互动的虚拟偶像信息，并且还结合了由所述用户信息计算得到的互动情感分，通过强化学习更新互动模型，以使得虚拟偶像的应答更满足用户的情感需求，从而可以有效降低互动的单调性，实现虚拟偶像的个性化互动，进而提高用户的粘度。

附图说明

图1是本发明实施例1提供的一种虚拟偶像的个性化互动方法的流程示意图。

图2是本发明实施例1提供的个性化互动方法的步骤S110的流程示意图。

图3是本发明实施例1提供的预先得到互动模型的方法的流程示意图。

图4是本发明实施例1提供的本轮互动的互动情感分的计算方法的流程示意图。

图5是本发明实施例2提供的一种虚拟偶像的个性化互动系统20的结构示意图。

图6是本发明实施例3提供的一种终端设备30的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例1提供的一种虚拟偶像的个性化互动方法，该互动方法可以由包括了图像采集装置和音频采集装置的移动设备执行，执行该互动方法的移动设备可以为智能手机、平板电脑、台式电脑或笔记本电脑等，本领域技术人员可以根据实际情况进行选择，均不影响本发明可取得的有益效果。

可以理解的，为了满足用户的个性化要求，在执行本方法前可以预先建立用户的身份，可以是通过执行本方法的移动设备的音频采集装置采集待建立身份的用户的语音数据，提取所述语音数据的声学特征，根据所述声学特征生成所述用户的语音ID，通过所述移动设备的图像采集装置拍摄所述用户的人脸图像，采用人脸关键点进行人脸对齐，并提取所述人脸图像的人脸特征，根据所述人脸特征生成所述用户的图像ID，将所述语音ID和所述图像ID进行关联，以作为用户的身份。

本发明实施例1提供的一种虚拟偶像的个性化互动方法，包括步骤：

S110、获取本轮互动的用户信息；其中，所述用户信息记录了用户图像数据和用户语音数据。

所述用户图像数据可以是由执行本方法的移动设备的图像采集装置进行拍摄，例如由智能手机的前置摄像头进行拍摄。可以理解的，由于该互动方法的实际应用场景中，可能会出现移动设备拍摄到的原始图像中存在多个人像或用户的身份被他人盗用等情况，因此，需要对所述原始图像进行人脸识别，并获取与该用户身份匹配的人脸图像，以得到所述用户图像数据，以保证用户图像数据的准确性，具体步骤如下：

实时获取移动设备拍摄到的原始图像；

获取所述原始图像中的所有人脸图像，通过深度模型识别每张人脸图像的属性序列；其中，所述属性序列包括性别、年龄、民族、肤色、发型、妆容、佩戴、饰物、表情或面部动作；

对每张人脸图像进行特征点对齐，提取每张人脸图像的人脸特征；

根据每张人脸图像的人脸特征与所登陆用户的人脸特征，计算每张人脸图像与所登陆用户的人脸图像的余弦相似度cos(A，B)；其中，A为每张人脸的人脸特征，B为所登陆用户的人脸特征；

根据每张人脸图像对应的余弦相似度，计算每张人脸图像与所登陆用户的人脸相似度facesim；其中，facesim＝0.5+0.5*cos(A，B)；

根据每张人脸图像对应的的人脸相似度facesim和预设阈值thresh，确定该人脸图像是否为用户的人脸图像；

当检测到某一人脸图像对应的facesim大于thresh时,则确定该人脸图像为用户的人脸图像，并将该人脸图像保存为该用户的用户图像数据；

当检测到某一人脸图像对应的facesim小于或等于thresh时,则确定该人脸图像不是用户的人脸图像，将该人脸图像保存为临时图像数据。

所述用户语音数据可以是由执行本方法的移动设备的音频采集装置进行采集，例如由智能手机的麦克风进行采集。可以理解的，由于该互动方法的实际应用场景中，可能会出现移动设备采集到的原始语音中存在干扰声或用户的身份被他人盗用等情况，因此，需要对所述原始语音进行声纹识别，并获取与该用户身份匹配的语音数据，以得到所述用户语音数据，以保证用户语音数据的准确性，具体步骤如下：

实时获取移动设备采集到的原始语音；

对所述原始语音进行分离和去噪，得到每道人声对应的语音数据；

识别每道人声对应的语音数据的说话内容、语种、方言、语速、语调、声强和语音情感，并提取每道人声对应的语音数据的声学特征；

根据每道人声对应的语音数据的声学特征与所登陆用户的声学特征，采用DNN i-Vector(Deep Neural Networksi-Vector)深度模型进行识别，检测该语音数据对应的说话者是否为所登陆用户；

当检测到某一语音数据对应的说话者为所登陆用户，则将该语音数据保存为用户的用户语音数据中，否则，则将该语音数据保存为临时语音数据。

优选地，参见图2，所述步骤S110包括步骤：

S111、获取本轮互动的用户图像数据和用户语音数据。

S112、根据所述本轮互动的用户图像数据生成本轮互动的表情向量。

用户图像数据中记录了用户进行互动时的表情，因此可以根据用户图像数据，生成表情向量，表情向量为由0、1编码成的向量。

S113、根据所述本轮互动的用户语音数据生成本轮互动的语音向量；其中，所述语音向量包括词向量、语速向量、语调向量和声强向量。

用户语音数据中记录了用户进行互动时的对话文本、语速、语调和声强，因此可以根据用户语音数据，生成包括词向量、语速向量、语调向量和声强向量的语音向量，语速向量、语调向量和声强向量均为由0、1编码成的向量。具体地，通过对用户语音数据进行语音识别，从而获得用户语音数据中的对话文本，对对话文本进行分词，再通过word2vec生成300维的词向量，以作为词向量。

S114、将所述本轮互动的表情向量和所述本轮互动的语音向量进行拼接生成高维向量，以作为本轮互动的用户信息。

将词向量、语速向量、语调向量、声强向量和表情向量依次进行拼接，生成高维向量，以作为用户信息。优选地，在生成高维向量的同时，记录时间戳，获取地点信息，并将时间戳和地点信息与高维向量关联。

S120、将所述本轮互动的用户信息作为预先得到的互动模型的输入，得到本轮互动的回复动作。

可以是预先得到所述互动模型，以用户信息作为所述互动模型的输入，从而根据所述互动模型的输出得到回复动作，其中，所述互动模型的输出根据所述互动模型的互动策略得到。所述互动模型为Encoder-Decoder模型，所述Encoder-Decoder模型的Encoder和Decoder可以是分别对应一个RNN网络，也可以是分别对应一个LSTM网络，均不影响本发明的有益效果。优选地，所述Encoder-Decoder模型的Encoder和Decoder分别对应一个LSTM网络。

所述回复动作可以是所述虚拟偶像的演绎内容，例如回复文本、语音、语调和表情动作等的一项或多项。可以理解地，所述回复动作可能根据实际情况有所调整，不影响本发明可取得的有益效果。

优选地，参见图3，通过如下步骤预先得到所述互动模型：

S121、获取经过预处理的语料数据。

所述经过预处理的语料数据可以是以大量电影对话及网络互动对话数据为基础建立的<Q,A>对话集合。其中，Q代表问句，A代表回答，需要将上一组对话的回答作为下一组对话的问句。

S122、将所述语料数据作为训练输入，对Encoder-Decoder模型进行训练，得到所述互动模型。

S130、根据本轮互动的互动情感分计算本轮互动的奖赏值；其中，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到。

由于虚拟偶像的回复动作会影响到用户的语言表达及表情等反应，而用户信息记录了用户的语言表达及表情等反应，可以是根据由本轮互动的用户信息计算得到的互动情感分，计算本轮互动的奖赏值，以后续根据该奖赏值更新所述互动模型，从而使所述互动模型的输出为最优决策，以使得虚拟偶像的应答更满足用户的情感需求，进而提高用户的粘度。

具体地，参见图4，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到，包括步骤：

S131、根据所述本轮互动的用户信息，确定本轮互动的用户语义情感类型和用户表情情感类型。

每一轮互动的用户信息中记录了该轮互动的用户图像数据和用户语音数据。每一轮互动的用户语音数据中记录了用户进行该轮互动时的对话文本、语速、语调和声强，可以是通过情感识别模型对所述用户信息进行识别，得到该轮互动的用户语义情感类型，所述用户语义情感类型主要分五类，包括非常消极、消极、中性、积极和非常积极。每一轮互动的用户图像数据中记录了用户进行该轮互动时的表情，可以是通过情感识别模型对所述用户信息进行识别，得到该轮互动的用户表情情感类型，所述用户表情情感类型主要分五类，包括非常消极、消极、中性、积极和非常积极。

S132、根据上轮互动的互动信息、所述本轮互动的回复动作和所述本轮互动的用户语义情感类型进行加权计算，以得到本轮互动的语义情感分；其中，所述上轮互动的互动信息包括上轮互动的用户信息、上轮互动的回复动作和上轮互动的虚拟偶像信息。

具体地，所述上轮互动的互动信息、所述本轮互动的回复动作、所述本轮互动的用户语义情感类型和所述本轮互动的语义情感分之间满足关系：

r₁＝Score_sent×p_seq2seq(a_i+1|p_i,q_i,a_i)×p_seq2seq(a_i|p_i,q_i)

其中，Score_sent为本轮互动的语义得分，所述本轮互动的语义得分根据所述本轮互动的用户语义情感类型以及对应的权重计算得到，a_i+1为所述本轮互动的回复动作，p_i为所述上轮互动的用户信息，q_i为所述上轮互动的虚拟偶像信息，a_i为所述上轮互动的回复动作，r₁为所述本轮互动的语义情感分，p_seq2seq(a_i+1|p_i,q_i,a_i)为以p_i、q_i和a_i作为输入时互动模型的输出为a_i+1的概率，p_seq2seq(a_i|p_i,q_i)为以p_i和q_i作为输入时互动模型的输出为a_i的概率。所述用户语义情感类型主要分五类，包括非常消极、消极、中性、积极和非常积极，其对应的权重分别为-2、-1、0、1和2。

S133、根据所述上轮互动的互动信息、所述本轮互动的回复动作和所述本轮互动的用户表情情感类型进行加权计算，以得到本轮互动的表情情感分。

具体地，所述上轮互动的互动信息、所述本轮互动的回复动作、所述本轮互动的用户表情情感类型和所述本轮互动的表情情感分之间满足关系：

r₂＝Score_exp×p_seq2seq(a_i+1|p_i,q_i,a_i)×p_seq2seq(a_i|p_i,q_i)

其中，Score_exp为本轮互动的表情得分，所述本轮互动的表情得分根据所述本轮互动的用户表情情感类型以及对应的权重计算得到，a_i+1为所述本轮互动的回复动作，p_i为所述上轮互动的用户信息，q_i为所述上轮互动的虚拟偶像信息，a_i为所述上轮互动的回复动作，r₂为所述本轮互动的表情情感分，p_seq2seq(a_i+1|p_i,q_i,a_i)为以p_i、q_i和a_i作为输入时互动模型的输出为a_i+1的概率，p_seq2seq(a_i|p_i,q_i)为以p_i和q_i作为输入时互动模型的输出为a_i的概率。所述用户表情情感类型主要分五类，包括非常消极、消极、中性、积极和非常积极，其对应的权重分别为-2、-1、0、1和2。

S134、对所述本轮互动的语义情感分和所述本轮互动的表情情感分进行加权平均，得到所述本轮互动的互动情感分。

可以理解的，所述语义情感分和所述表情情感分的权重可以根据实际情况进行选择，均不影响本发明的有益效果。优选地，所述语义情感分和所述表情情感分的权重相等。

进一步地，为了降低互动的单调性，从而提高互动的持续性，可以是通过定义一个简单无聊让互动无法继续的集合S，集合S中的元素均为没有意义的回复，例如{“嗯”，“好”，“不知道”,…}，根据上轮互动的回复动作和集合S计算负激励值，结合所述负激励值，根据由本轮互动的用户信息计算得到的互动情感分，计算本轮互动的奖赏值，以后续根据该奖赏值更新所述互动模型，以使互动模型减少输出没有意义的回复动作。所述上轮互动的回复动作、所述集合S和所述负激励值之间满足关系：

其中，N_S为所述集合S的元素数目，s属于所述集合S，a为所述上轮互动的回复动作，p_seq2seq(s|a)为以上轮互动的回复动作作为输入时互动模型的输出为s的概率，γ₁为所述负激励值。

进一步地，为了降低互动的重复性，从而提高互动的持续性，可以是通过获取上轮互动的隐含层向量和本轮互动的隐含层向量，计算两轮互动的隐含层向量相似度，结合所述隐含层向量相似度，根据由本轮互动的用户信息计算得到的互动情感分，计算本轮互动的奖赏值，以后续根据该奖赏值更新所述互动模型，以使互动模型减少输出重复的回复动作。所述上轮互动的隐含层向量、所述本轮互动的隐含层向量和所述隐含层向量相似度之间满足关系：

其中，h_pi为所述上轮互动的隐含层向量，h_pi+1为所述本轮互动的隐含层向量，γ₂为所述隐含层向量相似度。

进一步地，还可以是结合所述负激励值和所述隐含层向量相似度，根据由本轮互动的用户信息计算得到的互动情感分，计算本轮互动的奖赏值，以后续根据该奖赏值更新所述互动模型。所述负激励值、所述隐含层向量相似度、所述互动情感分和所述本轮互动的奖赏值之间满足关系：

γ＝λ₁γ₁+λ₂γ₂+λ₃γ₃

其中，γ₁为所述负激励值，λ₁为所述负激励值对应的权重，γ₂为所述隐含层向量相似度，λ₂为所述隐含层向量相似度对应的权重，γ₃为所述互动情感分，λ₃为所述互动情感分对应的权重。可以理解的，λ₁、λ₂和λ₃可以是根据实际情况进行选择，均不影响本发明的有益效果。优选地，λ₁、λ₂和λ₃分别为0.3、0.2和0.5。

S140、根据所述本轮互动的奖赏值更新所述互动模型。

可以是根据所述本轮互动的奖赏值更新所述互动模型中的互动策略，从而更新所述互动模型。

进一步地，所述根据所述本轮互动的奖赏值更新所述互动模型,具体为：

可以是根据上轮互动的互动信息和所述本轮互动的奖赏值，通过极大似然估计法对所述互动模型的互动策略梯度进行更新，从而更新所述互动模型。其中，每一轮互动的互动信息包括该轮互动的用户信息、该轮互动的回复动作和该轮互动的虚拟偶像信息。

所述上轮互动的互动信息、所述本轮互动的奖赏值和所述互动策略的梯度参数之间满足关系：

其中，

为所述互动策略的梯度，a_i为上轮互动的回复动作，p_i为上轮互动的用户信息，q_i为上轮互动的虚拟偶像信息，R(a_i,[p_i,q_i])为所述本轮互动的奖赏值。

S150、根据所述本轮互动的回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息；其中，所述虚拟偶像信息记录了虚拟偶像图像数据和虚拟偶像语音数据。

可以是根据所述本轮互动的回复动作，控制所述虚拟偶像作出相应的应答，以作为响应，并得到记录了本轮互动的虚拟偶像的图像数据和语音数据的虚拟偶像信息。

进一步地，每一轮互动的虚拟偶像图像数据中记录了虚拟偶像进行该轮互动时的衣着、妆容、饰品、配饰、发型、肢体动作和表情，每一轮互动的虚拟偶像语音数据中记录了虚拟偶像进行该轮互动时的对话文本、语速和语调，可以是根据所述虚拟偶像图像数据和所述虚拟偶像语音数据，生成与所述对话文本相关的300维的词向量，生成与所述虚拟偶像的衣着、妆容、饰品、配饰、发型语音和语调等特征相关的由0、1编码成的向量，生成与所述虚拟偶像的肢体动作相关的38点骨架关键点向量，以及生成与所述虚拟偶像的表情相关的29点表情关键点向量，将上述四个向量进行依次拼接，生成高维向量，以作为该轮互动的虚拟偶像信息。具体地，通过对所述虚拟偶像语音数据进行语音识别，从而获得的所述虚拟偶像语音数据中的对话文本，对所述对话文本进行分词，再通过word2vec生成300维的词向量，以作为所述词向量。

优选地，在步骤150之后，可以是将所述本轮互动的用户信息作为所述互动模型的Encoder的输入，将所述本轮互动的虚拟偶像信息作为所述互动模型的Decoder的输入，对所述互动模型进行训练，以进一步更新所述互动模型。

本发明实施例1公开的虚拟偶像的个性化互动方法，通过将获取到的本轮互动的用户信息作为预先得到的互动模型的输入，从而得到本轮互动的回复动作，根据由所述用户信息计算得到的本轮互动的互动情感分计算本轮互动的奖赏值，从而根据所述本轮互动的奖赏值更新所述互动模型，并根据所述本轮互动的回复动作，控制所述虚拟偶像进行响应，得到本轮互动的虚拟偶像信息。由于在互动的过程中，根据所述用户信息由所述互动模型生成回复动作，以根据所述回复动作控制所述虚拟偶像进行响应并得到本轮互动的虚拟偶像信息，并且还结合了由所述用户信息计算得到的互动情感分，通过强化学习更新互动模型，以使得虚拟偶像的应答更满足用户的情感需求，从而可以有效降低互动的单调性，实现虚拟偶像的个性化互动，进而提高用户的粘度。

本发明实施例2提供了一种虚拟偶像的个性化互动系统。参见图5，所述互动系统20包括用户信息获取模块21、回复动作生成模块22、奖赏值计算模块23、互动模型更新模块24和虚拟偶像响应模块25。

用户信息获取模块21，用于获取本轮互动的用户信息；其中，所述用户信息记录了用户图像数据和用户语音数据；

回复动作生成模块22，用于将所述本轮互动的用户信息作为预先得到的互动模型的输入，得到本轮互动的回复动作；

奖赏值计算模块23，用于根据本轮互动的互动情感分计算本轮互动的奖赏值；其中，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到；

互动模型更新模块24，用于根据所述本轮互动的奖赏值更新所述互动模型；

虚拟偶像响应模块25，用于根据所述本轮互动的回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息；其中，所述虚拟偶像信息记录了虚拟偶像图像数据和虚拟偶像语音数据。

所述虚拟偶像的个性化互动系统20的工作过程如实施例1所述的虚拟偶像的个性化互动方法，在此不作赘述。

本发明实施例2公开的虚拟偶像的个性化互动系统，通过将获取到的本轮互动的用户信息作为预先得到的互动模型的输入，从而得到本轮互动的回复动作，根据由所述用户信息计算得到的本轮互动的互动情感分计算本轮互动的奖赏值，从而根据所述本轮互动的奖赏值更新所述互动模型，并根据所述本轮互动的回复动作，控制所述虚拟偶像进行响应，得到本轮互动的虚拟偶像信息。由于在互动的过程中，根据所述用户信息由所述互动模型生成回复动作，以根据所述回复动作控制所述虚拟偶像进行响应并得到本轮互动的虚拟偶像信息，并且还结合了由所述用户信息计算得到的互动情感分，通过强化学习更新互动模型，以使得虚拟偶像的应答更满足用户的情感需求，从而可以有效降低互动的单调性，实现虚拟偶像的个性化互动，进而提高用户的粘度。

参见图6，本发明还提供了一种终端设备30，包括处理器31、存储器32以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器31执行所述计算机程序时实现如上任一实施例所述的虚拟偶像的个性化互动方法。或者，所述处理器31执行所述计算机程序时实现上述各装置实施例中各模块的功能，例如实施例2所述的虚拟偶像的个性化互动系统20的各模块的功能。

另外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的虚拟偶像的个性化互动方法，在此不作赘述。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器32中，并由所述处理器31执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备30中的执行过程。例如，所述计算机程序可以被分割成用户信息获取模块、回复动作生成模块、奖赏值计算模块、互动模型更新模块和虚拟偶像响应模块，各模块具体功能如下：用户信息获取模块，用于获取本轮互动的用户信息；其中，所述用户信息记录了用户图像数据和用户语音数据；回复动作生成模块，用于将所述本轮互动的用户信息作为预先得到的互动模型的输入，得到本轮互动的回复动作；奖赏值计算模块，用于根据本轮互动的互动情感分计算本轮互动的奖赏值；其中，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到；互动模型更新模块，用于根据所述本轮互动的奖赏值更新所述互动模型；虚拟偶像响应模块，用于根据所述本轮互动的回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息；其中，所述虚拟偶像信息记录了虚拟偶像图像数据和虚拟偶像语音数据。

所述终端设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备30可包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，所述示意图仅仅是终端设备30的示例，并不构成对终端设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备30还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器31是所述终端设备30的控制中心，利用各种接口和线路连接整个终端设备30的各个部分。

所述存储器32可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备30的各种功能。所述存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备30集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

实施本发明实施例3提供的终端设备及存储介质，通过将获取到的本轮互动的用户信息作为预先得到的互动模型的输入，从而得到本轮互动的回复动作，根据由所述用户信息计算得到的本轮互动的互动情感分计算本轮互动的奖赏值，从而根据所述本轮互动的奖赏值更新所述互动模型，并根据所述本轮互动的回复动作，控制所述虚拟偶像进行响应，得到本轮互动的虚拟偶像信息。由于在互动的过程中，根据所述用户信息由所述互动模型生成回复动作，以根据所述回复动作控制所述虚拟偶像进行响应并得到本轮互动的虚拟偶像信息，并且还结合了由所述用户信息计算得到的互动情感分，通过强化学习更新互动模型，以使得虚拟偶像的应答更满足用户的情感需求，从而可以有效降低互动的单调性，实现虚拟偶像的个性化互动，进而提高用户的粘度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种虚拟偶像的个性化互动方法，其特征在于，包括步骤：

根据所述本轮互动的奖赏值更新所述互动模型；

根据所述本轮互动的回复动作,控制所述虚拟偶像做出响应,并得到本轮互动的虚拟偶像信息；其中，所述虚拟偶像信息记录了虚拟偶像图像数据和虚拟偶像语音数据。

2.如权利要求1所述的虚拟偶像的个性化互动方法，其特征在于，通过如下步骤预先得到所述互动模型：

获取经过预处理的语料数据；

3.如权利要求2所述的虚拟偶像的个性化互动方法，其特征在于，所述获取本轮互动的用户信息，包括步骤：

获取本轮互动的用户图像数据和用户语音数据；

4.如权利要求1所述的虚拟偶像的个性化互动方法，其特征在于，所述本轮互动的互动情感分根据所述本轮互动的用户信息计算得到，包括步骤：

5.如权利要求4所述的虚拟偶像的个性化互动方法，其特征在于，所述上轮互动的互动信息、所述本轮互动的回复动作、所述本轮互动的用户语义情感类型和所述本轮互动的语义情感分之间满足关系：

r₁＝Score_sent×p_seq2seq(a_i+1|p_i,q_i,a_i)×p_seq2seq(a_i|p_i,q_i)

6.如权利要求4所述的虚拟偶像的个性化互动方法，其特征在于，所述上轮互动的互动信息、所述本轮互动的回复动作、所述本轮互动的用户表情情感类型和所述本轮互动的表情情感分之间满足关系：

r₂＝Score_exp×p_seq2seq(a_i+1|p_i,q_i,a_i)×p_seq2seq(a_i|p_i,q_i)

7.如权利要求1所述的虚拟偶像的个性化互动方法，其特征在于，所述根据所述本轮互动的奖赏值更新所述互动模型,具体为：

8.一种虚拟偶像的个性化互动系统，其特征在于，包括：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的虚拟偶像的个性化互动方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任一项所述的虚拟偶像的个性化互动方法。