CN107633225A

CN107633225A - 一种信息获得方法及装置

Info

Publication number: CN107633225A
Application number: CN201710840635.6A
Authority: CN
Inventors: 唐晶; 舒鑫; 陈天衡; 张清雅; 杨文玉
Original assignee: Beijing Kingsoft Internet Security Software Co Ltd
Current assignee: Beijing Kingsoft Internet Security Software Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2018-01-26

Abstract

本发明实施例提供了一种信息获得方法及装置，方法包括：获得用户面部图像和用户语音；确定用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量；对所确定的高维隐含状态向量进行聚合，获得目标聚合状态向量；将目标聚合状态向量输入至预先构建的非线性变化模型，获得非线性变化模型输出的待推荐给用户的表情信息，其中，非线性变化模型为：采用样本数据对人工神经网络进行训练获得的，样本数据包括：样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量、样本面部图像和样本语音对应的标记的表情信息。应用本发明实施例所提供的方案，无论表情字符串和词汇字符串是否一致，均能确定出推送给用户的表情。

Description

一种信息获得方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种信息获得方法及装置。

背景技术

目前，随着科学的进步和发展，在用户视频聊天过程中，不需要用户人工选择发送表情，而是通过用户面部图像和语音便可以获得推荐给用户的表情，从而便于用户实现与其他用户的互动。

现有技术中，根据用户面部图像和用户语音获得推荐给用户的表情的具体过程为：首先确定用户的面部图像和用户语音，然后，根据面部图像特征，提取用户表情，并将提取的用户表情转化为表情字符串，之后，提取用户语音中能够表达情感的词汇，并将提取的词汇转换为词汇字符串，当表情字符串和词汇字符串一致时，确定表情字符串或者词汇字符串与表情库中每一表情的置信度，并将最大置信度对应的表情推送给用户，其中，表情库中存储有表情与表情名之间的对应关系。这样的话，只有当表情字符串和词汇字符串一致时，才能确定出推送给用户的表情，而当表情字符串和词汇字符串不一致时，将无法获得最后推荐给用户的表情。

发明内容

本发明实施例的目的在于提供信息获得方法及装置，已解决现有技术中的问题。具体技术方案如下：

一种信息获得方法，所述方法包括：

获得用户面部图像和用户语音；

确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量；

对所确定的高维隐含状态向量进行聚合，获得目标聚合状态向量；

将所述目标聚合状态向量输入至预先构建的非线性变化模型，获得所述非线性变化模型输出的待推荐给用户的表情信息，其中，所述非线性变化模型为：采用样本数据对人工神经网络进行训练获得的，所述样本数据包括：样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量、样本面部图像和样本语音对应的标记的表情信息。

可选地，所述确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量，包括：

采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量。

可选地，所述采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量，包括：

采用卷积神经网络模型，提取所述用户面部图像的高维隐含状态向量；

采用循环神经网络模型，提取所述用户语音的高维隐含状态向量。

可选地，所述预先构建的非线性变化模型按照以下方式确定输出信息：

确定表情库中每一表情对应的索引与所述目标聚合状态信息的置信度，其中，所述表情库中存储有表情与索引之间的对应关系；

基于所确定的置信度，确定所述非线性变化模型输出的表情对应的索引。

可选地，所述基于所确定的置信度，确定所述预先构建的非线性变化模型输出的表情对应的索引，包括：

基于所确定的置信度，按照置信度从大到小的顺序，将前预设数量个置信度对应的索引确定为所述非线性变化模型输出的表情对应的索引。

本发明实施例还提供了一种信息获得装置，所述装置包括：

图像语音获得模块，用于获得用户面部图像和用户语音；

状态向量确定模块，用于确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量；

状态向量获得模块，用于对所确定的高维隐含状态向量进行聚合，获得目标聚合状态向量；

表情信息获得模块，用于将所述目标聚合状态向量输入至预先构建的非线性变化模型，获得所述非线性变化模型输出的待推荐给用户的表情信息，其中，所述非线性变化模型为：采用样本数据对人工神经网络进行训练获得的，所述样本数据包括：样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量、样本面部图像和样本语音对应的标记的表情信息。

可选地，所述状态向量确定模块，包括：

状态向量提取子模块，用于采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量。

可选地，所述状态向量提取子模块，包括：

第一状态向量提取单元，用于采用卷积神经网络模型，提取所述用户面部图像的高维隐含状态向量；

第二状态向量提取单元，用于采用循环神经网络模型，提取所述用户语音的高维隐含状态向量。

可选地，所述装置还包括：

表情信息确定模块，用于所述预先构建的非线性变化模型确定输出信息；

所述表情信息确定模块，具体用于：

可选地，所述表情信息确定模块，具体用于：

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放处理程序；

处理器，用于执行存储器上所存放的程序时，实现本发明实施例所提供的信息获得方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有处理程序，所述处理程序被处理器执行时实现本发明实施例所提供的信息获得方法。

应用本发明实施例所提供的信息获得方法及装置，通过用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量的聚合状态向量，以及预先构建的非线性变化模型，便可以获得推荐给用户的表情信息，而无需考虑表情字符串和词汇字符串是否一致。也就是说，无论表情字符串和词汇字符串是否一致，均能确定出推荐给用户的表情信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种信息获得方法的第一流程图；

图2为本发明实施例中预先构建的非线性变化模型的结构示意图；

图3为本发明实施例所提供的一种信息获得方法的第二流程图；

图4为本发明实施例中卷积神经网络模型的结构示意图；

图5为本发明实施例中循环神经网络模型的展开结构示意图；

图6为本发明实施例所提供的一种信息获得装置的第一种结构示意图；

图7为本发明实施例所提供的一种信息获得装置的第二种结构示意图；

图8为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，在根据用户面部图像和用户语音获得推荐给用户的表情的过程中，由于语音中噪音较多，可能会导致提取的表达情感的词汇不够准确，由于面部图像的特征不够明显，可能会导致提取错误的用户表情，这样的话就会导致表情字符串和词汇字符串不一致，进而无法获得最后推荐给用户的表情。为了解决这一问题，本发明实施例提供了一种信息获得方法及装置。

参见图1，图1为本发明实施例所提供的一种信息获得方法的第一流程图，如图1所示，该方法包括以下步骤：

S110，获得用户面部图像和用户语音。

可选地，可以通过图像采集功能和语音输入功能，实时获得用户面部图像和用户语音。

例如，假设用户使用手机进行直播，则在直播过程中，由于手机的摄像功能可同时采集图像和语音，则可通过手机摄像功能，实时获得用户面部图像和用户语音。

S120，确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量。

可选地，高维隐含状态向量是能够表达隐含特征的多维向量。因此，为了能够提取较多的、较明显的特征，在获得用户面部图像和用户语音后，确定用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量，以便于后续计算。

可选地，确定用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量的过程将在后续详细介绍。

S130，对所确定的高维隐含状态向量进行聚合，获得目标聚合状态向量。

对高维隐含状态向量进行聚合，即为对两个高维隐含状态向量进行合并，将合并后的向量作为目标聚合状态向量。

例如，假设用户面部图像的高维隐含状态向量为[1,2,3]，用户语音的高维隐含状态向量为[4,5,6]，则将这两个高维隐含状态向量进行聚合，获得的目标聚合状态向量为[1,2,3,4,5,6]。

S140，将所述目标聚合状态向量输入至预先构建的非线性变化模型，获得所述非线性变化模型输出的待推荐给用户的表情信息。

其中，所述非线性变化模型为：采用样本数据对人工神经网络进行训练获得的，所述样本数据包括：样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量、样本面部图像和样本语音对应的标记的表情信息。

获得目标聚合状态向量后，将目标聚合状态向量输入至预先构建的非线性变化模型，经过非线性变化模型输出信息即为待推荐给用户的表情信息。

可以理解，非线性变化模型输出的待推荐给用户的表情信息可以具体为表情图像，也可以为表情对应的标识，例如索引或者标号。

当非线性变化模型输出的表情信息为表情图像时，获得的表情信息可以直接作为待推荐给用户的表情。当非线性变化模型输出的表情信息为表情对应的标识时，获得表情信息后，还可以根据获得的表情信息确定表情信息对应的表情，之后，将根据表情信息确定的表情作为待推荐给用户的表情。

可选地，非线性变化模型确定输出信息的过程将在后续详细介绍。

与现有技术相比，应用本发明实施例所提供的技术方案，通过用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量的聚合状态向量，以及预先构建的非线性变化模型，便可以获得推荐给用户的表情信息，而无需考虑表情字符串和词汇字符串是否一致。也就是说，无论表情字符串和词汇字符串是否一致，均能确定出推荐给用户的表情信息。

可选地，预先构建的非线性变化模型可以按照以下方式确定输出信息：

可以理解，表情库中每一表情对应的索引与目标聚合状态信息的置信度的大小即为，索引与目标聚合状态信息在一定允许的误差范围以内，其相应的概率的大小，即标聚合状态向量能够表达索引所对应的表情的可能性。

具体地，表情库中存储的表情与索引之间的对应关系可以如表1所示：

表1

将目标聚合状态向量输入至非线性变化模型后，非线性变化模型会分别计算表情库中存储的每个索引与目标聚合状态向量置信度，并基于所确定的置信度，确定输出的表情对应的索引。

可选地，非线性变化模型基于所确定的置信度，确定所述预先构建的非线性变化模型输出的表情对应的索引，可以包括：

可以理解，置信度越大，说明其对应的目标聚合状态向量能够表达其对应的索引所对应的表情的可能性越大，相反，信度越小，说明其对应的目标聚合状态向量能够表达其对应的索引所对应的表情的可能性越小。因此，可以按照置信度从大到小的顺序，将前预设数量个置信度对应的索引确定为非线性变化模型输出的表情对应的索引，以提高输出表情对应的索引的准确性。

例如，假设确定置信度数量的有10个，预设数量为3，则确定好置信度后，将这个10个置信度从大到小的顺序，将前3个索引确定为非线性变化模型输出的表情对应的索引。

可选地，非线性变化模型是用样本数据对人工神经网络进行训练获得的，通过将样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量作为初始人工神经网络的输入，对人工神经网络进行训练。

非线性变化模型的训练过程可以包括以下步骤：

首先，获得样本数据。

样本数据包括：样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量，以及样本面部图像和样本语音对应的标记的表情信息。

之后，初始化人工神经网络模型参数。

在预训练之前初始化人工神经网络模型参数，可以随机初始化模型，或者根据经验设定初始参数。

然后，利用样本数据对人工神经网络模型进行训练。

可选地，可以采用CE(Cross Entropy，交叉熵)准则对模型进行预训练，初步调整模型的参数。

CE训练针对每次输入的聚合状态向量，以最小化交叉熵为目标函数，计算输出层单元的输出(取输出向量中单元值输出最大值)与标记的的表情信息的误差值，通过误差反向传播算法，逐层获取网络模型各层的误差信号，进而对模型各层之间的权值进行调整。

使用交叉熵函数作为代价函数，采用随机梯度下降算法和反向传播算法减小代价函数的值，当准确率不再提升，且前后两次迭代的正确率差值在一定范围内徘徊，停止迭代训练，得到人工神经网络的参数，完成训练。

之后，将各个聚合状态向量输入训练后的模型，统计每个样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量，和样本面部图像和样本语音对应的标记的表情信息的置信度。

最后，判断聚合状态向量与标记表情信息的置信度是否大于预设阈值。如果是，训练过程结束，如果否，调整人工神经网络模型的参数，利用样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量继续训练人工神经网络模型，直至每个样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量，和样本面部图像和样本语音对应的标记的表情信息的置信度均大于预设阈值。

参见图2，图2为本发明实施例提供的一种预先构建的非线性变化模型的结构示意图，在图2中，非线性变化模型有一个输入层(input layer)、三个用于处理的隐层节点(hidden layer 1、hidden layer 2、hidden layer 3)及一个输出层(output layer)。这个神经网络是全连接的，即神经网络中任何一层的神经元都和上一层的所有节点(神经元)相连接。神经网络中数据流的方向是前向的，从左到右，一层层地流动。

参见图3，图3为本发明实施例所提供的一种信息获得方法的第二流程图，图3所示实施例在图1所示实施例的基础上，为了能够准确的确定用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量，S120可以包括以下步骤：

S1201，采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量。

神经网络是一种具有明显层级的网络结构，神经网络模型会对输入的用户面部图像进行逐层处理，逐渐抽象成更易于区分的特征，最终将用户面部图像转换为高维隐含状态向量。同样的，神经网络模型也会对输入的用户语音进行逐层处理，逐渐抽象成更易于区分的特征，最终将用户面部图像转换为高维隐含状态向量。因此，采用神经网络模型提取用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量。

可选地，本实施例中，采用卷积神经网络模型，提取所述用户面部图像的高维隐含状态向量；采用循环神经网络模型，提取所述用户语音的高维隐含状态向量。

第一方面，CNN(Convolutional Neural Network，卷积神经网络)的一层可以看作是多个滤波器，并且，CNN是卷积层和池化层(聚合层)交叠的一种网络结构。由于卷积神经网络的特殊结构，在处理用户面部图像时有很多优势，例如，卷积层的卷积运算实现对面部图像特征局部信息的抽取，可以使面部图像特征增强；而池化层利用面部图像频谱局部相关性原理，通过对卷积层的输出结点做固定窗长的聚合，减少下一层的输入结点，通过对特征进行子抽样，对数据进行降维，并保留有用信息。

因此，本实施例中，采用卷积神经网络模型，提取用户面部图像的高维隐含状态向量。

可选地，请参见图4，本实施例中的卷积神经网络模型可以如图4所示，其中，C层为特征提取层，每个神经元的输入与前一层的局部感受相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来；S层是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构可以采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

图4中的卷积神经网络模型工作流程如下，输入层由64×64个感知节点组成，接收用户面部图像。然后，计算流程在卷积和子抽样之间交替进行，如下所述：

第一隐藏层进行卷积，它由64个特征映射组成，每个特征映射由48×48个神经元组成，每个神经元指定一个5×5的接受域。

第二隐藏层实现子抽样和局部平均，它同样由64个特征映射组成，但其每个特征映射由32×32个神经元组成。每个神经元具有一个2×2的接受域，一个可训练系数，一个可训练偏置和一个sigmoid激活函数。可训练系数和偏置控制神经元的操作点。

第三隐藏层进行第二次卷积，它由72个特征映射组成，每个特征映射由16×16个神经元组成。该隐藏层中的每个神经元可能具有和下一个隐藏层几个特征映射相连的突触连接，它以与第一个卷积层相似的方式执行操作。

第四个隐藏层进行第二次子抽样和局部平均汁算。它由72个特征映射组成，每个特征映射由14×14神经元组成，它以与第一次抽样相似的方式执行操作。

第五个隐藏层进行第三次卷积，它由84个特征映射组成，每个特征映射由12×12个神经元组成，每个神经元指定一个5×5的接受域。

第六个隐藏层进行第四次卷积，它由96个特征映射组成，每个特征映射由10×10个神经元组成，每个神经元指定一个5×5的接受域。

第七个隐藏层进行第五次卷积，它由128个神经元组成，每个神经元指定一个5×5的接受域。

第八个隐藏层实现卷积的最后阶段，它由256个神经元组成，每个神经元指定一个1×1的接受域。

最后是个全连接层，得到输出向量。

第二方面，RNN(Recurrent Neural Network，循环神经网络)的特点是隐层通过将自己的输出重新输入给自己而获取到其他时刻的信息。RNN已经在众多自然语言处理(Natural Language Processing，NLP)中取得了巨大成功以及广泛应用。

RNN的目的是用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。

因此，本实施例中，采用循环神经网络模型，提取用户语音的高维隐含状态向量。

可选地，请参见图5，图5为本实施例中的循环神经网络模型展开成一个全神经网络的结构示意图。例如，对一个包含5个单词的用户语音，那么展开的网络便是一个五层的神经网络，每一层代表一个单词。

如图5所示，本实施例中循环神经网络模型包含输入单元(Input units)，输入集标记为{x0,x1,...,xt-1,xt,xt+1,...}，而输出单元(Output units)的输出集则被标记为{o0,o1,...,ot-1,ot,yo+1.,..}。RNN还包含隐藏单元(Hidden units)，我们将其输出集标记为{s0,s1,...,st-1,st,st+1,...}，这些隐藏单元完成了最为主要的工作。

在图5中，循环神经网络模型包括一条从输入单元到达隐藏单元的单向流动的信息流(U)，一条从隐藏单元到达输出单元单向流动的信息流(V)，一条从输出单元返回隐藏单元的循环流动的信息流(W)，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。

本发明实施例还提供了一种信息获得装置，参见图6，图6为本发明实施例所提供的一种信息获得装置的第一种结构示意图，如图6所示，该装置可以包括：

图像语音获得模块610，用于获得用户面部图像和用户语音；

状态向量确定模块620，用于确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量；

状态向量获得模块630，用于对所确定的高维隐含状态向量进行聚合，获得目标聚合状态向量；

表情信息获得模块640，用于将所述目标聚合状态向量输入至预先构建的非线性变化模型，获得所述非线性变化模型输出的待推荐给用户的表情信息，其中，所述非线性变化模型为：采用样本数据对人工神经网络进行训练获得的，所述样本数据包括：样本面部图像的高维隐含状态向量和样本语音的高维隐含状态向量的聚合状态向量、样本面部图像和样本语音对应的标记的表情信息。

与现有技术相比，应用本发明实施例所提供的装置，通过用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量的聚合状态向量，以及预先构建的非线性变化模型，便可以获得推荐给用户的表情信息，而无需考虑表情字符串和词汇字符串是否一致。也就是说，无论表情字符串和词汇字符串是否一致，均能确定出推荐给用户的表情信息。

可选地，该装置还可以包括：

表情信息确定模块650，用于所述预先构建的非线性变化模型确定输出信息。

其中，表情信息确定模块650，具体用于：

可选地，表情信息确定模块650，还可以具体用于：

参见图7，图7为本发明实施例所提供的一种信息获得装置的第二种结构示意图。图7所示实施例在图6所示实施例的基础上，为了能够准确的确定用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量，状态向量确定模块620可以包括：

状态向量提取子模块6201，用于采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量。

更为具体地，状态向量提取子模块6201，可以包括：

第一状态向量提取单元62011，用于采用卷积神经网络模型，提取所述用户面部图像的高维隐含状态向量；

第二状态向量提取单元62012，用于采用循环神经网络模型，提取所述用户语音的高维隐含状态向量。

相应于上述方法实施例，本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信；

存储器803，用于存放处理程序；

处理器801，用于执行存储器803上所存放的程序时，实现以下步骤：

获得用户面部图像和用户语音；

可选地，确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量，可以包括：

可选地，采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量，可以包括：

可选地，所述基于所确定的置信度，确定所述预先构建的非线性变化模型输出的表情对应的索引，可以包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Ne twork Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

与现有技术相比，应用本发明实施例所提供的电子设备，通过用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量的聚合状态向量，以及预先构建的非线性变化模型，便可以获得推荐给用户的表情信息，而无需考虑表情字符串和词汇字符串是否一致。也就是说，无论表情字符串和词汇字符串是否一致，均能确定出推荐给用户的表情信息。

该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有处理程序，处理程序被处理器执行时实现以下步骤：

获得用户面部图像和用户语音；

与现有技术相比，应用本发明实施例所提供的计算机可读存储介质，通过用户面部图像的高维隐含状态向量和用户语音的高维隐含状态向量的聚合状态向量，以及预先构建的非线性变化模型，便可以获得推荐给用户的表情信息，而无需考虑表情字符串和词汇字符串是否一致。也就是说，无论表情字符串和词汇字符串是否一致，均能确定出推荐给用户的表情信息。

需要强调的是，对于电子设备以及计算机可读存储介质实施例而言，由于其所涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种信息获得方法，其特征在于，所述方法包括：

获得用户面部图像和用户语音；

2.根据权利要求1所述的方法，其特征在于，所述确定所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用神经网络模型提取所述用户面部图像的高维隐含状态向量和所述用户语音的高维隐含状态向量，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述预先构建的非线性变化模型按照以下方式确定输出信息：

5.根据权利要求4所述的方法，其特征在于，所述基于所确定的置信度，确定所述预先构建的非线性变化模型输出的表情对应的索引，包括：

6.一种信息获得装置，其特征在于，所述装置包括：

图像语音获得模块，用于获得用户面部图像和用户语音；

7.根据权利要求6所述的装置，其特征在于，所述状态向量确定模块，包括：

8.根据权利要求6所述的装置，其特征在于，所述状态向量提取子模块，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信；

存储器，用于存放处理程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有处理程序，所述处理程序被处理器执行时实现权利要求1-5任一所述的方法步骤。