CN109597493B

CN109597493B - 一种表情推荐方法及装置

Info

Publication number: CN109597493B
Application number: CN201811513537.2A
Authority: CN
Inventors: 张强; 潘嘉; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2022-05-17
Anticipated expiration: 2038-12-11
Also published as: CN109597493A

Abstract

本申请公开了一种表情推荐方法及装置，该方法包括：在接收到用户通过输入法输入的数据后，识别出该输入数据中蕴含的用户情绪状态，接着，根据用户的情绪状态向用户推荐符合其情绪状态的表情序列，该表情序列中包括了至少一个表情表达结果。可见，本申请可以实时地识别用户的情绪状态，进而实时地进行表情推荐，不再具有表情推荐的滞后性，此外，从输入内容整体出发进行表情推荐，还提高了推荐结果的准确性。

Description

一种表情推荐方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种表情推荐方法及装置。

背景技术

在当今输入法的使用场景中，表情的使用已经相当普遍。人们的沟通方式不仅仅通过文本来做基本的信息交换，更人性化、情感化的沟通方式体现在文本之间表情的恰当使用。一个具有表现力的表情使得沟通更为流畅和自然。当前输入法中已经内置了丰富的表情包，来满足用户的使用需求。不但如此，由于表情的频繁使用，许多输入法已经上线了表情推荐功能，这在一定程度上减少了用户在表情库里查找合适表情的时间，能够提升沟通效率，减少沟通延迟。

然而，现有输入法中表情推荐的形式较为单一，通常是在检测到用户使用输入法输入的上屏内容后，通过关键词匹配的方式来进行表情推荐。但是，只有在上屏内容中出现关键词时，才进行表情推荐，这种方式限制了表情推荐的时机，具有一定的滞后性，此外，只基于检测到的关键词进行表情推荐，推荐结果可能并不符合用户的心意，导致推荐结果不准确。

发明内容

本申请实施例的主要目的在于提供一种表情推荐方法及装置，能够实时、准确的进行表情推荐。

本申请实施例提供了一种表情推荐方法，包括：

接收输入数据，所述输入数据为用户通过输入法输入的数据；

识别所述输入数据中蕴含的情绪状态；

向所述用户推荐符合所述情绪状态的表情序列，所述表情序列包括至少一个表情表达结果。

可选的，所述输入数据为语音数据；则，所述识别所述输入数据中蕴含的情绪状态，包括：

根据所述语音数据的声学特征和/或所述语音数据的识别文本的文本特征，识别所述输入数据中蕴含的情绪状态。

可选的，所述根据所述语音数据的声学特征和所述语音数据的识别文本的文本特征，识别所述语音数据中蕴含的情绪状态，包括：

转换所述语音数据的初始声学特征的表示方式，得到所述语音数据的目标声学特征；

转换所述识别文本的初始文本特征的表示方式，得到所述识别文本的中间文本特征；

根据所述目标声学特征和所述中间文本特征，识别所述输入数据中蕴含的情绪状态。

可选的，所述根据所述目标声学特征和所述中间文本特征，识别所述输入数据中蕴含的情绪状态，包括：

将所述目标声学特征与所述中间文本特征进行特征融合，得到所述识别文本的目标文本特征；

根据所述目标文本特征与所述中间文本特征，识别所述输入数据中蕴含的情绪状态。

可选的，所述将所述目标声学特征与所述中间文本特征进行特征融合，得到所述识别文本的目标文本特征，包括：

将所述目标声学特征中的每一特征单元，分别作为第一特征；

将所述中间文本特征中的每一特征单元，分别作为第二特征；

对于每一第二特征，生成所述第二特征与每一第一特征之间的注意力系数，并将各个第一特征与各个注意力系数进行加权计算，得到对应于所述第二特征的融合特征，所述注意力系数表征了所述第二特征与对应第一特征之间的相关性大小；

将各个第二特征对应的融合特征进行组合，得到所述识别文本的目标文本特征。

可选的，所述识别所述输入数据中蕴含的情绪状态，包括：

识别所述输入数据中蕴含的各个情绪类型；

则，所述向所述用户推荐符合所述情绪状态的表情序列，包括：

根据识别出的各个情绪类型，从预先构建的情绪表情库中选择表情序列。

可选的，所述情绪表情库中包括M种基本情绪类型中的每一基本情绪类型下的至少一个表情表达结果，且M种基本情绪类型被划分成L个基本情绪类别，M≥L≥1。

可选的，所述识别所述输入数据中蕴含的各个情绪类型，包括：

确定每一基本情绪类别对应的概率值，所述概率值表征了所述输入数据中蕴含了对应的基本情绪类别的程度；

选择超过预设概率阈值的各个概率值对应的各个基本情绪类别，并从被选的每一基本情绪类别下选择一个基本情绪类型，作为从所述输入数据中识别出的各个情绪类型。

可选的，所述情绪表情库中还包括N种复合情绪类型中的每一复合情绪类型下的至少一个表情表达结果，所述复合情绪类型包含了至少两种不同的基本情绪类别的情绪状态，N≥1。

选择超过预设概率阈值的各个概率值对应的各个基本情绪类别，分别作为候选类别；

将各个候选类别对应形成的每一复合情绪类型，以及从未对应形成复合情绪类型的每一候选类别下选择一个基本情绪类型，作为从所述输入数据中识别出的各个情绪类型。

本申请实施例还提供了一种表情推荐装置，包括：

输入数据接收单元，用于接收输入数据，所述输入数据为用户通过输入法输入的数据；

情绪状态识别单元，用于识别所述输入数据中蕴含的情绪状态；

表情序列推荐单元，用于向所述用户推荐符合所述情绪状态的表情序列，所述表情序列包括至少一个表情表达结果。

可选的，所述输入数据为语音数据；则所述情绪状态识别单元具体用于：

可选的，所述情绪状态识别单元包括：

第一转换子单元，用于转换所述语音数据的初始声学特征的表示方式，得到所述语音数据的目标声学特征；

第二转换子单元，用于转换所述识别文本的初始文本特征的表示方式，得到所述识别文本的中间文本特征；

情绪状态识别子单元，用于根据所述目标声学特征和所述中间文本特征，识别所述输入数据中蕴含的情绪状态。

可选的，所述情绪状态识别子单元包括：

特征融合子单元，用于将所述目标声学特征与所述中间文本特征进行特征融合，得到所述识别文本的目标文本特征；

状态识别子单元，用于根据所述目标文本特征与所述中间文本特征，识别所述输入数据中蕴含的情绪状态。

可选的，所述特征融合子单元包括：

第一特征确定子单元，用于将所述目标声学特征中的每一特征单元，分别作为第一特征；

第二特征确定子单元，用于将所述中间文本特征中的每一特征单元，分别作为第二特征；

注意力系数生成子单元，用于对于每一第二特征，生成所述第二特征与每一第一特征之间的注意力系数，并将各个第一特征与各个注意力系数进行加权计算，得到对应于所述第二特征的融合特征，所述注意力系数表征了所述第二特征与对应第一特征之间的相关性大小；

文本特征获得子单元，用于将各个第二特征对应的融合特征进行组合，得到所述识别文本的目标文本特征。

可选的，所述情绪状态识别单元具体用于：

识别所述输入数据中蕴含的各个情绪类型；

则，所述表情序列推荐单元具体用于：

可选的，所述情绪状态识别单元包括：

概率值确定子单元，用于确定每一基本情绪类别对应的概率值，所述概率值表征了所述输入数据中蕴含了对应的基本情绪类别的程度；

情绪类型选择子单元，用于选择超过预设概率阈值的各个概率值对应的各个基本情绪类别，并从被选的每一基本情绪类别下选择一个基本情绪类型，作为从所述输入数据中识别出的各个情绪类型。

可选的，所述情绪状态识别单元包括：

候选类别确定子单元，用于选择超过预设概率阈值的各个概率值对应的各个基本情绪类别，分别作为候选类别；

情绪类型确定子单元，用于将各个候选类别对应形成的每一复合情绪类型，以及从未对应形成复合情绪类型的每一候选类别下选择一个基本情绪类型，作为从所述输入数据中识别出的各个情绪类型。

本申请实施例还提供了一种表情推荐设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述表情推荐方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述表情推荐方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述表情推荐方法中的任意一种实现方式。

本申请实施例提供的一种表情推荐方法及装置，在接收到用户通过输入法输入的数据后，识别出该输入数据中蕴含的用户情绪状态，接着，根据用户的情绪状态向用户推荐符合其情绪状态的表情序列，该表情序列中包括了至少一个表情表达结果。可见，本申请实施例可以实时地识别用户的情绪状态，进而实时地进行表情推荐，不再具有表情推荐的滞后性，此外，从输入内容整体出发进行表情推荐，还提高了推荐结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种表情推荐方法的流程示意图；

图2为本申请实施例提供的基本情绪类别的示意图；

图3为本申请实施例提供的根据语音数据的声学特征和语音数据的识别文本的文本特征识别语音数据中蕴含的情绪状态的流程示意图；

图4为本申请实施例提供的将目标声学特征与中间文本特征进行特征融合得到识别文本的目标文本特征的示意图；

图5为本申请实施例提供的构建情绪识别模型的流程示意图；

图6为本申请实施例提供的标注结果的向量示意图；

图7为本申请实施例提供的一种表情推荐装置的组成示意图。

具体实施方式

在一些表情推荐方法中，通常需要实时监测用户使用输入法输入的上屏内容，然后将输入内容与预先建立好的表情库进行精确匹配，具体是在用户的输入内容中出现匹配的关键词后，基于该关键词在表情库中进行表情查找，从而向用户推荐一系列表情，供用户选择是否使用推荐的表情来替代文字进行发送。

但是，上述表情推荐方式，不仅需要进行关键词的精确匹配，而且在未出现关键词或者没有匹配到关键词的情况下，是无法向用户进行表情推荐的，即，只有在出现关键词时才进行表情推荐，这种方式限制了表情推荐的时机，具有一定的滞后性；即使是进行模糊匹配，也需要将用户输入内容中的词语转换为同义词，再从表情库中查找出该同义词对应的表情表达结果来向用户进行表情推荐，仍需要基于词语匹配进行表情推荐。可见，上述这种表情推荐方式不仅具有滞后性，而且用户能够选择的表情表达结果受限于事先建立好的表情库，若表情库中的表情表达结果不够全面，则可能无法向用户进行表情推荐，或者，当表情库中存储的表情表达结果不符合用户的需求时，用户也只能进入到输入法中的表情菜单里再次进行挑选，造成沟通效率的下降。

另外，通过词语匹配的方式进行表情推荐，没有考虑到这些词语所处的整个语境，导致推荐的表情可能无法表达用户真实的情绪。而实际上，用户的输入内容通常是带有一定感情色彩的，所以，输入内容中每一词语的意义均应被放到整个输入内容中进行语义理解，才能充分理解其表征的含义。因此，若不能理解用户整体的情绪状态，仅通过词语匹配的方式进行表情推荐，可能无法准确的向用户推荐符合其心意的表情表达结果。

为解决上述缺陷，本申请实施例提供了一种表情推荐方法，在接收到用户通过输入法输入的内容后，将该输入内容中每一词语的意义放到整个输入内容中进行语义理解，进而识别出该输入内容中蕴含的该用户的情绪状态，然后，根据识别出的用户情绪状态，向该用户推荐符合其情绪状态的一系列表情表达结果。可见，本申请实施例在进行表情推荐时，通过识别用户输入内容中蕴含的情绪状态，并向用户推荐符合其情绪状态的一系列表情表达结果，不必如现有技术那样等待出现关键词或关键词的同义词出现，才进行表情推荐，而是可以实时地识别用户的情绪状态，进而实时地进行表情推荐，不再具有表情推荐的滞后性，此外，从输入内容整体出发进行表情推荐，还提高了推荐结果的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图1，为本实施例提供的一种表情推荐方法的流程示意图，该方法包括以下步骤：

S101：接收输入数据，其中，输入数据为用户通过输入法输入的数据。

在本实施例中，将用户通过输入法输入的数据定义为输入数据，需要说明的是，本实施例不限制输入数据的形式，比如，输入数据可以是语音形式，也可以是文本形式，并且，本实施例也不限制输入数据的语种，比如中文、英文等。此外，本实施例也不限制用户所使用的输入法类型，比如搜狗输入法、百度输入法等。

S102：识别输入数据中蕴含的情绪状态。

在本实施例中，通过步骤S101接收到用户通过输入法输入的数据后，可以对用户的输入数据进行实时处理，实时识别出输入数据中蕴含的用户情绪状态，比如，该用户情绪状态为喜悦、生气或难过等。

需要说明的是，本步骤S102的具体实现方式将在第二实施例中介绍。

S103：向用户推荐符合该情绪状态的表情序列，其中，该表情序列包括至少一个表情表达结果。

在本实施例中，通过步骤S102实时识别出输入数据中蕴含的情绪状态后，可以根据识别出的情绪状态，向用户推荐相应的表情序列，该表情序列中包括了至少一个符合该情绪状态的表情表达结果。例如，假设实时识别出的情绪状态为“喜悦”，则可以向用户推荐一个或多个符合“喜悦”情绪状态的表情表达结果。

需要说明的是，本实施例不限制所述表情表达结果的表现形式，其可以是表情图像、或表情图形、或表情文字(比如颜文字)等任意一种表现形式。而向用户推荐的表情序列中包括的一个或多个表情表达结果，可以涉及一种或多种表现形式。

在本实施例的一种实现方式中，步骤S102具体可以包括：识别输入数据中蕴含的各个情绪类型。则相应的，步骤S103具体可以包括：根据识别出的各个情绪类型，从预先构建的情绪表情库中选择表情序列。

由于用户的输入数据中蕴含的情绪状态可能比较简单，也就是说，用户的输入数据中可能只蕴含了一种情绪类型(该情绪类型即为后续实施例中介绍的各个基本情绪类型以及各个复合情绪类型中的一种情绪类型)，比如生气；但用户的输入数据中蕴含的情绪状态也可能比较复杂，也就是说，用户的输入数据中可能蕴含了多种情绪类型，比如生气和惊讶。因此，在本实现方式中，可以识别用户输入数据中蕴含的各个情绪类型。进而，在识别出各个情绪类型后，可以从预先构建的情绪表情库中选择出这些情绪类型分别对应的至少一个表情表达结果，即，每一情绪类型可以对应选择一个或多个表情表达结果，并将这些表情表达结果形成表情序列推荐给用户，比如，可以从情绪表情库中每一识别情绪类型对应的表情集合中随机选择一个表情表达结果构成表情序列推荐给用户。

其中，一种可选的实现方式是，预先构建的情绪表情库中可以包括M种基本情绪类型中的每一基本情绪类型下的至少一个表情表达结果，且M种基本情绪类型被划分成L个基本情绪类别，M≥L≥1。在本实现方式中，可以预先划分出不同的基本情绪类别，对于同一种基本情绪类别，可以按照其情绪的强弱进行类型划分，并将划分出的每一类型作为该基本情绪类别下的一个基本情绪类型，基于此，为每一基本情绪类型分别创建一个或多个表情表达结果，并存储在情绪表情库中。

例如，L可以取为8，即情绪表情库中包含了8种基本情绪类别，如图2所示，从图2的十二点钟方向顺时针旋转一圈得到8种基本情绪类别分别为“喜悦”、“信任”、“害怕”、“惊讶”、“难过”、“恶心”、“生气”、“期待”。每一基本情绪类别又可以按照“强、中、弱”三种程度分为三个不同等级，每一等级则代表该基本情绪类别下的一个基本情绪类型，比如，如图2所示，基本情绪类别“喜悦”可以分为“喜悦(强)”、“喜悦(中)”以及“喜悦(弱)”三种基本情绪类型。进而，在预先构建的情绪表情库中可以形成24种基本情绪类型，且在情绪表情库中存储有与每一基本情绪类型相对应的至少一个表情表达结果。

基于此，在本实施例的一种实现方式中，上述步骤S102的具体实现方式，即“识别输入数据中蕴含的各个情绪类型”的具体实现过程可以包括以下步骤A1-A2：

步骤A1：确定每一基本情绪类别对应的概率值，其中，概率值表征了输入数据中蕴含了对应的基本情绪类别的程度。

在本实现方式中，当通过步骤S101接收到用户通过输入法输入的数据后，可以利用预先构建好的情绪识别模型，确定出输入数据中蕴含的每一基本情绪类别对应的概率值，该概率值越大，表明该输入数据中蕴含对应基本情绪类别(该概率值对应的基本情绪类别)的程度越高，反之亦然。

例如，以图2所示的8种基本情绪类别(即24种基本情绪类型)为例进行说明，假设输入数据为“这东西这么贵我才不买”，利用预先构建的好的情绪识别模型对其进行识别后，输出一个24维的情绪预测向量为[0.04,0.06,0.04,0.01,0.03,0.01,0.01,0.01,0.01,0.11,0.1,0.1,0.02,0.02,0.01，0.01,0.01,0.03,0.09,0.13,0.1,0.03,0.01,0.01]，其中，每三维向量元素为一组，每组元素代表一种基本情绪类别包括的“强、中、弱”三个不同情绪类型对应的概率值，该概率值越大，表明该输入数据中蕴含对应基本情绪类型(该概率值对应的基本情绪类型)的程度越高，反之亦然。为判断出用户处于何种情绪状态，需要将这个24维情绪预测向量中的元素按照8种基本情绪类别进行合并，即，将每一种基本情绪类别包括的“强、中、弱”三个不同情绪类型对应的概率值进行累加，得到一个8维的基本情感类别预测向量为[0.14,0.05,0.03,0.31,0.05,0.05,0.32,0.05]，其中，每维向量值代表了每一基本情绪类别对应的概率值，该概率值表征了输入数据中蕴含了对应的基本情绪类别的程度，概率值越大，表明输入数据中蕴含了对应的基本情绪类别的程度越高，反之，则表明输入数据中蕴含了对应的基本情绪类别的程度越低。

需要说明的是，本实施中利用预先构建的好的情绪识别模型，确定出输入数据中蕴含的各个基本情绪类型的具体实现过程可参见第二实施例。并且，该情绪识别模型的具体构建过程可参见第三实施例。

步骤A2：选择超过预设概率阈值的各个概率值对应的各个基本情绪类别，并从被选的每一基本情绪类别下选择一个基本情绪类型，作为从输入数据中识别出的各个情绪类型。

在本实现方式中，通过步骤A1确定出每一基本情绪类别对应的概率值后，可以选择超过预设概率阈值的各个概率值以及各个概率值分别对应的基本情绪类别。其中，预设概率阈值指的是预先设置的用来判断用户是否具有某种基本情绪类别的临界值，若概率值超过该临界值，则表明用户具有该概率值对应的基本情绪类别，反之，则表明用户不具有该概率值对应的基本情绪类别。进一步的，在选择出概率值超过预设概率阈值的各个基本情绪类别后，还可以从这些基本情绪类别下分别选择一个概率值最高的基本情绪类型，作为从输入数据中识别出的各个情绪类型。

举例说明：基于上述步骤A1中的举例，若确定出每一基本情绪类别对应的概率值分别为0.14、0.05、0.03、0.31、0.05、0.05、0.32、0.05，假设预设概率阈值为0.2，则可以选择出超过预设概率阈值的两个概率值0.31和0.32，这两个概率值分别对应的基本情绪类别为“惊讶”和“生气”，接着，由于“生气”包含的三种基本情绪类型“惊讶(强)”、“惊讶(中)”、“惊讶(弱)”对应的概率分别为0.11、0.1、0.1，所以，可以从中选择出最高概率值(0.11)对应的基本情绪类型“惊讶(强)”作为从输入数据中识别出的一个情绪类型，同理可以选择出“生气(中)”也作为从输入数据中识别出的一个情绪类型。

在本实施例的另一种实现方式中，预先构建的情绪表情库中不但可以包括M种基本情绪类型(每一基本情绪类别下包括其中的至少一种基本情绪类型)下的表情表达结果，该情绪表情库中还可以包括N种复合情绪类型中的每一复合情绪类型下的至少一个表情表达结果，且每一复合情绪类型包含了至少两种不同的基本情绪类别的情绪状态，N≥1。在本实现方式中，对于预先划分的各个基本情绪类别，可以将两两不同的基本情绪类别进行组合、还可以将三种不同的基本情绪类别进行组合……，确定其中的哪些类别组合可以对应形成一种复合情绪类型，其中，该复合情绪类型指的是，当人们能够同时表现出的不同基本情绪类别的情绪状态时，便将该不同基本情绪类别对应一种复合情绪类型，基于此，为每一复合情绪类型分别创建一个或多个表情表达结果，并存储在情绪表情库中。

例如，如图2所示，可以将8种基本情绪类别中每相邻两种基本情绪类别的情绪状态构成一种复合情感类型，如基本情绪类别“喜悦”与相邻的基本情绪类别“信任”可以构成复合情感类型“爱”，依次类推，从图2右上角顺时针旋转可依次得到8种复合情感类型，分别为“爱、顺从、敬畏、不赞同、悔恨、蔑视、侵略性、乐观”。进而，可以在原来的24种基本情绪类型的基础上，结合这8中复合情感类型，在预先构建的情绪表情库中形成了32种情绪类型，且在情绪表情库中存储有与每一情绪类型相对应的至少一个表情表达结果。

基于此，在本实施例的一种实现方式中，上述步骤S102的具体实现方式，“识别输入数据中蕴含的各个情绪类型”的具体实现过程可以包括以下步骤B1-B3：

步骤B1：确定每一基本情绪类别对应的概率值，其中，该概率值表征了输入数据中蕴含了对应的基本情绪类别的程度。

需要说明的是，本步骤B1与上述步骤A1一致，相关之处请参见上述步骤A1的介绍，在此不再赘述。

步骤B2：选择超过预设概率阈值的各个概率值对应的各个基本情绪类别，分别作为候选类别。

需要说明的是，本步骤B2中选择超过预设概率阈值的各个概率值对应的各个基本情绪类别的实现过程与上述步骤A2一致，相关之处请参见上述步骤A2的介绍，在此不再赘述。

但在本实现方式中，在选择出概率值超过预设概率阈值的各个基本情绪类别后，不是直接从这些基本情绪类别下分别选择一个概率值最高的基本情绪类型，作为从输入数据中识别出的各个情绪类型，而是将选择出的各个基本情绪类别分别作为候选类别，用以执行步骤B3。

步骤B3：将各个候选类别对应形成的每一复合情绪类型，以及从未对应形成复合情绪类型的每一候选类别下选择一个基本情绪类型，作为从所述输入数据中识别出的各个情绪类型。

通过步骤B2选择出超过预设概率阈值的各个概率值对应的各个基本情绪类别分别作为候选类别后，可以将这些候选类别中每两种不同候选类型对应形成的每一复合情绪类型，以及这些候选类别中没有对应形成符合情绪类型的每一候选类别下选择一个概率值最高的基本情绪类型，分别作为从收入数据中识别出的各个情绪类型。

举例说明：假设通过步骤B2选择出的概率值超过预设概率阈值的三个基本情绪类别分别为“喜悦”、“信任”、“惊讶”，这三种候选类别中，“喜悦”和“信任”对应形成了一个复合情绪类型“爱”，如图2所示，这是因为二者作为图2中相邻的两种基本情绪类别，且这两种基本情绪类别各自对应的概率值之间的差值小于预先设定的差值阈值，则可以将复合情感类型“爱”取代“喜悦”和“信任”，作为一种从输入数据中识别出的情绪类型。而“惊讶”并不能和“喜悦”、“信任”中任何一个情绪类别形成复合情绪类型，所以可以从“惊讶”下选择一个概率值最高的基本情绪类型，作为一种从输入数据中识别出的情绪类型，比如，假设“惊讶”下概率值最高的基本情绪类型为“惊讶(中)”，则可以将其作为从输入数据中识别出的一种情绪类型。此时，最终确定的从输入数据中识别出的情绪类型有两个，分别是“爱”和“惊讶(中)”。

进而，在从用户的输入数据中识别出各个情绪类型后，可以从预先构建的情绪表情库中随机选择出这些情绪类型分别对应的至少一个表情表达结果，并将这些表情表达结果作为表情序列推荐给用户，或者，也可以将各个情绪类型按照各自对应的概率值进行排序，并按照排序的高低，将各个情绪类型对应的表情表达结果构成一个表情序列推荐给用户使用。例如，基于上述步骤A2中的举例，“惊讶(强)”的概率(0.11)低于“生气(中)”的概率(0.13)，则在形成表情序列时，可以将从情绪表情库中随机选出的“生气(中)”对应的至少一个表情表达结果排在前面，而将从情绪表情库中随机选出的“惊讶(强)”对应的至少一个表情表达结果排在后面，形成一个有序的表情序列推荐给用户。

综上，本实施例提供的一种表情推荐方法，在接收到用户通过输入法输入的数据后，识别出该输入数据中蕴含的用户情绪状态，接着，根据用户的情绪状态向用户推荐符合其情绪状态的表情序列，该表情序列中包括了至少一个表情表达结果。可见，本实施例可以实时地识别用户的情绪状态，进而实时地进行表情推荐，不再具有表情推荐的滞后性，此外，从输入内容整体出发进行表情推荐，还提高了推荐结果的准确性。

第二实施例

需要说明的是，在本实施例中，当通过上述步骤S101接收到的用户输入数据为语音数据时，则第一实施例中步骤S102的实现过程具体可以包括：根据接收到的语音数据的声学特征和/或语音数据的识别文本的文本特征，识别出输入数据中蕴含的情绪状态。

其中，语音数据的声学特征可以是语音数据的频谱特征组成的序列，如梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)特征和梅尔滤波器组特征等。

一种可选的实现方式是，语音数据的声学特征可以包括初始声学特征，该初始声学特征包括语音数据中的每一语音帧的声学特征。具体来讲，该初始声学特征可以是一个H_A×T_A的2维矩阵，其中，T_A表示语音数据中包含的语音帧的个数，则各个语音帧为[帧1,帧2,……,帧T_A]，而每一语音帧的声学特征的维度为H_A，即“帧1”的声学特征的维度为H_A，……，“帧T_A”的声学特征的维度也为H_A。

此外，在对语音数据进行语音识别得到对应的识别文本后，可以提取出识别文本的文本特征，该文本特征指的是由文本包含的所有词语分别对应的词向量构成的词向量序列。例如，假设识别文本为“这东西这么贵我才不买”，在对其进行分词处理后，可得该识别文本对应的分词结果为“这东西这么贵我才不买”，再利用向量生成方法，计算出这七个分词分别对应的词向量，其中，每一词向量为一个低维的实数向量，比如，可以是50维或100维的实数向量，例如，可以为[0.792,-0.177,-0.107,0.109,-0.542,…]，用以刻画出不同分词词语之间的相关性或相似性。然后，可以将这七个分词对应的七个词向量按序组合，构成一个词向量序列，作为该识别文本对应的文本特征。

一种可选的实现方式是，识别文本的文本特征可以包括初始文本特征，该初始文本特征包括识别文本中的每一词语的词语特征。具体来讲，该初始文本特征可以是一个H_B×T_B的2维矩阵，其中，T_B表示识别文本中包含的分词词语个数，则各个词语为[词语1,词语2,……,词语T_B]，而每一词语的词语特征的维度为H_B，即“词语1”的词语特征的维度为H_B，……，“词语T_B”的词语特征的维度也为H_B。

基于此，接下来，本实施例将通过下述步骤S301-S303，对“根据语音数据的声学特征和语音数据的识别文本的文本特征，识别输入数据中蕴含的情绪状态”的具体实施方式进行介绍。

参见图3，其示出了本实施例提供的根据语音数据的声学特征和语音数据的识别文本的文本特征识别语音数据中蕴含的情绪状态的流程示意图，该流程包括以下步骤：

S301：转换语音数据的初始声学特征的表示方式，得到语音数据的目标声学特征。

在本实施例中，语音数据的初始声学特征为一个H_A×T_A的2维矩阵，可以通过预先构建的情绪识别模型的前端特征融合模型(如神经网络模型)对其表示方式进行转换后，可以得到初始声学特征的另一种表示方式，将其定义为语音数据的目标声学特征。如图4所示，以神经网络模型为例，将表示方式为一个H_A×T_A的2维矩阵的初始声学特征输入神经网络模型后，可以将其表示方式转换为H_A'×T_A'，并将其定义为语音数据的目标声学特征，其中，H_A×T_A与H_A'×T_A'的维度可能不同。

S302：转换识别文本的初始文本特征的表示方式，得到识别文本的中间文本特征。

在本实施例中，语音数据的识别文本的初始文本特征为一个H_B×T_B的2维矩阵，可以通过预先构建的情绪识别模型的前端特征融合模型(如神经网络模型)对其表示方式进行转换后，可以得到初始文本特征的另一种表示方式，定义为识别文本的中间文本特征。如图4所示，仍以神经网络模型为例，将表示方式为一个H_B×T_B的2维矩阵的初始文本特征输入神经网络模型后，可以将其表示方式转换为H_B'×T_B'，并将其定义为识别文本的中间文本特征，其中，H_B×T_B与H_B'×T_B'的维度可能不同。

需要说明的是，本实施例不限制步骤S301和S302的执行顺序。

S303：根据目标声学特征和中间文本特征，识别输入数据中蕴含的情绪状态。

通过步骤S301得到语音数据的目标声学特征H_A'×T_A'以及通过步骤S302得到识别文本的中间文本特征H_B'×T_B'后，可以对目标声学特征H_A'×T_A'和中间文本特征H_B'×T_B'进行数据处理，并根据处理结果，识别出输入数据中蕴含的情绪状态。

具体来讲，在本实施例的一种实现方式中，本步骤S303的具体实现方式可以包括以下步骤S3031-S3032：

S3031：将目标声学特征与中间文本特征进行特征融合，得到识别文本的目标文本特征。

通过步骤S301得到语音数据的目标声学特征H_A'×T_A'以及通过步骤S302得到识别文本的中间文本特征H_B'×T_B'后，可以通过注意力机制，将目标声学特征H_A'×T_A'与中间文本特征H_B'×T_B'进行特征融合，如图4所示，将目标声学特征H_A'×T_A'和中间文本特征H_B'×T_B'输入注意力机制模型后，模型的输出值即为识别文本对应的目标文本特征，定义为H_A'×T_B'，具体的实现过程包括以下步骤C1-C4：

步骤C1：将目标声学特征中的每一特征单元，分别作为第一特征。

在本实现方式中，将目标声学特征H_A'×T_A'表示为

其中，s_i为目标声学特征H_A'×T_A'中的第i个特征单元，表征了语音数据中第i个语音帧的声学特征，对应的维度为H_A'，将s_i定义为第i个第一特征，i可取为1至T_A'中的任一整数。

步骤C2：将中间文本特征中的每一特征单元，分别作为第二特征。

在本实现方式中，将中间文本特征H_B'×T_B'表示为

其中，h_j为中间文本特征H_B'×T_B'中的第j个特征单元，表征了识别文本中第j个词语的词语特征，对应的维度为H_B'，将h_j定义为第j个第二特征，j可取为1至T_B'中的任一整数。

需要说明的是，本实施例不限制步骤C1和C2的执行顺序。

步骤C3：对于每一第二特征，生成第二特征与每一第一特征之间的注意力系数，并将各个第一特征与各个注意力系数进行加权计算，得到对应于该第二特征的融合特征，其中，该注意力系数表征了该第二特征与对应第一特征之间的相关性大小。

通过步骤C1得到各个第一特征以及通过步骤C2得到各个第二特征后，对于每一个第二特征，利用注意力机制模型，可以生成该第二特征与每一第一特征之间的注意力系数，具体的计算公式如下：

a_ij＝score(h_j,s_i)＝V*tanh(W_s·s_i+W_h·h_j) (1)

其中，s_i为第i个第一特征，表示了目标声学特征H_A'×T_A'中的第i个特征单元，i可取为1至T_A'中的任一整数；h_j为第j个第二特征，表示了中间文本特征H_B'×T_B'中的第j个特征单元，j可取为1至T_B'中的任一整数；W_s和W_h分别表示对s_i和h_j做变换所使用的矩阵；a_ij表示第j个第二特征h_j与第i个第一特征s_i之间的注意力系数。

在公式(1)中，a_ij的取值表征了第j个第二特征与第i个第一特征之间的相关性大小，a_ij的取值越高，则表明二者之间的相关性越大，反之，则表明二者之间的相关性越小。

这样，可以通过上述公式(1)计算出第j个第二特征h_j与每一第一特征之间的注意力系数

之后，计算第i个第一特征s_i对应的注意力系数a_ij在各个第一特征对应的注意力系数中所占的比重，作为第i个第一特征s_i对应的权重值，再利用计算出的各个权重值，与对应的各个第一特征进行加权计算，可以得到对应于第j个第二特征h_j的融合特征。

具体来讲，可以通过下面公式(2)计算出第i个第一特征s_i对应的注意力系数a_ij在各个第一特征对应的注意力系数中所占的比重e_ij：

其中，a_ij表示第j个第二特征h_j与第i个第一特征s_i之间的注意力系数。

进而，可根据计算出的各个权重，利用下述公式(3)将各个第一特征进行加权计算，得到对应于第j个第二特征h_j的融合特征。

其中，c_j表示第j个第二特征h_j的融合特征；s_i为第i个第一特征；e_ij表示第i个第一特征s_i对应的注意力系数a_ij在各个第一特征对应的注意力系数中所占的比重。

步骤C4：将各个第二特征对应的融合特征进行组合，得到识别文本的目标文本特征。

通过步骤C3计算出每一第二特征的融合特征后，可以将各个第二特征对应的融合特征进行组合，得到识别文本的目标文本特征，比如，可以将每一第二特征的融合特征进行特征拼接，并将拼接后的结果作为识别文本的目标文本特征。

S3032：根据目标文本特征与中间文本特征，识别输入数据中蕴含的情绪状态。

通过步骤S3031将目标声学特征与中间文本特征进行特征融合，得到识别文本的目标文本特征后，可以根据目标文本特征与中间文本特征，得到表征用户情绪状态的特征数据。如图4所示，可以将目标文本特征H_A'×T_B'与中间文本特征H_B'×T_B'进行组合，生成新的特征向量(H_A'+H_B')×T_B'后，将该新生成的特征向量(H_A'+H_B')×T_B'输入至预先构建的情绪识别模型的后端识别模型，该模型结构可以是深度神经网络中的前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组合形式，且神经网络的隐层数一般取为3到8层，并且，每个隐层的节点数一般可以取为2048个。通过该后端识别模型进行情绪识别后，可以输出一个24维的情绪预测向量，其中，每个向量元素值代表了识别出的一种基本情绪类型对应的概率值，该值可以介于0-1之间，且这24个向量元素值的和为1，进而可以根据输出的各个概率值，识别出输入数据中蕴含的各个情绪类型，具体地基于概率值识别用户输入数据中的各个情绪类型的方式，请参见第一实施例中的相关介绍。

综上，本实施例在获取到用户通过输入法输入的语音数据后，首先提取出该语音数据的声学特征和该语音数据的识别文本的文本特征，然后再利用预先构建的情绪识别模型，根据这些特征数据，识别出输入数据中蕴含的各个情绪类型，从而能够实时、准确的向用户推荐出更符合用户情绪状态的表情表达结果。

第三实施例

本实施例将对上述实施例中提及的情绪识别模型的构建过程进行介绍。具体来讲，主要是对情绪识别模型的后端识别模型的构建过程进行介绍。

参见图5，其示出了本实施例提供的构建情绪识别模型的流程示意图，该流程包括以下步骤：

S501：预先收集大量的语音数据，并对其进行处理得到模型训练数据。

在本实施例中，为了构建后端识别模型，需要预先进行大量的准备工作，首先，需要收集用户历史输入的大量语音数据，比如，可以通过智能终端(如手机)上安装的麦克风预先收集用户通过输入法输入的大量历史语音，并对收集到的所有语音数据进行语音识别，以得到对应的识别文本，并将每条语音数据作为样本数据。

进一步的，在收集到大量用户的历史语音数据作为样本数据后，本实施例将由人工根据具体的实际情况，对各个样本数据进行整理、分类和标注，即，人工对每条语音数据标注基本情绪类型标签。并且每条语音数据标签可以同时被标记成24种基本情绪类型中的一个或多个基本情绪类型标签。例如，对于样本数据“这东西这么贵我才不买”来说，对其标注的基本情绪类型标签可以为“惊讶(强)”、“生气(中)”。而对于样本数据“赶快来呀”来说，对其标注的基本情绪类型标签可以为“期待(强)”、“喜悦(中)”。由于人工标注往往具有一定的主观性，因此，可以通过多人交叉验证的方式实现对各个样本数据更为精确的标签标注。

进一步的，在对各个样本数据进行人工标注后，还需要将标注结果转换成一个24维的向量，该向量中每一维向量元素值是一个“0或1”的数值，且每一维向量元素值代表了每一基本情绪类型对应的概率值，如图6所示，该向量从左向右分别表示“喜悦(强)、喜悦(中)、喜悦(弱)、信任(强)、信任(中)、信任(弱)、害怕(强)、害怕(中)、害怕(弱)、惊讶(强)、惊讶(中)、惊讶(弱)、难过(强)、难过(中)、难过(弱)、恶心(强)、恶心(中)、恶心(弱)、生气(强)、生气(中)、生气(弱)、期待(强)、期待(中)、期待(弱)”。

举例说明：对样本数据“这玩意这么贵我才不买”进行人工标注后，得到的标注结果转换向量为：[0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0]。而对样本数据“赶快来呀”进行人工标注后，得到的标注结果转换向量为：[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0]。

S502：构建情绪识别模型的后端识别模型。

在本实施例中，通过步骤S501收集了用户大量历史输入的语音数据并作为样本数据，以及对其进行人工标注以构成模型训练数据后，进一步的，可以构建一个初始的后端识别模型，并初始化模型参数，进而可通过后续步骤S503利用预先收集的模型训练数据对初始构建的后端识别模型进行训练。

S503：利用预先收集的模型训练数据，对后端识别模型进行训练。

在本实施例中，依次从模型训练数据中提取一条样本数据，进行多轮模型训练，直到满足训练结束条件为止，此时，即训练得到后端识别模型。

具体地，在进行本轮训练时，可以将第二实施例中的输入数据替换为本轮提取的样本数据，通过当前的后端识别模型，按照第二实施例中的执行过程，便可以识别出该样本数据中蕴含的各个情绪类型。具体地，按照上述第一实施例中的步骤A1，便可以在对样本数据进行识别后，输出一个24维的情绪预测向量，该情绪预测向量中的每一维向量元素值均是区间[0,1]中的一个数值。然后，可以将情绪预测向量与对应的人工标注结果的转换向量进行比较，并根据二者的差异对模型参数进行更新。

在训练过程中，一种可选的实现方式是，可以利用给定的目标函数，来构建情绪识别模型，实际是构建情绪识别模型的后端识别模型，其中，目标函数用于区分各个基本情绪类型且用于区分各个基本情绪类别，这里，每一种基本情绪类别下包括一种或多种基本情绪类型，例如，上述举例中的8种基本情绪类别，每一种基本情绪类别下包括3种基本情绪类型，那么，目标函数则用于区分24种基本情绪类型且用于区分8种基本情绪类别。

具体来讲，为了训练出识别效果更好的后端识别模型，在训练过程中，本实施例采用的目标函数如下：

其中，X(l_i)表示样本数据中蕴含第i个基本情绪类型的预测概率向量；Y(l_i)表示样本数据中蕴含第i个基本情绪类别的预测概率向量；Y(l_j)表示样本数据中蕴含第j个基本情绪类别的预测概率向量；X的维度为K₁，比如24个，X表示对模型输出前的隐层向量做归一化(softmax)计算后输出的向量；Y的维度为K₂，比如8个，Y表示将模型输出前的隐层向量按照K₂类基本情绪类别对应的激活值进行累加，再做softmax计算后输出的向量。

在公式(4)中，X的具体计算公式为下述公式(5)，Y的具体计算公式为下述公式(6)：

X＝soft max[a₁,a₂,a_3，,b₁,b_2，,b₃,...,h₁,h₂,h₃] (5)

Y＝soft max[(a₁+a₂+a_3，),...,(h₁+h₂+h₃)] (6)

其中，上述公式(5)和(6)中的每一元素表示每一基本情绪类型对应的激活值。例如，a₁,a₂,a₃,表示模型隐层向量中“喜悦”这一基本情绪类别对应的三种不同程度(强、中、弱)的激活值，该激活值可以通过激活函数，比如tanh函数，在模型训练之前进行初始化，在模型训练过程中，每一激活值会根据每轮的训练情况进行更新，以此类推，b₁,b_2，,b₃,...,h₁,h₂,h₃表示模型隐层向量中“信任、害怕、惊讶、难过、恶心、生气、期待”这7种基本情绪类别各自对应的三种不同程度(强、中、弱)的激活值。

上述公式(4)中的目标函数包含了两部分内容，其中，通过左半部分的计算公式

可以使得预先对样本数据标注的基本情绪类型相比较其他基本情绪类型，在训练过程中能够越来越突出，即，在输出的情绪预测向量中对应了较大的概率值，所以其可以用以区分出各个不同的基本情绪类型，比如，可以用以区别出24种不同的基本情绪类型；而右边部分的计算公式

可以使得各个基本情绪类别之间的差异性更大，保证输出的情绪预测向量中不同情绪类别对应的概率值有明显差距，所以可以用于区分各个不同的基本情绪类别，比如，可以区别出上述8种不同的基本情绪类别。

使用上述公式(4)中的目标函数对情绪识别模型的后端识别模型进行训练时，可以根据loss值的变化，对后端识别模型的模型参数进行不断更新，直至loss值满足要求，比如变化幅度很小，则停止模型参数的更新，完成后端识别模型的训练。

第四实施例

本实施例将对一种表情推荐装置进行介绍，相关内容请参见上述方法实施例。

参见图7，为本实施例提供的一种表情推荐装置的组成示意图，该装置700包括：

输入数据接收单元701，用于接收输入数据，所述输入数据为用户通过输入法输入的数据；

情绪状态识别单元702，用于识别所述输入数据中蕴含的情绪状态；

表情序列推荐单元703，用于向所述用户推荐符合所述情绪状态的表情序列，所述表情序列包括至少一个表情表达结果。

在本实施例的一种实现方式中，所述输入数据为语音数据；则所述情绪状态识别单元702具体用于：

在本实施例的一种实现方式中，所述情绪状态识别单元702包括：

在本实施例的一种实现方式中，所述情绪状态识别子单元包括：

在本实施例的一种实现方式中，所述特征融合子单元包括：

在本实施例的一种实现方式中，所述情绪状态识别单元702具体用于：

识别所述输入数据中蕴含的各个情绪类型；

则，所述表情序列推荐单元703具体用于：

在本实施例的一种实现方式中，所述情绪表情库中包括M种基本情绪类型中的每一基本情绪类型下的至少一个表情表达结果，且M种基本情绪类型被划分成L个基本情绪类别，M≥L≥1。

在本实施例的一种实现方式中，所述情绪表情库中还包括N种复合情绪类型中的每一复合情绪类型下的至少一个表情表达结果，所述复合情绪类型包含了至少两种不同的基本情绪类别的情绪状态，N≥1。

进一步地，本申请实施例还提供了一种表情推荐设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述表情推荐方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述表情推荐方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述表情推荐方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种表情推荐方法，其特征在于，包括：

识别所述输入数据中蕴含的情绪状态；

向所述用户推荐符合所述情绪状态的表情序列，所述表情序列包括至少一个表情表达结果；

其中，所述输入数据为语音数据；则，所述识别所述输入数据中蕴含的情绪状态，包括：

转换所述语音数据的识别文本的初始文本特征的表示方式，得到所述识别文本的中间文本特征；

将各个第二特征对应的融合特征进行组合，得到所述识别文本的目标文本特征；

2.根据权利要求1所述的方法，其特征在于，所述识别所述输入数据中蕴含的情绪状态，包括：

识别所述输入数据中蕴含的各个情绪类型；

3.根据权利要求2所述的方法，其特征在于，所述情绪表情库中包括M种基本情绪类型中的每一基本情绪类型下的至少一个表情表达结果，且M种基本情绪类型被划分成L个基本情绪类别，M≥L≥1。

4.根据权利要求3所述的方法，其特征在于，所述识别所述输入数据中蕴含的各个情绪类型，包括：

5.根据权利要求4所述的方法，其特征在于，所述情绪表情库中还包括N种复合情绪类型中的每一复合情绪类型下的至少一个表情表达结果，所述复合情绪类型包含了至少两种不同的基本情绪类别的情绪状态，N≥1。

6.根据权利要求5所述的方法，其特征在于，所述识别所述输入数据中蕴含的各个情绪类型，包括：

7.一种表情推荐装置，其特征在于，包括：

表情序列推荐单元，用于向所述用户推荐符合所述情绪状态的表情序列，所述表情序列包括至少一个表情表达结果；

其中，所述输入数据为语音数据；则所述情绪状态识别单元具体用于：

第二转换子单元，用于转换识别文本的初始文本特征的表示方式，得到所述识别文本的中间文本特征；

情绪状态识别子单元，用于将所述目标声学特征中的每一特征单元，分别作为第一特征；将所述中间文本特征中的每一特征单元，分别作为第二特征；对于每一第二特征，生成所述第二特征与每一第一特征之间的注意力系数，并将各个第一特征与各个注意力系数进行加权计算，得到对应于所述第二特征的融合特征，所述注意力系数表征了所述第二特征与对应第一特征之间的相关性大小；将各个第二特征对应的融合特征进行组合，得到所述识别文本的目标文本特征；根据所述目标文本特征与所述中间文本特征，识别所述输入数据中蕴含的情绪状态。

8.根据权利要求7所述的装置，其特征在于，所述情绪状态识别单元具体用于：

识别所述输入数据中蕴含的各个情绪类型；

则，所述表情序列推荐单元具体用于：

9.根据权利要求8所述的装置，其特征在于，所述情绪表情库中包括M种基本情绪类型中的每一基本情绪类型下的至少一个表情表达结果，且M种基本情绪类型被划分成L个基本情绪类别，M≥L≥1。

10.根据权利要求9所述的装置，其特征在于，所述情绪状态识别单元包括：

11.根据权利要求10所述的装置，其特征在于，所述情绪表情库中还包括N种复合情绪类型中的每一复合情绪类型下的至少一个表情表达结果，所述复合情绪类型包含了至少两种不同的基本情绪类别的情绪状态，N≥1。

12.根据权利要求11所述的装置，其特征在于，所述情绪状态识别单元包括：

13.一种表情推荐设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-6任一项所述的方法。