CN116108836A

CN116108836A - 文本情感识别方法、装置、计算机设备及可读存储介质

Info

Publication number: CN116108836A
Application number: CN202310377930.8A
Authority: CN
Inventors: 李太豪; 阮玉平
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-05-12
Anticipated expiration: 2043-04-10
Also published as: CN116108836B

Abstract

本申请涉及一种文本情感识别方法、装置、计算机设备及可读存储介质。所述方法包括：获取待识别文本和文本语料集，其中，所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签；确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量；获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。本申请提供的文本情感识别方法将表情特征向量作为辅助识别情感的工具，可以有效提高文本情感识别结果的准确度。

Description

文本情感识别方法、装置、计算机设备及可读存储介质

技术领域

本申请涉及文本识别技术领域，特别是涉及一种文本情感识别方法、装置、计算机设备及可读存储介质。

背景技术

文本情感识别作为人工智能领域的重要研究方向，有着重大的应用价值及广泛的应用场景，例如智慧客服、智慧教育、心理疏导、舆情监控等。通过赋予机器识别人类情感的能力，可使得机器能更好地对人类活动进行理解及反馈。

在相关技术中，文本情感识别方法大多基于深度神经网络方法，其主要利用深度神经网络的特征学习能力，从输入的文本数据中学习到与情感分类相关的特征，以避免传统机器学习方法中繁琐的人工特征设计流程。然而相关技术中的文本识别方法很大程度上依赖文本的标注数据，在标注数据类型难以准确表达文本情感或标注数据数量不足的情况下，文本情感识别结果的准确度相对较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本情感识别准确度的文本情感识别方法、装置、计算机设备及可读存储介质。

第一方面，本申请提供了一种文本情感识别方法。所述方法包括：

获取待识别文本和文本语料集，其中，所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签；

确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量；

获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。

在其中一个实施例中，所述确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值包括：

分别将所述待识别文本和所述多个文本语句输入至语句相似度匹配模型中，输出所述待识别文本的表征向量和每个所述文本语句的表征向量；

确定所述待识别文本的表征向量与每个所述文本语句的表征向量的余弦相似度值作为所述相似度值。

在其中一个实施例中，在分别将所述待识别文本和所述多个文本语句输入至语句相似度匹配模型中之前，所述方法还包括：

获取开放域文本样本数据，并基于所述文本样本数据训练得到初始语句相似度对比模型；

基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型，其中，所述第一目标损失函数为基于所述多个表情标签确定的有监督对比学习目标函数，所述第二目标损失函数为无监督对比学习目标函数。

在其中一个实施例中，所述基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型包括：

基于预设权重系数确定所述第一目标损失函数和第二目标损失函数的加权和作为第三目标损失函数；

基于所述文本语料集、第三目标损失函数训练所述初始语句相似度对比模型，得到训练完备的所述语句相似度匹配模型。

在其中一个实施例中，在所述基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型之前，还包括：

滤除所述文本语料集中的干扰信息，并确定大于预设字数且仅包含相同类型表情标签的预处理文本语句；

拆分所述预处理文本语句，得到相匹配的所述多个文本语句和所述多个表情标签。

在其中一个实施例中，所述基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量包括：

获取所述文本语料集中相似度值最高的预设数量的文本语句，并确定与所述预设数量的文本语句匹配的表情标签的表情嵌入向量；

对所述相似度值进行归一化处理，得到加权值，并基于所述加权值和所述表情嵌入向量确定动态表情特征向量，将所述动态表情特征向量作为所述待识别文本的表情特征向量。

在其中一个实施例中，所述基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量还包括：

将与相同类型表情标签匹配的文本语句的表征向量进行加和平均，得到与多个类型表情标签匹配的多个第一静态标签向量；

将与所述预设数量的文本语句匹配的表情标签映射至所述多个第一静态标签向量得到第二静态标签向量；

基于所述加权值和所述第二静态标签向量确定静态表情特征向量，将所述动态表情特征向量和所述静态表情特征向量作为所述待识别文本的表情特征向量。

在其中一个实施例中，所述基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型包括：

将所述语义特征向量和所述表情特征向量进行特征融合，得到预设情感类型数量的融合特征向量；

确定所述融合特征向量属于每种情感类型的概率值，并基于所述概率值确定所述待识别文本的情感类型。

在其中一个实施例中，所述确定所述融合特征向量属于每种情感类型的概率值，并基于所述概率值确定所述待识别文本的情感类型包括：

将所述融合特征向量进行归一化处理，基于归一化处理结果确定所述待识别文本属于每种情感类型的概率值；

将所述概率值最大的情感类型作为待识别文本的情感类型。

第二方面，本申请还提供了一种文本情感识别装置。所述装置包括：

文本获取模块，用于获取待识别文本和文本语料集，其中，所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签；

表情特征向量确定模块，用于确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量；

情感类型确定模块，用于获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任意一项所述文本情感识别方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任意一项所述文本情感识别方法的步骤。

上述文本情感识别方法、装置、计算机设备及可读存储介质，通过获取待识别文本和文本语料集，文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签，确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量，再获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。在文本语料中包含大量的表情符号如颜文字等，这些表情符号与人类情感直接相关且能够准确地表达该文本语料的情感，因此将表情符号作为相应文本语句的表情标注，通过提取、迁移利用表情符号信息可以有效提高文本情感识别的准确度。本申请实施例基于待识别文本与文本语料集中文本语句的相似度、表情标签确定表情特征向量，并基于表情特征向量和语义特征向量综合确定待识别文本的情感类型，在量化语句相似度以及将表情标签作为辅助识别情感工具的基础上，既可以更准确地匹配文本语料集中与待识别文本相似的文本语句，也充分利用了表情标签中的表情符号信息作为情感识别的重要依据，能够有效提高文本情感识别结果的准确度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一个实施例中文本情感识别方法的应用环境图；

图2为一个实施例中文本情感识别方法的流程示意图；

图3为一个实施例中文本情感识别系统架构示意图；

图4为一个实施例中文本情感识别装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

以下所使用的术语“模块”、“单元”等为可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以硬件来实现，但是软件，或者软件和硬件的组合的实现也是可能并被构想的。

本申请实施例提供的文本情感识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102获取待识别文本和文本语料集，确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量。在一些实施例中，文本语料集可以由服务器104端发送至终端102中，并由终端102确定相似度值及表情特征向量。在其他实施例中，也可以由终端102将待识别文本发送至服务器104，由服务器104确定相似度值及表情特征向量。终端102或服务器104获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。在一些实施例中，若由服务器104确定所述待识别文本的情感类型，还可以将确定的待识别文本情感类型发送至终端102后反馈至用户。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

文本情感识别作为人工智能领域的重要研究方向，有着重大的应用价值及广泛的应用场景，例如智慧客服、智慧教育、心理疏导、舆情监控等。通过赋予机器识别人类情感的能力，可使得机器能更好地对人类活动进行理解及反馈。在相关技术中，文本情感识别方法大多基于深度神经网络方法，其主要利用深度神经网络的特征学习能力，从输入的文本数据中学习到与情感分类相关的特征，以避免传统机器学习方法中繁琐的人工特征设计流程。然而相关技术中的文本识别方法很大程度上依赖文本的标注数据，在标注数据类型难以准确表达文本情感或标注数据数量不足的情况下，文本情感识别结果的准确度相对较低。在文本情感识别技术领域内，目前仍旧缺乏大规模的标注数据集，导致当前端到端深度神经网络模型的效果有待提升。

基于此，在本申请实施例中，如图2所示，提供了一种文本情感识别方法，以该方法应用于图1中的应用场景为例进行说明，包括以下步骤：

S201：获取待识别文本和文本语料集，其中，所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签。

本申请实施例中，待识别文本为需要进行情感类型识别的目标文本，待识别文本可以包括文字、词语、短语或句子中任意一种形式的文本。在其他实施例中，待识别文本还可以包括文字与表情符号的组合，其中表情符号可以包括颜文字、emoji（绘文字）、emoticon（表情符号）等。文本语料集可以包括将由社交平台获取的原始语料集进行预处理后，得到的以表情标签标注的文本语句集合，具体而言，文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签。其中，文本语句可以包括文字、词语、短语或句子中任意一种形式的文本，在其他实施例中，文本语句还可以包括大于预设字数的短语或句子。表情标签可以包括与文本语料集中每个文本语句表达情感类型相匹配的以表情符号表示的标签，表情标签可以包括原始语料集中原始语句中包含的表情符号。在其他实施例中，表情标签也可以包括基于语句情感类型对原始文本语料集中文本语句人工或自动标注的表情符号。

本申请实施例中，获取待识别文本可以包括由终端设备获取需要进行情感类型识别的文本，获取待识别文本的方法包括但不限于人工输入、摄像录像、扫描输入、设置预设程序自动获取等。获取文本语料集可以包括获取原始语料集，并将原始语料集进行预处理后得到文本语料集。获取原始语料集可以包括获取公共社交平台中的文本得到原始语料集，在一些具体实施例中，可以包括利用Python爬虫技术从开放社交平台自动爬取收集文本语句，并形成原始语料集。在一些实施例中，所述预处理包括将原始语料集中原始语句所包含的表情符号作为表情标签，并将剔除表情符号的原始语句作为文本语句得到文本语料集。在另一些实施例中，所述预处理还可以包括将不包含表情符号的原始语句作为文本语句，并基于原始语句的情感类型标注匹配的表情符号作为表情标签得到文本语料集。

S203：确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量。

本申请实施例中，表征向量为表示文本情感特征的向量，即待识别文本的表征向量为以向量形式表示待识别文本的情感特征，文本语料集中每个所述文本语句的表征向量为以向量形式表示文本语句的情感特征。相似度值为待识别文本的表征向量与每个文本语句的表征向量的相似程度数值，在一些实施例中，相似度值可以包括余弦相似度值。待识别文本的表情特征向量包括，在文本语料集中与待识别文本的情感特征具有高相似度的文本语句对应的表情标签所表示的情感特征的向量。

本申请实施例中，确定待识别文本的表征向量与每个文本语句的表征向量的相似度值可以包括，分别将待识别文本和多个文本语句输入至语句相似度匹配模型中，输出待识别文本的表征向量和每个所述文本语句的表征向量，再确定所述待识别文本的表征向量与每个所述文本语句的表征向量的余弦相似度值作为相似度值。语句相似度匹配模型可以分析输入文本的情感特征，并输出能够表示该输入文本情感特征的表征向量。在一些实施例中，语句相似度匹配模型可以基于文本语料集训练得到。在另一些实施例中，语句相似度匹配模型还可以基于原始语料集训练得到初始语句相似度对比模型，再基于文本语料集训练初始语句相似度对比模型后得到语句相似度匹配模型。

本申请实施例中，基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量可以包括，获取所述文本语料集中待识别文本的表征向量和每个所述文本语句的表征向量相似度值最高的预设数量的文本语句，并确定与预设数量的文本语句匹配的表情标签的表情嵌入向量，对相似度值进行归一化处理得到加权值，并基于加权值和表情嵌入向量确定动态表情特征向量，将所述动态表情特征向量作为所述待识别文本的表情特征向量。

在其他实施例中，基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量还可以包括，基于相同类型表情标签匹配的文本语句的表征向量确定第一静态标签向量，将相似度值最高的预设数量的文本语句匹配的表情标签映射至第一静态标签向量得到第二静态标签向量，基于第二静态标签向量确定静态表情特征向量，并将动态表情特征向量和静态表情特征向量作为待识别文本的表情特征向量。

S205：获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。

本申请实施例中，待识别文本的语义特征向量为以向量形式表示待识别文本的语义特征。获取待识别文本的语义特征向量可以包括，将待识别文本输入语义特征向量提取模型，输出待识别文本的语义特征向量。在一个具体实施例中，获取所述待识别文本的语义特征向量包括，将待识别文本输入到开源中文预训练模型BERT中，并获取BERT中“[CLS]”字符对应的编码向量作为待识别文本的语义特征向量 T。

本申请实施例中，基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型可以包括，将语义特征向量和表情特征向量进行特征融合，得到预设情感类型数量的融合特征向量，确定融合特征向量属于每种情感类型的概率值，并基于概率值确定所述待识别文本的情感类型。

上述文本情感识别方法通过获取待识别文本和文本语料集，文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签，确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量，再获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。在文本语料中包含大量的表情符号如颜文字等，这些表情符号与人类情感直接相关且能够准确地表达该文本语料的情感，因此将表情符号作为相应文本语句的表情标注，通过提取、迁移利用表情符号信息可以有效提高文本情感识别的准确度。本申请实施例基于待识别文本与文本语料集中文本语句的相似度、表情标签确定表情特征向量，并基于表情特征向量和语义特征向量综合确定待识别文本的情感类型，在量化语句相似度以及将表情标签作为辅助识别情感工具的基础上，既可以更准确地匹配文本语料集中与待识别文本相似的文本语句，也充分利用了表情标签中的表情符号信息作为情感识别的重要依据，能够有效提高文本情感识别结果的准确度。

本申请实施例中，步骤S203中确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值包括：

S301：分别将所述待识别文本和所述多个文本语句输入至语句相似度匹配模型中，输出所述待识别文本的表征向量和每个所述文本语句的表征向量。

S303：确定所述待识别文本的表征向量与每个所述文本语句的表征向量的余弦相似度值作为所述相似度值。

本申请实施例中，将待识别文本query输入至语句相似度匹配模型 Model _cse中，输出待识别文本query的表征向量q；将多个文本语句 s _i输入至语句相似度匹配模型 Model _cse中，输出每个所述文本语句 s _i的表征向量 v _i。确定待识别文本query的表征向量q与每个所述文本语句 s _i的表征向量 v _i的余弦相似度值 a _i作为相似度值。本申请实施例中确定向量间余弦相似度值的方法可以参考相关技术中的方法，本申请不再赘述。

本申请实施例通过相似度匹配模型输出待识别文本和文本语料集中每个文本语句的表征向量，可以通过向量有效表达待识别文本和文本语句的情感特征，再通过余弦相似度值量化待识别文本和文本语句的相似程度，可以在文本语料集中有效筛选出与待识别文本情感类型相似的文本语句，提高了待识别文本情感识别结果的准确度。

下面通过本申请实施例说明步骤S301中所述语句相似度匹配模型的训练方法，在分别将所述待识别文本和所述多个文本语句输入至语句相似度匹配模型中之前，所述方法还包括：

S401：获取开放域文本样本数据，并基于所述文本样本数据训练得到初始语句相似度对比模型。

S403：基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型，其中，所述第一目标损失函数为基于所述多个表情标签确定的有监督对比学习目标函数，所述第二目标损失函数为无监督对比学习目标函数。

本申请实施例中，开放域文本样本数据可以在开源的开放域语料库中获取，在一些具体的实施例中，开放域语料库可以包括XNLI（Natural Language Inference，跨语言的自然语言推理语料库）、CLUECorpus等。基于文本样本数据训练得到初始语句相似度对比模型SimCSE（Simple ContrastiveSentence Embedding）。基于文本语料集 Corpus _clean、第一目标损失函数 L _e和第二目标损失函数 L ₀训练初始语句相似度对比模型SimCSE得到所述语句相似度匹配模型 Model _cse，其中，第一目标损失函数 L _e为基于所述多个表情标签确定的有监督对比学习目标函数，所述第二目标损失函数 L ₀为无监督对比学习目标函数。

在一些实施例中，第一目标损失函数 L _e可以根据式（1）确定：

（1）

其中，（ x， x ⁺）为文本语料集 Corpus _clean中具有相同表情标签的正样本对，（ x， x ^-）为具有不同表情标签的负样本对，（ x， x ⁺）、（ x， x ^-）均为向量对， x为文本语料集 Corpus _clean中的文本语句特征向量， x ^T为向量 x的转置。第二目标损失函数 L ₀为初始语句相似度对比模型SimCSE中原始的无监督对比学习目标损失函数。

本申请实施例中，在步骤S403中基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型包括：

S501：基于预设权重系数确定所述第一目标损失函数和第二目标损失函数的加权和作为第三目标损失函数。

S503：基于所述文本语料集、第三目标损失函数训练所述初始语句相似度对比模型，得到训练完备的所述语句相似度匹配模型。

本申请实施例中，第三目标损失函数 L可以根据式（2）确定：

（2）

其中， L _e为第一目标损失函数， L ₀为第二目标损失函数， λ为预设权重系数，即基于预设权重系数 λ将第一目标损失函数 L _e和第二目标损失函数 L ₀的加权和 L作为第三目标损失函数。以第三目标损失函数 L作为训练目标，将文本语料集 Corpus _clean作为训练集，进一步训练初始语句相似度对比模型SimCSE即可得到训练完备的语句相似度匹配模型 Model _cse。

本申请实施例将有监督对比学习的第一目标损失函数和无监督对比学习的第二目标函数基于预设权重系数确定为最终的第三目标损失函数，一方面可以根据实际需要调整预设权重系数调整训练方式，即增大第一目标损失函数的占比可以提高情感类型的分类效果，增大第二目标损失函数的占比可以提高情感类型的聚类效果，能够调节语句相似度匹配模型在训练过程中的不同倾向，使文本情感识别结果更加可控。另一方面，综合考虑有监督对比学习目标和无监督对比学习目标，能够使语句相似度匹配模型进行更精准的相似语义检索，输出的表征向量更加精确，有效提高待识别文本最终情感识别结果的准确度。

为进一步提高文本语料集的质量，提高相关模型训练的效率以及待识别文本情感识别结果的准确度，本申请实施例在步骤S403中基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型之前，还包括：

S601：滤除所述文本语料集中的干扰信息，并确定大于预设字数且仅包含相同类型表情标签的预处理文本语句。

S603：拆分所述预处理文本语句，得到相匹配的所述多个文本语句和所述多个表情标签。

本申请实施例中，步骤S201中获取的文本语料集，在预处理前可以以式（3）中原始文本语料集 Corpus _ori进行表示：

（3）

其中， x _i（ i=1,2，…， M）为文本语句， M表示文本语料集中文本语句的数量。滤除原始文本语料集 Corpus _ori中的干扰信息，可以包括利用正则表达式滤除文本语句 x _i中的网址、邮箱、日期、数字等无关干扰信息。确定大于预设字数且仅包含相同类型表情标签的预处理文本语句，可以清除字数过少导致表达情感特征较为模糊的文本语句，将仅包含相同类型表情标签的文本语句作为预处理文本语句，可以清除掉包含多种类型表情符号导致情感特征模糊的单条文本语句。在一些具体的实施例中，可以在滤除文本语句 x _i中的网址、邮箱、日期、数字等无关干扰信息后，将字数大于5且仅包含1种表情符号的文本语句作为预处理文本语句。

本申请实施例中，拆分预处理文本语句，得到相匹配的多个文本语句和多个表情标签可以包括，提取各文本语句 x _i中的表情符号作为相应文本语句的表情标签 l _i，并删除原文本语句 x _i中对应的表情符号得到预处理完成的文本语句 s _i。基于相匹配的多个文本语句 s _i和多个表情标签 l _i可以得到以式（4）表示的预处理完成的文本语料集 Corpus _clean：

（4）

其中， s _i（ i=1,2，…， N）为预处理完成的文本语句， l _i（ i=1,2，…， N）为自动提取的表情标签， N为预处理完成的文本语料集中文本语句的数量。

本申请实施例中，通过滤除文本语料集中的干扰信息，以及排除情感特征模糊的文本语句，并以文本语句和表情标签的形式得到预处理完成的文本语料集，能够有效提高文本语料集的质量，进而提高相关模型训练的效率，也可以有效提高待识别文本情感识别结果的准确度。

下面通过本申请实施例说明基于相似度值和多个表情标签确定待识别文本的表情特征向量的两种方式。

本申请实施例中，步骤S203中基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量包括：

S701：获取所述文本语料集中相似度值最高的预设数量的文本语句，并确定与所述预设数量的文本语句匹配的表情标签的表情嵌入向量。

S703：对所述相似度值进行归一化处理，得到加权值，并基于所述加权值和所述表情嵌入向量确定动态表情特征向量，将所述动态表情特征向量作为所述待识别文本的表情特征向量。

本申请实施例中，获取文本语料集中待识别文本的表征向量q和每个所述文本语句 s _i的表征向量 v _i相似度值 a _i最高的预设数量的文本语句。在一些具体实施例中，所述预设数量可以为10-50中的任意数值，本申请对此不做限制。

在一些实施例中，还可以将文本语料集中相似度值 a _i最高的预设数量的文本语句根据相似度值大小进行排序，根据式（5）得到相似语句集合 Corpus _a：

（5）

其中， a _i（ i=1,2，…， K）为待识别文本的表征向量q和每个所述文本语句 s _i的表征向量 v _i相似度值， l _i（ i=1,2，…， K）为与该相似度值对应文本语句 s _i匹配的表情标签， K为预设数量。

本申请实施例中，确定与所述预设数量的文本语句匹配的表情标签的表情嵌入向量可以包括，定义一层参数可学习的表情符号embedding层（嵌入层），将预设数量文本语句 s _i对应的表情标签标签 l _i映射到相应的表情符号得到嵌入向量 f _i ^d，嵌入向量 f _i ^d可以随语句相似度匹配模型的训练而动态更新。

本申请实施例中，对所述相似度值进行归一化处理，得到加权值可以包括，将预设数量的文本语句 s _i对应的相似度值 a _i作为softmax（指数归一化算法）算子的自变量，根据式（6）可以得到加权值 w _i：

（6）

其中， e为常量，为便于区分，式（6）中K也为预设数量， a _i表示相似度值。基于加权值 w _i和所述表情嵌入向量 f _i ^d可以根据式（7）确定动态表情特征向量 F ^d：

（7）

其中， K为预设数量， w _i为加权值， f _i ^d为表情嵌入向量。将动态表情特征向量 F ^d作为待识别文本的表情特征向量。

在上述实施例的基础上，本申请还提供一种确定待识别文本的表情特征向量的方式，步骤S203中基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量还包括：

S801：将与相同类型表情标签匹配的文本语句的表征向量进行加和平均，得到与多个类型表情标签匹配的多个第一静态标签向量。

S803：将与所述预设数量的文本语句匹配的表情标签映射至所述多个第一静态标签向量得到第二静态标签向量。

S805：基于所述加权值和所述第二静态标签向量确定静态表情特征向量，将所述动态表情特征向量和所述静态表情特征向量作为所述待识别文本的表情特征向量。

本申请实施例中，还可以将文本语料集 Corpus _clean中每个文本语句 s _i对应的表征向量 v _i扩展储存到文本语料集 Corpus _clean中，得到扩展文本语料集 Corpus _clean2,扩展文本语料集 Corpus _clean2可以以式（8）表示：

（8）

其中， s _i为文本语料集 Corpus _clean中的文本语句， v _i为文本语句 s _i对应的表征向量， l _i为文本语句 s _i对应的表情标签。将与相同类型表情标签 l _i匹配的文本语句 s _i的表征向量 v _i进行加和平均，得到与多个类型表情标签匹配的多个第一静态标签向量 e ^k，第一静态标签向量 e ^k可以根据式（9）得到：

（9）

其中，表示第 k个表情标签类型中所对应的所有文本语句 s _i的表征向量 v _i集合， n _k表示扩展文本语料集 Corpus _clean2包含的文本语句 s _i的数量， e ^k为得到的关于第 k个表情标签类型的第一静态标签向量。

本申请实施例中，将步骤S701中得到的与预设数量的文本语句 s _i匹配的表情标签 l _i映射至多个第一静态标签向量 e ^k可以得到第二静态标签向量 f _i ^s，第二静态标签向量 f _i ^s不随语句相似度匹配模型的训练而动态更新。基于式（6）得到的加权值 w _i和第二静态标签向量 f _i ^s确定静态表情特征向量 F ^s，静态表情特征向量 F ^s可以根据式（10）确定：

（10）

其中， w _i为加权值， f _i ^s为第二静态标签向量， K为预设数量。将动态表情特征向量 F ^d和静态表情特征向量 F ^s作为待识别文本的表情特征向量。

本申请实施例中，步骤S205中基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型包括：

S901：将所述语义特征向量和所述表情特征向量进行特征融合，得到预设情感类型数量的融合特征向量。

S903：确定所述融合特征向量属于每种情感类型的概率值，并基于所述概率值确定所述待识别文本的情感类型。

本申请实施例中，将语义特征向量和表情特征向量进行特征融合，得到预设情感类型数量的融合特征向量可以包括，将步骤S205中得到的待识别文本的语义特征向量 T与表情特征向量作为向量序列输入到单层的多头注意力网络中（Multi-Head Attention），该网络的编码输出经过最大值池化层后输入到单层的全连接网络，得到待识别文本query的 m维情感特征向量 o _i，情感特征向量 o _i可以以式（11）表示：

（11）

其中 m表示情感类型数量。本申请实施例中，表情特征向量可以包括动态表情特征向量 F ^d，也可以包括动态表情特征向量 F ^d和静态表情特征向量 F ^s，相应的，向量序列可以包括[ T， F ^d]，也可以包括[ T， F ^s， F ^d]。

本申请实施例中，将待识别文本的语义特征向量 T与表情特征向量作为向量序列输入到单层的多头注意力网络中可以进行不同特征向量信息间的融合，经过最大池化层可以将多个向量合并处理为一个向量便于情感类型的分类，输入到单层的全连接网络可以得到待识别文本的情感特征向量，可以从整体上提高待识别文本的情感类型分类效果，进而提高待识别文本情感识别结果的准确度。

本申请实施例中，步骤S903中确定所述融合特征向量属于每种情感类型的概率值，并基于所述概率值确定所述待识别文本的情感类型包括：

S9031：将所述融合特征向量进行归一化处理，基于归一化处理结果确定所述待识别文本属于每种情感类型的概率值。

S9033：将所述概率值最大的情感类型作为待识别文本的情感类型。

本申请实施例中，将融合特征向量进行归一化处理，基于归一化处理结果确定待识别文本属于每种情感类型的概率值可以包括，将式（11）得到的 m维情感特征向量 o _i作为softmax的算子，根据式（12）得到softmax的计算结果 p ^j作为待识别文本属于每种情感类型的概率值：

（12）

其中， e为常量， m为情感类型数量， o _i为根据式（11）得到的情感特征向量。得到待识别文本属于每种情感类型的概率值 p ^j后，将概率值最大的情感类型作为待识别文本的情感类型。

本申请实施例提供的文本情感识别方法，通过迁移利用文本语料集中的表情标签信息，一定程度上克服了相关技术中文本情感识别标注语料不足的问题，能够有效提升文本情感识别的泛化性及准确率。本申请利用基于对比学习策略的SimCSE初始语句相似度对比模型训练后得到语句相似度匹配模型 Model _cse，能够提升与待识别文本相似的表情标签特征提取的有效性。另一方面，本申请具有应用拓展性，可构建不同语种的含表情标签的文本语料，进行实现不同语种的文本情感识别。

本申请一个具体实施例中，如图3所示为文本情感识别系统架构示意图。将待识别文本输入至语句相似度匹配模型中得到待识别文本的表征向量，确定待识别文本的表征向量与文本语料集中每个文本语句 s _i的表征向量 v _i的相似度值 a _i。定义一层参数可学习的表情符号嵌入层，将预设数量文本语句 s _i对应的表情标签标签 l _i映射到相应的表情符号得到嵌入向量 f _i，并将预设数量的文本语句 s _i对应的相似度值 a _i作为归一化算法算子的自变量得到加权值，基于加权值和表情嵌入向量 f _i确定动态表情特征向量 F。上述过程中涉及到的模型及算法共同组成待识别文本表情特征向量提取网络。另一方面将将待识别文本输入到开源中文预训练模型中得到待识别文本的语义特征向量 T。基于语义特征向量 T和动态表情特征向量 F作为向量序列输入到单层的多头注意力网络-单层的全连接网络组成的情感预测模型中，得到待识别文本的 m维情感特征向量 o _i，将情感特征向量 o _i作为归一化算法的算子得到待识别文本属于每种情感类型的概率值，将概率值最大的情感类型作为待识别文本的情感类型。上述开源中文预测训练模型、情感预测模型共同组成了情感预测网络。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本情感识别方法的文本情感识别装置1100。该装置1100所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本情感识别装置1100实施例中的具体限定可以参见上文中对于文本情感识别方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种文本情感识别装置1100，包括：

文本获取模块1101，用于获取待识别文本和文本语料集，其中，所述文本语料集包括多个文本语句和与所述多个文本语句匹配的多个表情标签；

表情特征向量确定模块1102，用于确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值，并基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量；

情感类型确定模块1103，用于获取所述待识别文本的语义特征向量，并基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型。

上述文本情感识别装置1100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现上述任一实施例所述的文本情感识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例所述的文本情感识别方法。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本情感识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述待识别文本的表征向量与每个所述文本语句的表征向量的相似度值包括：

3.根据权利要求2所述的方法，其特征在于，在分别将所述待识别文本和所述多个文本语句输入至语句相似度匹配模型中之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型包括：

5.根据权利要求3所述的方法，其特征在于，在所述基于所述文本语料集、第一目标损失函数和第二目标损失函数训练所述初始语句相似度对比模型得到所述语句相似度匹配模型之前，还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述相似度值和所述多个表情标签确定所述待识别文本的表情特征向量还包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述语义特征向量和所述表情特征向量确定所述待识别文本的情感类型包括：

9.根据权利要求8所述的方法，其特征在于，所述确定所述融合特征向量属于每种情感类型的概率值，并基于所述概率值确定所述待识别文本的情感类型包括：

将所述概率值最大的情感类型作为待识别文本的情感类型。

10.一种文本情感识别装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至权利要求9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求9中任一项所述的方法的步骤。