CN112487795A

CN112487795A - 上下文讽刺检测方法、装置、电子设备及存储介质

Info

Publication number: CN112487795A
Application number: CN202011171055.0A
Authority: CN
Inventors: 刘超; 喻民; 郎宸; 李梅梅; 安韶华; 姜建国; 黄伟庆
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-03-12

Abstract

本发明实施例提供上下文讽刺检测方法、装置、电子设备及存储介质，该方法包括：对用户评论文本进行分析得到用户评论特征；将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；其中，所述预设讽刺检测模型是通过对带讽刺标签的用户评论样本特征和无标签的用户评论样本特征训练得到的。针对讽刺检测的特点设计了内容特征和上下文特征的用户评论特征，然后针对讽刺检测的实际业务场景特点选取了一种半监督学习方法，采用多次抽取与带讽刺标签的用户评论样本特征相等数量的无标记数据构建决策树，集成多棵决策树预测输入文本，节省了大量的数据标注工作，从而更符合真实应用场景，最终更好的实现上下文讽刺检测。

Description

上下文讽刺检测方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及上下文讽刺检测方法、装置、电子设备及存储介质。

背景技术

讽刺是一种特殊的修辞表达方式，通常用积极的字面意义表达作者的负面情绪，在日常的对话和书面交流中经常出现。由于讽刺可以改变甚至翻转语句的真实含义，对情感识别任务造成了很大的困难。因此讽刺检测对于情感分析、政治意识形态分析和产品研究等不同领域均有重要意义。

现有技术中的讽刺检测方法主要依赖于大量的标记数据来建模复杂的特征表示。构建上下文信息需要设计和实现复杂的特征提取，其特征工程耗费人力且依赖于外部工具和资源。此外，建立的模型需要大量的标记数据和复杂的深度学习网络。繁重的数据标注工作和复杂的模型构建使得自动讽刺检测很难应用到真实场景中。

因此，如何更好的实现上下文讽刺检测已经成为业界亟待解决的问题。

发明内容

本发明实施例提供上下文讽刺检测方法、装置、电子设备及存储介质，用以解决上述背景技术中提出的技术问题，或至少部分解决上述背景技术中提出的技术问题。

第一方面，本发明实施例提供一种上下文讽刺检测方法，包括：

对用户评论文本进行分析得到用户评论特征；

将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；

其中，所述预设讽刺检测模型是通过带讽刺标签的用户评论样本特征和无标签的用户评论样本特征训练得到的。

更具体的，所述对用户评论文本进行分析得到用户评论特征的步骤，具体包括：

对用户评论文本进行文本内容分析，得到文本内容表示信息；

对所述用户评论文本进行上下文特征提取，得到文本上下文特征；

将所述文本内容表示信息和文本上下文特征连接后，得到用户评论特征。

更具体的，所述对用户评论文本进行文本内容分析，得到文本内容表示信息的步骤，具体包括：

将用户评论文本转换为评论文本词序列；

将所述评论文本词序列输入单层卷积神经网络，提取所述评论文本词序列各个部分的局部特征，得到多个词序列特征图；

通过最大池化法对多个词序列特征图进行分析，得到文本内容表示信息。

更具体的，所述对所述用户评论文本进行上下文特征提取，得到文本上下文特征的步骤，具体包括：

获取所述用户评论文本的上下文信息；

根据讽刺言论历史数据和用户评论文本的上下文信息确定文本上下文特征；

其中，所述用户评论文本的上下文信息具体包括：用户名称信息和评论主题信息。

更具体的，在所述将所述用户评论特征输入预设讽刺检测模型的步骤之前，所述方法还包括：

对用户样本评论文本集进行分析，得到带有讽刺标签的用户评论样本特征集和无标签的用户评论样本特征集。

更具体的，在所述对用户样本评论文本集进行分析，得到获取带有讽刺标签的用户评论样本特征集和无标签的用户评论样本特征集的步骤之后，所述方法还包括：

S101,从无标签的用户评论样本特征集中随机获取多个无标签的用户评论样本特征，并结合所述带有讽刺标签的用户评论样本特征集，得到样本训练集；

S102根据所述样本训练集构建一个基分类器，将所述基分类器用于对训练集外无标签的用户评论样本特征进行分类；

重复步骤S101-S102,直至重复预设次数，得到预设讽刺检测模型。

第二方面，本发明实施例提供一种上下文讽刺检测装置，包括：

分析模块，用于对用户评论文本进行分析得到用户评论特征；

检测模块，用于将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述上下文讽刺检测方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述上下文讽刺检测方法的步骤。

本发明实施例提供的上下文讽刺检测方法、装置、电子设备及存储介质，针对讽刺检测的特点设计了内容特征和上下文特征的用户评论特征，然后针对讽刺检测的实际业务场景特点选取了一种半监督学习方法，采用多次抽取与带讽刺标签的用户评论样本特征相等数量的无标记数据构建决策树，集成多棵决策树预测输入文本，通过集成的思想提高检测准确率而节省了大量的数据标注工作，从而更符合真实应用场景，最终更好的实现上下文讽刺检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中所描述的上下文讽刺检测方法流程示意图；

图2为本发明一实施例所描述上下文讽刺检测装置示意图；

图3为本发明一实施例所描述的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一实施例中所描述的上下文讽刺检测方法流程示意图，如图1所示，包括：

步骤S1，对用户评论文本进行分析得到用户评论特征；

具体的，本发明实施例中所描述的用户评论文本通常是针对于某一主题下特定内容的评论信息，例如其可以是针对于政治话题或者体育话题的评论信息。并且该用户评论文本通常是由多个单词组成。

本发明实施例中首先通过预先训练好的Fast Text词嵌入对用户评论文本中的每个单词进行替换，形成评论文本词序列。

将评论文本词序列输入单层卷积核神经网络，提取评论文本词序列序列各部分的局部信息，得到评论文本词序列。

另一方面，每条用户评论文本除了文本内容本身，还带有发表用户名称和所述主题类别，其话题包括政治、体育等；本发明实施例中将用户名称和文本主题类别作为用户评论文本的上下文信息；按作者、主题将其历史言论归类，统计每个作者发表讽刺言论和非讽刺言论占总言论数目的比例作为作者讽刺偏好特征。同理，统计每个主题下讽刺与非讽刺言论所占的比例作为主题讽刺偏好特征。针对训练集中未见过的作者与主题，该讽刺偏好会被置为(0，0)。

对于每条用户评论文本，读取该用户评论文本作者和主题，并从历史特征库中对应取出其讽刺偏好作为上下文特征，与文本内容表示信息共同关联，得到用户评论特征。

步骤S2，将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；

具体的，本发明实施例中的带讽刺标签和无标签，在预设讽刺检测模型中分别被视为正类(label＝1)和负类(label＝0)。

将用户评论特征输入预设讽刺检测模型后，输出分类标签讽刺(1)或非讽刺(0)，得到讽刺检测结果。

本发明实施例中预设讽刺检测模型训练采用“讽刺-无标记”套袋方法生成多个基决策树分类器，通过计算基分类器中袋外数据的平均分值来预测测试数据，具体为：

从无标签的用户评论样本特征中随机抽取K个样本，创建一个包含所有带讽刺标签的用户评论样本特征和所选K个样本的样本训练集，带讽刺标签的用户评论样本特征和随机抽取K个样本的数量相同。

根据这个样本训练集构建一个基分类器，其中讽刺标签的用户评论样本特征和无标签的用户评论样本特征分别被视为正类(label＝1)和负类(label＝0)。

将基分类器应用于除选定的k个样本外所有未标记样本中(称为OOB(out of thebag)数据)，并记录它们的得分；

将上述步骤重复T次，得到T个分类器，对T个分类器中每个预测样本所属袋外数据的结果进行平均得到预测样本的讽刺概率。

本发明实施例针对讽刺检测的特点设计了内容特征和上下文特征的用户评论特征，然后针对讽刺检测的实际业务场景特点选取了一种半监督学习方法，采用多次抽取与带讽刺标签的用户评论样本特征相等数量的无标记数据构建决策树，集成多棵决策树预测输入文本，通过集成的思想提高检测准确率而节省了大量的数据标注工作，从而更符合真实应用场景，最终实现上下文讽刺检测。

在上述实施例的基础上，所述对用户评论文本进行分析得到用户评论特征的步骤，具体包括：

本发明实施例中所描述的所述文本内容表示信息和文本上下文特征连接，即将这两个信息聚集到一起。

所述对用户评论文本进行文本内容分析，得到文本内容表示信息的步骤，具体包括：

将用户评论文本转换为评论文本词序列；

具体的，本发明实施例中首先通过预先训练好的Fast Text词嵌入对用户评论文本中的每个单词进行替换，形成评论文本词序列。

评论文本词序列输入单层卷积神经网络CNN，CNN通过在输入序列上滑动三个不同大小的卷积核来提取输入序列各部分的局部信息。每个过滤器创建M个词序列特征图，总计创建3M词序列特征图，随后使用最大池化方法选出每个词序列特征图中最大值，合并三个滤波器产生的结果作为文本内容表示信息。

本发明实施例通过应用CNN的卷积和池化功能提取内容特征表示，利用作者的讽刺偏好和主题的讽刺比例形成了上下文特征表示。不需要繁琐的特征工程，节省了人力和机器资源，两者的合并有效的表示输入文本的综合信息。

在上述实施例的基础上，所述对所述用户评论文本进行上下文特征提取，得到文本上下文特征的步骤，具体包括：

获取所述用户评论文本的上下文信息；

具体的，本发明实施例中所描述的讽刺言论历史数据是指在训练集中分别按作者、主题将历史言论归类，统计每个作者发表讽刺言论和非讽刺言论占总言论数目的比例作为作者讽刺偏好特征。

本发明实施例中将用户名称和文本主题类别作为用户评论文本的上下文信息；按作者、主题将其历史言论归类，统计每个作者发表讽刺言论和非讽刺言论占总言论数目的比例作为作者讽刺偏好特征。同理，统计每个主题下讽刺与非讽刺言论所占的比例作为主题讽刺偏好特征。针对训练集中未见过的作者与主题，该讽刺偏好会被置为(0，0)。

本发明实施例中充分考虑了作者的讽刺偏好和主题的讽刺比例形成了上下文特征表示，提高了用户评论特征的可靠性和准确度。

在上述实施例的基础上，在所述对用户样本评论文本集进行分析，得到获取带有讽刺标签的用户评论样本特征集和无标签的用户评论样本特征集的步骤之后，所述方法还包括：

S101,从无标签的用户评论样本特征集中随机获取与带有讽刺标签的用户评论样本特征集数量相同的多个无标签的用户评论样本特征，并结合所述带有讽刺标签的用户评论样本特征集，得到样本训练集；

S102根据所述样本训练集构建一个基分类器，将所述基分类器用于对不在该训练集中的无标签的用户评论样本特征进行分类；

具体的，本发明实施例中预设讽刺检测模型训练采用“讽刺-无标记”套袋方法生成多个基决策树分类器，通过计算基分类器中袋外数据的平均分值来预测测试数据，具体为：

本发明实施例针对讽刺检测的实际业务场景特点选取了一种半监督学习方法，采用多次抽取与带讽刺标签的用户评论样本特征相等数量的无标记数据构建决策树，集成多棵决策树预测输入文本，通过集成的思想提高检测准确率而节省了大量的数据标注工作，从而更符合真实应用场景，最终更好的实现了上下文讽刺检测。

图2为本发明一实施例所描述上下文讽刺检测装置示意图，如图2所示，包括：分析模块210和检测模块220；其中，分析模块210用于对用户评论文本进行分析得到用户评论特征；其中，检测模块220用于将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；其中，所述预设讽刺检测模型是通过带讽刺标签的用户评论样本特征和无标签的用户评论样本特征训练得到的。

本发明实施例提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

本发明实施例针对讽刺检测的特点设计了内容特征和上下文特征的用户评论特征，然后针对讽刺检测的实际业务场景特点选取了一种半监督学习方法，采用多次抽取与带讽刺标签的用户评论样本特征相等数量的无标记数据构建决策树，集成多棵决策树预测输入文本，通过集成的思想提高检测准确率而节省了大量的数据标注工作，从而更符合真实应用场景，最终更好的实现上下文讽刺检测。

图3为本发明一实施例所描述的电子设备结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：对用户评论文本进行分析得到用户评论特征；将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；其中，所述预设讽刺检测模型是通过带讽刺标签的用户评论样本特征和无标签的用户评论样本特征训练得到的。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：对用户评论文本进行分析得到用户评论特征；将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；其中，所述预设讽刺检测模型是通过带讽刺标签的用户评论样本特征和无标签的用户评论样本特征训练得到的。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：对用户评论文本进行分析得到用户评论特征；将所述用户评论特征输入预设讽刺检测模型，得到讽刺检测结果；其中，所述预设讽刺检测模型是通过带讽刺标签的用户评论样本特征和无标签的用户评论样本特征训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种上下文讽刺检测方法，其特征在于，包括：

对用户评论文本进行分析得到用户评论特征；

2.根据权利要求1所述上下文讽刺检测方法，其特征在于，所述对用户评论文本进行分析得到用户评论特征的步骤，具体包括：

3.根据权利要求2所述上下文讽刺检测方法，其特征在于，所述对用户评论文本进行文本内容分析，得到文本内容表示信息的步骤，具体包括：

将用户评论文本转换为评论文本词序列；

4.根据权利要求2所述上下文讽刺检测方法，其特征在于，所述对所述用户评论文本进行上下文特征提取，得到文本上下文特征的步骤，具体包括：

获取所述用户评论文本的上下文信息；

5.根据权利要求1所述上下文讽刺检测方法，其特征在于，在所述将所述用户评论特征输入预设讽刺检测模型的步骤之前，所述方法还包括：

6.根据权利要求5所述上下文讽刺检测方法，其特征在于，在所述对用户样本评论文本集进行分析，得到获取带有讽刺标签的用户评论样本特征集和无标签的用户评论样本特征集的步骤之后，所述方法还包括：

S102根据所述样本训练集构建一个基分类器，将所述基分类器用于对不在训练集内的无标签的用户评论样本特征进行分类；

7.一种上下文讽刺检测方法，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述上下文讽刺检测方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述上下文讽刺检测方法的步骤。