CN114048319B

CN114048319B - 基于注意力机制的幽默文本分类方法、装置、设备、介质

Info

Publication number: CN114048319B
Application number: CN202111433978.3A
Authority: CN
Inventors: 周梦原; 金美芝; 马建
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-04-23
Anticipated expiration: 2041-11-29
Also published as: CN114048319A

Abstract

本发明属于人工智能领域，提供了一种基于注意力机制的幽默文本分类方法、装置、设备、介质，包括：获取待检测文本，将待检测文本输入至预处理模型得到预处理输出信息；将预处理输出信息输入至词向量注意力模块，根据词向量注意力模块输出的词向量权重矩阵和预处理输出信息得到词向量特征信息；将词向量特征信息输入至词义注意力模块，根据词义注意力模块输出的词义权重矩阵和词向量特征信息得到词义特征信息；针对词向量特征信息和词义特征信息进行元素求和得到文本特征；将文本特征输入至分类模型得到幽默分类结果。本发明能够从词向量和词义两个维度对待检测文本进行分析，提高幽默文本分类的准确性，确保下游业务的正常运行。

Description

基于注意力机制的幽默文本分类方法、装置、设备、介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种基于注意力机制的幽默文本分类方法、装置、设备、介质。

背景技术

随着人工智能技术的发展，语义识别的准确性得到了很大的提高，在各个领域得到了广泛的应用。目前的语义识别技术已经能够实现用户语句的语义理解，并且在具备关键词作为辅助的情况下，还可以进一步实现情绪分析。但是智能客服等应用场景，用户并非简单地通过语音下达指令，而是会以正常的交谈方式进行交流，在这种情况下，用户的语句中可能出现带有幽默性语句，而幽默性语句通常包含较为丰富的语义信息，能够很好地反映用户画像，因此需要在语义识别的基础上进行幽默文本分类，有助于提高下游任务的性能。

幽默文本分类较为依赖语义理解，而幽默性语句包括丰富多样的语义情感信息，如讽刺，自嘲，喜爱，开心等，按照传统的情感分类算法来看，幽默性文本包含多种不同甚至相反的情感，如果用传统的情绪分析模型，只能从一个维度进行语义分析，很容易得到错误的分析结构，影响下游任务的正常运行。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于注意力机制的幽默文本分类方法、装置、设备、介质，能够提高的幽默性文本分类的准确性，确保下游任务正常运行。

第一方面，本发明实施例提供了一种基于注意力机制的幽默文本分类方法，所述方法包括：

获取待检测文本，将待检测文本输入至预先训练好的预处理模型，获取所述预处理模型输出的预处理输出信息；

获取预先训练好的注意力模型，所述注意力模型包括词向量注意力模块和词义注意力模块，所述词向量注意力模块和所述词义注意力模块的结构相同；

将所述预处理输出信息输入至所述词向量注意力模块，获取所述词向量注意力模块输出的词向量权重矩阵，根据所述预处理输出信息和所述词向量权重矩阵得到词向量特征信息；

将所述词向量特征信息输入至所述词义注意力模块，获取所述词义注意力模块输出的词义权重矩阵，根据所述词向量特征信息和所述词义权重矩阵得到词义特征信息；

针对所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征；

将所述文本特征输入至预选配置好的分类模型，得到所述待检测文本的幽默分类结果。

在一些实施例中，所述将待检测文本输入至预先训练好的预处理模型，获取所述预处理模型输出的预处理输出信息，包括：

对所述待检测文本进行词组分割，得到至少两个输入词组；

将所述输入词组输入至所述预处理模型；

通过所述预处理模型的对所述输入词组进行词义分析，得到所述输入词组的嵌入信息；

将所述嵌入信息确定为所述预处理输出信息。

在一些实施例中，所述针对所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征，包括：

确定与每个所述输入词组所对应的所述词向量特征信息和所述词义特征信息；

对所述输入词组的所述词向量特征信息和所述词义特征信息进行元素求和，得到与所述输入词组相对应的词组特征；

将全部的所述词组特征组合成所述文本特征。

在一些实施例中，所述将所述文本特征输入至预选配置好的分类模型，得到所述待检测文本的幽默分类结果，包括：

获取预先配置好的幽默词组参考信息，所述幽默词组参考信息包括至少两个幽默词组以及每个所述幽默词组所对应的幽默类型信息；

通过所述分类模型确定每个词组特征所对应的目标分类信息，所述目标分类信息包括所述词组特征所对应的幽默词组和概率信息；

根据全部的所述目标分类信息确定所述待检测文本的幽默分类结果。

在一些实施例中，所述根据全部的所述目标分类信息确定所述待检测文本的幽默分类结果，包括：

针对每个所述目标分类信息进行统计学计算，得到所述文本特征所对应的目标幽默类型信息和目标概率；

当所述目标概率大于预设阈值，将所述目标幽默类型信息确定为所述幽默分类结果。

在一些实施例中，所述词向量注意力模块包括第一注意力路径和第二注意力路径，所述第一注意力路径由输入到输出依次包括第一均值池化层、第一全连接层、第一RELU激活层和第二全连接层，第二注意力路径由输入到输出依次包括第一最大值池化层、第三全连接层、第二RELU激活层、第四全连接层，其中，所述第一全连接层和所述第三全连接层共享权重，所述第二全连接层和所述第四全连接层共享权重；

所述将所述预处理输出信息输入至所述词向量注意力模块，获取所述词向量注意力模块输出的词向量权重矩阵，包括：

将所述预处理输出信息分别输入至所述第一注意力路径和第二注意力路径；

获取通过所述第一注意力路径得到的第一注意力结果，以及通过所述第二注意力路径得到的第二注意力结果；

将所述第一注意力结果和所述第二注意力结果进行元素相加，并通过s igmoid函数对元素相加的结果进行激活，得到所述词向量权重矩阵。

在一些实施例中，所述词义注意力模块包括第三注意力路径和第四注意力路径，所述第三注意力路径包括第二均值池化层、第五全连接层、第三RELU激活层、第六全连接层，第四注意力路径包括第二最大值池化层、第七全连接层、第四RELU激活层、第八全连接层，其中，所述第五全连接层和所述第七全连接层共享权重，所述第六全连接层和所述第八全连接层共享权重；

所述将所述词向量特征信息输入至所述词义注意力模块，获取所述词义注意力模块输出的词义权重矩阵，包括：

将所述词向量特征信息分别输入中所述第三注意力路径和第四注意力路径；

获取通过所述第三注意力路径得到的第三注意力结果，以及通过所述第四注意力路径得到的第四注意力结果；

将所述第三注意力结果和所述第四注意力结果进行元素相加，并通过softmax函数对元素相加的结果进行激活，得到所述词义权重矩阵。

第二方面，本发明实施例提供了一种基于注意力机制的幽默文本分类装置，所述基于注意力机制的幽默文本分类装置包括：

预处理单元，用于获取待检测文本，将待检测文本输入至预先训练好的预处理模型，获取所述预处理模型输出的预处理输出信息；

模型获取单元，用于获取预先训练好的注意力模型，所述注意力模型包括词向量注意力模块和词义注意力模块，所述词向量注意力模块和所述词义注意力模块的结构相同；

第一识别单元，用于将所述预处理输出信息输入至所述词向量注意力模块，获取所述词向量注意力模块输出的词向量权重矩阵，根据所述预处理输出信息和所述词向量权重矩阵得到词向量特征信息；

第二识别单元，用于将所述词向量特征信息输入至所述词义注意力模块，获取所述词义注意力模块输出的词义权重矩阵，根据所述词向量特征信息和所述词义权重矩阵得到词义特征信息；

元素求和单元，用于针对所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征；

分类单元，用于将所述文本特征输入至预选配置好的分类模型，得到所述待检测文本的幽默分类结果。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于注意力机制的幽默文本分类方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序用于执行如第一方面所述的基于注意力机制的幽默文本分类方法。

本发明实施例包括：获取待检测文本，将待检测文本输入至预先训练好的预处理模型，获取所述预处理模型输出的预处理输出信息；获取预先训练好的注意力模型，所述注意力模型包括词向量注意力模块和词义注意力模块，所述词向量注意力模块和所述词义注意力模块的结构相同；将所述预处理输出信息输入至所述词向量注意力模块，获取所述词向量注意力模块输出的词向量权重矩阵，根据所述预处理输出信息和所述词向量权重矩阵得到词向量特征信息；将所述词向量特征信息输入至所述词义注意力模块，获取所述词义注意力模块输出的词义权重矩阵，根据所述词向量特征信息和所述词义权重矩阵得到词义特征信息；针对所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征；将所述文本特征输入至预选配置好的分类模型，得到所述待检测文本的幽默分类结果。根据本实施例的技术方案，能够从词向量和词义两个维度对待检测文本进行分析，使得得到的文本特征能够从两个维度体现词义，能够更好地识别出具有更加丰富的语义的幽默性文本，从而提高幽默文本分类的准确性，确保下游业务的正常运行。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的基于注意力机制的幽默文本分类方法的流程图；

图2是本发明另一个实施例提供的网络结构图；

图3是本发明另一个实施例提供的预处理的流程图；

图4是本发明另一个实施例提供的得到文本特征的流程图；

图5是本发明另一个实施例提供的进行幽默分类的流程图；

图6是本发明另一个实施例提供的获取幽默分类结果的示例图；

图7是本发明另一个实施例提供的词向量注意力模块的识别流程图；

图8是本发明另一个实施例提供的词义注意力模块的识别流程图；

图9是本发明另一个实施例提供的基于注意力机制的幽默文本分类装置的结构图；

图10是本发明另一个实施例提供的电子设备的装置图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种基于注意力机制的幽默文本分类方法、装置、设备、介质，基于注意力机制的幽默文本分类方法包括：获取待检测文本，将待检测文本输入至预先训练好的预处理模型，获取所述预处理模型输出的预处理输出信息；获取预先训练好的注意力模型，所述注意力模型包括词向量注意力模块和词义注意力模块，所述词向量注意力模块和所述词义注意力模块的结构相同；将所述预处理输出信息输入至所述词向量注意力模块，获取所述词向量注意力模块输出的词向量权重矩阵，根据所述预处理输出信息和所述词向量权重矩阵得到词向量特征信息；将所述词向量特征信息输入至所述词义注意力模块，获取所述词义注意力模块输出的词义权重矩阵，根据所述词向量特征信息和所述词义权重矩阵得到词义特征信息；针对所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征；将所述文本特征输入至预选配置好的分类模型，得到所述待检测文本的幽默分类结果。根据本实施例的技术方案，能够从词向量和词义两个维度对待检测文本进行分析，使得得到的文本特征能够从两个维度体现词义，能够更好地识别出具有更加丰富的语义的幽默性文本，从而提高幽默文本分类的准确性，确保下游业务的正常运行。

自然语言指代人们日常使用的语言，例如，英语，汉语，俄语等等都属于自然语言的一种。自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理是一门与语言学的研究有着密切的联系，融语言学、计算机科学、数学于一体的科学，其主要研究通过自然语言进行有效的人机交互的方法和相关理论。也就是说，通过自然语言处理方面的相关技术，计算机可以直接识别用户通过语音或文本的形式提供的自然语言，并作出对应的响应，例如执行特定操作，根据用户的意图给出自然语言形式的应答等。具体的，自然语言处理所涉及的技术包括但不限于语义理解、机器翻译、机器问答、知识图谱、情感分析等技术，其中语义理解还可以用于构建搜索引擎的词条。

词向量是指将一个字或者词转化为一个一维向量的表示，普通的词向量训练方法有word2vec(词向量)、FastText(快速文本)等词义，Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学的词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自注意力机制模拟的是人类的信息处理过程：由于信息处理能力的限制，人类在处理信息时，会选择性地关注部分信息，同时忽略或者弱化其他部分的信息。通过引入注意力机制，能够大幅提升神经网络的性能。

上述所提及的图像处理方法的执行主体可以是计算机设备，该计算机设备可以是终端或者服务器。此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载计算机、智能家居、可穿戴电子设备、VR(Virtual Reality，虚拟现实)/AR(AugmentedReality，增强现实)设备等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

需要说明的是，本发明实施例的数据可以保存在服务器中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

如图1所示，图1是本发明一个实施例提供的一种基于注意力机制的幽默文本分类方法，包括但不限于有以下步骤：

步骤S110，获取待检测文本，将待检测文本输入至预先训练好的预处理模型，获取预处理模型输出的预处理输出信息；

步骤S120，获取预先训练好的注意力模型，注意力模型包括词向量注意力模块和词义注意力模块，词向量注意力模块和词义注意力模块的结构相同；

步骤S130，将预处理输出信息输入至词向量注意力模块，获取词向量注意力模块输出的词向量权重矩阵，根据预处理输出信息和词向量权重矩阵得到词向量特征信息；

步骤S140，将词向量特征信息输入至词义注意力模块，获取词义注意力模块输出的词义权重矩阵，根据词向量特征信息和词义权重矩阵得到词义特征信息；

步骤S150，针对词向量特征信息和词义特征信息进行元素求和，得到文本特征；

步骤S160，将文本特征输入至预选配置好的分类模型，得到待检测文本的幽默分类结果。

需要说明的是，待检测文本可以通过人工输入的方式得到，也可以通过语音识别得到，例如通过智能客服获取到用户的电话录音，需要对用户的幽默性进行检测，则可以通过语音识别技术从电话录音提取得到待检测文本，本实施例对待检测文本的获取方式不多做限定。

值得注意的是，本实施例的整体网络结构可以参考图2所示，包括预处理模型、注意力模型和分类模型，在获取到待检测文本之后，输入至预处理模型进行预处理，将预处理模型进行预处理得到的预处理输出信息作为注意力模型的输入，再通过注意力模型得到文本特征，通过分类模型对文本特征进行分类，从而确定对应幽默分类结果，完成幽默性语义识别。其中，预处理模型的预处理可以对待检测文本进行初步的词义识别，例如对词性进行识别，对于名词、动词和介词先赋予一定的权重，使得后续注意力模型能够进行更加准确的注意力判定，又如，对一句话中的多个词组或者单词进行分割，得到多个词组或者单词，使得注意力模型能够根据每个单词或者词组进行幽默性检测，本领域技术人员有动机根据时机需求选取合适的预处理流程，使得输入至注意力模型的预处理输出信息具有一定的预处理效果即可，在此不多做限定。

需要说明的是，自注意机制是通过神经网络对输入信息进行识别，得到注意力权重之后，将注意力权重与输入信息进行相乘，从而为输入信息赋予注意力权重的过程，基于此，本实施例在注意力模型中配置两个不同维度的模块，能够从词向量和词义两个维度进行识别，通过词向量注意力模型对待检测文本所代表的情感进行分析，通过词义维度对词义进行分析，在幽默性文本具有丰富语义信息的情况下，通过识别维度的增加提高幽默性识别的准确性，确保经过分类模型能够准确确定文本的幽默性。

需要说明的是，词向量注意力模块和词义注意力模块采用相同的结构，能够确保两个模块的识别深度相同，从而确保词向量特征信息和词义特征信息能够具有相同的特征元素，便于进行元素求和。

需要说明的是，词向量特征信息和词义特征信息可以采用特征图的形式，由于采用了相同的结构，因此得到的词向量特征图和词义特征图具有相同数量的元素，将归属于相同元素下的两个特征图的数值进行相加，即完成了元素求和。

需要说明的是，分类模型可以是任意类型的结构，例如采用预先训练好的神经网络模型，也可以为了减少计算的复杂度，采用预先训练好的全连接层，该全连接层可以通过预先标注好的幽默文本构成的样本集进行训练，从而能够针对文本特征进行分类。可以理解的是，分类结果可以是待检测文本的幽默属性以及其概率，例如一段文本得到的幽默属性为“反讽”，其概率为80％，则可以确定该待检测文本属于反讽性质的幽默，针对该信息进行记录并用于后续业务，能够更加准确地反映用户画像，提高后续流程的准确性。

另外，参照图3，在一实施例中，图1所示实施例的步骤S110还包括但不限于有以下步骤：

步骤S310，对待检测文本进行词组分割，得到至少两个输入词组；

步骤S320，将输入词组输入至预处理模型；

步骤S330，通过预处理模型的对输入词组进行词义分析，得到输入词组的嵌入信息；

步骤S340，将嵌入信息确定为预处理输出信息。

需要说明的是，分割方法可以根据实际需求调整，例如对于英语语句“Followyour heart But don’t forget your brain”，可以将每个单词作为一个独立的输入词组，又如，对于中文语句，可以进行简单的语义分析，将相关的文字归属到同一个输入词组，本实施例对分割方式不多做限定。

需要说明的是，在得到输入词组后，可以针对每个输入词组进行分析，例如以英语文本为例，可以通过词组分割得到多个单词，通过简单的语义识别为每个单词添加属性标签，比如将单词标注为介词、名词等，对于不同词性的词在后续分析中能够赋予不同的权重。

值得注意的是，本实施例的嵌入信息为embedding信息，embedding的目的是把一个高维的，每个维度上相对稀疏的数据投影到相对低维的，每个维度可以取实数集的数据操作，embedding信息可以参考上述步骤的词性属性，或者其他能够应用简单查表得到的属性。

另外，参照图4，在一实施例中，图1所示实施例的步骤S150还包括但不限于有以下步骤：

步骤S410，确定与每个输入词组所对应的词向量特征信息和词义特征信息；

步骤S420，对输入词组的词向量特征信息和词义特征信息进行元素求和，得到与输入词组相对应的词组特征；

步骤S430，将全部的词组特征组合成文本特征。

需要说明的是，幽默性语句与普通语句不同，其幽默性可能只由句子中的部分单词体现，因此，为了提高幽默性检测的准确性，针对每个输入词组进行词向量识别和词义识别，再讲每个输入词组的词向量特征信息和词义特征信息进行元素求和，得到词组特征之后，再通过词组特征的组合得到文本特征，使得待检测文本中的每一个单词或者词组都能够具有体现其语义识别结果的词组特征，便于在分类过程中提高准确性，例如，对于图3所示的示例“Follow your heart But don’t forget your brain”，前半句“Follow yourheart”并不用于体现反讽的幽默性，而是从后半句“don’t forget your brain”体现，因此，针对前半句的词组特征可能所得到的幽默分类的概率较低，而针对后半句得到的幽默分类的概率较高，从而确定该文本的幽默分类结果。

另外，参照图5，在一实施例中，图1所示实施例的步骤S160还包括但不限于有以下步骤：

步骤S510，获取预先配置好的幽默词组参考信息，幽默词组参考信息包括至少两个幽默词组以及每个幽默词组所对应的幽默类型信息；

步骤S520，通过分类模型确定每个词组特征所对应的目标分类信息，目标分类信息包括词组特征所对应的幽默词组和概率信息；

步骤S530，根据全部的目标分类信息确定待检测文本的幽默分类结果。

需要说明的是，幽默词组可以通过在训练样本中进行人工标注得到，本领域技术人员熟知如何进行样本标注，从而使得分类模型能够在训练之后对词组特征进行分类。值得注意的是，幽默类型信息可以是讽刺，自嘲，喜爱，开心等类型，根据实际情况调整具体的分类，并且通过预先标注的样本进行训练即可。

需要说明的是，分类模型可以是设置有标注样本的全连接层，本领域技术人员熟知如何配置全连接层，从而在具备特征信息的情况下得到分类结果，在此不多做赘述。

需要说明的是，在得到每个输入词组的目标分类信息后，由于待检测文本是由输入词组构成，因此可以将输入词组的目标分类信息进行组合，从而得到待检测文本的幽默分类结果，例如输入词组1的幽默词组为反讽，概率为60％，输入词组2的幽默词组为自嘲，概率为10％，组合得到的待检测文本的幽默分类结果为概率较大的反讽。

另外，参照图6，在一实施例中，图5所示实施例的步骤S530还包括但不限于有以下步骤：

步骤S610，针对每个目标分类信息进行统计学计算，得到文本特征所对应的目标幽默类型信息和目标概率；

步骤S620，当目标概率大于预设阈值，将目标幽默类型信息确定为幽默分类结果。

需要说明的是，基于上述实施例的描述，可以对多个输入词组得到的目标分类信息进行组合，当然，也可以通过统计学计算得到，例如对多个输入词组均为反讽，其概率分别为10％、60％和80％，在组合之后进行求平均值，得到该待检测文本为反讽的概率为50％，当然，也可以采用其他统计学方式，本领域技术人员可以根据实际需求选取具体的计算方式，在此不多做限定。

需要说明的是，值得注意的是，虽然本实施例技术方案能够得到更加准确的幽默性检测结果，但是并非所有输入的待检测文本都是具有幽默性的，在此情况下，为了进行简单的区分，可以通过预设预置的方式对目标概率进行筛选，当最终得到的目标概率小于预设阈值，可以确定该待检测文本不具备幽默性，通过简单的语义识别进行处理即可，当目标概率大于预设阈值，才将目标幽默类型信息确定为幽默分类结果。

另外，在一实施例中，词向量注意力模块包括第一注意力路径和第二注意力路径，第一注意力路径由输入到输出依次包括第一均值池化层、第一全连接层、第一RELU激活层和第二全连接层，第二注意力路径由输入到输出依次包括第一最大值池化层、第三全连接层、第二RELU激活层、第四全连接层，其中，第一全连接层和第三全连接层共享权重，第二全连接层和第四全连接层共享权重；

参照图7，图1所示实施例的步骤S130还包括但不限于有以下步骤：

步骤S710，将预处理输出信息分别输入至第一注意力路径和第二注意力路径；

步骤S720，获取通过第一注意力路径得到的第一注意力结果，以及通过第二注意力路径得到的第二注意力结果；

步骤S730，将第一注意力结果和第二注意力结果进行元素相加，并通过sigmoid函数对元素相加的结果进行激活，得到词向量权重矩阵。

需要说明的是，需要说明的是，在本模块中配置两条路径，是由于预处理模型的输出单词Embedding的维度通常较大，而并非每个维度都是有用信息，因此通过两条路径得到权重参数矩阵，通过权重参数矩阵与预处理输出信息进行相乘，能够为不同维度的信息赋予不同的权重，使得重要的维度权重更高，实现注意力集中的作用。

需要说明的是，以图2所示的结构，第二全连接层的输出为第一注意力结果，第四权连接层的输出为第二注意力结果，分别表达式为

M_C1(F)＝MLP(ReLU(MLP(AveragePooling(F)))和

M_C2(F)＝MLP(ReLU(MLP(MaxPooling(F)))；

其中，F为输入，AveragePooling()为第一均值池化层的输出，MLP()为全连接层的输出，RELU()为RELU激活层的输出。

值得注意的是，在得到第一注意力结果和第二注意力结果之后，可以进行元素相加，表达式为将M_C1(F)和M_C2(F)对应元素进行相加，得到输出结果M_CALL(F)，表达式为M_CALL(F)＝σ(M_C1(F)+M_C2(F))；σ()表示对应元素相加。

值得注意的是，在进行元素求和得到输出结果M_CALL(F)之后，通过sigmoid函数进行激活得可以得到特征图，即对应的权重矩阵，本实施例技术人员熟知如何配置sigmoid函数进行激活，在此不多做赘述。

需要说明的是，在本模块中配置两条路径，是由于预处理模型的输出单词Embedding的维度通常较大，而并非每个维度都是有用信息，因此通过两条路径得到权重参数矩阵，通过权重参数矩阵与预处理输出信息进行相乘，能够为不同维度的信息赋予不同的权重，使得重要的维度权重更高，实现注意力集中的作用。

另外，在一实施例中，词义注意力模块包括第三注意力路径和第四注意力路径，第三注意力路径包括第二均值池化层、第五全连接层、第三RELU激活层、第六全连接层，第四注意力路径包括第二最大值池化层、第七全连接层、第四RELU激活层、第八全连接层，其中，第五全连接层和第七全连接层共享权重，第六全连接层和第八全连接层共享权重；

参照图8，图1所示实施例的步骤S140还包括但不限于有以下步骤：

步骤S810，将词向量特征信息分别输入中第三注意力路径和第四注意力路径；

步骤S820，获取通过第三注意力路径得到的第三注意力结果，以及通过第四注意力路径得到的第四注意力结果；

步骤S830，将第三注意力结果和第四注意力结果进行元素相加，并通过softmax函数对元素相加的结果进行激活，得到词义权重矩阵。

需要说明的是，如图7所示实施例的叙述，本实施例得到的第三注意力结果和第四注意力结果可以通过如下表达式表示：

M_w1(F)＝MLP(ReLU(MLP(AveragePooling(F)))；

M_w2(F)＝MLP(ReLU(MLP(MaxPooling(F)))；

其中M_w1(F)为第三注意力结果，M_w2(F)为第四注意力结果，将M_w1(F)和M_w2(F)相同的元素进行相加，再通过softmax函数激活，得到词义权重矩阵可以通过如下表达式表示：M_wALL(F)＝softmax(M_w1(F)+M_w2(F)；

在此基础上，再将词义权重矩阵M_wALL(F)与词向量特征信息对应的位置相乘即可得到词义特征信息。

需要说明的是，在词向量特征信息的基础上，增加一个新的注意力机制，使得得到的词义特征信息具备双注意力维度，不但赋予了的词向量的各个维度以不同的权重也赋予了不同的单词短语不同的权重。通过这种根据输入的不同动态赋予词向量和单词不同权重的方法使得模型能更加关注到句子中有意义的部分，更适合进行幽默性检测。

另外，参照图9，本发明的一个实施例还提供了一种基于注意力机制的幽默文本分类装置，该基于注意力机制的幽默文本分类装置900包括：

预处理单元910，用于获取待检测文本，将待检测文本输入至预先训练好的预处理模型，获取预处理模型输出的预处理输出信息；

模型获取单元920，用于获取预先训练好的注意力模型，注意力模型包括词向量注意力模块和词义注意力模块，词向量注意力模块和词义注意力模块的结构相同；

第一识别单元930，用于将预处理输出信息输入至词向量注意力模块，获取词向量注意力模块输出的词向量权重矩阵，根据预处理输出信息和词向量权重矩阵得到词向量特征信息；

第二识别单元940，用于将词向量特征信息输入至词义注意力模块，获取词义注意力模块输出的词义权重矩阵，根据词向量特征信息和词义权重矩阵得到词义特征信息；

元素求和单元950，用于针对词向量特征信息和词义特征信息进行元素求和，得到文本特征；

分类单元960，用于将文本特征输入至预选配置好的分类模型，得到待检测文本的幽默分类结果。

另外，参照图10，本发明的一个实施例还提供了一种电子设备，该电子设备1000包括：存储器1010、处理器1020及存储在存储器1010上并可在处理器1020上运行的计算机程序。

处理器1020和存储器1010可以通过总线或者其他方式连接。

实现上述实施例的基于注意力机制的幽默文本分类方法所需的非暂态软件程序以及指令存储在存储器1010中，当被处理器1020执行时，执行上述实施例中的应用于设备的基于注意力机制的幽默文本分类方法，例如，执行以上描述的图1中的方法步骤S110至步骤S160、图3中的方法步骤S310至步骤S340、图4中的方法步骤S410至步骤S430、图5中的方法步骤S510至步骤S530、图6中的方法步骤S610至步骤S620、图7中的方法步骤S710至步骤S730、图8中的方法步骤S810至步骤S830。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的基于注意力机制的幽默文本分类方法，例如，执行以上描述的图1中的方法步骤S110至步骤S160、图3中的方法步骤S310至步骤S340、图4中的方法步骤S410至步骤S430、图5中的方法步骤S510至步骤S530、图6中的方法步骤S610至步骤S620、图7中的方法步骤S710至步骤S730、图8中的方法步骤S810至步骤S830。本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本申请可用于众多通用或专用的计算机装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、基于微处理器的装置、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机程序的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的程序。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种基于注意力机制的幽默文本分类方法，其特征在于，包括：

获取预先训练好的注意力模型，所述注意力模型包括词向量注意力模块和词义注意力模块，所述词向量注意力模块和所述词义注意力模块的结构相同，所述词向量注意力模块包括第一注意力路径和第二注意力路径，所述第一注意力路径由输入到输出依次包括第一均值池化层、第一全连接层、第一RELU激活层和第二全连接层，第二注意力路径由输入到输出依次包括第一最大值池化层、第三全连接层、第二RELU激活层、第四全连接层，所述词义注意力模块包括第三注意力路径和第四注意力路径，所述第三注意力路径包括第二均值池化层、第五全连接层、第三RELU激活层、第六全连接层，第四注意力路径包括第二最大值池化层、第七全连接层、第四RELU激活层、第八全连接层，其中，所述第一全连接层和所述第三全连接层共享权重，所述第二全连接层和所述第四全连接层共享权重，所述第五全连接层和所述第七全连接层共享权重，所述第六全连接层和所述第八全连接层共享权重；

将所述预处理输出信息分别输入至所述第一注意力路径和第二注意力路径，获取通过所述第一注意力路径得到的第一注意力结果，以及通过所述第二注意力路径得到的第二注意力结果，将所述第一注意力结果和所述第二注意力结果进行元素相加，并通过sigmoid函数对元素相加的结果进行激活，得到词向量权重矩阵，根据所述预处理输出信息和所述词向量权重矩阵得到词向量特征信息；

将所述词向量特征信息分别输入中所述第三注意力路径和第四注意力路径，获取通过所述第三注意力路径得到的第三注意力结果，以及通过所述第四注意力路径得到的第四注意力结果，将所述第三注意力结果和所述第四注意力结果进行元素相加，并通过softmax函数对元素相加的结果进行激活，得到词义权重矩阵，根据所述词向量特征信息和所述词义权重矩阵得到词义特征信息；

将所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征；

将所述文本特征输入至预设分类模型，得到所述待检测文本的幽默分类结果。

2.根据权利要求1所述的基于注意力机制的幽默文本分类方法，其特征在于，所述将待检测文本输入至预先训练好的预处理模型，获取所述预处理模型输出的预处理输出信息，包括：

对所述待检测文本进行词组分割，得到至少两个输入词组；

将所述输入词组输入至所述预处理模型；

将所述嵌入信息确定为所述预处理输出信息。

3.根据权利要求2所述的基于注意力机制的幽默文本分类方法，其特征在于，所述将所述词向量特征信息和所述词义特征信息进行元素求和，得到文本特征，包括：

将全部的所述词组特征组合成所述文本特征。

4.根据权利要求3所述的基于注意力机制的幽默文本分类方法，其特征在于，所述将所述文本特征输入至预设分类模型，得到所述待检测文本的幽默分类结果，包括：

5.根据权利要求4所述的基于注意力机制的幽默文本分类方法，其特征在于，所述根据全部的所述目标分类信息确定所述待检测文本的幽默分类结果，包括：

6.一种基于注意力机制的幽默文本分类装置，其特征在于，所述基于注意力机制的幽默文本分类装置包括：

模型获取单元，用于获取预先训练好的注意力模型，所述注意力模型包括词向量注意力模块和词义注意力模块，所述词向量注意力模块和所述词义注意力模块的结构相同，所述词向量注意力模块包括第一注意力路径和第二注意力路径，所述第一注意力路径由输入到输出依次包括第一均值池化层、第一全连接层、第一RELU激活层和第二全连接层，第二注意力路径由输入到输出依次包括第一最大值池化层、第三全连接层、第二RELU激活层、第四全连接层，所述词义注意力模块包括第三注意力路径和第四注意力路径，所述第三注意力路径包括第二均值池化层、第五全连接层、第三RELU激活层、第六全连接层，第四注意力路径包括第二最大值池化层、第七全连接层、第四RELU激活层、第八全连接层，其中，所述第一全连接层和所述第三全连接层共享权重，所述第二全连接层和所述第四全连接层共享权重，所述第五全连接层和所述第七全连接层共享权重，所述第六全连接层和所述第八全连接层共享权重；

第一识别单元，用于将所述预处理输出信息分别输入至所述第一注意力路径和第二注意力路径，获取通过所述第一注意力路径得到的第一注意力结果，以及通过所述第二注意力路径得到的第二注意力结果，将所述第一注意力结果和所述第二注意力结果进行元素相加，并通过sigmoid函数对元素相加的结果进行激活，得到词向量权重矩阵，根据所述预处理输出信息和所述词向量权重矩阵得到词向量特征信息；

第二识别单元，用于将所述词向量特征信息分别输入中所述第三注意力路径和第四注意力路径，获取通过所述第三注意力路径得到的第三注意力结果，以及通过所述第四注意力路径得到的第四注意力结果，将所述第三注意力结果和所述第四注意力结果进行元素相加，并通过softmax函数对元素相加的结果进行激活，得到词义权重矩阵，根据所述词向量特征信息和所述词义权重矩阵得到词义特征信息；

7.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的基于注意力机制的幽默文本分类方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序用于执行如权利要求1至6中任意一项所述的基于注意力机制的幽默文本分类方法。