CN114791951A

CN114791951A - 基于胶囊网络的情感分类方法及系统

Info

Publication number: CN114791951A
Application number: CN202210519030.8A
Authority: CN
Inventors: 张元杰; 管洪清; 徐亮; 王伟; 张大千; 尹广楹; 孙浩云
Original assignee: Qingdao Windaka Technology Co ltd
Current assignee: Qingdao Windaka Technology Co ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-07-26

Abstract

本发明提供一种基于胶囊网络的情感分类方法及系统，属于文本情感分类技术领域，包括：获取待处理的文本数据；使用预先训练好的特征提取模型对待处理的文本数据进行特征提取，得到特征矩阵；利用胶囊网络对所述特征矩阵进行处理，获取特征矩阵的空间关系；基于空间关系，将提取的特征使用softmax分类，实现情感分类。本发明考虑了文本局部特征与整体情感极性之间的关系，通过抓取部分‑部分，部分‑整体的位置信息，从而获取文本的局部特征和整体情感倾向性之间的关系，有效提取了文本深层特征，使用优化的动态路由算法来迭代更新参数，有效准确识别用户情感。

Description

基于胶囊网络的情感分类方法及系统

技术领域

本发明涉及文本情感分类技术领域，具体涉及一种基于胶囊网络的情感分类方法及系统。

背景技术

现有的一种评论文本情感分类模型训练与情感分类方法装置及设备，其技术方案为：获取评论文本、关联的主题和客体信息；基于第一层Bi-LSTM网络融入评论主体和客体注意力机制提取句子级特征表示；在基于第二层Bi-LSTM网络融入评论主体和客体注意力机制提取文档级特征表示；采用双曲正切非线性映射函数将文档级特征映射至情感类别空间，采用softmax分类，对模型中的参数进行训练，得到最优文本情感分类模型。

上述现有的情感分类模型多使用预训练模型对文本特征提取，然后直接进行分类，忽略了文本局部特征与整体情感极性，对文本情感分类效果较差，无法准确识别文本情感。

发明内容

本发明的目的在于提供一种获取了文本的局部特征和整体情感倾向性之间的关系，能够有效准确的识别文本情感的基于胶囊网络的情感分类方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于胶囊网络的情感分类方法，包括：

获取待处理的文本数据；

使用预先训练好的特征提取模型对待处理的文本数据进行特征提取，得到特征矩阵；

利用胶囊网络对所述特征矩阵进行处理，获取特征矩阵的空间关系；

基于空间关系，将提取的特征使用softmax分类，实现情感分类。

可选的，通过网络爬虫进行数据爬取，获取待处理的文本数据。

可选的，在使用预先训练好的特征提取模型对待处理的文本数据进行特征提取之前，通过分词方法对所述文本数据进行了数据预处理。

可选的，所述预先训练好的特征提取模型为Bert模型，通过多层Transformer的堆叠，得到特征矩阵。

可选的，在所述胶囊网络中，采用全局参数共享的方式以减少误差的累积。

可选的，使用优化的动态路由算法来迭代更新参数，将提取的特征使用softmax分类，实现情感分类。

第二方面，本发明提供一种基于胶囊网络的情感分类系统，包括：

获取模块，用于获取待处理的文本数据；

提取模块，用于使用预先训练好的特征提取模型对待处理的文本数据进行特征提取，得到特征矩阵；

抓取模块，用于利用胶囊网络对所述特征矩阵进行处理，获取特征矩阵的空间关系；

分类模块，用于基于空间关系，将提取的特征使用softmax分类，实现情感分类。

第三方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的基于胶囊网络的情感分类方法。

第四方面，本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如上所述的基于胶囊网络的情感分类方法。

第五方面，本发明提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的基于胶囊网络的情感分类方法的指令。

本发明有益效果：考虑了文本局部特征与整体情感极性之间的关系，通过抓取部分-部分，部分-整体的位置信息，从而获取文本的局部特征和整体情感倾向性之间的关系，有效提取了文本深层特征，使用优化的动态路由算法来迭代更新参数，有效准确识别用户情感。

本发明附加方面的优点，将在下述的描述部分中更加明显的给出，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于胶囊网络的情感分类方法流程图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种基于胶囊网络的情感分类系统，该系统包括：

获取模块，用于获取待处理的文本数据；

本实施例1中，利用上述的系统，实现了基于胶囊网络的情感分类方法，该方法包括：

使用获取模块获取待处理的文本数据；

利用提取模块，使用预先训练好的特征提取模型对待处理的文本数据进行特征提取，得到特征矩阵；

利用抓取模块，通过胶囊网络对所述特征矩阵进行处理，获取特征矩阵的空间关系；

利用分类模块，基于空间关系，将提取的特征使用softmax分类，实现情感分类。

本实施例1中，通过网络爬虫进行数据爬取，获取待处理的文本数据。网络爬虫(又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取网络文本信息的程序或者脚本。网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

通用网络爬虫又称全网爬虫(Scalable Web Crawler)，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略。

深度优先策略：其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。当所有链接遍历完后，爬行任务结束。这种策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

广度优先策略：此策略按照网页内容目录层次深浅来爬行页面，处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后，爬虫再深入下一层继续爬行。这种策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题，实现方便，无需存储大量中间节点，不足之处在于需较长时间才能爬行到目录层次较深的页面。

聚焦网络爬虫(Focused Crawler)，又称主题网络爬虫(Topical Crawler)，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。

聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

基于内容评价的爬行策略：DeBra将文本相似度的计算方法引入到网络爬虫中，提出了Fish Search算法，它将用户输入的查询词作为主题，包含查询词的页面被视为与主题相关，其局限性在于无法评价页面与主题相关度的高低。Herseovic对Fish Search算法进行了改进，提出了Sharksearch算法，利用空间向量模型计算页面与主题的相关度大小。

基于链接结构评价的爬行策略：Web页面作为一种半结构化文档，包含很多结构信息，可用来评价链接重要性。PageRank算法最初用于搜索引擎信息检索中对查询结果进行排序，也可用于评价链接重要性，具体做法就是每次选择PageRank值较大页面中的链接来访问。另一个利用Web结构评价链接价值的方法是HITS方法，它通过计算每个已访问页面的Authority权重和Hub权重，并以此决定链接的访问顺序。

基于增强学习的爬行策略：Rennie和McCallum将增强学习引入聚焦爬虫，利用贝叶斯分类器，根据整个网页文本和链接文本对超链接进行分类，为每个链接计算出重要性，从而决定链接的访问顺序。

基于语境图的爬行策略：通过建立语境图(Context Graphs)学习网页之间的相关度，训练一个机器学习系统，通过该系统可计算当前页面到相关Web页面的距离，距离越近的页面中的链接优先访问。印度理工大学(IIT)和IBM研究中心的研究人员开发了一个典型的聚焦网络爬虫。该爬虫对主题的定义既不是采用关键词也不是加权矢量，而是一组具有相同主题的网页。它包含两个重要模块：一个是分类器，用来计算所爬行的页面与主题的相关度，确定是否与主题相关；另一个是净化器，用来识别通过较少链接连接到大量相关页面的中心页面。

增量式网络爬虫(Incremental Web Crawler)是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构，包含爬行模块、排序模块、更新模块、本地页面集、待爬行URL集以及本地页面URL集。

增量式爬虫有两个目标：保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。为实现第一个目标，增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容，常用的方法有：(1)统一更新法：爬虫以相同的频率访问所有网页，不考虑网页的改变频率；(2)个体更新法：爬虫根据个体网页的改变频率来重新访问各页面；(3)基于分类的更新法：爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类，然后以不同的频率访问这两类网页。

为实现第二个目标，增量式爬虫需要对网页的重要性排序，常用的策略有：广度优先策略、PageRank优先策略等。IBM开发的WebFountain是一个功能强大的增量式网络爬虫，它采用一个优化模型控制爬行过程，并没有对页面变化过程做任何统计假设，而是采用一种自适应的方法根据先前爬行周期里爬行结果和网页实际变化速度对页面更新频率进行调整。天网增量爬行系统旨在爬行国内Web，将网页分为变化网页和新网页两类，分别采用不同爬行策略。为缓解对大量网页变化历史维护导致的性能瓶颈，它根据网页变化时间局部性规律，在短时期内直接爬行多次变化的网页，为尽快获取新网页，它利用索引型网页跟踪新出现网页。

本实施例1中，其中，在使用预先训练好的特征提取模型对待处理的文本数据进行特征提取之前，通过分词方法对所述文本数据进行了数据预处理。

本实施例1中，可使用以下三种分词算法进行文本预处理：

1.基于字符串匹配：将汉字串与词典中的词进行匹配，如果在词典中找到某个字符串，则识别出一个词。包括有：正向最大匹配法：假设词典中最大词条所含的汉字个数为n个，取待处理字符串的前n个字作为匹配字段。若词典中含有该词，则匹配成功，分出该词，然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配；如果没有匹配成功，则将这n个字组成的字段的最后一位剔除，用剩下的n一1个字组成的字段在词典中进行匹配，如此进行下去，直到切分成功为止；逆向最大匹配法：与正向的区别在于如果匹配不成功则减去最前面的一个字；最少切分：使每一句中切出的词数最少。

2.基于理解：通常包括三个部分：分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。

3.基于统计：对语料中相邻共现的各个字的组合的频度进行统计，将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

所述预先训练好的特征提取模型为Bert模型，通过多层Transformer的堆叠，得到特征矩阵。

在所述胶囊网络中，采用全局参数共享的方式以减少误差的累积。

使用优化的动态路由算法来迭代更新参数，将提取的特征使用softmax分类，实现情感分类。

Bert经过大量文本训练，已广泛运用于文本特征提取，可以用作于编码器。胶囊网络原本用于图像领域，本实施例1中用于识别特征的空间关系。

BERT的全称为Bidirectional Encoder Representations from Transformers，即双向Transformer的Encoder。该模型使用双向的Transformer搭建深度预训练模型，在预训练过程中使用Masked LM捕获词语级别的表示，在预训练过程中使用Next SentencePrediction捕获句子级别的表示。

静态路由算法不能根据网络流量和拓扑结构的变化来调整自身的路由表，也就不能找出最佳路由，动态路由算法则是要依靠网络当前的状态信息来决定节点的路由选择。这种策略能较好地适应网络流量、拓扑结构的变化，有利于改善网络的性能。

综上所述，如图1所示，本实施例提出的一种基于胶囊网络的文本情感识别方法。通过网络爬虫进行数据爬取；通过分词等方法进行数据预处理；使用Bert预训练模型进行特征提取，通过多层Transformer的堆叠，得到特征矩阵；将特征矩阵输入到胶囊网络，采用全局参数共享的方式以减少误差的累积；使用优化的动态路由算法来迭代更新参数，将提取的特征使用softmax分类，实现情感分类。

其中，在文本处理任务中，胶囊网络可以抓取部分-部分，部分-整体的位置信息，从而获取文本的局部特征和整体情感倾向性之间的关系；使用优化的动态路由算法来迭代更新参数，将提取的特征使用softmax分类，实现情感分类，通过抓取部分-部分，部分-整体的位置信息，从而获取文本的局部特征和整体情感倾向性之间的关系。同时使用优化的动态路由算法来迭代更新参数，以有效准确识别用户情感。

实施例2

本发明实施例2提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现基于胶囊网络的情感分类方法，该方法包括：

获取待处理的文本数据；

实施例3

本发明实施例3提供一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现基于胶囊网络的情感分类方法，该方法包括：

获取待处理的文本数据；

实施例4

本发明实施例4提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现基于胶囊网络的情感分类方法的指令，该方法包括：

获取待处理的文本数据；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于胶囊网络的情感分类方法，其特征在于，包括：

获取待处理的文本数据；

2.根据权利要求1所述的基于胶囊网络的情感分类方法，其特征在于，通过网络爬虫进行数据爬取，获取待处理的文本数据。

3.根据权利要求1所述的基于胶囊网络的情感分类方法，其特征在于，在使用预先训练好的特征提取模型对待处理的文本数据进行特征提取之前，通过分词方法对所述文本数据进行了数据预处理。

4.根据权利要求1所述的基于胶囊网络的情感分类方法，其特征在于，所述预先训练好的特征提取模型为Bert模型，通过多层Transformer的堆叠，得到特征矩阵。

5.根据权利要求1所述的基于胶囊网络的情感分类方法，其特征在于，在所述胶囊网络中，采用全局参数共享的方式以减少误差的累积。

6.根据权利要求1所述的基于胶囊网络的情感分类方法，其特征在于，使用优化的动态路由算法来迭代更新参数，将提取的特征使用softmax分类，实现情感分类。

7.一种基于胶囊网络的情感分类系统，其特征在于，包括：

获取模块，用于获取待处理的文本数据；

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-6任一项所述的基于胶囊网络的情感分类方法。

9.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如权利要求1-6任一项所述的基于胶囊网络的情感分类方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-6任一项所述的基于胶囊网络的情感分类方法的指令。