CN114064901B

CN114064901B - 一种基于知识图谱词义消歧的书评文本分类方法

Info

Publication number: CN114064901B
Application number: CN202111422577.8A
Authority: CN
Inventors: 袁正午; 袁喜晶; 陈泽; 陈望; 邓阳; 周亚涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-08-26
Anticipated expiration: 2041-11-26
Also published as: CN114064901A

Abstract

本发明涉及一种基于知识图谱词义消歧的书评文本分类方法，属于自然语言处理技术领域。该方法包括：S1：获取书评文本数据集；S2：将文本进行分段处理；S3：对分段后的文本进行聚类并标签化，每个文本片段对应各自的外部知识实体；S4：词级文本预处理；S5：计算词级文本间的语义相似度、余弦相似度、目标函数以及得分；S6：提取文本片段的特征；S7：利用层次注意力网络提取各文本片段的特征信息，再对文本片段的特征信息进行一次层次注意力网路的文本处理，最终得到的特征信息经归一化处理完成文本分类。本发明能有效处理篇章级别的长文本数据。

Description

一种基于知识图谱词义消歧的书评文本分类方法

技术领域

本发明属于自然语言处理技术领域，涉及一种基于知识图谱词义消歧的书评文本分类方法。

背景技术

如今，社交网络驱动着购物平台、新闻娱乐平台优化用户体验的反馈系统以及评价服务。例如微博这样的大型公众社交平台以及淘宝、京东这样的大型电子购物平台，它们都拥有相当完善的用户情感的分类以及汇总系统。然而，文学作品阅读平台亟待有效反映用户情感的技术来为众多读者提供阅读前心理准备以及阅读后同感交流的机会。另外，采用多维度情感进行分类，能够使用户更具体、更精准地寻找相应的情感极性的书评文本。

近年来，深度学习算法被应用到了自然语言处理领域，获得了比传统模型更优秀的成果。如Bengio等学者基于深度学习的思想构建了神经概率语言模型，并进一步利用各种深度神经网络在大规模英文语料上进行语言模型的训练，得到了较好的语义表征，完成了句法分析和情感分类等常见的自然语言处理任务，为大数据时代的自然语言处理提供了新的思路。基于深度学习的中文分词方法为基于字的分词方法提供了更优的切分策略，它将字级的文本数据处理为更加细粒度的字符级，减少了歧义词、未登录词对语义的影响。

但是，现有的评价指标效果好的模型参数量相当巨大，实现成本很高，成本低的语言模型在长依赖问题的解决上效果还有待提升。尤其是在长文本处理问题中，类别多样，数据复杂度高，文档级别的文本分类对上下文信息与关键词句的关联性要求更高。另外，目前仍然缺乏完善的中文分词方法。中文分词难点主要体现在三个方面：分词的规范、歧义词的切分和未登录词识别。首先，中文因其自身语言特性的局限，字(词)的界限往往很模糊，关于字(词)的抽象定义和词边界的划定尚没有一个具体的标准。其次，中文中的歧义词是很普遍，即同一个词有多种切分方式。因此，目前亟需一种新的能够词义消歧的文本分类方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于知识图谱词义消歧的书评文本分类方法，能有效处理篇章级别的长文本数据，从而有效缓解了篇幅大对长文本数据主要情感分析的影响。

为达到上述目的，本发明提供如下技术方案：

一种基于知识图谱词义消歧的书评文本分类方法，首先在网络中爬取书评文本，在传统的LDA模型中引入一个由外部知识组成的概念词结构层，另外将书评文本进行分段处理，对分段后的书评文本进行聚类并标签化，每个文本片段对应各自的外部知识实体；然后将已有类别的文本片段对应的外部知识实体构成一个树状层级结构，由此非结构化的原始数据就构成了结构化的知识图谱；利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果，保留相同的分词结果组成一个集合，不同的分词结果再通过基于知识图谱的相似性计算得到最优的分词结果；接着将词向量之间的余弦相似度和词汇之间在知识图谱中对应的层次关联程度相结合，提取文本片段的特征；另外，提取书评文本片段的相对位置向量，将文本片段的特征向量与相对位置向量进行融合，同时引入知识标记，以减少知识图谱对文本片段语义信息的误导；最后利用层次注意力网络提取个文本片段的特征信息，再对文本片段的特征信息进行一次层次注意力网路的文本处理，最终得到的特征信息经归一化处理完成文本分类。

该方法具体包括以下步骤：

S1：获取书评文本数据集，并将其划分为训练集、测试集和验证集；

S2：将书评文本进行分段处理，分为词级文本、句级文本和篇章级文本；

S3：对分段后的书评文本进行聚类并标签化，每个文本片段对应各自的外部知识实体；

S4：词级文本预处理：利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果，保留相同的分词结果组成一个集合，不同的分词结果再通过基于知识图谱的相似性计算得到最佳的分词结果；

S5：计算词级文本间的语义相似度、余弦相似度、目标函数以及得分；

S6：提取文本片段的特征：将词向量之间的余弦相似度和词汇之间在知识图谱中对应的层次关联程度相结合，提取词级文本、句级文本和篇章级文本的特征；

S7：利用层次注意力网络提取各文本片段的特征信息，再对文本片段的特征信息进行一次层次注意力网路的文本处理，最终得到的特征信息经归一化处理完成文本分类。

进一步，步骤S2具体包括：在传统的LDA模型中引入一个由外部知识组成的概念词层次结构层，利用信息的稀疏性特质，将主题模型尽可能地简化表示，根据层次性的单词信息形成层次性的主题表达。

进一步，步骤S2中，在对长文本数据进行分段处理时，将其分层次处理，并分别在词级、句级、篇章级信息处理之前将各级编码引入相对位置编码，最终得到精度更高的分类效果。

进一步，步骤S3具体包括：采用TextRank模型获取文本特征词集合，利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义，在词义概念层面完成文本的向量化表示，进行文本聚类，以消除多义词在不同语境中的歧义；利用知识图谱的树状结构特征，引入外部情感词典知识，构建一个关于词级文本语义关系的层级结构树，即词级文本知识图谱；根据各词级文本之间的最短通路与最长通路间的比例，得到词级文本的相似度测量信息。

进一步，步骤S4中，所述知识图谱是将已有类别的文本片段对应的外部知识实体构成的一个树状层级结构。

进一步，步骤S4具体包括：利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果，保留相同的分词结果组成一个集合；对于不同的分词结果，利用中文知识图谱数据库计算某个词语与文本中其他词语的概念距离，选择概念距离和最小的词语作为最佳的分词结果，再将这些最佳的分词结果融入到相同分词结果的集合中，最终得到最佳整体上的分词结果。

进一步，步骤S5具体包括：将通过外部知识构建的知识图谱得到的书评词级文本聚类信息分成n个簇，在每个簇中计算知识图谱中对应的层次关联程度(即词级文本在知识结构层当中的距离比例)，作为文本间的语义相似度，结合文本的余弦相似度，得到每一个文本簇的目标函数；根据词级文本在各簇出现的次数及其在整个文本中出现的次数得到一个关于每个词级文本在当前簇(聚类信息)中的得分，每个簇得分最高的词级文本作为当前文本簇的文本特征。

进一步，步骤S5中，在处理语义相似度时，使用One-Hot模型将待比较的集合转化为等长的向量表示，在传统的余弦相似度基础上，引入词级文本在外部知识库中的距离比例以及欧氏距离，使得同义词、近义词在句级文本中的歧义值降低。

进一步，步骤S6具体包括：提取文本片段的相对位置向量，将文本片段的特征向量与相对位置向量进行融合，同时引入知识标记，以减少知识图谱对文本片段语义信息的误导，从而构建一个知识模块；当训练好的知识模块收到输入的词向量时，该知识模块能够输出当前词对应的外部知识库编码信息，得到一个知识状态向量。

进一步，步骤S6中，引入哨兵注意力机制，将知识图谱中的知识与文本相结合获取词汇的知识感知状态向量。

本发明的有益效果在于：本发明方法能有效处理篇章级别的长文本数据，从分层的角度将word、sentence、document这三个级别的文本数据依次进行分类，有效缓解了篇幅大对长文本数据主要情感分析的影响。另外，在分类之前，本发明还采用知识图谱引入外部知识库，可以在不受外部词典规模及领域的限制下，对文本数据进行词义消歧，更高效地完成了文本聚类。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明建立的文本分类模型的流程图；

图2为本发明中利用知识图谱引入外部知识库对文本进行聚类的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明提供的基于知识图谱词义消歧的书评文本分类方法，是一种基于知识图谱词义消歧的文本分类方法，在文本聚类过程中引入外部知识库，有效避免了引入外部词典的消歧结果受到词典规模和领域的限制的问题。利用书评文本行文篇幅大、文本相对位置对情感分析的影响程度深的特点，结合Transformer-XL中的相对位置编码以及循环神经网络门控机制，有效提取上下文的综合情感信息。采用层次性神经网络的分类模型，将词级文本在句级文本的重要程度、句级文本在篇章级文本的重要程度有效提取出来，最终得到关于篇章级文本的情感类别信息。

请参阅图1～图2，图1为本发明采用的层次性神经网络分类模型的流程图。如图1所示，构建文本分类模型，具体包括以下步骤：

1)采集文本数据集；

数据集一部分选用阿里云开源的长文本情感分析数据集，另一部分来自豆瓣书评的爬取结果。书评文本中具有包含书评作者的个人情感，相对网络语言文化而言，书评文本更加书面化，因此不存在网络表情以及网络语言等不常用词对文本处理的影响。

2)将书评文本进行分段处理，分为词级文本、句级文本和篇章级文本；

3)引入知识图谱对文本进行聚类分析，词义消歧；

4)词级文本预处理；

基于深度学习的中文分词方法直接以最基本的向量化原子特征作为输入。

5)计算词级文本间的语义相似度、余弦相似度、目标函数以及得分；

将通过外部知识构建的知识图谱得到的书评词级文本聚类信息分成n个簇，在每个簇中计算知识图谱中对应的层次关联程度(即词级文本在知识结构层当中的距离比例)，作为文本间的语义相似度，结合文本的余弦相似度，得到每一个文本簇的目标函数。根据词级文本在各簇出现的次数及其在整个文本中出现的次数得到一个关于每个词级文本在当前簇(聚类信息)中的得分，每个簇得分最高的词级文本作为当前文本簇的文本特征。从而提取文本片段的特征。

6)提取词级、句级、篇章级文本特征；

将词编码之后的特征提取过程分为两个层次，依次是词级特征提取、句级特征提取。针对单项语言模型只能获取单向的特征表示，不能同时获取上下文表示的不足，在每一个特征提取层中，拟采用双向语言模型，并采用多头注意力机制来防止过拟合现象。

图2为本发明中利用知识图谱引入外部知识库对文本进行聚类的流程图。如图2所示，文本聚类流程为：

1)同义词向量与知识标记；

通过相似度计算再根据语义对文本数据进行分类处理，在使用外部知识库时每选用一个单词就找出当前单词wi的同义词向量。另外当前单词所在句子在对应于该单词的标记矢量。为了减少知识图谱对当前语义信息的误导，以便于更好地权衡同义词和上下文之间的信息。

2)单词对应的LSTM输出的隐藏状态；

隐藏状态即语境，当前时刻使用BiLSTM编码当前单词的上下文信息所得到的隐藏状态，用来预测下一个单词。

3)知识状态向量；

知识模块对当前时刻输入相关的外部知识库信息进行编码结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于知识图谱词义消歧的书评文本分类方法，其特征在于，该方法具体包括以下步骤：

S1：获取书评文本数据集；

在对长文本数据进行分段处理时，将其分层次处理，并分别在词级、句级、篇章级信息处理之前将各级编码引入相对位置编码，最终得到精度更高的分类效果；

S4：词级文本预处理：利用jieba分词器和HanLP分词器对文本片段进行分词得到各自的分词结果，保留相同的分词结果组成一个集合；对于不同的分词结果，利用知识图谱数据库计算某个词语与文本中其他词语的概念距离，选择概念距离和最小的词语作为最佳的分词结果，再将这些最佳的分词结果融入到相同分词结果的集合中，最终得到最佳整体上的分词结果；

S5：计算词级文本间的语义相似度、余弦相似度、目标函数以及得分；具体包括：将通过外部知识构建的知识图谱得到的书评词级文本聚类信息分成n个簇，在每个簇中计算知识图谱中对应的层次关联程度，即词级文本在知识结构层当中的距离比例，作为文本间的语义相似度，结合文本的余弦相似度，得到每一个文本簇的目标函数；根据词级文本在各簇出现的次数及其在整个文本中出现的次数得到一个关于每个词级文本在当前簇中的得分，每个簇得分最高的词级文本作为当前文本簇的文本特征；

2.根据权利要求1所述的书评文本分类方法，其特征在于，步骤S2具体包括：在传统的LDA模型中引入一个由外部知识组成的概念词层次结构层，利用信息的稀疏性特质，将主题模型简化表示，根据层次性的单词信息形成层次性的主题表达。

3.根据权利要求1所述的书评文本分类方法，其特征在于，步骤S3具体包括：采用TextRank模型获取文本特征词集合，利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义，在词义概念层面完成文本的向量化表示，进行文本聚类，以消除多义词在不同语境中的歧义；利用知识图谱的树状结构特征，引入外部情感词典知识，构建一个关于词级文本语义关系的层级结构树，即词级文本知识图谱；根据各词级文本之间的最短通路与最长通路间的比例，得到词级文本的相似度测量信息。

4.根据权利要求1所述的书评文本分类方法，其特征在于，步骤S4中，所述知识图谱是将已有类别的文本片段对应的外部知识实体构成的一个树状层级结构。

5.根据权利要求1所述的书评文本分类方法，其特征在于，步骤S5中，在处理语义相似度时，使用One-Hot模型将待比较的集合转化为等长的向量表示，在传统的余弦相似度基础上，引入词级文本在外部知识库中的距离比例以及欧氏距离，使得同义词、近义词在句级文本中的歧义值降低。

6.根据权利要求1所述的书评文本分类方法，其特征在于，步骤S6具体包括：提取文本片段的相对位置向量，将文本片段的特征向量与相对位置向量进行融合，同时引入知识标记，构建一个知识模块；当训练好的知识模块收到输入的词向量时，该知识模块输出当前词对应的外部知识库编码信息，得到一个知识状态向量。

7.根据权利要求6所述的书评文本分类方法，其特征在于，步骤S6中，引入哨兵注意力机制，将知识图谱中的知识与文本相结合获取词汇的知识感知状态向量。