CN116521882A - 基于知识图谱的领域长文本分类方法及系统 - Google Patents
基于知识图谱的领域长文本分类方法及系统 Download PDFInfo
- Publication number
- CN116521882A CN116521882A CN202310624760.9A CN202310624760A CN116521882A CN 116521882 A CN116521882 A CN 116521882A CN 202310624760 A CN202310624760 A CN 202310624760A CN 116521882 A CN116521882 A CN 116521882A
- Authority
- CN
- China
- Prior art keywords
- dependency
- graph
- gcn
- entity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 150
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 20
- 239000004973 liquid crystal related substance Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000000873 masking effect Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于文本分类技术领域,特别涉及一种基于知识图谱的领域长文本分类方法及系统,该方法首先利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量;然后构建知识图谱和依存关系图;将知识图谱和依存关系图分别输入两个GCN模块,基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量;其次使用图结构掩码模型分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;最后采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。本发明通过融合知识特征和数据特征,提升领域长文本分类的准确性。
Description
技术领域
本发明属于文本分类技术领域,特别涉及一种基于知识图谱的领域长文本分类方法及系统。
背景技术
目前,人工智能发展迅猛,在多个领域取得了巨大的成就,比如自然语言处理,图像处理,数据挖掘等。文本挖掘是其中的一个研究方向。根据维基百科的定义,文本挖掘也叫文本数据挖掘,或是文本分析,是从文本中获取高质量信息的过程,典型的任务有文本分类、自动问答、情感分析、机器翻译等。文本分类是将数据分成预先定义好的类别,一般流程为:1.预处理,比如分词,去掉停用词;2.文本表示及特征选择;3.分类器构造;4.分类器根据文本的特征进行分类;5.分类结果的评价。由于近年来人工智能的快速发展,文本分类技术已经可以很好的确定一个未知文档的类别,而且准确度也很好。借助文本分类,可以方便进行海量信息处理,节约大量的信息处理费用。广泛应用于过滤信息,组织与管理信息,数字图书馆、垃圾邮件过滤等社会生活。
文本分类是自然语言处理中最基本的任务之一,是推荐任务、问答系统、情感分析等许多任务的基础。随着文本数据量以几何倍数的速度增加,作为许多应用基础的文本分类任务的研究愈发重要。近年来,领域长文本分类受到研究人员的广泛关注也取得了很大进步,但是现有领域中长文本分类技术的相关研究中存在以下3个方面问题:1)文本篇幅较长。由于文本篇幅较长、关键信息多而分散,长序列处理容易忽略文本层级结构中丰富的语义信息。2)缺少专家领域知识。预训练模型需要一定的先验知识,仅依赖文本相似度会造成分类不准的问题。3)分类准确性不高。由于数据集文本存在于各个领域,且长短不一、特征不同,现有模型鲁棒性仍有待提升,导致分类结果有偏差。
总而言之,文本分类是当前自然语言处理的基础技术,机器学习和深度学习在该任务中已有较多研究并取得了很大进展,然而,这些传统方法只能处理欧氏空间的数据,不能完全有效地表达出文本的语义信息。现有长文本分类研究大都聚焦于“数据”层面,即通过深度学习模型抽取中文文本的深层次语义表征,以获得上下文信息,这种方式难以解决词汇在不同语境下的一词多义问题,导致存在语义理解模糊和特征表达不充分等问题,影响分类准确率。
发明内容
为了解决现有技术词汇在不同语境下的一词多义问题,本发明提出一种基于知识图谱的领域长文本分类方法及系统,在数据层面,使用BERT训练动态词向量丰富语义信息;在知识层面,通过知识图谱引入先验知识;通过融合知识特征和数据特征,提升领域长文本分类的准确性。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种基于知识图谱的领域长文本分类方法,包含以下步骤:
利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络;
使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树,在句法依存树上构建依存关系图;
将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码;同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将初始化词向量与增加边类型信息的词向量融合得到最终词向量;
使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;
采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
进一步地,对于长文本的BERT表示,采用滑动窗口的方法对一条长文本通过滑动窗口截取不同部分,然后将所有句子表示进行求和并取平均值作为最终的BERT向量。
进一步地,将BERT模型的后4层的向量进行拼接,BERT模型输出向量表示为hbert,计算公式如下:
hbert=ReLU(W[hbert,-1;hbert,-2;hbert,-3;hbert,-4;]+b)
其中,;代表拼接,hbert,-1、hbert,-2、hbert,-3、hbert,-4分别表示BERT编码最后4层得到的向量,W为可训练的权重矩阵,b为偏置项。
进一步地,所述知识图谱是一组节点和边构成的三元组,构建知识图谱过程为:
首先通过TextRank算法提取文本的关键词,同时通过K-Means聚类算法对文本进行聚类,通过关键词和聚类结果,得到初步的领域关键实体类型,再细化修改实体类型并定义其实体关系;最后使用一个训练好的实体关系抽取模型,根据定义好的实体类型及实体关系类型,抽取三元组。
进一步地,GCN模块输出向量计算公式如下:
设置节点初始特征矩阵其中ndoc是文本节点数,nentity是抽取实体数;对于长度为n的文本,构建一个邻接矩阵A=(ai,j)n×n,当词语xi和xj之间存在句法依存或实体关系,则ai,j=1,反之不存在关系,则ai,j=0;
存在任意词语xi,则第l层GCN的输出表示为:
其中ai.j∈A,是词语xj在GCN第l-1层的输出,W(l)是可训练矩阵,b(l)是第l层GCN的偏差,σ是激活函数ReLU。
进一步地,基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,包括:
使用B=(ri,j)n×n表示实体关系类型矩阵,其中ri,j是xi和xj之间的实体关系类型,将每个类型ri,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重p(l) i,j,p(l) i,j的计算公式如下:
其中,ai.j∈A,和/>分别是xi和xj的中间向量,/>和/>的计算公式如下:
其中,和/>分别是节点i和j在GCN第l-1层的输出,/>表示拼接;
最终实体关系图神经网络输出向量的计算公式如下:
是增加了实体关系类型信息的向量,计算公式为:
其中,将实体关系类型嵌入/>映射到与/>相同的维度,/>是词语xj在GCN第l-1层的输出。
进一步地,基于注意力机制,依赖关系图神经网络输出增加依赖关系类型信息的词向量,包括:
使用C=(ti,j)n×n表示依赖关系类型矩阵,其中ti,j是xi和xj之间的依赖关系类型,将每个类型ti,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重q(l) i,j,q(l) i,j的计算公式如下:
其中ai.j∈A,和/>分别是xi和xj的中间向量,/>和/>的计算公式如下:
其中和/>分别是节点i和j在GCN第l-1层的输出,/>表示拼接;
最终依赖关系图神经网络输出的计算公式如下:
是增加了依赖关系类型信息的向量,计算公式为:
其中,将依赖关系类型嵌入/>映射到与/>相同的维度,/>是词语xj在GCN第l-1层的输出;
最终,将两个GCN模块生成向量拼接得到GCN模型的输出:
进一步地,通过图结构掩码模型分别得到实体关系类型向量和依赖关系类型向量,表达式如下:
hrel,edge,i=ReLU(W[hrel,gcn,i;hrel,gcn,j]+b)
hdep,edge,i=ReLU(W[hdep,gcn,i;hdep,gcn,j]+b)
其中,hrel,edge,i是图结构掩码训练输出的实体关系类型向量,hdep,edge,i是图结构掩码训练输出的依赖关系类型向量,hrel,gcn,i;hrel,gcn,j表示节点i和j之间的实体关系边,hdep,gcn,i;hdep,gcn,j表示节点i和j之间的依赖关系边;
将两部分掩码训练结果拼接得到hedge:
本实施例还提供一种基于知识图谱的领域长文本分类系统,包括初始化词向量获得模块、知识图谱和依存关系图构建模块、最终词向量获得模块、边类型向量获得模块和模型优化模块,其中:
初始化词向量获得模块,用于利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络;
知识图谱和依存关系图构建模块,用于使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树,在句法依存树上构建依存关系图;
最终词向量获得模块,用于将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码;同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将初始化词向量与增加边类型信息的词向量融合得到最终词向量;
边类型向量获得模块,用于使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;
模型优化模块,用于采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
与现有技术相比,本发明具有以下优点:
1、本发明基于BERT模型、GCN模型和知识图谱等多项前沿技术,首先,利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为图神经网络的节点;其次,使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,将其与句法依存信息共同作为图神经网络的边,将BERT的文档表示与GCN的文档向量共同计算损失并反向传播。为进一步提升模型对于字词之间语义依赖的学习能力,利用图结构掩码模型学习边关系及边类型;最后,利用softmax函数得到分类概率实现领域长文本分类。本发明通过融合知识特征和数据特征,提升了领域长文本分类的准确性。
2、本发明基于知识图谱中的实体及实体关系,与句法依存关系共同支撑图卷积神经网络的构成和图中节点迭代更新,将知识图谱信息与深度学习模型更好地结合起来,以知识驱动数据,实现领域长文本分类性能提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于知识图谱的领域长文本分类方法的流程图;
图2是本发明实施例的基于知识图谱的领域长文本分类系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例的基于知识图谱的领域长文本分类方法,该方法包含以下步骤:
步骤S101,利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络。
步骤S102,使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树(文本使用斯坦福大学开源的NLP工具Stanza进行处理,获取句法依存树),在句法依存树上构建依存关系图。
步骤S103,将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码。同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将步骤S101的初始化词向量与增加边类型信息的词向量融合得到最终词向量。
步骤S104,实体关系图神经网络和依赖关系图神经网络使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量。
步骤S105,采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
对长文本向量化具体为:
作为现代NLP任务的一个重要组成部分,与从头开始学习的嵌入相比,预训练的词嵌入(如word2vec和GloVe)可以大幅提高NLP任务的性能。对于词汇中的每个词,尽管这些词的含义在不同的场景下可能会有所不同,这些无语境模型仍只产生一个单一的词嵌入表示。而上下文模型,如OpenAI GPT、ELMo和BERT,可以根据上下文(即句子中的周边词)为同一词在不同语境生成不同表示。这些上下文模型通常包含更多的隐藏层,通过在大量的未标记数据进行训练提升模型性能,当应用于特定领域的任务时,只需用少量的标记数据进行微调。BERT提出之后,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,例如文本分类、问题回答和语言推理。BERT经过大规模的预训练,可以给字词一个富有语义信息的初始化向量。使用BERT训练词向量,并以此作为GCN的节点,避免一个字词只能有一个向量表示的问题,从而学习到动态词向量。
长文本数据最长的文本可以达到几千字,而BERT输入的最大长度限制为512,其中还包括CLS标记。因此对于长文本的BERT表示需要进行特殊处理,一般的处理可以直接截断长文本,只取开头或者结尾的一部分,这就可能导致关键信息的遗漏。本实例采用滑动窗口的办法,对一条长文本通过滑动窗口截取不同部分,然后将所有句子表示进行求和并取平均值作为最终的BERT向量。
除了将BERT输出作为GCN节点之外,参考BertGCN的预测插值做法,将BERT的文档表示与GCN的文档向量共同计算损失并反向传播。由于GCN的参数较多,与BERT融合后模型易出现过拟合或者难以收敛的问题,为解决此问题,将BERT的后4层的向量进行拼接,防止模型只使用BERT最后一层输出而参数计算过多。BERT模型输出向量表示为hbert,计算公式如下:
hbert=ReLU(W[hbert,-1;hbert,-2;hbert,-3;hbert,-4;]+b) (1)
其中,;代表拼接,hbert,-1、hbert,-2、hbert,-3、hbert,-4分别表示BERT编码最后4层得到的向量,W为可训练的权重矩阵,b为偏置项。
构建知识图谱的过程为:
预训练的语言模型(如BERT、word2vec和GloVe)都缺乏常识或特定领域的知识,这通常会导致文本特征表示的性能不尽人意。为了解决这两个问题,基于未分类文档构建了一个知识图谱,将其实体与实体关系作为图神经网络节点及边,以更好地实现文本分类。参考领域知识图谱自顶向下的构建方法,基于已分类数据源,从高质量数据中提取本体和模式信息,抽取实体及实体间关系,形成知识图谱形式的领域先验知识。
知识图谱就是一组节点和边构成的三元组,节点是句子中存在的实体,边是实体间关系。首先通过TextRank算法提取文本的关键词,同时通过K-Means聚类算法对文本进行聚类,通过人工观察关键词和聚类结果,得到初步的领域关键实体类型,之后通过使用统计方法结合人工归纳、借鉴高质量通用图谱和专家指导细化修改实体类型并定义其实体关系。最后使用一个训练好的实体关系抽取模型,根据定义好的实体类型以及实体关系类型,抽取三元组。
基于注意力机制的图神经网络:
在经典的GCN中,词之间连接关系不做区分,若两个节点之间有连接,那么邻接矩阵中该元素为1,否则为0。因此,GCN模型无法区分不同连接的重要性,也不能体现各节点间实体关系和依存关系的区别。为了充分学习和利用知识图谱信息,使用两个GCN模块,一个用来处理实体关系类型信息,另一个用来处理依赖关系类型信息;并对GCN原始简单的邻接矩阵进行改进,使用注意力机制,增加边类型特征。
首先设置节点初始特征矩阵X=Indoc+nentity,其中ndoc是文本节点数,nentity是抽取实体数,利用BERT获取节点嵌入;对于长度为n的文本,构建一个邻接矩阵A=(ai,j)n×n,当词语xi和xj之间存在句法依存或实体关系,则ai,j=1,反之不存在关系,则ai,j=0;存在任意词语xi,则第l层GCN的输出表示为:
其中ai.j∈A,是词语xj在GCN第l-1层的输出,W(l)是可训练矩阵,b(l)是第l层GCN的偏差,σ是激活函数ReLU。
然后使用B=(ri,j)n×n表示实体关系类型矩阵,其中ri,j是xi和xj之间的实体关系类型,将每个类型ri,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重p(l) i,j,p(l) i,j的计算公式如下:
其中,ai.j∈A,和/>分别是xi和xj的中间向量,/>和/>的计算公式如下:
其中,和/>分别是节点i和j在GCN第l-1层的输出,/>表示拼接;
最终实体关系图神经网络输出向量的计算公式如下:
是增加了实体关系类型信息的向量,计算公式为:
其中,将实体关系类型嵌入/>映射到与/>相同的维度,/>是词语xj在GCN第l-1层的输出。
最后使用C=(ti,j)n×n表示依赖关系类型矩阵,其中ti,j是xi和xj之间的依赖关系类型,将每个类型ti,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重q(l) i,j,q(l) i,j的计算公式如下:
其中ai.j∈A,和/>分别是xi和xj的中间向量,/>和/>的计算公式如下:
其中和/>分别是节点i和j在GCN第l-1层的输出,/>表示拼接;
最终依赖关系图神经网络输出的计算公式如下:
是增加了依赖关系类型信息的向量,计算公式为:
其中,将依赖关系类型嵌入/>映射到与/>相同的维度,/>是词语xj在GCN第l-1层的输出;
最终,将两个GCN模块生成向量拼接得到GCN模型的输出:
通过图结构掩码模型进一步提升模型理解语义依赖关系,具体为:
掩码语言模型(Masked LM,MLM)是BERT模型的训练任务之一,它和一般的语言模型不同,不需要像自回归模型(Autoregressive LM)一样对所有文本进行预测,而是通过随机遮蔽句子中的某些字,并利用遮蔽字的上下文来预测该字,该模型称为自编码语言模型(Autoencoder LM)。通过MLM训练后的BERT模型拥有了学习能力,在词与文本之间建立更好的联系,实现在不同上下文环境中输出不同的动态词向量,也是提升BERT模型性能的原因之一。
本文基于MLM思想,为了进一步提升模型对于字词之间语义依赖的学习能力,图结构掩码模型被提出。与掩码语言模型类似,图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量:
hrel,edge,i=ReLU(W[hrel,gcn,i;hrel,gcn,j]+b) (14)
hdep,edge,i=ReLU(W[hdep,gcn,i;hdep,gcn,j]+b) (15)
其中,hrel,edge,i是图结构掩码训练输出的实体关系类型向量,hdep,edge,i是图结构掩码训练输出的依赖关系类型向量,hrel,gcn,i;hrel,gcn,j表示节点i和j之间的实体关系边,hdep,gcn,i;hdep,gcn,j表示节点i和j之间的依赖关系边。
将两部分掩码训练结果拼接得到hedge:
损失函数具体为:
交叉熵损失函数(Cross Entropy Loss Function)是深度学习中的一种常用的损失函数,具有强大的泛化能力和良好的凸优化性,可以帮助模型训练收敛,从而使模型的预测结果接近实际的标签值。采用交叉熵损失作为损失函数,可得到BERT预测概率分布及损失函数Lbert:
其中,yi为某个样本属于类别i的真实标签,M为标签总数。
图卷积神经网络预测概率分布及损失函数Lgcn:
BERT和GCN的线性插值计算公式如下:
Lcls=λ*Lgcn+(1-λ)*Lbert (21)
其中,λ控制两个目标之间的权衡,λ=0即仅使用BERT模型,而λ=1即仅使用GCN模块。
图结构掩码模块预测概率分布及损失函数Ledge:
最终模型的损失函数L为:
L=(1-α)Lcls+αLedge (24)
其中,α可以调整图结构掩码模块权重,进一步优化模型性能。
与上述一种基于知识图谱的领域长文本分类方法相应地,如图2所示,本实例还提出一种基于知识图谱的领域长文本分类系统,包括初始化词向量获得模块、知识图谱和依存关系图构建模块、最终词向量获得模块、边类型向量获得模块和模型优化模块,其中:
初始化词向量获得模块,用于利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络。
知识图谱和依存关系图构建模块,用于使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树,在句法依存树上构建依存关系图。
最终词向量获得模块,用于将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码;同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将初始化词向量与增加边类型信息的词向量融合得到最终词向量。
边类型向量获得模块,用于使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量。
模型优化模块,用于采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
本发明在数据层面,利用BERT对文本进行编码,获得含有丰富语义信息的初始化向量;在知识层面,通过知识图谱引入先验知识,使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,将其与句法依存信息共同作为图神经网络的边。为进一步提升模型对于字词之间语义依赖的学习能力,利用图结构掩码模型学习边关系及边类型。本发明通过融合知识特征和数据特征,进一步提升长文本分类的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于知识图谱的领域长文本分类方法,其特征在于,包含以下步骤:
利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络;
使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树,在句法依存树上构建依存关系图;
将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码;同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将初始化词向量与增加边类型信息的词向量融合得到最终词向量;
使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;
采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
2.根据权利要求1所述的基于知识图谱的领域长文本分类方法,其特征在于,对于长文本的BERT表示,采用滑动窗口的方法对一条长文本通过滑动窗口截取不同部分,然后将所有句子表示进行求和并取平均值作为最终的BERT向量。
3.根据权利要求2所述的基于知识图谱的领域长文本分类方法,其特征在于,将BERT模型的后4层的向量进行拼接,BERT模型输出向量表示为hbert,计算公式如下:
hbert=ReLU(W[hbert,-1;hbert,-2;hbert,-3;hbert,-4;]+b)
其中,;代表拼接,hbert,-1、hbert,-2、hbert,-3、hbert,-4分别表示BERT编码最后4层得到的向量,W为可训练的权重矩阵,b为偏置项。
4.根据权利要求1所述的基于知识图谱的领域长文本分类方法,其特征在于,所述知识图谱是一组节点和边构成的三元组,构建知识图谱过程为:
首先通过TextRank算法提取文本的关键词,同时通过K-Means聚类算法对文本进行聚类,通过关键词和聚类结果,得到初步的领域关键实体类型,再细化修改实体类型并定义其实体关系;最后使用一个训练好的实体关系抽取模型,根据定义好的实体类型及实体关系类型,抽取三元组。
5.根据权利要求1所述的基于知识图谱的领域长文本分类方法,其特征在于,GCN模块输出向量计算公式如下:
设置节点初始特征矩阵其中ndoc是文本节点数,nentity是抽取实体数;对于长度为n的文本,构建一个邻接矩阵A=(ai,j)n×n,当词语xi和xj之间存在句法依存或实体关系,则ai,j=1,反之不存在关系,则ai,j=0;
存在任意词语xi,则第l层GCN的输出表示为:
其中ai.j∈A,是词语xj在GCN第l-1层的输出,W(l)是可训练矩阵,b(l)是第l层GCN的偏差,σ是激活函数ReLU。
6.根据权利要求5所述的基于知识图谱的领域长文本分类方法,其特征在于,基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,包括:
使用B=(ri,j)n×n表示实体关系类型矩阵,其中ri,j是xi和xj之间的实体关系类型,将每个类型ri,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重p(l) i,j,p(l) i,j的计算公式如下:
其中,ai.j∈A,和/>分别是xi和xj的中间向量,/>和/>的计算公式如下:
其中,和/>分别是节点i和j在GCN第l-1层的输出,/>表示拼接;
最终实体关系图神经网络输出向量的计算公式如下:
是增加了实体关系类型信息的向量,计算公式为:
其中,将实体关系类型嵌入/>映射到与/>相同的维度,/>是词语xj在GCN第l-1层的输出。
7.根据权利要求6所述的基于知识图谱的领域长文本分类方法,其特征在于,基于注意力机制,依赖关系图神经网络输出增加依赖关系类型信息的词向量,包括:
使用C=(ti,j)n×n表示依赖关系类型矩阵,其中ti,j是xi和xj之间的依赖关系类型,将每个类型ti,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重q(l) i,j,q(l) i,j的计算公式如下:
其中ai.j∈A,和/>分别是xi和xj的中间向量,/>和/>的计算公式如下:
其中和/>分别是节点i和j在GCN第l-1层的输出,/>表示拼接;
最终依赖关系图神经网络输出的计算公式如下:
是增加了依赖关系类型信息的向量,计算公式为:
其中,将依赖关系类型嵌入/>映射到与/>相同的维度,/>是词语xj在GCN第l-1层的输出;
最终,将两个GCN模块生成向量拼接得到GCN模型的输出:
8.根据权利要求7所述的基于知识图谱的领域长文本分类方法,其特征在于,通过图结构掩码模型分别得到实体关系类型向量和依赖关系类型向量,表达式如下:
hrel,edge,i=ReLU(W[hrel,gcn,i;hrel,gcn,j]+b)
hdep,edge,i=ReLU(W[hdep,gcn,i;hdep,gcn,j]+b)
其中,hrel,edge,i是图结构掩码训练输出的实体关系类型向量,hdep,edge,i是图结构掩码训练输出的依赖关系类型向量,hrel,gcn,i;hrel,gcn,j表示节点i和j之间的实体关系边,hdep,gcn,i;hdep,gcn,j表示节点i和j之间的依赖关系边;
将两部分掩码训练结果拼接得到hedge:
9.一种基于知识图谱的领域长文本分类系统,其特征在于,包括初始化词向量获得模块、知识图谱和依存关系图构建模块、最终词向量获得模块、边类型向量获得模块和模型优化模块,其中:
初始化词向量获得模块,用于利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络;
知识图谱和依存关系图构建模块,用于使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树,在句法依存树上构建依存关系图;
最终词向量获得模块,用于将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码;同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将初始化词向量与增加边类型信息的词向量融合得到最终词向量;
边类型向量获得模块,用于使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;
模型优化模块,用于采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
10.一种计算机装置,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310624760.9A CN116521882A (zh) | 2023-05-30 | 2023-05-30 | 基于知识图谱的领域长文本分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310624760.9A CN116521882A (zh) | 2023-05-30 | 2023-05-30 | 基于知识图谱的领域长文本分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521882A true CN116521882A (zh) | 2023-08-01 |
Family
ID=87401194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310624760.9A Pending CN116521882A (zh) | 2023-05-30 | 2023-05-30 | 基于知识图谱的领域长文本分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521882A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992870A (zh) * | 2023-09-26 | 2023-11-03 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
CN117150046A (zh) * | 2023-09-12 | 2023-12-01 | 广东省华南技术转移中心有限公司 | 基于上下文语义的任务自动分解方法和系统 |
CN117252264A (zh) * | 2023-11-20 | 2023-12-19 | 神思电子技术股份有限公司 | 一种结合语言模型与图神经网络的关系抽取方法 |
CN117540035A (zh) * | 2024-01-09 | 2024-02-09 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
-
2023
- 2023-05-30 CN CN202310624760.9A patent/CN116521882A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150046A (zh) * | 2023-09-12 | 2023-12-01 | 广东省华南技术转移中心有限公司 | 基于上下文语义的任务自动分解方法和系统 |
CN117150046B (zh) * | 2023-09-12 | 2024-03-15 | 广东省华南技术转移中心有限公司 | 基于上下文语义的任务自动分解方法和系统 |
CN116992870A (zh) * | 2023-09-26 | 2023-11-03 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
CN116992870B (zh) * | 2023-09-26 | 2023-12-19 | 山东省计算中心(国家超级计算济南中心) | 基于非对称核函数的文本信息实体关系抽取方法及系统 |
CN117252264A (zh) * | 2023-11-20 | 2023-12-19 | 神思电子技术股份有限公司 | 一种结合语言模型与图神经网络的关系抽取方法 |
CN117252264B (zh) * | 2023-11-20 | 2024-02-02 | 神思电子技术股份有限公司 | 一种结合语言模型与图神经网络的关系抽取方法 |
CN117540035A (zh) * | 2024-01-09 | 2024-02-09 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
CN117540035B (zh) * | 2024-01-09 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN116521882A (zh) | 基于知识图谱的领域长文本分类方法及系统 | |
CN111651974B (zh) | 一种隐式篇章关系分析方法和系统 | |
CN111241807B (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN111666758A (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN112836051B (zh) | 一种在线自学习的法院电子卷宗文本分类方法 | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
JP2016170636A (ja) | 接続関係推定装置、方法、及びプログラム | |
CN113051932A (zh) | 语义和知识扩展主题模型的网络媒体事件的类别检测方法 | |
Mankolli et al. | Machine learning and natural language processing: Review of models and optimization problems | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN114444515A (zh) | 一种基于实体语义融合的关系抽取方法 | |
CN113435190B (zh) | 一种融合多层次信息抽取和降噪的篇章关系抽取方法 | |
CN116975271A (zh) | 文本相关性的确定方法、装置、计算机设备和存储介质 | |
CN111723301B (zh) | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 | |
CN111581339B (zh) | 基于树状lstm对生物医学文献的基因事件的抽取方法 | |
Gao et al. | A hybrid GCN and RNN structure based on attention mechanism for text classification | |
CN113869058A (zh) | 基于lc-gcn方面级情感分析方法、系统、存储介质和电子设备 | |
CN113792144A (zh) | 基于半监督的图卷积神经网络的文本分类方法 | |
CN113111288A (zh) | 一种融合非结构化和结构化信息的Web服务分类方法 | |
Wang et al. | Event extraction via dmcnn in open domain public sentiment information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |