CN117576710B - 用于大数据分析的基于图生成自然语言文本的方法及装置 - Google Patents
用于大数据分析的基于图生成自然语言文本的方法及装置 Download PDFInfo
- Publication number
- CN117576710B CN117576710B CN202410050301.9A CN202410050301A CN117576710B CN 117576710 B CN117576710 B CN 117576710B CN 202410050301 A CN202410050301 A CN 202410050301A CN 117576710 B CN117576710 B CN 117576710B
- Authority
- CN
- China
- Prior art keywords
- graph
- text
- training
- feature vector
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000007405 data analysis Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 102
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 43
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 238000005457 optimization Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 24
- 238000003062 neural network model Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000003042 antagnostic effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18162—Extraction of features or characteristics of the image related to a structural representation of the pattern
- G06V30/18181—Graphical representation, e.g. directed attributed graph
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种用于大数据分析的基于图生成自然语言文本的方法及装置。所述方法包括如下步骤,由处理器接收待分析的图,所述图以图结构的形式来表达目标领域的人类知识;基于所述图,利用经过图的自监督预训练的第一编码器,来提取图特征向量,其中,图的自监督预训练至少包括图遍历顺序转换任务和子图补全任务的多任务训练,图遍历顺序转换任务用于将图的深度优先遍历得到的线性序列转换为图的广度优先遍历序列,所述子图补全任务用于将子图替换为掩码的含噪声图恢复还原为原始图;以及基于所提取的图特征向量,利用解码器进行解码,以生成自然语言文本。
Description
技术领域
本申请涉及信息处理技术领域,具体涉及一种用于大数据分析的基于图生成自然语言文本的方法、装置以及存储介质。
背景技术
图到文本生成(Graph-to-text Generation)任务旨在将结构化的图输入转换为文本序列,有利于帮助人们理解复杂的图结构。近年来,该任务受到了来自工业和学术领域的广泛关注。通常来说,图到文本生成系统以图结构作为输入,输出易于理解的自然语言。现有的图到文本生成系统以基于编解码器的预训练语言模型(Pre-trained languagemodel)为基础,通过在文本作为监督的图到文本平行数据上进行精调来更新参数,并在训练收敛后得到最终模型。然而,现有的图到文本生成系统只能利用有标签的图到文本对齐数据来进行训练,无法利用大规模的无标签的图数据来进行训练,因此需要大量人工标注,并且文本生成质量较差。而且,现有的方法不具备图到文本的零样本学习能力,因此不适用于低资源和零样本场景。
发明内容
针对上述问题,提出了本申请以解决现有技术存在的上述问题。
本申请的目的在于提供一种用于大数据分析的基于图生成自然语言文本的方法、装置以及存储介质。该方法通过在无标签图上进行大规模预训练来增强编解码器神经网络对图结构的建模能力,并使用经过图的自监督预训练的第一编码器和解码器来进行图到文本生成任务。
根据本申请的第一方案,提供一种用于大数据分析的基于图生成自然语言文本的方法。该方法包括如下步骤,由处理器接收待分析的图,所述图以图结构的形式来表达目标领域的人类知识;基于所述图,利用经过图的自监督预训练的第一编码器,来提取图特征向量,其中,图的自监督预训练至少包括图遍历顺序转换任务和子图补全任务的多任务训练,图遍历顺序转换任务用于将图的深度优先遍历得到的线性序列转换为图的广度优先遍历序列,所述子图补全任务用于将子图替换为掩码的含噪声图恢复还原为原始图;以及基于所提取的图特征向量,利用解码器进行解码,以生成自然语言文本。
根据本申请的第二方案,提供一种用于大数据分析的基于图生成自然语言文本的装置。该装置包括处理器,且所述处理器配置为执行根据本申请的各个实施例的用于大数据分析的基于图生成自然语言文本的方法。
根据本申请的第三方案,提供一种计算机可读存储介质。该存储介质上存储有计算机可执行指令,由处理器执行时实现根据本申请的各个实施例的用于大数据分析的基于图生成自然语言文本的方法。
本发明所提出的用于大数据分析的基于图生成自然语言文本的方法通过训练神经网络进行图结构预测,能够增强神经网络对图的理解能力,有助于生成与图更加语义一致的文本。并且,该方法能够有效地利用大规模无标签的图数据,从而使得神经网络能够更好地学习图的通用特征,有助于提升文本生成的质量。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出了本申请实施例的用于大数据分析的基于图生成自然语言文本的方法的流程图;
图2示出了本申请实施例的用于大数据分析的基于图生成自然语言文本的方法的原理示意图;
图3示出了本申请实施例的图特征向量对齐处理的流程图;
图4示出了本申请实施例的基于对抗学习网络的图和文本对齐处理示意图;
图5示出了本申请实施例的预训练模型精调处理的流程图;
图6示出了本申请实施例的预训练模型精调处理的原理示意图;以及
图7示出了本申请实施例的用于大数据分析的基于图生成自然语言文本的方法的流程示意图。
具体实施方式
为使本领域技术人员更好的理解本公开的技术方案,下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述,但不作为对本公开的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
在本申请的一些实施例中,提供了一种用于大数据分析的基于图生成自然语言文本的方法。该方法广泛应用于大数据分析领域,本申请能够将难以理解的结构化输入(如知识图谱、语言图等)转换为普通人容易接受的自然语言,可应用于人机交互智能体、搜索引擎或AI助手等使用场景中。图结构细化为以图的形式来表达目标领域的人类知识的结构,比如语义网络或者进一步的知识图谱。语义网络是一种以网络格式表达人类知识构造的形式,是一种用实体及其语义关系来表达知识的有向图。而知识图谱是一种基于图的数据结构,是一种用图模型来描述知识和建模世界万物之间关联关系的大规模语义网络。
以知识图谱为例,知识图谱以半结构化的形式描述客观世界中概念、实体及其关系。在知识图谱里,我们通常用“实体”来表达图里的节点、用 “关系” 来表达图里的 “边”。假设一个知识图谱可以表示为G=<V,E>, 其中V代表节点集合、E代表图中的边集合。每条边可以进一步表示为<vi,rij,vj>, 表示第i个节点vi和第j个节点vj之间由一个标签为 rij的有向边相连接。假设一条句子可以表示为X={x1,x2,...,xN}, 其中xi表示句子中的第i个词,N代表句子的总长度。图到文本生成任务旨在学习一个从G到X的映射 I: G→X 来将图转换为对应的文本序列。
图1示出了本申请实施例的用于大数据分析的基于图生成自然语言文本的方法的流程图。如图1所示,该方法由处理器执行如下的步骤S1至步骤S3:
在步骤S1中,接收待分析的图,所述图以图结构的形式来表达目标领域的人类知识。
具体而言,如图2所示,待分析的图优选知识图谱、语义网络等例如图2中的(a)部分所示的图结构,但并不限定于此。
在步骤S2中,基于图,利用经过图的自监督预训练的第一编码器,来提取图特征向量。其中,图的自监督预训练至少包括图遍历顺序转换任务和子图补全任务的多任务训练。图遍历顺序转换任务用于将图的深度优先遍历得到的线性序列转换为图的广度优先遍历序列,子图补全任务用于将子图替换为掩码的含噪声图恢复还原为原始图。
具体而言,为了增强神经网络对于图结构的建模能力,本申请的用于大数据分析的基于图生成自然语言文本的方法中设计了多种基于图的自监督学习训练任务,来在图结构上进行第一编码器神经网络的预训练。图的自监督预训练任务至少包括图遍历顺序转换任务和子图补全任务。图遍历顺序转换任务以图的深度优先遍历(Depth First Select,简称为DFS)得到的线性序列作为输入,输出为图的广度优先遍历(Breath First Select,简称为BFS)序列/>。图的深度优先遍历(DFS)指的是从待分析的图中一个未访问的顶点V开始,沿着一条路径一直走到这条路径尽头的节点,然后从该尽头的节点回退到上一个有分支路径的节点,再从该节点的另一条路径开始走到底,并不断递归重复此过程,直到图中所有的顶点都遍历完成。图的广度优先遍历(BFS)指的是从待分析的图的一个未遍历的节点出发,先遍历这个节点的相邻节点,再依次遍历每个相邻节点的相邻节点,直到图中所有的顶点都遍历完成。
形式化地,图遍历顺序转换任务旨在建模如公式(1)所示的以图的深度优先遍历(DFS)得到的线性序列作为输入来得到图的广度优先遍历(BFS)序列/>的条件概率:
……公式(1)
其中,代表图的广度优先遍历(BFS)序列/>中的总元素个数,∏表示连乘,代表在t时刻下由已生成的图序列/>预测当前时刻图序列/>的概率。
通过这种方式,图遍历顺序转换任务训练的神经网络能够有效地理解图结构信息,并能进行遍历顺序转换。
子图补全任务以预设的概率将输入图的某个子图随机替换为掩码[MASK],并训练模型还原为原始图结构。如图2中的(c)部分所示,子图补全任务首先将原始图(图2中的(a)部分所示的图)中的子图替换为[MASK],从而得到含噪声的图。在此基础上,该任务通过被掩码子图的周围节点和边的信息来预测被掩码的子图,因此能够有效建模图的子图级上下文信息。
形式化地,该任务旨在建模如公式(2)所示的以掩子图替换后的含噪声图作为输入得到原始图G的条件概率:
…… 公式(2)
其中,代表经过子图掩码扰动后的图,|G|代表图中的总元素个数,∏表示连乘,代表在t时刻下由已生成的图序列/>预测当前时刻图序列/>的概率
在步骤S3中,基于所提取的图特征向量,利用解码器进行解码,以生成自然语言文本。
本申请的用于大数据分析的基于图生成自然语言文本的方法通过图遍历顺序转换任务建模了图的向量表示,形成了图向量表示空间和文本向量表示空间,并采用多任务训练的方式进行模型优化,进而通过训练神经网络进行图结构预测,能够增强神经网络对图的理解能力,有助于生成与图更加语义一致的文本。并且,该方法能够通过子图补全任务有效建模图的子图级上下文信息,因而能够有效地利用大规模无标签的图数据,从而使得神经网络能够更好地学习图的通用特征,有助于提升文本生成的质量。
在一些实施例中,图遍历顺序转换任务建模以图的深度优先遍历得到的线性序列作为输入来得到图的广度优先遍历序列的第一条件概率,子图补全任务建模以子图替换为掩码的含噪声图为输入来得到原始图的第二条件概率。并且,图的自监督预训练不使用图的并行文本标签,而联合考虑第一条件概率的第一负对数似然函数和第二条件概率的第一负对数似然函数作为损失函数进行自监督预训练。
本申请的用于大数据分析的基于图生成自然语言文本的方法中,采用多任务训练的方式进行模型优化。给定无标签的图数据集合Sg={G},并使用如公式(3)所示的负对数似然函数作为损失函数来优化一个编解码器神经网络模型Mg=(Encg,Decg):
…… 公式(3)
其中,表示编解码器神经网络模型Mg的优化目标,Encg代表神经网络模型Mg中的编码器即第一编码器,Decg为神经网络模型Mg中的解码器,/>代表原始图的第一条件概率,/>代表原始图的第二条件概率。
在优化过程中,使用小批次(Minibatch)训练方式来进行参数更新,这样能够同时兼顾训练稳定性与训练效率。
在一些实施例中,用于大数据分析的基于图生成自然语言文本的方法还包括在提取到图特征向量之后,通过基于对抗学习网络减少图特征向量空间与文本特征向量空间之间的分布距离使得满足预定的对齐条件,来对图特征向量进行对齐处理。
具体而言,当在步骤S2中提取到图特征向量之后,对图特征向量进行对齐处理。图3示出了本申请实施例的图特征向量对齐处理的流程图。如图3所示,图特征向量对齐处理具体包括如下的步骤S21至步骤S24:
在步骤S21中,提供用于对抗学习网络的生成器,用于对图特征向量进行非线性转换以得到伪文本特征向量。
在步骤S22中,提供用于对抗学习网络的判别器,伪文本特征向量与对比文本特征向量一同输入到判别器,以判别输入的特征向量是否文本特征向量。其中,判别器为二元分类器,对比文本特征向量通过伪文本特征向量源自的图特征向量利用预训练语言模型编码得到,预训练语言模型在文本序列上训练得到。
在步骤S23中,训练对抗学习网络,使得判别器关于输入的特征向量是否文本特征向量的准确率稳定到45%-55%。
在步骤S24中,使用在第一编码器的基础上复合了训练好的对抗学习网络中的生成器的非线性转换处理的第二编码器,对图特征向量进行非线性转换,以得到对齐后的图特征向量,用于利用解码器进行解码以生成自然语言文本。
图4示出了本申请实施例的基于对抗学习网络的图和文本对齐处理示意图。如图4所示,以二维向量分布为例,假设实线代表图的表示向量分布,点线代表文本的表示向量分布,虚线代表判别器准确率,也就是文本向量分类器的分类准确率。文本向量分类器为二元分类器,在该分类器中输入待判别的特征向量,在判别所输入的特征向量不是文本向量的情况下,输出0;判别所输入的特征向量是文本向量,也就是标签的情况下,输出1。
在执行图特征向量对齐处理时,同时将图和文本的向量空间作为输入,通过使用对抗学习网络技术对图4中左半部分所示的图的向量空间进行非线性变换,最终使图与文本的向量空间如图4的右半部分所示的那样对齐。当分类器的准确率收敛到45%-55%,也就是50%左右的范围时,表明图和文本的向量表示空间已经相对齐。
形式化地,假设上述获得的编解码器神经网络模型Mg编码后图的向量集合可以表示为Xg=Encg(Sg),由文本序列上训练得到的预训练语言模型编码后的文本向量集合可以表示为Xt=Enct(St),其中St代表无标签文本集合,Enct代表预训练语言模型的编码器。基于对抗学习网络的对齐处理通过训练一个非线性映码器神经网络模型Mg编码后图的向量集合可以表示为Xg=Encg(Sg),由文本序列上训练得到的预训练语言模型编码后的文本向量集合可以表示为Xt=Enct(St),其中St代表无标签文本集合,Enct代表预训练语言模型的编码器。基于对抗学习网络的对齐处理通过训练一个非线性映射f:Rd→Rd来对Xg进行转换,使得转换后的图向量表示Xg'与文本表示Xt在向量空间中对齐,其中d代表向量空间的维度。
本申请通过基于对抗学习网络的对齐处理来最小化图的向量空间和文本的向量空间之间的分布距离,将上述用于大数据分析的基于图生成自然语言文本的方法所形成的相互独立的图向量表示空间和文本向量表示空间对齐,从而使相互独立的图向量表示空间和文本向量表示空间能够直接用于图到文本的转换。基于对抗学习网络的对齐处理能够在不依赖图到文本平行数据的前提下将图的表示空间与文本表示空间相对齐,这一方面赋予了模型进行少样本甚至零样本的图到文本生成能力,有助于低资源场景下的应用;另一方面也简化了后续精调阶段的学习难度,提升后续的预训练模型的训练效率。
在一些实施例中,生成器基于池化函数和多层前馈神经网络级联而形成,判别器基于多层前馈神经网络和sigmoid激活函数组成。训练对抗学习网络具体包括以第一损失函数和第二损失函数,分别交替地对生成器和判别器进行参数优化。其中,第一损失函数由公式(4)来定义:
……公式(4)
其中,lf表示生成器的优化目标,xg表示编解码器神经网络编码后的图向量集合中的样本,Xg表示编解码器神经网络编码后的图向量集合,xg~Xg表示xg从Xg中随机采样而来,disc表示判别器。
具体而言,对抗学习网络机制由一个生成器(即非线性映射f)和一个判别器disc组成,其中生成器f用于生成伪样本,判别器是一个二元分类器,用于鉴别正样本和伪样本。在该分类器中输入待判别的特征向量,在判别所输入的特征向量是伪样本,也就是不是文本向量的情况下,输出0;判别所输入的特征向量是正样本,也就是是文本向量的情况下,输出1。
在训练过程中,二者进行零和博弈,当模型收敛时,分类器的准确率稳定到45%-55%的范围内。具体而言,生成器的优化目标是最小化如公式(4)所示的损失函数。生成器/>由一个池化函数和一个多层前馈神经网络级连组成,其中池化函数用于将长度为n的向量序列抽象为长度为1的向量,多层前馈神经网络用来进行非线性的特征变换。
同时,第二损失函数由公式(5)来定义:
……公式(5)
其中,ldisc表示判别器的优化目标,xt表示预训练语言模型编码后文本的向量集合中的样本,Xt表示预训练语言模型编码后文本的向量集合,xt~Xt代表xt从Xt中随机采样而来,Xg表示编解码器神经网络编码后图的向量集合,xg~Xg表示xg从Xg中随机采样而来。
与上述生成器的优化目标相应地,判别器的优化目标是最大化如公式(5)所示的函数。判别器由一个多层前馈神经网络和一个sigmoid激活函数组成,前者用来进行特征抽象,后者将预测分数正则化到0-1之间。
在训练过程中,对于每个小批次数据,本发明交替地对生成器和判别器进行优化,并且可以针对生成器和判别器使用不同的优化器进行参数更新。
在一些实施例中,图的自监督预训练包括图遍历顺序转换任务、子图补全任务连同图节点度预测任务这三个任务的多任务训练。其中,图节点度预测任务用于为图预测图中的各个节点对应的入度和出度信息,且建模以图作为输入得到图中所有节点的出入度的第三条件概率,图的自监督预训练不使用图的并行文本标签,而联合考虑第一条件概率的第一负对数似然函数、第二条件概率的第一负对数似然函数和第三条件概率的第三负对数似然函数作为损失函数进行自监督预训练。
具体而言,图节点度预测任务以例如图2中的(a)部分所示的知识图谱作为输入,旨在预测每个节点对应的入度和出度信息。如图2中的(b)部分所示,以图中的“张三”节点为例,该节点的入度为0,出度也为3。通过预测节点的度信息,神经网络能够有效地学习到图的结构信息。
形式化地,该任务旨在建模如公式(6)所示的以图作为输入得到图/>中所有节点的出入度的条件概率:
……公式(6)
其中D代表图G中所有节点的度信息构成的集合,di代表节点vi的入度和出度信息,|V|表示节点的数量,∏表示连乘,而P(di│vi,G)代表以图G和节点vi作为输入得到节点vi的出入度的条件概率。集合,di代表节点vi的入度和出度信息,|V|表示节点的数量,∏表示连乘,而P(di│vi,G)代表以图G和节点vi作为输入得到节点vi的出入度的条件概率。
并且,在联合考虑第一条件概率的第一负对数似然函数、第二条件概率的第一负对数似然函数和第三条件概率的第三负对数似然函数作为损失函数进行自监督预训练的情况下,给定无标签的图数据集合Sg={G},并使用如公式(7)所示的负对数似然函数作为损失函数来优化一个编解码器神经网络模型Mg=(Encg,Decg):
……公式(7)
其中,Encg代表神经网络模型Mg中的编码器即第一编码器,Decg为神经网络模型Mg中的解码器,代表原始图的第一条件概率,/>代表原始图的第二条件概率,代表原始图的第三条件概率。
在优化过程中,使用小批次(Minibatch)训练方式来进行参数更新,这样能够同时兼顾训练稳定性与训练效率。
在一些实施例中,解码器为预训练语言模型的解码器,预训练语言模型在文本序列上训练得到。
在一些实施例中,用于大数据分析的基于图生成自然语言文本的方法还包括预训练模型精调处理。图5示出了本申请实施例的预训练模型精调处理的流程图。如图5所示,预训练模型精调处理具体包括如下的步骤S41至步骤S43:
在步骤S41中,使用第二编码器的参数作为精调编码器的初始化参数。
在步骤S42中,使用预训练语言模型的解码器的参数作为精调解码器的初始化参数。
在步骤S43中,基于精调编码器和精调解码器的初始化参数,利用图和平行文本标签的数据对的集合进行训练,以得到训练好的精调编码器和解码器,用于基于图生成自然语言文本。
具体而言,如图6所示,使用第二编码器的参数来初始化精调解码器的参数,使用预训练语言模型的解码器的参数来初始化精调解码器的参数,来对经图特征向量对齐处理后获得的预训练模型进行精调,以获得初始化精调模型。
形式化地,假设经图特征向量对齐处理后获得的预训练模型为Mg'=(Encg',Decg'),图特征向量对齐处理中使用的预训练语言模型为Mt=(Enct,Dect),并且预训练语言模型可在无标签的文本数据上训练得到。使用的初始化精调模型为M_f=(Encg',Dect)。利用图到文本的生成任务来对初始化精调模型执行训练,执行训练后的最终模型可以用于基于图生成自然语言文本。以如下方式对初始化精调模型进行训练。给定图和文本的平行数据对<G, X>,训练的任务旨在建模如公式(8)所示的条件概率:
……公式(8)
其中,P(X│G)代表以图G作为输入得到图G中所有节点的出入度的条件概率,X代表图G中所有节点的度信息构成的集合,P(Xt|X<t,G)代表在t时刻下由已生成的图序列X<t预测当前时刻图序列Xt的概率。
在一些实施例中,精调编码器和精调解码器的训练建模以图为输入得到其对应的平行文本标签的第四条件概率,且使用第四条件概率的第四负对数似然函数作为损失函数。
具体而言,给定所有图和文本的平行数据集合,精调模型/>通过如公式(9)所示的负对数似然函数进行优化:
…… 公式(9)
其中,lfinetune表示精调模型的优化目标。精调模型Mf可以使用多种基于梯度下降的优化器进行优化,如SGD,Adam等。
如图7所示,在一些实施例中,用于大数据分析的基于图生成自然语言文本的方法在第一阶段,通过在无标签图上进行大规模预训练来增强神经网络对图结构的建模能力;在第二阶段,进一步提出基于对抗学习网络的对齐处理,该机制通过对抗学习网络来将图的表示空间与文本的表示空间相对齐,从而能够允许模型更好的进行图到文本的迁移学习。最终,使用获得的预训练图编码器和文本解码器模型来进行图到文本生成任务的精调,以进一步提高图到自然语言文本的生成精度。
在本申请的一些实施例中,提供了一种用于大数据分析的基于图生成自然语言文本的装置,包括处理器,且处理器配置为执行根据本申请的各个实施例的用于大数据分析的基于图生成自然语言文本的方法。
处理器可以是包括诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等一个或更多个通用处理设备的处理设备。更具体地,处理器可以是复杂指令集运算(CISC)微处理器、精简指令集运算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等一个或更多个专用处理设备。
在本申请的一些实施例中,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,由处理器执行时实现根据本申请的各个实施例的用于大数据分析的基于图生成自然语言文本的方法。
具体而言,处理器可以通信地联接到计算机,并且被配置为执行存储在存储介质中的计算机可执行指令。存储介质例如为存储器,存储器可以包括只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备等。在一些实施例中,存储器可以存储计算机可执行指令以及在执行计算机可执行指令时使用或生成的数据。处理器可以执行计算机可执行指令以实现根据本申请的各个实施例的用于大数据分析的基于图生成自然语言文本的方法。所述方法通过图遍历顺序转换任务建模了图的向量表示,形成了图向量表示空间和文本向量表示空间,并采用多任务训练的方式进行模型优化,进而通过训练神经网络进行图结构预测,能够增强神经网络对图的理解能力,有助于生成与图更加语义一致的文本。并且,该方法能够通过子图补全任务有效建模图的子图级上下文信息,因而能够有效地利用大规模无标签的图数据,从而使得神经网络能够更好地学习图的通用特征,有助于提升文本生成的质量。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
Claims (9)
1.一种用于大数据分析的基于图生成自然语言文本的方法,其特征在于,所述方法包括如下步骤,由处理器:
接收待分析的图,所述图以图结构的形式来表达目标领域的人类知识;
基于所述图,利用经过图的自监督预训练的第一编码器,来提取图特征向量,其中,图的自监督预训练至少包括图遍历顺序转换任务和子图补全任务的多任务训练,图遍历顺序转换任务用于将图的深度优先遍历得到的线性序列转换为图的广度优先遍历序列,所述子图补全任务用于将子图替换为掩码的含噪声图恢复还原为原始图;以及
基于所提取的图特征向量,利用解码器进行解码,以生成自然语言文本,
在提取到图特征向量之后,通过基于对抗学习网络减少图特征向量空间与文本特征向量空间之间的分布距离使得满足预定的对齐条件,来对图特征向量进行对齐处理,具体包括:
提供用于所述对抗学习网络的生成器,用于对图特征向量进行非线性转换以得到伪文本特征向量;
提供用于所述对抗学习网络的判别器,所述判别器为二元分类器,所述伪文本特征向量与对比文本特征向量一同输入到所述判别器,以判别输入的特征向量是否为文本特征向量,所述对比文本特征向量通过所述伪文本特征向量源自的图特征向量利用预训练语言模型编码得到,所述预训练语言模型在文本序列上训练得到;
训练所述对抗学习网络,使得判别器关于输入的特征向量是否为文本特征向量的准确率稳定到45%-55%;以及
使用在第一编码器的基础上复合了训练好的对抗学习网络中的生成器的非线性转换处理的第二编码器,对图特征向量进行非线性转换,以得到对齐后的图特征向量,用于利用解码器进行解码以生成自然语言文本。
2.根据权利要求1所述的方法,其特征在于,图遍历顺序转换任务建模以图的深度优先遍历得到的线性序列作为输入来得到图的广度优先遍历序列的第一条件概率,子图补全任务建模以子图替换为掩码的含噪声图为输入来得到原始图的第二条件概率,所述图的自监督预训练不使用所述图的并行文本标签,而联合考虑所述第一条件概率的第一负对数似然函数和第二条件概率的第一负对数似然函数作为损失函数进行自监督预训练。
3.根据权利要求1所述的方法,其特征在于,所述生成器基于池化函数和多层前馈神经网络级联而形成,所述判别器基于多层前馈神经网络和sigmoid激活函数组成,训练所述对抗学习网络具体包括:
以第一损失函数和第二损失函数,分别交替地对所述生成器和所述判别器进行参数优化,其中,所述第一损失函数由公式(1)来定义:
公式(1)
其中,lf表示所述生成器的优化目标,xg表示编解码器神经网络编码后的图向量集合中的样本,Xg表示编解码器神经网络编码后的图向量集合,xg~Xg表示xg从Xg中随机采样而来,disc表示所述判别器;
所述第二损失函数由公式(2)来定义:
公式(2)
其中,ldisc表示所述判别器的优化目标,xt表示预训练语言模型编码后文本的向量集合中的样本,Xt表示预训练语言模型编码后文本的向量集合,xt~Xt代表xt从Xt中随机采样而来,Xg表示编解码器神经网络编码后图的向量集合,xg~Xg表示xg从Xg中随机采样而来。
4.根据权利要求1到3中的任何一项所述的方法,其特征在于,所述图的自监督预训练包括所述图遍历顺序转换任务、所述子图补全任务连同图节点度预测任务这三个任务的多任务训练,其中,所述图节点度预测任务用于为图预测图中的各个节点对应的入度和出度信息,且建模以图作为输入得到图中所有节点的出入度的第三条件概率,所述图的自监督预训练不使用所述图的并行文本标签,而联合考虑第一条件概率的第一负对数似然函数、第二条件概率的第一负对数似然函数和所述第三条件概率的第三负对数似然函数作为损失函数进行自监督预训练。
5.根据权利要求1到3中的任何一项所述的方法,其特征在于,所述解码器为预训练语言模型的解码器,所述预训练语言模型在文本序列上训练得到。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
使用第二编码器的参数作为精调编码器的初始化参数;
使用预训练语言模型的解码器的参数作为精调解码器的初始化参数;
基于精调编码器和精调解码器的初始化参数,利用图和平行文本标签的数据对的集合进行训练,以得到训练好的精调编码器和解码器,用于基于图生成自然语言文本。
7.根据权利要求6所述的方法,其特征在于,精调编码器和精调解码器的训练建模以图为输入得到其对应的平行文本标签的第四条件概率,且使用所述第四条件概率的第四负对数似然函数作为损失函数。
8.一种用于大数据分析的基于图生成自然语言文本的装置,其特征在于,包括处理器,且所述处理器配置为执行根据权利要求1-7中任何一项所述的用于大数据分析的基于图生成自然语言文本的方法。
9.一种计算机可读存储介质,其上存储有计算机可执行指令,由处理器执行时实现根据权利要求1-7中任何一项所述的用于大数据分析的基于图生成自然语言文本的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410050301.9A CN117576710B (zh) | 2024-01-15 | 2024-01-15 | 用于大数据分析的基于图生成自然语言文本的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410050301.9A CN117576710B (zh) | 2024-01-15 | 2024-01-15 | 用于大数据分析的基于图生成自然语言文本的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576710A CN117576710A (zh) | 2024-02-20 |
CN117576710B true CN117576710B (zh) | 2024-05-28 |
Family
ID=89890408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410050301.9A Active CN117576710B (zh) | 2024-01-15 | 2024-01-15 | 用于大数据分析的基于图生成自然语言文本的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576710B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307218A (zh) * | 2020-10-21 | 2021-02-02 | 浙江大学 | 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法 |
CN113312919A (zh) * | 2021-06-15 | 2021-08-27 | 广东工业大学 | 一种知识图谱的文本生成方法及装置 |
CN113971992A (zh) * | 2021-10-26 | 2022-01-25 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
CN114528459A (zh) * | 2022-01-14 | 2022-05-24 | 中国科学院计算技术研究所 | 一种基于语义的网页信息抽取方法及系统 |
CN114943236A (zh) * | 2022-06-30 | 2022-08-26 | 北京金山数字娱乐科技有限公司 | 关键词提取方法及装置 |
JP2022135734A (ja) * | 2021-03-05 | 2022-09-15 | Kddi株式会社 | マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 |
CN115310551A (zh) * | 2022-08-15 | 2022-11-08 | 腾讯科技(武汉)有限公司 | 文本分析模型训练方法、装置、电子设备和存储介质 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
CN116304066A (zh) * | 2023-05-23 | 2023-06-23 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
CN116662565A (zh) * | 2023-05-23 | 2023-08-29 | 中国人民解放军国防科技大学 | 基于对比学习预训练的异质信息网络关键词生成方法 |
CN116994047A (zh) * | 2023-08-01 | 2023-11-03 | 北京工商大学 | 一种基于自监督预训练的小样本图像缺陷目标检测方法 |
WO2023221043A1 (en) * | 2022-05-19 | 2023-11-23 | Microsoft Technology Licensing, Llc | Training masked autoencoders for image inpainting |
-
2024
- 2024-01-15 CN CN202410050301.9A patent/CN117576710B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307218A (zh) * | 2020-10-21 | 2021-02-02 | 浙江大学 | 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法 |
JP2022135734A (ja) * | 2021-03-05 | 2022-09-15 | Kddi株式会社 | マルチモーダルな知識グラフを用いて雑談的に対話するプログラム、装置及び方法 |
CN113312919A (zh) * | 2021-06-15 | 2021-08-27 | 广东工业大学 | 一种知识图谱的文本生成方法及装置 |
CN113971992A (zh) * | 2021-10-26 | 2022-01-25 | 中国科学技术大学 | 针对分子属性预测图网络的自监督预训练方法与系统 |
CN114528459A (zh) * | 2022-01-14 | 2022-05-24 | 中国科学院计算技术研究所 | 一种基于语义的网页信息抽取方法及系统 |
WO2023221043A1 (en) * | 2022-05-19 | 2023-11-23 | Microsoft Technology Licensing, Llc | Training masked autoencoders for image inpainting |
CN114943236A (zh) * | 2022-06-30 | 2022-08-26 | 北京金山数字娱乐科技有限公司 | 关键词提取方法及装置 |
CN115310551A (zh) * | 2022-08-15 | 2022-11-08 | 腾讯科技(武汉)有限公司 | 文本分析模型训练方法、装置、电子设备和存储介质 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
CN116304066A (zh) * | 2023-05-23 | 2023-06-23 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
CN116662565A (zh) * | 2023-05-23 | 2023-08-29 | 中国人民解放军国防科技大学 | 基于对比学习预训练的异质信息网络关键词生成方法 |
CN116994047A (zh) * | 2023-08-01 | 2023-11-03 | 北京工商大学 | 一种基于自监督预训练的小样本图像缺陷目标检测方法 |
Non-Patent Citations (4)
Title |
---|
Constituency Parsing using LLMs;Xuefeng Bai et al.;《arXiv》;20231030;第1-15页 * |
Self-supervised Graph Masking Pre-training for Graph-to-Text Generation;Jiuzhou Han et al.;《Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing》;20221019;第4845–4853页 * |
图神经网络在自然语言处理中的应用;陈雨龙等;《中文信息学报》;20210315;第35卷(第03期);第1-23页 * |
面向自然语言处理的预训练技术研究综述;李舟军等;《计算机科学》;20200324;第47卷(第03期);第162-173页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576710A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11941522B2 (en) | Address information feature extraction method based on deep neural network model | |
Gu et al. | Stack-captioning: Coarse-to-fine learning for image captioning | |
He et al. | AutoML: A survey of the state-of-the-art | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
Zhang et al. | Ynu-hpcc at semeval-2018 task 1: Bilstm with attention based sentiment analysis for affect in tweets | |
CN113688878B (zh) | 一种基于记忆力机制和图神经网络的小样本图像分类方法 | |
CN112559734B (zh) | 简报生成方法、装置、电子设备及计算机可读存储介质 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
KR102405578B1 (ko) | 지식 그래프를 이용한 상황 인지형 다중 문장 관계 추출 방법 및 장치 | |
CN114936287A (zh) | 预训练语言模型的知识注入方法和相应的交互系统 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN115034201A (zh) | 使用弱监督多奖励强化学习扩充用于句子分类的文本数据 | |
Ye et al. | A novel automatic image caption generation using bidirectional long-short term memory framework | |
Zhang et al. | Using a pre-trained language model for medical named entity extraction in Chinese clinic text | |
CN113254602A (zh) | 面向科技政策领域的知识图谱构建方法及系统 | |
Xu et al. | A question-guided multi-hop reasoning graph network for visual question answering | |
CN117576710B (zh) | 用于大数据分析的基于图生成自然语言文本的方法及装置 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN111259673A (zh) | 一种基于反馈序列多任务学习的法律判决预测方法及系统 | |
CN111444316A (zh) | 一种面向知识图谱问答的复合问句解析方法 | |
CN111126443A (zh) | 基于随机游走的网络表示学习方法 | |
CN116341564A (zh) | 基于语义理解的问题推理方法和装置 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
Yap | Text anomaly detection with arae-anogan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |