CN113312919A - 一种知识图谱的文本生成方法及装置 - Google Patents

一种知识图谱的文本生成方法及装置 Download PDF

Info

Publication number
CN113312919A
CN113312919A CN202110662942.6A CN202110662942A CN113312919A CN 113312919 A CN113312919 A CN 113312919A CN 202110662942 A CN202110662942 A CN 202110662942A CN 113312919 A CN113312919 A CN 113312919A
Authority
CN
China
Prior art keywords
text
preset
word
triple
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110662942.6A
Other languages
English (en)
Inventor
程良伦
胡中强
张伟文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110662942.6A priority Critical patent/CN113312919A/zh
Publication of CN113312919A publication Critical patent/CN113312919A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识图谱的文本生成方法及装置,方法包括:将预置知识图谱三元组基于重构算法转换为三元组序列,三元组序列包括索引和标签;基于预置堆叠GCN编码器对三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;通过预置LSTM解码器对编码特征向量进行解码,得到文本特征向量,预置LSTM解码器包括上下文门控机制和注意力机制;根据预置复制注意力机制对文本特征向量进行单词生成操作,得到文本单词;采用预置波束搜索算法将文本单词以最佳序列生成文本语句,预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。本申请解决了现有技术易出现OOV问题,以及生成句子不忠于原输入的情况,导致生成的文本语句质量较差的技术问题。

Description

一种知识图谱的文本生成方法及装置
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种知识图谱的文本生成方法及装置。
背景技术
图卷积神经网络(Graph Convolutional Network,GCN),是一种强大的神经网络,它是图神经网络(GraphNeural Network,GNN)的一种变体,计算方式类似于卷积神经网络(Convolutional Neural Network,CNN),但与之不同的是GCN的运用对象是图数据,并研究从图数据中提取特征。GCN模型具备深度学习的三种性质:层级结构、非线性变换以及端对端训练。尤其在知识图谱中节点和节点间的关系连线的图结构十分适合GCN网络,并且可以获取更多的图结构特征信息以及隐藏关系信息。
知识图谱(Knowledge Graph,KG)技术是人工智能技术的组成部分,其强大的语义处理和互联组织能力,为智能化信息应用提供了基础。而知识图谱到文本生成属于自然语言生成(Natural Language Generation,NLG)中的图到文本生成任务,图到文本生成是指从输入的图结构数据中生成自然语言文本,这些图结构可以是语义表示、知识图的子图或其他形式的结构化数据。知识图谱到文本生成就是针对RDF(Resource DescriptionFramework)子图结构数据的文本生成。从知识图谱中生成文本可以使更广泛的终端用户访问存储的信息,同时对于知识问答、数据到文档生成以及推荐系统具有重要意义。
目前对于知识图谱到文本生成的方法主要有基于神经网络的端到端方法、管道以及其他方法。尽管最近的一些模型可以取得比较好的效果,它们在一定程度上仍存在生成单词OOV(Out-Of-Vocabulary)问题,并且,现有技术容易出现生成句子不忠实于原输入的情况,导致三元组生成句子的质量较差。
发明内容
本申请提供了一种知识图谱的文本生成方法及装置,用于解决现有技术易出现OOV问题,以及生成句子不忠于原输入的情况,导致生成的文本语句质量较差的技术问题。
有鉴于此,本申请第一方面提供了一种知识图谱的文本生成方法,包括:
将预置知识图谱三元组基于重构算法转换为三元组序列,所述三元组序列包括索引和标签;
基于预置堆叠GCN编码器对所述三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;
通过预置LSTM解码器对所述编码特征向量进行解码,得到文本特征向量,所述预置LSTM解码器包括上下文门控机制和注意力机制;
根据预置复制注意力机制对所述文本特征向量进行单词生成操作,得到文本单词;
采用预置波束搜索算法将所述文本单词以最佳序列生成文本语句,所述预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
优选地,所述将预置知识图谱三元组基于重构算法转换为三元组序列,所述三元组序列包括索引和标签,包括:
在保留预置知识图谱三元组的关系方向信息的情况下分别提取实体信息和关系信息;
对所述实体信息和所述关系信息进行分词处理,得到多个三元组单词;
对所述三元组单词添加标签后,根据所述标签将所述三元组单词重构至不同的序列中,得到三元组序列,所述三元组序列包括索引和标签。
优选地,所述基于预置堆叠GCN编码器对所述三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量,之前还包括:
采用预置BERT预训练模型对所述三元组序列进行训练处理,得到嵌入预训练词向量。
优选地,所述通过预置LSTM解码器对所述编码特征向量进行解码,得到文本特征向量,所述预置LSTM解码器包括上下文门控机制和注意力机制,包括:
基于上下文门控机制控制所述编码特征向量在隐藏层中的信息流量,然后通过注意力机制下的LSTM网络对所述编码特征向量进行解码,得到文本特征向量。
优选地,所述根据预置复制注意力机制对所述文本特征向量进行单词生成操作,得到文本单词,包括:
基于预置复制注意力机制,根据时间步和预置变量求解单词生成过程中的复制概率;
根据所述复制概率计算单词的生成概率;
若所述生成概率为0,则根据预置词表执行单词生成操作,得到文本单词;
若所述生成概率为1,则从源序列中复制单词生成所述文本单词。
优选地,所述采用预置波束搜索算法将所述文本单词以最佳序列生成文本语句,所述预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚,包括:
根据归一化原理构建长度归一化惩罚项;
基于目标单词对源单词的注意力概率构建覆盖率惩罚项;
结合所述长度归一化惩罚项和所述覆盖率惩罚项构建波束搜索函数;
根据所述波束搜索函数将所述文本单词以最佳序列生成文本语句。
本申请第二方面提供了一种知识图谱的文本生成装置,包括:
转换模块,用于将预置知识图谱三元组基于重构算法转换为三元组序列,所述三元组序列包括索引和标签;
编码模块,用于基于预置堆叠GCN编码器对所述三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;
解码模块,用于通过预置LSTM解码器对所述编码特征向量进行解码,得到文本特征向量,所述预置LSTM解码器包括上下文门控机制和注意力机制;
单词生成模块,用于根据预置复制注意力机制对所述文本特征向量进行单词生成操作,得到文本单词;
文本生成模块,用于采用预置波束搜索算法将所述文本单词以最佳序列生成文本语句,所述预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
优选地,所述转换模块,包括:
提取子模块,用于在保留预置知识图谱三元组的关系方向信息的情况下分别提取实体信息和关系信息;
分词子模块,用于对所述实体信息和所述关系信息进行分词处理,得到多个三元组单词;
重构子模块,用于对所述三元组单词添加标签后,根据所述标签将所述三元组单词重构至不同的序列中,得到三元组序列,所述三元组序列包括索引和标签。
优选地,所述解码模块具体用于:
基于上下文门控机制控制所述编码特征向量在隐藏层中的信息流量,然后通过注意力机制下的LSTM网络对所述编码特征向量进行解码,得到文本特征向量。
优选地,所述单词生成模块,包括:
求解子模块,用于基于预置复制注意力机制,根据时间步和预置变量求解单词生成过程中的复制概率;
计算子模块,用于根据所述复制概率计算单词的生成概率;
第一判断子模块,用于若所述生成概率为0,则根据预置词表执行单词生成操作,得到文本单词;
第二判断子模块,用于若所述生成概率为1,则从源序列中复制单词生成所述文本单词。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种知识图谱的文本生成方法,包括:将预置知识图谱三元组基于重构算法转换为三元组序列,三元组序列包括索引和标签;基于预置堆叠GCN编码器对三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;通过预置LSTM解码器对编码特征向量进行解码,得到文本特征向量,预置LSTM解码器包括上下文门控机制和注意力机制;根据预置复制注意力机制对文本特征向量进行单词生成操作,得到文本单词;采用预置波束搜索算法将文本单词以最佳序列生成文本语句,预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
本申请提供的知识图谱的文本生成方法,采用重构的方式对知识图谱的图信息进行增强,从原输入上为文本生成提供保障;而堆叠GCN编码器则可以获取到图更远节点之间的信息,从而确保梯度的传递;为了保证三元组生成的句子的忠实性,采用上下文门控机制进行信息量控制,使得LSTM解码过程更加流畅,且忠于原输入;复制注意力机制能够缓解生成词汇表以外的单词的问题,惩罚机制可以提高文本语句的生成质量,两种机制结合可以减少OOV问题的出现。因此,本申请能够解决现有技术易出现OOV问题,以及生成句子不忠于原输入的情况,导致生成的文本语句质量较差的技术问题。
附图说明
图1为本申请实施例提供的一种知识图谱的文本生成方法的一个流程示意图;
图2为本申请实施例提供的一种知识图谱的文本生成方法的另一个流程示意图;
图3为本申请实施例提供的一种知识图谱的文本生成装置的结构示意图;
图4为本申请实施例提供的知识图谱三元组增强示意图;
图5为本申请实施例提供的上下文门控结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种知识图谱的文本生成方法的实施例一,包括:
步骤101、将预置知识图谱三元组基于重构算法转换为三元组序列,三元组序列包括索引和标签。
知识图谱三元组包括实体信息和关系信息,重构算法是将三元组拆分,并将拆分的单词进行标记,得到不同的关系标签;然后按照一定的规律进行重组,得到对应的三元组序列。为了便于区分以及获取序列中的单词,根据每个标签建立索引,索引与标签对应,可以形成索引序列,且相同节点采用相同的索引。
对三元组进行重构转换操作后可以实现全节点图生成,即形成一个新的图,此时RDF中的每一个单词都是新图形中一个新的单独的结点,具体请参阅图4。
步骤102、基于预置堆叠GCN编码器对三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量。
对于图结构数据的输入,直接线性化会丢失图结构信息,因此预置堆叠GCN编码器为堆叠式紧密连接图卷积网络编码器,用于编码计算节点表达;采用紧密连接是梯度更有效地流过堆叠的网络层,更有助于隐藏层状态传递。
三元组序列对应的嵌入预训练词向量是根据预训练模型获取到的,将序列处理成特征向量的形式,便于编码器的网络层处理。
步骤103、通过预置LSTM解码器对编码特征向量进行解码,得到文本特征向量,预置LSTM解码器包括上下文门控机制和注意力机制。
上下文门控机制能够控制隐藏层状态更新过程中从源文和目标文本的信息流量,从而提升解码器中不同位置的信息的流畅性和充分性,使得目标信息进入LSTM解码层解码时,能更忠实于原文意思。
注意力机制可以调整LSTM层的权重参数,更加关注文本特征信息,进一步提高特征向量提取的可靠性。且LSTM能够保留文本上下文关联关系,适用于文本处理。
步骤104、根据预置复制注意力机制对文本特征向量进行单词生成操作,得到文本单词。
预置复制注意力机制是基于指针网络摘要生成中的复制机制设置的,通过学习幅值注意力,使得模型在生成单词时可以选择是从已设词表中生成词语,还是从源序列中进行复制,生成目标词语。该机制可以帮助模型生成质量更高的文本,避免OOV问题。
步骤105、采用预置波束搜索算法将文本单词以最佳序列生成文本语句,预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
预置波束搜索算法能够生成最佳序列,将文本单词组合成句子,引入惩罚项是为了提升句子质量,使得句子更加忠于源序列,并非随机组合文本单词得到的。两种惩罚项还可以鼓励模型生成更长的句子,提升模型的文本处理性能。
本申请实施例提供的知识图谱的文本生成方法,采用重构的方式对知识图谱的图信息进行增强,从原输入上为文本生成提供保障;而堆叠GCN编码器则可以获取到图更远节点之间的信息,从而确保梯度的传递;为了保证三元组生成的句子的忠实性,采用上下文门控机制进行信息量控制,使得LSTM解码过程更加流畅,且忠于原输入;复制注意力机制能够缓解生成词汇表以外的单词的问题,惩罚机制可以提高文本语句的生成质量,两种机制结合可以减少OOV问题的出现。因此,本申请实施例能够解决现有技术易出现OOV问题,以及生成句子不忠于原输入的情况,导致生成的文本语句质量较差的技术问题。
以上为本申请提供的一种知识图谱的文本生成方法的一个实施例,以下为本申请提供的一种知识图谱的文本生成方法的另一个实施例。
为了便于理解,请参阅图2,本申请提供了一种知识图谱的文本生成方法的实施例二,包括:
步骤201、在保留预置知识图谱三元组的关系方向信息的情况下分别提取实体信息和关系信息。
步骤202、对实体信息和关系信息进行分词处理,得到多个三元组单词;
步骤203、对三元组单词添加标签后,根据标签将三元组单词重构至不同的序列中,得到三元组序列,三元组序列包括索引和标签。
对输入的知识图谱三元组进行分析和重构,以形成新的图数据结构,实现输入图信息的增强。首先分别提取三元组中的实体成分和关系成分,然后对每个部分进行分词以及字符化处理;然后采用我们的规划方法对每部分字符进行规划得到字符序列和索引序列;最后将原RDF重构为信息增强后的输入图,即三元组序列X={E,V},E为序列中的实体集合,V为关系标签集合。
步骤204、采用预置BERT预训练模型对三元组序列进行训练处理,得到嵌入预训练词向量。
预置BERT预训练模型是通过其他数据集训练好的模型,可以直接处理三元组序列,将每个实体e∈E表示为一个d维的特征向量
Figure BDA0003115810540000081
步骤205、基于预置堆叠GCN编码器对三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量。
本实施例中的编码器是针对图结构数据的堆叠GCN编码器,由GCN编码器计算更新每一层节点的特征表示h′v公式为:
Figure BDA0003115810540000082
其中,第0层的
Figure BDA0003115810540000083
特征表示即为xv。u∈N(v)为当前节点v的所有邻接节点,
Figure BDA0003115810540000084
为带有节点方向特征的权重矩阵。向量
Figure BDA0003115810540000085
表示节点间每条边的标签嵌入,ρ表示一个非线性激活函数,例如Relu激活函数。gu,v是一种门控单元,它可以对每条边的重要性进行加权标量学习,并且在相关研究中指出,在多层GCN网络堆叠时,gu,v可以增加网络的灵活性。最终由节点v的邻接节点u∈N(v)的特征表达hu计算更新节点v的特征表示h′v
最后,由在每一层GCN传递过程中穿插紧密连接方法,在结点特征表示更新过程中,将前面网络每一层的输出矩阵进行拼接作为下一层的输入,公式为:
Figure BDA0003115810540000086
最后可以获取到图序列中每个节点的编码隐藏状态表达。
步骤206、基于上下文门控机制控制编码特征向量在隐藏层中的信息流量,然后通过注意力机制下的LSTM网络对编码特征向量进行解码,得到文本特征向量。
具体的上下文门控机制下的门控结构请参阅图5,引入一个权重变量,其计算公式为:
qt=sigmoid(Oq·e(yt-1)+Uqht-1+Cqh′t)
其中,Qq、Uq、Cq均为预置权重矩阵,sigmoid为一个非线性激活函数,yt-1为相对于当前时刻t的上一时刻t-1的一个单词,ht-1为t-1时刻的隐藏层表达,e为实体向量;输出结果为qt,与LSTM中的遗忘门类似,输出1表示该部分信息完全保留,输出0则表示遗忘该部分信息。通过上述求得的权重变量,计算更新隐藏层状态表示公式为:
ht=f((1-qt)⊙(Oq·E(yt-1)+Uqht-1)+qt⊙Cqh′t)
其中,⊙表示逐个元素相乘,f为网络层;当生成部分文本语句时,门控制结构基于上下文进行处理计算;门控制结构会将较高的权重分配给源上下文,将较低的权重分配给目标上下文,然后将这些信息提供给LSTM层进行解码激活;得到文本特征向量。
步骤207、基于预置复制注意力机制,根据时间步和预置变量求解单词生成过程中的复制概率;
通过在每一个时间步t引入一个预置变量zt∈{0,1},在训练文本生成过程中,每一个可训练参数
Figure BDA0003115810540000091
和解码层隐藏层状态ht作为输入,可以得到复制概率
Figure BDA0003115810540000092
步骤208、根据复制概率计算单词的生成概率。
生成概率的计算过程可以简单表达为:
Figure BDA0003115810540000093
其中,yt表示当前t时刻要生成的单词,y1:t-1为从时刻1到上一时刻t-1生成的所有单词,X表示整个输入序列。
步骤209、若生成概率为0,则根据预置词表执行单词生成操作,得到文本单词。
步骤210、若生成概率为1,则从源序列中复制单词生成文本单词。
在每一个时间步中,P(yt,zt=0)即表示文本生成根据预置词表中生成单词,而P(yt,zt=1)则表示此时模型选择复制源序列中的单词作为这个时间步的输出。
步骤211、根据归一化原理构建长度归一化惩罚项。
将原得分项除以句长惩罚项进行归一化处理,对长度归一化惩罚项定义如下:
Figure BDA0003115810540000094
其中,α∈[0,1]为控制长度惩罚强弱的参数,Y为已生成的整个输出序列。
步骤212、基于目标单词对源单词的注意力概率构建覆盖率惩罚项。
对覆盖率惩罚项定义为:
Figure BDA0003115810540000101
其中,β∈[0,1]为惩罚参数,控制覆盖率惩罚强弱;
Figure BDA0003115810540000102
表示第t个时间步目标单词yt对第i个源单词xi的注意力概率。对于某一组输入数据,生成的目标词包含多个相同的单词时,这个惩罚项就会加重。
步骤213、结合长度归一化惩罚项和覆盖率惩罚项构建波束搜索函数。
波束搜索的得分函数为定义为:
Figure BDA0003115810540000103
其中,p(y,z|x)为每个单词生成的概率,其中z为前面加入的复制机制过程中的预置变量。所得的计算结果再加上一个覆盖率惩罚项,它结合前面生成单词注意力的结果帮助覆盖源输入中的全部信息。
步骤214、根据波束搜索函数将文本单词以最佳序列生成文本语句。
通过整个模型将知识图谱三元组转成文本语句,模型的训练优化损失函数是负对数极大似然函数:
Figure BDA0003115810540000104
使用相关数据集对模型进行大量训练之后,得到用于相关邻域模型,该模型为静态模型,可以反复调用,直接对输入的RDF集输出对应的描述文本。
本申请实施例提供的知识图谱的文本生成方法,采用重构的方式对知识图谱的图信息进行增强,从原输入上为文本生成提供保障;而堆叠GCN编码器则可以获取到图更远节点之间的信息,从而确保梯度的传递;为了保证三元组生成的句子的忠实性,采用上下文门控机制进行信息量控制,使得LSTM解码过程更加流畅,且忠于原输入;复制注意力机制能够缓解生成词汇表以外的单词的问题,惩罚机制可以提高文本语句的生成质量,两种机制结合可以减少OOV问题的出现。因此,本申请实施例能够解决现有技术易出现OOV问题,以及生成句子不忠于原输入的情况,导致生成的文本语句质量较差的技术问题。
为了便于理解提供基于知识图谱的文本生成方法的实验应用例。使用WebNLG英文公开数据集训练和测试本实施例中提出的文本生成模型,从而可以验证这个模型的性能。WebNLG数据集是在WebNLG Challenge 2017中发布的,该挑战赛中有几种不同的自然语言生成任务其中包括RDF数据到文本生成,数据集中一组三元组数据和其对应的描述文本为一组数据,涵盖10个DBpedia类别(例如:Politician、City、Astronaut),包含16095个数据输入和42873个数据-文本对,以及373种关系。
在实验设置方面,使用一个BERT预训练模型BERT-Base-Cased来对节点单词进行嵌入学习,该预训练模型网络为12层,具有110M个参数,隐藏层嵌入维度为300。我们将单词的词表大小vocab_size设置为8000。训练学习率learning_rate设置为0.001,learning_rate会随着训练过程的梯度传导而自动衰减。同时我们加入并设置label_smoothing=0.2以及dropout=0.3,这样以减少我们模型过拟合的问题。GCN堆叠层数为6层,惩罚项参数设置为[0.2,0.2]。实验结果证明,本申请实施例提供的方法能够生成质量较高的文本语句,且能在一定程度上避免OOV问题。
以上为本申请提供的一种知识图谱的文本生成方法的一个实施例,以下为本申请提供的一种知识图谱的文本生成装置的一个实施例。
为了便于理解,请参阅图3,本申请还提供了一种知识图谱的文本生成装置的实施例,包括:
转换模块301,用于将预置知识图谱三元组基于重构算法转换为三元组序列,三元组序列包括索引和标签;
编码模块302,用于基于预置堆叠GCN编码器对三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;
解码模块303,用于通过预置LSTM解码器对编码特征向量进行解码,得到文本特征向量,预置LSTM解码器包括上下文门控机制和注意力机制;
单词生成模块304,用于根据预置复制注意力机制对文本特征向量进行单词生成操作,得到文本单词;
文本生成模块305,用于采用预置波束搜索算法将文本单词以最佳序列生成文本语句,预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
进一步地,转换模块301,包括:
提取子模块3011,用于在保留预置知识图谱三元组的关系方向信息的情况下分别提取实体信息和关系信息;
分词子模块3012,用于对实体信息和关系信息进行分词处理,得到多个三元组单词;
重构子模块3013,用于对三元组单词添加标签后,根据标签将三元组单词重构至不同的序列中,得到三元组序列,三元组序列包括索引和标签。
进一步地,解码模块303具体用于:
基于上下文门控机制控制编码特征向量在隐藏层中的信息流量,然后通过注意力机制下的LSTM网络对编码特征向量进行解码,得到文本特征向量。
进一步地,单词生成模块304,包括:
求解子模块3041,用于基于预置复制注意力机制,根据时间步和预置变量求解单词生成过程中的复制概率;
计算子模块3042,用于根据复制概率计算单词的生成概率;
第一判断子模块3043,用于若生成概率为0,则根据预置词表执行单词生成操作,得到文本单词;
第二判断子模块3044,用于若生成概率为1,则从源序列中复制单词生成文本单词。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种知识图谱的文本生成方法,其特征在于,包括:
将预置知识图谱三元组基于重构算法转换为三元组序列,所述三元组序列包括索引和标签;
基于预置堆叠GCN编码器对所述三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;
通过预置LSTM解码器对所述编码特征向量进行解码,得到文本特征向量,所述预置LSTM解码器包括上下文门控机制和注意力机制;
根据预置复制注意力机制对所述文本特征向量进行单词生成操作,得到文本单词;
采用预置波束搜索算法将所述文本单词以最佳序列生成文本语句,所述预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
2.根据权利要求1所述的知识图谱的文本生成方法,其特征在于,所述将预置知识图谱三元组基于重构算法转换为三元组序列,所述三元组序列包括索引和标签,包括:
在保留预置知识图谱三元组的关系方向信息的情况下分别提取实体信息和关系信息;
对所述实体信息和所述关系信息进行分词处理,得到多个三元组单词;
对所述三元组单词添加标签后,根据所述标签将所述三元组单词重构至不同的序列中,得到三元组序列,所述三元组序列包括索引和标签。
3.根据权利要求1所述的知识图谱的文本生成方法,其特征在于,所述基于预置堆叠GCN编码器对所述三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量,之前还包括:
采用预置BERT预训练模型对所述三元组序列进行训练处理,得到嵌入预训练词向量。
4.根据权利要求1所述的知识图谱的文本生成方法,其特征在于,所述通过预置LSTM解码器对所述编码特征向量进行解码,得到文本特征向量,所述预置LSTM解码器包括上下文门控机制和注意力机制,包括:
基于上下文门控机制控制所述编码特征向量在隐藏层中的信息流量,然后通过注意力机制下的LSTM网络对所述编码特征向量进行解码,得到文本特征向量。
5.根据权利要求1所述的知识图谱的文本生成方法,其特征在于,所述根据预置复制注意力机制对所述文本特征向量进行单词生成操作,得到文本单词,包括:
基于预置复制注意力机制,根据时间步和预置变量求解单词生成过程中的复制概率;
根据所述复制概率计算单词的生成概率;
若所述生成概率为0,则根据预置词表执行单词生成操作,得到文本单词;
若所述生成概率为1,则从源序列中复制单词生成所述文本单词。
6.根据权利要求1所述的知识图谱的文本生成方法,其特征在于,所述采用预置波束搜索算法将所述文本单词以最佳序列生成文本语句,所述预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚,包括:
根据归一化原理构建长度归一化惩罚项;
基于目标单词对源单词的注意力概率构建覆盖率惩罚项;
结合所述长度归一化惩罚项和所述覆盖率惩罚项构建波束搜索函数;
根据所述波束搜索函数将所述文本单词以最佳序列生成文本语句。
7.一种知识图谱的文本生成装置,其特征在于,包括:
转换模块,用于将预置知识图谱三元组基于重构算法转换为三元组序列,所述三元组序列包括索引和标签;
编码模块,用于基于预置堆叠GCN编码器对所述三元组序列对应的嵌入预训练词向量进行编码,得到编码特征向量;
解码模块,用于通过预置LSTM解码器对所述编码特征向量进行解码,得到文本特征向量,所述预置LSTM解码器包括上下文门控机制和注意力机制;
单词生成模块,用于根据预置复制注意力机制对所述文本特征向量进行单词生成操作,得到文本单词;
文本生成模块,用于采用预置波束搜索算法将所述文本单词以最佳序列生成文本语句,所述预置波束搜索算法包括覆盖率惩罚和长度归一化惩罚。
8.根据权利要求7所述的知识图谱的文本生成装置,其特征在于,所述转换模块,包括:
提取子模块,用于在保留预置知识图谱三元组的关系方向信息的情况下分别提取实体信息和关系信息;
分词子模块,用于对所述实体信息和所述关系信息进行分词处理,得到多个三元组单词;
重构子模块,用于对所述三元组单词添加标签后,根据所述标签将所述三元组单词重构至不同的序列中,得到三元组序列,所述三元组序列包括索引和标签。
9.根据权利要求7所述的知识图谱的文本生成装置,其特征在于,所述解码模块具体用于:
基于上下文门控机制控制所述编码特征向量在隐藏层中的信息流量,然后通过注意力机制下的LSTM网络对所述编码特征向量进行解码,得到文本特征向量。
10.根据权利要求7所述的知识图谱的文本生成装置,其特征在于,所述单词生成模块,包括:
求解子模块,用于基于预置复制注意力机制,根据时间步和预置变量求解单词生成过程中的复制概率;
计算子模块,用于根据所述复制概率计算单词的生成概率;
第一判断子模块,用于若所述生成概率为0,则根据预置词表执行单词生成操作,得到文本单词;
第二判断子模块,用于若所述生成概率为1,则从源序列中复制单词生成所述文本单词。
CN202110662942.6A 2021-06-15 2021-06-15 一种知识图谱的文本生成方法及装置 Pending CN113312919A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110662942.6A CN113312919A (zh) 2021-06-15 2021-06-15 一种知识图谱的文本生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110662942.6A CN113312919A (zh) 2021-06-15 2021-06-15 一种知识图谱的文本生成方法及装置

Publications (1)

Publication Number Publication Date
CN113312919A true CN113312919A (zh) 2021-08-27

Family

ID=77378986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110662942.6A Pending CN113312919A (zh) 2021-06-15 2021-06-15 一种知识图谱的文本生成方法及装置

Country Status (1)

Country Link
CN (1) CN113312919A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925659A (zh) * 2022-05-18 2022-08-19 电子科技大学 动态宽度最大化解码方法、文本生成方法及存储介质
CN115394376A (zh) * 2022-09-28 2022-11-25 奥明(杭州)生物医药有限公司 一种预测环状rna ires的方法
CN117576710A (zh) * 2024-01-15 2024-02-20 西湖大学 用于大数据分析的基于图生成自然语言文本的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651557A (zh) * 2020-05-09 2020-09-11 清华大学深圳国际研究生院 一种自动化文本生成方法、装置及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651557A (zh) * 2020-05-09 2020-09-11 清华大学深圳国际研究生院 一种自动化文本生成方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHONGQIANG HU ET AL.: "A Novel GCN Architecture for Text Generation from Knowledge Graphs: Full Node Embedded Strategy and Context Gate with Copy and Penalty Mechanism", 《ICFEICT 2021》, pages 1 - 5 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925659A (zh) * 2022-05-18 2022-08-19 电子科技大学 动态宽度最大化解码方法、文本生成方法及存储介质
CN115394376A (zh) * 2022-09-28 2022-11-25 奥明(杭州)生物医药有限公司 一种预测环状rna ires的方法
WO2023197718A1 (zh) * 2022-09-28 2023-10-19 奥明(杭州)生物医药有限公司 一种预测环状rna ires的方法
CN117576710A (zh) * 2024-01-15 2024-02-20 西湖大学 用于大数据分析的基于图生成自然语言文本的方法及装置
CN117576710B (zh) * 2024-01-15 2024-05-28 西湖大学 用于大数据分析的基于图生成自然语言文本的方法及装置

Similar Documents

Publication Publication Date Title
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
US10467268B2 (en) Utilizing word embeddings for term matching in question answering systems
CN113312919A (zh) 一种知识图谱的文本生成方法及装置
CN109858044B (zh) 语言处理方法和装置、语言处理系统的训练方法和装置
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
Chen et al. Delving deeper into the decoder for video captioning
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
Tang et al. Word-character graph convolution network for chinese named entity recognition
CN112560456A (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN111538838B (zh) 基于文章的问题生成方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Basystiuk et al. The Developing of the System for Automatic Audio to Text Conversion.
CN112132075B (zh) 图文内容处理方法及介质
Gong et al. Improving extractive document summarization with sentence centrality
Wang et al. Augmentation with projection: Towards an effective and efficient data augmentation paradigm for distillation
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
Oh et al. BERTAC: Enhancing transformer-based language models with adversarially pretrained convolutional neural networks
Jeon et al. Pet: Parameter-efficient knowledge distillation on transformer
WO2022148087A1 (zh) 编程语言翻译模型的训练方法、装置、设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination