CN113535912A - 基于图卷积网络和注意力机制的文本关联方法及相关设备 - Google Patents
基于图卷积网络和注意力机制的文本关联方法及相关设备 Download PDFInfo
- Publication number
- CN113535912A CN113535912A CN202110540413.9A CN202110540413A CN113535912A CN 113535912 A CN113535912 A CN 113535912A CN 202110540413 A CN202110540413 A CN 202110540413A CN 113535912 A CN113535912 A CN 113535912A
- Authority
- CN
- China
- Prior art keywords
- word vector
- word
- keywords
- document
- vector sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 270
- 230000002452 interceptive effect Effects 0.000 claims abstract description 37
- 230000003993 interaction Effects 0.000 claims abstract description 33
- 238000003062 neural network model Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000011160 research Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种基于图卷积网络和注意力机制的文本关联方法及相关设备,该方法包括:获取用户问题和文档;通过分词算法分别提取所述用户问题和所述文档的关键词及权重;利用词向量模型得到所述用户问题的词向量序列和所述文档的词向量序列;基于文档的词向量序列构建交互图;将用户问题的词向量和文档的词向量进行交互后构建视图;将所有所述视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,其中,所述图卷积神经网络模型是经过预训练的。本公开采用图结构来表示文档,图结构可以在一定程度上保持文档中关键词之间的交互关系,既解决了词向量模型文本长度表征有限的问题,同时提高了科研论文检索的准确性。
Description
技术领域
本公开涉及深度学习技术领域,尤其涉及一种基于图卷积网络和注意力机制的文本关联方法及相关设备。
背景技术
文本匹配是自然语言处理中的核心问题,许多自然语言处理任务可以抽象为文本匹配问题。例如,科学论文的搜索可以归结为搜索语句和科学论文文档的匹配。为不同的任务场景设计不同的匹配模型对于提高匹配精度至关重要。
传统的相关性匹配主要基于搜索词的文字匹配度来计算相关性,但是文字匹配有其局限性,即无法处理同义词和多义词。深度学习也广泛应用于相关性匹配。大多数相关性匹配方法都使用深层模型来表示科学论文(以下称为Query)和科学论文文档(以下称为Doc)的搜索语句,并进行计算向量相似度作为相关性匹配分数。优点是快速,而缺点是Query和Doc之间没有交互,并且无法充分利用Query和Doc的细粒度匹配信号。另外,当获取文本向量时,大多数方法都具有最大支持的字长。如果超过长度,则文本向量表示的有效性将受到影响。
发明内容
有鉴于此,本公开的目的在于提出一种基于图卷积网络和注意力机制的文本关联方法及相关设备。
基于上述目的,本公开提供了一种基于图卷积网络和注意力机制的文本关联方法,包括:
获取用户问题和文档;
通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重;
利用词向量模型对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列;
从所述第二词向量序列中选取部分所述权重较大的关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图;
对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图;
将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
进一步的,所述第一交互图为无向图,所述第三词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
进一步的,所述对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图,包括:
对于所述第一词向量序列中的每个词向量,分别计算该词向量与所述第三词向量序列中的各个词向量的第一相似度矩阵;
基于所述第一相似度矩阵计算第一相似度加权词向量;
基于所述第一加权词向量构建所述第一视图。
进一步的,所述将所有所述第一视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,包括:
利用所述图卷积神经网络模型中的卷积层计算得到所有所述第一视图的特征矩阵集合;
基于所述特征矩阵集合通过所述图卷积神经网络模型中的注意力层聚合计算得到所有所述第一视图的交互向量集合;
基于所述交互向量集合通过所述注意力层聚合计算得到特征向量;
基于所述特征向量计算所述关联标签。
基于同一发明构思,本公开还提供了一种用于文本关联的图卷积神经网络模型的训练方法,包括:
对于训练集中的每一个已标注问题和文档对,
通过分词算法分别提取所述已标注问题的和文档对中的问题的关键词和文档的关键词,并确定各所述问题的关键词的权重和各所述文档的关键词的权重;
利用词向量模型分别对所述已标注问题和文档对中的问题和文档的关键词进行嵌入,以得到该问题的问题词向量序列和该文档的文档词向量序列;
从所述问题词向量序列中选取部分所述权重较大的关键词对应的词向量作为交互词向量序列,基于所述交互词向量序列生成第二交互图;
对于所述问题词向量序列中的每个词向量,分别将该词向量与所述交互词向量序列中的各个词向量进行交互,以构建该词向量对应的第二视图;
将所有所述第二视图输入预先构建的图卷积神经网络模型中,输出所述已标注问题和文档对的预测标签;
计算所述预测标签与所述已标注问题和文档对的真实标签的交叉熵损失函数;
调整所述图卷积神经网络模型的参数以最小化所述交叉熵损失函数。
进一步的,所述第二交互图为无向图,所述交互词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
进一步的,所述对于所述问题词向量序列中的每个词向量,分别将该词向量与所述交互词向量序列中的各个词向量进行交互,以构建该词向量对应的第二视图,包括:
对于所述问题词向量序列中的每个词向量,分别计算该词向量与所述交互词向量序列中的各个词向量的第二相似度矩阵;
基于所述第二相似度矩阵计算第二相似度加权词向量;
基于所述第二加权词向量构建所述第二视图。
基于同一发明构思,本公开还提供了一种基于图卷积网络和注意力机制的文本关联装置,包括:
获取模块,被配置为获取用户问题和文档;
分词模块,被配置为通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重;
嵌入模块,被配置为利用词向量模型分别对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列;
交互图生成模块,被配置为从所述第二词向量序列中选取所述权重较大的所述关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图;
交互模块,被配置为对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图;
输出模块,被配置为将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上任意一项所述的方法。
基于同一发明构思,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任一项所述的方法。
从上面所述可以看出,本公开提供的一种基于图卷积网络和注意力机制的文本关联方法及相关设备,采用图结构来表示文档,图结构可以在一定程度上保持文档中关键词之间的交互关系。为了充分考虑用户的意图,将每个关键字分配给一个视图,并让每个关键字与相应视图中的Doc进行交互。然后使用图卷积神经网络和注意力机制获得Query和Doc的匹配分数。本公开提供的文本关联方法既解决了词向量模型文本长度表征有限的问题,同时提高了科研论文检索的准确性。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的基于图卷积网络和注意力机制的文本关联方法的流程示意图;
图2为本公开实施例的交互图的示意图;
图3为本公开实施例的基于图卷积网络和注意力机制的文本关联装置的结构示意图;
图4为本公开实施例的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
如背景技术所述,深度学习已广泛用于文本匹配任务中。但是,现有的深度学习模型主要是针对短文本匹配而设计的,不能直接应用于科学论文的搜索。主要原因是并未充分考虑科学论文搜索中长文本和短文本之间的差异,并且当长度差异较大时,文本的结构信息将会丢失。为了解决上述长短科学文本匹配问题,我们提出了一种基于图卷积网络和注意力机制的文本关联方法及设备。
以下结合附图来详细说明本公开的实施例。
参考图1,本公开提供了一种基于图卷积网络和注意力机制的文本关联方法,包括以下几个步骤:
步骤S101、获取用户问题和文档。
具体的,用户问题为短文本,文档为长文本,将短文本和长本文进行关联匹配,例如科学论文的标题和摘要的关联匹配。通常当两个文本长度差异较大时,文本的结构信息将会丢失,本实施例中公开的基于图卷积网络和注意力机制的多视图关联匹配模型能够很好解决这一问题。
步骤S102、通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重。
本实施例中应用的分词算法为TextRank算法,在所述用户问题和所述文档上应用该算法,分别能够得到所述用户问题和所述文档的关键词和权重,例如经过TextRank算法进行分词后,得到了用户问题Query的关键词集Q={query1,query2,...,querym},与Query关键词对应的权重集为Qweight={wq1,wq2,...,wqm},所述文档Doc的关键词集D={doc1,doc2,...,docn},Doc关键词对应的权重集为Dweight={wd1,wd2,...,wdn},其中m为Query中的关键词个数,n为Doc中的关键词个数。
步骤S103、利用词向量模型分别对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列。
在一些实施例中,本实施例中利用词向量模型word2vec对Query和Doc的关键词集Q和D进行嵌入,得到相应的词向量集Qfeature={q1,q2,...,qm}和Dfeature={d1,d2,...,dn}。
步骤S104、从所述第二词向量序列中选取部分所述权重较大的关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图。
具体的,通过步骤S102中的分词算法得到了所述文档的关键词及权重,选取部分权重较大的前n个关键词对应的词向量作为第三词向量序列,根据第三词向量序列生成第一交互图,其中,n的数值可以根据实际情况进行调整,权重较大的关键词与所述问题的关键词在交互时对文本关联度的影响较大,为了减少计算量,可以适当选取部分权重较大的所述文档的关键词形成第一交互图。第一交互图通过节点和边的结构表示了文本的特点和属性,包括关键词之间的隐含关系,可以很好的解决长短文本匹配时受长度限制及细粒度匹配信号缺失的问题。
步骤S105、对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图。
在一些实施例中,对于词向量集Qfeature={q1,q2,...,qm}中的每一个词向量qi(i=1,2,...,m),将其与词向量集Dfeature={d1,d2,...,dn}中的各个词向量dj(j=1,2,...,n)进行交互,构建词向量qi对应的第一视图,第一视图是在交互图的基础上构建的,相当于在交互图的每个节点上附着了词向量qi和词向量dj交互的结果。词向量集Qfeature中共有m个词向量,交互结束后得到了m个第一视图,将第一视图记为viewi(i=1,2,...,m),每一个qi对应一个视图viewi。
步骤S106、将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
具体的,将步骤S105中得到的所有第一视图viewi输入到预先构建和训练好的图卷积神经网络模型中,经过卷积层和注意力层的计算后,经过输出层输出了所述问题和所述文档的关联标签,也即Query和Doc本文的关联标签,关联标签数值为1则代表相关联,数值为0则代表不相关。
在一些实施例中,输入Query:深度文本匹配发展如何?Doc:文本匹配是自然语言处理中的一个核心问题,很多自然语言处理的任务都可以抽象成文本匹配问题,例如信息检索可以归结成查询项和文档的匹配,针对不同的任务选取合适的匹配模型,提高匹配的准确率成为自然语言处理任务的重要挑战。确定Query中的关键词集为:{文本匹配,发展},Doc中的关键词集为:{文本匹配,自然语言处理,信息检索,匹配模型,核心问题,准确率},根据Doc中的关键词构建交互图(如图2所示),经过词向量的交互后得到两个第一视图view1和view2。将view1和view2输入图卷积神经网络模型中,输出的关联标签数值为1,则表示本实施例中的Query和Doc是相关联的。
在一些实施例中,所述第一交互图为无向图,所述第三词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
具体的,定义一个无向图C=(V,E),其中V表示节点集,E表示边集。将词向量集Dfeature={d1,d2,...,dn}作为节点集,每个词向量dj(j=1,2,...,n)均为所述无向图C中的节点,相邻节点的两个词向量dj的相似度作为边集。相似度的计算公式具体为:
其中,x和y表示相邻节点的两个词向量,s表示词向量x和y的维度。本实施例中,将相似度b作为边权重,保证了交互图的连通性,即每个节点与其他节点都有一条连接的边,最大可能保留了长文本的结构信息。
在一些实施例中,所述对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,构建该词向量对应的第一视图,包括:对于所述第一词向量序列中的每个词向量,分别计算该词向量与所述第三词向量序列中的各个词向量的第一相似度矩阵;基于所述第一相似度矩阵计算第一相似度加权词向量;基于所述第一加权词向量构建所述第一视图。
具体的,将词向量集Qfeature={q1,q2,...,qm}中的每个词向量qi与词向量集Dfeature={d1,d2,...,dn}中的各个词向量dj进行交互,包括计算每个词向量qi(i=1,2,…,m)和各个词向量dj(j=1,2,…,n)之间的第一相似度矩阵U∈Rk*k,其中k为矩阵U的维度,第一相似度矩阵U计算如下:
U=qTd
根据第一相似度矩阵U计算第一相似度加权词向量p,p中的每个元素pi(i=1,2,…,m)计算如下:
基于计算得到的第一相似度加权词向量p,在交互图的基础上构建第一视图viewi(i=1,2,…,m),第一视图viewi中的每个节点均为附着了相应第一相似度加权词向量p的关键词集D中的关键词,词向量集Qfeature中的词向量个数为m,即构建了m个第一视图viewi,每一个词向量qi对应一个第一视图viewi。
在一些实施例中,所述将所有所述第一视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,包括:利用所述图卷积神经网络模型中的卷积层计算得到所有所述第一视图的特征矩阵集合;基于所述特征矩阵集合通过所述图卷积神经网络模型中的注意力层聚合计算得到所有所述视图的交互向量集合;基于所述交互向量集合通过所述注意力层聚合计算得到特征向量;基于所述特征向量计算所述关联标签。
具体的,将图卷积神经网络模型应用到第一视图viewi上,计算出第一视图viewi的加权邻接矩阵A∈Rn*n,加权邻接矩阵A的度矩阵为S∈Rn*n,度矩阵S的计算公式如下:
Sii=∑jAij(i=1,2,...,n,j=1,2,...,n)
其中Aij表示第一视图viewi中第i个关键词和第j个关键词之间的相似度,该相似度为构建交互图时计算得到的相邻节点之间的相似度b,为了解决节点特征本身的信息在传播后会丢失的问题,设置邻接矩阵Z=A+I,其中I是单位矩阵。在图卷积神经网络中,第l层的卷积传播公式如下:
其中,S为度矩阵,Z为邻接矩阵,W(l)代表第l层的训练参数,σ表示激活函数。当l=0时,表示在viewi视图下无向图的初始特征矩阵P,该初始特征矩阵P由视图viewi下的所有加权词向量p构成。当l=L时,表示图卷积神经网络的输出特征矩阵Hi。
获得卷积输出Hi∈Rn*r后,在图卷积神经网络的注意力层中结合权重集Dweight经过聚合计算得到交互向量hi∈R1*r,其中i=(1,2,...,m)。具体过程如下:
α=(α1,α2,…,αm)
其中Hij表示Hi的第j行的元素,α和b是模型参数,wdj为权重集Dweight中的元素。通过注意力层聚合每个视图viewi的输出特征矩阵Hi,得到m个交互向量h={h1,h2,...,hm}∈Rm *r。类似的,结合权重集Qweight通过注意力层聚合m个交互向量hi得到特征向量z∈R1*r,具体计算过程如下:
β=(β1,β2,…,βm)
其中,hj代表h的第j个元素,hij代表hi的第j行的元素,σ2表示激活函数,β和b是模型参数,wqj为权重集Qweight中的元素。
定义一个多层感知器,将Query和Doc的特征向量z转化为二分类问题,关联标记计算如下:
其中,r是交互向量hi的维度,wi为参数,y′’表示预测的标签,也即关联标签,y′的值为0或1,分别代表不相关和相关联。
基于同一发明构思,本公开还提供了一种用于文本关联的图卷积神经网络模型的训练方法,包括:
对于训练集中的每一个标注问题和文档对,通过分词算法分别提取所述已标注问题的和文档对中的问题的关键词和文档的关键词,并确定各所述问题的关键词的权重和各所述文档的关键词的权重;
利用词向量模型分别对所述标注问题和文档对中的问题和文档的关键词进行嵌入,以得到该问题的问题词向量序列和该文档的文档词向量序列;
从所述问题词向量序列中选取部分所述权重较大的关键词对应的词向量作为交互词向量序列,基于所述交互词向量序列生成第二交互图;
对于所述问题词向量序列中的每个词向量,分别将该词向量与所述交互词向量序列中的各个词向量进行交互,构建该词向量对应的第二视图;
将所有所述问题词向量序列中的每个词向量对应的所述第二视图输入预先构建的图卷积神经网络模型中,输出所述标注问题和文档对的预测标签;
计算所述预测标签与所述标注问题和文档对的真实标签的交叉熵损失函数;
调整所述图卷积神经网络模型的参数以最小化所述交叉熵损失函数。
具体的,预测标签的计算过程同上述关联标签的计算过程相同,交叉熵损失函数计算如下:
Loss=-(y·log(y′)+(1-y)·log(1-y′))
其中,y表示实际标签,y′’表示预测的标签,通过调整模型的参数来最小化交叉熵损失函数,利用以上方法对图卷积神经网络模型进行训练。
在一些实施例中,所述第二交互图为无向图,所述交互词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
在一些实施例中,所述对于所述问题词向量序列中的每个词向量,分别将该词向量与所述交互词向量序列中的各个词向量进行交互,构建该词向量对应的第二视图,包括:
对于所述问题词向量序列中的每个词向量,分别计算该词向量与所述交互词向量序列中的各个词向量的第二相似度矩阵;基于所述第二相似度矩阵计算第二相似度加权词向量;基于所述第二加权词向量构建所述第二视图。
在一些实施例中,所述将将所有所述第二视图输入预先构建的图卷积神经网络模型中,输出所述标注问题和文档对的预测标签,包括:
利用所述图卷积神经网络模型中的卷积层计算得到所有所述第二视图的特征矩阵集合;
基于所述特征矩阵集合通过所述图卷积神经网络模型中的注意力层聚合计算得到所有所述第二视图的交互向量集合;
基于所述交互向量集合通过所述注意力层聚合计算得到所述标注问题和文档对的特征向量;
基于所述特征向量计算所述预测标签。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种基于图卷积网络和注意力机制的文本关联装置。
参考图3,所述基于图卷积网络和注意力机制的文本关联装置,包括:
获取模块301,被配置为获取用户问题和文档;
分词模块302,被配置为通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重;
嵌入模块303,被配置为利用词向量模型分别对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列;
交互图生成模块304,被配置为从所述第二词向量序列中选取所述权重较大的所述关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图;
交互模块305,被配置为对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,构建该词向量对应的第一视图;
输出模块306,被配置为将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的基于图卷积网络和注意力机制的文本关联方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于图卷积网络和注意力机制的文本关联方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于图卷积网络和注意力机制的文本关联方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于图卷积网络和注意力机制的文本关联方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于图卷积网络和注意力机制的文本关联方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于图卷积网络和注意力机制的文本关联方法,包括:
获取用户问题和文档;
通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重;
利用词向量模型对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列;
从所述第二词向量序列中选取部分所述权重较大的关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图;
对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图;
将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
2.根据权利要求1所述的文本关联方法,其中,所述第一交互图为无向图,所述第三词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
3.根据权利要求1所述的文本关联方法,其中,所述对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图,包括:
对于所述第一词向量序列中的每个词向量,分别计算该词向量与所述第三词向量序列中的各个词向量的第一相似度矩阵;
基于所述第一相似度矩阵计算第一相似度加权词向量;
基于所述第一加权词向量构建所述第一视图。
4.根据权利要求3所述的文本关联方法,其中,所述将所有所述第一视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,包括:
利用所述图卷积神经网络模型中的卷积层计算得到所有所述第一视图的特征矩阵集合;
基于所述特征矩阵集合通过所述图卷积神经网络模型中的注意力层聚合计算得到所有所述第一视图的交互向量集合;
基于所述交互向量集合通过所述注意力层聚合计算得到特征向量;
基于所述特征向量计算所述关联标签。
5.一种用于文本关联的图卷积神经网络模型的训练方法,包括:
对于训练集中的每一个已标注问题和文档对,
通过分词算法分别提取所述已标注问题的和文档对中的问题的关键词和文档的关键词,并确定各所述问题的关键词的权重和各所述文档的关键词的权重;
利用词向量模型分别对所述已标注问题和文档对中的问题和文档的关键词进行嵌入,以得到该问题的问题词向量序列和该文档的文档词向量序列;
从所述问题词向量序列中选取部分所述权重较大的关键词对应的词向量作为交互词向量序列,基于所述交互词向量序列生成第二交互图;
对于所述问题词向量序列中的每个词向量,分别将该词向量与所述交互词向量序列中的各个词向量进行交互,以构建该词向量对应的第二视图;
将所有所述第二视图输入预先构建的图卷积神经网络模型中,输出所述已标注问题和文档对的预测标签;
计算所述预测标签与所述已标注问题和文档对的真实标签的交叉熵损失函数;
调整所述图卷积神经网络模型的参数以最小化所述交叉熵损失函数。
6.根据权利要求5所述的训练方法,其中,所述第二交互图为无向图,所述交互词向量序列中的各个词向量作为所述无向图的节点,相邻所述节点的相似度作为所述无向图的边。
7.根据权利要求5所述的训练方法,其中,所述对于所述问题词向量序列中的每个词向量,分别将该词向量与所述交互词向量序列中的各个词向量进行交互,以构建该词向量对应的第二视图,包括:
对于所述问题词向量序列中的每个词向量,分别计算该词向量与所述交互词向量序列中的各个词向量的第二相似度矩阵;
基于所述第二相似度矩阵计算第二相似度加权词向量;
基于所述第二加权词向量构建所述第二视图。
8.一种基于图卷积网络和注意力机制的文本关联装置,包括:
获取模块,被配置为获取用户问题和文档;
分词模块,被配置为通过分词算法分别提取所述用户问题的关键词和所述文档的关键词,并确定各所述用户问题的关键词的权重和各所述文档的关键词的权重;
嵌入模块,被配置为利用词向量模型分别对所述用户问题的关键词和所述文档的关键词进行嵌入,以得到所述用户问题的第一词向量序列和所述文档的第二词向量序列;
交互图生成模块,被配置为从所述第二词向量序列中选取所述权重较大的所述关键词对应的词向量作为第三词向量序列,基于所述第三词向量序列生成第一交互图;
交互模块,被配置为对于所述第一词向量序列中的每个词向量,分别将该词向量与所述第三词向量序列中的各个词向量进行交互,以构建该词向量对应的第一视图;
输出模块,被配置为将所有所述第一视图输入预先训练的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现根据权利要求1至7中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110540413.9A CN113535912B (zh) | 2021-05-18 | 2021-05-18 | 基于图卷积网络和注意力机制的文本关联方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110540413.9A CN113535912B (zh) | 2021-05-18 | 2021-05-18 | 基于图卷积网络和注意力机制的文本关联方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535912A true CN113535912A (zh) | 2021-10-22 |
CN113535912B CN113535912B (zh) | 2023-12-26 |
Family
ID=78094662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110540413.9A Active CN113535912B (zh) | 2021-05-18 | 2021-05-18 | 基于图卷积网络和注意力机制的文本关联方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535912B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984842A (zh) * | 2023-02-13 | 2023-04-18 | 广州数说故事信息科技有限公司 | 一种基于多模态的视频开放标签提取方法 |
CN116304749A (zh) * | 2023-05-19 | 2023-06-23 | 中南大学 | 基于图卷积的长文本匹配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN112632253A (zh) * | 2020-12-28 | 2021-04-09 | 润联软件系统(深圳)有限公司 | 基于图卷积网络的答案抽取方法、装置及相关组件 |
KR20210040316A (ko) * | 2020-09-30 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
-
2021
- 2021-05-18 CN CN202110540413.9A patent/CN113535912B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
KR20210040316A (ko) * | 2020-09-30 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 사용자 상호작용 정보 처리모델 생성방법, 사용자 상호작용 정보 처리방법 및 프로그램 |
CN112632253A (zh) * | 2020-12-28 | 2021-04-09 | 润联软件系统(深圳)有限公司 | 基于图卷积网络的答案抽取方法、装置及相关组件 |
CN112765352A (zh) * | 2021-01-21 | 2021-05-07 | 东北大学秦皇岛分校 | 基于具有自注意力机制的图卷积神经网络文本分类方法 |
Non-Patent Citations (1)
Title |
---|
杨丹浩;吴岳辛;范春晓;: "一种基于注意力机制的中文短文本关键词提取模型", 计算机科学, no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984842A (zh) * | 2023-02-13 | 2023-04-18 | 广州数说故事信息科技有限公司 | 一种基于多模态的视频开放标签提取方法 |
CN116304749A (zh) * | 2023-05-19 | 2023-06-23 | 中南大学 | 基于图卷积的长文本匹配方法 |
CN116304749B (zh) * | 2023-05-19 | 2023-08-15 | 中南大学 | 基于图卷积的长文本匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113535912B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871532B (zh) | 文本主题提取方法、装置及存储介质 | |
US10387531B1 (en) | Processing structured documents using convolutional neural networks | |
WO2022199504A1 (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN111353303B (zh) | 词向量构建方法、装置、电子设备及存储介质 | |
US10685012B2 (en) | Generating feature embeddings from a co-occurrence matrix | |
CN112883149A (zh) | 一种自然语言处理方法以及装置 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN111079944B (zh) | 迁移学习模型解释实现方法及装置、电子设备、存储介质 | |
CN111309878B (zh) | 检索式问答方法、模型训练方法、服务器及存储介质 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN113434664A (zh) | 文本摘要生成方法、装置、介质及电子设备 | |
CN116822651A (zh) | 基于增量学习的大模型参数微调方法、装置、设备及介质 | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN111274808A (zh) | 文本检索方法、模型训练方法、文本检索装置及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
US20190095782A1 (en) | Calculation device for and calculation method of performing convolution | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN111340182B (zh) | 一种输入特征逼近的低复杂度cnn训练方法与装置 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
Zhang et al. | ProLFA: Representative prototype selection for local feature aggregation | |
CN112784003A (zh) | 训练语句复述模型的方法、语句复述方法及其装置 | |
CN117909505B (zh) | 事件论元的抽取方法及相关设备 | |
CN113836289B (zh) | 一种实体演进规律推荐方法及装置 | |
CN115098709B (zh) | 多视图数据的特征选择方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |