CN112487807B - 一种基于膨胀门卷积神经网络的文本关系抽取方法 - Google Patents
一种基于膨胀门卷积神经网络的文本关系抽取方法 Download PDFInfo
- Publication number
- CN112487807B CN112487807B CN202011432040.5A CN202011432040A CN112487807B CN 112487807 B CN112487807 B CN 112487807B CN 202011432040 A CN202011432040 A CN 202011432040A CN 112487807 B CN112487807 B CN 112487807B
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- neural network
- convolutional neural
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 22
- 108091026890 Coding region Proteins 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 113
- 230000008569 process Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 14
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理领域,具体涉及一种基于膨胀门卷积神经网络的文本关系抽取方法,该方法包括:将文本信息进行分字、分词等预处理,将处理后的编码信息传入到膨胀门卷积神经网络模型中,获取到的编码序列传入到自注意力机制后,将输出结果传入到卷积神经网络的全连接层,通过“半指针‑半标注”的方法抽取出主实体,然后对于每一种关系运用同一种方式抽取出对应的客实体;本发明运用卷积神经网络与自注意力机制结合的方法,通过注意力机制对抗远程监督引入的噪声,并充分利用了语言间存在的一致性、互补性信息,提高了关系抽取的准确率。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于膨胀门卷积神经网络的文本关系抽取方法。
背景技术
在实体关系的抽取方法上,按照对语句的处理方式不同可以分为三种方法:基于特征向量的方法、基于核函数的方法、基于神经网络的方法。
基于特征向量的方法主要通过向量空间模型将自然语句映射到特征向量,通常为词向量和位置向量,再经过向量化后形成对应的向量矩阵,最后将向量矩阵输入到选取的分类器中,得到分类结果。基于核函数的方法利用字符串的原始形式作为处理对象来计算任意两个对象之间的核相似度(Kernel similarity)函数值;基于核函数方法是将句子后面的隐式特征向量投影到特征空间中,通过计算投影空间的内积来确定实体之间关系的相似性,不需要构建特征向量。目前神经网络的兴起给实体关系抽取的研究提供了一些新的方法。Liu,Sun,Chao等人提出将深度卷积神经网络(Deep Convolutional NeuralNetworks,DCNN)应用到关系抽取中。Miwa,Bansal提出了一种基于端到端神经网络的关系抽取模型,该模型通过在双向顺序长短期记忆循环神经网络(LSTM-RNN)上堆叠双向树结构LSTM-RNN来捕获词序列和依赖树的子结构信息。
基于特征向量的方法可以通过选择合适的关系特征和特征组合来获得良好的性能,但是该方法致力于寻找有效的特征,而忽略了关系特征,并且该方法在训练语料时需要训练的数据较多,处理数据的效率低。基于内核的实体关系抽取的方法可以把不同的核函数复合来表示高维甚至无限维的特征空间,但是这使得该方法学习和训练的速度相慢,不适合大规模数据的抽取。基于神经网络的方法在关系抽取任务中虽然能较好的提取文本的关系,但是现有的基于神经网络方法的关系抽取模型中没有充分地利用实体周围的上下文信息,忽略了实体与客体的关系,使得识别文本关系的准确率低。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于膨胀门卷积神经网络的文本关系抽取方法,该方法包括:
S1:实时获取文本信息数据;
S2:将获取的文本信息进行分字、分词处理,得到字词混合向量和位置向量;
S3:将字词混合向量和位置向量分别输入到训练好的膨胀门卷积神经网络模型中进行编码,得到编码序列;
S4:采用自注意力机制对编码序列进行处理,通过“半指针-半标注”的方法对经过自注意力机制的编码序列进行主实体抽取;
S5:采用双向LSTM对编码序列进行处理,将处理结果与位置向量进行融合,得到与输入序列等长的向量序列;
S6:采用自注意力机制对编码序列进行处理,并将处理后的结果与向量序列进行拼接;采用“半指针-半标注”的方法对拼接后的向量进行抽取,得到客实体;
S7:将主实体和客实体进行组合,得到文本关系。
优选的,求取位置向量的公式为:
优选的,对膨胀门卷积神经网络模型进行训练的过程包括:
步骤1:获取原始文本数据集,对原始文本数据集中的文本数据进行预处理,得到文本训练集;
步骤2:将训练集中的文本数据输入到膨胀门卷积神经网络模型的膨胀门卷积层中,进行特征向量提取;
步骤3:把提取的特征向量传入到自注意力机制层,最终得到编码序列;
步骤4:把编码序列传入到全连接层,得到预测结果;
步骤5:计算膨胀门卷积神经网络模型的损失函数,采用Adam优化器对损失函数进行优化,当损失函数最小时,完成模型的训练。
进一步的,对膨胀门一维卷积层处理数据的公式为:
进一步的,膨胀门卷积神经网络模型共使用了12层膨胀门卷积,膨胀率依次为[1,2,5,1,2,5,1,2,5,1,1,1],即对文本数据进行三次膨胀率为[1,2,5]的膨胀卷积操作,使文本信息的颗粒度从细到粗反复学习;采用膨胀率为[1,1,1]的膨胀门卷积对提取的特征进行细颗粒度精调,得到特征向量。
进一步的,对数据进行膨胀卷积的公式为:
σ=σ(Conv1D2(X))
优选的,计算自注意力权重的公式为:
a=softmax(wl2tanh(wl1H))
优选的,采用双向LSTM对编码序列进行处理的过程包括:
步骤1:对编码序列进行随机采样,得到一个标注的主实体,预测时逐一遍历所有标注的主实体,得到主实体的子序列。
步骤2:将编码序列中对应主实体的子序列输入到前向LSTM和后项LSTM中,得到前向隐藏状态和后向隐藏状态;
步骤3:将前向隐藏状态和后向隐藏状态进行组合,得到组合以后的编码序列。
优选的,采用“半指针-半标注”的方法对拼接后的向量进行抽取的过程包括获取训练样本集中的构建的三元组知识库,所述三元组知识库包括文本数据的客体与实体的关系;获取输入数据文本的主体特征subject,判断该主体特征是否在三元组知识库中存在,若存在,则将该主体特征对应的位置标记为1,否则标记为0;根据标记结果,构建0/1向量;将0/1向量拼接到编码向量序列中,将拼接后的编码向量序列与三元组知识库进行对比,得到该文本数据的主实体关系;获取输入数据文本的客体特征,根据三元组知识库将客实体的对应关系构建一个0/1向量,将该0/1向量拼接到编码向量序列,将拼接后的向量与三元组知识库对比,得到该文本数据的客实体关系。
本发明有益技术效果如下:
(1)本发明属于自然语言处理领域,具有轻量级实体关系抽取的特点,能够将满足schema限制的实体关系进行抽取。
(2)提出了门控神经网络算法,门控机制通过引入更新门与重置门,有效地解决了RNN网络在训练过程中的梯度消失问题。相较LSTM而言,门控机制精简了网络结构,减少了模型参数,提升了模型训练速度。门控网络可以学习词语在句子中的长期依赖关系,更好地对文本进行建模。
(3)提出了膨胀卷积神经网络算法,膨胀卷积能够扩展字符上下文宽度,堆叠的膨胀卷积神经网络能够更好地提取整个文本序列的全局信息,进而更好地理解文本语义,并且随着卷积神经网络层数的加深,会出现过拟合现象,而在膨胀卷积神经网络中能够有效缓解这种过拟合情况。
(4)根据主体去抽取客体与对应关系,运用膨胀网络以及注意力机制可以解决普通卷积神经网络的过拟合问题,还能结合上下文的关系进行语义分析。
附图说明
图1为本发明的一种基于膨胀门卷积神经网络的结构示意图。
图2为本发明的字词向量混合的结构示意图。
图3为本发明的残差与门卷积神经网络结合的结构示意图。
图4为本发明的普通卷积神经网络与膨胀卷积神经网络的对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于膨胀门卷积神经网络的文本关系抽取方法,如图1所示,该方法包括:
S1:实时获取文本信息数据;
S2:将获取的文本信息进行分字、分词处理,得到字词混合向量和位置向量;
S3:将字词混合向量和位置向量分别输入到训练好的膨胀门卷积神经网络模型中进行编码,得到编码序列;
S4:采用自注意力机制对编码序列进行处理,通过“半指针-半标注”的方法对经过自注意力机制的编码序列进行主实体抽取;
S5:采用双向LSTM对编码序列进行处理,将处理结果与位置向量进行融合,得到与输入序列等长的向量序列;
S6:采用自注意力机制对编码序列进行处理,并将处理后的结果与向量序列进行拼接;采用“半指针-半标注”的方法对拼接后的向量进行抽取,得到客实体;
S7:将主实体和客实体进行组合,得到文本关系。
在对文本信息进行分字、分词的预处理过程中,为了最大程度上避免边界切分出错,选择字标注的方式,即以字为基本单位进行输入。由于单纯的字Embedding难以储存有效的语义信息,即单个字是没有语义的,为了更有效地融入语义信息,本发明将“字词混合Embedding”。为了得到跟字向量对齐的词向量序列,将每个词的词向量重复“词的字数”那么多次;得到对齐的词向量序列后,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加。
如图2所示,对文本数据的字向量和词向量进行混合的具体过程包括:
本发明以字为单位的文本序列,经过一个字Embedding层后得到字向量序列;然后将文本分词,通过一个预训练好的Word2Vec模型来提取对应的词向量,然后将每个词的词向量重复得到跟字向量对齐的词向量序列;得到对齐的词向量序列后,我们将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加。
位置向量能有效的判断实体的位置关系,从而更容易抽取主实体和客实体。加入位置信息的一个有效信息是Position Embedding。具体做法包括:设定一个最大长度为512的文本信息;对文本信息进行全零初始化,得到一个新的Embedding层,该层的维度跟字向量维度相同;确定文本信息的位置ID,将该文本输入Embedding层,输出对应的PositionEmbedding,并把这个Position Embedding加到前面的字词混合Embedding中,作为完整的Embedding结果,传入到下述DGCNN编码中。位置向量计算的公式如下:
其中,PE2i(p)表示词向量的位置编码,p表示词向量在序列中的位置,表示用来调节位置编码函数的波长,当/>比较大时,波长比较长,相邻字的位置编码之间的差异就比较小,2i表示词向量的偶数位置,dpos表示向量的维度。该公式中将ID为p的位置映射为一个dpos维的位置向量,这个向量的第i个元素的数值就是PEi(p),k代表一个常数,选用Google中的取值10000。
对膨胀门卷积神经网络模型进行训练的过程包括:
步骤1:获取原始文本数据集,对原始文本数据集中的文本数据进行预处理,得到文本训练集;
步骤2:将训练集中的文本数据输入到膨胀门卷积神经网络模型的膨胀门卷积层中,进行特征向量提取;
对膨胀门一维卷积层处理数据的公式为:
其中,Conv1D1(.)表示一维卷积,X表示需要处理的向量序列,表示矩阵的逐点相乘,σ(.)表示门控函数。
步骤3:把提取的特征向量传入到自注意力机制层,最终得到编码序列;
步骤4:把编码序列传入到全连接层,得到预测结果;将预测结果存入三元组知识库。
优选的,膨胀门卷积神经网络模型共使用了12层膨胀门卷积,膨胀率依次为[1,2,5,1,2,5,1,2,5,1,1,1],即对文本数据进行三次膨胀率为[1,2,5]的膨胀卷积操作,使文本信息的颗粒度从细到粗反复学习;采用膨胀率为[1,1,1]的膨胀门卷积对提取的特征进行细颗粒度精调,得到特征向量。
步骤5:计算膨胀门卷积神经网络模型的损失函数,采用Adam优化器对损失函数进行优化,当损失函数最小时,完成模型的训练。
如图3所示,将得到的字词混合向量和位置向量输入到膨胀门卷积神经网络模型中。由于门控卷积机制中有一个卷积是不加任意激活函数的,没加激活函数的这部分卷积不容易梯度消失,从而门控卷积机制能使梯度消失的风险更低。如果输入和输出的维度大小一致,采用残差结构对输入的向量和输出的向量进行处理,使得信息能够在多通道传输。其中残差结构公式如下:
σ=σ(Conv1D2(X))
其中,Conv1D1(.)表示一维卷积,X表示需要处理的向量序列,表示矩阵的逐点相乘,σ(.)表示门控函数。从上述公式中,可以明确得到信息的流向,即以1-σ的概率直接通过,以σ的概率经过变换后才通过。
如图4所示,膨胀卷积能够扩展字符上下文宽度,堆叠的膨胀卷积神经网络能够更好地提取整个文本序列的全局信息,进而更好地理解文本语义。随着卷积神经网络层数的加深,会出现过拟合现象,而在膨胀卷积神经网络中能够有效缓解过拟合状况。
将膨胀门卷积模型得到的编码序列传入到一层注意力机制中,自注意力计算权重公式如下:
a=softmax(wl2tanh(wl1H))
其中,a表示自注意力权重,wl1表示第一个线性神经层的权重矩阵,wl2表示第二个线性神经层的权重矩阵,tanh为激活函数,softmax函数是归一化指数函数。权重矩阵wl1和wl2是通过自注意力层的线性神经网络层学习得到。
将从自注意力层输出的结果传入到卷积神经网络的全连接层,预测出啊主实体subject的首尾位置。
在训练模型时,随机采样一个标注的subject,预测时逐一遍历所有的subject,然后将第二步得到的编码序列对应此subject的子序列传入到一个双向LSTM中,得到subject的编码向量,然后加上相对位置的Position Embedding,得到一个与输入序列等长的向量序列。
采用双向LSTM对编码序列进行处理的过程包括:
步骤1:对编码序列进行随机采样,得到一个标注的主实体,预测时逐一遍历所有标注的主实体,得到主实体的子序列。
步骤2:将编码序列中对应主实体的子序列输入到前向LSTM和后项LSTM中,得到前向隐藏状态和后向隐藏状态;
步骤3:将前向隐藏状态和后向隐藏状态进行组合,得到组合以后的编码序列。
将编码序列对应主实体的子序列传入到一个双向的LSTM,双向LSTM的结构由向前和向后的LSTM组合而成,其中,向前的LSTM可以根据前序信息影响后序信息,而向后的LSTM可以通过后序信息影响前序信息。
将编码序列输入到另外一层自注意机制中,所得结果与上述的向量序列进行拼接,将拼接以后的序列传入到卷积神经网络的全连接层,对于每一种关系predicate利用“半指针-半标注”的方法抽取出对应的客实体object。
采用“半指针-半标注”的方法对拼接后的向量进行抽取的过程包将获取训练样本集中的构建的三元组知识库,所述三元组知识库包括文本数据的客体与实体的关系;获取输入数据文本的主体特征subject,判断该主体特征是否在三元组知识库中存在,若存在,则将该主体特征对应的位置标记为1,否则标记为0;根据标记结果,构建0/1向量;将0/1向量拼接到编码向量序列中,将拼接后的编码向量序列与三元组知识库进行对比,得到该文本数据的主实体关系;获取输入数据文本的客体特征,根据三元组知识库将客实体的对应关系构建一个0/1向量,将该0/1向量拼接到编码向量序列,将拼接后的向量与三元组知识库对比,得到该文本数据的客实体关系。
在损失函数选择上,由于是一个分类任务,然后损失函数选择交叉熵,损失函数公式为:
其中,表示文本预测结果标记为0的样本数,/>表示文本预测结果标记为1的样本数,Ωneg表示标记为0的类别集合,Ωpos表示标记为1的类别集合。
主题subject的预测只有两个2分类,而预测主题object的同时还预测了主体与客体之间的关系predicate,所以object的预测实际上有100=50×2个2分类,但它们的损失函数依然按照1:1相加。换句话说,按照损失函数loss的绝对值来看,object的loss是subject的loss的50倍。
本发明采用Adam优化器对模型进行训练,先用10-3的学习率训练不超过50个epoch,即在进行模型训练过程中,对模型进行不超过50期的训练;然后加载训练的最优结果,再用10-4的学习率继续训练到最优。为了保证训练结果稳定提升,采用权重滑动平均EMA的方法对模型中的权重进行平均运算,滑动平均的公式为:
Φn+1=δΦn+(1-δ)θn+1
其中Φ表示最后经过EMA处理后得到的参数值,θ表示当前epoch轮次的参数值,δ表示衰减率,本发明中衰减率取0.999。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,包括:
S1:实时获取文本信息数据;
S2:将获取的文本信息进行分字、分词处理,得到字词混合向量和位置向量;
S3:将字词混合向量和位置向量分别输入到训练好的膨胀门卷积神经网络模型中进行编码,得到编码序列;
S4:采用自注意力机制对编码序列进行处理,通过“半指针-半标注”的方法对经过自注意力机制的编码序列进行主实体抽取;
S5:采用双向LSTM对编码序列进行处理,将处理结果与位置向量进行融合,得到与输入序列等长的向量序列;
S6:采用自注意力机制对编码序列进行处理,并将处理后的结果与向量序列进行拼接;采用“半指针-半标注”的方法对拼接后的向量进行抽取,得到客实体;
采用“半指针-半标注”的方法对拼接后的向量进行抽取的过程包括获取训练样本集中的构建的三元组知识库,所述三元组知识库包括文本数据的客体与实体的关系;获取输入数据文本的主体特征subject,判断该主体特征是否在三元组知识库中存在,若存在,则将该主体特征对应的位置标记为1,否则标记为0;根据标记结果,构建0/1向量;将0/1向量拼接到编码向量序列中,将拼接后的编码向量序列与三元组知识库进行对比,得到该文本数据的主实体关系;获取输入数据文本的客体特征,根据三元组知识库将客实体的对应关系构建一个0/1向量,将该0/1向量拼接到编码向量序列,将拼接后的向量与三元组知识库对比,得到该文本数据的客实体关系;
S7:将主实体和客实体进行组合,得到文本关系;
对膨胀门卷积神经网络模型进行训练的过程包括:
步骤1:获取原始文本数据集,对原始文本数据集中的文本数据进行预处理,得到文本训练集;
步骤2:将训练集中的文本数据输入到膨胀门卷积神经网络模型的膨胀门卷积层中,进行特征向量提取;
步骤3:把提取的特征向量传入到自注意力机制层,最终得到编码序列;
步骤4:把编码序列传入到全连接层,得到预测结果;
步骤5:计算膨胀门卷积神经网络模型的损失函数,采用Adam优化器对损失函数进行优化,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,求取位置向量的公式为:
其中,PE2i(p)表示词向量的位置编码,p表示词向量在序列中的位置,表示调节位置编码函数的波长,i表示词向量的位置,dpos表示向量的维度。
3.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,对膨胀门一维卷积层处理数据的公式为:
其中,Conv1D1(.)表示一维卷积,X表示需要处理的向量序列,表示逐点相乘,σ(.)表示门控函数。
4.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,膨胀门卷积神经网络模型共使用了12层膨胀门卷积,膨胀率依次为[1,2,5,1,2,5,1,2,5,1,1,1],即对文本数据进行三次膨胀率为[1,2,5]的膨胀卷积操作,使文本信息的颗粒度从细到粗反复学习;采用膨胀率为[1,1,1]的膨胀门卷积对提取的特征进行细颗粒度精调,得到特征向量。
5.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,损失函数的表达式为:
其中,表示文本预测结果标记为0的样本数,/>表示文本预测结果标记为1的样本数,Ωneg表示标记为0的类别集合,Ωpos表示标记为1的类别集合。
6.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,在采用自注意力机制对编码序列进行处理前,采用残差网络和门控卷积对数据进行处理,得到具有文本关系的编码序列;采用残差网络与门控卷积对编码序列进行处理的公式为:
σ=σ(Conv1D2(X))
其中,Conv1D1(.)表示一维卷积,X表示待处理的编码序列,表示逐点相乘,σ(.)表示门控函数。
7.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,计算自注意力权重的公式为:
a=softmax(wl2tanh(wl1H))
其中,a表示自注意力权重,wl1表示第一个线性神经层的权重矩阵,wl2表示第二个线性神经层的权重矩阵,tanh为激活函数,softmax函数是归一化指数函数。
8.根据权利要求1所述的一种基于膨胀门卷积神经网络的文本关系抽取方法,其特征在于,采用双向LSTM对编码序列进行处理的过程包括:
步骤1:对编码序列进行随机采样,得到一个标注的主实体,预测时逐一遍历所有标注的主实体,得到主实体的子序列;
步骤2:将编码序列中对应主实体的子序列输入到前向LSTM和后项LSTM中,得到前向隐藏状态和后向隐藏状态;
步骤3:将前向隐藏状态和后向隐藏状态进行组合,得到组合以后的编码序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011432040.5A CN112487807B (zh) | 2020-12-09 | 2020-12-09 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011432040.5A CN112487807B (zh) | 2020-12-09 | 2020-12-09 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487807A CN112487807A (zh) | 2021-03-12 |
CN112487807B true CN112487807B (zh) | 2023-07-28 |
Family
ID=74941191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011432040.5A Active CN112487807B (zh) | 2020-12-09 | 2020-12-09 | 一种基于膨胀门卷积神经网络的文本关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487807B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221568B (zh) * | 2021-05-10 | 2022-05-17 | 天津大学 | 一种基于神经网络的改进分层序列标注联合关系抽取方法 |
CN113297838A (zh) * | 2021-05-21 | 2021-08-24 | 华中科技大学鄂州工业技术研究院 | 一种基于图神经网络的关系抽取方法 |
CN113468887A (zh) * | 2021-06-21 | 2021-10-01 | 上海交通大学 | 基于边界与片段分类的学者信息关系抽取方法和系统 |
CN113505598A (zh) * | 2021-08-06 | 2021-10-15 | 贵州江南航天信息网络通信有限公司 | 一种基于混合神经网络的网络文本实体关系抽取算法 |
CN113837858A (zh) * | 2021-08-19 | 2021-12-24 | 同盾科技有限公司 | 用户信贷风险预测的方法、系统、电子装置和存储介质 |
CN113657104A (zh) * | 2021-08-31 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 文本抽取方法、装置、计算机设备及存储介质 |
CN113468344B (zh) * | 2021-09-01 | 2021-11-30 | 北京德风新征程科技有限公司 | 实体关系抽取方法、装置、电子设备和计算机可读介质 |
CN113988075A (zh) * | 2021-10-28 | 2022-01-28 | 广东工业大学 | 基于多任务学习的网络安全领域文本数据实体关系抽取法 |
CN114360729A (zh) * | 2021-11-25 | 2022-04-15 | 达而观数据(成都)有限公司 | 一种基于深度神经网络的医疗文本信息自动化抽取方法 |
CN113836308B (zh) * | 2021-11-26 | 2022-02-18 | 中南大学 | 网络大数据长文本多标签分类方法、系统、设备及介质 |
CN114417841A (zh) * | 2021-12-28 | 2022-04-29 | 航天科工网络信息发展有限公司 | 一种基于扩张卷积神经网络的特征提取方法及装置 |
CN114298052B (zh) * | 2022-01-04 | 2023-06-20 | 中国人民解放军国防科技大学 | 一种基于概率图的实体联合标注关系抽取方法和系统 |
CN114610819B (zh) * | 2022-03-17 | 2022-10-11 | 中科世通亨奇(北京)科技有限公司 | 一种实体关系抽取方法 |
CN114548090B (zh) * | 2022-04-26 | 2022-07-26 | 东南大学 | 基于卷积神经网络和改进级联标注的快速关系抽取方法 |
CN116596151B (zh) * | 2023-05-25 | 2024-03-15 | 湖北工业大学 | 基于时空图注意力的交通流量预测方法及计算设备 |
CN117850975A (zh) * | 2023-12-15 | 2024-04-09 | 天翼云科技有限公司 | 一种基于膨胀门卷积神经网络的虚拟机分类系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN111309921A (zh) * | 2020-01-19 | 2020-06-19 | 上海方立数码科技有限公司 | 一种文本三元组抽取方法及抽取系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8886206B2 (en) * | 2009-05-01 | 2014-11-11 | Digimarc Corporation | Methods and systems for content processing |
US10810723B2 (en) * | 2017-11-15 | 2020-10-20 | NEC Laboratories Europe GmbH | System and method for single image object density estimation |
-
2020
- 2020-12-09 CN CN202011432040.5A patent/CN112487807B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170678A (zh) * | 2017-12-27 | 2018-06-15 | 广州市云润大数据服务有限公司 | 一种文本实体抽取方法与系统 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN111309921A (zh) * | 2020-01-19 | 2020-06-19 | 上海方立数码科技有限公司 | 一种文本三元组抽取方法及抽取系统 |
Non-Patent Citations (2)
Title |
---|
"Convolutional Neural Network for Remote-Sensing Scene Classification: Transfer Learning Analysis";Rafael Pires de Lima 等;《Remote Sensing》;20191225;第12卷(第1期);第86-96页 * |
"基于膨胀卷积神经网络模型的中文分词方法";王星 等;《中文信息学报》;20190915;第33卷(第9期);第24-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487807A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487807B (zh) | 一种基于膨胀门卷积神经网络的文本关系抽取方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN109241536B (zh) | 一种基于深度学习自注意力机制的句子排序方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN112215013B (zh) | 一种基于深度学习的克隆代码语义检测方法 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN114491039B (zh) | 基于梯度改进的元学习少样本文本分类方法 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN113011191A (zh) | 一种知识联合抽取模型训练方法 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
Cheng et al. | A semi-supervised deep learning image caption model based on Pseudo Label and N-gram | |
CN110276396A (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN114548101A (zh) | 基于可回溯序列生成方法的事件检测方法和系统 | |
CN114510946B (zh) | 基于深度神经网络的中文命名实体识别方法及系统 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN113792594B (zh) | 一种基于对比学习的视频中语言片段定位方法及装置 | |
US11941360B2 (en) | Acronym definition network | |
CN117436451A (zh) | 基于IDCNN-Attention的农业病虫害命名实体识别方法 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN114691836B (zh) | 文本的情感倾向性分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |