CN114372138A - 一种基于最短依存路径和bert的电力领域关系抽取的方法 - Google Patents
一种基于最短依存路径和bert的电力领域关系抽取的方法 Download PDFInfo
- Publication number
- CN114372138A CN114372138A CN202210028195.5A CN202210028195A CN114372138A CN 114372138 A CN114372138 A CN 114372138A CN 202210028195 A CN202210028195 A CN 202210028195A CN 114372138 A CN114372138 A CN 114372138A
- Authority
- CN
- China
- Prior art keywords
- shortest
- path
- dependency
- bert
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013138 pruning Methods 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000013145 classification model Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明一种基于最短依存路径和BERT的电力领域关系抽取的方法,包括如下步骤:S1、从互联网上获取电力领域文本信息并将其存储于数据库内;S2、对于电力领域文本信息使用依存句法分析对文本中的重要信息进行抽取,得到原始语句的依存路径,同时得到最短依存路径;S3、将原序列依存路径和最短依存路径分别放入BERT中进行处理,获得相应的词向量;S4、将两个向量分别传入传统的BiLSTM神经网络进行分类,最后两个LSTM模型的输出进行拼接,并用softmax得到最后的模型输出结果。本发明可有效处理电力专业领域关系抽取问题,降低噪声词汇对分类模型的影响,提高关系抽取的效率以及准确度,提高电网决策智能化水平。
Description
技术领域
本发明属于电力领域决策辅助领域,具体涉及一种基于最短依存路径和BERT的电力领域关系抽取的方法。
背景技术
近年来人工智能技术发展迅速,智能算法已广泛应用于电力领域,其中智能技术的实现多依赖于大规模、高质量和宽领域的结构化知识库。传统的知识库构建主要依赖手工,通过该方式构建的知识库扩展性较差、规模较小且具有局限性,因此,如何自动化构建知识库成为近年的研究热点。从大量非结构化数据中抽取出结构化数据,成为构建大型知识库的关键技术之一。从自然文本中自动提取出多个实体并判别其关系类型是关系抽取任务的目的。目前,已有关系抽取的方法大致可归纳为:基于模式匹配的关系抽取方法、基于词典的关系抽取方法、基于文本语法和语义的关系抽取方法、基于机器学习的关系抽取方法及混合抽取方法。目前,基于机器学习的关系抽取方法的核心思想是使用表示学习等方法,组织和衍生特征向量,通过提取自然语言文本中的特征,组织成可被深度神经网络或者其他学习网络接受的张量形式进行分类器的训练.特征的组织和模型的优化是关系抽取方法的关键步骤,也是影响分类准确率的重要因素。
在以往研究中,普遍采用基于Skip-gram模型和CBOW模型的单一字向量和词向量作为文本特征,再结合具体任务训练语料的特点,构建特定任务的概率模型。这种方法虽然效果不错,但噪声传播问题仍是关系抽取任务要解决的难点。通过构建特定任务的模型能在一定程度上解决该问题,但局限性成为进一步提升抽取效果的瓶颈。另一方面,传统的预训练语言模型,虽然能在一定程度上反映文本字词语义,但其表示能力受滑动窗口的限制,并不能充分表示上下文语义,存在一词多义现象。在特定语境下,传统的字词特征仍有改进空间。
依存句法分析是自然语言处理领域的分析方法之一。基于转移和基于图的依存分析方法是依存句法分析的两个主要思路。基于转移的依存分析方法是构建一条从初始转移状态到终结状态的转移动作序列并逐步生成依存树;基于图的依存分析方法则将文本序列转换为有向完全图,在图中求解最大生成树问题。通过依存句法分析能简洁反映文本实体词之间的直接或间接的关联关系,以降低噪声词对训练分类模型的影响,更好地解决噪声传播问题;同时,依存句法分析能衍生更丰富的实体和语法特征,能更好地挖掘文本语义。
目前注意力机制和语言模型的不断发展为自然语言处理任务提供了更好语义表示方案.基于Self-Attention机制的Transfomers被提出后,以其为基础的BERT预训练模型也应运而生.BERT能更好地综合考虑文本的上下语境,增强了模型的泛化能力,充分描述了字符级、词级、句子级甚至句间关系的特征。
发明内容
本发明要解决的技术问题是提供一种基于最短依存路径和BERT的电力领域关系抽取的方法,结合BERT预训练语言模型获得更具语义表现力的特征表示,同时使用依存句法分析提取出最短依存路径作为额外信息输入分类模型,降低了噪声词汇对分类模型的影响。
为解决上述技术问题,本发明的实施例提供一种基于最短依存路径和BERT的电力领域关系抽取的方法,包括如下步骤:
S1、从互联网上获取电力领域文本信息并将其存储于数据库内;
S2、使用依存句法分析电力领域文本信息,对文本中的重要信息进行抽取,得到原始语句的依存路径,同时得到最短依存路径,并对最短依存序列进行词性标注;
S3、将原始语句的依存路径和最短依存路径分别放入BERT中进行处理,获得相应的词向量;
S4、将两个向量分别传入传统的BiLSTM神经网络进行分类,最后两个LSTM模型的输出进行拼接,并用softmax得到最后的模型输出结果。
其中,步骤S1的步骤包括:
S1.1、选取电力领域信息的可信网络数据源;
S1.2、对网络数据源上的文本信息通过网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;
S1.3、将其存储于数据库内。
其中,步骤S2的具体步骤包括:
S2.1、使用依存句法分析电力领域文本信息,对文本中的重要信息进行抽取,称其为“预抽取”,得到原始序列的依存句法树;
S2.2、将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝。若实体词存在,则保留完整子树;若实体词不存在,只保留该子树中的动词和名词。若舍弃的结点为叶子结点,则直接舍弃;若舍弃的结点为非叶子节点,则选择孩子节点中的动词结点作为新的双亲结点;当存在多个动词,则按照如下优先级进行选择:实义动词(如,教育、写作等)>趋向动词>系动词>助动词(“>”表示“优先于”);
S2.3、将已剪枝的依存句法树视为特殊的图结构Gt,以两实体词结点分别作为起始节点Ve1和终点节点Ve2,使用Djkstra最短路径算法求出两个实体节点之间的最短路径,定义其为最短依存路径Pt,其表达式为:
Pt=Djkstra(Gt,Ve1,Ve2)
其中,在最短依存路径上的词语,组成了该文本的最短依存序列Pw={wi,wi+1,…,wj},i,j≤n。
其中,步骤S3包括如下步骤:
S3.1、将经处理后的原序列中的单词映射成多维词向量ei∈Rd,d为词向量的维度。然后得到句子s的词向量集合X={e1,e2,…,en},其中X∈Rn×d。因此,多头注意力机制层大致可以表示为
Z=MultiHead(Q,K,V)=HW0;
其中,W0∈Rhn×k为多头注意力的权重矩阵。模型中的多头自注意力是指首先对Q,K,V进行不同的线性变换,再计算相似度,这个过程重复做h次,然后将h次的结果拼接起来再进行线性变换作为多头自注意力机制的结果.其计算方法为:
Q=XWQ K=XWK V=XWV;
其中,WQ∈Rk×n,WK∈Rk×n,WV∈Rk×n分别为Q,K,V的权重矩阵。然后重复h次之后,最终多头注意力的输出就是将各头输出进行拼接,其表达式为:
C=max[0,ZW1+b1]W2+b2;
其中,W1,W2为前馈网络的权重矩阵,b1,b2为前馈网络的偏置;
S3.2、将最短依存序列单独作为BERT的一个输入,并且对最短依存序列进行词性标注,将其词性映射成相应的语义向量posi∈Rd,其中d为前文提到的词向量维度,posi为第i个词的词性,可求最短依存序列的词性特征为:pos0:n={pos0,pos1,…,posm},将最短依存序列特征及其词性特征进行拼接得到:Xp=sp⊙pos0:m,计算出Self-attention的查询向量,键向量和值向量,代入自注意力机制的公式后获得Ep,再将Ep进行简单的线性激活后得到最短依存序列特征P。
P=tanh(Wp·Ep+bp);
其中,步骤S4的步骤包括:
将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类,其过程大致为:
ft=σ(wf·[ht-1,et]+bf) (1)
it=σ(wi·[ht--1,et]+bi) (2)
其中,是上一时间步的隐含状态,et为当前时间步输入,W和b分别为LSTM各个门的权重矩阵和偏置矩阵。式(1)和式(2)将上一时间步ht-1传来的隐含状态和当前时间步et的输入通过sigmod函数将其映射到一个[0,1]区间,确定遗忘权重和记忆权重。式(3)和式(4)选择性地将当前时间步特征更新到细胞状态。式(5)和式(6)则通过前一时间步的隐含状态和当前的细胞状态经过sigmod层得出权重Ot,最后再通过线性激活得到当前的隐含状态式(7)综合考虑当前时间步的双向信息,即文本上下文,将两个方向的隐含状态综合计算得到当前时间步最后的输出ht。最后,将两个LSTM模型的输出进行拼接,并用softmax得到最后的模型输出结果。
本发明的上述技术方案的有益效果如下:
1、本发明将最短依存路径和BERT引入互联网电力领域政策信息分析场景,提出了一种基于最短依存路径和BERT的电力领域关系抽取的方法,对互联网上的采集的电力领域知识进行关系抽取,使从结构化数据与非结构化文档中抽取各类实体关系成为可能。
2、本发明采用BERT预训练语言模型获得特征表示,相比传统特征表示方式,得到的特征更具语义表现力,降低噪声词汇对分类模型的影响,提高实体关系的抽取效率。
附图说明
图1为依存句法分析树结构示意图;
图2为BERT模型结构示意图;
图3为Transformer编码器结构示意图;
图4为基于依存句法和BERT的双向LSTM神经网络模型结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1-图4所示,本发明提供一种基于最短依存路径和BERT的电力领域关系抽取的方法,包括如下步骤:
S1、从互联网上获取电力领域文本信息并将其存储于数据库内;
步骤S1中考虑到互联网上电力领域信息的来自新闻发布平台、企业官网、政府机构公告和行业动态等不同的数据源,首先采用对应的爬虫模块对文本信息作基础的采集,然后利用地址进行第一次数据去重,再通过标题做进一步过滤重复信息。将采集到的数据存储在数据库MySQL中,构建出原始的电力领域文本源数据库。
S2、对于步骤S1中获取的电力领域文本信息使用依存句法分析对文本中的重要信息进行抽取,得到原始语句的依存路径,同时得到最短依存路径;
步骤S2中,传统的原始语句依存路径无法有效应对噪声问题,本步骤采用增加了最短依存路径作为额外的信息输出。
使用依存句法分析对文本中的重要信息进行抽取,称其为“预抽取”,得到原始序列的依存句法树;将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝。若实体词存在,则保留完整子树;若实体词不存在,只保留该子树中的动词和名词。若舍弃的结点为叶子结点,则直接舍弃;若舍弃的结点为非叶子节点,则选择孩子节点中的动词结点作为新的双亲结点;当存在多个动词,则按照如下优先级进行选择:实义动词(如,教育、写作等)>趋向动词>系动词>助动词(“>”表示“优先于”);将已剪枝的依存句法树视为特殊的图结构Gt,以两实体词结点分别作为起始节点Ve1和终点节点Ve2,使用Djkstra最短路径算法求出两个实体节点之间的最短路径,定义其为最短依存路径Pt,其表达式为:
Pt=Djkstra(Gt,Ve1,Ve2);
其中,在最短依存路径上的词语,组成了该文本的最短依存序列Pw={wi,wi+1,…,wj},i,j≤n。
S3、本步骤选取BERT来完成词向量的获取,将步骤S2得到的最短依存序列和原始依存序列分别作为BERT的输入,分别得到两者的词向量。
将经处理后的原序列中的单词映射成多维词向量ei∈Rd,d为词向量的维度。然后得到句子s的词向量集合X={e1,e2,…,en},其中X∈Rn×d。因此,多头注意力机制层大致可以表示为
Z=MultiHead(Q,K,V)=HW0;
其中,W0∈Rhn×k为多头注意力的权重矩阵。模型中的多头自注意力是指首先对Q,K,V进行不同的线性变换,再计算相似度,这个过程重复做h次,然后将h次的结果拼接起来再进行线性变换作为多头自注意力机制的结果.其计算方法为:
Q=XWQ K=XWK V=XWV;
其中,WQ∈Rk×n,WK∈Rk×n,WV∈Rk×n分别为Q,K,V的权重矩阵。然后重复h次之后,最终多头注意力的输出就是将各头输出进行拼接,其表达式为:
C=max[0,ZW1+b1]W2+b2;
其中,W1,W2为前馈网络的权重矩阵,b1,b2为前馈网络的偏置。
将最短依存序列单独作为BERT的一个输入,并且对最短依存序列进行词性标注,将其词性映射成相应的语义向量posi∈Rd,其中d为前文提到的词向量维度,posi为第i个词的词性,可求最短依存序列的词性特征为:pos0:n={pos0,pos1,…,posm},将最短依存序列特征及其词性特征进行拼接得到:Xp=sp⊙pos0:m,计算出Self-attention的查询向量,键向量和值向量,代入自注意力机制的公式后获得Ep,再将Ep进行简单的线性激活后得到最短依存序列特征P。
P=tanh(Wp·Ep+bp)。
S4、将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类,其过程大致为:
ft=σ(wf·[ht-1,et]+bf) (1)
it=σ(wi·[ht--1,et]+bi) (2)
其中,是上一时间步的隐含状态,et为当前时间步输入,W和b分别为LSTM各个门的权重矩阵和偏置矩阵。式(1)和式(2)将上一时间步ht-1传来的隐含状态和当前时间步et的输入通过sigmod函数将其映射到一个[0,1]区间,确定遗忘权重和记忆权重。式(3)和式(4)选择性地将当前时间步特征更新到细胞状态。式(5)和式(6)则通过前一时间步的隐含状态和当前的细胞状态经过sigmod层得出权重Ot,最后再通过线性激活得到当前的隐含状态式(7)综合考虑当前时间步的双向信息,即文本上下文,将两个方向的隐含状态综合计算得到当前时间步最后的输出ht。最后,将两个LSTM模型的输出进行拼接,并用softmax得到最后的模型输出结果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于最短依存路径和BERT的电力领域关系抽取的方法,其特征在于,包括如下步骤:
S1、从互联网上获取电力领域文本信息并将其存储于数据库内;
S2、使用依存句法分析电力领域文本信息,对文本中的重要信息进行抽取,得到原始语句的依存路径,同时得到最短依存路径,并对最短依存序列进行词性标注;
S3、将原始语句的依存路径和最短依存路径分别放入BERT中进行处理,获得相应的词向量;
S4、将两个向量分别传入传统的BiLSTM神经网络进行分类,最后两个LSTM模型的输出进行拼接,并用softmax得到最后的模型输出结果。
2.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法,其特征在于,步骤S1的步骤包括:
S1.1、选取电力领域信息的可信网络数据源;
S1.2、对网络数据源上的文本信息通过网络爬虫进行抓取,并根据系统获取信息的需求设计上下层提取器对网络数据源进行判重和置信度分析,降低信息采集系统的运算量和存储量;
S1.3、将其存储数据库内。
3.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法,其特征在于,步骤S2的具体步骤包括:
S2.1、使用依存句法分析电力领域文本信息,对文本中的重要信息进行抽取,称其为预抽取,得到原始序列的依存句法树;
S2.2、将对依存句法树去掉根节点后所得的多棵子树进行调整和剪枝,若实体词存在,则保留完整子树;若实体词不存在,只保留该子树中的动词和名词;若舍弃的结点为叶子结点,则直接舍弃;若舍弃的结点为非叶子节点,则选择孩子节点中的动词结点作为新的双亲结点;当存在多个动词,则按照如下优先级进行选择:实义动词>趋向动词>系动词>助动词;
S2.3、将已剪枝的依存句法树视为特殊的图结构Gt,以两实体词结点分别作为起始节点Ve1和终点节点Ve2,使用Djkstra最短路径算法求出两个实体节点之间的最短路径,定义其为最短依存路径Pt,其表达式为:
Pt=Djkstra(Gt,Ve1,Ve2);
其中,在最短依存路径上的词语,组成了该文本的最短依存序列
Pw={wi,wi+1,…,wj},i,j≤n。
4.根据权利要求1所述的基于最短依存路径和BERT的电力领域关系抽取的方法,其特征在于,步骤S3包括如下步骤:
S3.1、将经处理后的原序列中的单词映射成多维词向量ei∈Rd,d为词向量的维度,然后得到句子s的词向量集合X={e1,e2,…,en},其中X∈Rn×d;多头注意力机制层大致可以表示为
Z=MultiHead(Q,K,V)=HW0;
其中,W0∈Rhn×k为多头注意力的权重矩阵;
模型中的多头自注意力是指首先对Q,K,V进行不同的线性变换,再计算相似度,这个过程重复做h次,然后将h次的结果拼接起来再进行线性变换作为多头自注意力机制的结果,其计算方法为:
Q=XWQ K=XWK V=XWV,
其中,WQ∈Rk×n,WK∈Rk×n,WV∈Rk×n分别为Q,K,V的权重矩阵;然后重复h次之后,最终多头注意力的输出就是将各头输出进行拼接,其表达式为:
其中,Wi Q∈Rk×n,Wi K∈Rk×n,Wi V∈Rk×n;
多头注意力机制层的结果,经过残差和归一化处理后,进入前馈神经网络层,该层通过简单的线性激活的运算得到文本语义的向量表示,其过程为:
C=max[0,ZW1+b1]W2+b2;
其中,W1,W2为前馈网络的权重矩阵,b1,b2为前馈网络的偏置;
S3.2、将最短依存序列单独作为BERT的一个输入,并且对最短依存序列进行词性标注,将其词性映射成相应的语义向量posi∈Rd,其中d为前文提到的词向量维度,posi为第i个词的词性,可求最短依存序列的词性特征为:pos0:n={pos0,pos1,…,posm},将最短依存序列特征及其词性特征进行拼接得到:Xp=sp⊙pos0:m,计算出Self-attention的查询向量,键向量和值向量,代入自注意力机制的公式后获得Ep,再将Ep进行简单的线性激活后得到最短依存序列特征P:
P=tanh(Wp·Ep+bp);
步骤S4的步骤包括:
将步骤S3得到的P和C分别传入传统的双向LSTM神经网络进行分类,其过程包括:
ft=σ(wf·[ht-1,et]+bf) (1)
it=σ(wi·[ht-1,et]+bi) (2)
其中,是上一时间步的隐含状态,et为当前时间步输入,W和b分别为LSTM各个门的权重矩阵和偏置矩阵;式(1)和式(2)将上一时间步ht-1传来的隐含状态和当前时间步et的输入通过sigmod函数将其映射到一个[0,1]区间,确定遗忘权重和记忆权重;式(3)和式(4)选择性地将当前时间步特征更新到细胞状态;式(5)和式(6)则通过前一时间步的隐含状态和当前的细胞状态经过sigmod层得出权重Ot,最后再通过线性激活得到当前的隐含状态式(7)综合考虑当前时间步的双向信息,即文本上下文,将两个方向的隐含状态综合计算得到当前时间步最后的输出ht;最后,将两个LSTM模型的输出进行拼接,并用softmax得到最后的模型输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028195.5A CN114372138A (zh) | 2022-01-11 | 2022-01-11 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028195.5A CN114372138A (zh) | 2022-01-11 | 2022-01-11 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372138A true CN114372138A (zh) | 2022-04-19 |
Family
ID=81143664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210028195.5A Pending CN114372138A (zh) | 2022-01-11 | 2022-01-11 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372138A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609519A (zh) * | 2024-01-22 | 2024-02-27 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008092A (zh) * | 2014-06-10 | 2014-08-27 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
CN110473595A (zh) * | 2019-07-04 | 2019-11-19 | 四川大学 | 一种结合最短依存路径的胶囊网络关系抽取模型 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
CN113360582A (zh) * | 2021-06-04 | 2021-09-07 | 中国人民解放军战略支援部队信息工程大学 | 基于bert模型融合多元实体信息的关系分类方法及系统 |
CN113449517A (zh) * | 2021-07-08 | 2021-09-28 | 福建工程学院 | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 |
-
2022
- 2022-01-11 CN CN202210028195.5A patent/CN114372138A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008092A (zh) * | 2014-06-10 | 2014-08-27 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
CN110473595A (zh) * | 2019-07-04 | 2019-11-19 | 四川大学 | 一种结合最短依存路径的胶囊网络关系抽取模型 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113221567A (zh) * | 2021-05-10 | 2021-08-06 | 北京航天情报与信息研究所 | 司法领域命名实体及关系联合抽取方法 |
CN113360582A (zh) * | 2021-06-04 | 2021-09-07 | 中国人民解放军战略支援部队信息工程大学 | 基于bert模型融合多元实体信息的关系分类方法及系统 |
CN113449517A (zh) * | 2021-07-08 | 2021-09-28 | 福建工程学院 | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
陈珂 等: "基于最短依存路径和 BERT的关系抽取算法研究", 西南师范大学学报(自然科学版), vol. 46, no. 11, pages 56 - 66 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609519A (zh) * | 2024-01-22 | 2024-02-27 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
CN117609519B (zh) * | 2024-01-22 | 2024-04-19 | 云南大学 | 一种电力碳排放计算公式中的实体关系抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108519890B (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN113642330B (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN112765952A (zh) | 一种图卷积注意力机制下的条件概率联合事件抽取方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN111651973A (zh) | 一种基于句法感知的文本匹配方法 | |
CN113705237A (zh) | 融合关系短语知识的关系抽取方法、装置和电子设备 | |
CN114580639A (zh) | 一种基于政务三元组自动抽取对齐的知识图谱构建的方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN112836051A (zh) | 一种在线自学习的法院电子卷宗文本分类方法 | |
CN112185361A (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN116186216A (zh) | 基于知识增强和双图交互的问题生成方法及系统 | |
CN114492796A (zh) | 一种基于语法树的多任务学习手语翻译方法 | |
CN114372138A (zh) | 一种基于最短依存路径和bert的电力领域关系抽取的方法 | |
Pappas et al. | A survey on language modeling using neural networks | |
CN117251562A (zh) | 一种基于事实一致性增强的文本摘要生成方法 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
WO2023130688A1 (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220419 |