CN114077673A - 一种基于btbc模型的知识图谱构建方法 - Google Patents
一种基于btbc模型的知识图谱构建方法 Download PDFInfo
- Publication number
- CN114077673A CN114077673A CN202110702281.5A CN202110702281A CN114077673A CN 114077673 A CN114077673 A CN 114077673A CN 202110702281 A CN202110702281 A CN 202110702281A CN 114077673 A CN114077673 A CN 114077673A
- Authority
- CN
- China
- Prior art keywords
- model
- layer
- word
- entity
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010380 label transfer Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种基于BTBC模型的知识图谱构建方法,上下文编码层采用Tiered‑BiLSTM‑CRF模型,通过动态堆叠平面NER层来识别嵌套实体,每个平面NER层均为BiLSTM‑CRF的平面NER模型,每一层将LSTM层的实体输出融合,再输出到下一个平面NER层中,关系抽取层采用多头关系抽取模型,最后以三元组的格式存储在Neo4j图数据库里。本发明将具有更强文本特征表示能力的BERT预训练模型做特征表示层,结合Tiered‑BiLSTM‑CRF,突出了上下文语义特征中的重要特征,在识别多对关系的基础上,有效解决了实体重叠的问题,提高图谱构建的准确性。
Description
技术领域
本发明属于深度学习和自然语言处理技术领域,具体的说是涉及一种基于BTBC模型的知识图谱构建方法。
背景技术
知识图谱的构建是指利用自然语言处理和深度学习的技术,从非结构化文本中抽取、存储的过程。目前,知识图谱构建研究涉及多个领域,包括自然语言处理、机器学习和信息抽取等,得到了许多研究者的关注。在领域知识图谱中,医疗知识图谱占有很大比例,例如Linked Life Data项目包括25个公共生物医学数据库,可以访问100亿个RDF语句,包括基因、药物、临床试验和副作用等等。医疗知识图谱的构建可以应用于辅助医生对疾病进行诊断,减少查阅资料的时间,提高工作效率,降低治疗成本,挖掘药物间的相似联系;对于用户而言,知识图谱的应用可以使医学问答更加智能和专业,同时方便用户在搜索引擎中查询疾病或症状。
知识图谱的构建实质上就是将基础数据以多种方法和技术构建成一个三元组集合的过程,涉及到数据获取、实体关系抽取、知识表示、知识融合、知识存储和知识推理等多项技术。
上下文编码器常使用卷积神经网络(CNN)和循环神经网络(RNN)。其中,CNN能够提取输入数据的局部特征,因此主要用于特征的学习;RNN考虑句子中字符间的影响,可同时用于特征学习和序列标注,RNN中的长短期记忆网络(LSTM)在序列数据建模方面取得了显著成效,特别是双向LSTM(BiLSTM〉能从两个方向来处理一个句子。但是没有词嵌入层,随机初始化效果不稳定。
BERT最大的创新在于用Transformer同时引入上下文信息。该模型用transformerencoder的结构,为了防止标签泄漏,提出了Masked LM的预训练,引入上下文信息参与训练,但是在计算的过程中弱化了位置信息。
CN112347265A公开了一种知识图谱构建方法,该方法对需要处理的句子进行分词,得到多个单独词;识别多个单独词中的实体,得到两个一组的实体对;对于每个实体对,获取句子的句向量;根据句向量,提取所述句子的表示特征;对所述表示特征进行特征筛选,屏蔽其中的噪声特征;根据表示特征预测所述实体对的实体关系;根据实体对和对应的实体关系构建知识图谱,虽然此方法可以将实现了噪声特征的滤除,但是这种知识图谱的构建需要投入了大量的人工和时间投入,且构建知识图谱的效率低成本高。
发明内容
为了解决上述问题,本发明提供了一种基于BTBC模型的知识图谱构建方法,针对现有的BERT模型进行改进,用LSTM习得观测序列上的依赖关系,最后再用CRF习得状态序列的关系并得到答案。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于BTBC模型的知识图谱构建方法,该BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,该知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量。
步骤1中的预训练具体为:面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
步骤1中的BERT模型是一种Transformer的双向编码器,将输入的训练语料编码成字向量,再把子向量序列输入到堆叠NER层,NER层是嵌套命名实体识别层。
步骤2、将步骤1得到的字向量序列输入到改进后的Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层;
所述步骤2具体为:
步骤2-1:在t时刻,给定输入xt,Tiered-BiLSTM的隐藏层输出表示的具体计算过程如公式(1)(2)(3)(4)(5)获得:
it=σ(Wxixt+Whiht-1+WciCt-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf) (2)
Ct=ftCt-1+ittanh(WxCxt+WhCht-1+bC) (3)
ot=σ(Wxoxt+Whoht-1+WcoCt+bo) (4)
ht=ottanh(Ct) (5)
其中,W为两层之间的权重矩阵,Wxi为输入层到输入们的权重矩阵,b为偏置向量,bi为输入门的偏执向量,C为记忆单元状态,σ和tanh为两种激活函数,it为输入门,ot为输出门,ft为遗忘门,ht为输出向量;这种存储单元能够有效过滤和记忆单元的信息,对长距离信息能够有效利用,解决了RNN模型容易产生的梯度弥散问题。
步骤2-2:对于给定输入序列(x1,x2,...,xn),每个单词表示为d维向量,前向Tiered-BiLSTM计算每个单词t从左向右句子的上下文表示相应的,使用后向Tiered-BiLSTM反向读取相同的序列,从而得到从右向左的上下文表示通过将单词的左右上下文表示串联在一起,得到使用该模型的单词表示为:
步骤2-3:对于给定序列x=(x1,x2,...,xn)和对应的标签序列y=(y1,y2,...,yn),通过Tiered-BiLSTM层后,经过线性映射得到每个标签的得分为:
Pi=WSht+bS (6)
其中ht是上一层t时刻Tiered-BiLSTM层的输出,WS和bS是线性映射参数。
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度;
在所述步骤3中,最后用线性映射转化为原始维度具体方法为:
其中zstart表示当前平面NER识别出的实体中第一个单词的表示形式,zend为实体中最后一个单词表示形式,W为线性映射参数,mi是实体的融合表示形式,融合从实体位置的起点开始,并在实体位置的终点结束,如果该区域被检测为实体,这种融合表表示形式允许将检测到的实体作为单个字符处理;如果该区域被检测为非实体,则将该表示传递到下一层,而不进行任何处理。
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
所述步骤4中的具体步骤为:
步骤4-2:在训练过程中,希望最大化正确标签序列的对数概率,即:
其中,λ和θ为正则化参数。
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系;
所述步骤5具体为:
步骤5-1:通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r)zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
步骤5-2:将步骤5-1得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
其中是wi的ground truth头像量和相对应的关系标签;m是对于wi的关系数量,默认对于一个头只选出一种关系;θ是参数集合。预测中只要控制计算后的概率值大于所有真实标签值得到的最低概率,这样为一个关系对。
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中,具体为:采用Neo4j图数据库,基本元素为节点、边和属性,节点用来存储实体和属性,边用来存储实体间的关系,使用拓扑结构来存储,将数据以可视化的形式展示出来。
本发明的有益效果是:本发明的BTBC模型的知识图谱构建方法通过将BERT模型和改进后的BILSTM-CRF模型结合,BERT模型克服了BiLSTM-CRF需要大量的标注样本的缺点,改进后的LSTM-CRF层通过加强实体尾部字符的权重来强化对嵌套实体的识别,突出了上下文语义特征中的重要特征,在识别多对关系的基础上,有效解决了实体重叠的问题,提高图谱构建的准确性。
附图说明
图1是本发明的知识图谱构建方法流程。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。此外,为简化图式起见,一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。
如图1所示,本发明是一种基于BTBC模型的知识图谱构建方法,其特征在于:所述BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,具体的,知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量。
面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
步骤2、将步骤1得到的字向量序列输入到改进后的Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层。
具体为:
步骤2-1:在t时刻,给定输入xt,Tiered-BiLSTM的隐藏层输出表示的具体计算过程如公式(1)(2)(3)(4)(5)获得:
it=σ(Wxixt+Whiht-1+WciCt-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf) (2)
Ct=ftCt-1+ittanh(WxCxt+WhCht-1+bC) (3)
ot=σ(Wxoxt+Whoht-1+WcoCt+bo) (4)
ht=ottanh(Ct) (5)
其中,W为两层之间的权重矩阵,Wxi为输入层到输入们的权重矩阵,b为偏置向量,bi为输入门的偏执向量,C为记忆单元状态,σ和tanh为两种激活函数,it为输入门,ot为输出门,ft为遗忘门,ht为输出向量;这种存储单元能够有效过滤和记忆单元的信息,对长距离信息能够有效利用,解决了RNN模型容易产生的梯度弥散问题。
步骤2-2:对于给定输入序列(x1,x2,...,xn),每个单词表示为d维向量,前向Tiered-BiLSTM计算每个单词t从左向右句子的上下文表示相应的,使用后向Tiered-BiLSTM反向读取相同的序列,从而得到从右向左的上下文表示通过将单词的左右上下文表示串联在一起,得到使用该模型的单词表示为:
步骤2-3:对于给定序列x=(x1,x2,...,xn)和对应的标签序列y=(y1,y2,...,yn),通过Tiered-BiLSTM层后,经过线性映射得到每个标签的得分为:
Pi=WSht+bS (6)
其中ht是上一层t时刻Tiered-BiLSTM层的输出,WS和bS是线性映射参数。
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度,具体方法为:
其中zstart表示当前平面NER识别出的实体中第一个单词的表示形式,zend为实体中最后一个单词表示形式,W为线性映射参数,mi是实体的融合表示形式,融合从实体位置的起点开始,并在实体位置的终点结束,如果该区域被检测为实体,这种融合表表示形式允许将检测到的实体作为单个字符处理;如果该区域被检测为非实体,则将该表示传递到下一层,而不进行任何处理。
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
计算输入序列到标签序列的标签转移分数,将步骤3得到的输出序列带入公式(8):
步骤4-2:在训练过程中,希望最大化正确标签序列的对数概率,即:
其中,λ和θ为正则化参数。
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系。
步骤5-1:将步骤3和步骤4的输出拼接,作为步骤4的关系抽取任务的输入,通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r)zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
将上面得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
预测中只要控制计算后的概率值大于所有真实标签值得到的最低概率,这样为一个关系对。这样既可以判断是否存在关系,也能识别句子中是否有多对关系,有效解决了实体重叠问题。
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中,使用拓扑结构来存储,将数据以可视化的形式展示出来。
词嵌入层将医疗信息的数据集编码为词向量,上下文编码层采用Tiered-BiLSTM-CRF模型,通过动态堆叠平面NER层来识别嵌套实体,每个平面NER层均为BiLSTM-CRF的平面NER模型,每一层将LSTM层的实体输出融合,再输出到下一个平面NER层中,关系抽取层采用多头关系抽取模型,最后以三元组的格式存储在Neo4j图数据库里。本发明得BTBC模型将BERT和BiLSTM-CRF联合,有效解决了实体重叠的问题,提高图谱构建的准确性。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (8)
1.一种基于BTBC模型的知识图谱构建方法,其特征在于:所述BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,该知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量;
步骤2、将步骤1得到的字向量序列输入到Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层;
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度;
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系;
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中。
2.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤5具体为:
步骤5-1:通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r))zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
步骤5-2:将步骤5-1得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
4.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤2具体为:
步骤2-1:在t时刻,给定输入xt,Tiered-BiLSTM的隐藏层输出表示的具体计算过程如公式(1)(2)(3)(4)(5)获得:
it=σ(Wxixt+Whiht-1+WciCt-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf) (2)
Ct=ftCt-1+ittanh(WxCxt+WhCht-1+bC) (3)
ot=σ(Wxoxt+Whoht-1+WcoCt+bo) (4)
ht=ottanh(Ct) (5)
其中,W为两层之间的权重矩阵,Wxi为输入层到输入们的权重矩阵,b为偏置向量,bi为输入门的偏执向量,C为记忆单元状态,σ和tanh为两种激活函数,it为输入门,ot为输出门,ft为遗忘门,ht为输出向量;
步骤2-2:对于给定输入序列(x1,x2,...,xn),每个单词表示为d维向量,前向Tiered-BiLSTM计算每个单词t从左向右句子的上下文表示相应的,使用后向Tiered-BiLSTM反向读取相同的序列,从而得到从右向左的上下文表示通过将单词的左右上下文表示串联在一起,得到使用该模型的单词表示为:
步骤2-3:对于给定序列x=(x1,x2,...,xn)和对应的标签序列y=(y1,y2,...,yn),通过Tiered-BiLSTM层后,经过线性映射得到每个标签的得分为:
Pi=Wsht+bs (6)
其中ht是上一层t时刻Tiered-BiLSTM层的输出,Ws和bs是线性映射参数。
6.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤1中的BERT模型是一种Transformer的双向编码器,将输入的训练语料编码成字向量。
7.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤1中的预训练具体为:面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
8.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:步骤6具体为:采用Neo4j图数据库,基本元素为节点、边和属性,节点用来存储实体和属性,边用来存储实体间的关系,使用拓扑结构来存储,将数据以可视化的形式展示出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702281.5A CN114077673A (zh) | 2021-06-21 | 2021-06-21 | 一种基于btbc模型的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110702281.5A CN114077673A (zh) | 2021-06-21 | 2021-06-21 | 一种基于btbc模型的知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114077673A true CN114077673A (zh) | 2022-02-22 |
Family
ID=80283000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110702281.5A Pending CN114077673A (zh) | 2021-06-21 | 2021-06-21 | 一种基于btbc模型的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114077673A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510245A (zh) * | 2022-10-14 | 2022-12-23 | 北京理工大学 | 一种面向非结构化数据的领域知识抽取方法 |
CN116010583A (zh) * | 2023-03-17 | 2023-04-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117371534A (zh) * | 2023-12-07 | 2024-01-09 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170351749A1 (en) * | 2016-06-03 | 2017-12-07 | Microsoft Technology Licensing, Llc | Relation extraction across sentence boundaries |
CN110334211A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 一种基于深度学习的中医诊疗知识图谱自动构建方法 |
CN111813950A (zh) * | 2020-05-20 | 2020-10-23 | 淮阴工学院 | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 |
-
2021
- 2021-06-21 CN CN202110702281.5A patent/CN114077673A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170351749A1 (en) * | 2016-06-03 | 2017-12-07 | Microsoft Technology Licensing, Llc | Relation extraction across sentence boundaries |
CN110334211A (zh) * | 2019-06-14 | 2019-10-15 | 电子科技大学 | 一种基于深度学习的中医诊疗知识图谱自动构建方法 |
CN111813950A (zh) * | 2020-05-20 | 2020-10-23 | 淮阴工学院 | 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
FEI LIAO 等: "Research on Construction Method of Knowledge Graph of US Military Equipment Based on BiLSTM model", 2019 INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE BIG DATA AND INTELLIGENT SYSTEMS (HPBD&IS), 31 December 2019 (2019-12-31), pages 1 - 5 * |
王颖 等: "科技大数据知识图谱构建模型与方法研究", DATA ANALYSIS AND KNOWLEDGE DISCOVERY, no. 1, 31 December 2019 (2019-12-31), pages 1 - 12 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115510245A (zh) * | 2022-10-14 | 2022-12-23 | 北京理工大学 | 一种面向非结构化数据的领域知识抽取方法 |
CN115510245B (zh) * | 2022-10-14 | 2024-05-14 | 北京理工大学 | 一种面向非结构化数据的领域知识抽取方法 |
CN116010583A (zh) * | 2023-03-17 | 2023-04-25 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN116010583B (zh) * | 2023-03-17 | 2023-07-18 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种级联耦合的知识增强对话生成方法 |
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117194682B (zh) * | 2023-11-07 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117371534A (zh) * | 2023-12-07 | 2024-01-09 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
CN117371534B (zh) * | 2023-12-07 | 2024-02-27 | 同方赛威讯信息技术有限公司 | 一种基于bert的知识图谱构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN114077673A (zh) | 一种基于btbc模型的知识图谱构建方法 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN111914556A (zh) | 基于情感语义转移图谱的情感引导方法及系统 | |
CN110928961B (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN112464669B (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN110852089B (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN111324691A (zh) | 一种基于知识图谱的少数民族领域智能问答方法 | |
CN115269865A (zh) | 一种面向辅助诊断的知识图谱构建方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN112925918B (zh) | 一种基于疾病领域知识图谱的问答匹配系统 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN113392182A (zh) | 融合上下文语义约束的知识匹配方法、装置、设备及介质 | |
CN115293161A (zh) | 基于自然语言处理和药品知识图谱的合理用药系统及方法 | |
Yang et al. | Ensemble sentiment analysis method based on R-CNN and C-RNN with fusion gate | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
CN115238026A (zh) | 一种基于深度学习的医疗文本主题分割方法和装置 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
CN116701665A (zh) | 基于深度学习的中医古籍知识图谱构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |