CN114077673A - 一种基于btbc模型的知识图谱构建方法 - Google Patents

一种基于btbc模型的知识图谱构建方法 Download PDF

Info

Publication number
CN114077673A
CN114077673A CN202110702281.5A CN202110702281A CN114077673A CN 114077673 A CN114077673 A CN 114077673A CN 202110702281 A CN202110702281 A CN 202110702281A CN 114077673 A CN114077673 A CN 114077673A
Authority
CN
China
Prior art keywords
model
layer
word
entity
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110702281.5A
Other languages
English (en)
Inventor
李飞
章韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110702281.5A priority Critical patent/CN114077673A/zh
Publication of CN114077673A publication Critical patent/CN114077673A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明是一种基于BTBC模型的知识图谱构建方法,上下文编码层采用Tiered‑BiLSTM‑CRF模型,通过动态堆叠平面NER层来识别嵌套实体,每个平面NER层均为BiLSTM‑CRF的平面NER模型,每一层将LSTM层的实体输出融合,再输出到下一个平面NER层中,关系抽取层采用多头关系抽取模型,最后以三元组的格式存储在Neo4j图数据库里。本发明将具有更强文本特征表示能力的BERT预训练模型做特征表示层,结合Tiered‑BiLSTM‑CRF,突出了上下文语义特征中的重要特征,在识别多对关系的基础上,有效解决了实体重叠的问题,提高图谱构建的准确性。

Description

一种基于BTBC模型的知识图谱构建方法
技术领域
本发明属于深度学习和自然语言处理技术领域,具体的说是涉及一种基于BTBC模型的知识图谱构建方法。
背景技术
知识图谱的构建是指利用自然语言处理和深度学习的技术,从非结构化文本中抽取、存储的过程。目前,知识图谱构建研究涉及多个领域,包括自然语言处理、机器学习和信息抽取等,得到了许多研究者的关注。在领域知识图谱中,医疗知识图谱占有很大比例,例如Linked Life Data项目包括25个公共生物医学数据库,可以访问100亿个RDF语句,包括基因、药物、临床试验和副作用等等。医疗知识图谱的构建可以应用于辅助医生对疾病进行诊断,减少查阅资料的时间,提高工作效率,降低治疗成本,挖掘药物间的相似联系;对于用户而言,知识图谱的应用可以使医学问答更加智能和专业,同时方便用户在搜索引擎中查询疾病或症状。
知识图谱的构建实质上就是将基础数据以多种方法和技术构建成一个三元组集合的过程,涉及到数据获取、实体关系抽取、知识表示、知识融合、知识存储和知识推理等多项技术。
上下文编码器常使用卷积神经网络(CNN)和循环神经网络(RNN)。其中,CNN能够提取输入数据的局部特征,因此主要用于特征的学习;RNN考虑句子中字符间的影响,可同时用于特征学习和序列标注,RNN中的长短期记忆网络(LSTM)在序列数据建模方面取得了显著成效,特别是双向LSTM(BiLSTM〉能从两个方向来处理一个句子。但是没有词嵌入层,随机初始化效果不稳定。
BERT最大的创新在于用Transformer同时引入上下文信息。该模型用transformerencoder的结构,为了防止标签泄漏,提出了Masked LM的预训练,引入上下文信息参与训练,但是在计算的过程中弱化了位置信息。
CN112347265A公开了一种知识图谱构建方法,该方法对需要处理的句子进行分词,得到多个单独词;识别多个单独词中的实体,得到两个一组的实体对;对于每个实体对,获取句子的句向量;根据句向量,提取所述句子的表示特征;对所述表示特征进行特征筛选,屏蔽其中的噪声特征;根据表示特征预测所述实体对的实体关系;根据实体对和对应的实体关系构建知识图谱,虽然此方法可以将实现了噪声特征的滤除,但是这种知识图谱的构建需要投入了大量的人工和时间投入,且构建知识图谱的效率低成本高。
发明内容
为了解决上述问题,本发明提供了一种基于BTBC模型的知识图谱构建方法,针对现有的BERT模型进行改进,用LSTM习得观测序列上的依赖关系,最后再用CRF习得状态序列的关系并得到答案。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种基于BTBC模型的知识图谱构建方法,该BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,该知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量。
步骤1中的预训练具体为:面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
步骤1中的BERT模型是一种Transformer的双向编码器,将输入的训练语料编码成字向量,再把子向量序列输入到堆叠NER层,NER层是嵌套命名实体识别层。
步骤2、将步骤1得到的字向量序列输入到改进后的Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层;
所述步骤2具体为:
步骤2-1:在t时刻,给定输入xt,Tiered-BiLSTM的隐藏层输出表示的具体计算过程如公式(1)(2)(3)(4)(5)获得:
it=σ(Wxixt+Whiht-1+WciCt-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf) (2)
Ct=ftCt-1+ittanh(WxCxt+WhCht-1+bC) (3)
ot=σ(Wxoxt+Whoht-1+WcoCt+bo) (4)
ht=ottanh(Ct) (5)
其中,W为两层之间的权重矩阵,Wxi为输入层到输入们的权重矩阵,b为偏置向量,bi为输入门的偏执向量,C为记忆单元状态,σ和tanh为两种激活函数,it为输入门,ot为输出门,ft为遗忘门,ht为输出向量;这种存储单元能够有效过滤和记忆单元的信息,对长距离信息能够有效利用,解决了RNN模型容易产生的梯度弥散问题。
步骤2-2:对于给定输入序列(x1,x2,...,xn),每个单词表示为d维向量,前向Tiered-BiLSTM计算每个单词t从左向右句子的上下文表示
Figure BDA0003124194310000031
相应的,使用后向Tiered-BiLSTM反向读取相同的序列,从而得到从右向左的上下文表示
Figure BDA0003124194310000032
通过将单词的左右上下文表示串联在一起,得到使用该模型的单词表示为:
Figure BDA0003124194310000033
步骤2-3:对于给定序列x=(x1,x2,...,xn)和对应的标签序列y=(y1,y2,...,yn),通过Tiered-BiLSTM层后,经过线性映射得到每个标签的得分为:
Pi=WSht+bS (6)
其中ht是上一层t时刻Tiered-BiLSTM层的输出,WS和bS是线性映射参数。
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度;
在所述步骤3中,最后用线性映射转化为原始维度具体方法为:
Figure BDA0003124194310000041
其中zstart表示当前平面NER识别出的实体中第一个单词的表示形式,zend为实体中最后一个单词表示形式,W为线性映射参数,mi是实体的融合表示形式,融合从实体位置的起点开始,并在实体位置的终点结束,如果该区域被检测为实体,这种融合表表示形式允许将检测到的实体作为单个字符处理;如果该区域被检测为非实体,则将该表示传递到下一层,而不进行任何处理。
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
所述步骤4中的具体步骤为:
步骤4-1:CRF定义从输入序列到标签序列的标签转移分数:
Figure BDA0003124194310000042
其中W为转换矩阵,
Figure BDA0003124194310000043
表示标签转移分数,
Figure BDA0003124194310000044
表示该字符第yi个标签的得分,为了解决标注偏置问题,CRF需要做全局归一化,具体而言就是输入x对应的标签序列为y的概率定义为:
Figure BDA0003124194310000051
步骤4-2:在训练过程中,希望最大化正确标签序列的对数概率,即:
Figure BDA0003124194310000052
其中,λ和θ为正则化参数。
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系;
所述步骤5具体为:
步骤5-1:通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r)zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
步骤5-2:将步骤5-1得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
Figure BDA0003124194310000053
其中
Figure BDA0003124194310000054
是wi的ground truth头像量和相对应的关系标签;m是对于wi的关系数量,默认对于一个头只选出一种关系;θ是参数集合。预测中只要控制计算后的概率值大于所有真实标签值得到的最低概率,这样为一个关系对。
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中,具体为:采用Neo4j图数据库,基本元素为节点、边和属性,节点用来存储实体和属性,边用来存储实体间的关系,使用拓扑结构来存储,将数据以可视化的形式展示出来。
本发明的有益效果是:本发明的BTBC模型的知识图谱构建方法通过将BERT模型和改进后的BILSTM-CRF模型结合,BERT模型克服了BiLSTM-CRF需要大量的标注样本的缺点,改进后的LSTM-CRF层通过加强实体尾部字符的权重来强化对嵌套实体的识别,突出了上下文语义特征中的重要特征,在识别多对关系的基础上,有效解决了实体重叠的问题,提高图谱构建的准确性。
附图说明
图1是本发明的知识图谱构建方法流程。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。此外,为简化图式起见,一些习知惯用的结构与组件在图式中将以简单的示意的方式绘示之。
如图1所示,本发明是一种基于BTBC模型的知识图谱构建方法,其特征在于:所述BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,具体的,知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量。
面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
步骤2、将步骤1得到的字向量序列输入到改进后的Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层。
具体为:
步骤2-1:在t时刻,给定输入xt,Tiered-BiLSTM的隐藏层输出表示的具体计算过程如公式(1)(2)(3)(4)(5)获得:
it=σ(Wxixt+Whiht-1+WciCt-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf) (2)
Ct=ftCt-1+ittanh(WxCxt+WhCht-1+bC) (3)
ot=σ(Wxoxt+Whoht-1+WcoCt+bo) (4)
ht=ottanh(Ct) (5)
其中,W为两层之间的权重矩阵,Wxi为输入层到输入们的权重矩阵,b为偏置向量,bi为输入门的偏执向量,C为记忆单元状态,σ和tanh为两种激活函数,it为输入门,ot为输出门,ft为遗忘门,ht为输出向量;这种存储单元能够有效过滤和记忆单元的信息,对长距离信息能够有效利用,解决了RNN模型容易产生的梯度弥散问题。
步骤2-2:对于给定输入序列(x1,x2,...,xn),每个单词表示为d维向量,前向Tiered-BiLSTM计算每个单词t从左向右句子的上下文表示
Figure BDA0003124194310000071
相应的,使用后向Tiered-BiLSTM反向读取相同的序列,从而得到从右向左的上下文表示
Figure BDA0003124194310000081
通过将单词的左右上下文表示串联在一起,得到使用该模型的单词表示为:
Figure BDA0003124194310000082
步骤2-3:对于给定序列x=(x1,x2,...,xn)和对应的标签序列y=(y1,y2,...,yn),通过Tiered-BiLSTM层后,经过线性映射得到每个标签的得分为:
Pi=WSht+bS (6)
其中ht是上一层t时刻Tiered-BiLSTM层的输出,WS和bS是线性映射参数。
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度,具体方法为:
Figure BDA0003124194310000083
其中zstart表示当前平面NER识别出的实体中第一个单词的表示形式,zend为实体中最后一个单词表示形式,W为线性映射参数,mi是实体的融合表示形式,融合从实体位置的起点开始,并在实体位置的终点结束,如果该区域被检测为实体,这种融合表表示形式允许将检测到的实体作为单个字符处理;如果该区域被检测为非实体,则将该表示传递到下一层,而不进行任何处理。
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
计算输入序列到标签序列的标签转移分数,将步骤3得到的输出序列带入公式(8):
Figure BDA0003124194310000091
其中W为转换矩阵,
Figure BDA0003124194310000092
表示标签转移分数,
Figure BDA0003124194310000093
表示该字符第yi个标签的得分,为了解决标注偏置问题,CRF需要做全局归一化,具体而言就是输入x对应的标签序列为y的概率定义为:
Figure BDA0003124194310000094
步骤4-2:在训练过程中,希望最大化正确标签序列的对数概率,即:
Figure BDA0003124194310000095
其中,λ和θ为正则化参数。
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系。
步骤5-1:将步骤3和步骤4的输出拼接,作为步骤4的关系抽取任务的输入,通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r)zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
将上面得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
Figure BDA0003124194310000096
其中
Figure BDA0003124194310000097
是wi的ground truth头像量和相对应的关系标签;m是对于wi的关系数量,默认对于一个头只选出一种关系;θ是参数集合。
预测中只要控制计算后的概率值大于所有真实标签值得到的最低概率,这样为一个关系对。这样既可以判断是否存在关系,也能识别句子中是否有多对关系,有效解决了实体重叠问题。
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中,使用拓扑结构来存储,将数据以可视化的形式展示出来。
词嵌入层将医疗信息的数据集编码为词向量,上下文编码层采用Tiered-BiLSTM-CRF模型,通过动态堆叠平面NER层来识别嵌套实体,每个平面NER层均为BiLSTM-CRF的平面NER模型,每一层将LSTM层的实体输出融合,再输出到下一个平面NER层中,关系抽取层采用多头关系抽取模型,最后以三元组的格式存储在Neo4j图数据库里。本发明得BTBC模型将BERT和BiLSTM-CRF联合,有效解决了实体重叠的问题,提高图谱构建的准确性。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。

Claims (8)

1.一种基于BTBC模型的知识图谱构建方法,其特征在于:所述BTBC模型包括词嵌入层、上下文编码层、嵌套命名实体识别、关系抽取层和知识存储层,该知识图谱构件方法包括如下步骤:
步骤1、通过BERT预训练语言模型,将句子中的每个字转化为低维的字向量;
步骤2、将步骤1得到的字向量序列输入到Tiered-BiLSTM层,对句子进行编码,将前文与后文的信息融合到上下文编码层;
步骤3、将步骤2检测到的实体上下文表示进行融合,使用逐位相加的方法对除尾部字符的内部实体进行融合,再与尾部字符进行向量拼接,最后用线性映射转化为原始维度;
步骤4、将步骤2得到的标签序列和预测标签串联起来得到标签转移分数,条件随机场CRF通过考虑标签之间的相邻关系获得全局最优化标签序列;
步骤5、将步骤3的原始维度和步骤4的全局最优化标签序列拼接,通过多头关系抽取模型,计算每个词最有可能对应的关系和头向量,通过sigmoid损失函数获取多个关系;
步骤6、将步骤5输出以三元组的格式存储在Neo4j图数据库中。
2.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤5具体为:
步骤5-1:通过下列公式计算每个词最有可能对应的关系和头向量得到rel_scores
s(r)(zj,zi,zk)=V(r)f(U(r))zj+W(r)zi+b(r)) (11)
其中上标表示关系抽取,f()为激活函数,relu激活函数,tanh激活函数;
步骤5-2:将步骤5-1得到的分数经过sigmoid函数处理,就得到token wi与关系rk的概率,训练时最小化关系抽取的损失函数,来对模型的参数进行优化:
Figure FDA0003124194300000021
其中
Figure FDA0003124194300000022
是wi的ground truth头像量和相对应的关系标签;m是对于wi的关系数量,默认对于一个头只选出一种关系;θ是参数集合。预测中只要控制计算后的概率值大于所有真实标签值得到的最低概率,这样为一个关系对。
3.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:在所述步骤3中,最后用线性映射转化为原始维度具体方法为:
Figure FDA0003124194300000023
其中zstart表示当前平面NER识别出的实体中第一个单词的表示形式,zend为实体中最后一个单词表示形式,W为线性映射参数,mi是实体的融合表示形式,融合从实体位置的起点开始,并在实体位置的终点结束,如果该区域被检测为实体,这种融合表表示形式允许将检测到的实体作为单个字符处理;如果该区域被检测为非实体,则将该表示传递到下一层,而不进行任何处理。
4.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤2具体为:
步骤2-1:在t时刻,给定输入xt,Tiered-BiLSTM的隐藏层输出表示的具体计算过程如公式(1)(2)(3)(4)(5)获得:
it=σ(Wxixt+Whiht-1+WciCt-1+bi) (1)
ft=σ(Wxfxt+Whfht-1+WcfCt-1+bf) (2)
Ct=ftCt-1+ittanh(WxCxt+WhCht-1+bC) (3)
ot=σ(Wxoxt+Whoht-1+WcoCt+bo) (4)
ht=ottanh(Ct) (5)
其中,W为两层之间的权重矩阵,Wxi为输入层到输入们的权重矩阵,b为偏置向量,bi为输入门的偏执向量,C为记忆单元状态,σ和tanh为两种激活函数,it为输入门,ot为输出门,ft为遗忘门,ht为输出向量;
步骤2-2:对于给定输入序列(x1,x2,...,xn),每个单词表示为d维向量,前向Tiered-BiLSTM计算每个单词t从左向右句子的上下文表示
Figure FDA0003124194300000031
相应的,使用后向Tiered-BiLSTM反向读取相同的序列,从而得到从右向左的上下文表示
Figure FDA0003124194300000032
通过将单词的左右上下文表示串联在一起,得到使用该模型的单词表示为:
Figure FDA0003124194300000033
步骤2-3:对于给定序列x=(x1,x2,...,xn)和对应的标签序列y=(y1,y2,...,yn),通过Tiered-BiLSTM层后,经过线性映射得到每个标签的得分为:
Pi=Wsht+bs (6)
其中ht是上一层t时刻Tiered-BiLSTM层的输出,Ws和bs是线性映射参数。
5.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤4中的具体步骤为:
步骤4-1:CRF定义从输入序列到标签序列的标签转移分数:
Figure FDA0003124194300000041
其中W为转换矩阵,
Figure FDA0003124194300000042
表示标签转移分数,
Figure FDA0003124194300000043
表示该字符第yi个标签的得分,输入x对应的标签序列为y的概率定义为:
Figure FDA0003124194300000044
步骤4-2:在训练过程中,最大化正确标签序列的对数概率,即:
Figure FDA0003124194300000045
其中,λ和θ为正则化参数。
6.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤1中的BERT模型是一种Transformer的双向编码器,将输入的训练语料编码成字向量。
7.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:所述步骤1中的预训练具体为:面对爬取的大量无标注数据,使用百度百科的词条名,以及半结构化数据形成的三元组中的实体,组合并去除重复值来对非结构化数据进行回标,从而自动产生大量训练语料,因为BERT模型对输入句子有最大长度的要求,还需要按照句号对长句进行截断。
8.根据权利要求1所述一种基于BTBC模型的知识图谱构建方法,其特征在于:步骤6具体为:采用Neo4j图数据库,基本元素为节点、边和属性,节点用来存储实体和属性,边用来存储实体间的关系,使用拓扑结构来存储,将数据以可视化的形式展示出来。
CN202110702281.5A 2021-06-21 2021-06-21 一种基于btbc模型的知识图谱构建方法 Pending CN114077673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110702281.5A CN114077673A (zh) 2021-06-21 2021-06-21 一种基于btbc模型的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110702281.5A CN114077673A (zh) 2021-06-21 2021-06-21 一种基于btbc模型的知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN114077673A true CN114077673A (zh) 2022-02-22

Family

ID=80283000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110702281.5A Pending CN114077673A (zh) 2021-06-21 2021-06-21 一种基于btbc模型的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN114077673A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN116010583A (zh) * 2023-03-17 2023-04-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种级联耦合的知识增强对话生成方法
CN117194682A (zh) * 2023-11-07 2023-12-08 国网浙江省电力有限公司营销服务中心 构建基于电网相关文件的知识图谱的方法、装置及介质
CN117371534A (zh) * 2023-12-07 2024-01-09 同方赛威讯信息技术有限公司 一种基于bert的知识图谱构建方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351749A1 (en) * 2016-06-03 2017-12-07 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN111813950A (zh) * 2020-05-20 2020-10-23 淮阴工学院 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351749A1 (en) * 2016-06-03 2017-12-07 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
CN110334211A (zh) * 2019-06-14 2019-10-15 电子科技大学 一种基于深度学习的中医诊疗知识图谱自动构建方法
CN111813950A (zh) * 2020-05-20 2020-10-23 淮阴工学院 一种基于神经网络自适应寻优调参的建筑领域知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEI LIAO 等: "Research on Construction Method of Knowledge Graph of US Military Equipment Based on BiLSTM model", 2019 INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE BIG DATA AND INTELLIGENT SYSTEMS (HPBD&IS), 31 December 2019 (2019-12-31), pages 1 - 5 *
王颖 等: "科技大数据知识图谱构建模型与方法研究", DATA ANALYSIS AND KNOWLEDGE DISCOVERY, no. 1, 31 December 2019 (2019-12-31), pages 1 - 12 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510245A (zh) * 2022-10-14 2022-12-23 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN115510245B (zh) * 2022-10-14 2024-05-14 北京理工大学 一种面向非结构化数据的领域知识抽取方法
CN116010583A (zh) * 2023-03-17 2023-04-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种级联耦合的知识增强对话生成方法
CN116010583B (zh) * 2023-03-17 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种级联耦合的知识增强对话生成方法
CN117194682A (zh) * 2023-11-07 2023-12-08 国网浙江省电力有限公司营销服务中心 构建基于电网相关文件的知识图谱的方法、装置及介质
CN117194682B (zh) * 2023-11-07 2024-03-01 国网浙江省电力有限公司营销服务中心 构建基于电网相关文件的知识图谱的方法、装置及介质
CN117371534A (zh) * 2023-12-07 2024-01-09 同方赛威讯信息技术有限公司 一种基于bert的知识图谱构建方法及系统
CN117371534B (zh) * 2023-12-07 2024-02-27 同方赛威讯信息技术有限公司 一种基于bert的知识图谱构建方法及系统

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及系统
CN110928961B (zh) 一种多模态实体链接方法、设备及计算机可读存储介质
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN112464669B (zh) 股票实体词消歧方法、计算机设备及存储介质
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN115269865A (zh) 一种面向辅助诊断的知识图谱构建方法
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113168499A (zh) 检索专利文档的方法
CN114547298A (zh) 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质
CN112925918B (zh) 一种基于疾病领域知识图谱的问答匹配系统
CN113196277A (zh) 用于检索自然语言文档的系统
CN113392182A (zh) 融合上下文语义约束的知识匹配方法、装置、设备及介质
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
Yang et al. Ensemble sentiment analysis method based on R-CNN and C-RNN with fusion gate
CN115599899A (zh) 基于飞行器知识图谱的智能问答方法、系统、设备及介质
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN116010553A (zh) 一种基于双路编码和精确匹配信号的观点检索系统
CN110889505A (zh) 一种图文序列匹配的跨媒体综合推理方法和系统
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination