CN116680407A - 一种知识图谱的构建方法及装置 - Google Patents
一种知识图谱的构建方法及装置 Download PDFInfo
- Publication number
- CN116680407A CN116680407A CN202310562818.1A CN202310562818A CN116680407A CN 116680407 A CN116680407 A CN 116680407A CN 202310562818 A CN202310562818 A CN 202310562818A CN 116680407 A CN116680407 A CN 116680407A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- training
- graph
- model
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims description 22
- 238000000605 extraction Methods 0.000 claims abstract description 177
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 145
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 36
- 230000006870 function Effects 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 230000006403 short-term memory Effects 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011478 gradient descent method Methods 0.000 description 4
- 230000007787 long-term memory Effects 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种知识图谱的构建方法及装置,该方法包括:对原始文本进行格式转换和中文分词,得到待处理开放领域文本数据;然后构建第一知识图谱,所述第一知识图谱是指对所述待处理开放领域文本数据进行知识抽取后,由抽取得到的知识构建得到的知识图谱;最后构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识推理得到的知识图谱。通过该方法构建的知识图谱,其中的知识具有较高准确度,比传统知识图谱知识丰富度更高,且具有较快的新知识补全能力。
Description
技术领域
本发明属于自然语言处理和人工智能应用技术领域,具体涉及一种知识图谱的构建方法及装置。
背景技术
知识图谱作为语言智能的核心,已经成功地应用在智能问答机器人、智能搜索等多个领域,语言智能技术的快速发展也积极推动着知识图谱构建技术和知识推理技术的研究和发展。目前知识图谱及知识推理机构都是基于自然语言处理构建的,其中知识图谱的构建依赖知识抽取算法,知识推理的目标是解决知识图谱中知识链接不完整问题。
目前,知识抽取是从自然语言处理的结果中发现文本中的隐藏信息的过程。实体抽取和关系抽取是目前知识抽取的两个重要子任务。通过实体抽取和关系抽取任务,知识抽取的结果应以(实体1,关系类型,实体2)三元组的形式呈现。属性抽取是知识抽取的另一个子任务。其核心任务是从结构化和半结构化的文本中自动识别和提取描述特定属性的语言片段。目前将属性提取技术应用于开放领域的知识库构建相关研究较少,主流方法是将属性识别任务转化为序列标注任务,利用神经网络获取文本高维表示,再利用机器学习方法抽取属性词。
知识推理的目的是指根据给定的自然语言文本对,分析文本信息和文本之间的内在联系,推理得到文本对逻辑关系的一个过程,使得已有的知识图谱中生成了新的事实三元组,知识图谱变得更加完整。
由于知识抽取中关系类型不同,关于知识抽取的研究分为开放式知识抽取和基于预定义关系集的知识抽取。目前基于预定义关系集的知识抽取方法有:实体关系联合抽取方法和流水线方法。流水线方法将实体和关系的抽取工作分为两个阶段进行,在第一阶段找到文本中所有可能的实体对,第二阶段尝试对这些实体对的关系进行分类。
流水线方法会因为每个阶段的错误导致错误累积。而现有联合知识抽取模型在实体重叠的三元组抽取方面效果不佳。且现有链接预测模型训练速度慢、关系表达不够全面。
发明内容
本发明的目的在于提供一种知识图谱的构建方法及装置,以解决现有知识图谱构建方法中的错误累积问题、实体重叠三元组抽取效果不佳问题和现有链接预测模型训练速度慢、关系表达不够全面的问题。
第一方面,本发明提供了一种知识图谱的构建方法,该方法包括:
获取待处理开放领域文本数据;
构建第一知识图谱,所述第一知识图谱是指对所述待处理开放领域文本数据进行知识抽取后,由抽取得到的知识构建得到的知识图谱。
构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识推理得到的知识图谱。
进一步的,所述获取待处理开放领域文本数据的方法包括:
对原始文本进行格式转换,得到格式统一的文本;
对所述格式统一的文本,使用分词方法进行开放领域中文分词,得到待处理开放领域文本数据。
进一步的,所述构建第一知识图谱的方法包括:
采用预训练知识抽取模型训练得到知识抽取模型,对所述开放领域文本数据进行知识抽取,由抽取得到的知识构建得到第一知识图谱;
将预训练关系抽取模型、预训练第一实体抽取模型、预训练第二实体抽取模型和预训练属性抽取模型组合成为所述预训练知识抽取模型;
将关系抽取模型、第一实体抽取模型、第二实体抽取模型和属性抽取模型组合成为所述知识抽取模型;
将构建得到的第一类知识、构建得到的第二类知识和构建得到的第三类知识组合成所述构建得到的第一知识图谱。
进一步的,所述构建第一知识图谱的方法还包括:
利用所述关系抽取模型,对所述开放领域文本数据进行关系抽取后,由抽取得到文本关系信息;
在所述文本关系信息只存在一个文本关系类型的情况下,利用所述第一实体抽取模型对所述开放领域文本数据进行实体抽取,得到文本第一类实体信息,并采用所述文本关系信息和所述文本第一类实体信息构建所述第一类知识;
在所述文本关系信息中至少存在两种文本关系类型的情况下,利用所述第二实体抽取模型对所述开放领域文本数据进行实体抽取,得到所述文本第二类实体信息,并采用所述文本关系信息和所述文本第二类实体信息构建所述第二类知识;
利用所述属性抽取模型对所述开放领域文本数据进行属性抽取,得到文本属性信息,并采用所述文本第一类实体信息或所述文本第二类实体信息与所述文本属性信息构建所述第三类知识;
进一步的,所述构建第二知识图谱的方法包括:
利用预训练知识图谱嵌入模型训练得到知识图谱嵌入模型,对所述知识抽取模型生成的新知识,由知识嵌入得到新知识嵌入表示;
利用所述知识图谱嵌入模型生成所述第一知识图谱的嵌入表示;
利用评分函数衡量所述新知识嵌入表示和所述第一知识图谱的嵌入表示中所有知识嵌入表示之间的相似度,并将所述相似度最高的已有知识补全新知识得到被补全的知识;
将所述被补全的知识加入所述第一知识图谱中构建得到所述第二知识图谱。
进一步的,所述构建第一知识图谱和构建第二知识图谱的方法还包括:
获取训练数据,所述训练数据是指从公开的数据集SKE中收集得到的训练数据;
生成知识抽取模型,所述知识抽取模型是指基于所述训练数据训练所述预训练知识抽取模型,得到所述知识抽取模型。
生成知识推理模型,所述知识图谱嵌入模型是指基于所述训练数据训练所述预训练知识图谱嵌入模型,得到所述知识图谱嵌入模型。
第二方面,本发明提供了一种知识图谱的构建装置,该装置包括:
数据获取单元,配置为获取待处理开放领域文本数据;
知识抽取单元,配置为利用知识抽取模型对所述待处理开放领域文本数据进行知识抽取得到第一知识图谱;
知识推理单元,配置为利用知识推理模型对所述第一知识图谱进行补全得到第二知识图谱。
第二训练单元,配置为利用公开的数据集SKE中收集得到的训练数据训练预训练知识图谱嵌入模型,得到知识图谱嵌入模型。
第三方面,本发明提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,当所述计算机程序被执行时能够实现第一方面所述方法。
与现有技术相比,本发明的有益效果为:
(1)减少了知识抽取过程中的错误传播问题,提高了知识抽取整体准确率。
(2)充分利用属性抽取模型和开放领域文本数据,所构建第一知识图谱比只采用实体抽取模型和关系抽取模型的传统知识图谱知识丰富度更高。
(3)本发明使用不同于传统的知识图谱嵌入模型,该知识图谱嵌入模型能够更快、更全面的学习到所述第一知识图谱的特征,从而提高知识图谱补全速度。
附图说明
图1为本发明实施例提供的知识图谱的构建方法的流程示意图。
图2为本发明实施例提供的知识图谱的构建方法的详细的流程示意图。
图3为本发明实施例提供的预训练关系抽取模型示意图。
图4为本发明实施例提供的预训练第一实体抽取模型示意图。
图5为本发明实施例提供的预训练第二实体抽取模型示意图。
图6为本发明实施例提供的预训练属性抽取模型示意图。
图7为本发明实施例提供的预训练知识抽取模型的训练过程示意图。
图8为本发明实施例提供的预训练知识图谱嵌入模型的训练过程示意图。
图9为本发明实施例提供的预训练知识图谱嵌入模型对三元组中关系建模的示意图。
图10为本发明实施例提供的预训练知识图谱嵌入模型对三元组中的关系的逆建模的示意图。
图11为本发明实施例提供的知识图谱的构建装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
为了构建知识图谱,需要从大量异构的数据中抽取实体、对应关系和属性信息。知识图谱中的知识三元组包括关系三元组和属性三元组,关系三元组的结构表示为(实体,关系,实体),属性三元组的结构表示为(实体,属性,属性值)。其中,关系三元组表示了不同实体之间的关系,例如:(泰杜姆,导演,模仿游戏);属性三元组描述了实体所固有的性质以及该性质的具体数据或状态,例如:(图灵,相关电影,模仿游戏)。
为了构建一个完整、丰富的知识图谱,还需要对知识图谱中的知识进行推理,即根据知识图谱中现有知识三元组的实体与关系,推理出缺失实体或关系的知识三元组。
现有的流水线式知识抽取方法将知识三元组中的实体、关系和属性采用同步的方式从开放领域中文数据中抽取出来,缺点是各个抽取过程关联度较低,且当实体、关系和属性抽取任务中有任一项出现错误,那么抽取的知识三元组将出现错误。
目前知识图谱中的推理过程分为两个阶段,第一阶段通过有监督的机器学习方式,学习现有训练集中所有三元组的实体和关系的结构特征,形成实体和关系的嵌入向量表示模型,即知识图谱嵌入模型。第二阶段将缺失实体信息或关系信息的三元组输入训练好的推理模型,生成实体嵌入向量和关系嵌入向量。由于模型在训练时已将训练集中的全部实体向量和关系向量转化为候选集合,于是新输入的三元组生成的实体向量和关系向量与候选集合中的候选实体对逐一匹配计算,得分最高的实体对知识图谱中的三元组进行补全。其中,现有第一阶段方法存在模型训练速度慢的问题。
基于此,下面说明以流水线式知识抽取方法和采用机器学习的知识推理方法构建知识图谱的过程。
参见图1和图2,图1为本发明实施例提供的知识图谱的构建方法的流程示意图,图2本发明实施例提供的知识图谱的构建方法的详细的流程示意图。
需要说明的是,本发明的技术方案可以应用于构建开放领域智能问答机器人的知识图谱,通过预训练模型和深度神经网络相结合的方法,能够从的开放领域文本数据中自动地抽取领域广泛的知识,并形成结构化的用于构建第一知识图谱的知识。
步骤S1:获取待处理开放领域文本数据。
需要说明的是,为了构建开放领域知识图谱,需要获取待处理开放领域文本数据。应理解,待处理开放领域文本数据在计算机系统中是以一定的编码形式存储的,而待处理开放领域文本数据可能来源于不同平台、不同国家,由于不同国家、地区和网络平台采用的字符编码形式不一致、很可能出现不合法字符和多余空格,导致无法正常读取和处理所有字符的情况。
同时需要说明的是,为了便于后续计算,需要将待处理开放领域文本处理成向量形式,而生成向量前,需要将待处理开放领域文本按照一个字符后跟一个空格的形式进行分词并组成字符串,以便于预训练模型将字符串转换成词向量,其中字符串中的每个字符对应词向量中的一个数字。
因此,在本发明的技术方案中,所述获取待处理开放领域文本数据,包含:
步骤S11:对原始文本进行格式转换,得到格式统一的文本;
步骤S12:对所述格式统一的文本,使用分词方法进行开放领域中文分词,得到待处理开放领域文本数据。
需要说明的是,使用分词方法进行开放领域中文分词,并非任意一种分词方法都能够实现一个字符后跟一个空格的分词形式,本发明的技术方案采用WordPiece分词方法。
步骤S2:构建第一知识图谱,所述第一知识图谱是指对所述待处理开放领域文本数据进行知识抽取后,由抽取得到的知识构建得到的知识图谱,具体包含以下步骤。
步骤S21:采用预训练知识抽取模型训练得到知识抽取模型,具体包含以下步骤;
步骤S211:将图3预训练关系抽取模型、图4预训练第一实体抽取模型、图5预训练第二实体抽取模型和图6预训练属性抽取模型组合成为所述预训练知识抽取模型;
需要说明的是,图3预训练关系抽取模型由BERT(Bidirectional EncoderRepresentation from Transformers)预训练模型、未经训练的双向长短期记忆网络(Bidirectional Long Short Term Memory,BiLSTM)、未经训练的注意力机制(AttentionMechanism)和Softmax归一化函数组成;图4预训练第一实体抽取模型由BERT预训练模型、未经训练的双向长短期记忆网络和条件随机场(CRF)组成;图5预训练第二实体抽取模型由BERT预训练模型、未经训练的双向长短期记忆网络、基于关系的注意力机制、关系门控单元和实体解码器组成;图6预训练属性抽取模型由BERT预训练模型、未经训练的残差网络、未经训练的双向长短期记忆网络和条件随机场组成。
步骤S212:将关系抽取模型、第一实体抽取模型、第二实体抽取模型和属性抽取模型组合成为所述知识抽取模型;
需要说明的是,关系抽取模型由BERT(Bidirectional Encoder Representationfrom Transformers)微调模型、已训练的双向长短期记忆网络(Bidirectional LongShort Term Memory,BiLSTM)、已训练的注意力机制(Attention Mechanism)和Softmax归一化函数组成;第一实体抽取模型由BERT微调模型、已训练的双向长短期记忆网络和条件随机场(CRF)组成;第二实体抽取模型由BERT微调模型、已训练的双向长短期记忆网络、基于关系的注意力机制、关系门控单元和实体解码器组成;属性抽取模型由BERT微调模型、已训练的残差网络、已训练的双向长短期记忆网络和条件随机场组成。
步骤S22:对所述开放领域文本数据进行知识抽取,具体包含以下步骤;
需要说明的是,对所述开放领域文本数据进行知识抽取,由于所述知识抽取模型一次性能够接受输入文本中字的个数有上限,所以在知识抽取过程中每次只输入一条数据。
步骤S221:利用所述关系抽取模型,对所述开放领域文本数据中的一条数据进行关系抽取后,由抽取得到所述一条数据的关系信息;在所述一条数据的关系信息中只存在一个关系类型的情况下,执行步骤S222;在所述一条数据的关系信息中至少存在两种关系类型的情况下,执行步骤S223;
步骤S222:利用所述第一实体抽取模型对所述开放领域文本数据中的一条数据进行实体抽取,得到第一类实体信息,并采用所述一条数据的关系信息和所述第一类实体信息构建所述第一类知识,然后执行步骤S224;
步骤S223:利用所述第二实体抽取模型对所述开放领域文本数据中的一条数据进行实体抽取,得到所述第二类实体信息,并采用所述关系信息和所述文本第二类实体信息构建所述第二类知识;
步骤S224:利用所述属性抽取模型对所述开放领域文本数据中的一条数据进行属性抽取,得到文本属性信息,并采用所述文本第一类实体信息或所述文本第二类实体信息与所述文本属性信息构建所述第三类知识;
步骤S225:当所述知识抽取模型将所述开放领域文本数据全部进行知识抽取后将构建得到的第一类知识、构建得到的第二类知识和构建得到的第三类知识进行组合,构建所述第一知识图谱,第一知识图谱中的一条数据如表1所示。
表1第一知识图谱中的一条数据
步骤S3:构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识推理得到的知识图谱,具体包含以下步骤。
步骤S31:采用所述预训练知识图谱嵌入模型训练得到知识图谱嵌入模型,对所述知识抽取模型生成的新知识输入所述知识图谱嵌入模型,得到新知识嵌入表示;
步骤S32:利用所述知识图谱嵌入模型生成所述第一知识图谱的嵌入表示;
步骤S33:利用评分函数衡量所述新知识嵌入表示和所述第一知识图谱的嵌入表示中所有知识嵌入表示之间的相似度,并将所述相似度最高的已有知识对新知识进行补全,得到被补全的知识;
步骤S34:将所述被补全的知识加入所述第一知识图谱中构建得到所述第二知识图谱。
需要说明的是,步骤S2中构建所述第一知识图谱使用的所述知识抽取模型,需要基于预训练知识抽取模型训练得到知识抽取模型;步骤S3中构建所述第二知识图谱使用的所述知识图谱嵌入模型,需要基于预训练知识图谱嵌入模型训练得到知识图谱嵌入模型。预训练知识抽取模型的训练过程参见图7,预训练知识图谱嵌入模型的训练过程参见图8,具体包含以下步骤:
步骤S4:获取训练数据,并将所述训练数据用于训练以生成预训练知识抽取模型和预训练知识图谱嵌入模型,以生成知识抽取模型和知识图谱嵌入模型,具体包含以下步骤;
步骤S41:获取训练数据,所述训练数据是指从公开的数据集SKE中收集得到的训练数据;
SKE指基于模式的中文信息抽取数据集(Schema based Knowledge Extraction,其中的句子来自百度百科和百度信息流文本。SKE数据集包含24种实体类别、40种预定义关系类型、10种预定义属性类型、17万条训练数据、2万条验证数据及43万个三元组数据。
步骤S42:生成知识抽取模型,所述知识抽取模型是指基于所述训练数据训练所述预训练知识抽取模型,得到所述知识抽取模型;
需要说明的是,组成所述预训练知识抽取模型包含预训练关系抽取模型、预训练第一实体抽取模型、预训练第二实体抽取模型和预训练属性抽取模型。
其中,预训练关系抽取模型使用BERT预训练模型获取输入的训练数据中上下文的语义信息,并以向量的形式表示出来,BiLSTM用于对BERT生成的向量进行编码,以获取用户多次输入文本间的语义关系,注意力机制用于合并BiLSTM中每一个时间步长上的信息,得出对抽取结果影响较大的信息,最后使用Softmax归一化函数计算该信息中的每个词对不同标签类型的预测值,并取最大值对应的标签类型作为每个词的标签类型。根据预测的标签类型和标注的类型进行比较,根据比较的结果采用梯度下降法(Gradient Descent)对网络参数进行调整,网络参数调整完毕即模型训练完成。
预训练第一实体抽取模型使用BERT获取输入的训练数据中上下文的语义信息,并以向量的形式表示出来,使用BiLSTM对BERT生成的向量进行编码,以获取用户多次输入文本间的语义关系,最后使用CRF为每个词的标签预测结果增加标签间约束来保证输出标签的合理性。对预测的标签类型和标注的类型进行比较,根据比较的结果采用梯度下降法对网络参数进行调整,网络参数调整完毕即模型训练完成。
预训练第二实体抽取模型具体由以下步骤组成;
步骤S421:首先BERT对句子中的每个词进行向量表示,以获得句子的上下文特征;
对于输入文本序列S={w1,w2,...,wn},wi是句子中第i个单词,BERT将S转化为带有字词嵌入、句子嵌入和位置嵌入的特征向量X={x1,x2,...,xn},其中n为转化的向量个数,为第i个单词的向量表示,/>为基于词语的单词特征嵌入,是单词所在句子的嵌入,/>是单词在句子中的位置嵌入,dw表示单词特征嵌入的维度,/>是维度为dw的实数域,ds表示句子特征嵌入的维度,/>是维度为ds的实数域,dp表示单词在句子中的位置嵌入维度,/>是维度为dp的实数域。
步骤S422:然后使用Bi-LSTM网络来捕捉单词特征序列X的单词相关性,以获得句子上下文特征的编码表示;
将第i个单词的向量表示xi的前向和后向LSTM隐藏状态连接起来,作为上下文单词表示,如式(1)所示。
其中,dhe表示Bi-LSTM隐藏状态的维数,/>表示第i个单词向量xi的前向LSTM隐藏状态,/>表示第i个单词向量xi的后向LSTM隐藏状态,其中,前向LSTM隐藏状态和后向LSTM隐藏状态,由第i个单词向量xi的不同LSTM产生。然后使用Sc={h1,h2,...,hn}来表示编码后的句子上下文特征。
步骤S422:获取所述关系抽取模型从输入文本序列S抽取的关系,使用上下文注意力机制为每个关系的上下文单词分配不同的权重;
从编码后的句子上下文特征中提取平均向量sg,如式(2)所示:
sg=avg{h1,h2,...,hn} (2)
然后使用上下文注意力机制计算每个关系的上下文单词的权重如式(3)和(4)所示:
eik=vTtanh(Wrrk+Wgsg+Whhi) (3)
其中,是第k个关系的向量表示,/>Wg,/> 是模型参数,dr表示关系的向量表示的维度,/>是维度为dr的实数域,datt表示上下文注意力机制的维度,/>是维度为datt的实数域,eik是关系向量rk下第i个单词的注意力分数。最后,句子表示sk可以通过输入文本序列S的第i个单词的上下文单词表示hi与对应的注意力权重αik相乘然后求和得到,计算方法如式(5)所示。
步骤S423:使用关系门控机制,保留句子表示sk中对实体标注有帮助的信息,舍弃干扰信息;
基于关系的注意力机制通过关注输入句子中与特定关系相关的单词获取了具有关系信息的句子表征,但是只有当关系和句子是正面相关时,才有必要进行后续的实体提取工作,而关系和句子的描述是否定或疑问等反面相关时,此时引入关系信息的句子表征只会干扰后续的解码过程。
对于第k个关系,门控单元比较已有的句子表示sg和基于关系的表示sk对实体提取的作用并保留作用最大的关系特征uk,如式(6)和(7)所示:
uk=9k⊙tan(W3sk+b3) (7)
其中,W1,W2,b1,b2,/>为训练参数,dg表示所述门控单元的维度,/>是维度为dg的实数域,/>是向量拼接运算,⊙是向量点乘积运算。σ表示Sigmoid激活函数,它返回0到1之间的值。最后将输入文本序列S的第i个单词的上下文单词表示hi和保留的关系特征uk拼接起来,以获得第i个单词的最终表示,如式(8):
其中因此,输入文本S的表示为/>
步骤S423:使用实体解码器对输入文本S的表示Sk进行序列标记,以抽取输入文本S中的实体。
使用BiLSTM网络接收输入文本S的表示Sk得到输入文本S的上下文编码其中,/>j∈[1,n]。然后使用Sofimax归一化函数将序列中每个单词/>映射到标签空间中,如公式(9)所示,
其中,是训练参数,j∈[1,n],dhd是BiLSTM网络中隐藏状态的维数,nl是标签的总数,/>即为第j个单词在关系rk下的实体预测标签。对预测的标签类型和标注的类型进行比较,根据比较的结果采用梯度下降法对网络参数进行调整,网络参数调整完毕即模型训练完成。
预训练属性抽取模型由BERT、残差网络(Residual Network)、BiLSTM和CRF组成,模型使用残差网络从BERT字符嵌入中获取句子的局部特征,BiLSTM用于获取句子的上下文信息,使用CRF预测句子中每个字符的标签;预训练属性抽取模型具体由以下步骤组成;
步骤S424:首先BERT对句子中的每个词进行向量表示,以获得句子的上下文特征;
步骤S425:然后使用残差网络从句子的上下文特征中获取句子的局部特征;
深度残差网络通常采用基于跳接(Shortcut Connection)的恒等映射(IdentityMapping)来训练非常深的神经网络。在预训练属性抽取模型中使用9层残差网络(ResNet9)从字符嵌入中提取句子局部特征,该网络中包含卷积层和残差块两个部分,不包含最大池化层(Maxpool Layer)和全连接层(Fully Connected Layer)。
对于卷积层,当BERT输出句子的上下文特征[X1,X2,...Xn](n为输入的字符个数)后,经式(10)计算:
ci=f(w·Xi+b) (10)
其中,w∈Rh×d(d等于第i个特征向量Xi的长度)是卷积运算中的滤波器矩阵,激活函数f采用ReLU函数,b∈R是偏差项,得到特征c=[c1,c2,...,cn],其中,c∈Rs(s=n)。
对于残差块,已知9层残差网络中两个残差块的卷积滤波器矩阵w1,w2∈Rh×1则第一个残差块中卷积层输出特征由式(11)计算可得,第二个残差块中卷积层输出特征由式(4.18)计算可得:
C1i=f(w1·Xi+b1) (11)
C2i=f(w2·C1i+b2) (12)
其中,b1和b2是偏差项,则残差网络生成的文本局部特征可由式(13)给出。
C=C+C2 (13)
步骤S426:获得文本局部特征后,将特征输入BiLSTM以提取句子的上下文特征信息;然后根据句子的上下文特征信息,使用CRF预测上下文特征中每个单词的标签;最后将预测的标签类型和标注的类型进行比较,根据比较的结果采用梯度下降法对网络参数进行调整,网络参数调整完毕即模型训练完成。
需要说明的是,对于步骤S42生成的知识抽取模型,其使用方法和训练方法不同之处在于,知识抽取模型使用时由于输入句子中没有给定标签,所以输出的预测标签不用于模型参数的调整,而是作为最终的预测结果。
步骤S43:生成知识推理模型,所述知识图谱嵌入模型是指基于所述训练数据训练所述预训练知识图谱嵌入模型,得到所述知识图谱嵌入模型,具体由以下步骤组成;
步骤S431:所述预训练知识图谱嵌入模型通过所述评分函数计算所述第一知识图谱中所有关系三元组的分数。
对于所述第一知识图谱中的关系三元组(h,r,t),其中,h为头实体、t为尾实体、r为关系,预训练知识图谱嵌入模型将头实体h和尾实体t通过欧拉恒等式映射到复向量空间,使得h,(d为向量空间维数),将关系r建模为复数平面上头实体复向量h到尾实体复向量t的旋转,建立如图9所示的关系;将逆关系r-1建模为复数平面上尾实体复向量t到头实体复向量h的旋转,建立如图10所示的逆关系。即对于知识库中任一关系三元组有式(14)和(15)成立;
其中,代表逐元素相乘或哈达玛乘积(Hadamard Product),且根据欧拉恒等式性质有|ri|=1。那么对关系三元组/>的评分由评分函数式(16)给出。
其中||·||应用L1范数计算规则。
最后将所述第一知识图谱中所有关系三元组输入所述预训练知识图谱嵌入模型计算得到所有关系三元组的分数。
步骤S432:将所述第一知识图谱中所有关系三元组作为正样本,同时构造负样本;
负样本构造方法为,首先对每个正例三元组的头实体、尾实体和关系进行掩盖以生成负样本,正负样本比例为1∶3;然后采用式(17)、(18)和(19)所示的负采样分布,同时使用公式(16)计算负样本的评分函数。
其中,L(·)为负样本的评分函数,σ(·)代表Sigmoid函数,dr(·)是得分函数,p(·)为负样本的抽样概率分布,为间隔超参数,(h′i,r,t′i)和(h′j,r,t′j)分别表示第i个负样本三元组和第j个负样本三元组,γ为间隔超参数,α用于调整负采样策略,μ为动态影响因数,k为模型算法迭代次数。
该当α>0时,构造的负样本关系三元组的得分越低,则该负样本越接近正样本关系三元组,这样的负样本对模型训练的贡献度越大,因此它的就权重越高,下次采样这样的负样本的概率会更高。
当所有正样本和负样本都用于调整所述预训练知识图谱嵌入模型的参数后,预训练知识图谱嵌入模型完成了训练。
以上,结合图1至图10详细说明了本发明实施例中一种知识图谱的构建方法。以下结合图11详细说明本发明实施例中一种知识图谱的构建装置。需要说明的是,本发明实施例中一种知识图谱的构建方法与本发明实施例中一种知识图谱的构建装置的描述相互对应,因此,未详细描述的内容参见上文实施例中的方法,为了简洁,这里不再赘述。
参见图11,图11为本发明中知识图谱的构建装置的一种实施方式的结构框图。如图11,该装置700可以包括:数据获取单元701、知识抽取单元702、知识推理单元703、第一训练单元704、第二训练单元705。该装置700可以执行开放领域文本数据获取的操作,可以执行上述图3至图6所示方法实施例中知识抽取的操作,还可以执行上述图7至图8所示方法实施例中模型训练的操作。
例如,所述数据获取单元701,可以用于获取待处理开放领域文本数据。
所述知识抽取单元702,可以用于对所述待处理开放领域文本数据进行知识抽取得到第一知识图谱。
所述知识推理单元703,可以用于对所述第一知识图谱进行补全得到第二知识图谱。
所述第一训练单元704,可以用于公开的数据集SKE中收集得到的训练数据对预训练知识抽取模型进行训练,得到知识抽取模型。
所述第二训练单元705,可以用于公开的数据集SKE中收集得到的训练数据对预训练知识图谱嵌入模型进行训练,得到知识图谱嵌入模型。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种知识图谱的构建方法,其特征在于,所述方法包括:
获取待处理开放领域文本数据;
构建第一知识图谱,所述第一知识图谱是指对所述待处理开放领域文本数据进行知识抽取后,由抽取得到的知识构建得到的知识图谱;
构建第二知识图谱,所述第二知识图谱是指对所述第一知识图谱包含的知识进行知识推理得到的知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述获取待处理开放领域文本数据的方法包括:
对原始文本进行格式转换,得到格式统一的文本;
对所述格式统一的文本,使用分词方法进行开放领域中文分词,得到待处理开放领域文本数据。
3.根据权利要求1所述的知识图谱构建方法,其特征在于,所述构建第一知识图谱的方法包括:
采用预训练知识抽取模型训练得到知识抽取模型,对所述开放领域文本数据进行知识抽取,由抽取得到的知识构建得到第一知识图谱;
将预训练关系抽取模型、预训练第一实体抽取模型、预训练第二实体抽取模型和预训练属性抽取模型组合成为所述预训练知识抽取模型;
将关系抽取模型、第一实体抽取模型、第二实体抽取模型和属性抽取模型组合成为所述知识抽取模型;
将构建得到的第一类知识、构建得到的第二类知识和构建得到的第三类知识组合成所述构建得到的第一知识图谱。
4.根据权利要求3所述方法,其特征在于,所述方法还包括:
利用所述关系抽取模型,对所述开放领域文本数据进行关系抽取后,由抽取得到文本关系信息;
在所述文本关系信息只存在一个文本关系类型的情况下,利用所述第一实体抽取模型对所述开放领域文本数据进行实体抽取,得到文本第一类实体信息,并采用所述文本关系信息和所述文本第一类实体信息构建所述第一类知识;
在所述文本关系信息中至少存在两种文本关系类型的情况下,利用所述第二实体抽取模型对所述开放领域文本数据进行实体抽取,得到所述文本第二类实体信息,并采用所述文本关系信息和所述文本第二类实体信息构建所述第二类知识;
利用所述属性抽取模型对所述开放领域文本数据进行属性抽取,得到文本属性信息,并采用所述文本第一类实体信息或所述文本第二类实体信息与所述文本属性信息构建所述第三类知识。
5.根据权利要求1所述的方法,其特征在于,所述构建第二知识图谱的方法包括:
采用预训练知识图谱嵌入模型训练得到知识图谱嵌入模型,对所述知识抽取模型生成的新知识,由知识嵌入得到新知识嵌入表示;
利用所述知识图谱嵌入模型生成所述第一知识图谱的嵌入表示;
利用评分函数衡量所述新知识嵌入表示和所述第一知识图谱的嵌入表示中所有知识嵌入表示之间的相似度,并将所述相似度最高的已有知识补全新知识得到被补全的知识;
将所述被补全的知识加入所述第一知识图谱中构建得到所述第二知识图谱。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取训练数据,所述训练数据是指从公开的数据集中收集得到的训练数据;
生成知识抽取模型,所述知识抽取模型是指基于所述训练数据训练所述预训练知识抽取模型,得到所述知识抽取模型;
生成知识推理模型,所述知识图谱嵌入模型是指基于所述训练数据训练所述预训练知识图谱嵌入模型,得到所述知识图谱嵌入模型。
7.一种知识图谱的构建装置,其特征在于,所述装置包括:
知识获取单元,用于获取待处理开放领域文本数据;
知识抽取单元,利用知识抽取模型对所述待处理开放领域文本数据进行知识抽取得到第一知识图谱;
知识推理单元,利用知识推理模型对所述知识集合进行补全得到第二知识图谱;
第一训练单元,利用公开的数据集中收集得到的训练数据训练预训练知识抽取模型,得到知识抽取模型;
第二训练单元,利用公开的数据集中收集得到的训练数据训练预训练知识图谱嵌入模型,得到知识图谱嵌入模型。
8.根据权利要求7所述的知识图谱的构建装置,其特征在于,利用知识抽取模型对所述待处理开放领域文本数据进行知识抽取得到第一知识图谱,具体如下:
采用预训练知识抽取模型训练得到知识抽取模型,对所述开放领域文本数据进行知识抽取,由抽取得到的知识构建得到第一知识图谱;
将预训练关系抽取模型、预训练第一实体抽取模型、预训练第二实体抽取模型和预训练属性抽取模型组合成为所述预训练知识抽取模型;
将关系抽取模型、第一实体抽取模型、第二实体抽取模型和属性抽取模型组合成为所述知识抽取模型;
将构建得到的第一类知识、构建得到的第二类知识和构建得到的第三类知识组合成所述构建得到的第一知识图谱。
9.根据权利要求8所述的知识图谱的构建装置,其特征在于,利用知识推理模型对所述知识集合进行补全得到第二知识图谱,具体为:
采用预训练知识图谱嵌入模型训练得到知识图谱嵌入模型,对所述知识抽取模型生成的新知识,由知识嵌入得到新知识嵌入表示;
利用所述知识图谱嵌入模型生成所述第一知识图谱的嵌入表示;
利用评分函数衡量所述新知识嵌入表示和所述第一知识图谱的嵌入表示中所有知识嵌入表示之间的相似度,并将所述相似度最高的已有知识补全新知识得到被补全的知识;
将所述被补全的知识加入所述第一知识图谱中构建得到所述第二知识图谱。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310562818.1A CN116680407A (zh) | 2023-05-18 | 2023-05-18 | 一种知识图谱的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310562818.1A CN116680407A (zh) | 2023-05-18 | 2023-05-18 | 一种知识图谱的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116680407A true CN116680407A (zh) | 2023-09-01 |
Family
ID=87777865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310562818.1A Pending CN116680407A (zh) | 2023-05-18 | 2023-05-18 | 一种知识图谱的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116680407A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725995A (zh) * | 2024-02-18 | 2024-03-19 | 青岛海尔科技有限公司 | 一种基于大模型的知识图谱构建方法、装置及介质 |
-
2023
- 2023-05-18 CN CN202310562818.1A patent/CN116680407A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725995A (zh) * | 2024-02-18 | 2024-03-19 | 青岛海尔科技有限公司 | 一种基于大模型的知识图谱构建方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN112347268A (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN116595189A (zh) | 基于两阶段的零样本关系三元组抽取方法及系统 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN115456176A (zh) | 一种基于知识增强的文本匹配方法及系统 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN114239555A (zh) | 一种关键词提取模型的训练方法及相关装置 | |
Wang et al. | End-to-end relation extraction using graph convolutional network with a novel entity attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |