CN112084347A - 一种基于知识表示学习的数据检索方法及系统 - Google Patents

一种基于知识表示学习的数据检索方法及系统 Download PDF

Info

Publication number
CN112084347A
CN112084347A CN202010965798.9A CN202010965798A CN112084347A CN 112084347 A CN112084347 A CN 112084347A CN 202010965798 A CN202010965798 A CN 202010965798A CN 112084347 A CN112084347 A CN 112084347A
Authority
CN
China
Prior art keywords
entity
information
vector
triple
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010965798.9A
Other languages
English (en)
Other versions
CN112084347B (zh
Inventor
马连博
孙鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010965798.9A priority Critical patent/CN112084347B/zh
Publication of CN112084347A publication Critical patent/CN112084347A/zh
Application granted granted Critical
Publication of CN112084347B publication Critical patent/CN112084347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于知识表示学习的数据检索方法及系统,其方法包括:整理检索信息库;将结构化文件文档中的内容整理成为知识图谱的知识库的形式;生成所有的实体和关系最终向量表示,并更新知识库文件中实体向量文档、关系向量文档和参数列表文档;处理待检索内容,在知识库文件中检索,得到整理后的知识库中的信息及预测信息;其系统包括:统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块;所述知识图谱的表示学习模块包括:实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元;实现对于原有信息库的扩展,解决现有技术在已有信息检索过程中无法针对数据库中已有的数据进行推理和预测的问题。

Description

一种基于知识表示学习的数据检索方法及系统
技术领域
本发明属于信息检索技术领域,具体涉及一种基于知识表示学习的数据检索方法及系统。
背景技术
信息检索(Information Retrieval,IR)是一种用户从大规模数据中获得所需的相关信息的过 程。随着数字化时代的发展,通过将文本处理成的数据库中会包含很多的信息,对于有用信 息的提取,已及如何能够更好地利用现有的信息进行推理和预测已经成为重要的问题。传统 的一些信息检索方法中的布尔逻辑检索,位置限制检索,词语检索,截词检索等方法是无法 通过数据库中已知的信息为用户提供更多的经过推理和预测后的信息。
知识图谱(Knowledge Graph)是通过一种结构化的形式来陈述客观世界中概念、实体(entity) 及其之间的关系(relation),将互联网的信息表达成更接近人类认知世界的形式,提供了一种 更好地组织、管理和理解信息的方法。而知识表示学习是知识图谱技术中的一个关键的技术。 知识表示学习将现实世界中的各类知识表达成计算机可存储和计算的结构。知识表示学习将 实体和关系表示为稠密的低维向量实现了对实体和关系的分布式表示已经成为知识图谱针对 已有的互联网络中的信息进行预测的重要方法。随着知识表示学习技术的发展,Bordes等人 提出了第一个知识表示学习的翻译模型TransE,该方法在大规模知识图谱上效果明显。但是 由于TransE模型过于简单,导致其在处理复杂关系时捉襟见肘,虽然之后也出现了TransR, TransD,TransParse,CompleX等翻译模型和张量分解模型等在一定程度上提高复杂关系的知 识库的方法,但目前这些已有的知识表示学习方法都无法判断知识库中不存在的实体和判断 关系所在的三元组的正确性。
由于信息检索时所要检索的信息包含很多种类,会出现相同意思的不同检索词在现有的 检索方法中不能将检索后的内容进行合并或者无法检索相关相似信息等问题。而目前已有的 信息检索的方法无法通过对已有的检索库中的信息进行推理和预测,这就会出现检索者通过 一些现有的检索方法进行检索,所得到的检索内容较少的问题。
发明内容
针对现有技术的不足,本发明公开了一种基于知识表示学习的数据检索方法及系统,通 过对原有的所要检索的信息进行整理和学习,为检索者提供原有信息的检索内容以及推理出 的信息的内容。通过本发明所述方法,可以更好地通过对数据库中已知的信息进行整理和挖 掘从而为检索者提供更多的经过推理和预测后的信息。
为达到上述目的,本发明所采用的技术方案如下:
本发明所述一种基于知识表示学习的数据检索方法,包括以下步骤:
步骤1:整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件 文档中;
所述结构化文件的整理过程如下:
判断检索信息库中内容的形式,若为数据库形式,则保留该数据库形式的内容;当检索 信息库中内容为文本形式时,则将文本形式的内容编辑成“实体,关系,实体”形式的内容。
所述将文本形式的内容编辑成“实体,关系,实体”形式的内容的方法为:
采用命名实体识别模型对所需的指定名词结构进行标注,得到对应的实体;再通过关系 抽取模型对名词间的关系进行抽取。
步骤2:将结构化文件文档中的内容整理并保存到知识库文件中的三元组列表中,其过 程如下:
若结构化文件文档中的内容是由文本形式整理出的文档,则直接将“实体,关系,实体” 形式的内容保存在知识库文件中的三元组列表中;
若结构化文件文档中的内容为数据库形式,则将数据库中包含的数据库表中的每一条数 据的内容对照标记成“实体,关系,实体”形式的内容,并保存到知识库文件中的三元组列 表中。
所述数据库表中的数据内容包括:实体、属性和属性值。
步骤3:使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量, 通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向 量、初步关系向量,将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参 数列表一起,分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中,过 程如下:
步骤3.1:将知识库文件的三元组列表中的第一个实体定义为h,第二个实体定义为t, 将两个实体间的关系定义为r,定义E为知识库文件中全部实体的集合,R为知识库文件中全 部关系的集合,并将E和R以列表的形式保存到知识库文件中;
步骤3.2:将实体列表E中的第i个实体记为ei,ei∈E;关系列表R中的第i个关系记为 ri,ri∈R;
步骤3.3:将E和R中的实体和关系分别标记数字并按包含的单词量进行拆分,即实体 ei∈E拆分成[ei1,ei2,...ein],关系ri∈R拆分成[ri1,ri2,...,rin];其中ein表示实体包含的单词,rin表 示关系包含的单词,n表示被拆分的实体或关系所拆分出的单词的数量;
步骤3.4:通过深度学习的神经网络工具随机生成和实体包含的单词ein对应数量的待训 练的参数向量wein,关系包含的单词rin对应数量的待训练的参数向量wrin,并将全部参数向 量制作成为参数列表W;
步骤3.5:将ein和rin对应的词向量
Figure BDA0002682256140000031
Figure BDA0002682256140000032
以及参数列表W通过哈德玛积的方式进行 组合,得到全部的初步实体向量
Figure BDA0002682256140000033
和初步关系向量
Figure BDA0002682256140000034
具体公式如下:
Figure BDA0002682256140000035
其中,n表示的是实体包含的单词个数,bei和bri分别表示的是每个实体和关系对应的偏 差,是和
Figure BDA0002682256140000036
的维度和
Figure BDA0002682256140000037
维度相同的向量,
Figure BDA0002682256140000038
表示的是哈德玛积;
步骤3.6:将得到的全部的初步实体向量、初步关系向量和参数列表分别以实体向量文档, 关系向量文档和参数列表文档保存到知识库文件中。
步骤4:通过深度学习的方法对所有的初步实体向量
Figure BDA0002682256140000039
和初步关系向量
Figure BDA00026822561400000310
进行处理,生成 一一对应的最终的实体向量表示
Figure BDA00026822561400000311
和关系向量表示
Figure BDA00026822561400000312
并更新知识库文件中实体向量文档、关 系向量文档和参数列表文档;
所述对所有的初步实体向量
Figure BDA00026822561400000313
和初步关系向量
Figure BDA00026822561400000314
进行处理,处理过程分为两类:
第一类,将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量
Figure BDA00026822561400000315
和 初步关系向量
Figure BDA00026822561400000316
作为训练集,即对初步实体向量
Figure BDA00026822561400000317
中的参数向量Wei和初步关系向量
Figure BDA00026822561400000318
中的参 数向量Wri进行训练,采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程 中得到最小值;在神经网络的训练后生成新的实体向量
Figure BDA00026822561400000319
和新的关系向量
Figure BDA00026822561400000320
其中,损失函数L如下所示:
Figure BDA00026822561400000321
其中,γ为超参数,Δ是正样本集合,表示知识库文件中的三元组列表中的三元组(h,r,t) 对应的向量形式三元组
Figure BDA00026822561400000322
的集合,其中
Figure BDA00026822561400000323
Figure BDA00026822561400000324
是三元组中h和t在实体向量文档中对 应的向量,
Figure BDA00026822561400000325
是三元组中r在关系向量文档中对应的向量;Δ′是负样本集合,表示将知识库 中的三元组列表中的三元组(h,r,t)随机用h’,h’∈E和t’,t’∈E替换h和t,将替换得到的 不正确的三元组(h’,r,t’)对应的向量形式
Figure BDA0002682256140000041
的集合,
Figure BDA0002682256140000042
l1/2表示计算式子的 第一范数和第二范数;fr(ξ)表示的是三元组的得分函数,其中的
Figure BDA0002682256140000043
Figure BDA0002682256140000044
表示三元组对应的 向量表示;
通过第一类方法,正确的三元组对应的|fr(ξ)|值要比错误的三元组对应的|fr(ξ')|值小, 这时取正确的三元组和不正确的三元组的分界值δr,使得|fr(ξ)|<δr<|fr(ξ')|;
第二类,是利用了深度学习方法中的LSTM对知识库文件的三元组列表中的三元组进行 编码,对于知识库文件中的每一个三元组对应的向量形式
Figure BDA0002682256140000045
和知识库文件中的每一 个三元组对应的向量构建的负样本
Figure BDA0002682256140000046
通过LSTM进行嵌入;每个三元组通过LSTM 得到每个三元组对应
Figure BDA0002682256140000047
Figure BDA0002682256140000048
使得正确的三元组经过LSTM后输出的低维向量的第一范数和第 二范数的数值比错误的三元组的值小,此时取正确的三元组和不正确的三元组的分界值δr, 使得|LSTM(ξ)|<δr<|LSTM(ξ')|;
根据实际需要选择上述两类处理过程中的一类或两类进行处理,若使用第二类方法还需 保存LSTM的参数到知识库文件中。
步骤5:定义待检索内容为A,在步骤4更新后的知识库文件中检索,得到整理后的知 识库中的信息及预测信息,过程如下:
将A在知识库文件的实体向量文档中的实体列表E里检索,步骤5.1和步骤5.2不分先 后顺序;
5.1:若A是实体列表E中已经存在的内容,则在知识库文件中查询与A对应的实体,得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预 测信息;5.1.1和5.1.2不分先后顺序
所述知识图谱的知识库的预测信息包括:
5.1.1:对已有检索信息库内部信息的链式预测:对于一个头部实体在hlink和一个关系rlink寻找未知的尾部实体tu,或对于一个尾部实体tlink和一个关系rlink寻找未知的头部的实体,通 过对未知内容使用实体列表中的实体进行替换得到(hlink,rlink,tu)或(tu,rlink,tlink),再查找实体向量 文档和关系向量文档得到三元组(hlink,rlink,tu)或(tu,rlink,tlink)对应的向量形式的三元组
Figure BDA0002682256140000049
Figure BDA00026822561400000410
再通过计算|frlink)|或|LSTM(ξlink)|的数值,将计算 后数值按从小到大进行排序,取其中的最小值对应的实体作为未知实体的预测和推理的备选 答案返回给检索者;
5.1.2:实体关系信息的新组合进行的正确性预测:这种预测是针对一个知识图谱的知识 库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断,即对于一个 信息检索库中的新信息f(hf,rf,tf),这里的实体hf,tf和关系rf都在知识库文件中E和R中出现 的实体和关系,但知识库文件三元组列表中没有出现这个三元组,用知识库文件中的实体向 量文档和关系向量文档中已经保存的hf,rf,tf对应的向量形式构成
Figure BDA0002682256140000051
进行推断,当得 到
Figure BDA0002682256140000052
Figure BDA0002682256140000053
时,则认为该三元组为真,得到的预测信息为:判断为真的信 息,并得到三元组的表格形式的检索内容;
步骤5.2:若待检索内容A不是实体列表E中已经存在的实体,则需要通过知识库文件 中的内容对A的相关内容进行推理,得到预测信息,所述预测信息的预测方法如下:
将待检索内容A作为一个新实体ex
Figure BDA0002682256140000054
并将实体ex拆分成单词[ex1,ex2,...exn],将其包 含的单词和知识库中实体列表的实体ei构成的单词[ei1,ei2,...ein]进行比较,若查询ex和ein拆分 出的对应位置,即ein=exn的单词最多的实体ein唯一,则将该ein定义为eA,若ein拆分出的 对应位置,即ein=exn的单词最多的实体有多个,则将这些实体构成的词的词向量和exn构成 的词的词向量做差,取差值最小的实体定义为eA;将eA在参数列表W中对应的参数向量与 ex包含的单词进行组合,得到ex的实体向量,再将实体向量通过步骤5.1.1对已有检索信息库 内部信息的链式预测和步骤5.1.2实体关系信息的新组合进行的正确性预测,得到的预测信息 为三元组的表格形式的检索内容。
另一方面,本发明还提供一种基于知识表示学习的数据检索方法的系统,包括:系统交 互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块;
所述基于知识表示学习的数据检索方法的系统与检索者进行交互,为检索者提供检索服 务;
系统交互界面用于在界面上输入待检索内容,此时将待检索内容输入到检索信息模块中, 通过检索信息模块以三元组列表的形式返回三元组的形式在交互界面上显示;
所述信息处理模块用于将当检索信息库中的文档形式内容和数据库形式内容整理成结构 化文件并保存到结构化文件文档中;将结构化文件文档中的内容整理形成三元组的数据形式 (实体,关系,实体),并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列 表文档中,与此同时将三元组中的实体集合和关系集合制作成为实体列表,和关系列表存入 知识库文件,并以文档形式传输给知识图谱表示学习模块;
所述知识图谱的表示学习模块,用于将信息处理模块传输过来的知识库文件中的三元组 列表中的信息通过知识表示学习的方法,实现已有知识库中的实体和关系的向量表示,并将 实体和关系的向量表示以文档形式存入知识库文件之中,通过向量这种结构化数据的特点, 使得知识图谱的知识库中的信息具有推理和预测功能;
所述检索信息模块,处理通过系统交互界面输入的待检索内容,并将检索信息和预测信 息以三元组形式返回给系统交互界面,该模块将输入的待检索的内容与信息处理模块产生的 实体列表进行比对,判断待检索信息是否在检索信息库中;若检索信息存在于检索信息库中, 则访问知识图谱的表示学习模块中的知识图谱预测单元,将原来的检索信息以及推测出的信 息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;若检索信息不存在 知识库中,则访问知识图谱的表示学习模块中的实体关系嵌入单元,得到检索信息对应的新 的实体对应的向量,并将该数据传入到三元组嵌入单元和知识图谱预测单元,并将推测出的 信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;
所述知识图谱的表示学习模块包括:实体关系嵌入单元、三元组嵌入单元、知识图谱预 测单元:
所述的实体关系嵌入单元,用于处理信息处理模块传入的知识库文件的三元组列表中三 元组形式的数据信息,得到初步的实体和关系的向量,知识库文件的三元组列表中的三元组 作为数据集,再通过已有的深度学习神经网络的工具生成参数,将参数和已有的实体和关系 拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体 向量,关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档,关系向 量文档和参数列表文档中并传输给三元组嵌入单元;
所述的三元组嵌入单元,用于将实体关系嵌入单元传输的列表形式的实体和关系的向量 和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示,并更新知识库文件中 的实体向量文档,关系向量文档和参数列表文档;
所述的知识图谱预测单元,根据三元组嵌入单元中实体向量文档,关系向量文档和参数 列表文档的信息进行推理和预测,从而使得系统对待检索内容进行推理,并把推理信息传输 给检索信息模块,再由检索信息模块将预测内容传输给系统交互界面,从而将检索信息发给 检索者。
采用上述技术方案所产生的有益效果在于:本发明提供一种基于知识表示学习的数据检 索方法及系统,将机器无法理解的文件格式转为机器可以理解的结构化数据,通过知识图谱 表示学习技术对结构化数据进行处理和挖掘,可以将信息库中的一些信息进行整合,并在已 有的信息库检索内容的基础上进行推理和预测,从而实现对于原有的信息库的扩展,解决了 现有技术在已有信息检索过程中无法针对数据库中已有的数据进行推理和预测的问题,为检 索者提供更多的经过推理和预测后的信息。这种推理和预测的信息在一定程度上可以给检索 者提供更多的相关信息。
附图说明
图1为本发明具体实施方式中一种基于知识表示学习的数据检索方法流程图;
图2为本发明具体实施方式中一种基于知识表示学习的数据检索系统示意图;
图3为本发明具体实施方式中检索者使用检索系统流程图。
具体实施方式
信息检索时所要检索的信息包含很多种类,会出现相同意思的不同检索词在现有的检索 方法中不能将检索后的内容进行合并或者无法检索相关相似信息等问题。而目前已有的信息 检索的方法无法通过对已有的检索库中的信息进行推理和预测,这就会出现检索者通过一些 现有的检索方法进行检索,所得到的检索内容较少的问题。
有鉴如此,本发明使用一种基于知识表示学习的数据检索方法及系统,针对不同的信息 进行整合,将整和后的信息构建成知识库。再根据知识图谱的知识表示技术,对原有的知识 库中的内容进行挖掘生成一个计算机更擅长处理的知识图谱的结构化数据,通过对已有的一 些结构化数据的计算,从而达到对一些检索内容的推理和预测,最终返回给检索者所需要的 信息库中的信息和推理的信息。
下面结合附图对本发明具体实施方式加以详细的说明,所述是对本发明的解释而不是限 定。
一种基于知识表示学习的数据检索方法,具体流程图如图1所示;
实施例1:
本实施例以如表1所示的动物信息表为例,以下采用基于知识表示学习的数据检索方法 对表1所示的检索信息库中的动物信息表的数据库进行检索,包括以下步骤:
表1动物信息表
动物名称 科类 纲类 地区 ...
华南虎 猫科 哺乳纲 中国华南地区 ...
西伯利亚虎 猫科 哺乳纲 西伯利亚地区 ...
爪哇虎 哺乳纲 中国东北地区 ...
金雕 鹰科 鸟纲 北半球温带、亚寒带和寒带地区 ...
东北虎 ...
... ... ... ...
步骤1:整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件文 档中;这一步骤针对的主要是多源异构的数据进行整理并以一种结构化的形式对原有信息进 行存储成为结构化文档的过程。由于此实施例为检索信息库中的数据库的信息,这一步骤保 持原来的数据库结构。
步骤2:将结构化文件文档中的内容整理成为知识图谱的知识库的形式,保存到知识库文 件中的三元组列表中。首先,对动物信息表中的每个数据将其转为三元组(实体,关系,实 体)的形式,以华南虎为例,它的属性“科类”对应的属性值是“猫科”,他的属性纲类对 应的属性值是哺乳纲。按照这种方式,将动物信息表中的每个动物的对应属性和属性值的内 容转化成为(实体,关系,实体)这种结构的三元组:(华南虎,科类,猫科),(华南虎,纲类,哺乳 纲)...然后将这些三元组放入到知识库文件的三元组列表之中,再将知识库文件的三元组(实 体,关系,实体)中的实体和关系分别放入到知识库文件中的实体列表和关系列表之中。这里 的实体列表中的实体就包括动物信息表之中的华南虎,西伯利亚虎,猫科,哺乳纲等内容, 这里的关系列表中的关系就包括科类,纲类,地区等内容。这里构成的实体列表和关系列表中 的内容是不重复的,如(华南虎,科类,猫科)和(西伯利亚虎,科类,猫科)这两个三元组中包含的实 体是:华南虎,西伯利亚虎和猫科,这里的猫科并不在实体列表中出现多次与此同时科类也不 在关系列表中出现多次。为了避免相同实体放入到实体列表和相同的关系放入到关系列表, 在实体放入实体列表之前先检索实体列表判断实体列表中是否已经存在该实体,若不存在则 将该实体放入到实体列表之中,对于关系放入到关系列表之前也用同样方法进行判断并将实 体放入到实体列表之中。
步骤3:使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量, 通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向 量、初步关系向量,将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参 数列表一起,分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中;
定义实体列表E中的第i个实体记为ei,,关系列表R中的第i个关系记为ri,将整理完成 的知识库文件中的全部实体和关系,分别标记数字并拆分成实体包含的单词和关系包含的单 词,即原来的实体ei∈E拆分成[ei1,ei2,...ein],将关系ri∈R拆分成[ri1,ri2,...,rin];其中ein表示实 体包含的单词,rin表示关系包含的单词,n表示被拆分的实体或关系所拆分出的单词的数量 (n≥1)。如已经存在的实体列表中的实体西伯利亚虎拆分出词[西伯利亚,虎];已经存在关系列 表中的关系科类这个关系拆分出单词[科类],这里的实体和关系拆分出的单词最少的个数是 1。
通过深度学习的工具如tensorflow框架或pytorch框架等,numpy随机向量的等方式,生 成随机生成和实体包含的单词、关系包含的单词对应数量的待训练的参数向量,将和ein对应 的参数向量wein,wein∈W和rin对应的参数向量wrin,wrin∈W分别和ein和rin对应的词向量
Figure RE-GDA0002752430320000091
Figure RE-GDA0002752430320000092
通过哈德玛积的方式进行组合得到全部的初步实体向量
Figure RE-GDA0002752430320000093
和初步关系向量
Figure RE-GDA0002752430320000094
具体公式 如下:
Figure BDA0002682256140000095
其中,n表示的是实体包含的单词个数,bei和bri分别表示的是每个实体和关系对应的偏 差,是和
Figure BDA0002682256140000096
的维度和
Figure BDA0002682256140000097
维度相同的向量,
Figure BDA0002682256140000098
表示的是哈德玛积;
以实体“西伯利亚虎”和关系“科类”为例。实体西伯利亚虎拆分出的单词为[西伯利 亚,虎],因此对应生成两个参数向量w西伯利亚和w,如关系科类拆分出单词[科类],则对应的 每个单词对应生参数向量w科类。通过这种方式针对每个实体和关系对应的全部参数向量制作 成为参数列表W。再将西伯利亚虎拆分出单词[西伯利亚,虎]对应的词向量
Figure BDA0002682256140000099
Figure BDA00026822561400000910
与其 对应的参数向量w西伯利亚和w通过哈德玛积进行的组合,得到西伯利亚虎的初步实体向量
Figure BDA00026822561400000911
将关系科类拆分出单词[科类]中的每个单词对应的词向量
Figure BDA00026822561400000912
和其对应的参数向量 w科类通过哈德玛积进行的组合,得到科类的初步关系向量
Figure BDA00026822561400000913
这里的
Figure BDA00026822561400000914
Figure BDA00026822561400000915
其中,b西伯利亚虎和b科类分别表示的是每个实体和关系对应的偏差,这里的偏差是和
Figure BDA00026822561400000916
的维度和
Figure BDA00026822561400000917
维度相同的向量。
这里将得到的全部的初步实体向量和初步关系向量和参数列表分别以实体向量文档,关 系向量文档和参数列表文档保存到知识库文件中;这里的实体向量文档,关系向量文档和参 数向量文档可以按照实体顺序,关系的顺序以及参数的内容以张量的形式保存成一种二进制 的.npy文件,计算机在使用和计算过程中处理这种文件运行速度要比文档文件更快;
步骤4:通过深度学习的方法对所有的初步实体向量
Figure BDA00026822561400000918
和初步关系向量
Figure BDA00026822561400000919
进行处理,生成 一一对应的最终的实体向量表示
Figure BDA00026822561400000920
和关系向量表示
Figure BDA00026822561400000921
并更新知识库文件中实体向量文档、关 系向量文档和参数列表文档;
所述对
Figure BDA0002682256140000101
的维度和
Figure BDA0002682256140000102
的处理,处理过程分为两类:
第一类,将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量
Figure BDA0002682256140000103
和 初步关系向量
Figure BDA0002682256140000104
作为训练集,即对初步实体向量
Figure BDA0002682256140000105
中的参数向量Wei和初步关系向量
Figure BDA0002682256140000106
中的参 数向量Wri进行训练,采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过 程中得到最小值;在神经网络的训练后生成新的实体向量表示
Figure BDA0002682256140000107
和新的关系向量表示
Figure BDA0002682256140000108
损 失函数L如下所示:
Figure BDA0002682256140000109
其中,γ为超参数,这个超参数是一个数字,可取值为1,5,15等数值,Δ是正样本集合, 表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组
Figure BDA00026822561400001010
的集合, 其中
Figure BDA00026822561400001011
Figure BDA00026822561400001012
是三元组中h和t在实体向量文档中对应的向量,
Figure BDA00026822561400001013
是三元组中r在关系向量文档 中对应的向量;Δ′是负样本集合,表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’, h’∈E和t’,t’∈E替换h和t,将替换得到的不正确的三元组(h’,r,t’)对应的向量形式
Figure BDA00026822561400001014
的集合,
Figure BDA00026822561400001015
l1/2表示计算式子的第一范数和第二范数;fr(ξ)表示的是 三元组的得分函数,其中的
Figure BDA00026822561400001016
Figure BDA00026822561400001017
表示三元组对应的向量表示。
以动物信息表整理出的信息为例,这里的正样本集合就是这些动物信息表中获取出的若 干个类似于(西伯利亚虎,科类,猫科)这样的三元组中各个部分对应为向量的向量结构的三元 组的集合。这里以(西伯利亚虎,科类,猫科)为例,使用鹰科替换掉(西伯利亚虎,科类,猫科)中的 最后的实体猫科,从而得到一个不正确的三元组(西伯利亚虎,科类,鹰科),将这个不正确的三 元组中的实体和关系的向量通过实体向量文档和关系体向量文档中获取对应的向量得到了一 个错误的向量结构的三元组,通过类似的方法对所有的正确三元组对应的错误的向量结构的 三元组;
通过第一类方法,正确的三元组对应的|fr(ξ)|值要比错误的三元组对应的|fr(ξ')|值小, 这时取δr,使得|fr(ξ)|<δr<|fr(ξ')|;
第二类,是利用了深度学习技术中的LSTM对知识库文件的三元组列表中的三元组进行 编码,对于知识库文件中的每一个三元组对应的向量形式
Figure BDA00026822561400001018
和知识库文件中的每一 个三元组对应的向量构建的负样本
Figure BDA0002682256140000111
通过LSTM进行嵌入;每个三元组通过LSTM 得到每个三元组对应
Figure BDA0002682256140000112
Figure BDA0002682256140000113
使得正确的三元组经过LSTM后输出的低维向量的第一范数和第 二范数的数值比错误的三元组的值小,此时取δr,使得|LSTM(ξ)|<δr<|LSTM(ξ')|;
将通过以上两类方式训练后的产生的实体向量表示
Figure BDA0002682256140000114
和关系向量表示
Figure BDA0002682256140000115
和参数W列表进 行保存,更新知识库文件中实体向量文档,关系向量文档和参数列表文档;若使用的方法为 第二类方法还需保存LSTM的参数到知识库文件中。
步骤5:处理待检索内容,定义为A,在步骤4更新后的知识库文件中检索,得到整理后 的知识库中的信息及预测信息;
将A在知识库文件实体列表E里检索,步骤4.1和步骤4.2不分先后顺序;
5.1:若A是实体列表E中已经存在的内容,则在知识库文件中查询与A对应的实体,得 到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测 信息;如对于检索者待检索内容为爪哇虎,则返回(爪哇虎,纲类,哺乳纲)等知识库文件中已经 存在的三元组和知识图谱的知识库的预测信息。5.1.1和5.1.2不分先后顺序;
所述知识图谱的知识库的预测信息包括:
5.1.1:对已有检索信息库内部信息的链式预测:对于一个头部实体在hlink和一个关系rlink寻找未知的尾部实体tu,或对于一个尾部实体tlink和一个关系rlink寻找未知的头部的实体,通 过对未知内容使用实体列表中的实体进行替换得到(hlink,rlink,tu)或(tu,rlink,tlink),再查找实体向量 文档和关系向量文档得到三元组(hlink,rlink,tu)或(tu,rlink,tlink)对应的向量形式的三元组
Figure BDA0002682256140000116
Figure BDA0002682256140000117
再通过计算|frlink)|或|LSTM(ξlink)|的数值,将计算后 数值按从小到大进行排序,取其中的最小值对应的实体作为未知实体的预测和推理的备选答 案返回给检索者。以(爪哇虎,科类,?)为例,这里不知道爪哇虎对应科类的内容,这时使用全部 的实体来进行搭配构造出(爪哇虎,科类,猫科),(爪哇虎,科类,鹰科)等候选的三元组,这时根据 这些三元组中实体和关系在实体向量文档和关系向量文档中对应的向量计算|frlink)|或 |LSTM(ξlink)|的数值,这里的ξlink就是上述的这些三元组,通过计算出这些三元组对应的数值, 再从小到大排序,这时候算得(爪哇虎,科类,猫科)算得的数值最小,此时将猫科作为备选答案 返回给检索者;
5.1.2:实体关系信息的新组合进行的正确性预测:这种预测是针对一个知识图谱的知识 库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断,即对于一个 检索信息库中的新信息f(hf,rf,tf),这里的实体hf,tf和关系rf都在知识库文件中E和R中出现 的实体和关系,但知识库文件三元组列表中没有出现这个三元组,用知识库文件中的实体向 量文档和关系向量文档中已经保存的hf,rf,tf对应的向量形式构成
Figure BDA0002682256140000121
进行推断,当得 到
Figure BDA0002682256140000122
Figure BDA0002682256140000123
时,则认为该三元组为真,得到的预测信息为:判断为真的信 息,并以三元组的表格形式的检索内容。以判断三元组(爪哇虎,科类,鹰科)正确性为例,这个 三元组并非在知识图谱的三元组列表中出现,因此需要针对这个新信息进行判断其正确性, 通过(爪哇虎,科类,鹰科)中包含的实体“爪哇虎”和“鹰科”和关系“科类”在实体向量文档 和关系向量文档中对应的向量,计算
Figure BDA0002682256140000124
Figure BDA0002682256140000125
的数值,其中
Figure BDA00026822561400001216
是三元组(爪哇虎, 科类,鹰科)对应的向量形式。这时通过计算得到
Figure BDA0002682256140000126
则认为该三元组为假则不返回给 检索者,相似的判断三元组(爪哇虎,科类,猫科)的正确性,通过计算
Figure BDA0002682256140000127
Figure BDA0002682256140000128
的 数值,其中
Figure BDA0002682256140000129
是三元组(爪哇虎,科类,猫科)对应的向量形式。这时通过得到
Figure BDA00026822561400001210
则 认为该三元组为真则并返回给检索者;
步骤5.2:若待检索内容A不是实体列表E中已经存在的实体,则需要通过知识库文件 中的内容对A的相关内容进行推理,得到预测信息,所述预测信息的预测方法如下:
将待检索内容A作为一个新实体ex
Figure BDA00026822561400001211
并将实体ex拆分成单词[ex1,ex2,...exn],将其包 含的词和知识库中实体列表的实体ei构成的词[ei1,ei2,...ein]进行比较,若查询ex和ein拆分出的 对应位置(ein=exn)的词最多的实体ein唯一,则将该ein定义为eA,若ein拆分出的对应位置(ein=exn)的词最多的实体有多个,则将这些实体构成的词的词向量和exn构成的词的词向量做差, 取差值最小的实体定义为eA,这里exn构成的词的词向量也是从词向量集合Glove中获取, ex拆分出的词为动词或名词的变形没有在词向量集合中需要将该词变为原型,如果在遇到一 些在知识库中并没有出现的词向量时可以通过深度学习的工具如tensorflow框架或pytorch框 架等,numpy随机向量的等方式自动生成一个词向量,暂时作为这个单词的词向量;将eA在 参数列表W中对应的参数向量与ex包含的单词进行组合,得到ex的实体向量。如知识库列 表中没有保存东北虎这一实体,通过知识库的比对会东北虎和华南虎在实体的构成过程中最 为接近,都包含两个单词,且实体的最后一个词是虎,这时以华南虎在参数列表中对应的参 数w华南和w和东北虎的词向量
Figure BDA00026822561400001212
Figure BDA00026822561400001213
和进行哈德玛积的组合:
Figure BDA00026822561400001214
得到东北虎的实体向量
Figure BDA00026822561400001215
再将实体向量通过步骤4.1.1对已有检索信息库内部信息的链式预测和步骤4.1.2实体关系信息的新组合进行的正确 性预测,得到的预测信息为:三元组的表格形式的检索内容。
实施例2:
本实施例以基于知识表示学习的数据检索方法检索信息库中的文本为例,其流程如图1 所示。本实施例用到的文本为中国的介绍的文本,内容如下:
中国的介绍
中国正式是中华人民共和国(PRC),是位于东亚的主权国家。人口超过13.81亿,是世 界上人口最多的州。国家由首都设在北京的中国共产党科类管理。
基于知识表示学习的数据检索方法对上述文本的数据检索的步骤如图1所示,包括:
步骤1:整理检索信息库:这一步骤针对的主要是多源异构的数据进行整理并以一种结 构化的形式对原有信息进行存储成为结构化文档的过程。由于此实施例为检索信息库中文本 的信息,则需要使用自然语言处理中的命名实体识别技术将其全部实体进行标注,这里使用 命名实体识别模型对文本中句子中的人名、地名和组织机构名以及其他所需的指定名词结构 进行标注,得到句子中对应的实体,以中国的介绍为例,这些实体包括:中国,中华人民共 和国,东亚,13.81亿。再通过关系抽取技术抽取出文本中全部的实体间的关系。再通过关系 抽取模型对名词间的关系抽取,则以上句子可以获取成为三元组:(中国,位于,东亚),(中国, 人口,13.81亿)...(中国,首都,北京)。
步骤2:将结构化文件文档中的内容整理成为知识图谱的知识库的形式。将步骤1中文本 处理出的(中国,位于,东亚),(中国,人口,13.81亿)等三元组,放入到知识库文件的三元组列 表之中,再将知识库文件的三元组(实体,关系,实体)中的实体和关系分别放入到知识库文 件中的实体列表和关系列表之中。这里知识库文档中的实体向量文档,关系向量文档和参数 列表文档构造方式同实施例1中的步骤2。
步骤3至步骤5同实施例1中的步骤3至步骤5。
下面以系统的实现为例,详细描述本发明一种基于知识表示学习的数据检索方法的系统 的具体实现:
实现一种基于知识表示学习的数据检索方法的系统,示意图如图2所示,模块包含:系 统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块。
在一个示例性的实施方案中,该系统分别说明在知识图谱的知识库的构建和检索者使用 检索系统的步骤。
知识图谱的知识库构建的步骤如下:
该系统通过信息处理模块将检索信息库中内容整理成结构化文件并保存到结构化文件文 档中。当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化 文件文档中;将结构化文件文档中的内容整理形成三元组的数据形式(实体,关系,实体), 并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中,与此同时将 三元组中的实体集合和关系集合制作成为实体列表,和关系列表存入知识库文件,并以文档 形式传输给知识图谱表示学习模块。
该系统通过知识图谱的表示学习模块,用于将信息处理模块传输过来的知识库文件中的 三元组列表中的信息通过知识表示学习的方法,实现已有知识库中的实体和关系的向量表示, 并将实体和关系的向量表示以文档形式存入知识库文件之中。其中实体关系嵌入单元,用于 处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息,得到初步的实 体和关系的向量,知识库文件的三元组列表中的三元组作为数据集,再通过已有的深度学习 神经网络的工具生成参数,将参数和已有的实体和关系拆分成的单词重新组合构造全部知识 库文件中的实体和关系的向量表示将全部的初步的实体向量,关系的向量和相关参数分别以 列表形式保存成为知识库文件的实体向量文档,关系向量文档和参数列表文档中并传输给三 元组嵌入单元。三元组嵌入单元,用于将实体关系嵌入单元传输的列表形式的实体和关系的 向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示,并更新知识库文 件中的实体向量文档,关系向量文档和参数列表文档。继而知识图谱预测单元根据三元组嵌 入单元中实体向量文档,关系向量文档和参数列表文档的信息进行推理和预测,从而使得系 统对待检索内容进行推理,并把推理信息传输给检索信息模块。进而通过检索信息模块将推 理信息与检索信息库中已有的信息作为检索信息完成的信息传输给系统交互界面。
图3为检索者使用检索系统流程图,系统运行的步骤如下:
检索者在系统的系统交互界面上输入检索者待检索的内容,并将检索信息和预测信息以 三元组形式返回给系统交互界面。系统通过检索信息模块将系统交互界面中输入的待检索的 内容与知识图谱的知识库文件中的实体列表进行比对,判断待检索信息是否在检索信息库中; 若检索信息存在于检索信息库中,则访问知识图谱的表示学习模块中的知识图谱预测单元, 将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给 系统交互界面;若检索信息不存在知识库中,则访问知识图谱的表示学习模块中的实体关系 嵌入单元,得到检索信息对应的新的实体对应的向量,并将该数据传入到三元组嵌入单元和 知识图谱预测单元,并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回 给系统交互界面;
系统将已经检索完成的信息在系统交互界面上返回给用户。该界面分为两部分,一部分 是检索库信息,一部分是推理信息,两部分在系统交互界面上分类显示,将在检索库中检索 到的信息标记为已知信息返回给用户,将通过知识库推理得到的信息标记为推理信息返回给 用户。
由以上描述可以看出,本发明将机器无法理解的文件格式转为机器可以理解的结构化数 据,通过知识图谱表示学习技术对结构化数据进行处理和挖掘,从而达到对检索出的内容的 扩展,为检索者提供更多的经过推理和预测后的信息。

Claims (10)

1.一种基于知识表示学习的数据检索方法,其特征在于,包括以下步骤:
步骤1:整理检索信息库,将检索信息库中内容整理成结构化文件并保存到结构化文件文档中;
步骤2:将结构化文件文档中的内容整理并保存到知识库文件中的三元组列表中;
步骤3:使用深度学习工具引入和实体及关系拆分出的单词个数等量的随机参数向量,通过哈德玛积将随机参数向量和实体及关系对应的词向量进行组合得到全部的初步实体向量、初步关系向量,将得到的全部的初步实体向量、初步关系向量与随机参数向量组成的参数列表一起,分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中;
步骤4:通过深度学习的方法对所有的初步实体向量
Figure FDA0002682256130000013
和初步关系向量
Figure FDA0002682256130000014
进行处理,生成一一对应的最终的实体向量表示
Figure FDA0002682256130000011
和关系向量表示
Figure FDA0002682256130000012
并更新知识库文件中实体向量文档、关系向量文档和参数列表文档;
步骤5:定义待检索内容为A,在步骤4更新后的知识库文件中检索,得到整理后的知识库中的信息及预测信息。
2.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述结构化文件的整理过程如下:
判断检索信息库中内容的形式,若为数据库形式,则保留该数据库形式的内容;当检索信息库中内容为文本形式时,则将文本形式的内容编辑成“实体,关系,实体”形式的内容。
3.根据权利要求2所述的一种基于知识表示学习的数据检索方法,其特征在于,所述将文本形式的内容编辑成“实体,关系,实体”形式的内容的方法为:
采用命名实体识别模型对所需的指定名词结构进行标注,得到对应的实体;再通过关系抽取模型对名词间的关系进行抽取。
4.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述步骤2的过程如下:
若结构化文件文档中的内容是由文本形式整理出的文档,则直接将“实体,关系,实体”形式的内容保存在知识库文件中的三元组列表中;
若结构化文件文档中的内容为数据库形式,则将数据库中包含的数据库表中的每一条数据的内容对照标记成“实体,关系,实体”形式的内容,并保存到知识库文件中的三元组列表中。
5.根据权利要求4所述的一种基于知识表示学习的数据检索方法,其特征在于,所述数据库表中的数据内容包括:实体、属性和属性值。
6.根据权利要求1所述的一种基于知识表示学习的数据检索方法,其特征在于,所述步骤3的过程如下:
步骤3.1:将知识库文件的三元组列表中的第一个实体定义为h,第二个实体定义为t,将两个实体间的关系定义为r,定义E为知识库文件中全部实体的集合,R为知识库文件中全部关系的集合,并将E和R以列表的形式保存到知识库文件中;
步骤3.2:将实体列表E中的第i个实体记为ei,ei∈E;关系列表R中的第i个关系记为ri,ri∈R;
步骤3.3:将E和R中的实体和关系分别标记数字并按包含的单词量进行拆分,即实体ei∈E拆分成[ei1,ei2,...ein],关系ri∈R拆分成[ri1,ri2,...,rin];其中ein表示实体包含的单词,rin表示关系包含的单词,n表示被拆分的实体或关系所拆分出的单词的数量;
步骤3.4:通过深度学习的神经网络工具随机生成和实体包含的单词ein对应数量的待训练的参数向量wein,关系包含的单词rin对应数量的待训练的参数向量wrin,并将全部参数向量制作成为参数列表W;
步骤3.5:将ein和rin对应的词向量
Figure FDA0002682256130000021
Figure FDA0002682256130000022
以及参数列表W通过哈德玛积的方式进行组合,得到全部的初步实体向量
Figure FDA0002682256130000023
和初步关系向量
Figure FDA0002682256130000024
具体公式如下:
Figure FDA0002682256130000025
其中,n表示的是实体包含的单词个数,bei和bri分别表示的是每个实体和关系对应的偏差,是和
Figure FDA0002682256130000026
的维度和
Figure FDA0002682256130000027
维度相同的向量,
Figure FDA0002682256130000028
表示的是哈德玛积;
步骤3.6:将得到的全部的初步实体向量、初步关系向量和参数列表分别以实体向量文档,关系向量文档和参数列表文档保存到知识库文件中。
7.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述步骤4中对所有的初步实体向量
Figure FDA0002682256130000029
和初步关系向量
Figure FDA00026822561300000210
进行处理,处理过程分为两类:
第一类,将知识库文件的三元组列表中的三元组中的实体和关系对应的初步实体向量
Figure FDA00026822561300000211
和初步关系向量
Figure FDA00026822561300000212
作为训练集,即对初步实体向量
Figure FDA00026822561300000213
中的参数向量Wei和初步关系向量
Figure FDA00026822561300000214
中的参数向量Wri进行训练,采用神经网络的随机梯度下降的方法使得损失函数L的数值在训练过程中得到最小值;在神经网络的训练后生成新的实体向量
Figure FDA00026822561300000215
和新的关系向量
Figure FDA00026822561300000216
其中,损失函数L如下所示:
Figure FDA0002682256130000031
其中,γ为超参数,Δ是正样本集合,表示知识库文件中的三元组列表中的三元组(h,r,t)对应的向量形式三元组
Figure FDA0002682256130000032
的集合,其中
Figure FDA0002682256130000033
Figure FDA0002682256130000034
是三元组中h和t在实体向量文档中对应的向量,
Figure FDA0002682256130000035
是三元组中r在关系向量文档中对应的向量;Δ′是负样本集合,表示将知识库中的三元组列表中的三元组(h,r,t)随机用h’,h’∈E和t’,t’∈E替换h和t,将替换得到的不正确的三元组(h’,r,t’)对应的向量形式
Figure FDA0002682256130000036
的集合,
Figure FDA0002682256130000037
l1/2表示计算式子的第一范数和第二范数;fr(ξ)表示的是三元组的得分函数,其中的
Figure FDA0002682256130000038
Figure FDA0002682256130000039
表示三元组对应的向量表示;
通过第一类方法,正确的三元组对应的|fr(ξ)|值要比错误的三元组对应的|fr(ξ')|值小,这时取正确的三元组和不正确的三元组的分界值δr,使得|fr(ξ)|<δr<|fr(ξ')|;
第二类,是利用了深度学习方法中的LSTM对知识库文件的三元组列表中的三元组进行编码,对于知识库文件中的每一个三元组对应的向量形式
Figure FDA00026822561300000310
和知识库文件中的每一个三元组对应的向量构建的负样本
Figure FDA00026822561300000311
通过LSTM进行嵌入;每个三元组通过LSTM得到每个三元组对应
Figure FDA00026822561300000312
Figure FDA00026822561300000313
使得正确的三元组经过LSTM后输出的低维向量的第一范数和第二范数的数值比错误的三元组的值小,此时取正确的三元组和不正确的三元组的分界值δr,使得|LSTM(ξ)|<δr<|LSTM(ξ')|;
根据实际需要选择上述两类处理过程中的一类或两类进行处理,若使用第二类方法还需保存LSTM的参数到知识库文件中。
8.根据权利要求1所述一种基于知识表示学习的数据检索方法,其特征在于,所述步骤5的过程如下:
将A在知识库文件的实体向量文档中的实体列表E里检索,步骤5.1和步骤5.2不分先后顺序;
5.1:若A是实体列表E中已经存在的内容,则在知识库文件中查询与A对应的实体,得到该实体在知识库文件的三元组列表中已经存在的三元组的信息和知识图谱的知识库的预测信息;5.1.1和5.1.2不分先后顺序
所述知识图谱的知识库的预测信息包括:
5.1.1:对已有检索信息库内部信息的链式预测:对于一个头部实体在hlink和一个关系rlink寻找未知的尾部实体tu,或对于一个尾部实体tlink和一个关系rlink寻找未知的头部的实体,通过对未知内容使用实体列表中的实体进行替换得到(hlink,rlink,tu)或(tu,rlink,tlink),再查找实体向量文档和关系向量文档得到三元组(hlink,rlink,tu)或(tu,rlink,tlink)对应的向量形式的三元组
Figure FDA0002682256130000041
Figure FDA0002682256130000042
再通过计算|frlink)|或|LSTM(ξlink)|的数值,将计算后数值按从小到大进行排序,取其中的最小值对应的实体作为未知实体的预测和推理的备选答案返回给检索者;
5.1.2:实体关系信息的新组合进行的正确性预测:这种预测是针对一个知识图谱的知识库中已经存在的实体和关系构成的未知正确性的三元组f进行是否正确的判断,即对于一个信息检索库中的新信息f(hf,rf,tf),这里的实体hf,tf和关系rf都在知识库文件中E和R中出现的实体和关系,但知识库文件三元组列表中没有出现这个三元组,用知识库文件中的实体向量文档和关系向量文档中已经保存的hf,rf,tf对应的向量形式构成
Figure FDA0002682256130000043
进行推断,当得到
Figure FDA0002682256130000044
Figure FDA0002682256130000045
时,则认为该三元组为真,得到的预测信息为:判断为真的信息,并得到三元组的表格形式的检索内容;
步骤5.2:若待检索内容A不是实体列表E中已经存在的实体,则需要通过知识库文件中的内容对A的相关内容进行推理,得到预测信息,所述预测信息的预测方法如下:
将待检索内容A作为一个新实体ex
Figure FDA0002682256130000046
并将实体ex拆分成单词[ex1,ex2,...exn],将其包含的单词和知识库中实体列表的实体ei构成的单词[ei1,ei2,...ein]进行比较,若查询ex和ein拆分出的对应位置,即ein=exn的单词最多的实体ein唯一,则将该ein定义为eA,若ein拆分出的对应位置,即ein=exn的单词最多的实体有多个,则将这些实体构成的词的词向量和exn构成的词的词向量做差,取差值最小的实体定义为eA;将eA在参数列表W中对应的参数向量与ex包含的单词进行组合,得到ex的实体向量,再将实体向量通过步骤5.1.1对已有检索信息库内部信息的链式预测和步骤5.1.2实体关系信息的新组合进行的正确性预测,得到的预测信息为三元组的表格形式的检索内容。
9.采用权利要求1至8中任意一项所述的基于知识表示学习的数据检索方法进行数据检索的系统,其特征在于包括:系统交互界面、信息处理模块、知识图谱的表示学习模块、检索信息模块;
系统交互界面用于在界面上输入待检索内容,此时将待检索内容输入到检索信息模块中,通过检索信息模块以三元组列表的形式返回三元组的形式在交互界面上显示;
所述信息处理模块用于将当检索信息库中的文档形式内容和数据库形式内容整理成结构化文件并保存到结构化文件文档中;将结构化文件文档中的内容整理形成“实体,关系,实体”三元组的数据形式,并将这种三元组的数据形式的内容全部保存到知识库文件的三元组列表文档中,与此同时将三元组中的实体集合和关系集合制作成为实体列表,和关系列表存入知识库文件,并以文档形式传输给知识图谱表示学习模块;
所述知识图谱的表示学习模块,用于将信息处理模块传输过来的知识库文件中的三元组列表中的信息通过知识表示学习的方法,实现已有知识库中的实体和关系的向量表示,并将实体和关系的向量表示以文档形式存入知识库文件之中,通过向量这种结构化数据的特点,使得知识图谱的知识库中的信息具有推理和预测功能;
所述检索信息模块,处理通过系统交互界面输入的待检索内容,并将检索信息和预测信息以三元组形式返回给系统交互界面,该模块将输入的待检索的内容与信息处理模块产生的实体列表进行比对,判断待检索信息是否在检索信息库中;若检索信息存在于检索信息库中,则访问知识图谱的表示学习模块中的知识图谱预测单元,将原来的检索信息以及推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面;若检索信息不存在知识库中,则访问知识图谱的表示学习模块中的实体关系嵌入单元,得到检索信息对应的新的实体对应的分布式结构化数据,并将该数据传入到三元组嵌入单元和知识图谱预测单元,并将推测出的信息通过系统交互界面以关键词所在的三元组的形式返回给系统交互界面。
10.根据权利要求9所述采用基于知识表示学习的数据检索方法进行数据检索的系统,其特征在于,所述知识图谱的表示学习模块包括:实体关系嵌入单元、三元组嵌入单元、知识图谱预测单元:
所述的实体关系嵌入单元,用于处理信息处理模块传入的知识库文件的三元组列表中三元组形式的数据信息,得到初步的实体和关系的向量,知识库文件的三元组列表中的三元组作为数据集,再通过已有的深度学习神经网络的工具生成参数,将参数和已有的实体和关系拆分成的单词重新组合构造全部知识库文件中的实体和关系的向量表示将全部的初步的实体向量,关系的向量和相关参数分别以列表形式保存成为知识库文件的实体向量文档,关系向量文档和参数列表文档中并传输给三元组嵌入单元;
所述的三元组嵌入单元,用于将实体关系嵌入单元传输的列表形式的实体和关系的向量和相关参数通过神经网络进行训练得到最终的实体和关系的向量表示,并更新知识库文件中的实体向量文档,关系向量文档和参数列表文档;
所述的知识图谱预测单元,根据三元组嵌入单元中实体向量文档,关系向量文档和参数列表文档的信息进行推理和预测,从而使得系统对待检索内容进行推理,并把推理信息传输给系统交互界面。
CN202010965798.9A 2020-09-15 2020-09-15 一种基于知识表示学习的数据检索方法及系统 Active CN112084347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010965798.9A CN112084347B (zh) 2020-09-15 2020-09-15 一种基于知识表示学习的数据检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010965798.9A CN112084347B (zh) 2020-09-15 2020-09-15 一种基于知识表示学习的数据检索方法及系统

Publications (2)

Publication Number Publication Date
CN112084347A true CN112084347A (zh) 2020-12-15
CN112084347B CN112084347B (zh) 2023-08-25

Family

ID=73737089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010965798.9A Active CN112084347B (zh) 2020-09-15 2020-09-15 一种基于知识表示学习的数据检索方法及系统

Country Status (1)

Country Link
CN (1) CN112084347B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948547A (zh) * 2021-01-26 2021-06-11 中国石油大学(北京) 测井知识图谱构建查询方法、装置、设备及存储介质
CN113032415A (zh) * 2021-03-03 2021-06-25 西北工业大学 一种基于用户偏好与知识图谱的个性化产品描述生成方法
CN115080587A (zh) * 2022-05-19 2022-09-20 华南理工大学 一种基于知识图谱的电子元器件替代方法、装置及介质
WO2023067431A1 (en) * 2021-10-22 2023-04-27 International Business Machines Corporation Information extraction from document corpora
CN116860893A (zh) * 2023-07-14 2023-10-10 浪潮智慧科技有限公司 一种水利数据管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164432A1 (en) * 2012-12-07 2014-06-12 National Taiwan University Ontology enhancement method and system
CN109615124A (zh) * 2018-11-29 2019-04-12 中国铁路总公司 一种基于深度学习的scada主站负荷预测方法
CN110275959A (zh) * 2019-05-22 2019-09-24 广东工业大学 一种面向大规模知识库的快速学习方法
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN111400455A (zh) * 2020-03-18 2020-07-10 北京工业大学 基于知识图谱的问答系统的关系检测方法
US20200242444A1 (en) * 2019-01-30 2020-07-30 Baidu Usa Llc Knowledge-graph-embedding-based question answering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140164432A1 (en) * 2012-12-07 2014-06-12 National Taiwan University Ontology enhancement method and system
CN109615124A (zh) * 2018-11-29 2019-04-12 中国铁路总公司 一种基于深度学习的scada主站负荷预测方法
US20200242444A1 (en) * 2019-01-30 2020-07-30 Baidu Usa Llc Knowledge-graph-embedding-based question answering
CN110275959A (zh) * 2019-05-22 2019-09-24 广东工业大学 一种面向大规模知识库的快速学习方法
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN111400455A (zh) * 2020-03-18 2020-07-10 北京工业大学 基于知识图谱的问答系统的关系检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUIWEI ZHOU ET AL.: "Improving neural protein-protein interaction extraction with knowledge selection", 《COMPUTATIONAL BIOLOGY AND CHEMISTRY》, pages 1 - 9 *
孙鹏: "语义网中基于描述逻辑的本体推理研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 139 - 177 *
肖寒: "基于几何变换的知识表示研究", 《中国博士学位论文全文数据库 信息科技辑》, pages 138 - 130 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948547A (zh) * 2021-01-26 2021-06-11 中国石油大学(北京) 测井知识图谱构建查询方法、装置、设备及存储介质
CN112948547B (zh) * 2021-01-26 2024-04-09 中国石油大学(北京) 测井知识图谱构建查询方法、装置、设备及存储介质
CN113032415A (zh) * 2021-03-03 2021-06-25 西北工业大学 一种基于用户偏好与知识图谱的个性化产品描述生成方法
CN113032415B (zh) * 2021-03-03 2024-04-19 西北工业大学 一种基于用户偏好与知识图谱的个性化产品描述生成方法
WO2023067431A1 (en) * 2021-10-22 2023-04-27 International Business Machines Corporation Information extraction from document corpora
CN115080587A (zh) * 2022-05-19 2022-09-20 华南理工大学 一种基于知识图谱的电子元器件替代方法、装置及介质
CN115080587B (zh) * 2022-05-19 2024-04-16 华南理工大学 一种基于知识图谱的电子元器件替代方法、装置及介质
CN116860893A (zh) * 2023-07-14 2023-10-10 浪潮智慧科技有限公司 一种水利数据管理方法及系统
CN116860893B (zh) * 2023-07-14 2024-03-08 浪潮智慧科技有限公司 一种水利数据管理方法及系统

Also Published As

Publication number Publication date
CN112084347B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN112084347A (zh) 一种基于知识表示学习的数据检索方法及系统
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN111639171B (zh) 一种知识图谱问答方法及装置
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110765257A (zh) 一种知识图谱驱动型的法律智能咨询系统
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN110866089A (zh) 基于同义多语境分析的机器人知识库构建系统及方法
CN115982338A (zh) 一种基于查询路径排序的领域知识图谱问答方法及系统
Ribeiro et al. Discovering IMRaD structure with different classifiers
CN114493783A (zh) 一种基于双重检索机制的商品匹配方法
Gasmi Medical text classification based on an optimized machine learning and external semantic resource
CN113868406A (zh) 搜索方法、系统、计算机可读存储介质
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
Kelkar et al. Resume analyzer using text processing
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN113449038B (zh) 一种基于自编码器的矿山智能问答系统及方法
CN111191455A (zh) 一种交通事故损害赔偿中法律条文预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant