CN110188147B - 基于知识图谱的文献实体关系发现方法及系统 - Google Patents

基于知识图谱的文献实体关系发现方法及系统 Download PDF

Info

Publication number
CN110188147B
CN110188147B CN201910430241.2A CN201910430241A CN110188147B CN 110188147 B CN110188147 B CN 110188147B CN 201910430241 A CN201910430241 A CN 201910430241A CN 110188147 B CN110188147 B CN 110188147B
Authority
CN
China
Prior art keywords
entity relationship
vector
knowledge
document
unconnected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910430241.2A
Other languages
English (en)
Other versions
CN110188147A (zh
Inventor
刘源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wuchangshi Education Technology Co ltd
Original Assignee
Xiamen Wuchangshi Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Wuchangshi Education Technology Co ltd filed Critical Xiamen Wuchangshi Education Technology Co ltd
Priority to CN201910430241.2A priority Critical patent/CN110188147B/zh
Publication of CN110188147A publication Critical patent/CN110188147A/zh
Application granted granted Critical
Publication of CN110188147B publication Critical patent/CN110188147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/80Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
    • Y02A40/81Aquaculture, e.g. of fish

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的文献实体关系发现方法及系统,其根据文献内容中的实体以及实体之间的关系进行构建知识图谱;提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组;对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序;本发明通过以文献内容中的实体为粒度进行构建知识图谱,并基于该知识图谱通过向量计算进行实体关系的匹配,能够深度挖掘文献内容之间的潜在的实体关系,从而提供了一种革新的研究方法来发现人类尚未发现的潜在的知识,加速人类科学发展进程。

Description

基于知识图谱的文献实体关系发现方法及系统
技术领域
本发明涉及信息科学与知识工程技术领域,特别是一种基于知识图谱的文献实体关系发现方法及其应用该方法的系统。
背景技术
学术领域里的瀚海中有很多埋藏在文献里的尚未被挖掘的潜在知识关系或者知识内容,这也是学者们通过大量的文献查阅寻找灵感的工作内容,这就是知识发现的过程。
基于文献的知识发现,更确切的术语是“基于非相关文献的知识发现”,它是1986年由Swanson教授首先提出,其含义是指:"从公开发表的非相关文献中发现某些知识片段间的隐含联系,并在此基础上提出科学假设或猜想,一道科研人员进行攻关或实验,从而发现新知识”。
Swanson提出的知识发现方法首先在生物医学中得到应用。1986年,他发现,雷诺氏病是一种病因和治疗方法均未知的血液循环紊乱疾病。有的文献记载了部分雷诺氏病患者血液中有些异常(如血液黏度偏高),又有一些文献记载了食用鱼油能纠正这些异常(如它可降低血液黏度)。Swanson将34篇论述血液变化可导致雷诺氏病的生物医学文献分为一组(A),而降25篇论述食用鱼油可引起血液某种变化的生物医学文献分为另一组(C),通过雷诺氏病主题词(B)将两组文献类型在一起。在此基础上,Swanson提出科学假设:"食用鱼油会对雷诺氏病患者有益。"当时,这一假设并未以任何形式公开发表过,学术界尚未发现食用鱼油与雷诺氏病之间的联系。两年后,这个科学假设被临床实验所证实。后来,Swanson通过文献研究又发现了偏头痛与镁的11条被忽略掉的联系。他在1998年发表的文章中提出了"镁的缺乏可能引起偏头痛"的假设,后来也被临床实验和脑中镁含量的检测报告所证实。
该基于文献的知识发现不仅适用于科学文献,也同样适用于人文文献。例如,美国为嗯州立大学Cort教授将Swanson方法成功应用于发现Wilson人文数据库中文献间的隐含关系。他发现可以前未被人们发觉的诗人Robert Forst(1874-1963)和希腊哲学家Carneades(公元前214~公元前129年)间的联系。为此证实在人文科学文献中同样存在着许多未被挖掘的隐含联系。
Swanson教授根据其思想开发了Arrowsmith系统。ArrowSmith系统在医疗研究领域证明了这种潜在的关联可以通过文本实体的识别和对发现两者之间的关系:“假设A和C之间存在某些联系,在数据库分别检索形成文献集合A和C,将所有连接两个文献的中间词B根据相对词频B,最后对表中高相关性文献进行深入阅读,已验证假设、找出合理的联系途径”。即,从两个因果关系中可以推导出第三个因果关系,例如,A→B(A引起B),B→C(B引起C),则A→C(A引起C)。
Arrowsmith系统主要是采用标题检索模式或者主题词和文摘检索模式。一方面,ArrowSmith系统检索或推荐内容主要只是基于文章标题或摘要为粒度的,且推荐是需要用户输入搜索索引关键词来进行判断的,属于局域计算,准确性较低;另一方面,ArrowSmith系统需要人为假定预设关联,每一个假设关联在文献环节都需要耗费大量的时间精力,且不一定能够找得到,效率较低。
发明内容
本发明为解决上述问题,提供了一种基于知识图谱的文献实体关系发现方法及系统,其通过以文献内容中的实体为粒度进行构建知识图谱,并基于该知识图谱通过向量计算进行实体关系的匹配,能够深度挖掘文献内容之间的潜在的实体关系,从而提供了一种革新的研究方法来发现人类尚未发现的潜在的知识,加速人类科学发展进程。
为实现上述目的,本发明采用的技术方案为:
一种基于知识图谱的文献实体关系发现方法,其包括以下步骤:
a.根据文献内容中的实体以及实体之间的关系进行构建知识图谱;
b.提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;
c.根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组,所述原生实体关系向量组是指在所述知识图谱中存在关联的向量组,所述未连接的实体关系向量组是指通过向量平移之后经向量匹配度的计算能够进行匹配的向量组;
d.对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序。
优选的,所述的步骤a中,是通过对所述文献内容进行数据结构化处理,并根据得到的结构化数据进行构建知识图谱;其中,所述文献内容包括:文献标题、文献关键词、文献文摘和文献正文,或者,所述文献内容是指文献正文。
进一步的,对所述文献内容进行数据结构化处理,进一步包括以下步骤:
信息抽取:根据RDF框架对所述文献内容进行实体抽取、关系抽取、属性抽取,得到所述文献内容的章节内容和章节知识点;
信息融合:通过自然语义解析技术引入第三方知识库对抽取的实体进行共指解析和实体消歧,得到初步RDF数据;
质量评估:通过机器评估和/或专家人工评估的方法对所述RDF数据进行监督和调试,得到清洁的结构化的RDF数据。
优选的,所述的步骤b中,所述RDF数据包括以下任一项或者两项以上的表现形式的RDF三元组内容:文献内容、文献的实体文本标注的形式表示、RDF三元组向量化表示、一阶逻辑表示。
优选的,所述的步骤d中,还预先对所述未连接的实体关系向量组进行降噪处理,通过对所述未连接的实体关系向量组进行欧式距离或余弦距离加权求和的计算,去除计算结果超过平均值一倍以上的实体关系向量组。
优选的,所述的步骤d中,筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,是采用min函数对符合预设阈值的实体关系向量组进行自动显示排列。
优选的,所述的步骤d中,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序,是采用sort函数根据向量计算偏差从小到大的顺序或者根据词平移距离从小到大的顺序对所述实体关系向量组进行自动显示排列。
优选的,所述文献内容来自单一学科领域的一个以上文献,或者来自跨学科领域的两个以上文献;所述跨学科领域包括以下组合领域中的任一种:医学领域和化学领域的组合、金融学领域和心理学领域和经济学领域的组合;、历史学领域和地理学领域的组合、政治学领域和法学领域和社会学领域的组合、教育学领域和心理学领域的组合。
对应的,本发明还提供一种基于知识图谱的文献实体关系发现系统,其包括:
知识图谱构建模块,其根据文献内容中的实体以及实体之间的关系进行构建知识图谱;
向量化模块,用于提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;
向量组分类模块,其根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组;
向量匹配模块,用于对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序。
本发明的有益效果是:
(1)本发明通过以文献内容中的实体为粒度进行构建知识图谱,并基于该知识图谱通过向量计算进行实体关系的匹配,能够深度挖掘文献内容之间的潜在的实体关系,从而提供了一种革新的研究方法来发现人类尚未发现的潜在的知识,加速人类科学发展进程;
(2)本发明是一种基于大规模领域知识图谱的向量化表示(词向量)指示潜在实体关联性的一种辅助研究方法工具,在一定准确度下指示概念实体之间可能存在的关系,虽不能取代传统科学严谨实验验证的研究步骤,但对研究者们的实验研究方向提供了指导依据,从而便于研究者们通过所得到的潜在实体关系内容根据自身研究领域和知识积累选取感兴趣的关系进行文献研究和实验求证;
(3)现有的文献需要触发输入条件,需要用户输入搜索索引关键词来进行判断的;本发明不需要输入触发条件,而是直接把现有文献库中的实体一次性向量化进行移动匹配的全域计算;
(4)本发明通过匹配平移过的词向量(即未连接的实体关系向量组)来发现众多学术文献内容之中潜在存在的实体关系,实体关系没有必要存在在同一篇文献里;而且,可以发现多个实体之间的关系,信息容纳度更大;比如说A物质B治疗方法C疾病D症状,三者甚至都没有出现在同一篇学术文章里,但是通过词向量平移,发现ABCD之间的向量搭配可以吻合,则指导研究者可以从这种关系入手进行实验,提高研究效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种基于知识图谱的文献实体关系发现方法的流程简图;
图2为本发明一种基于知识图谱的文献实体关系发现方法的向量匹配过程示意图;
图3为本发明一种基于知识图谱的文献实体关系发现系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种基于知识图谱的文献实体关系发现方法,其包括以下步骤:
a.根据文献内容中的实体以及实体之间的关系进行构建知识图谱;
b.提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;
c.根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组;
d.对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序。
其中,所述原生实体关系向量组是指在所述知识图谱中存在关联的向量组(现有已存在关联的知识图谱三元组关系),所述未连接的实体关系向量组是指通过向量平移之后经向量匹配度的计算能够进行匹配的向量组。所述文献内容来自单一学科领域的一个以上文献,或者来自跨学科领域的两个以上文献;所述跨学科领域包括以下组合领域中的任一种:医学领域和化学领域的组合、金融学领域和心理学领域和经济学领域的组合;、历史学领域和地理学领域的组合、政治学领域和法学领域和社会学领域的组合、教育学领域和心理学领域的组合,等等。
所述的步骤a中,是通过对所述文献内容进行数据结构化处理,并根据得到的结构化数据进行构建知识图谱;其中,所述文献内容包括:文献标题、文献关键词、文献文摘和文献正文,或者,所述文献内容是指文献正文。并且,所述文献的定义,是指记录知识的一切载体,包括以下任一项或者两项以上的结合:文档教材、图像教材、视频教材、音频教材、教材习题。
本实施例中,所述对所述文献内容进行数据结构化处理,进一步包括以下步骤:
信息抽取:根据RDF框架对所述文献内容进行实体抽取、关系抽取、属性抽取,得到所述文献内容的章节内容和章节知识点;本实施例中,进一步加入了知识纲要信息进行辅助抽取,即除了自然语义识别文献内容之外,还可以通过知识纲要以及提问、评论的属性对实体进行登记的分类,从而构建出围绕学科教学纲要关联延伸出的章节内容、章节知识点、知识点的具体实用案例问答;
信息融合:通过自然语义解析技术引入第三方知识库对抽取的实体进行共指解析和实体消歧,得到初步RDF数据;该步骤主要是针对多个词汇表达同一个实体的情况,通过自然语义解析(NLP)技术引入第三方知识库(维基、百度、以及对应学术库等)对多种实体指一种概念和同名实体产生歧义的做法;初期在构建的时候需要专家手动操作部分概念进行合并和清理,在整理出框架之后,系统后续可自动在框架内自动添加内容,不需要专家在岗监督;
质量评估:通过机器评估和/或专家人工评估的方法对所述RDF数据进行监督和调试,得到清洁的结构化的RDF数据。
所述的信息抽取步骤中,还进一步对所述文献内容的正文进行信息抽取。具体的,可直接从课程级别的阅读教材、视频(例如ppt+教师声音解读)、练习以及每一个资料下延伸出的讨论提问内容进行拉取。其中,提问以阅读教材选中文字知识点为单位粒度、以视频时段为单位粒度、以单位练习题为单位粒度。抽取之后通过自然语义识别技术导出成基础RDF或同类数据库语言(NLP2RDF过程)进行信息融合,最后通过质量评估得到最终的RDF数据,与文献内容的结构化处理过程相类似,在此不进行赘述。
所述的步骤b中,所述RDF数据包括以下任一项或者两项以上的表现形式的RDF三元组内容:文献内容、文献的实体文本标注的形式表示、RDF三元组向量化表示、一阶逻辑表示。
所述的步骤d中,还预先对所述未连接的实体关系向量组进行降噪处理,由于本发明的向量计算是没有考虑语义的纯向量计算,向量平移太远(或向量移动距离较大)之后可能会降低实际匹配成功率,所以排列会从移动距离较低的组合开始。本发明通过对所述未连接的实体关系向量组进行欧式距离或余弦距离加权求和的计算,去除计算结果超过平均值一倍以上的实体关系向量组,从而实现降噪效果。本实施例中,筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,是采用min函数对符合预设阈值的实体关系向量组进行自动显示排列。根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序,是采用sort函数根据向量计算偏差从小到大的顺序或者根据词平移距离从小到大的顺序对所述实体关系向量组进行自动显示排列。
本实施例中,所述的向量匹配度的计算,可适用于二维空间或三维空间的向量关系的计算;如图2所示,如二维空间中的a-b=c,则说明a向量对应的实体e1和b向量对应的实体e2之间存在c向量代表的r关联。但是,因为a,b和c不是原生实体关系向量组(即,在原知识图谱中是存在关联的向量组合),而是非连接的实体关系向量组(通过向量平移之后通过向量计算能够进行匹配的向量组合)。对于符合计算标准或者偏差值控制在一定范围内(min函数,sort筛选排列)的相似关系组合自动显示排列,供学者研究者们判断挑选进行实验。另外,所述二维空间中的三方(a,b,c)关系(一对一关系),也有可能拓展到多元向量上,同理,也可通过平移向量的计算发现一对多或多对多关系。同样的,采用本发明的方法还可通过三维空间发现四个实体/关系之间的向量关系。本实施例中,所述向量化处理是采用word2vec模型进行训练低维词向量(word embedding),将所有实体rdf结构转化为向量。
如图3所示,与所述的文献实体关系发现方法相对应的,本发明还提供一种基于知识图谱的文献实体关系发现系统,其包括:
知识图谱构建模块,其根据文献内容中的实体以及实体之间的关系进行构建知识图谱;
向量化模块,用于提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;
向量组分类模块,其根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组;
向量匹配模块,用于对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (8)

1.一种基于知识图谱的文献实体关系发现方法,其特征在于,包括以下步骤:
a.根据文献内容中的实体以及实体之间的关系进行构建知识图谱;
所述的步骤a中,是通过对所述文献内容进行数据结构化处理,并根据得到的结构化数据进行构建知识图谱;进一步包括以下步骤:信息抽取:根据RDF框架对所述文献内容进行实体抽取、关系抽取、属性抽取,得到所述文献内容的章节内容和章节知识点;进一步加入了知识纲要信息进行辅助抽取,还进一步对所述文献内容的正文进行信息抽取;
b.提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;
c.根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组;
d.对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序;
所述的步骤d中,还预先对所述未连接的实体关系向量组进行降噪处理,通过对所述未连接的实体关系向量组进行欧式距离或余弦距离加权求和的计算,去除计算结果超过平均值一倍以上的实体关系向量组;
所述原生实体关系向量组是指在所述知识图谱中存在关联的向量组,所述未连接的实体关系向量组是指通过向量平移之后经向量匹配度的计算能够进行匹配的向量组。
2.根据权利要求1所述的一种基于知识图谱的文献实体关系发现方法,其特征在于:所述文献内容包括:文献标题、文献关键词、文献文摘和文献正文,或者,所述文献内容是指文献正文。
3.根据权利要求2所述的一种基于知识图谱的文献实体关系发现方法,其特征在于:对所述文献内容进行数据结构化处理,
信息融合:通过自然语义解析技术引入第三方知识库对抽取的实体进行共指解析和实体消歧,得到初步RDF数据;
质量评估:通过机器评估和/或专家人工评估的方法对所述RDF数据进行监督和调试,得到清洁的结构化的RDF数据。
4.根据权利要求1所述的一种基于知识图谱的文献实体关系发现方法,其特征在于:所述的步骤b中,所述RDF数据包括以下任一项或者两项以上的表现形式的RDF三元组内容:文献内容、文献的实体文本标注的形式表示、RDF三元组向量化表示、一阶逻辑表示。
5.根据权利要求1所述的一种基于知识图谱的文献实体关系发现方法,其特征在于:所述的步骤d中,筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,是采用min函数对符合预设阈值的实体关系向量组进行自动显示排列。
6.根据权利要求1所述的一种基于知识图谱的文献实体关系发现方法,其特征在于:所述的步骤d中,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序,是采用sort函数根据向量计算偏差从小到大的顺序或者根据词平移距离从小到大的顺序对所述实体关系向量组进行自动显示排列。
7.根据权利要求1至6任一项所述的一种基于知识图谱的文献实体关系发现方法,其特征在于:所述文献内容来自单一学科领域的一个以上文献,或者来自跨学科领域的两个以上文献;所述跨学科领域包括以下组合领域中的任一种:医学领域和化学领域的组合、金融学领域和心理学领域和经济学领域的组合;、历史学领域和地理学领域的组合、政治学领域和法学领域和社会学领域的组合、教育学领域和心理学领域的组合。
8.一种根据权要求1所述的基于知识图谱的文献实体关系发现方法的系统,其特征在于,包括:
知识图谱构建模块,其根据文献内容中的实体以及实体之间的关系进行构建知识图谱;
向量化模块,用于提取所述知识图谱中的RDF数据,并对所述RDF数据进行向量化处理,得到向量数据;
向量组分类模块,其根据所述向量数据的关联关系,得到原生实体关系向量组和未连接的实体关系向量组;
向量匹配模块,用于对所述未连接的实体关系向量组进行向量匹配度的计算,并筛选出向量匹配度大于预设阈值的未连接的实体关系向量组,或者,根据计算得到的向量匹配度对所述未连接的实体关系向量组进行排序。
CN201910430241.2A 2019-05-22 2019-05-22 基于知识图谱的文献实体关系发现方法及系统 Active CN110188147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430241.2A CN110188147B (zh) 2019-05-22 2019-05-22 基于知识图谱的文献实体关系发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430241.2A CN110188147B (zh) 2019-05-22 2019-05-22 基于知识图谱的文献实体关系发现方法及系统

Publications (2)

Publication Number Publication Date
CN110188147A CN110188147A (zh) 2019-08-30
CN110188147B true CN110188147B (zh) 2022-06-07

Family

ID=67717267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430241.2A Active CN110188147B (zh) 2019-05-22 2019-05-22 基于知识图谱的文献实体关系发现方法及系统

Country Status (1)

Country Link
CN (1) CN110188147B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688407B (zh) * 2019-09-09 2022-05-17 创新奇智(南京)科技有限公司 一种社会关系挖掘的方法
CN110866124B (zh) * 2019-11-06 2022-05-31 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置
CN111159356B (zh) * 2019-12-31 2023-06-09 重庆和贯科技有限公司 基于教学内容的知识图谱构建方法
CN111460171B (zh) * 2020-03-30 2023-04-07 支付宝(杭州)信息技术有限公司 服务方的目标用户识别方法及装置
CN111523029B (zh) * 2020-04-20 2022-03-25 浙江大学 一种基于知识图谱表示学习的个性化推荐方法
CN111651562B (zh) * 2020-06-05 2023-03-21 东北电力大学 一种基于内容地图的科技文献内容深度揭示方法
CN111767370A (zh) * 2020-06-24 2020-10-13 北京墨丘科技有限公司 一种关联实体挖掘方法、系统及计算机可读介质
CN111930963B (zh) * 2020-09-17 2021-01-05 平安国际智慧城市科技股份有限公司 知识图谱生成方法、装置、电子设备及存储介质
CN116126947B (zh) * 2023-04-18 2023-06-30 西昌学院 应用于企业管理系统的大数据分析方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630901A (zh) * 2015-12-21 2016-06-01 清华大学 一种知识图谱表示学习方法
CN107016068A (zh) * 2017-03-21 2017-08-04 深圳前海乘方互联网金融服务有限公司 知识图谱构建方法及装置
CN108959328B (zh) * 2017-05-27 2021-12-21 株式会社理光 知识图谱的处理方法、装置及电子设备
CN107391906B (zh) * 2017-06-19 2020-04-28 华南理工大学 基于神经网络和图谱结构的健康饮食知识网络构建方法
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN108228758B (zh) * 2017-12-22 2020-09-01 北京奇艺世纪科技有限公司 一种文本分类方法及装置
CN108052683B (zh) * 2018-01-22 2021-08-03 桂林电子科技大学 一种基于余弦度量规则的知识图谱表示学习方法
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质

Also Published As

Publication number Publication date
CN110188147A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110188147B (zh) 基于知识图谱的文献实体关系发现方法及系统
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
US10740678B2 (en) Concept hierarchies
CN106933804B (zh) 一种基于深度学习的结构化信息抽取方法
CN110245238B (zh) 基于规则推理和句法模式的图嵌入方法及系统
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN113569023A (zh) 一种基于知识图谱的中文医药问答系统及方法
CN117033571A (zh) 知识问答系统构建方法及系统
CN115204156A (zh) 关键词提取方法及装置
CN112328766A (zh) 一种基于路径搜索的知识图谱问答方法和装置
CN111651569B (zh) 一种电力领域的知识库问答方法及系统
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
Samih et al. Enhanced sentiment analysis based on improved word embeddings and XGboost.
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
Zschech et al. Towards a text-based recommender system for data mining method selection
CN117216221A (zh) 一种基于知识图谱的智能问答系统及构建方法
CN116562280A (zh) 一种基于通用信息抽取的文献分析系统及方法
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN114942977A (zh) 基于支持句预测的多任务文档级关系抽取方法及装置
CN114860951A (zh) 一种辅助生成领域知识图谱的系统和方法
Dai et al. QAM: question answering system based on knowledge graph in the military
CN113392183A (zh) 一种儿童范畴图谱知识的表征与计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 736, 7th Floor, Building 1B, Yangtze River Delta International R&D Community Launch Zone, No. 286 Qinglonggang Road, High Speed Rail New City, Xiangcheng District, Suzhou City, Jiangsu Province, 215100

Patentee after: Suzhou Wuchangshi Education Technology Co.,Ltd.

Address before: Room 509, 1226-1228 Xiahe Road, Siming District, Xiamen City, Fujian Province, 361000

Patentee before: XIAMEN WUCHANGSHI EDUCATION TECHNOLOGY Co.,Ltd.