CN111177411A - 一种基于nlp的知识图谱构建方法 - Google Patents

一种基于nlp的知识图谱构建方法 Download PDF

Info

Publication number
CN111177411A
CN111177411A CN201911382718.0A CN201911382718A CN111177411A CN 111177411 A CN111177411 A CN 111177411A CN 201911382718 A CN201911382718 A CN 201911382718A CN 111177411 A CN111177411 A CN 111177411A
Authority
CN
China
Prior art keywords
nlp
knowledge graph
knowledge
structured data
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911382718.0A
Other languages
English (en)
Inventor
王奇锋
林朝福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ganzhou Intelligent Industry Innovation Research Institute
Original Assignee
Ganzhou Intelligent Industry Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ganzhou Intelligent Industry Innovation Research Institute filed Critical Ganzhou Intelligent Industry Innovation Research Institute
Priority to CN201911382718.0A priority Critical patent/CN111177411A/zh
Publication of CN111177411A publication Critical patent/CN111177411A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于NLP的知识图谱构建方法,要解决的是现有素材整理中存在的问题。本发明具体步骤如下:步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。本发明利用NLP技术来做素材的实体及关系抽取,构建知识图谱,然后基于知识图谱做知识检索及知识问答,最终建立智能云,保护革命数字遗产。

Description

一种基于NLP的知识图谱构建方法
技术领域
本发明涉及知识图谱建立领域,具体是一种基于NLP的知识图谱构建方法。
背景技术
随着近年来人们对于精神的越来越重视,相关知识也广泛在群众中流传。随着智能化技术的流传,人们也开始探索知识的智能化建立。
现有的方式需要从网站、书籍、影视作品中收集大量文本素材,这些素材是非结构化的,需要做结构化的实体抽取来构建知识图谱,比如在人物的介绍中,需要提取出人物的姓名、出生日期、逝世日期、籍贯、重要生平事迹等;在景点素材中,需要提取景点名称、地点、重要事件、人物等,虽然抽取这些信息非常简单,但是面对成千上万的素材整理,将是非常巨大的工作量,人们也在进行相关方面的探索。
发明内容
本发明实施例的目的在于提供一种基于NLP的知识图谱构建方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于NLP的知识图谱构建方法,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NLP(Natural Language Processing,自然语言处理)方法进行迭代训练,直至结果的loss不再往下降;
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。
作为本发明实施例进一步的方案:步骤二中还包括评估结果的效果,如果结果的效果不好,继续新增训练样本,优化模型参数,重复步骤一和步骤二,直至评估结果的效果好。
作为本发明实施例进一步的方案:步骤一中素材来自网站、百度百科、书籍和影视作品。
作为本发明实施例进一步的方案:步骤二中采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF (条件随机场)知识抽取模型进行迭代训练,技术成熟,使用效果好。
作为本发明实施例进一步的方案:步骤二中还包括对半结构化数据和结构化数据做人工实体、属性及关系标注,便于后续的迭代训练。
作为本发明实施例进一步的方案:标注的数量为300-600,工作量不大,迭代训练的效果好。
作为本发明实施例进一步的方案:BiLSTM的输出维度是tag size,这就相当于是每个词wi映射到tag的发射概率值,设BiLSTM的输出矩阵为P,其中Pi,j代表词wi映射到tagj的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则Ai,j代表tagi转移到tagj的转移概率,对于输入序列X对应的输出tag序列y,定义分数为
Figure RE-GDA0002412099590000011
利用Softmax函数,我们为每一个正确的tag序列y定义一个概率值(YX代表所有的tag序列,包括不可能出现的)
Figure RE-GDA0002412099590000021
因而在训练中,我们只需要最大化似然概率P(y|X)即可,这里我们利用对数似然
Figure RE-GDA0002412099590000022
与现有技术相比,本发明实施例的有益效果是:
本发明利用NLP技术来做素材的实体及关系抽取,构建知识图谱,然后基于知识图谱做知识检索及知识问答,最终建立智能云,保护数字遗产,使用效果好。
附图说明
图1为基于NLP的知识图谱构建方法的工作流程图。
图2为基于NLP的知识图谱构建方法中红色实体和关系图。
图3为基于NLP的知识图谱构建方法中BiLSTM和CRF知识抽取模型的原理图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种基于NLP的知识图谱构建方法,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材来自网站、百度百科、书籍和影视作品,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF(条件随机场)知识抽取模型进行迭代训练,技术成熟,使用效果好,直至结果的loss不再往下降,BiLSTM 的输出维度是tag size,这就相当于是每个词wi映射到tag的发射概率值,设BiLSTM的输出矩阵为 P,其中Pi,j代表词wi映射到tagj的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则Aij代表tagi转移到tagj的转移概率,对于输入序列X对应的输出tag 序列y,定义分数为
Figure RE-GDA0002412099590000023
利用Softmax函数,我们为每一个正确的tag序列y定义一个概率值(YX代表所有的tag序列,包括不可能出现的)
Figure RE-GDA0002412099590000024
因而在训练中,我们只需要最大化似然概率P(y|X)即可,这里我们利用对数似然
Figure RE-GDA0002412099590000031
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。
实施例2
一种基于NLP的知识图谱构建方法,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据做人工实体、属性及关系标注,大概标注几百个训练样本,然后通过NLP中的BiLSTM+CRF知识抽取模型进行迭代训练,直到模型loss不再往下降为止。
步骤三,评估模型效果,如果效果不好,继续新增训练样本,优化模型参数,重复步骤一至步骤三,直到效果好为止。
步骤四,编写程序用模型对收集的非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,具体的实体和关系见图2。
步骤五,搭建好知识图谱,最终就是基于知识图谱的应用,包括知识检索、素材的智能推荐、知识问答。
步骤六,知识检索,通过图数据库的Cypher查询语句进行实体和关系的检索。
步骤七,素材的智能推荐,根据用户之前访问过的素材,用词向量的相似度模型做个性化推荐,推荐用户感兴趣的素材。
步骤八,知识问答,基于知识图谱生成常用的问题及对应的Cypher查询语句,作为知识问答模型的训练样本,然后用seq2seq注意力模型进行训练,直到loss不再下降,得到较好的训练结果。训练结束后,就可以用这个模型进行知识问答,用户提问,模型会自动转换成对应的知识图谱查询语句,然后查询图数据库并返回结果给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于NLP的知识图谱构建方法,其特征在于,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。
2.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中还包括评估结果的效果,如果结果的效果不好,继续新增训练样本,优化模型参数,重复步骤一和步骤二,直至评估结果的效果好。
3.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤一中素材来自网站、百度百科、书籍和影视作品。
4.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中采用NPL中的BiLSTM和CRF知识抽取模型进行迭代训练。
5.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中还包括对半结构化数据和结构化数据做人工实体、属性及关系标注。
6.根据权利要求5所述的基于NLP的知识图谱构建方法,其特征在于,所述标注的数量为300-600。
7.根据权利要求4所述的基于NLP的知识图谱构建方法,其特征在于,所述BiLSTM的输出维度是tagsize,设BiLSTM的输出矩阵为P,其中Pi,j代表词wi映射到tagj的非归一化概率,Ai,j代表tagi转移到tagi的转移概率,对于输入序列X对应的输出tag序列y,定义分数为
Figure RE-FDA0002412099580000011
YX代表所有的tag序列,
Figure RE-FDA0002412099580000012
CN201911382718.0A 2019-12-27 2019-12-27 一种基于nlp的知识图谱构建方法 Pending CN111177411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911382718.0A CN111177411A (zh) 2019-12-27 2019-12-27 一种基于nlp的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911382718.0A CN111177411A (zh) 2019-12-27 2019-12-27 一种基于nlp的知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN111177411A true CN111177411A (zh) 2020-05-19

Family

ID=70654142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911382718.0A Pending CN111177411A (zh) 2019-12-27 2019-12-27 一种基于nlp的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN111177411A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712177A (zh) * 2020-12-29 2021-04-27 上海永骁智能技术有限公司 一种基于协同处理的知识工程方法与装置
CN117059229A (zh) * 2023-10-09 2023-11-14 北京健康有益科技有限公司 糖尿病配餐方案生成方法、装置、电子设备以及存储介质
CN117669718A (zh) * 2023-12-05 2024-03-08 广州鸿蒙信息科技有限公司 一种基于人工智能的消防知识训练模型及训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729402A (zh) * 2013-11-22 2014-04-16 浙江大学 一种基于图书目录的知识图谱的构建方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729402A (zh) * 2013-11-22 2014-04-16 浙江大学 一种基于图书目录的知识图谱的构建方法
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712177A (zh) * 2020-12-29 2021-04-27 上海永骁智能技术有限公司 一种基于协同处理的知识工程方法与装置
CN117059229A (zh) * 2023-10-09 2023-11-14 北京健康有益科技有限公司 糖尿病配餐方案生成方法、装置、电子设备以及存储介质
CN117669718A (zh) * 2023-12-05 2024-03-08 广州鸿蒙信息科技有限公司 一种基于人工智能的消防知识训练模型及训练方法

Similar Documents

Publication Publication Date Title
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN110008354B (zh) 一种基于知识图谱的对外汉语学习内容的构建方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN106951558B (zh) 一种基于深度搜索的税务智能咨询平台的数据处理方法
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN105512349A (zh) 一种用于学习者自适应学习的问答方法及装置
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
Alexander et al. Natural language web interface for database (NLWIDB)
CN104008106A (zh) 一种获取热点话题的方法及装置
CN112417100A (zh) 辽代历史文化领域知识图谱及其智能问答系统的构建方法
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN104021198A (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN111190920B (zh) 一种基于自然语言的数据交互查询方法及其系统
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN112784602B (zh) 基于远程监督的新闻情感实体抽取方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN112612845A (zh) 一种组织机构视图实现方法、装置、电子设备及可读存储介质
CN112487020A (zh) 用于SQL to text的图到自然语言语句的转换方法及系统
CN111177411A (zh) 一种基于nlp的知识图谱构建方法
CN113946686A (zh) 电力营销知识图谱构建方法及系统
CN109472282A (zh) 一种基于极少训练样本的深度图像哈希方法
JP7160986B2 (ja) 検索モデルの訓練方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム
CN111951079A (zh) 一种基于知识图谱的信用评级方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication