CN111177411A - 一种基于nlp的知识图谱构建方法 - Google Patents
一种基于nlp的知识图谱构建方法 Download PDFInfo
- Publication number
- CN111177411A CN111177411A CN201911382718.0A CN201911382718A CN111177411A CN 111177411 A CN111177411 A CN 111177411A CN 201911382718 A CN201911382718 A CN 201911382718A CN 111177411 A CN111177411 A CN 111177411A
- Authority
- CN
- China
- Prior art keywords
- nlp
- knowledge graph
- knowledge
- structured data
- construction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 239000000463 material Substances 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于NLP的知识图谱构建方法,要解决的是现有素材整理中存在的问题。本发明具体步骤如下:步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。本发明利用NLP技术来做素材的实体及关系抽取,构建知识图谱,然后基于知识图谱做知识检索及知识问答,最终建立智能云,保护革命数字遗产。
Description
技术领域
本发明涉及知识图谱建立领域,具体是一种基于NLP的知识图谱构建方法。
背景技术
随着近年来人们对于精神的越来越重视,相关知识也广泛在群众中流传。随着智能化技术的流传,人们也开始探索知识的智能化建立。
现有的方式需要从网站、书籍、影视作品中收集大量文本素材,这些素材是非结构化的,需要做结构化的实体抽取来构建知识图谱,比如在人物的介绍中,需要提取出人物的姓名、出生日期、逝世日期、籍贯、重要生平事迹等;在景点素材中,需要提取景点名称、地点、重要事件、人物等,虽然抽取这些信息非常简单,但是面对成千上万的素材整理,将是非常巨大的工作量,人们也在进行相关方面的探索。
发明内容
本发明实施例的目的在于提供一种基于NLP的知识图谱构建方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于NLP的知识图谱构建方法,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NLP(Natural Language Processing,自然语言处理)方法进行迭代训练,直至结果的loss不再往下降;
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。
作为本发明实施例进一步的方案:步骤二中还包括评估结果的效果,如果结果的效果不好,继续新增训练样本,优化模型参数,重复步骤一和步骤二,直至评估结果的效果好。
作为本发明实施例进一步的方案:步骤一中素材来自网站、百度百科、书籍和影视作品。
作为本发明实施例进一步的方案:步骤二中采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF (条件随机场)知识抽取模型进行迭代训练,技术成熟,使用效果好。
作为本发明实施例进一步的方案:步骤二中还包括对半结构化数据和结构化数据做人工实体、属性及关系标注,便于后续的迭代训练。
作为本发明实施例进一步的方案:标注的数量为300-600,工作量不大,迭代训练的效果好。
作为本发明实施例进一步的方案:BiLSTM的输出维度是tag size,这就相当于是每个词wi映射到tag的发射概率值,设BiLSTM的输出矩阵为P,其中Pi,j代表词wi映射到tagj的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则Ai,j代表tagi转移到tagj的转移概率,对于输入序列X对应的输出tag序列y,定义分数为
与现有技术相比,本发明实施例的有益效果是:
本发明利用NLP技术来做素材的实体及关系抽取,构建知识图谱,然后基于知识图谱做知识检索及知识问答,最终建立智能云,保护数字遗产,使用效果好。
附图说明
图1为基于NLP的知识图谱构建方法的工作流程图。
图2为基于NLP的知识图谱构建方法中红色实体和关系图。
图3为基于NLP的知识图谱构建方法中BiLSTM和CRF知识抽取模型的原理图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
一种基于NLP的知识图谱构建方法,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材来自网站、百度百科、书籍和影视作品,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NPL中的BiLSTM(双向长短期循环神经网络)和CRF(条件随机场)知识抽取模型进行迭代训练,技术成熟,使用效果好,直至结果的loss不再往下降,BiLSTM 的输出维度是tag size,这就相当于是每个词wi映射到tag的发射概率值,设BiLSTM的输出矩阵为 P,其中Pi,j代表词wi映射到tagj的非归一化概率。对于CRF来说,我们假定存在一个转移矩阵A,则Aij代表tagi转移到tagj的转移概率,对于输入序列X对应的输出tag 序列y,定义分数为
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。
实施例2
一种基于NLP的知识图谱构建方法,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据做人工实体、属性及关系标注,大概标注几百个训练样本,然后通过NLP中的BiLSTM+CRF知识抽取模型进行迭代训练,直到模型loss不再往下降为止。
步骤三,评估模型效果,如果效果不好,继续新增训练样本,优化模型参数,重复步骤一至步骤三,直到效果好为止。
步骤四,编写程序用模型对收集的非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,具体的实体和关系见图2。
步骤五,搭建好知识图谱,最终就是基于知识图谱的应用,包括知识检索、素材的智能推荐、知识问答。
步骤六,知识检索,通过图数据库的Cypher查询语句进行实体和关系的检索。
步骤七,素材的智能推荐,根据用户之前访问过的素材,用词向量的相似度模型做个性化推荐,推荐用户感兴趣的素材。
步骤八,知识问答,基于知识图谱生成常用的问题及对应的Cypher查询语句,作为知识问答模型的训练样本,然后用seq2seq注意力模型进行训练,直到loss不再下降,得到较好的训练结果。训练结束后,就可以用这个模型进行知识问答,用户提问,模型会自动转换成对应的知识图谱查询语句,然后查询图数据库并返回结果给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于NLP的知识图谱构建方法,其特征在于,具体步骤如下:
步骤一,通过人工及编写爬虫脚本采集素材,素材包括结构化数据、半结构化数据和非结构化数据;
步骤二,对半结构化数据和结构化数据采用NLP方法进行迭代训练,直至结果的loss不再往下降;
步骤三,对非结构化数据进行知识抽取,通过实体与实体的关系,构建知识图谱,并把实体和关系存入图数据库,即得到知识图谱。
2.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中还包括评估结果的效果,如果结果的效果不好,继续新增训练样本,优化模型参数,重复步骤一和步骤二,直至评估结果的效果好。
3.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤一中素材来自网站、百度百科、书籍和影视作品。
4.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中采用NPL中的BiLSTM和CRF知识抽取模型进行迭代训练。
5.根据权利要求1所述的基于NLP的知识图谱构建方法,其特征在于,所述步骤二中还包括对半结构化数据和结构化数据做人工实体、属性及关系标注。
6.根据权利要求5所述的基于NLP的知识图谱构建方法,其特征在于,所述标注的数量为300-600。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911382718.0A CN111177411A (zh) | 2019-12-27 | 2019-12-27 | 一种基于nlp的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911382718.0A CN111177411A (zh) | 2019-12-27 | 2019-12-27 | 一种基于nlp的知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111177411A true CN111177411A (zh) | 2020-05-19 |
Family
ID=70654142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911382718.0A Pending CN111177411A (zh) | 2019-12-27 | 2019-12-27 | 一种基于nlp的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177411A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712177A (zh) * | 2020-12-29 | 2021-04-27 | 上海永骁智能技术有限公司 | 一种基于协同处理的知识工程方法与装置 |
CN117059229A (zh) * | 2023-10-09 | 2023-11-14 | 北京健康有益科技有限公司 | 糖尿病配餐方案生成方法、装置、电子设备以及存储介质 |
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN109543047A (zh) * | 2018-11-21 | 2019-03-29 | 焦点科技股份有限公司 | 一种基于医疗领域网站的知识图谱构建方法 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-27 CN CN201911382718.0A patent/CN111177411A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109543047A (zh) * | 2018-11-21 | 2019-03-29 | 焦点科技股份有限公司 | 一种基于医疗领域网站的知识图谱构建方法 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712177A (zh) * | 2020-12-29 | 2021-04-27 | 上海永骁智能技术有限公司 | 一种基于协同处理的知识工程方法与装置 |
CN117059229A (zh) * | 2023-10-09 | 2023-11-14 | 北京健康有益科技有限公司 | 糖尿病配餐方案生成方法、装置、电子设备以及存储介质 |
CN117669718A (zh) * | 2023-12-05 | 2024-03-08 | 广州鸿蒙信息科技有限公司 | 一种基于人工智能的消防知识训练模型及训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN110008354B (zh) | 一种基于知识图谱的对外汉语学习内容的构建方法 | |
WO2020063092A1 (zh) | 知识图谱的处理方法及装置 | |
CN106951558B (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
CN105512349A (zh) | 一种用于学习者自适应学习的问答方法及装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
Alexander et al. | Natural language web interface for database (NLWIDB) | |
CN104008106A (zh) | 一种获取热点话题的方法及装置 | |
CN112417100A (zh) | 辽代历史文化领域知识图谱及其智能问答系统的构建方法 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN105528437A (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN104021198A (zh) | 基于本体语义索引的关系数据库信息检索方法及装置 | |
CN111190920B (zh) | 一种基于自然语言的数据交互查询方法及其系统 | |
CN114238653B (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN112784602B (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN113190593A (zh) | 一种基于数字人文知识图谱的搜索推荐方法 | |
CN112612845A (zh) | 一种组织机构视图实现方法、装置、电子设备及可读存储介质 | |
CN112487020A (zh) | 用于SQL to text的图到自然语言语句的转换方法及系统 | |
CN111177411A (zh) | 一种基于nlp的知识图谱构建方法 | |
CN113946686A (zh) | 电力营销知识图谱构建方法及系统 | |
CN109472282A (zh) | 一种基于极少训练样本的深度图像哈希方法 | |
JP7160986B2 (ja) | 検索モデルの訓練方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム | |
CN111951079A (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |
|
RJ01 | Rejection of invention patent application after publication |