CN110399496A - 一种基于cr决策树的知识图谱构建方法 - Google Patents

一种基于cr决策树的知识图谱构建方法 Download PDF

Info

Publication number
CN110399496A
CN110399496A CN201910587801.5A CN201910587801A CN110399496A CN 110399496 A CN110399496 A CN 110399496A CN 201910587801 A CN201910587801 A CN 201910587801A CN 110399496 A CN110399496 A CN 110399496A
Authority
CN
China
Prior art keywords
attribute
knowledge
entity
knowledge mapping
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910587801.5A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Knight Source Information Technology Co Ltd
Original Assignee
Xiamen Knight Source Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Knight Source Information Technology Co Ltd filed Critical Xiamen Knight Source Information Technology Co Ltd
Priority to CN201910587801.5A priority Critical patent/CN110399496A/zh
Publication of CN110399496A publication Critical patent/CN110399496A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于CR决策树的知识图谱构建方法,所述构建方法包括以下步骤;S1、采集所有知识并构建知识实体属性资料库;S2、获取知识图谱构建的语料数据;S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;S4、对语料数据集采用混合式方法进行实体属性知识扩充;S5、对步骤4所得的实体属性知识进行实体属性值融合;S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;S7、通过CR决策树并根据实体关系实现对知识图谱的构建。本发明不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。

Description

一种基于CR决策树的知识图谱构建方法
技术领域
本发明涉及知识图谱构建技术领域,尤其涉及一种基于CR决策树的知识图谱构建方法。
背景技术
知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
在工作中,对不同知识信息需要进行不同类型的处理,由于其信息内容的庞大性,相同或相似信息在不同地区的展现形式存在差异,例如名称或词语的描述彼此不同,从而影响信息工作准确快速进行,需要通过对信息进行知识图谱的构建,以便工作正常有序进行;目前的知识图谱构建方法效率差,且图谱精度不高,容易因存在错误影响工作的正常进行。
为解决上述问题,本申请中提出一种基于CR决策树的知识图谱构建方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于CR决策树的知识图谱构建方法,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。
(二)技术方案
为解决上述问题,本发明提供了一种基于CR决策树的知识图谱构建方法,所述构建方法包括以下步骤;
S1、采集所有知识并构建知识实体属性资料库;
S2、获取知识图谱构建的语料数据;
S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;
S4、对语料数据集采用混合式方法进行实体属性知识扩充;
S5、对步骤4所得的实体属性知识进行实体属性值融合;
S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;
S7、通过CR决策树并根据实体关系实现对知识图谱的构建。
优选的,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。
优选的,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:
S31、对语料数据进行整合得到语料文本域;
S32、对语料文本域进行分组;
S33、对各语料文本域分别进行域分词处理;
S34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;
S35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。
优选的,所述步骤S33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
优选的,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
优选的,所述步骤5对实体属性值融合包括以下内容:
根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;
首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;
其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;
最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。
优选的,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。
本发明的上述技术方案具有如下有益的技术效果:通过建立知识实体资料库,便于对实体关系进行确认,以便于对知识图谱的构建,对获取的知识数据进行预处理,便于对语料数据进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性;通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模;通过CR决策树对知识图谱进行构建,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。
附图说明
图1为本发明提出的一种基于CR决策树的知识图谱构建方法的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于CR决策树的知识图谱构建方法,所述构建方法包括以下步骤;
S1、采集所有知识并构建知识实体属性资料库;
S2、获取知识图谱构建的语料数据;
S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;
S4、对语料数据集采用混合式方法进行实体属性知识扩充;
S5、对步骤4所得的实体属性知识进行实体属性值融合;
S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;
S7、通过CR决策树并根据实体关系实现对知识图谱的构建。
本发明中,通过建立知识实体资料库,便于对实体关系进行确认,以便于对知识图谱的构建,对获取的知识数据进行预处理,便于对语料数据进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性;通过将实体属性知识的扩充和属性值的融合,一方面提高了领域知识获取的准确率,另一方面极大增加了获取的领域实体知识的规模;通过CR决策树对知识图谱进行构建,不仅提高对知识图谱构建效率和准确性,同时所构建出的知识图谱更形象直观。
在一个可选的实施例中,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。
需要说明的是,实体的多值属性是指实体的属性存在多个属性值,实体的固定型单值属性是指实体的属性只存在一个属性值且表示方式唯一,实体的非固定型单值属性是指实体的属性只存在一个属性值,但表示方式不唯一。
在一个可选的实施例中,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:
S31、对语料数据进行整合得到语料文本域;
S32、对语料文本域进行分组;
S33、对各语料文本域分别进行域分词处理;
S34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;
S35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。
需要说明的是,通过将语料数据整合为语料文本域,便于对语料数据进行分组分词处理,通过对语料文本域进行分组和分词处理,便于对语料文本域进行类型划分和内容的精简,以提高对知识图谱的构建效率和准确性。
在一个可选的实施例中,所述步骤S33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
需要说明的是,多种分词方法确保分词准确性,基于字符串匹配的分词方法是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功;
基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
基于统计的分词方法从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典。
在一个可选的实施例中,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
需要说明的是,基于理解的分词方法按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配;以减少匹配的错误率,从而极大地提高切分的准确率。
在一个可选的实施例中,所述步骤5对实体属性值融合包括以下内容:
根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;
首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;
其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;
最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。
需要说明的是,通过对实体属性值进行融合,极大扩充了现有领域知识图谱的知识规模,提高对知识图谱构建的效率和准确性。
在一个可选的实施例中,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。
需要说明的是,用这种方法构建模式集合减少了大量的人工参与,特征的提取更加简单有效。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于CR决策树的知识图谱构建方法,其特征在于,所述构建方法包括以下步骤;
S1、采集所有知识并构建知识实体属性资料库;
S2、获取知识图谱构建的语料数据;
S3、对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集;
S4、对语料数据集采用混合式方法进行实体属性知识扩充;
S5、对步骤4所得的实体属性知识进行实体属性值融合;
S6、通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系;
S7、通过CR决策树并根据实体关系实现对知识图谱的构建。
2.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤1采集所有知识并构建知识实体属性资料库包括以下内容:首先采集领域实体词条构建为语料集,并定义领域实体的基本属性及其属性值的词性,以及根据领域实体的基本属性的特点,将其划分为多值属性、固定型单值属性或非固定型单值属性类别。
3.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤3对获取的知识图谱构建语料数据进行预处理,得到图谱构建语料数据集包括以下步骤:
S31、对语料数据进行整合得到语料文本域;
S32、对语料文本域进行分组;
S33、对各语料文本域分别进行域分词处理;
S34、根据无效词汇表进行无效词汇过滤,过滤掉无效词汇和敏感词汇;
S35、将有效词汇与资料库中词汇表进行比对,将新词汇加入到资料库的词汇列表,对己有词汇进行累加其出现的频次。
4.根据权利要求3所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤S33中的分词处理包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或多种。
5.根据权利要求4所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述基于字符串匹配的分词方法包括正向最大匹配法、逆向最大匹配法、最少切分和双向最大匹配法。
6.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤5对实体属性值融合包括以下内容:
根据领域实体基本属性的特点,将属性划分为多值属性、固定型单值属性、非固定型单值属性三种类别;
首先,采用一种基于来源可信度的方法对多值属性的属性值进行融合;
其次,采用一种基于内容可信度的方法对固定型单值属性的属性值进行融合;
最后,采用如下一种基于学习排序的方法对非固定型单值属性的属性值进行融合。
7.根据权利要求1所述的一种基于CR决策树的知识图谱构建方法,其特征在于,所述步骤6通过预先构建的知识实体属性资料库定义实体关系类型及基于实体的特征,抽取实体关系中,釆用句法分析及词法分析将实体关系转化为特征向量,继而采用机器学习模型进行处理,计算特征向量的相似度,并对实体关系进行分类。
CN201910587801.5A 2019-07-02 2019-07-02 一种基于cr决策树的知识图谱构建方法 Withdrawn CN110399496A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910587801.5A CN110399496A (zh) 2019-07-02 2019-07-02 一种基于cr决策树的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910587801.5A CN110399496A (zh) 2019-07-02 2019-07-02 一种基于cr决策树的知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN110399496A true CN110399496A (zh) 2019-11-01

Family

ID=68323921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910587801.5A Withdrawn CN110399496A (zh) 2019-07-02 2019-07-02 一种基于cr决策树的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110399496A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488464A (zh) * 2020-04-14 2020-08-04 腾讯科技(深圳)有限公司 实体属性处理方法、装置、设备及介质
CN111651579A (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 信息查询方法、装置、计算机设备和存储介质
CN111814472A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN112417100A (zh) * 2020-11-20 2021-02-26 大连民族大学 辽代历史文化领域知识图谱及其智能问答系统的构建方法
CN114722215A (zh) * 2022-04-18 2022-07-08 成都卓讯智安科技有限公司 一种知识图谱模型的构建方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN109614496A (zh) * 2018-09-27 2019-04-12 长威信息科技发展股份有限公司 一种基于知识图谱的低保鉴别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN109614496A (zh) * 2018-09-27 2019-04-12 长威信息科技发展股份有限公司 一种基于知识图谱的低保鉴别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙婉莹: "面向知识图谱的共指消解方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488464A (zh) * 2020-04-14 2020-08-04 腾讯科技(深圳)有限公司 实体属性处理方法、装置、设备及介质
CN111651579A (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 信息查询方法、装置、计算机设备和存储介质
CN111651579B (zh) * 2020-06-03 2023-05-09 腾讯科技(深圳)有限公司 信息查询方法、装置、计算机设备和存储介质
CN111814472A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN112417100A (zh) * 2020-11-20 2021-02-26 大连民族大学 辽代历史文化领域知识图谱及其智能问答系统的构建方法
CN114722215A (zh) * 2022-04-18 2022-07-08 成都卓讯智安科技有限公司 一种知识图谱模型的构建方法和系统

Similar Documents

Publication Publication Date Title
CN110399496A (zh) 一种基于cr决策树的知识图谱构建方法
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
Hu et al. A state-transition framework to answer complex questions over knowledge base
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
RU2619193C1 (ru) Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN108874878A (zh) 一种知识图谱的构建系统及方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106776562A (zh) 一种关键词提取方法和提取系统
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN107315734B (zh) 一种基于时间窗口和语义的变体词规范化的方法和系统
CN102063424A (zh) 一种中文分词方法
CN102402561B (zh) 一种搜索方法和装置
CN113722490B (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN108717405B (zh) 基于思维导图的楼梯设计规范缺省主语的补全方法
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN103678287A (zh) 一种关键词翻译统一的方法
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
CN109299248A (zh) 一种基于自然语言处理的商业情报收集方法
CN108287825A (zh) 一种术语识别抽取方法及系统
CN109783819A (zh) 一种正则表达式的生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191101