CN110457671A - 一种基于决策树算法的专业实体共指消解方法 - Google Patents

一种基于决策树算法的专业实体共指消解方法 Download PDF

Info

Publication number
CN110457671A
CN110457671A CN201910487123.5A CN201910487123A CN110457671A CN 110457671 A CN110457671 A CN 110457671A CN 201910487123 A CN201910487123 A CN 201910487123A CN 110457671 A CN110457671 A CN 110457671A
Authority
CN
China
Prior art keywords
data
entity
decision tree
coreference resolution
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910487123.5A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Useear Information Technology Co ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910487123.5A priority Critical patent/CN110457671A/zh
Publication of CN110457671A publication Critical patent/CN110457671A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于决策树算法的专业实体共指消解方法,其特征在于,包括以下步骤:选取关键词搜索结果数量为P1,使用intitle指令搜索得到的结果页面数P2,搜索结果第一页中网站内页数P3,关键词在搜索结果第一页中出现的次数P4;按照关键词、P1、P2、P3和P4为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集;根据训练数据集构建决策树,首先对数据集中的数据应用决策树进行预处理,并形成数据对形式;设定权重,进行相似度值计算,并将相似度值与设定的阈值进行比较。本发明具有很好的处理效果,能够满足处理海量数据中实体共指消解的需求,为实体共指消解提供了有效地保证,实用性强,易于推广。

Description

一种基于决策树算法的专业实体共指消解方法
技术领域
本发明涉及专业实体共指消解方法领域,尤其涉及一种基于决策树算法的专业实体共指消解方法。
背景技术
随着工业自动化和信息科技化的不断进步和发展,工业领域企业中产生了多种类型的大批量数据。结构化、半结构化和非结构化数据以指数级的趋势不断增加,给企业分析和处理并更好地利用数据带来了很大的困难。随着信息时代的来临,各种各样的数据源源不断地产生,实体共指消解面临着新的困难和挑战:(1)数据量急剧增多,计算量和计算难度增加,计算效率也成为一个急需解决的问题;(2)数据源多样,存在多种结构化数据,半结构化和非结构化数据占主导,同时存在着很多噪声数据;(3)数据之间有着复杂的关系,需要更多的信息去辨别不同的实体之间的关系。
现有的方法在很多的应用中能够有效地识别实体,但是仍存在很多的不足: (1)当前,实体共指消解存在重名和异名的问题;(2)传统的实体共指消解方法往往是基于元组的相似性比较来获取结果;(3)对数据质量评估的体系不是很完善。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于决策树算法的专业实体共指消解方法,很好的处理效果,能够满足处理海量数据中实体共指消解的需求,为实体共指消解提供了有效地保证,实用性强,易于推广。
(二)技术方案
为解决上述问题,本发明提供了一种基于决策树算法的专业实体共指消解方法,包括以下步骤:
S1、选取关键词搜索结果数量为P1,使用intitle指令搜索得到的结果页面数P2,搜索结果第一页中网站内页数P3,关键词在搜索结果第一页中出现的次数P4;
S2、按照关键词、P1、P2、P3和P4为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集;
S3、根据训练数据集构建决策树,采用C4.5算法构建出相应的决策树,该决策树等价于一系列规则;
S4、首先对数据集中的数据应用决策树进行预处理,并形成数据对形式。
S5、设定权重,进行相似度值计算,并将相似度值与设定的阈值进行比较;
S6、当达到指定阈值时,进行实体统一,即对所有达到阈值的数据对融合为一条数据;
S7、当未达到指定阈值时,则进行实体汇总,将数据对数据汇总到一起,形成一个新的数据集。
优选的,其特征在于,在S3中,C4.5算法是一种贪心算法,即选择最优的一个属性作为下一阶段的检测属性。
优选的,相似度值计算过程为:
对k个字段分别赋予对应的权重w,且每一个字段的w均不相同;
根据k个wi就可以计算每个实体对的相似度,其公式为:
Sim(ei,ej)=Σ(wi,wj)Σwi,(0<i<n;0<j<n;wi>0;wj>0);
在上述公式中,ei和ej表示实体对,当它们两个的k字段信息的内容越相近时,则两个实体越接近同一个实体。
优选的,实体统一的过程为:对所有达到阈值的数据对进行实体统一,即把相同的实体对融合为一条数据,融合过程是将相同类别的实体对进行合并,形成一个实体统一数据集。
本发明的上述技术方案具有如下有益的技术效果:基于决策树算法的专业实体共指消解方法,能够快速、准确的对关键词进行量化分析,提供优化建议,提高工作效率;并解决在大数据环境下的实体共指消解问题,利用决策树算法,结合权重和相似度的度量指标,达到了很好的处理效果,能够满足处理海量数据中实体共指消解的需求,为实体共指消解提供了有效地保证,与现有方法相比,本方法有利于实体共指消解,具有很好的处理效果,实用性强,易于推广。
附图说明
图1为本发明提出的于决策树算法的专业实体共指消解方法的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于决策树算法的专业实体共指消解方法,包括以下步骤:
S1、选取关键词搜索结果数量为P1,使用intitle指令搜索得到的结果页面数P2,搜索结果第一页中网站内页数P3,关键词在搜索结果第一页中出现的次数P4;
S2、按照关键词、P1、P2、P3和P4为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集;
S3、根据训练数据集构建决策树,采用C4.5算法构建出相应的决策树,该决策树等价于一系列规则;
S4、首先对数据集中的数据应用决策树进行预处理,并形成数据对形式。
S5、设定权重,进行相似度值计算,并将相似度值与设定的阈值进行比较;
S6、当达到指定阈值时,进行实体统一,即对所有达到阈值的数据对融合为一条数据;
S7、当未达到指定阈值时,则进行实体汇总,将数据对数据汇总到一起,形成一个新的数据集。
本发明中,基于决策树算法的专业实体共指消解方法,能够快速、准确的对关键词进行量化分析,提供优化建议,提高工作效率;并解决在大数据环境下的实体共指消解问题,利用决策树算法,结合权重和相似度的度量指标,达到了很好的处理效果,能够满足处理海量数据中实体共指消解的需求,为实体共指消解提供了有效地保证,与现有方法相比,本方法有利于实体共指消解,具有很好的处理效果,实用性强,易于推广。
在一个可选的实施例中,其特征在于,在S3中,C4.5算法是一种贪心算法,即选择最优的一个属性作为下一阶段的检测属性。
在一个可选的实施例中,相似度值计算过程为:
对k个字段分别赋予对应的权重w,且每一个字段的w均不相同;
根据k个wi就可以计算每个实体对的相似度,其公式为:
Sim(ei,ej)=Σ(wi,wj)Σwi,(0<i<n;0<j<n;wi>0;wj>0);
在上述公式中,ei和ej表示实体对,当它们两个的k字段信息的内容越相近时,则两个实体越接近同一个实体。
在一个可选的实施例中,实体统一的过程为:对所有达到阈值的数据对进行实体统一,即把相同的实体对融合为一条数据,融合过程是将相同类别的实体对进行合并,形成一个实体统一数据集。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (4)

1.一种基于决策树算法的专业实体共指消解方法,其特征在于,包括以下步骤:
S1、选取关键词搜索结果数量为P1,使用intitle指令搜索得到的结果页面数P2,搜索结果第一页中网站内页数P3,关键词在搜索结果第一页中出现的次数P4;
S2、按照关键词、P1、P2、P3和P4为一条优化数据记录,整理历史优化数据,并对相应的属性进行概化,形成训练数据集;
S3、根据训练数据集构建决策树,采用C4.5算法构建出相应的决策树,该决策树等价于一系列规则;
S4、首先对数据集中的数据应用决策树进行预处理,并形成数据对形式;
S5、设定权重,进行相似度值计算,并将相似度值与设定的阈值进行比较;
S6、当达到指定阈值时,进行实体统一,即对所有达到阈值的数据对融合为一条数据;
S7、当未达到指定阈值时,则进行实体汇总,将数据对数据汇总到一起,形成一个新的数据集。
2.根据权利要求1所述的一种基于决策树算法的专业实体共指消解方法,其特征在于,在S3中,C4.5算法是一种贪心算法,即选择最优的一个属性作为下一阶段的检测属性。
3.根据权利要求1所述的一种基于决策树算法的专业实体共指消解方法,其特征在于,相似度值计算过程为:
对k个字段分别赋予对应的权重w,且每一个字段的w均不相同;
根据k个wi就可以计算每个实体对的相似度,其公式为:
Sim(ei,ej)=Σ(wi,wj)Σwi,(0<i<n;0<j<n;wi>0;w j>0);
在上述公式中,ei和ej表示实体对,当它们两个的k字段信息的内容越相近时,则两个实体越接近同一个实体。
4.根据权利要求1所述的一种基于决策树算法的专业实体共指消解方法,其特征在于,实体统一的过程为:对所有达到阈值的数据对进行实体统一,即把相同的实体对融合为一条数据,融合过程是将相同类别的实体对进行合并,形成一个实体统一数据集。
CN201910487123.5A 2019-06-05 2019-06-05 一种基于决策树算法的专业实体共指消解方法 Pending CN110457671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487123.5A CN110457671A (zh) 2019-06-05 2019-06-05 一种基于决策树算法的专业实体共指消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487123.5A CN110457671A (zh) 2019-06-05 2019-06-05 一种基于决策树算法的专业实体共指消解方法

Publications (1)

Publication Number Publication Date
CN110457671A true CN110457671A (zh) 2019-11-15

Family

ID=68480619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487123.5A Pending CN110457671A (zh) 2019-06-05 2019-06-05 一种基于决策树算法的专业实体共指消解方法

Country Status (1)

Country Link
CN (1) CN110457671A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866317A (zh) * 2019-11-23 2020-03-06 广东科龙模具有限公司 基于产品历史信息及设计行为分析的设计工具包重构方法
CN111191049A (zh) * 2020-01-03 2020-05-22 北京明略软件系统有限公司 信息推送方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968447A (zh) * 2012-10-24 2013-03-13 西安工程大学 基于决策树算法的seo关键词竞争程度计算方法
CN106354787A (zh) * 2016-08-24 2017-01-25 齐鲁工业大学 一种基于相似度的实体共指消解方法
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968447A (zh) * 2012-10-24 2013-03-13 西安工程大学 基于决策树算法的seo关键词竞争程度计算方法
CN106354787A (zh) * 2016-08-24 2017-01-25 齐鲁工业大学 一种基于相似度的实体共指消解方法
CN108021718A (zh) * 2017-12-29 2018-05-11 中国电子科技集团公司信息科学研究院 物联网能力知识图谱及其构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王智强等: "基于决策树的汉语代词共指消解", 《北京邮电大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866317A (zh) * 2019-11-23 2020-03-06 广东科龙模具有限公司 基于产品历史信息及设计行为分析的设计工具包重构方法
CN110866317B (zh) * 2019-11-23 2023-06-30 广东科龙模具有限公司 基于产品历史信息及设计行为分析的设计工具包重构方法
CN111191049A (zh) * 2020-01-03 2020-05-22 北京明略软件系统有限公司 信息推送方法、装置、计算机设备和存储介质
CN111191049B (zh) * 2020-01-03 2023-04-07 北京明略软件系统有限公司 信息推送方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108829858B (zh) 数据查询方法、装置及计算机可读存储介质
US7636713B2 (en) Using activation paths to cluster proximity query results
Marian et al. Adaptive processing of top-k queries in XML
CN103631948B (zh) 命名实体的识别方法
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
CN106557558B (zh) 一种数据分析方法及装置
CN110990638A (zh) 基于fpga-cpu异构环境的大规模数据查询加速装置及方法
TWI643076B (zh) 金融非結構化文本分析系統及其方法
CN104077407B (zh) 一种智能数据搜索系统及方法
WO2015138497A2 (en) Systems and methods for rapid data analysis
Ahmed et al. A literature review on NoSQL database for big data processing
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
Huang et al. Kb-enabled query recommendation for long-tail queries
CN106933906B (zh) 数据多维度的查询方法及装置
CN104965931A (zh) 一种基于大数据的舆情分析方法
Sen et al. Natural language querying of complex business intelligence queries
WO2016029230A1 (en) Automated creation of join graphs for unrelated data sets among relational databases
CN105138577A (zh) 一种基于大数据的事件演化分析方法
CN102819600B (zh) 面向电力生产管理系统关系数据库的关键词搜索方法
CN110457671A (zh) 一种基于决策树算法的专业实体共指消解方法
CN106354787A (zh) 一种基于相似度的实体共指消解方法
Miao et al. A dynamic financial knowledge graph based on reinforcement learning and transfer learning
US11113348B2 (en) Device, system, and method for determining content relevance through ranked indexes
CN112634004B (zh) 征信数据的血缘图谱分析方法与系统
CN117149804A (zh) 数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220907

Address after: 361000 units 1702 and 1703, No. 59, Chengyi North Street, phase III, software park, Xiamen, Fujian

Applicant after: XIAMEN USEEAR INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Unit 1701, unit 1704, No. 59, Chengyi North Street, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: FUJIAN QIDIAN SPACE-TIME DIGITAL TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115