CN105787105B - 一种基于迭代模型的中文百科知识图谱分类体系构建方法 - Google Patents

一种基于迭代模型的中文百科知识图谱分类体系构建方法 Download PDF

Info

Publication number
CN105787105B
CN105787105B CN201610161218.4A CN201610161218A CN105787105B CN 105787105 B CN105787105 B CN 105787105B CN 201610161218 A CN201610161218 A CN 201610161218A CN 105787105 B CN105787105 B CN 105787105B
Authority
CN
China
Prior art keywords
classification
entity
relationship
instance
coh
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610161218.4A
Other languages
English (en)
Other versions
CN105787105A (zh
Inventor
鲁伟明
楼仁杰
邵健
庄越挺
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610161218.4A priority Critical patent/CN105787105B/zh
Publication of CN105787105A publication Critical patent/CN105787105A/zh
Application granted granted Critical
Publication of CN105787105B publication Critical patent/CN105787105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于迭代模型的中文百科知识图谱分类体系构建方法。知识图谱分类体系中包含两类节点:实体节点和类目节点,以及两类关系:Subclass‑of关系和Instance‑of关系。Subclass‑of关系用来描述类目节点之间的上下位层次关系,而Instance‑of关系则用来描述实体节点和类目节点之间的从属关系。结构化中文百科知识图谱中的实体和类目特征;接着,判断类目和类目之间的上下位关系Subclass‑of,以及实体和类目之间的从属关系Instance‑of;最后利用每个类目关联的Instance‑of关系重新计算类目的结构化特征,再利用新的类目特征重新判断Subclass‑of关系和Instance‑of关系。迭代进行以上两个步骤,直到Instance‑of关系不再变化。本迭代方法对Subclass‑of关系和Instance‑of关系的判断结果提升显著,是一种构建中文百科知识图谱分类体系的创新方法。

Description

一种基于迭代模型的中文百科知识图谱分类体系构建方法
技术领域
本发明涉及知识图谱分类体系构建,尤其涉及一种基于迭代模型的中文百科知识图谱分类体系构建方法。
背景技术
知识图谱作为一个结构化的信息网络,打破了原有的关系型数据库的限制,具有非常强大的表达能力,它在信息检索和信息整合等领域扮演着越来越重要的角色。在知识图谱中,分类体系是整个系统的骨干结构,因为它区分了类目和实体,并且指明了类目之间的父子关系,同时还指出了实体所属的类目,使得整个图谱具有拓扑结构。分类体系中主要包含了两类节点:实体节点和类目节点;两类关系:类目之间的上下位关系Subclass-of,实体和类目之间的从属关系Instance-of。Subclass-of关系用来描述类目节点之间的父子关系,Instance-of关系则用来描述实体节点和类目节点的从属关系。通过多年的研究,构建分类体系的主要方法有两个:一是利用启发式规则进行判断,包括词法规则、语法规则、基于连通性的规则等;另一个方法则是利用机器学习来解决问题,机器学习所使用的特征包括从非结构化文本中挖掘到的词向量以及中文百科页面中的结构化信息等。
发明内容
本发明的目的是为了解决构建知识图谱分类体系这一问题,提供一种基于迭代模型的中文百科知识图谱分类体系构建方法,包括如下步骤:
1)对中文百科知识图谱中的实体进行结构化表达;
2)利用中文百科信息中已有的类目与实体之间的关联,通过对实体特征求并集的方法,对知识图谱中的类目进行结构化表达;
3)利用类目的结构化特征,训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass-of;
4)利用实体和类目的结构化特征,以及类目之间的Subclass-of关系约束,在满足Instance-of关系传递性的前提下,用非线性整数规划方法判断实体和类目之间的Instance-of关系;
5)判断步骤4)中获得的Instance-of关系是否有变化,若没有则结束迭代,若有变化则执行步骤6);
6)利用步骤4)中得到的Instance-of关系,重新计算类目的结构化特征,然后跳至步骤3)。
优选的,所述的步骤3)包括:
3.1)寻找类目h可能存在的父类,共有三种搜寻策略:a)基于类目共现频次查找,首先寻找与类目h共现次数最高的类目k,假设类目h与k的共现次数为N,则把与类目h共现次数超过0.8*N的类目放入到类目h的备选父类集合当中;b)基于类目标题词干匹配查找,如果某个类目k的标题是类目h的标题词干,并且两者之间符合有向性条件,则把类目k放入到类目h的备选父类集合当中;c)基于中文百科类目树查找;
3.2)支持向量机模型接受的特征包括语言特征和结构化特征两类,语言特征有词干匹配和修饰词匹配,结构化特征包含内链相似度、属性相似度、目录相似度以及相关词相似度,计算公式如下:
其中hi和he代表两个节点,L代表所有该维度结构化特征的并集,L(hi)和L(he)代表相应维度的结构化特征。
优选的,所述的步骤4)包括:
4.1)寻找实体h可能从属的类目,共有三种搜寻策略:a)基于实体的标签查找,类目是通过实体的标签属性进行抽取的,所以实体的标签集合成为了备选从属类目的主要部分;b)基于实体标题词干匹配查找,根据实体的标题词干选取类目;c)基于实体中文百科页面摘要查找,中文百科页面中的摘要字段,是对词条的简要描述,而摘要中的第一句话是对词条的性质陈述,从实体对应的中文百科页面中抽取出摘要字段,并把摘要字段的第一句话用自然语言处理工具进行分析,选取其中出现的首个类目名词加入到备选类目当中;
4.2)综合3.2)中的多种特征,采用coh(a,h)函数来表示实体a和类目h之间的相关度,计算公式如下:
其中的li表示两项语言特征,dj表示四项结构化特征,wi和wj都代表特征的权重,而μ代表语言特征的权重系数;
4.3)引入非线性整数规划方法判断实体的从属类目,在构建整个分类体系中,必须要协调好Subclass-of关系和Instance-of关系,使它们满足传递性规则,在非线性整数规划中存在一个Subset约束,目标方程如下:
其中Ha代表需要判断是否和实体a有Instance-of关系的类集合,coh(a,hj)代表实体a和类目hj之间的相关度,coh(hk,hj)代表类目hk和类目hj之间的相关度,yj为1代表实体a和类目hj之间存在Instance-of关系,yj为0则表示不存在,最后λ为调和模型准确率和召回率的参数。
优选的,所述的步骤6)包括:
6.1)用Instance-of关系计算类目特征,随着迭代的进行,步骤4)中得到了实体与类目之间的Instance-of关系,利用Instance-of关系可以抽取出新的类目特征;
6.2)每次得到新的类目特征后,采用指数衰减的方式更新类目之间的相关度coh(hi,hj)以及类目和实体之间的相关度coh(a,hi),计算公式如下:
coht+1(a,hi)=β·coht(a,hi)+(1-β)·coh(a,hi)
coh0(a,hi)=coh(a,hi)
其中参数β控制着迭代的指数衰减的速度,函数coht(a,hi)代表t轮迭代中的相关度结果,coh(a,hi)代表在t轮迭代完成后计算出的相关度结果,而最后用coht+1(a,hi)来代表t+1轮迭代中的相关度结果。
本发明所提出的方法与传统独立判断Instance-of关系和Subclass-of关系的方法相比,具有以下优势:
1.获得的Instance-of关系结果在Subclass-of关系约束下满足传递性特征。
2.Instance-of关系和Subclass-of关系能够在迭代过程中不断相互提升,并且相互规范。
附图说明
图1是迭代模型的步骤示意图。
具体实施方式
如图1所示,本发明方法,包括以下步骤:
1)对中文百科知识图谱中的实体进行结构化表达。每个实体都可以用一个六元组来表示:Tuple(a)={T(a),L(a),C(a),P(a),R(a),H(a)},其中a代表实体,T(a)代表实体的标题,L(a)代表实体的内链集合,C(a)代表实体的目录集合,P(a)代表实体的属性集合,R(a)代表实体的相关词集合,H(a)代表实体的标签集合。
2)利用中文百科信息中已有的类目与实体之间的关联,通过对实体特征求并集的方法,对知识图谱中的类目进行结构化表达。每个类目都可以表示成一个六元组:Tuple(h)={T(h),L(h),C(h),P(h),R(h),A(h)},其中h代表类目,T(h)代表类目的标题,A(h)代表类目关联的实体集合,L(h)代表类目的内链集合,C(h)代表类目的目录集合,P(h)代表类目的属性集合,R(h)代表了类目的相关词集。
3)利用类目的结构化特征,训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass-of。
3.1)寻找类目h可能存在的父类,共有三种搜寻策略:a)基于类目共现频次查找,首先寻找与类目h共现次数最高的类目k,假设类目h与k的共现次数为N,则把与类目h共现次数超过0.8*N的类目放入到类目h的备选父类集合当中;b)基于类目标题词干匹配查找,如果某个类目k的标题是类目h的标题词干,并且两者之间符合有向性条件,则把类目k放入到类目h的备选父类集合当中;c)基于中文百科类目树查找;
3.2)支持向量机模型接受的特征包括语言特征和结构化特征两类。语言特征有词干匹配和修饰词匹配,词干匹配用来表示两个类目的标题之间是否有共同的词干,可以通过后缀匹配来检测这一特征。标题具有相同词干的两个类目之间一般存在Subclass-of关系,例如标题为“中国演员”和“演员”的两个类目之间有Subclass-of的关系。同样这一特征也会在判断Instance-of关系中用到,标题具有相同词干的实体和类目之间一般存在Instance-of关系,例如标题为“牡丹鹦鹉”的实体和标题为“鹦鹉”的类目之间存在Instance-of关系。修饰词匹配表示两个类目的标题之间是否存在修饰关系,可以通过前缀匹配来检测。标题具有修饰关系的两个类目之间往往不具有Subclass-of关系,例如标题为“食品安全”和标题为“食品”的两个类目之间不存在Subclass-of关系。同样,我们在判断Instance-of关系中也利用了这一特征,标题之间的修饰关系对Instance-of关系的判定也是消极因素。
3.3)结构化特征包含内链相似度、属性相似度、目录相似度以及相关词相似度,计算公式如下:
其中hi和he代表两个节点,L(hi)和L(he)代表相应维度的集合特征。
支持向量机模型的训练集主要由手工标注生成。
4)利用实体和类目的结构化特征,以及类目之间的Subclass-of关系约束,在满足Instance-of关系传递性的前提下,用非线性整数规划方法判断实体和类目之间的Instance-of关系。
4.1)寻找实体h可能从属的类目,共有三种搜寻策略:a)基于实体的标签查找,类目是通过实体的标签属性进行抽取的,所以实体的标签集合成为了备选从属类目的主要部分;b)基于实体标题词干匹配查找,根据实体的标题词干选取类目;c)基于实体中文百科页面摘要查找,中文百科页面中的摘要字段,是对词条的简要描述,而摘要中的第一句话是对词条的性质陈述,从实体对应的中文百科页面中抽取出摘要字段,并把摘要字段的第一句话用自然语言处理工具进行分析,选取其中出现的首个类目名词加入到备选类目当中;
4.2)综合3)中的多种特征,采用coh(a,h)函数来表示实体a和类目h之间的相关度,计算公式如下:
其中的li表示两项语言特征,dj表示四项结构化特征,wi和wj都代表特征的权重,而μ代表语言特征的权重系数。
4.3)引入非线性整数规划方法判断实体的从属类目,在构建整个分类体系中,必须要协调好Subclass-of关系和Instance-of关系,使它们满足传递性规则,在非线性整数规划中存在一个Subset约束,目标方程如下:
其中Ha代表需要判断是否和实体a有Instance-of关系的类集合,coh(a,hj)代表实体a和类目hj之间的相关度,coh(hk,hj)代表类目hk和类目hj之间的相关度,yj为1代表实体a和类目hj之间存在Instance-of关系,yj为0则表示不存在,最后λ为调和模型准确率和召回率的参数。
5)判断步骤4)中获得的Instance-of关系是否有变化,若没有则结束迭代,若有变化则执行步骤6);
6)利用步骤4)中得到的Instance-of关系,重新计算类目的结构化特征,然后跳至步骤3)。
迭代的循环的部分包括Subclass-of关系的判断、Instance-of关系的判断,以及类目的特征更新。进行迭代优化的关键步骤是利用得到的Instance-of关系,对类目的特征进行更新。类目初始结构化是依靠实体所带的标签,抽取出类目相关的实体集合A(h),进而得到类目的相关特征。这一步骤中存在很多的噪声。但是如果已经得到了实体和类目之间的Instance-of关系,那么就可以利用Instance-of关系来抽取类目的特征,Instance-of关系相当于是对实体的标签进行去噪之后得到的准确率更高的数据,这样结构化类目自然就减少了噪声。所以迭代模型核心是在得到Instance-of关系之后,更新优化类目的特征,再利用更新后的结构化类目来挖掘新的Subclass-of关系,最后是把Subclass-of关系和新的结构化类目反馈到Instance-of关系的判断中。
6.1)用Instance-of关系计算类目特征。随着迭代的进行,步骤4)中得到了实体与类目之间的Instance-of关系,利用Instance-of关系可以抽取出新的类目特征。
6.2)每次得到新的类目特征后,采用指数衰减的方式更新类目之间的相关度coh(hi,hj)以及类目和实体之间的相关度coh(a,hi)。计算公式如下:
coht+1(a,hi)=β·coht(a,hi)+(1-β)·coh(a,hi)
coh0(a,hi)=coh(a,hi)
其中参数β控制着迭代的指数衰减的速度。函数coht(a,hi)代表t轮迭代中的相关度结果,coh(a,hi)代表在t轮迭代完成后计算出的相关度结果。而最后用coht+1(a,hi)来代表t+1轮迭代中的相关度结果。

Claims (2)

1.一种基于迭代模型的中文百科知识图谱分类体系构建方法,其特征在于包括如下步骤:
1)对中文百科知识图谱中的实体进行结构化表达;
2)利用中文百科信息中已有的类目与实体之间的关联,通过对实体特征求并集的方法,对知识图谱中的类目进行结构化表达;
3)利用类目的结构化特征,训练支持向量机模型判断两个类目之间是否存在上下位关系Subclass-of;
所述的步骤3)包括:
3.1)寻找类目h可能存在的父类,共有三种搜寻策略:a)基于类目共现频次查找,首先寻找与类目h共现次数最高的类目k,假设类目h与k的共现次数为N,则把与类目h共现次数超过0.8*N的类目放入到类目h的备选父类集合当中;b)基于类目标题词干匹配查找,如果某个类目k的标题是类目h的标题词干,并且两者之间符合有向性条件,则把类目k放入到类目h的备选父类集合当中;c)基于中文百科类目树查找;
3.2)支持向量机模型接受的特征包括语言特征和结构化特征两类,语言特征有词干匹配和修饰词匹配,结构化特征包含内链相似度、属性相似度、目录相似度以及相关词相似度,结构化特征计算公式如下:
其中hi和he代表两个节点,L代表所有维度结构化特征的并集,L(hi)和L(he)代表相应维度的结构化特征;
4)利用实体和类目的结构化特征,以及类目之间的Subclass-of关系约束,在满足Instance-of关系传递性的前提下,用非线性整数规划方法判断实体和类目之间的Instance-of关系;
所述的步骤4)包括:
4.1)寻找实体h可能从属的类目,共有三种搜寻策略:a)基于实体的标签查找,类目是通过实体的标签属性进行抽取的,所以实体的标签集合成为了备选从属类目的主要部分;b)基于实体标题词干匹配查找,根据实体的标题词干选取类目;c)基于实体中文百科页面摘要查找,中文百科页面中的摘要字段,是对词条的简要描述,而摘要中的第一句话是对词条的性质陈述,从实体对应的中文百科页面中抽取出摘要字段,并把摘要字段的第一句话用自然语言处理工具进行分析,选取其中出现的首个类目名词加入到备选类目当中;
4.2)综合3.2)中的多种特征,采用coh(a,h)函数来表示实体a和类目h之间的相关度,计算公式如下:
其中的li表示词干匹配和修饰词匹配,dj表示内链相似度、属性相似度、目录相似度以及相关词相似度;wi和wj都代表特征的权重,而μ代表语言特征的权重系数;
4.3)引入非线性整数规划方法判断实体的从属类目,在构建整个分类体系中,必须要协调好Subclass-of关系和Instance-of关系,使它们满足传递性规则,在非线性整数规划中存在一个Subset约束,目标方程如下:
Subset={<hi,hj>|hiissubclass-of hj}
其中Ha代表需要判断是否和实体a有Instance-of关系的类集合,coh(a,hj)代表实体a和类目hj之间的相关度,coh(hk,hj)代表类目hk和类目hj之间的相关度,yj为1代表实体a和类目hj之间存在Instance-of关系,yj为0则表示不存在,最后λ为调和模型准确率和召回率的参数;
5)判断步骤4)中获得的Instance-of关系是否有变化,若没有则结束,若有变化则执行步骤6);
6)利用步骤4)中得到的Instance-of关系,重新计算类目的结构化特征,然后跳至步骤3)。
2.根据权利要求1中所述的基于迭代模型的中文百科知识图谱分类体系构建方法,其特征在于所述的步骤6)包括:
6.1)用Instance-of关系计算类目特征,随着迭代的进行,步骤4)中得到了实体与类目之间的Instance-of关系,利用Instance-of关系可以抽取出新的类目特征;
6.2)每次得到新的类目特征后,采用指数衰减的方式更新类目之间的相关度coh(hi,hj)以及类目和实体之间的相关度coh(a,hi),计算公式如下:
coht+1(a,hi)=β·coht(a,hi)+(1-β)·coh(a,hi)
coh0(a,hi)=coh(a,hi)
其中参数β控制着迭代的指数衰减的速度,函数coht(a,hi)代表t轮迭代中的相关度结果,coh(a,hi)代表在t轮迭代完成后计算出的相关度结果,而最后用coht+1(a,hi)来代表t+1轮迭代中的相关度结果。
CN201610161218.4A 2016-03-21 2016-03-21 一种基于迭代模型的中文百科知识图谱分类体系构建方法 Active CN105787105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610161218.4A CN105787105B (zh) 2016-03-21 2016-03-21 一种基于迭代模型的中文百科知识图谱分类体系构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610161218.4A CN105787105B (zh) 2016-03-21 2016-03-21 一种基于迭代模型的中文百科知识图谱分类体系构建方法

Publications (2)

Publication Number Publication Date
CN105787105A CN105787105A (zh) 2016-07-20
CN105787105B true CN105787105B (zh) 2019-04-19

Family

ID=56394288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610161218.4A Active CN105787105B (zh) 2016-03-21 2016-03-21 一种基于迭代模型的中文百科知识图谱分类体系构建方法

Country Status (1)

Country Link
CN (1) CN105787105B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250411A (zh) * 2016-07-22 2016-12-21 广西防城港核电有限公司 一种基于微软SharePoint平台的智能内链实现方法
CN106250412B (zh) * 2016-07-22 2019-04-23 浙江大学 基于多源实体融合的知识图谱构建方法
CN106599098A (zh) * 2016-11-24 2017-04-26 竹间智能科技(上海)有限公司 基于标签信息的用户偏好实体分类方法及系统
CN109033063B (zh) * 2017-06-09 2022-02-25 微软技术许可有限责任公司 基于知识图谱的机器推理方法、电子设备及计算机可读存储介质
CN107908707A (zh) * 2017-11-09 2018-04-13 程杰 一种图片素材库的建立方法及其图片查找方法
CN108304493B (zh) * 2018-01-10 2020-06-12 深圳市腾讯计算机系统有限公司 一种基于知识图谱的上位词挖掘方法及装置
CN108733792B (zh) * 2018-05-14 2020-12-01 北京大学深圳研究生院 一种实体关系抽取方法
CN108984661A (zh) * 2018-06-28 2018-12-11 上海海乂知信息科技有限公司 一种知识图谱中实体对齐方法和装置
CN109840283B (zh) * 2019-03-01 2020-09-01 东北大学 一种基于传递关系的本地自适应知识图谱优化方法
US11068665B2 (en) * 2019-09-18 2021-07-20 International Business Machines Corporation Hypernym detection using strict partial order networks
CN111611343B (zh) * 2020-04-28 2023-06-16 北京智通云联科技有限公司 基于知识图谱最短路径查询的搜索系统、方法及设备
US11501070B2 (en) 2020-07-01 2022-11-15 International Business Machines Corporation Taxonomy generation to insert out of vocabulary terms and hypernym-hyponym pair induction
CN112464115A (zh) * 2020-11-24 2021-03-09 北京字节跳动网络技术有限公司 一种信息展示的方法、装置以及计算机存储介质
CN115905577B (zh) * 2023-02-08 2023-06-02 支付宝(杭州)信息技术有限公司 知识图谱的构建方法及装置、法规检索方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063666A (zh) * 2011-01-06 2011-05-18 西安理工大学 一种用于水利信息集成及数据综合处理的平台系统
WO2013102646A1 (en) * 2012-01-05 2013-07-11 Gramatica Ruggero Information network with linked information nodes
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778238B (zh) * 2014-01-27 2015-03-04 西安交通大学 一种从维基百科半结构化数据自动构建分类树的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063666A (zh) * 2011-01-06 2011-05-18 西安理工大学 一种用于水利信息集成及数据综合处理的平台系统
WO2013102646A1 (en) * 2012-01-05 2013-07-11 Gramatica Ruggero Information network with linked information nodes
CN104035917A (zh) * 2014-06-10 2014-09-10 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
CN104484461A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种基于百科数据对实体进行分类的方法及系统
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mining RDF from Tables in Chinese Encyclopedias;鲁伟明 等;《Springer International Publishing Switzerland》;20151231;第285-298页
基于开放网络知识的信息检索与数据挖掘;王元卓 等;《计算机研究与发展》;20151231;第52卷(第2期);第456-474页

Also Published As

Publication number Publication date
CN105787105A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN105787105B (zh) 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN110110094B (zh) 基于社交网络知识图谱的跨网络人物关联方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN106156286B (zh) 面向专业文献知识实体的类型抽取系统及方法
CN104915340B (zh) 自然语言问答方法及装置
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN104615687B (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN102289522B (zh) 一种对于文本智能分类的方法
CN104778204B (zh) 基于两层聚类的多文档主题发现方法
CN108415902A (zh) 一种基于搜索引擎的命名实体链接方法
CN109815308A (zh) 意图识别模型的确定及检索意图识别方法、装置
CN107862561A (zh) 一种基于图片属性提取建立用户兴趣库的方法及设备
CN106055675A (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN103778227A (zh) 从检索图像中筛选有用图像的方法
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN110502640A (zh) 一种基于建构的概念词义发展脉络的提取方法
CN105654144B (zh) 一种基于机器学习的社交网络本体构建方法
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN108229578B (zh) 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN109345007A (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant