CN106897403A - 面向知识图谱构建的细粒度中文属性对齐方法 - Google Patents

面向知识图谱构建的细粒度中文属性对齐方法 Download PDF

Info

Publication number
CN106897403A
CN106897403A CN201710077245.8A CN201710077245A CN106897403A CN 106897403 A CN106897403 A CN 106897403A CN 201710077245 A CN201710077245 A CN 201710077245A CN 106897403 A CN106897403 A CN 106897403A
Authority
CN
China
Prior art keywords
attribute
similarity
property value
value
data type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710077245.8A
Other languages
English (en)
Other versions
CN106897403B (zh
Inventor
付琨
许光銮
梁霄
孙显
李峰
孙鸿志
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jigang Defense Technology Co ltd
Aerospace Information Research Institute of CAS
Original Assignee
Institute of Electronics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electronics of CAS filed Critical Institute of Electronics of CAS
Priority to CN201710077245.8A priority Critical patent/CN106897403B/zh
Publication of CN106897403A publication Critical patent/CN106897403A/zh
Application granted granted Critical
Publication of CN106897403B publication Critical patent/CN106897403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。

Description

面向知识图谱构建的细粒度中文属性对齐方法
技术领域
本发明涉及数据处理领域,特别涉及一种面向知识图谱构建的细粒度中文属性对齐方法。
背景技术
关联开放数据LOD(Linking Open Data)项目的出现,促进了大规模语义数据的发布与互联。属性对齐是语义数据集成的一个基础任务,旨在识别来自单一或多个数据源的属性之间存在的对应关系,例如,识别“生日”和“出生日期”之间的同义关系。属性对齐的结果可作为实体对齐及本体构建的基础,因此,在跨数据源的高质量知识图谱的构建中起到重要作用。此外,完善的属性对应关系也有利于提高语义检索、问答系统的召回率。
属性对齐工作主要使用数据驱动的方法,其一般思路是,基于属性的扩展(extension)计算属性相似度,并设定相似度阈值来划分属性间的关系。例如,利用LOD数据集间的owl:sameAs信息确定扩展中的相同实体,通过计算匹配数与共现数的比例确定同义属性,但该方法仅能处理对象属性(object property)。一些改进方法利用属性值的相似度代替完全匹配,因此可识别同义的值属性(datatype property)。例如,通过无监督的方式确定阈值,并使用聚类法获取单一LOD数据集内部的同义属性簇。此外,也有工作对属性间的包含关系进行分析。例如,PARIS方法则在统一的对齐框架内实现了子属性(subproperty)的识别。
上述方法主要面向LOD数据集,例如DBpedia,YAGO,Freebase等。相比较而言,包括中文百科、垂直网站等在内的中文开源数据集大多未经整理,语义信息不完整,已有方法可能因缺乏必要信息而难以发挥优势;且中文表意的灵活性使得属性间的关系更复杂,而已有属性对齐工作通常着眼于发现某种特定关系。
发明内容
鉴于现有方案存在的问题,为了克服上述现有技术方案的不足,本发明提出了一种面向知识图谱构建的细粒度中文属性对齐方法。
根据本发明的一个方面,提供了一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。
从上述技术方案可以看出,本发明具有以下有益效果:
提出基于监督学习的细粒度属性对齐方法,将属性关系的识别建模为多分类问题;
在确定属性类型方面,利用统计理论降低了小概率噪声干扰,因而鲁棒性强,在现有不规范数据集上可达到90%以上的准确率,克服了中文数据集规范性差,语义信息不完整的难题。
与传统对齐方法相比,不仅提高了同义属性识别的准确性,而且可有效发现包含、相关等关系,因而更适用于数据表达灵活、属性关系复杂的开源中文数据集。
附图说明
图1是本发明实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图;
图2本发明实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图;
图3为最佳匹配集确定示例图;
具体实施方式
本发明某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本发明的各种实施例可以许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本发明满足适用的法律要求。
在本说明书中,下述用于描述本发明原理的各种实施例只是说明,不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不悖离本发明的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同附图标记用于相似功能和操作。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明实施例提供了一种基于监督学习的细粒度中文属性对齐方法,该方法首先确定属性的数据类型,在此基础上使用监督学习方法对属性间的同义、包含、相关关系进行统一识别,即实现细粒度的属性对齐。
根据RDF(Resource Description Framework)及OWL(Web Ontology Language)的规范,Web中的资源(或实体)可用一系列形如<主语,谓语,宾语>的三元组描述,三元组的三要素依次对应实体、属性和属性值。其中实体可被划分到不同的类别(概念),如人、动物等;属性可分为值属性(datatype property)或对象属性(object property)两类,前者的属性值为文本,而后者的属性值是实体。考虑到开源中文数据集中的属性值多以自由文本表示,本方法将所有属性简化为值属性。一个属性可能出现在多个三元组中,这些三元组中的实体-属性值元组构成的集合即为该属性的扩展(extension),而扩展中所有实体类别的集合称为属性的定义域(domain)。
图1为本发明实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图,如图1所示,本发明实施例对两个数据集D1,D2进行属性对齐操作,数据集可看作一系列<实体,属性,属性值>三元组构成的集合,其中,数据集D1的实体“李红”具有属性集1包括生日、居住地、丈夫,相应的属性值2为1982.2.26、武汉、王明,数据集D2的同一实体“李红”的属性集1包括出生日、出生地、居住地、配偶、身高,相应的属性值2为1982-2-26、湖北武汉、湖北武汉、王明、172cm。
首先,基于统计的方法判别各个属性的数据类型,例如:经过判别后,数据集D1的属性集1的数据类型分别为时间值、字符串和字符串;数据集D2的属性集1的数据类型分别为时间值、字符串、字符串、字符串和数值。
然后,基于定义的属性相似度,实现不同数据集间的属性细粒度对齐(识别属性间同义、相关、包含等关系)。例如,数据集D1和D2的属性对齐结果为:D1中的属性“生日”与D2中的属性“出生日”为同义关系,D1中的属性“居住地”与D2中的属性“出生地”为相关关系,D1中的属性“丈夫”与D2中的属性“配偶”为包含关系。
通过对数据集D1和D2中的属性进行细粒度对齐,能够消除数据冗余,实现不同数据集间同一实体的数据合并,最终,完成数据集D1和D2的数据融合。
图2示出了本发明实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图,如图2所示,该属性对齐方法包括以下步骤:
步骤A:针对每一数据集的各个属性分别生成属性的扩展。
具体地,一个属性可能出现在多个三元组中,这些三元组中的实体-属性值元组构成的集合即为该属性的扩展(extension)。
步骤B:针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型,即,基于统计对每一数据集中各个属性数据类型进行判别。
一个属性所有属性值的数据类型构成的集合,称为该属性的数据类型。也即给定属性p,其数据类型可表示为
其中,Ep表示属性p的扩展中所有实体构成的集合,le,p表示给定实体e和属性p时对应的属性值,代表属性值le,p的数据类型。
本发明实施例考虑五种数据类型,即数值型、数值范围型、时间值型、时间范围型以及字符串型,记这五种类型构成的集合为U。属性的数据类型是全集U的子集,因为对某些多义属性而言,其不同义项可能对应不同类型。例如属性“出生”可能代表“出生日期”或“出生地点”,其中第一个义项的属性值通常是时间值类型,第二个则是字符串型。
步骤B具体包括:
子步骤B1:确定属性值的数据类型;
考虑到中文开源数据集中属性值表达的灵活性,首先定义原子文本:
若某个文本仅包含一种数据类型的值,则称其为原子文本(atom literal),记为a。例如,“2016年8月”是一个时间值型的原子文本,而“2016年8月为该校投资800万元”同时包含数值、时间值和字符串型的值,因而不是原子文本。
任意属性值l可看作由n(n≥1)个原子文本ai(1≤i≤n)拼接而成,其数据类型通常与其中一个或几个关键的原子文本的类型保持一致。考虑到关键部分在整个文本中的长度比例通常较大,因此使用如下启发式准则判断属性值l的数据类型。
其中I是指示函数,时为1,否则为0;gL为求文本长度的函数。
子步骤B2:确定属性的数据类型。
对于给定属性p,其数据类型可由式(1)确定。但由于开源数据在表达上的多样性和不规范性会带来噪声,导致步骤A1的结果中可能存在一些错误,因此将式(1)修改为
即对属性p的属性值的数据类型进行统计,计算每个类型出现次数占其属性值总数的比例,假定比例低于阈值θ的类型为噪声导致的错误,对其进行舍弃以提高最终判别结果的准确性。
步骤C:基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算。
子步骤C1:属性值相似度的计算;
下面具体说明属性值相似度的计算,即函数sl的确定。关键的原子文本a对属性值表意起到决定性作用,因此也可用于计算属性值的相似度。对于关键原子文本的确定,此处不再使用基于文本长度的规则,而是利用已有的属性数据类型信息,选取数据类型与属性数据类型一致的原子文本,构成关键原子文本集合。表1给出了简单示例。
表1关键原子文本集合的确定示例
两个关键原子文本集合的相似度计算可通过寻找最佳匹配集(Best MatchingCollection)来实现,图3举例说明了最佳匹配集的确定,如图3所示,若给定两个属性值l1和l2的关键原子文本集合A1和A2及其最佳匹配集则属性值的相似度可由下式计算
其中sa函数用于求两个原子文本值的相似度,其具体计算方法随文本的数据类型而变化:
●若两个值都是数值或都是时间值,计算基于相对误差的相似度;
●若两个值都是字符串型的,则综合使用Jaro-Winkler、TF-IDF等方法计算相似度;
●若两个值都是数值范围,则计算其对应边界数值的相似度的均值;若一个为数值,一个为数值范围,则计算前者与后者边界数值相似度的最大值;时间范围同理;
●其余情况下,相似度为0。
子步骤C2:基于属性值相似度计算属性的相似度。
属性的相似度是属性对齐中的常用特征,属性相似度计算基于如下启发式原则:若两个属性常被用于描述相同的实体,且在描述相同实体时其属性值有较高的语义相似度,则它们是相似的。据此,给出计算两个属性p1和p2相似度的方法如下:
其中,sl为计算属性值相似度的函数(如公式4),le,p表示给定实体e和属性p时对应的属性值。计算中利用sigmoid曲线模拟知识置信度,当两个属性出现在相同实体中的次数不小于n(可取经验值10)时置信度达到1,从而降低偶然匹配的影响。
综上,将式(4)带入式(5)中,可求得两个属性的相似度,用于后续的特征生成。
步骤D:根据细粒度属性对齐的需要,针对不同数据集要判别的属性对关系,基于属性间的相似度生成特征。
假设属性p1和p2分别来自任意两个数据集D1和D2,下面以属性间不同关系的特点为出发点,给出分类模型用到的所有特征。
(1)针对所有关系的特征:
属性的相似度是关系识别的基础,故有特征
f1=sp(p1,p2)
(2)针对相关关系的特征:
相关属性可以从关联但不同的角度描述一个实体。假设不同数据集中,具有相同名称的属性是同义的,而单一数据集内部,描述同一实体的各属性互不相同。基于此假设,若数据集D2中存在与p1同名的属性p′1,而p′1与p2频繁出现在同一实体中且相似度较高,则相应的p1与p2可能相关。图1中的相关属性“居住地”和“出生地”反应了此特点。相应的特征如下
f2=sp(p1',p2),f3=sp(p1,p'2)
其中p′2是D1中与p2有同名的属性。
(3)针对包含关系的特征:
在包含关系中,存在父属性与子属性,一个启发式原则是,父属性被使用的场景或上下文通常比子属性广泛。基于此,PARIS方法以两个扩展的交集大小与每个扩展大小的比例作为度量标准,认为比例越小越可能是父属性。该标准定义在实体与属性值层面,对于规范性较低、属性分布差异大的开源数据集来说其表现可能不稳定。比较而言概念定义于更抽象的层面,因而在属性分布不平衡的数据集上较稳定。将PARIS方法中的标准迁移到概念层,给出基于属性定义域的特征。
其中,Mp表示属性p的定义域(即属性p的扩展中所有实体类别的集合),ce表示实体e的概念(即类别)。特征f5是f4的加权表示,每个概念的权重正比于当前属性在该概念下的实体数目。
此外,具有多个义项的属性可能是父属性,例如“出生”是“出生时间”和“出生地点”的父属性。若从数据类型的角度考虑该特点,即子属性的数据类型可能是父属性数据类型的子集,则有如下特征
其中I是指示函数,满足条件时为1否则为0。
步骤E将所述特征输入训练好的分类器,输出分类结果。
具体地,基于上述抽取的特征,本方法预先在训练数据集上人工标注了1000多对属性对齐的结果(涵盖同义、相关、包含、无关等关系),选用随机森林分类器进行模型的训练,并保存模型参数。
针对要判断的不同数据集的任意两个属性间关系,抽取上述特征,输入分类器,从而判别出两个属性的关系(同义、相关、包含或无关),实现监督学习的细粒度中文属性对齐。
至此,本发明实施例中基于监督学习的细粒度中文属性对齐方法介绍完毕,本领域的普通技术人员可对其进行简单地熟知地替换。
前面的附图中所描绘的进程或方法可通过包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,被承载在非瞬态计算机可读介质上的软件),或两者的组合的处理逻辑来执行。虽然上文按照某些顺序操作描述了进程或方法,但是,应该理解,所描述的某些操作能以不同顺序来执行。此外,可并行地而非顺序地执行一些操作。
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换:
(1)使用的分类方法除使用随机森林分类器外,还可以采用其他的有监督分类方法。
(2)属性的数据类型定义还可以按照实际应用需求,增加或减少某些数据类型。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种面向知识图谱构建的细粒度中文属性对齐方法,其特征在于,包括:
步骤A,针对每一数据集的各个属性分别生成属性的扩展;
步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;
步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;
步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;
步骤E,将所述特征输入训练好的分类器,输出分类结果。
2.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,步骤A中属性的扩展是指在该属性所在的语义数据集中,所有该属性相关的实体和属性值对所构成的二元组集合。
3.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,所述的步骤B包括:
步骤B1:确定属性值的数据类型,任意属性值l可看作由n个原子文本ai拼接而成,其中n≥1,1≤i≤n,i,n均为正整数,任意属性值l的数据类型通常与其中一个或几个关键的原子文本的类型保持一致,使用如下启发式准则判断属性值l的数据类型:
t l = arg m a x t &Element; U &Sigma; i = 1 n I ( t a i = t ) &times; g L ( a i ) g L ( l ) ,
其中I是指示函数,时为1,否则为0;gL为求文本长度的函数,U数据类型的集合;
步骤B2:确定属性的数据类型,采用下式,对属性p的所有属性值的数据类型进行统计,即计算每个类型出现次数占其属性值总数的比例,假定比例低于阈值θ的类型为噪声导致的错误,
T P = { t | &Sigma; e &Element; E p I ( t l e , p = t ) | E p | > &theta; , t &Element; U } ,
其中,Ep表示属性p的扩展中所有实体构成的集合,le,p表示给定实体e和属性p时对应的属性值,代表属性值le,p的数据类型。
4.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,所述的步骤C包括:
步骤C1:属性值相似度的计算,若给定两个属性值l1和l2的关键原子文本集合A1和A2及其最佳匹配集则属性值的相似度可由下式计算,
s 1 ( l 1 , l 2 ) = &Sigma; ( a 1 , a 2 ) &Element; B A 1 , A 2 s a ( a 1 , a 2 ) | A 1 | + | A 2 | - | B A 1 , A 2 | ,
其中sa函数用于求两个原子文本值的相似度;
步骤C2:基于属性值相似度计算属性的相似度,计算两个属性p1和p2相似度的公式如下:
s p ( p 1 , p 2 ) = &Sigma; e &Element; E p 1 &cap; E p 2 s 1 ( l e , p 1 , l e , p 2 ) | E p 1 &cap; E p 2 | &times; 1 1 + e n 2 - | E p 1 &cap; E p 2 |
其中,sl为计算属性值相似度的函数,le,p表示给定实体e和属性p时对应的属性值。
5.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,所述的步骤D中,属性p1和p2分别来自任意两个数据集D1和D2,所述的步骤D生成特征包括:
针对所有关系的特征f1=sp(p1,p2);
针对相关关系的特征f2=sp(p′1,p2),f3=sp(p1,p'2)其中,p′1是D2中p1同名的属性,与p'2是D1中与p2有同名的属性;
针对包含关系的特征
f 4 = | M p 1 &cap; M p 2 | | M p 1 | / | M p 1 &cap; M p 2 | | M p 2 | = | M p 2 | | M p 1 |
其中,Mp为属性p的扩展中所有实体类别的集合,ce表示实体e的概念,
f 6 = I ( T p 1 &Subset; T p 2 ) , f 7 = I ( T p 1 &Superset; T p 2 )
其中I是指示函数,满足条件时为1否则为0。
CN201710077245.8A 2017-02-14 2017-02-14 面向知识图谱构建的细粒度中文属性对齐方法 Active CN106897403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710077245.8A CN106897403B (zh) 2017-02-14 2017-02-14 面向知识图谱构建的细粒度中文属性对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710077245.8A CN106897403B (zh) 2017-02-14 2017-02-14 面向知识图谱构建的细粒度中文属性对齐方法

Publications (2)

Publication Number Publication Date
CN106897403A true CN106897403A (zh) 2017-06-27
CN106897403B CN106897403B (zh) 2019-03-26

Family

ID=59198739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710077245.8A Active CN106897403B (zh) 2017-02-14 2017-02-14 面向知识图谱构建的细粒度中文属性对齐方法

Country Status (1)

Country Link
CN (1) CN106897403B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748799A (zh) * 2017-11-08 2018-03-02 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法
CN108376160A (zh) * 2018-02-12 2018-08-07 北京大学 一种中文知识图谱构建方法和系统
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109002470A (zh) * 2018-06-12 2018-12-14 东方银谷(北京)投资管理有限公司 知识图谱构建方法及装置、客户端
CN109255002A (zh) * 2018-09-11 2019-01-22 浙江大学 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN109614497A (zh) * 2018-11-14 2019-04-12 金色熊猫有限公司 基于知识图谱的对齐方法、装置及介质
CN109885697A (zh) * 2019-02-01 2019-06-14 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN109947919A (zh) * 2019-03-12 2019-06-28 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110765276A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 知识图谱中的实体对齐方法及装置
CN110826316A (zh) * 2019-11-06 2020-02-21 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN111814066A (zh) * 2020-07-01 2020-10-23 重庆邮电大学 基于启发式算法的动态社交用户对齐方法及系统
CN114254131A (zh) * 2022-02-28 2022-03-29 南京众智维信息科技有限公司 一种网络安全应急响应知识图谱实体对齐方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202720057U (zh) * 2012-05-25 2013-02-06 嘉兴优太太阳能有限公司 光伏电池焊接测温系统
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106202543A (zh) * 2016-07-27 2016-12-07 苏州家佳宝妇幼医疗科技有限公司 基于机器学习的本体匹配方法和系统
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202720057U (zh) * 2012-05-25 2013-02-06 嘉兴优太太阳能有限公司 光伏电池焊接测温系统
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106202543A (zh) * 2016-07-27 2016-12-07 苏州家佳宝妇幼医疗科技有限公司 基于机器学习的本体匹配方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GIJS VAN ROOIJ ET AL: ""A Data Type-Driven Property Alignment Framework for Product Duplicate Detection on the Web"", 《《WEB INFORMATION SYSTEMS ENGINEERING-WISE 2016》》 *
YU LIU ET AL: ""Property Alignment of Linked Data Based on Similarity between Functions"", 《INTERNATIONAL JOURNAL OF DATABASE THEORY AND APPLICATION》 *
黄峻福 等: ""中文异构百科知识库实体对齐"", 《计算机应用》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748799A (zh) * 2017-11-08 2018-03-02 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法
CN108376160A (zh) * 2018-02-12 2018-08-07 北京大学 一种中文知识图谱构建方法和系统
CN108376160B (zh) * 2018-02-12 2022-02-18 北京大学 一种中文知识图谱构建方法和系统
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109002470A (zh) * 2018-06-12 2018-12-14 东方银谷(北京)投资管理有限公司 知识图谱构建方法及装置、客户端
CN109255002B (zh) * 2018-09-11 2021-08-27 浙江大学 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN109255002A (zh) * 2018-09-11 2019-01-22 浙江大学 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN109614497A (zh) * 2018-11-14 2019-04-12 金色熊猫有限公司 基于知识图谱的对齐方法、装置及介质
CN109885697A (zh) * 2019-02-01 2019-06-14 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN109885697B (zh) * 2019-02-01 2022-02-18 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN109947919A (zh) * 2019-03-12 2019-06-28 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN109947919B (zh) * 2019-03-12 2020-05-15 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110765276A (zh) * 2019-10-21 2020-02-07 北京明略软件系统有限公司 知识图谱中的实体对齐方法及装置
CN110826316A (zh) * 2019-11-06 2020-02-21 北京交通大学 一种应用于裁判文书中敏感信息的识别方法
CN111814066A (zh) * 2020-07-01 2020-10-23 重庆邮电大学 基于启发式算法的动态社交用户对齐方法及系统
CN111814066B (zh) * 2020-07-01 2022-06-03 重庆邮电大学 基于启发式算法的动态社交用户对齐方法及系统
CN114254131A (zh) * 2022-02-28 2022-03-29 南京众智维信息科技有限公司 一种网络安全应急响应知识图谱实体对齐方法

Also Published As

Publication number Publication date
CN106897403B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN106897403A (zh) 面向知识图谱构建的细粒度中文属性对齐方法
Zhang et al. Exploring syntactic structured features over parse trees for relation extraction using kernel methods
Wadud et al. How can we manage offensive text in social media-a text classification approach using LSTM-BOOST
US20190347571A1 (en) Classifier training
Tungthamthiti et al. Recognition of sarcasms in tweets based on concept level sentiment analysis and supervised learning approaches
US20180060306A1 (en) Extracting facts from natural language texts
US8577938B2 (en) Data mapping acceleration
CN103034626A (zh) 情感分析系统及方法
CN106202042A (zh) 一种基于图的关键词抽取方法
CN106909655A (zh) 基于产生式别名挖掘的知识图谱实体发现和链接方法
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN103473380B (zh) 一种计算机文本情感分类方法
Pariyani et al. Hate speech detection in twitter using natural language processing
CN113849597B (zh) 基于命名实体识别的违法广告词检测方法
Dos Santos et al. Multi-domain aspect extraction using bidirectional encoder representations from transformers
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
Bilgin et al. Sentiment analysis with term weighting and word vectors
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Chen et al. Label distribution‐based noise correction for multiclass crowdsourcing
Tungthamthiti et al. Recognition of sarcasm in microblogging based on sentiment analysis and coherence identification
Zhining et al. Combining statistics-based and cnn-based information for sentence classification
Melamud et al. Information-theory interpretation of the skip-gram negative-sampling objective function

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201230

Address after: 250101 No.9, Kuangyuan Road, Gongye North Road, Wangsheren street, Licheng District, Jinan City, Shandong Province

Patentee after: Jigang Defense Technology Co.,Ltd.

Address before: 100190 No. 19 West North Fourth Ring Road, Haidian District, Beijing

Patentee before: Aerospace Information Research Institute,Chinese Academy of Sciences

Effective date of registration: 20201230

Address after: 100190 No. 19 West North Fourth Ring Road, Haidian District, Beijing

Patentee after: Aerospace Information Research Institute,Chinese Academy of Sciences

Address before: 100190 No.19, Beisihuan West Road, Haidian District, Beijing

Patentee before: Institute of Electronics, Chinese Academy of Sciences

TR01 Transfer of patent right