CN106940702A - 连接短文本中实体提及与语义知识库中实体的方法和设备 - Google Patents
连接短文本中实体提及与语义知识库中实体的方法和设备 Download PDFInfo
- Publication number
- CN106940702A CN106940702A CN201610006846.5A CN201610006846A CN106940702A CN 106940702 A CN106940702 A CN 106940702A CN 201610006846 A CN201610006846 A CN 201610006846A CN 106940702 A CN106940702 A CN 106940702A
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- candidate
- referred
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种连接短文本中实体提及与语义知识库中实体的方法和设备。该方法包括:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;确定候选实体和实体提及所属的类别;确定实体提及所属的类别的最具区分性的属性集合;基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及基于所述相似度,选择候选实体与实体提及连接。
Description
技术领域
本发明一般地涉及信息处理领域。具体而言,本发明涉及一种能够将短文本中的实体提及与语义知识库中的实体连接的方法和设备。
背景技术
近年来,随着互联网语义知识库如DBPedia和短文本信息平台如微博、短信等的飞速发展,如何将短文本中的“实体提及(mention)”与互联网语义知识库中的实体(entity)相关联,从而将短文本内容语义化是语言信息处理领域亟待解决的问题之一。
将短文本内容语义化使得用户和计算机可以有效地检索和利用短文本的语义信息,同时也为实现短文本数据的语义分析提供必要的基础。另外,还可以对互联网知识库进行实时扩充,提高互联网知识库的动态更新能力。
因此,本发明旨在准确地将短文本中的实体提及与语义知识库中的实体连接。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是提出一种能够将短文本中的实体提及与语义知识库中的实体连接的方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种将短文本中的实体提及与语义知识库中的实体连接的方法,该方法包括:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;确定候选实体和实体提及所属的类别;确定实体提及所属的类别的最具区分性的属性集合;基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及基于所述相似度,选择候选实体与实体提及连接。
根据本发明的另一个方面,提供了一种将短文本中的实体提及与语义知识库中的实体连接的设备,该设备包括:候选实体选择装置,被配置为:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;类别确定装置,被配置为:确定候选实体和实体提及所属的类别;属性集合确定装置,被配置为:确定实体提及所属的类别的最具区分性的属性集合;相似度计算装置,被配置为:基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及连接装置,被配置为:基于所述相似度,选择候选实体与实体提及连接。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的方法的流程图;
图2示出了确定候选实体和实体提及所属的类别的第一方法的流程图;
图3示出了确定候选实体和实体提及所属的类别的第二方法的流程图;
图4示出了根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的设备的结构方框图;以及
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
下面将参照图1描述根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的方法的流程。
图1示出了根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的方法的流程图。如图1所示,根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的方法包括如下步骤:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体(步骤S1);确定候选实体和实体提及所属的类别(步骤S2);确定实体提及所属的类别的最具区分性的属性集合(步骤S3);基于该属性集合,计算属于该类别的候选实体与实体提及的相似度(步骤S4);以及基于所述相似度,选择候选实体与实体提及连接(步骤S5)。
在步骤S1中,选择与短文本中的实体提及相关的候选实体。
也就是说,先初步选择一些潜在的连接对象,作为候选,然后在后续的步骤中,加以筛选。
具体的实现方式有多种。例如,可以将语义知识库中的实体名与实体提及相同的同名实体,选择为候选实体。该知识库包括但不限于与该方法所应用的场景对应的特定知识库,例如互联网语义知识库Wikipedia(维基百科)、DBPedia、BaiduBaike(百度百科)等。例如当实体提及为“apple”时,从互联网语义知识库中可能搜索到“苹果”、“美国苹果公司”等多个候选实体。
也可以将语义知识库中的与同名实体存在等价关系的实体,选择为候选实体,其中,等价关系包括重定向关系和别称关系。例如,对于实体提及“IBM”,在知识库中搜索得到的内容中,包括重定向链接“国际商业机器股份有限公司”,该内容可以作为实体提及“IBM”的候选实体。
或者,将语义知识库中的、实体提及作为锚文本链接到的实体,选择为候选实体。对于实体提及“华盛顿”,点击网页的锚文本“华盛顿”,链接到百科中的“美国首都华盛顿”、链接到“美国人华盛顿”,则“美国首都华盛顿”、“美国人华盛顿”可以作为实体提及“华盛顿”的候选实体。
又或者,将语义知识库中的与实体提及存在百科中的消歧关系的实体,选择为候选实体。例如,对于实体提及“苹果”,在知识库中搜索得到消歧义页面,其中,“苹果公司”、“苹果日报”、“苹果(电影)”等都可以作为实体提及“苹果”的候选实体。
再如,将语义知识库中的实体名与实体提及在实体描述文本中具有指代关系的实体,选择为候选实体。还可以将语义知识库中的实体名与实体提及在实体提及所在的文本中具有指代关系的实体,选择为候选实体。
其中,是否具有指代关系根据语义知识库中的实体的实体名与实体提及在该实体的实体描述文本或实体提及所在的文本中是否符合特定指代模式确定。是否具有指代关系也可以依赖于对语义知识库中的该实体的实体描述文本或该实体提及所在的文本进行文本分析来确定。文本分析包括指代消解。
例如,短文本“IBM(国际商业机器股份有限公司)”、“Agricultural Bankof China(ABC)”中括号前和括号中的内容、“计算机又称为电脑”中“又称为”前后的内容、“北京时间3月12日,2013亚冠联赛小组赛第二轮,广州恒大足球俱乐部客场挑战全北现代,广州恒大首发已经公布”中的“广州恒大”和“广州恒大足球俱乐部”符合特定指代模式,并且可以通过文本分析如指代消解确定具有指代关系。
在步骤S2中,确定候选实体和实体提及所属的类别。以下给出两种示例性的实施方式,但本发明不限于此。
类别可以是已有知识库中实体的分类体系,例如,类别可以分为组织机构、人物、地名、建筑物等。至少部分实体在知识库中存在类型信息,因此使用该信息确定实体提及或无类型信息的候选实体的类别,例如方式一。另外,可以根据已有类型信息的实体构建训练数据,训练分类器,并利用该分类器对无类型信息的候选实体或实体提及进行分类。例如方式二。
方式一:利用主题向量确定实体提及或无类型信息的候选实体所属的类别。
图2示出了确定候选实体和实体提及所属的类别的第一方法的流程图。
具体地,在步骤S21中,获得实体提及所在的文本或无类型信息的候选实体的实体描述文本(例如,主题subject、注释说明comment、摘要abstract)对应的第一主题向量。可以通过将实体提及所在的文本或无类型信息的候选实体的实体描述文本输入主题模型来获得该向量。
在步骤S22中,获得每一类别的实体的实体描述文本对应的第二主题向量。可以通过将每一类别的实体的实体描述文本输入主题模型来获得该向量。
在步骤S23中,计算第一主题向量与每一类别的第二主题向量的平均相似度。
也就是说,分别计算第一主题向量与每一类别的一个或更多个实体对应的一个或更多个第二主题向量之间的相似度,向量的相似度例如基于余弦夹角计算,然后计算每一类别下的相似度的平均值。
在步骤S24中,将平均相似度最大的类别确定为实体提及或无类型信息的候选实体所属的类别。
即,比较每一类别的平均相似度的大小,选取其中的最大平均相似度,将与最大平均相似度对应的类别确定为实体提及或无类型信息的候选实体所属的类别。
方式二:利用分类器确定候选实体和实体提及所属的类别。
图3示出了确定候选实体和实体提及所属的类别的第二方法的流程图。
具体地,在步骤S31中,基于如下特征中的至少一个,训练分类器:每一类别的实体的实体描述文本与预定义模板的匹配情况、所述实体描述文本是否包含每一类别相关的关键词、每一类别的实体在百科中对应的主题信息、每一类别的实体关联的属性类型。
预定义模板特征:每一类别的实体的实体描述文本与预定义模板的匹配情况是指预定义模板能够匹配每一类别的实体的实体描述文本,则该特征为1,否则为0。
预定义模板的示例如下,左侧列出了多个示例类别,右侧列出了与类别分别对应的预定义模板示例。
关键词特征:每一类别的实体的实体描述文本是否包含每一类别相关的关键词是指从每一类别的实体的实体描述文本中抽取一些关键词,作为每一类别相关的关键词。判断每一类别的实体的实体描述文本中是否包括这些关键词,如果包含这些关键词中的至少一个,则该特征为1,否则为0。每一类别相关的关键词的示例如下,左侧列出了多个示例类别,右侧列出了与类别分别对应的关键词示例。
百科主题特征:每一类别的实体在百科中对应的主题信息例如是实体青龙山在例如百度百科中的主题信息。判断每一类别的实体的实体描述文本中是否包括这些主题信息,如果包含这些主题信息中的至少一个,则该特征为1,否则为0。每一类别相关的主题信息的示例如下,左侧列出了多个示例类别,右侧列出了与类别分别对应的主题信息示例。
关联属性类型特征:每一类别的实体关联的属性类型是指每一类别的实体在知识库中具有常见或固有的若干类型的属性。例如,类别为“人”的实体通常包括“出生日期”、“出生地点”、“国籍”等属性。类别为“公司”的实体通常包括“注册地址”、“成立时间”、“经营范围”等属性。判断每一类别的实体是否包括这些属性,如果包含这些属性中的至少一个,则该特征为1,否则为0。
在步骤S32中,利用分类器,对候选实体和实体提及进行分类。
进行分类时,预定义模板特征、关键词特征、百科主题特征都是基于候选实体的实体描述文本、实体提及所在的文本,关联属性类型特征基于候选实体和实体提及本身。
在步骤S3中,确定实体提及所属的类别的最具区分性的属性集合。
将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性。
下面给出了属性的属性区分度的两种示例性计算方式。
方式一:针对语义知识库中每个类别下的每个属性,统计语义知识库中该属性在该类别下出现的第一频率;统计语义知识库中该类别下该属性的每个属性值在该属性下出现次数相关的第二频率;计算第一频率与第二频率之积,作为该类别下的该属性的属性区分度。
举例来说,对某一类候选实体集合E,E中的每个候选实体ei具有m(ei)个属性、m(ei)个属性值vj,为了简单起见,这里假设一个属性对应一个属性值,其中i和j是序号。统计E中属性的第一频率pf,以及属性值的第二频率ief。pf为属性p在集合E所有属性中出现的频率,ief计算方法如下,该属性的每个属性值在该属性下出现的次数的倒数进行求和,然后再除以该属性出现的总数。在表1的例子中,p1对应的pf=3,p1对应的属性值有v1,v4,v7,那么p1对应的ief=(1/1+1/1+1/1)/3=1.0。p2对应的pf=3,p2对应的属性值有v2和v5,其中v2出现一次,v5出现2次,那么p2对应的ief=(1/1+1/2)/3=0.5。p3对应的pf=3,p3对应的属性值只有v3,那么p3对应的ief=(1/3)/3=0.11。那么E所对应类别下的p1、p2、p3的属性区分度分别为3*1.0=3.0、3*0.5=1.5、3*0.11=0.33。可以设定区分阈值δ,大于δ的属性构成该类别的最具区分性的属性集合。并且,将该类别的最具区分性的属性集合中的属性的属性区分度归一化。
实体 | 属性 | 属性值 |
e1 | p1 | v1 |
p2 | v2 | |
p3 | v3 | |
e2 | p1 | v4 |
p2 | v5 | |
p3 | v3 | |
p4 | v6 | |
e3 | p1 | v7 |
p2 | v5 | |
p3 | v3 |
表1.候选实体属性及其属性值示例
方式二:针对语义知识库中每个类别下的每个属性,计算关于实体与属性值的相关性矩阵;将相关性矩阵的每一列的最大值相加,所得到的和作为该类别下的该属性的属性区分度。
例如,对于某一类别下的某一属性p,根据点互信息(PMI,PointwiseMutual Information)函数计算概率P(ei|vj)得到相关性矩阵M,其中ei为实体,vj为属性值。
例如,对属性p1、p2、p3分别得到矩阵M1、M2、M3,如下所示。
v1 | v2 | v3 | |
e1 | 0.1 | 0.2 | 0.5 |
e2 | 0.2 | 0.7 | 0.4 |
e3 | 0.8 | 0.3 | 0.1 |
M1
v1 | v2 | v3 | |
e1 | 0.1 | 0.1 | 0.9 |
e2 | 0.0 | 0.8 | 0.0 |
e3 | 0.9 | 0.1 | 0.1 |
M2
v1 | v2 | v3 | |
e1 | 0.3 | 0.4 | 0.3 |
e2 | 0.4 | 0.3 | 0.3 |
e3 | 0.3 | 0.3 | 0.4 |
M3
将相关性矩阵M的每一列的最大值相加,所得到的和作为该类别下的该属性p的属性区分度。
例如,对于属性p1,属性区分度=0.8+0.7+0.5=2.0。
对于属性p2,属性区分度=0.9+0.8+0.9=2.6。
对于属性p3,属性区分度=0.4+0.4+0.4=1.2。
可以设定区分阈值δ,大于δ的属性构成该类别的最具区分性的属性集合。并且,将该类别的最具区分性的属性集合中的属性的属性区分度归一化。
以上两种方式可以分别获得两种属性区分度。既可以使用其中一种方式计算属性区分度,也可以将两种属性区分度合并,以获得最终的属性区分度。
合并的方法例如是将两者加权求和,其中权重的总和等于一。
在步骤S4中,基于该属性集合,计算属于该类别的候选实体与实体提及的相似度。
具体地,从实体提及所在的文本中,利用关系抽取/分类技术,提取实体提及的、该属性集合的属性的属性值;然后,基于属于该类别的候选实体的、该属性集合的属性的属性值与实体提及的对应属性值之间的相似度,计算该候选实体与该实体提及的相似度。
也就是说,对于属于同一类别的候选实体与实体提及,基于该类别的最具区分性的属性集合中的属性,比较其属性值的相似度,作为候选实体与实体提及的相似度。
例如,候选实体entity与实体提及mention的相似度sim(mention,entity)=∑sim(vi(mention),vi(entity))
其中,sim(vi(mention),vi(entity)是实体提及mention和候选实体entity的属性pi对应属性值vi的相似度。
此外,在优选实施例中,还基于该候选实体与该实体提及的互指概率和该属性集合的各个属性的属性区分度中的至少一个,计算该候选实体与该实体提及的相似度。
例如,候选实体entity与实体提及mention的相似度sim(mention,entity)=∑weight(pi)*sim(vi(mention),vi(entity))
其中,weight(pi)是属性pi的属性区分度,sim(vi(mention),vi(entity)是实体提及mention和候选实体entity的属性pi对应属性值vi的相似度。
也就是说,计算候选实体与实体提及的相似度时,还可利用候选实体与实体提及的互指概率、该类别的最具区分性的属性集合中的属性的属性区分度这两方面的信息。
其中,实体提及与候选实体的互指概率表明选择该候选实体的过程中所利用的信息的可靠性。也就是说,在之前的步骤S1中,从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体。由于采用多种方式获得候选实体,根据候选实体的来源,可以给出不同的互指概率,表明候选实体被选择时利用的信息的可靠程度。
例如,候选实体e、实体提及m的互指概率为p(e|m)。
如果候选实体e来源于语义知识库中的同名实体,则互指概率p(e|m)=1/r,r为同名实体的总数。
如果候选实体e来源于等价关系(重定向关系、别称关系),则互指概率p(e|m)=1。
如果候选实体e来源于特定模式的指代关系,则互指概率p(e|m)=1。
如果候选实体e来源于消岐页面,则互指概率p(e|m)=1/k,k为歧义的实体总数。
如果候选实体e来源于互联网的锚文本,则互指概率p(e|m)=w/n,w为实体提及与锚文本链接到的实体存在的链接数,n为实体提及与所有实体存在的链接数。
在步骤S5中,基于所述相似度,选择候选实体与实体提及连接。
具体地,选择相似度大于相似度阈值的候选实体,将其与实体提及连接。
另外,在所述相似度均小于相似度阈值的情况下,将实体提及作为新的实体加入到语义知识库中。
下面,将参照图4描述根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的设备。
图4示出了根据本发明的实施例的将短文本中的实体提及与语义知识库中的实体连接的设备的结构方框图。如图4所示,根据本发明的连接设备400包括:候选实体选择装置41,被配置为:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;类别确定装置42,被配置为:确定候选实体和实体提及所属的类别;属性集合确定装置43,被配置为:确定实体提及所属的类别的最具区分性的属性集合;相似度计算装置44,被配置为:基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及连接装置45,被配置为:基于所述相似度,选择候选实体与实体提及连接。
在一个实施例中,候选实体选择装置41被进一步配置为执行以下操作之一:将语义知识库中的实体名与实体提及相同的同名实体,选择为候选实体;将语义知识库中的与同名实体存在等价关系的实体,选择为候选实体;将语义知识库中的实体名与实体提及在实体描述文本中具有指代关系的实体,选择为候选实体;将语义知识库中的与实体提及存在百科中的消歧关系的实体,选择为候选实体;将语义知识库中的、实体提及作为锚文本链接到的实体,选择为候选实体;将语义知识库中的实体名与实体提及在实体提及所在的文本中具有指代关系的实体,选择为候选实体。
在一个实施例中,是否具有指代关系根据如下两者之一确定:语义知识库中的实体的实体名与实体提及在该实体的实体描述文本或实体提及所在的文本中是否符合特定指代模式;或者对语义知识库中的该实体的实体描述文本或该实体提及所在的文本进行文本分析。
在一个实施例中,类别确定装置42被进一步配置为:获得与实体提及所在的文本或无类型信息的候选实体的实体描述文本对应的第一主题向量;获得每一类别的实体的实体描述文本对应的第二主题向量;计算第一主题向量与每一类别的第二主题向量的平均相似度;将平均相似度最大的类别确定为实体提及或无类型信息的候选实体所属的类别。
在一个实施例中,类别确定装置42被进一步配置为:基于如下特征中的至少一个,训练分类器:每一类别的实体的实体描述文本与预定义模板的匹配情况、所述实体描述文本是否包含每一类别相关的关键词、每一类别的实体在百科中对应的主题信息、每一类别的实体关联的属性类型;利用分类器,对候选实体和实体提及进行分类。
在一个实施例中,相似度计算装置44被进一步配置为:从实体提及所在的文本中,提取实体提及的、该属性集合的属性的属性值;基于属于该类别的候选实体的、该属性集合的属性的属性值与实体提及的对应属性值之间的相似度,计算该候选实体与该实体提及的相似度。
在一个实施例中,相似度计算装置44被进一步配置为:还基于该候选实体与该实体提及的互指概率和该属性集合的各个属性的属性区分度中的至少一个,计算该候选实体与该实体提及的相似度。
在一个实施例中,属性集合确定装置43被进一步配置为:通过执行如下操作获得属性的属性区分度:针对语义知识库中每个类别下的每个属性,统计语义知识库中该属性在该类别下出现的第一频率;统计语义知识库中该类别下该属性的每个属性值在该属性下出现次数相关的第二频率;计算第一频率与第二频率之积,作为该类别下的该属性的属性区分度;并且将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性。
在一个实施例中,属性集合确定装置43被进一步配置为:通过执行如下操作获得属性的属性区分度:针对语义知识库中每个类别下的每个属性,计算关于实体与属性值的相关性矩阵;将相关性矩阵的每一列的最大值相加,所得到的和作为该类别下的该属性的属性区分度;并且将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性。
在一个实施例中,连接装置45被进一步配置为:选择相似度大于相似度阈值的候选实体,将其与实体提及连接;其中,在所述相似度均小于相似度阈值的情况下,连接装置45将实体提及作为新的实体加入到语义知识库中。
由于在根据本发明的连接设备400中所包括的各个装置中的处理分别与上面描述的连接方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种将短文本中的实体提及与语义知识库中的实体连接的方法,包括:
从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;
确定候选实体和实体提及所属的类别;
确定实体提及所属的类别的最具区分性的属性集合;
基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及
基于所述相似度,选择候选实体与实体提及连接。
2.如附记1所述的方法,从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体包括如下方式之一:
将语义知识库中的实体名与实体提及相同的同名实体,选择为候选实体;
将语义知识库中的与同名实体存在等价关系的实体,选择为候选实体;
将语义知识库中的实体名与实体提及在实体描述文本中具有指代关系的实体,选择为候选实体;
将语义知识库中的与实体提及存在百科中的消歧关系的实体,选择为候选实体;
将语义知识库中的、实体提及作为锚文本链接到的实体,选择为候选实体;
将语义知识库中的实体名与实体提及在实体提及所在的文本中具有指代关系的实体,选择为候选实体。
3.如附记2所述的方法,其中是否具有指代关系根据如下两者之一确定:
语义知识库中的实体的实体名与实体提及在该实体的实体描述文本或实体提及所在的文本中是否符合特定指代模式;或者
对语义知识库中的该实体的实体描述文本或该实体提及所在的文本进行文本分析。
4.如附记1所述的方法,其中确定实体提及所属的类别包括:
获得与实体提及所在的文本或无类型信息的候选实体的实体描述文本对应的第一主题向量;
获得每一类别的实体的实体描述文本对应的第二主题向量;
计算第一主题向量与每一类别的第二主题向量的平均相似度;
将平均相似度最大的类别确定为实体提及或无类型信息的候选实体所属的类别。
5.如附记1所述的方法,其中确定候选实体和实体提及所属的类别包括:
基于如下特征中的至少一个,训练分类器:每一类别的实体的实体描述文本与预定义模板的匹配情况、所述实体描述文本是否包含每一类别相关的关键词、每一类别的实体在百科中对应的主题信息、每一类别的实体关联的属性类型;
利用分类器,对候选实体和实体提及进行分类。
6.如附记1所述的方法,其中基于该属性集合,计算属于该类别的候选实体与实体提及的相似度包括:
从实体提及所在的文本中,提取实体提及的、该属性集合的属性的属性值;
基于属于该类别的候选实体的、该属性集合的属性的属性值与实体提及的对应属性值之间的相似度,计算该候选实体与该实体提及的相似度。
7.如附记6所述的方法,其中基于该属性集合,计算属于该类别的候选实体与实体提及的相似度包括:
还基于该候选实体与该实体提及的互指概率和该属性集合的各个属性的属性区分度中的至少一个,计算该候选实体与该实体提及的相似度。
8.如附记1所述的方法,确定实体提及所属的类别的最具区分性的属性集合包括:将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性;
其中属性的属性区分度通过如下方式获得:
针对语义知识库中每个类别下的每个属性,
统计语义知识库中该属性在该类别下出现的第一频率;
统计语义知识库中该类别下该属性的每个属性值在该属性下出现次数相关的第二频率;
计算第一频率与第二频率之积,作为该类别下的该属性的属性区分度。
9.如附记1所述的方法,其中确定实体提及所属的类别的最具区分性的属性集合包括:将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性;
属性的属性区分度通过如下方式获得:
针对语义知识库中每个类别下的每个属性,计算关于实体与属性值的相关性矩阵;
将相关性矩阵的每一列的最大值相加,所得到的和作为该类别下的该属性的属性区分度。
10.如附记1所述的方法,其中基于所述相似度,选择候选实体与实体提及连接包括:选择相似度大于相似度阈值的候选实体,将其与实体提及连接;
其中,在所述相似度均小于相似度阈值的情况下,将实体提及作为新的实体加入到语义知识库中。
11.一种将短文本中的实体提及与语义知识库中的实体连接的设备,包括:
候选实体选择装置,被配置为:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;
类别确定装置,被配置为:确定候选实体和实体提及所属的类别;
属性集合确定装置,被配置为:确定实体提及所属的类别的最具区分性的属性集合;
相似度计算装置,被配置为:基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及
连接装置,被配置为:基于所述相似度,选择候选实体与实体提及连接。
12.如附记11所述的设备,候选实体选择装置被进一步配置为执行以下操作之一:
将语义知识库中的实体名与实体提及相同的同名实体,选择为候选实体;
将语义知识库中的与同名实体存在等价关系的实体,选择为候选实体;
将语义知识库中的实体名与实体提及在实体描述文本中具有指代关系的实体,选择为候选实体;
将语义知识库中的与实体提及存在百科中的消歧关系的实体,选择为候选实体;
将语义知识库中的、实体提及作为锚文本链接到的实体,选择为候选实体;
将语义知识库中的实体名与实体提及在实体提及所在的文本中具有指代关系的实体,选择为候选实体。
13.如附记12所述的设备,其中是否具有指代关系根据如下两者之一确定:
语义知识库中的实体的实体名与实体提及在该实体的实体描述文本或实体提及所在的文本中是否符合特定指代模式;或者
对语义知识库中的该实体的实体描述文本或该实体提及所在的文本进行文本分析。
14.如附记11所述的设备,其中类别确定装置被进一步配置为:
获得与实体提及所在的文本或无类型信息的候选实体的实体描述文本对应的第一主题向量;
获得每一类别的实体的实体描述文本对应的第二主题向量;
计算第一主题向量与每一类别的第二主题向量的平均相似度;
将平均相似度最大的类别确定为实体提及或无类型信息的候选实体所属的类别。
15.如附记11所述的设备,其中类别确定装置被进一步配置为:
基于如下特征中的至少一个,训练分类器:每一类别的实体的实体描述文本与预定义模板的匹配情况、所述实体描述文本是否包含每一类别相关的关键词、每一类别的实体在百科中对应的主题信息、每一类别的实体关联的属性类型;
利用分类器,对候选实体和实体提及进行分类。
16.如附记11所述的设备,其中相似度计算装置被进一步配置为:
从实体提及所在的文本中,提取实体提及的、该属性集合的属性的属性值;
基于属于该类别的候选实体的、该属性集合的属性的属性值与实体提及的对应属性值之间的相似度,计算该候选实体与该实体提及的相似度。
17.如附记16所述的设备,其中相似度计算装置被进一步配置为:
还基于该候选实体与该实体提及的互指概率和该属性集合的各个属性的属性区分度中的至少一个,计算该候选实体与该实体提及的相似度。
18.如附记11所述的设备,其中属性集合确定装置被进一步配置为:
通过执行如下操作获得属性的属性区分度:
针对语义知识库中每个类别下的每个属性,
统计语义知识库中该属性在该类别下出现的第一频率;
统计语义知识库中该类别下该属性的每个属性值在该属性下出现次数相关的第二频率;
计算第一频率与第二频率之积,作为该类别下的该属性的属性区分度;并且
将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性。
19.如附记11所述的设备,其中属性集合确定装置被进一步配置为:
通过执行如下操作获得属性的属性区分度:
针对语义知识库中每个类别下的每个属性,计算关于实体与属性值的相关性矩阵;
将相关性矩阵的每一列的最大值相加,所得到的和作为该类别下的该属性的属性区分度;并且
将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性。
20.如附记11所述的设备,其中连接装置被进一步配置为:选择相似度大于相似度阈值的候选实体,将其与实体提及连接;
其中,在所述相似度均小于相似度阈值的情况下,连接装置将实体提及作为新的实体加入到语义知识库中。
Claims (10)
1.一种将短文本中的实体提及与语义知识库中的实体连接的方法,包括:
从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;
确定候选实体和实体提及所属的类别;
确定实体提及所属的类别的最具区分性的属性集合;
基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及
基于所述相似度,选择候选实体与实体提及连接。
2.如权利要求1所述的方法,从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体包括如下方式之一:
将语义知识库中的实体名与实体提及相同的同名实体,选择为候选实体;
将语义知识库中的与同名实体存在等价关系的实体,选择为候选实体;
将语义知识库中的实体名与实体提及在实体描述文本中具有指代关系的实体,选择为候选实体;
将语义知识库中的与实体提及存在百科中的消歧关系的实体,选择为候选实体;
将语义知识库中的、实体提及作为锚文本链接到的实体,选择为候选实体;
将语义知识库中的实体名与实体提及在实体提及所在的文本中具有指代关系的实体,选择为候选实体。
3.如权利要求2所述的方法,其中是否具有指代关系根据如下两者之一确定:
语义知识库中的实体的实体名与实体提及在该实体的实体描述文本或实体提及所在的文本中是否符合特定指代模式;或者
对语义知识库中的该实体的实体描述文本或该实体提及所在的文本进行文本分析。
4.如权利要求1所述的方法,其中确定实体提及所属的类别包括:
获得与实体提及所在的文本或无类型信息的候选实体的实体描述文本对应的第一主题向量;
获得每一类别的实体的实体描述文本对应的第二主题向量;
计算第一主题向量与每一类别的第二主题向量的平均相似度;
将平均相似度最大的类别确定为实体提及或无类型信息的候选实体所属的类别。
5.如权利要求1所述的方法,其中确定候选实体和实体提及所属的类别包括:
基于如下特征中的至少一个,训练分类器:每一类别的实体的实体描述文本与预定义模板的匹配情况、所述实体描述文本是否包含每一类别相关的关键词、每一类别的实体在百科中对应的主题信息、每一类别的实体关联的属性类型;
利用分类器,对候选实体和实体提及进行分类。
6.如权利要求1所述的方法,其中基于该属性集合,计算属于该类别的候选实体与实体提及的相似度包括:
从实体提及所在的文本中,提取实体提及的、该属性集合的属性的属性值;
基于属于该类别的候选实体的、该属性集合的属性的属性值与实体提及的对应属性值之间的相似度,计算该候选实体与该实体提及的相似度。
7.如权利要求6所述的方法,其中基于该属性集合,计算属于该类别的候选实体与实体提及的相似度包括:
还基于该候选实体与该实体提及的互指概率和该属性集合的各个属性的属性区分度中的至少一个,计算该候选实体与该实体提及的相似度。
8.如权利要求1所述的方法,确定实体提及所属的类别的最具区分性的属性集合包括:将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性;
其中属性的属性区分度通过如下方式获得:
针对语义知识库中每个类别下的每个属性,
统计语义知识库中该属性在该类别下出现的第一频率;
统计语义知识库中该类别下该属性的每个属性值在该属性下出现次数相关的第二频率;
计算第一频率与第二频率之积,作为该类别下的该属性的属性区分度。
9.如权利要求1所述的方法,其中确定实体提及所属的类别的最具区分性的属性集合包括:将属性区分度大于区分阈值的属性,确定为该类别的最具区分性的属性集合中的属性;
属性的属性区分度通过如下方式获得:
针对语义知识库中每个类别下的每个属性,计算关于实体与属性值的相关性矩阵;
将相关性矩阵的每一列的最大值相加,所得到的和作为该类别下的该属性的属性区分度。
10.一种将短文本中的实体提及与语义知识库中的实体连接的设备,包括:
候选实体选择装置,被配置为:从语义知识库中的实体中,选择与短文本中的实体提及相关的候选实体;
类别确定装置,被配置为:确定候选实体和实体提及所属的类别;
属性集合确定装置,被配置为:确定实体提及所属的类别的最具区分性的属性集合;
相似度计算装置,被配置为:基于该属性集合,计算属于该类别的候选实体与实体提及的相似度;以及
连接装置,被配置为:基于所述相似度,选择候选实体与实体提及连接。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610006846.5A CN106940702A (zh) | 2016-01-05 | 2016-01-05 | 连接短文本中实体提及与语义知识库中实体的方法和设备 |
JP2016255039A JP2017123168A (ja) | 2016-01-05 | 2016-12-28 | セマンティック知識ベースにおける実体にショートテキストにおける実体言及を関連付ける方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610006846.5A CN106940702A (zh) | 2016-01-05 | 2016-01-05 | 连接短文本中实体提及与语义知识库中实体的方法和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106940702A true CN106940702A (zh) | 2017-07-11 |
Family
ID=59305794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610006846.5A Pending CN106940702A (zh) | 2016-01-05 | 2016-01-05 | 连接短文本中实体提及与语义知识库中实体的方法和设备 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2017123168A (zh) |
CN (1) | CN106940702A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304552A (zh) * | 2018-02-01 | 2018-07-20 | 浙江大学 | 一种基于知识库特征抽取的命名实体链接方法 |
CN109325126A (zh) * | 2018-10-31 | 2019-02-12 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109902156A (zh) * | 2019-01-09 | 2019-06-18 | 北京小乘网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111742321A (zh) * | 2017-12-29 | 2020-10-02 | 罗伯特·博世有限公司 | 用于独立于领域的术语链接的系统和方法 |
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN112328710A (zh) * | 2020-11-26 | 2021-02-05 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和存储介质 |
CN112417163A (zh) * | 2020-11-13 | 2021-02-26 | 中译语通科技股份有限公司 | 基于实体线索片段的候选实体对齐方法及装置 |
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113760995A (zh) * | 2021-09-09 | 2021-12-07 | 上海明略人工智能(集团)有限公司 | 一种实体链接方法及系统、设备和存储介质 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608960B (zh) * | 2017-09-08 | 2021-01-08 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
CN110765271B (zh) * | 2018-07-09 | 2024-02-09 | 株式会社理光 | 一种实体发现与实体链接的联合处理方法及装置 |
CN109582933B (zh) * | 2018-11-13 | 2021-09-03 | 北京合享智慧科技有限公司 | 一种确定文本新颖度的方法及相关装置 |
CN110928894B (zh) * | 2019-11-18 | 2023-05-02 | 北京秒针人工智能科技有限公司 | 实体对齐的方法及装置 |
CN111159328A (zh) * | 2019-11-20 | 2020-05-15 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 情报知识融合系统及方法 |
CN111259659B (zh) * | 2020-01-14 | 2023-07-04 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN111259215B (zh) * | 2020-02-14 | 2023-06-27 | 北京百度网讯科技有限公司 | 基于多模态的主题分类方法、装置、设备、以及存储介质 |
CN111523326B (zh) * | 2020-04-23 | 2023-03-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111552880B (zh) * | 2020-04-30 | 2023-06-30 | 杭州网易再顾科技有限公司 | 基于知识图谱的数据处理方法、装置、介质及电子设备 |
CN111737430B (zh) * | 2020-06-16 | 2024-04-05 | 北京百度网讯科技有限公司 | 实体链接方法、装置、设备以及存储介质 |
CN112231416B (zh) * | 2020-10-14 | 2024-06-14 | 中国平安人寿保险股份有限公司 | 知识图谱本体更新方法、装置、计算机设备及存储介质 |
CN113157946A (zh) * | 2021-05-14 | 2021-07-23 | 咪咕文化科技有限公司 | 实体链接方法、装置、电子设备及存储介质 |
CN114896980B (zh) * | 2022-07-14 | 2022-10-28 | 湖南四方天箭信息科技有限公司 | 军事实体链接方法、装置、计算机设备和存储介质 |
CN117520485B (zh) * | 2024-01-08 | 2024-03-29 | 卓世科技(海南)有限公司 | 基于知识图谱集成的大语言模型向量检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226547A (zh) * | 2008-01-11 | 2008-07-23 | 孟小峰 | 一种用在实体识别系统中的Web实体识别方法 |
US20100161603A1 (en) * | 2008-12-22 | 2010-06-24 | International Business Machines Corporation | Grouping methods for best-value determination from values for an attribute type of specific entity |
CN102004802A (zh) * | 2010-12-30 | 2011-04-06 | 北京大学 | Xml关键词检索的摘要生成方法 |
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN104866625A (zh) * | 2015-06-15 | 2015-08-26 | 苏州大学张家港工业技术研究院 | 一种用于实体匹配的方法及系统 |
-
2016
- 2016-01-05 CN CN201610006846.5A patent/CN106940702A/zh active Pending
- 2016-12-28 JP JP2016255039A patent/JP2017123168A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226547A (zh) * | 2008-01-11 | 2008-07-23 | 孟小峰 | 一种用在实体识别系统中的Web实体识别方法 |
US20100161603A1 (en) * | 2008-12-22 | 2010-06-24 | International Business Machines Corporation | Grouping methods for best-value determination from values for an attribute type of specific entity |
CN102004802A (zh) * | 2010-12-30 | 2011-04-06 | 北京大学 | Xml关键词检索的摘要生成方法 |
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN104866625A (zh) * | 2015-06-15 | 2015-08-26 | 苏州大学张家港工业技术研究院 | 一种用于实体匹配的方法及系统 |
Non-Patent Citations (1)
Title |
---|
朱敏等: "中文微博实体链接研究", 《北京大学学报(自然科学版)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111742321A (zh) * | 2017-12-29 | 2020-10-02 | 罗伯特·博世有限公司 | 用于独立于领域的术语链接的系统和方法 |
CN111742321B (zh) * | 2017-12-29 | 2024-06-21 | 罗伯特·博世有限公司 | 用于独立于领域的术语链接的系统和方法 |
CN108304552A (zh) * | 2018-02-01 | 2018-07-20 | 浙江大学 | 一种基于知识库特征抽取的命名实体链接方法 |
CN109325126A (zh) * | 2018-10-31 | 2019-02-12 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109902156A (zh) * | 2019-01-09 | 2019-06-18 | 北京小乘网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
CN109933785A (zh) * | 2019-02-03 | 2019-06-25 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
US11727216B2 (en) | 2020-06-09 | 2023-08-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device, and storage medium for linking entity |
CN111428507A (zh) * | 2020-06-09 | 2020-07-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN111931509A (zh) * | 2020-08-28 | 2020-11-13 | 北京百度网讯科技有限公司 | 实体链指方法、装置、电子设备及存储介质 |
CN112417163A (zh) * | 2020-11-13 | 2021-02-26 | 中译语通科技股份有限公司 | 基于实体线索片段的候选实体对齐方法及装置 |
CN112328710A (zh) * | 2020-11-26 | 2021-02-05 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和存储介质 |
CN112328710B (zh) * | 2020-11-26 | 2024-06-11 | 北京百度网讯科技有限公司 | 实体信息处理方法、装置、电子设备和存储介质 |
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN112989235B (zh) * | 2021-03-09 | 2023-08-01 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113760995A (zh) * | 2021-09-09 | 2021-12-07 | 上海明略人工智能(集团)有限公司 | 一种实体链接方法及系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2017123168A (ja) | 2017-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106940702A (zh) | 连接短文本中实体提及与语义知识库中实体的方法和设备 | |
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
WO2020073714A1 (zh) | 训练样本获取方法,账户预测方法及对应装置 | |
CN108076154A (zh) | 应用信息推荐方法、装置及存储介质和服务器 | |
CN106774975B (zh) | 输入方法和装置 | |
CN111222976B (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN104199898B (zh) | 一种属性信息的获取方法及装置、推送方法及装置 | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
CN108053545A (zh) | 证件验真方法和装置、服务器、存储介质 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
WO2022042297A1 (zh) | 文本聚类方法、装置、电子设备及存储介质 | |
CN111144215A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113609345B (zh) | 目标对象关联方法和装置、计算设备以及存储介质 | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN111274125A (zh) | 一种日志分析方法及装置 | |
JP2021093163A (ja) | ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム | |
CN107765883A (zh) | 输入法的候选词语的排序方法和排序设备 | |
CN110163245A (zh) | 业务类别预测方法及系统 | |
CN105574480B (zh) | 一种信息处理方法、装置以及终端 | |
US20230009317A1 (en) | Identification of Fraudulent Online Profiles | |
CN110008348A (zh) | 结合节点和边进行网络图嵌入的方法和装置 | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
CN111125379B (zh) | 知识库扩充方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170711 |
|
WD01 | Invention patent application deemed withdrawn after publication |