CN110874395A - 一种基于上下文相关性的抽象概念实例化方法 - Google Patents

一种基于上下文相关性的抽象概念实例化方法 Download PDF

Info

Publication number
CN110874395A
CN110874395A CN201910974114.9A CN201910974114A CN110874395A CN 110874395 A CN110874395 A CN 110874395A CN 201910974114 A CN201910974114 A CN 201910974114A CN 110874395 A CN110874395 A CN 110874395A
Authority
CN
China
Prior art keywords
abstract concept
instance
context
candidate
seed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910974114.9A
Other languages
English (en)
Other versions
CN110874395B (zh
Inventor
王振杰
王元斌
刘俊涛
张毅
王军伟
高子文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
709 Institute Of China Shipbuilding Heavy Industry Group Corp
Original Assignee
709 Institute Of China Shipbuilding Heavy Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 709 Institute Of China Shipbuilding Heavy Industry Group Corp filed Critical 709 Institute Of China Shipbuilding Heavy Industry Group Corp
Priority to CN201910974114.9A priority Critical patent/CN110874395B/zh
Publication of CN110874395A publication Critical patent/CN110874395A/zh
Application granted granted Critical
Publication of CN110874395B publication Critical patent/CN110874395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于上下文相关性的抽象概念实例化方法,在上下文语境约束下将一个抽象概念映射为一个具体实例集合,包括:输入数据集、抽象概念及上下文语境描述;从数据集中抽取实例的并列关系集合,根据百科分类结构构建分类关系树;依据给定抽象概念获取高可信度的种子实例;以种子实例为核心,依据候选实例之间的类别相似性和关联相似性构建候选实例的相似网络;基于实例相似网络,利用带有偏好的随机游走算法计算候选实例属于抽象概念的概率;基于新闻语料库,利用文档模型计算约束语境与实例的相关性;输出实例化结果集。该发明可自动地计算在不同约束语境下抽象概念指代的实例集合,为实例搜索、推理等提供准确的概念指代集合。

Description

一种基于上下文相关性的抽象概念实例化方法
技术领域
本发明属于自然语言处理技术领域,更具体地,涉及一种基于上下文相关性的抽象概念实例化方法。
背景技术
在不同的语境中,概念往往指代不同的实例集合。在具体应用中,需要获取抽象概念所指代的实例集合。例如搜索引擎中,将用户输入的抽象概念转化为具体实例,能够反映用户意图,提高搜索效果。
目前,基于上下文相关性的抽象概念实例化方法中主要存在以下问题,(1)大多数方法采用百科开放分类标签作为候选实体选取的依据,但百科分类标签中存在错误和不完整的情况;(2)百科分类知识主要面向通用开放领域,在垂直行业中仍然存在大量实例缺失的情况,仅依赖百科知识难以获取给定概念下的完整候选实例集合。在实际工程应用中,上述的错误与不完整问题将传导到下游,导致下游任务的失败。因此,在标签错误和不完整及实例缺失的前提下实现基于上下文相关性的抽象概念实例化方法具有现实意义和工业实用价值。
发明内容
传统的抽象概念实例化方法假定所使用分类知识是完整且正确的。但在实际工程应用中,分类知识往往不能满足上述要求。为了解决上述技术问题,本发明实现了百科分类知识和非结构化文本中实例间的关联关系的综合利用,即通过文本中存在的大量并列关系以弥补分类知识的错误和不完整问题,以提高基于上下文抽象概念实例化的准确率和覆盖率。本发明要解决的技术问题是:利用百科标签集和新闻语料库,提供一种基于上下文语境的抽象实例化方法。
为了实现上述目的,本发明提供了一种基于上下文相关性的抽象概念实例化方法,包括步骤如下:
(1)输入数据集、抽象概念及上下文语境描述,所述数据集为包含多个实例的文本语料集合,所述抽象概念是传统逻辑用以指称现实中没有一个或一类具体事物与之相适应(即其外延不是一个或一类事物),而仅以依存于某个或某类事物的性质和事物与事物之间的关系为其反映对象的概念;上下文语境是指需借助于上下文和背景知识才能正确理解句子的描述;
(2)数据预处理:从所述数据集中抽取实例的并列关系集合,根据百科分类结构构建分类关系树;
(3)种子实例抽取:依据给定的抽象概念从输入数据集的文本语料中获取高可信度的种子实例;
(4)实例相似网络构建:以种子实例为核心,根据并列关系集合计算候选实例之间的类别相似权重,根据分类关系树计算候选实例和种子实例之间的关联相似权重,并依据候选实例之间的类别相似性和关联相似性构建候选实例相似网络;
(5)候选实例类别预测:基于实例相似网络,利用带有偏好的随机游走算法计算候选实例属于给定抽象概念的概率;
(6)实例相关性度量:基于获取的新闻语料库,利用文档模型计算约束语境与实例的相关性;
(7)输出实例化结果集:根据步骤(5)中候选实例属于抽象概念的概率以及步骤(6)中候选实例属于抽象概念的概率,计算抽象概念实例化概率,并根据所述抽象概念实例化概率输出实例化结果集。
所述步骤(2)中数据预处理,其过程如下:
(2-1)文本语料预处理:对输入数据集提取具有排比关系的实例(例如顿号、“和”、“与”分割的实例),构建实例的并列关系集合。
(2-2)百科标签集预处理:对百科标签集形成的分类结构进行去除环状路径、选择最长路径等处理步骤得到一个具有树型结构的分类关系结构。
所述步骤(3)中种子实例抽取,其过程如下:
根据步骤(1)中输入的抽象概念,利用预先人工定义的获取“is-a”关系模板(示例见表4)在文本语料中提取抽象概念c的种子实例集合Sc。种子实例属于抽象概念c的可信度通过如下公式计算:
p(e)=1-0.5n(e)
其中,n(e)表示实例e被抽象概念c的“is-a”人工定义模板匹配到的次数。
所述步骤(4)中实体相似网络构建,其过程如下:
(4-1)实例相似网络的定义如下:ISN={E,LE,RE}
其中,E={ei|i=1,2,…,n}是顶点集,表示抽象概念的候选实例集;LE和RE分别是E中元素之间的类别和关联相似性的加权边。L=[l(ei,ej) ]n×n表示边LE的类别相似权重矩阵;R=[r(ei,ej)]n×n表示边RE的关联相似性权重矩阵。
(4-2)实例对ei和ej的类别相似权重计算如下:
Figure RE-GDA0002310239070000031
其中,d(ei,c)表示候选实例ei在分类关系树中与抽象概念c的最短路径长度;d(ej,c)表示候选实例ej在分类关系树中与抽象概念c的最短路径长度;
Figure RE-GDA0002310239070000032
Figure RE-GDA0002310239070000033
分别是实例ei和ej的标签集。其他情况,将l(ei,ej)定义为等于0.01以避免赋予零权重。
(4-3)候选实例和种子实例之间的关联相似权重计算如下:
Figure RE-GDA0002310239070000034
其中,ei∈E,es∈Sc;count(es,ei)表示包含实例ei和es的并列关系集合数量。
Figure RE-GDA0002310239070000041
表示包含实例es的并列关系集合的总数。如果ei和 ej均不是种子实例,则r(ei,ej)被初始化为零。
所述步骤(5)候选实例类别预测,其过程如下:
在本步骤中利用一个带有偏好的随机游走算法将候选实例类别预测问题转化为排序问题。
(5-1)初始时,对步骤(3)中抽取的种子实例赋予相同的权重,权重值为种子实例数量的倒数;其余的实例赋权重值为0;
(5-2)基于步骤(4)构建的实例相似网络ISN={E,LE,RE},利用随机游走算法迭代计算每个节点的权重,计算公式如下:
sn=α·[β·R*+(1-β)·L*]·sn-1+(1-α)·d
其中,sn表示第n次迭代的得分,R*和L*是R和L的归一化矩阵,β是调节参数,d表示给定抽象概念的种子实例的归一化向量,α是衰减因子,sn的初始值一般为0。
(5-3)当当网络收敛即迭代得分sn稳定不变时,sn向量中值为各候选实例属于给定抽象概念的概率P(e|c)。
所述步骤(6)实例相关性度量,其计算过程如下:
基于文档模型度量实例与语境的相关度,计算公式如下:
Figure RE-GDA0002310239070000042
其中D是爬取的新闻语料库,IPe是包含实体e的文本段落。P(T|IPe) 是从IPe生成包含抽象概念的上下文语境T的概率。P(IPe|e)是从实例e生成IPe的概率。
在上述公式中P(T|IPe)和P(IPe|e)计算公式分别如下:
Figure RE-GDA0002310239070000043
Figure RE-GDA0002310239070000051
其中p(t|IPe)是从实例上下文IPe生成变量t的概率,p(t|D)是词语t在语料库D中的背景概率。λ是平滑参数。n(t,T)是t在T中出现的次数。#(IPe,e) 表示实例e出现在实例上下文IPe出现的次数,分母
Figure RE-GDA0002310239070000052
实例上下文IPe中出现的词语数目。IPe为包含实例e的段落。
根据步骤(5)计算的P(e|c)和步骤(6)计算的P(T|e),计算在上下文 T下抽象概念c实例化为e概率如下:
fc,T(e)=P(e|c)×P(e|T)∝P(e|c)×P(T|e)
对任意候选实例e的概率值fc,T(e)由大到小排列后,则形成抽象概念c基于上下文T的实例化排序集合,其中P(e|T)是在上下文T下实例e出现的概率,∝是指fc,T(e)正相关于P(e|c)×P(T|e)。
需要说明的是,fc,T(e)=P(e|c)×P(e|T),但是由于P(e|T)是无法计算得到的,所以fc,T(e)∝P(e|c)×P(T|e),并根据P(e|c)×P(T|e)的结果进行排序。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)大多数方法采用百科开放分类标签作为候选实体选取的依据,但百科分类标签中存在错误和不完整的情况。利用本方法能够通过文本中存在的大量并列关系以弥补分类知识的错误和不完整问题,以提高基于上下文抽象概念实例化的准确率和覆盖率。
(2)百科分类知识主要面向通用开放领域,在垂直行业中仍然存在大量实例缺失的情况,仅依赖百科知识难以获取给定概念下的完整候选实例集合。本方法通过利用百科标签集和新闻语料库的结合,在实例缺失的前提下实现了基于上下文相关性的抽象概念实例化方法具有现实意义和工业实用价值。
附图说明
图1为本发明实施例中基于上下文相关性的抽象概念实例化方法流程示意图;
图2为本发明实施例中提取具有并列关系的样例的示意图;
图3为本发明实施例中一种根据百科标签构建分类关系树的原理示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
参见图1,本基于上下文相关性的抽象概念实例化方法,以食品领域抽象概念实例化为例,从食品科技网爬取663,629篇新闻语料,从互动百科爬取12,474,843个实例标签对集合。对具体示例“保护眼睛的水果”,基于上述语料和标签集,其目标是获取抽象概念“水果”在约束语境“保护眼睛”下所指代的具体实例,即{苹果、蓝莓、…}。具体步骤如下:
S1、输入数据集、抽象概念及上下文语境描述。数据集为食品领域语料及百科标签集;例如,食品领域663,629篇新闻文本语料和互动百科的 12,474,843个实例标签对以及抽象概念、上下文语境描述。
S2、数据预处理,包括去除冗余标签、提取并列关系集合、构建分类关系树。
S2.1、使用正则表达式去除新闻文本语料数据中可能存在html标签内容,否则将影响整个方法的结果。
S2.2、原始新闻数据去除冗余标签后,得到新闻文本。如图2所示,从新闻文本中提取顿号及顿号连接的“和”,“与”等并列连词构成的并列关系集合。例如实例“梨子”从文本中提取的并列关系集合可能有:{{梨子、苹果},{香蕉、梨子、苹果},…}。
S2.3、如图3所示,根据已经爬取的分类标签构建分类关系树。原始的百科标签结构不是一个严格的分类结构。因此,需要在原始标签结构上进行去除环形连接,选择最长路径,去除无意义标签(如:“名词”,“汉字”) 等操作。最后形成一个树状的分类关系结构。
S3、种子实例抽取。在本例中使用人工定义的模板匹配提取抽象概念“水果”的种子实例,表1为人工定义的部分模板。种子实例属于抽象概念的可信度计算如下:
p(e)=1-0.5n(e)
其中n(e)表示实例e被模板匹配到次数。当实例的可信度大于0.9时,作为抽象概念c的种子实例。记人工模板从文本中获取的抽象概念c种子实例集Sc={e1,e2,....,ek}。例如,对抽象概念“水果”从文本中抽取的种子实例集合S水果={苹果,香蕉,....,草莓}。
Figure RE-GDA0002310239070000071
表1.人工定义提取“is-a”关系的模板样例(B是A的上位概念)
S4、实例相似网络构建。实例相似网络构建包括三个步骤:网络顶点的选取、顶点间关联相似度计算、顶点间类别相似度计算。具体为步骤S4.1~4.3;
实例相似网络定义为:ISN={E,RE,IE},其中E代表网络的顶点集合, RE表示顶点间关联关系加权边,权重由关联相似度矩阵R=[r(ei,ej)]n×n表示;LE表示顶点间的类别关系加权边,权重由相似度矩阵L=[l(ei,ej) ]n×n表示。
S4.1、实例相似网络顶点集合E的选取。顶点集有两个来源:①以给定抽象概念为标签的实例;②与种子具有并列关系的实例。例如“荔枝”在百科中没有标签“水果”,但与种子实例“苹果”具有并列关系,因此被选择为候选实例。
S4.2、顶点间关联相似度计算。根据步骤S2.2中构建的并行关系集合,计算两个实例之间的关联关系,计算公式为:
Figure RE-GDA0002310239070000081
其中,ei∈E为候选实例,es∈Sc为种子实例;count(es,ei)表示包含实例 ei和es的并列关系集合数量。
Figure RE-GDA0002310239070000082
表示包含实例es的并列关系集合的总数。
例如:在语料中,候选实例“荔枝”与种子实例“苹果”共现的并列集合数目为count(‘苹果’,‘荔枝’)=178,
Figure RE-GDA0002310239070000083
(‘苹果’,ej)=10311,则二者之间的关系相似度为:(178+1)/(10311+1)=0.0173。
S4.3、顶点间类别相似度计算。根据步骤1.3中构建的分类关系树,依据公式:
Figure RE-GDA0002310239070000084
其中d(ei,c)表示抽象概念c与ei在分类树上最短距离,该距离由最短路径算法得到。对于分类树上不存的节点赋权重值为0.01。如图3所示,“香蕉”和“葡萄”关于概念“水果”的类别相似度为0.5。
S5、候选实例类别预测。该算法具体步骤如下:
S5.1、首先,根据种子实例构建偏好向量,权重为种子实例个数的倒数,非种子实例权重设为0,向量记为d。
S5.2、对关联相似度矩阵和类别相似度矩阵进行归一化处理,记为R*和L*。
S5.3、在ISN上迭代计算:sn=α·[β·R*+(1-β)·L*]·sn-1+ (1-α)·d计算候选实例排名得分,其中超参α=0.7,β=0.2。
S5.4、对步骤5.3,当sn达到稳定状态说明候选实例的排序已达到最优,终止循环。
S5.5、对于未包含在候选实例中的种子实例,为其分配E中所包含的种子实例得分的平均值(用se表示)。
S5.6、至此,每个候选实例和种子实例都获得了一个排序得分,算法终止。若对多个抽象概念进行实例化,循环执行步骤5.1-5.5。
S6、实例相关性度量。基于文档模型及新闻文本语料度量实例与语境的相关度。计算公式如下:
Figure RE-GDA0002310239070000091
其中,D是爬取的新闻语料库,P(T|IPe)是从IPe生成语境约束T的概率。P(IPe|e)是从实例e生成IPe的概率;在此发明中IPe定义为包含实例e 的文本段落。上述公式中P(T|IPe)和P(IPe|e)计算如下:
Figure RE-GDA0002310239070000092
Figure RE-GDA0002310239070000093
其中,在公式P(T|IPe)中,p(t|IPe)是从实例上下文IPe生成变量t的概率, p(t|D)是词语t在语料库D中的背景概率;λ是平滑参数,取值为0.5;n(t,T) 是t在T中出现的次数。在P(IPe|e)中,#(IPe,e)表示实例e出现在实例上下文IPe中出现的次数,分母
Figure RE-GDA0002310239070000094
表示实例上下文IPe中词语的数目。对于该例子T=“保护眼睛”,c=“水果”。
Figure RE-GDA0002310239070000095
Figure RE-GDA0002310239070000101
根据步骤S5计算的P(e|c)和步骤S6计算的P(T|e),计算在上下文T下抽象概念c实例化为e概率如下:
fc,T(e)=P(e|c)×P(e|T)∝P(e|c)×P(T|e)
对任意候选实例e的概率值fc,T(e)由大到小排列后,则形成抽象概念c基于上下文T的实例化排序集合。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于上下文相关性的抽象概念实例化方法,其特征在于,该方法具体步骤如下:
(1)输入数据集、抽象概念及对抽象概念的上下文语境约束描述;
(2)数据预处理:从所述数据集中抽取实例的并列关系集合,根据百科分类结构构建分类关系树;
(3)种子实例抽取:依据给定的抽象概念从输入数据集的文本语料中获取高可信度的种子实例;
(4)实例相似网络构建:以种子实例为核心,根据并列关系集合计算候选实例之间的类别相似权重,根据分类关系树计算候选实例和种子实例之间的关联相似权重,并依据候选实例之间的类别相似性和关联相似性构建候选实例相似网络;
(5)候选实例类别预测:基于实例相似网络,利用带有偏好的随机游走算法计算候选实例属于给定抽象概念的概率;
(6)实例相关性度量:基于获取的新闻语料库,利用文档模型计算约束语境与实例的相关性;
(7)输出实例化结果集:根据步骤(5)中候选实例属于抽象概念的概率以及步骤(6)中候选实例属于抽象概念的概率,计算抽象概念实例化概率,并根据所述抽象概念实例化概率输出实例化结果集。
2.根据权利要求1所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述步骤(4)中实例相似网络构建的过程如下:
对实例相似网络的定义如下:ISN={E,LE,RE},其中,E={ei|i=1,2,…,n}是顶点集,表示抽象概念的候选实例集;LE和RE分别是E中元素之间的类别和关联相似性的加权边,L=[l(ei,ej)]n×n表示LE的类别相似权重矩阵;R=[r(ei,ej)]n×n表示RE的关联相似性权重矩阵。
3.根据权利要求2所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,实例对ei和ej的类别相似权重计算如下:
Figure FDA0002233056210000021
其中,d(ei,c)表示候选实例ei在分类关系树中与抽象概念c的最短路径的长度;d(ej,c)表示候选实例ej在分类关系树中与抽象概念c的最短路径长度,
Figure FDA0002233056210000022
Figure FDA0002233056210000023
分别是实例ei和ej的百科分类标签集合,在类别相似性计算中的分类关系树由百科标签迭代构建而成。
4.根据权利要求2或3所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,候选实例和种子实例的关联相似权重计算如下:
Figure FDA0002233056210000024
其中,ei∈E,es∈Sc,Sc是由模板匹配出的抽象概念c的种子实例,count(es,ei)表示包含实例ei和es的并列关系集合数量;其中,并列关系集合通过提取汉语句子中具有并列关系的实体获得,
Figure FDA0002233056210000025
表示包含实例es的并列关系集合的总数,如果ei和ej均不是种子实例,则r(ei,ej)被初始化为零。
5.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述步骤(5)具体包括:
(5-1)初始时,对步骤(3)中抽取的种子实例赋予相同的权重,权重值为种子实例数量的倒数;其余的实例赋权重值为0;
(5-2)基于步骤(4)构建的实例相似网络ISN={E,LE,RE},在其上迭代执行如下计算公式:
sn=α·[β·R*+(1-β)·L*]·sn-1+(1-α)·d
其中,sn表示第n次迭代得分,R*和L*分别是R和L的ISN边权重归一化矩阵,β是调节参数,d为种子实例集的归一化向量,α是衰减因子;
(5-3)当迭代得分sn稳定不变时,sn向量中值为各候选实例属于给定抽象概念的概率P(e|c)。
6.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述步骤(2)中数据预处理的过程如下:
(2-1)文本语料预处理:对输入数据集提取具有排比关系的实例,构建实例的并列关系集合;
(2-2)百科标签集预处理:对百科标签集形成的分类结构进行去除环状路径和选择最长路径处理得到一个具有树型结构的分类关系结构。
7.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述步骤(6)中实例相关性度量的计算过程如下:
基于文档模型度量实例与语境的相关度,计算公式如下:
Figure FDA0002233056210000031
其中D是爬取的新闻语料库,IPe是包含实体e的文本段落,P(T|IPe)是从IPe生成包含抽象概念的上下文语境T的概率,P(IPe|e)是从实例e生成IPe的概率。
8.根据权利要求7所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述P(T|IPe)和P(IPe|e)计算公式分别如下:
Figure FDA0002233056210000032
Figure FDA0002233056210000033
其中p(t|IPe)是从实例上下文IPe生成变量t的概率,p(t|D)是词语t在语料库D中的背景概率,λ是平滑参数,n(t,T)是t在T中出现的次数,#(IPe,e)表示实例e出现在实例上下文IPe出现的次数,分母
Figure FDA0002233056210000034
实例上下文IPe中出现的词语数目,IPe为包含实例e的段落。
9.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述步骤(7)具体为:
根据步骤(5)计算的P(e|c)和步骤(6)计算的P(T|e),计算在上下文T下抽象概念c实例化为e概率如下:
fc,T(e)=P(e|c)×P(e|T)∝P(e|c)×P(T|e)
对任意候选实例e的概率值fc,T(e)由大到小排列后,则形成抽象概念c基于上下文T的实例化排序集合,其中P(e|T)是在上下文T下实例e出现的概率,∝是指fc,T(e)正相关于P(e|c)×P(T|e)。
10.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法,其特征在于,所述步骤(3)具体为:
根据步骤(1)中输入的抽象概念,利用预先人工定义的获取“is-a”关系模板在文本语料中提取抽象概念c的种子实例集合Sc,种子实例属于抽象概念c的可信度通过如下公式计算:p(e)=1-0.5n(e),其中,n(e)表示实例e被抽象概念c的“is-a”人工定义模板匹配到的次数。
CN201910974114.9A 2019-10-14 2019-10-14 一种基于上下文相关性的抽象概念实例化方法 Active CN110874395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910974114.9A CN110874395B (zh) 2019-10-14 2019-10-14 一种基于上下文相关性的抽象概念实例化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910974114.9A CN110874395B (zh) 2019-10-14 2019-10-14 一种基于上下文相关性的抽象概念实例化方法

Publications (2)

Publication Number Publication Date
CN110874395A true CN110874395A (zh) 2020-03-10
CN110874395B CN110874395B (zh) 2022-05-31

Family

ID=69717795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910974114.9A Active CN110874395B (zh) 2019-10-14 2019-10-14 一种基于上下文相关性的抽象概念实例化方法

Country Status (1)

Country Link
CN (1) CN110874395B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法
CN108460011A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 一种实体概念标注方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404033A (zh) * 2008-11-14 2009-04-08 北京大学 本体层级结构的自动生成方法及系统
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法
CN105677640A (zh) * 2016-01-08 2016-06-15 中国科学院计算技术研究所 一种面向开放文本的领域概念抽取方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法
CN108460011A (zh) * 2018-02-01 2018-08-28 北京百度网讯科技有限公司 一种实体概念标注方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
康为,穗志方: "基于Web弱指导的本体概念实例及属性的同步提取", 《中文信息学报》, vol. 24, no. 1, 15 January 2010 (2010-01-15) *
李文杰,穗志方: "基于并列结构的概念实例和属性的同步提取方法", 《中文信息学报》, vol. 26, no. 2, 15 March 2012 (2012-03-15) *

Also Published As

Publication number Publication date
CN110874395B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
Yasen et al. Movies reviews sentiment analysis and classification
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CN112732934B (zh) 电网设备分词词典和故障案例库构建方法
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
US7747555B2 (en) System and method for retrieving and intelligently grouping definitions found in a repository of documents
US11625537B2 (en) Analysis of theme coverage of documents
US20200073890A1 (en) Intelligent search platforms
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN109815497A (zh) 基于句法依存的人物属性抽取方法
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
Kanev et al. Metagraph knowledge base and natural language processing pipeline for event extraction and time concept analysis
CN110874395B (zh) 一种基于上下文相关性的抽象概念实例化方法
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
Alfarra et al. Graph-based fuzzy logic for extractive text summarization (GFLES)
CN112215006B (zh) 机构命名实体归一化方法和系统
CN114661890A (zh) 一种知识推荐方法、装置、系统及存储介质
CN114860920A (zh) 一种基于异构图的单语言主题摘要生成方法
Zhang et al. Contextual networks and unsupervised ranking of sentences
Alashri et al. Lexi-augmenter: Lexicon-based model for tweets sentiment analysis
Ramachandran et al. Document Clustering Using Keyword Extraction
Lin et al. Representation learning of taxonomies for taxonomy matching
Singh A framework to automatically categorize the unstructured text documents
Turgutlu et al. Daily Touristic Plan Recommendation Using Text Mining.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant