CN110874395A

CN110874395A - 一种基于上下文相关性的抽象概念实例化方法

Info

Publication number: CN110874395A
Application number: CN201910974114.9A
Authority: CN
Inventors: 王振杰; 王元斌; 刘俊涛; 张毅; 王军伟; 高子文
Original assignee: 709 Institute Of China Shipbuilding Heavy Industry Group Corp
Current assignee: 709 Institute Of China Shipbuilding Heavy Industry Group Corp
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2020-03-10
Anticipated expiration: 2039-10-14
Also published as: CN110874395B

Abstract

本发明公开了一种基于上下文相关性的抽象概念实例化方法，在上下文语境约束下将一个抽象概念映射为一个具体实例集合，包括：输入数据集、抽象概念及上下文语境描述；从数据集中抽取实例的并列关系集合，根据百科分类结构构建分类关系树；依据给定抽象概念获取高可信度的种子实例；以种子实例为核心，依据候选实例之间的类别相似性和关联相似性构建候选实例的相似网络；基于实例相似网络，利用带有偏好的随机游走算法计算候选实例属于抽象概念的概率；基于新闻语料库，利用文档模型计算约束语境与实例的相关性；输出实例化结果集。该发明可自动地计算在不同约束语境下抽象概念指代的实例集合，为实例搜索、推理等提供准确的概念指代集合。

Description

一种基于上下文相关性的抽象概念实例化方法

技术领域

本发明属于自然语言处理技术领域，更具体地，涉及一种基于上下文相关性的抽象概念实例化方法。

背景技术

在不同的语境中，概念往往指代不同的实例集合。在具体应用中，需要获取抽象概念所指代的实例集合。例如搜索引擎中，将用户输入的抽象概念转化为具体实例，能够反映用户意图，提高搜索效果。

目前，基于上下文相关性的抽象概念实例化方法中主要存在以下问题，(1)大多数方法采用百科开放分类标签作为候选实体选取的依据，但百科分类标签中存在错误和不完整的情况；(2)百科分类知识主要面向通用开放领域，在垂直行业中仍然存在大量实例缺失的情况，仅依赖百科知识难以获取给定概念下的完整候选实例集合。在实际工程应用中，上述的错误与不完整问题将传导到下游，导致下游任务的失败。因此，在标签错误和不完整及实例缺失的前提下实现基于上下文相关性的抽象概念实例化方法具有现实意义和工业实用价值。

发明内容

传统的抽象概念实例化方法假定所使用分类知识是完整且正确的。但在实际工程应用中，分类知识往往不能满足上述要求。为了解决上述技术问题，本发明实现了百科分类知识和非结构化文本中实例间的关联关系的综合利用，即通过文本中存在的大量并列关系以弥补分类知识的错误和不完整问题，以提高基于上下文抽象概念实例化的准确率和覆盖率。本发明要解决的技术问题是：利用百科标签集和新闻语料库，提供一种基于上下文语境的抽象实例化方法。

为了实现上述目的，本发明提供了一种基于上下文相关性的抽象概念实例化方法，包括步骤如下：

(1)输入数据集、抽象概念及上下文语境描述，所述数据集为包含多个实例的文本语料集合，所述抽象概念是传统逻辑用以指称现实中没有一个或一类具体事物与之相适应(即其外延不是一个或一类事物)，而仅以依存于某个或某类事物的性质和事物与事物之间的关系为其反映对象的概念；上下文语境是指需借助于上下文和背景知识才能正确理解句子的描述；

(2)数据预处理：从所述数据集中抽取实例的并列关系集合，根据百科分类结构构建分类关系树；

(3)种子实例抽取：依据给定的抽象概念从输入数据集的文本语料中获取高可信度的种子实例；

(4)实例相似网络构建：以种子实例为核心，根据并列关系集合计算候选实例之间的类别相似权重，根据分类关系树计算候选实例和种子实例之间的关联相似权重，并依据候选实例之间的类别相似性和关联相似性构建候选实例相似网络；

(5)候选实例类别预测：基于实例相似网络，利用带有偏好的随机游走算法计算候选实例属于给定抽象概念的概率；

(6)实例相关性度量：基于获取的新闻语料库，利用文档模型计算约束语境与实例的相关性；

(7)输出实例化结果集：根据步骤(5)中候选实例属于抽象概念的概率以及步骤(6)中候选实例属于抽象概念的概率，计算抽象概念实例化概率，并根据所述抽象概念实例化概率输出实例化结果集。

所述步骤(2)中数据预处理，其过程如下：

(2-1)文本语料预处理：对输入数据集提取具有排比关系的实例(例如顿号、“和”、“与”分割的实例)，构建实例的并列关系集合。

(2-2)百科标签集预处理：对百科标签集形成的分类结构进行去除环状路径、选择最长路径等处理步骤得到一个具有树型结构的分类关系结构。

所述步骤(3)中种子实例抽取，其过程如下：

根据步骤(1)中输入的抽象概念，利用预先人工定义的获取“is-a”关系模板(示例见表4)在文本语料中提取抽象概念c的种子实例集合S_c。种子实例属于抽象概念c的可信度通过如下公式计算：

p(e)＝1-0.5^n(e)

其中，n(e)表示实例e被抽象概念c的“is-a”人工定义模板匹配到的次数。

所述步骤(4)中实体相似网络构建，其过程如下：

(4-1)实例相似网络的定义如下：ISN＝{E,L_E,R_E}

其中，E＝{e_i|i＝1,2,…,n}是顶点集，表示抽象概念的候选实例集；L_E和R_E分别是E中元素之间的类别和关联相似性的加权边。L＝[l(e_i,e_j) ]_n×n表示边L_E的类别相似权重矩阵；R＝[r(e_i,e_j)]_n×n表示边R_E的关联相似性权重矩阵。

(4-2)实例对e_i和e_j的类别相似权重计算如下：

其中，d(e_i,c)表示候选实例e_i在分类关系树中与抽象概念c的最短路径长度；d(e_j,c)表示候选实例e_j在分类关系树中与抽象概念c的最短路径长度；

和

分别是实例e_i和e_j的标签集。其他情况，将l(e_i,e_j)定义为等于0.01以避免赋予零权重。

(4-3)候选实例和种子实例之间的关联相似权重计算如下：

其中，e_i∈E,e_s∈S_c；count(e_s,e_i)表示包含实例e_i和e_s的并列关系集合数量。

表示包含实例e_s的并列关系集合的总数。如果e_i和 e_j均不是种子实例，则r(e_i,e_j)被初始化为零。

所述步骤(5)候选实例类别预测，其过程如下：

在本步骤中利用一个带有偏好的随机游走算法将候选实例类别预测问题转化为排序问题。

(5-1)初始时，对步骤(3)中抽取的种子实例赋予相同的权重，权重值为种子实例数量的倒数；其余的实例赋权重值为0；

(5-2)基于步骤(4)构建的实例相似网络ISN＝{E,L_E,R_E}，利用随机游走算法迭代计算每个节点的权重，计算公式如下：

s_n＝α·[β·R^*+(1-β)·L^*]·s_n-1+(1-α)·d

其中，s_n表示第n次迭代的得分，R^*和L^*是R和L的归一化矩阵，β是调节参数，d表示给定抽象概念的种子实例的归一化向量，α是衰减因子，s_n的初始值一般为0。

(5-3)当当网络收敛即迭代得分s_n稳定不变时，s_n向量中值为各候选实例属于给定抽象概念的概率P(e|c)。

所述步骤(6)实例相关性度量，其计算过程如下：

基于文档模型度量实例与语境的相关度，计算公式如下：

其中D是爬取的新闻语料库，IP_e是包含实体e的文本段落。P(T|IP_e) 是从IP_e生成包含抽象概念的上下文语境T的概率。P(IP_e|e)是从实例e生成IP_e的概率。

在上述公式中P(T|IP_e)和P(IP_e|e)计算公式分别如下：

其中p(t|IP_e)是从实例上下文IP_e生成变量t的概率，p(t|D)是词语t在语料库D中的背景概率。λ是平滑参数。n(t，T)是t在T中出现的次数。#(IP_e，e) 表示实例e出现在实例上下文IP_e出现的次数，分母

实例上下文IP_e中出现的词语数目。IP_e为包含实例e的段落。

根据步骤(5)计算的P(e|c)和步骤(6)计算的P(T|e)，计算在上下文 T下抽象概念c实例化为e概率如下：

f_c，T(e)＝P(e|c)×P(e|T)∝P(e|c)×P(T|e)

对任意候选实例e的概率值f_c，T(e)由大到小排列后，则形成抽象概念c基于上下文T的实例化排序集合，其中P(e|T)是在上下文T下实例e出现的概率，∝是指f_c，T(e)正相关于P(e|c)×P(T|e)。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)大多数方法采用百科开放分类标签作为候选实体选取的依据，但百科分类标签中存在错误和不完整的情况。利用本方法能够通过文本中存在的大量并列关系以弥补分类知识的错误和不完整问题，以提高基于上下文抽象概念实例化的准确率和覆盖率。

(2)百科分类知识主要面向通用开放领域，在垂直行业中仍然存在大量实例缺失的情况，仅依赖百科知识难以获取给定概念下的完整候选实例集合。本方法通过利用百科标签集和新闻语料库的结合，在实例缺失的前提下实现了基于上下文相关性的抽象概念实例化方法具有现实意义和工业实用价值。

附图说明

图1为本发明实施例中基于上下文相关性的抽象概念实例化方法流程示意图；

图2为本发明实施例中提取具有并列关系的样例的示意图；

图3为本发明实施例中一种根据百科标签构建分类关系树的原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

参见图1，本基于上下文相关性的抽象概念实例化方法，以食品领域抽象概念实例化为例，从食品科技网爬取663,629篇新闻语料，从互动百科爬取12,474,843个实例标签对集合。对具体示例“保护眼睛的水果”，基于上述语料和标签集，其目标是获取抽象概念“水果”在约束语境“保护眼睛”下所指代的具体实例，即{苹果、蓝莓、…}。具体步骤如下：

S1、输入数据集、抽象概念及上下文语境描述。数据集为食品领域语料及百科标签集；例如，食品领域663,629篇新闻文本语料和互动百科的 12,474,843个实例标签对以及抽象概念、上下文语境描述。

S2、数据预处理，包括去除冗余标签、提取并列关系集合、构建分类关系树。

S2.1、使用正则表达式去除新闻文本语料数据中可能存在html标签内容，否则将影响整个方法的结果。

S2.2、原始新闻数据去除冗余标签后，得到新闻文本。如图2所示，从新闻文本中提取顿号及顿号连接的“和”，“与”等并列连词构成的并列关系集合。例如实例“梨子”从文本中提取的并列关系集合可能有：{{梨子、苹果}，{香蕉、梨子、苹果}，…}。

S2.3、如图3所示，根据已经爬取的分类标签构建分类关系树。原始的百科标签结构不是一个严格的分类结构。因此，需要在原始标签结构上进行去除环形连接，选择最长路径，去除无意义标签(如：“名词”，“汉字”) 等操作。最后形成一个树状的分类关系结构。

S3、种子实例抽取。在本例中使用人工定义的模板匹配提取抽象概念“水果”的种子实例，表1为人工定义的部分模板。种子实例属于抽象概念的可信度计算如下：

p(e)＝1-0.5^n(e)

其中n(e)表示实例e被模板匹配到次数。当实例的可信度大于0.9时，作为抽象概念c的种子实例。记人工模板从文本中获取的抽象概念c种子实例集S_c＝{e₁,e₂,....,e_k}。例如，对抽象概念“水果”从文本中抽取的种子实例集合S_水果＝{苹果,香蕉,....,草莓}。

表1.人工定义提取“is-a”关系的模板样例(B是A的上位概念)

S4、实例相似网络构建。实例相似网络构建包括三个步骤：网络顶点的选取、顶点间关联相似度计算、顶点间类别相似度计算。具体为步骤S4.1～4.3；

实例相似网络定义为：ISN＝{E,R_E,I_E}，其中E代表网络的顶点集合， R_E表示顶点间关联关系加权边，权重由关联相似度矩阵R＝[r(e_i,e_j)]_n×n表示；L_E表示顶点间的类别关系加权边，权重由相似度矩阵L＝[l(e_i,e_j) ]_n×n表示。

S4.1、实例相似网络顶点集合E的选取。顶点集有两个来源：①以给定抽象概念为标签的实例；②与种子具有并列关系的实例。例如“荔枝”在百科中没有标签“水果”，但与种子实例“苹果”具有并列关系，因此被选择为候选实例。

S4.2、顶点间关联相似度计算。根据步骤S2.2中构建的并行关系集合，计算两个实例之间的关联关系，计算公式为：

其中，e_i∈E为候选实例,e_s∈S_c为种子实例；count(e_s,e_i)表示包含实例 e_i和e_s的并列关系集合数量。

表示包含实例e_s的并列关系集合的总数。

例如：在语料中，候选实例“荔枝”与种子实例“苹果”共现的并列集合数目为count(‘苹果’,‘荔枝’)＝178，

(‘苹果’,e_j)＝10311，则二者之间的关系相似度为：(178+1)/(10311+1)＝0.0173。

S4.3、顶点间类别相似度计算。根据步骤1.3中构建的分类关系树，依据公式：

其中d(e_i,c)表示抽象概念c与e_i在分类树上最短距离，该距离由最短路径算法得到。对于分类树上不存的节点赋权重值为0.01。如图3所示，“香蕉”和“葡萄”关于概念“水果”的类别相似度为0.5。

S5、候选实例类别预测。该算法具体步骤如下：

S5.1、首先，根据种子实例构建偏好向量，权重为种子实例个数的倒数，非种子实例权重设为0，向量记为d。

S5.2、对关联相似度矩阵和类别相似度矩阵进行归一化处理，记为R^*和L*。

S5.3、在ISN上迭代计算：s_n＝α·[β·R^*+(1-β)·L^*]·s_n-1+ (1-α)·d计算候选实例排名得分，其中超参α＝0.7，β＝0.2。

S5.4、对步骤5.3，当s_n达到稳定状态说明候选实例的排序已达到最优，终止循环。

S5.5、对于未包含在候选实例中的种子实例，为其分配E中所包含的种子实例得分的平均值(用s_e表示)。

S5.6、至此，每个候选实例和种子实例都获得了一个排序得分，算法终止。若对多个抽象概念进行实例化，循环执行步骤5.1-5.5。

S6、实例相关性度量。基于文档模型及新闻文本语料度量实例与语境的相关度。计算公式如下：

其中，D是爬取的新闻语料库，P(T|IP_e)是从IP_e生成语境约束T的概率。P(IP_e|e)是从实例e生成IP_e的概率；在此发明中IP_e定义为包含实例e 的文本段落。上述公式中P(T|IP_e)和P(IP_e|e)计算如下：

其中，在公式P(T|IP_e)中，p(t|IP_e)是从实例上下文IP_e生成变量t的概率， p(t|D)是词语t在语料库D中的背景概率；λ是平滑参数，取值为0.5；n(t,T) 是t在T中出现的次数。在P(IP_e|e)中，#(IP_e,e)表示实例e出现在实例上下文IP_e中出现的次数，分母

表示实例上下文IP_e中词语的数目。对于该例子T＝“保护眼睛”，c＝“水果”。

根据步骤S5计算的P(e|c)和步骤S6计算的P(T|e)，计算在上下文T下抽象概念c实例化为e概率如下：

f_c,T(e)＝P(e|c)×P(e|T)∝P(e|c)×P(T|e)

对任意候选实例e的概率值f_c,T(e)由大到小排列后，则形成抽象概念c基于上下文T的实例化排序集合。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文相关性的抽象概念实例化方法，其特征在于，该方法具体步骤如下：

(1)输入数据集、抽象概念及对抽象概念的上下文语境约束描述；

2.根据权利要求1所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述步骤(4)中实例相似网络构建的过程如下：

对实例相似网络的定义如下：ISN＝{E,L_E,R_E}，其中，E＝{e_i|i＝1,2,…,n}是顶点集，表示抽象概念的候选实例集；L_E和R_E分别是E中元素之间的类别和关联相似性的加权边，L＝[l(e_i,e_j)]_n×n表示L_E的类别相似权重矩阵；R＝[r(e_i,e_j)]_n×n表示R_E的关联相似性权重矩阵。

3.根据权利要求2所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，实例对e_i和e_j的类别相似权重计算如下：

其中，d(e_i,c)表示候选实例e_i在分类关系树中与抽象概念c的最短路径的长度；d(e_j,c)表示候选实例e_j在分类关系树中与抽象概念c的最短路径长度，

和

分别是实例e_i和e_j的百科分类标签集合，在类别相似性计算中的分类关系树由百科标签迭代构建而成。

4.根据权利要求2或3所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，候选实例和种子实例的关联相似权重计算如下：

其中，e_i∈E,e_s∈S_c，S_c是由模板匹配出的抽象概念c的种子实例，count(e_s,e_i)表示包含实例e_i和e_s的并列关系集合数量；其中，并列关系集合通过提取汉语句子中具有并列关系的实体获得，

表示包含实例e_s的并列关系集合的总数，如果e_i和e_j均不是种子实例，则r(e_i,e_j)被初始化为零。

5.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述步骤(5)具体包括：

(5-2)基于步骤(4)构建的实例相似网络ISN＝{E,L_E,R_E}，在其上迭代执行如下计算公式：

s_n＝α·[β·R^*+(1-β)·L^*]·s_n-1+(1-α)·d

其中，s_n表示第n次迭代得分，R^*和L^*分别是R和L的ISN边权重归一化矩阵，β是调节参数，d为种子实例集的归一化向量，α是衰减因子；

(5-3)当迭代得分s_n稳定不变时，s_n向量中值为各候选实例属于给定抽象概念的概率P(e|c)。

6.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述步骤(2)中数据预处理的过程如下：

(2-1)文本语料预处理：对输入数据集提取具有排比关系的实例，构建实例的并列关系集合；

(2-2)百科标签集预处理：对百科标签集形成的分类结构进行去除环状路径和选择最长路径处理得到一个具有树型结构的分类关系结构。

7.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述步骤(6)中实例相关性度量的计算过程如下：

基于文档模型度量实例与语境的相关度，计算公式如下：

其中D是爬取的新闻语料库，IP_e是包含实体e的文本段落，P(T|IP_e)是从IP_e生成包含抽象概念的上下文语境T的概率，P(IP_e|e)是从实例e生成IP_e的概率。

8.根据权利要求7所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述P(T|IP_e)和P(IP_e|e)计算公式分别如下：

其中p(t|IP_e)是从实例上下文IP_e生成变量t的概率，p(t|D)是词语t在语料库D中的背景概率，λ是平滑参数，n(t,T)是t在T中出现的次数，#(IP_e,e)表示实例e出现在实例上下文IP_e出现的次数，分母

实例上下文IP_e中出现的词语数目，IP_e为包含实例e的段落。

9.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述步骤(7)具体为：

根据步骤(5)计算的P(e|c)和步骤(6)计算的P(T|e)，计算在上下文T下抽象概念c实例化为e概率如下：

f_c,T(e)＝P(e|c)×P(e|T)∝P(e|c)×P(T|e)

对任意候选实例e的概率值f_c,T(e)由大到小排列后，则形成抽象概念c基于上下文T的实例化排序集合，其中P(e|T)是在上下文T下实例e出现的概率，∝是指f_c,T(e)正相关于P(e|c)×P(T|e)。

10.根据权利要求1或2所述的一种基于上下文相关性的抽象概念实例化方法，其特征在于，所述步骤(3)具体为：

根据步骤(1)中输入的抽象概念，利用预先人工定义的获取“is-a”关系模板在文本语料中提取抽象概念c的种子实例集合S_c，种子实例属于抽象概念c的可信度通过如下公式计算：p(e)＝1-0.5^n(e)，其中，n(e)表示实例e被抽象概念c的“is-a”人工定义模板匹配到的次数。