CN108228570A

CN108228570A - 一种基于实体突发特征的文本表示方法

Info

Publication number: CN108228570A
Application number: CN201810095748.2A
Authority: CN
Inventors: 马乐荣; 高兴慧
Original assignee: Yanan University
Current assignee: Yanan University
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2018-06-29

Abstract

本发明公开的一种基于实体突发特征的文本表示方法，包括提出了一种基于实体突发特征的文档表示模型，称为Entity Burst based Document Representation(EBDR)，用于实体‑文档相关性分类任务。EBDR将时间信息和语义信息同时融入到实体‑文档的特征表示中。使用这种表示模型将实体‑文档对作为向量表示，然后利用Logistic Regression进行分类。本发明一种基于实体突发特征的文本表示方法，以目标实体的突发特征为线索，提出一种新的实体‑文档表示模型，该模型从时序和语义两个方面建模实体‑文档的特征，以此来提高实体‑文档相关性分类系统的性能。

Description

一种基于实体突发特征的文本表示方法

技术领域

本发明属于知识工程、信息检索和文本分类技术领域，具体涉及一种基于实体突发特征的文本表示方法。

背景技术

随着互联网的快速发展，特别是以移动互联网为基础的各种社交网络、即时通讯平台在人们日常生活中的普及，大量用户生成的数据随之而来，这些大数据具有巨大的科研、商业应用价值，蕴含了大量的人类碎片化知识。因此，从这些用户生成的大数据中检索并更新知识库中目标实体的内容，对以知识库为基础的其它应用来说是具有重要意义的。如查询扩展、实体链接、问答系统和实体检索等应用。对于这些应用的性能和准确性而言，维护知识库的时效性是非常至关重要的。当知识库中关于现存文章主题的状态、行为或境况的即时信息一旦出现，知识库就应该更新其对应的内容。知识库中的实体可以是人、实施、机构或概念等；实体的即时信息为“新奇”信息。

考虑到新实体随时可能出现，以及由用户生成的网络文本大数据相当巨大，因此，要保持百科知识库内容的时效性面临很大的理论和技术挑战。为了缓解或解决这个挑战，2012年，国际文本检索大会(TREC)启动了知识库加速-累积文档推荐(KBA-CCR)。累积文档推荐(CCR)的任务旨在从文本大数据流中发现包含目标实体重要信息高度相关的文档并作为目标实体的文档。在以前的研究中，实体的突发活动已被证明能有效地挖掘其潜在的候选引用。目标实体突发活动最直观的想法是：当目标实体发生了重要事件时，人们通过知识库搜索实体的查询数量将急剧上升。如图1所示，在2011年10月1日至2011年12月31日期间，道格拉斯·卡斯韦尔实体在维基百科知识库中被用户搜索数量的统计。从图1中可以看出该实体有两个显而易见的突发时期。第一次爆发的时期是道格拉斯·卡斯韦尔对关于英国脱欧的辩论演讲，第二次是道格拉斯·卡斯韦尔提出英国与全世界国家贸易的问题，而不仅仅是与欧盟的贸易。

在先前的累积文档推荐(CCR)工作中，实体的突发特征通常作为实体-文档相关性分类的语义特征补充。在这些工作中，只是简单的统计目标实体在知识库中的查询量或者在某个时间段提及目标实体的文档数，没有充分挖掘目标实体突发特征在文档推荐中的作用。此外，CCR被视为分类任务，相对于知识库中的目标实体，文档被分为相关或不相关两类。对于分类任务，需要将文档表示为固定长度的向量。经典的文本表示方法，如词袋模型中的向量每一个维度对应一个词项，其权重由TF-IDF来确定，无法处理文档中的时间信息。另一个是文本表示的可扩展性问题，当文本大数据流中的文档数量增加时，流语料库生成的词汇量可能会非常大，因此需要大量的时间和空间来处理文本大数据流，这在实际的应用系统中几乎无法实现。

发明内容

本发明的目的在于提供一种基于实体突发特征的文本表示方法，来提高实体-文档相关性分类系统的性能。

本发明所采用的技术方案是：一种基于实体突发特征的文本表示方法，包括下列步骤：

步骤1：建立基于实体突发特征的文本表示向量；

步骤2：抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中；

步骤3：建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集，利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型，之后对实体-文档测试集数据进行分类。

本发明的特点还在于，

步骤1具体包括：

步骤1.1：确定目标实体e及相应的查询数量序列V＝(v₁，v₂,…,v_e)，通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重，记实体e的所有压缩突发期构成的集合为e_b＝{B_i[t_start,t_end]|i＝1,…,|e_b|},其中|e_b|表示目标实体e所有压缩突发期对应集合的大小；t_start为突发期的开始时间，t_end为突发期结束时间；B_i[t_start,t_end]为实体e的第i个突发期；

步骤1.2：确定实体-文档对(e,d)，利用实体突发特征词袋模型表示实体-文档对(e,d)为一个向量，记为

f(e,d)＝(f₁(e,d),f₂(e,d),…,f|e_b|(e,d)) (1)

步骤1.3：建立文档d与目标实体e之间的时间相关性，则向量f(e,d)的第j个分量f_j(e,d)的权值为：

式(2)中，t表示文档d发表的时间。

步骤1.1中目标实体突发期检测算法的计算步骤包括：

步骤1.1.1：对实体查询量序列V＝(v₁，v₂,…,v_e)进行归一化；

步骤1.1.2：给定滑动窗口的宽度w，通过以下公式计算移动平均序列MA_w，

式(3)中，偏移量offset为窗口宽度的一半w/2；

步骤1.1.3：计算拐点cutoff,cutoff＝mean(MA_w)+β·stdev(MA_w)；

步骤1.1.4：计算目标实体突发序列集d＝{iMA_w(i)≥cutoff}；

步骤1.1.5：计算目标实体突发期的权重：

步骤1.1.6：把目标实体的连续突发期压缩合并为分片连续的突发期，并计算压缩合并后的实体突发期权重bw(t_start,t_end)，其权重为各连续突发期权重的算术平均值；

步骤1.1.7：返回目标实体突发期及其对应的权重。

步骤2具体包括：

步骤2.1：抽取实体-文档对的语义特征如下：

表1实体-文档(e,d)对的语义特征

步骤2.2：将抽取的实体-文档对的语义特征融入到步骤1中得到的文本表示向量中得到：

f(e,d)＝[f1(e,d),···,f|e_b|(e,d),N um(erel),···,weekday(d)] (5)。

步骤3具体包括：

步骤3.1：建立实体-文档的Logistic Regression分类模型如下：

式(6)中，P(r|e,d)表示实体e和文档d相关性度量，r∈{-1,1}为二元随机变量，r取1表示文档d与目标实体e相关，r取-1表示文档d与目标实体e无关；K为(e,d)对应的特征向量的个数；σ(x)＝1/(1+exp(-x))是Sigmoid函数；ω_i是特征向量第i个分量的组合系数，其中w₀＝b为常数项，f₀＝1；

步骤3.2：令T＝{(e,d_v)v＝1,…,N}}表示实体-文档对训练集合，

R＝{r_ev|v＝1,…,N}是对应训练集的相关性判别标签集合，则训练集T的似然函数为：

步骤3.3：对式(7)通过极大化对数似然函数求w_i的局部最优解，记为将其代入实体-文档的Logistic Regression分类模型，得到实体-文档的相关性分类模型，如下式

步骤3.4：利用步骤3.3学习到的实体-文档的Logistic Regression分类模型，对实体-文档测试集数据进行分类。

本发明的有益效果是：本发明一种基于实体突发特征的文本表示方法，以目标实体的突发特征为线索，提出一种新的实体-文档表示模型，该模型从时序和语义两个方面建模实体-文档的特征，以此来提高实体-文档相关性分类系统的性能。

附图说明

图1是维基百科道格拉斯·卡斯韦尔实体的查询数量统计图；

图2是模型EBDR_1.5_5与模型SEMANTIC-LR对每个目标实体的F1差图。

具体实施方式

下面结合附图以及具体实施方式对本发明进行详细说明。

本发明提供了一种基于实体突发特征的文本表示方法，包括下列步骤：

步骤1：建立基于实体突发特征的文本表示向量，具体包括：

步骤1.1：确定目标实体e及相应的查询数量序列V＝(v₁，v₂,…,v_e)，通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重，记实体e的所有压缩突发期构成的集合为e_b＝{B_i[t_start,t_end]|i＝1,…,|e_b|},其中|e_b|表示目标实体e所有压缩突发期对应集合的大小；t_start为突发期的开始时间，t_end为突发期结束时间；B_i[t_start,t_end]为实体e的第i个突发期；其中目标实体突发期检测算法的计算步骤包括：

式(3)中，偏移量offset为窗口宽度的一半w/2；

步骤1.1.3：计算拐点cutoff,cutoff＝mean(MA_w)+β·stdev(MA_w)；

步骤1.1.4：计算目标实体突发序列集d＝{i|MA_w(i)≥cutoff}；

步骤1.1.5：计算目标实体突发期的权重：

步骤1.1.7：返回目标实体突发期及其对应的权重；

f(e,d)＝(f₁(e,d),f₂(e,d),…,f|e_b|(e,d)) (1)

式(2)中，t表示文档d发表的时间。

步骤2：抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中，具体包括：

步骤2.1：抽取实体-文档对的语义特征如下：

表1实体-文档(e,d)对的语义特征

f(e,d)＝[f₁(e,d),···,f|e_b|(e,d),N um(e_rel),···,weekday(d)] (5)。

步骤3：建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集，利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型，之后对实体-文档测试集数据进行分类，具体包括：

步骤3.1：建立实体-文档的Logistic Regression分类模型如下：

式(6)中，P(r|e,d)表示实体e和文档d相关性度量，r∈{-1,1}为二元随机变量，r取1表示文档d与目标实体e相关，r取-1表示文档d与目标实体e无关；K为(e,d)对应的特征向量的个数；σ(x)＝1/(1+ex_p(-x))是Sigmoid函数；ω_i是特征向量第i个分量的组合系数，其中w₀＝b为常数项，f₀＝1；

步骤3.2：令T＝{(e,d_v)|v＝1,…,N}}表示实体-文档对训练集合，R＝{r_ev|v＝1,…,N}是对应训练集的相关性判别标签集合，则训练集T的似然函数为：

步骤3.3：对式(7)通过极大化对数似然函数求w_i的局部最优解，记为把其代入实体-文档的Logistic Regression分类模型，得到实体-文档的相关性分类模型，如下式

结果分析

本发明给出实验所使用的数据集、实验场景、实验结果的评价指标、实验方法以实验结果的对比分析。

数据集

本发明使用TREC-KBA-2012数据集来验证基于实体突发特征的文本表示模型的有效性。TREC-KBA-2012数据集是由国际文本检索大会(TREC)提供的知识库累积文档推荐(CCR)任务公开评测的基准数据集：TREC-KBA-2012数据集中的目标实体集合全部由29个来自Wikipedia的实体组成。从类别上看，包括了27个人名实体，2个组织机构实体。目标实体选择的依据是实体在Wikipedia中与其它活动实体有复杂链接关系的实体。2012年流语料库中包含4亿篇网络文档，文档发表于2011年10月至2012年4月期间，其中2012年2月之前的数据用于训练，其它数据用于测试。

经过对TREC-KBA-2012原始数据进行过滤，依据CCR对训练数据和测试数据的分割方法，最终工作数据集中有17,950个实体-文档对训练实例，71,365个实体-文档测试样本。实体-文档对实例被标注为四个相关类别：Central,Relevant,Neutral和Garbage，此四种不同相关程度的定义参见表2。

表2TREC-KBA-2012实体-文档相关程度定义

表3TREC-KBA-2012数据集标注统计

任务场景

由于实验数据集中实体-文档对的标注具有四种不同的相关类别，因此根据实体-文档相关性分类的不同粒度设置，实体-文档相关性分析任务分为两个不同的难度的任务：(1)Central Only，即从文本大数据流中发现与目标实体重要相关的文档。相对于目标实体，只有标注为Central的文档才作为分类模型的正例样本，其它的为负例样本。(2)Central+Relevant，即从文本大数据流中发现与目标实体重要或相关的文档。对于目标实体，标注为Central或Relevant的样本为正例，其它的为负例。

系统评价指标

TREC-KBA-2012使用最大宏平均F1＝max(F(avg(P),avg(R))作为累积文档推荐系统的衡量指标，本发明也采用这个指标来度量实体-文档相关性分类任务的性能。该指标的计算包括如下三步。

首先，对于任一目标实体，分类系统按照序列的方式计算每个文档的相关性分数。对于每个文档计算一个介于[0,1000]范围的相关性得分。因此对所有的实体-文档对都能计算介于[0,1000]的相关性得分。

其次，对于任一介于0到1000之间的临界值(cutoff)，对测试集中的数据进行分类。实体-文档对相关性分数高于cutoff被分为正样本，小于cutoff的实体-文档对样本被分为负样本；

最后，计算最大宏平均值F1＝max(F(avg(P),avg(R))。通过以一定的步长变化cutoff值，针对每一cutoff，计算相对于每个实体的准确率(Precision，P)、召回(Recall，R)。接着计算对所有实体的平均准确率avg(P)和平均召回率avg(R)。再接着计算宏平均值F(avg(P),avg(R))。最后根据所有的cutoff值，取最大的宏平均F为F1值作为分类系统的性能指标。

另外TREC-KBA-2012还使用了规模效(Scale Utility，SU)作为系统的另一个度量指标。该指标衡量系统接收相关文档和拒绝不相关文档的能力。本发明也采用这一指标作为参考指标与F1同时作为实体-文档相关性分类系统的性能指标。

实验配置

由于TREC-KBA-2012数据集中每个目标实体的标注数据相对充足，因此本发明将对每个目标实体训练一个分类模型。

实验对比方法

由于目标实体突发期检测算法有两个超参数。一个是移动平均的滑动窗口的宽度w，决定了突发期的跨域的观察单位长度，以此来捕获长期或短期的突发期。另一个是标准差的系数β，决定cutoff相对于标准差的放大或缩小倍数，以此来捕获较平凡的突发期或较大的突发期。通过组合这两个超参数，本发明实现了25个变种的实体-文档相关性判别分类模型，并做了大量广泛的比较实验来验证提出模型的实际效果。对比实验列表如下：

·实体-文档相关性判别分类模型(EBDR_X_X)。该类模型是基于实体突发特征文本表示模型(EBDR)的实体-文档Logistic Regression分类模型。第一个X表示EBDR模型中超参数标准方差的系数β的值，第二个X表示EBDR模型中超参数移动平均滑动窗口的宽度。当w∈{1,3,5,7,15}和β∈{0.0,0.5,1.0,1.5,2.0}取这些值的组合时25个变种的实体-文档相关性分类模型被实现。

·基于词袋模型的判别分类模型(TFIDF-LR)。模型使用LogisticRegression分类方法，采用bag-of-words来表示实体-文档的语义特征。词袋模型中每个词的权重由TF-IDF值确定，由gensim软件包计算实体-文档的TF-IDF值。基于实体-文档相关性语义特征的判别分类模型(SEMANTIC-LR)。该方法也使用Logistic Regression分类模型。但特征使用已经被证明有效的实体-文档语义特征，这些特征由表1列出。需要说明的是这些语义特征也在EBDR模型中使用。

为了进一步比较实验效果，本发明引进了两个在TREC-KBA-2012数据集上取得较优秀结果的方法，详细介绍如下。

·HLTCOE。模型使用支持向量机，使用bag-of-words和bag-of-entity-names来表示实体-文档特征。该方法取得TREC-KBA-2012评测的第一名。

·2-step J48。两步分类方法。第一步从文本流中过滤提及目标实体的文档，作为候选文档。第二步使用J48分类模型对实体-文档进行分类。

实验整体结果及分析

所有比对实验的结果汇总在表4里。在Central Only任务场景上，EBDR_1.5_5取得了最好的F 1值，除了参考方法HLTCOE，EBDR_1.5_7获得了最好的SU值，这说EBDR模型在TREC-KBA-2012数据集上使用w＝5和β＝1.5能够很好的捕获实体的突发特征。相对于TFIDF-LR,SEMANTIC-LR,HLTCOE,和2-step J48参照方法，所有EBDR变种方法获得较高的F1值。然而在Central+Relevant任务场景下，所有对比的方法中，没有明显获胜的模型。需要特别说明的是，Central Only任务场景是实体-文档相关性分类技术的核心任务。

在表4中，相比于SEMANTIC-LR模型的结果，模型EBDR_1.5_5在Central Only任务场景中提高了近11％的F 1值。与模型TFIDF-LR相比较，所有的EBDR模型变种同样在Central Only任务场景中都取得相当高的F1值，且实验结果最高的EBDR模型，其F1值高出TFIDF-LR模型近28％。可是在Central+Relevant任务场景中，模型EBDR的各变种同TFIDF-LR模型从F1值角度看几乎没有什么明显的区别。在Central Only任务场景下，EBDR模型各变种的F1值远远超过模型SEMANTIC-LR和TFIDF-LR，这充分验证了本发明开始的研究动机：目标实体的突发特征能够提高实体-文档相关性分类任务的性能，同时也说明突发特征能够捕获目标实体的重要相关文档。

表4所有对比模型的结果比较

与TREC-KBA-2012评测第一名的模型HLTCOE以及2-step J48模型相比，EBDR所有变种在两种任务场景中都取得很高的F1值。在Central Only任务场景下，最大宏平均F1值最高的EBDR变种超出模型HLTCOE为14％，超出2-step J48模型为13％。在Central+Relevant任务场景下，EBDR变种F1最高的模型高出HLTCOE模型近65％，高出2-step J48模型近51％。这些结果表明EBDR模型优于比较的其它模型。

实体级粒度比较

最大宏平均F1值衡量了实体-文档相关性分类任务的整体性能，可是忽略了实体之间的差别，本发明关注实体级别的性能分析。本发明以EBDR_1.5_5模型和SEMANTIC-LR模型为比对模型，比较在Central Only任务场景下每个目标实体的分类性能。

具体来说，首先取模型EBDR_1.5_5与模型SEMANTIC-LR获得最大宏平均F1值对应的cutoff临界值。接着以cutoff临界值作为对每个目标实体对应的测试样本进行分类的临界值，大于此cutoff值的样本为正类，小于的则为负样本。然后计算每个目标实体在不同模型下的准确率P，召回率R和调和平均F1值。最后分别计算每个目标实体在模型EBDR_1.5_5与模型SEMANTIC-LR上的F1值差。图2给出29个目标实体两个比较模型的调和平均F1差，图中以降序的方式对目标实体调和平均F1差值进行排序。正值意味着模型EBDR_1.5_5在此目标实体上F1值优于模型SEMANTIC-LR，负值表示模型SEMANTIC-LR的F1值在对应的目标实体上优于模型EBDR_1.5_5。从结果可以看出，29个目标实体中，有24个实体的F1差值大于零。这进一步表明，EBDR模型不仅在整体上优于模型SEMANTIC-LR，而且在细粒度的实体级别也高于模型SEMANTIC-LR。

在线百科知识库实体-文档相关性分类任务的目的是从文本大数据流中检索并发现与目标实体具有不同相关程度的候选文档。分类任务涉及两方面的技术，其一是如何对实体-文档进行表示，其二是选择什么样的分类模型对其进行学习。本发明以实体的突发特征为出发点，构建以实体突发特征为基础的文本表示模型EBDR。该模型不仅能建模实体的突发特征，还能捕获实体-文档的语义特征。针对TREC-KBA-2012数据集中目标实体标注数据物特点，本发明为每个目标实体在TREC-KBA-2012数据集训练一个LogisticRegression分类模型。实验结果表明，本发明提出的EBDR模型优于其它比较的模型，如TFIDF-LR模型、SEMANTIC-LR模型以及参考模型HLTCOE和2-step J48。

Claims

1.一种基于实体突发特征的文本表示方法，其特征在于，包括下列步骤：

步骤1：建立基于实体突发特征的文本表示向量；

2.如权利要求1所述的一种基于实体突发特征的文本表示方法，其特征在于，所述步骤1具体包括：

f(e,d)＝(f₁(e,d),f₂(e,d),…,f|e_b|(e,d)) (1)

式(2)中，t表示文档d发表的时间。

3.如权利要求2所述的一种基于实体突发特征的文本表示方法，其特征在于，所述步骤1.1中目标实体突发期检测算法的计算步骤包括：

式(3)中，偏移量offset为窗口宽度的一半w/2；

步骤1.1.3：计算拐点cutoff,cutoff＝mean(MA_w)+β·stdev(MA_w)；

步骤1.1.4：计算目标实体突发序列集d＝{i|MA_w(i)≥cutoff}；

步骤1.1.5：计算目标实体突发期的权重：

步骤1.1.7：返回目标实体突发期及其对应的权重。

4.如权利要求3所述的一种基于实体突发特征的文本表示方法，其特征在于，所述步骤2具体包括：

步骤2.1：抽取实体-文档对的语义特征如下：

表1 实体-文档(e,d)对的语义特征

f(e,d)＝[f₁(e,d),…,f|e_b|(e,d),N um(e_rel),…,weekday(d)] (5)。

5.如权利要求4所述的一种基于实体突发特征的文本表示方法，其特征在于，所述步骤3具体包括：

步骤3.1：建立实体-文档的Logistic Regression分类模型如下：