CN108470035B

CN108470035B - 一种基于判别混合模型的实体-引文相关性分类方法

Info

Publication number: CN108470035B
Application number: CN201810113330.XA
Authority: CN
Inventors: 马乐荣; 高兴慧
Original assignee: Yanan University
Current assignee: Yanan University
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-07-13
Anticipated expiration: 2038-02-05
Also published as: CN108470035A

Abstract

本发明公开了一种基于判别混合模型的实体‑引文相关性分类方法，具体按照确定的训练集、并抽取目标实体e的类别特征、引文文档d的类别特征以及实体‑引文对的语义特征f(e,d)、构建实体‑引文类别依赖的判别混合模型、求解最优参数并带入构建实体‑引文类别依赖的判别混合模型中，然后利用得到的实体‑引文类别依赖的判别混合模型对目标实体相关的引文进行分类的步骤。本发明的实体‑引文类别依赖的判别混合模型中引入了实体和引文的隐类别，利用判别混合模型把实体、引文的隐类别与二者的语义特征融合起来，能够提高实体‑引文相关性分类系统的性能。

Description

一种基于判别混合模型的实体-引文相关性分类方法

技术领域

本发明属于知识工程、信息检索技术领域，具体涉及一种基于判别混合模型的实体-引文相关性分类方法。

背景技术

知识库累积引文推荐(KBA-CCR)任务的核心内容是实体-引文相关性分类任务。实体-引文相关性分类任务旨在应用信息检索、自然语言理解和机器学习等方法，从网络文本大数据流中查找并发现与目标实体具有不同优先级别的候选引文。

针对目标实体中蕴含的先验知识，研究人员提出了实体类别依赖的判别混合模型，把实体之间类别差异的先验知识融入在判别混合模型中。在TREC-KBA-2013数据集上，实验结果表明，该模型不仅在所处理的目标实体上表现优越，同时对训练集中未出现的实体也表现不俗。

对于引文的先验知识，研究人员也提出了文档类别依赖的判别混合模型，该模型使用了引文类别的先验知识，如引文的主题和引文的来源。但由于仅仅单方面考虑引文的先验信息，而没有考虑目标实体的先验知识，因此该模型在TREC-KBA-2013数据集的性能表现一般。

相对于实体和文本的多样性和数量，人工标注数据不可能涵盖所有的实体和文本类别。因此需要充分利用有限的人工标注数据，建模目标实体与网络文本的多样性。蕴含在实体-文本对的先验知识是提高分类性能最有效的信息。事实上，实体-引文相关性分类的本质是对实体-引文对的分类，因此需要同时考虑实体与引文的先验知识。例如，当处理的引文主题是“音乐”时，此引文更有可能与音乐家实体或音乐乐队高度相关，与政治家实体的相关性极低。反之，当处理的目标实体是音乐家时，主题是“音乐”的引文有极高的可能性被分类为重要引文，而主题是“政治”的引文几乎不可能被分类为重要引文。

发明内容

本发明的目的是提供一种基于判别混合模型的实体-引文相关性分类方法，能够提高实体-引文相关性分类系统的性能。

本发明采用的技术方案是，一种基于判别混合模型的实体-引文相关性分类方法，具体按照下述步骤进行：

步骤1，给定训练集T＝{(e_u,d_v)|u＝1,2,...,M；v＝1,2,...,N}，并用R＝{r_uv|u＝1,2,...,M；v＝1,2,...,N}表示训练集T的相关性判断，将训练集T和训练集T的相关性判断R组成测试集；其中E＝{e_u|u＝1,2,...,M}为目标实体集，D＝{d_v|v＝1,2,...,N}为引文文档集；r_uv∈{-1,1}，为目标实体集和引文文档集之间的相关性判别随机变量

步骤2，步骤1完成后，任取实体-引文对(e,d)∈T，设计并抽取目标实体e的类别特征g(e)、引文文档d的类别特征g(d)以及实体-引文对(e,d)的语义特征f(e,d)：

g(e)＝(g₁(e),g₂(e),...,g_L(e)) (1)；

g(d)＝(g₁(d),g₂(d),...,g_C(d)) (2)；

f(e,d)＝(f₁(e,d),f₂(e,d),...,f_H(e,d)) (3)；

其中，L表示抽取的目标实体e的特征个数，g_i(e)表示实体e的第i个抽取的类别特征，i＝1,2,...,L；C表示抽取的引文类别特征个数，g_j(d)表示抽取引文d第j个类别特征j＝1,2,...,C；H表示抽取实体-引文(e,d)对语义特征的个数，f_k(e,d)表示实体-引文对(e,d)的第k个语义特征，k＝1,2,...,H；

步骤3，步骤2完成后，构建实体-引文类别依赖的初始判别混合模型P(r|e,d；α,β,ω)：

其中，r∈{-1,1}为实体-引文对(e,d)的相关性判别随机变量，r＝1表示目标实体e与引文d相关，r＝-1表示目标实体e与引文d不相关；z为目标实体e的隐类别随机变量，N_z为实体e隐类别随机变量z的个数；x为引文文档d隐类别随机变量，N_x为引文文档d隐类别x的个数；

为目标实体e隐类别归一化因子；

为引文d隐类别归一化因子；α_zi、β_xj和ω_zxk为待优化的参数，其中i＝1,2,...,L；z＝1,2,...,N_z；

j＝1,2,...,C；k＝1,2,...,H；

步骤4，利用步骤3得到的实体-引文类别依赖的初始判别混合模型P(r|e,d；α,β,ω)，然后利用EM算法求解实体-引文类别依赖的判别混合模型P(r|e,d；α,β,ω)的最优参数

和

并将最优参数

和

带入到步骤3中的实体-引文类别依赖的初始判别混合模型P(r|e,d；α,β,ω)中，得到实体-引文类别依赖的混合模型：

步骤5，利用步骤4得到的实体-引文类别依赖的判别混合模型P(r|e,d；α,β,ω)对测试集的目标实体和引文进行相关性分类。

本发明的特点还在于：

步骤2中按照下述方法抽取目标实体的类别特征g(e)：

抽取目标实体集的主页类别特征g^p(e)作为目标实体的类别特征g(e)，针对目标实体集E的所有实体，爬取所有实体在维基百科知识库中的主页内容，去除停用词、去掉高频与低频词，最后应用词袋模型，各词项的权重由TF-IDF确定；建立目标实体主页类别的特征向量：

g(e)＝g^p(e)＝(g₁ ^p(e),g₂ ^p(e),...,g_L ^p(e)) (6)，

其中，g_i ^p(e)实体e的第i个抽取的TF-IDF类别特征。

步骤2中按照下述方法抽取目标实体的类别特征g(e)：

抽取目标实体集E的实体分类标签类别特征g^c(e)作为目标实体的类别特征g(e)，针对目标实体集E的所有实体，爬取所有实体在维基百科知识库中的分类标签信息；采用类别词袋模型为目标实体的类别进行建模，权重由独热(0/1)表示：

g(e)＝g^c(e)＝(g₁ ^c(e),g₂ ^c(e),...,g_L ^c(e)) (7)，其中，g_i ^c(e)表示实体e的第i个抽取的标签类别特征。

步骤2中按照下述方法抽取引文文档类别特征g(d)：

抽取引文的TF-IDF类别特征g^t(d)作为引文文档的类别特征g(d)：采用词袋模型构建引文类别的特征向量，去除停用词、高频和低频词后，对引文语料库中的每个引文利用TF-IDF模式计算引文特征向量中对应词项的权重，将词典容量设置为20000，得到：

g(d)＝g^t(d)＝(g₁ ^t(d),g₂ ^t(d),...,g_C ^t(d)) (8)，

其中，g_j ^t(d)表示引文d抽取的第j个TF-IDF类别特征。

步骤2中按照下述方法抽取引文文档类别特征g(d)：

抽取引文的主题类别特征g^l(d)作为引文文档的类别特征g(d)。采用LDA主题模型，使用JGibbLDA 2工具包对语料库中的每篇引文计算其主题特征向量，设置字典的容量为2万，主题个数为500，则：

g(d)＝g^l(d)＝(g₁ ^l(d),g₂ ^l(d),...,g_C ^l(d)) (9)；

其中，g_j ^l(d)表示对引文d抽取的第j个主题类别特征。

步骤2中按照下述方法抽取实体-引文对(e,d)的语义特征：

给定任一实体引文对(e,d)，分别抽取实体引文对中(e,d)实体e和引文d的如表1的语义特征，构成实体引文对(e,d)的语义特征f(e,d)：

f(e,d)＝(f₁(e,d),f₂(e,d),...,f_H(e,d)) (10)。

步骤4中求解模型的最优参数具体包括下述步骤:

步骤4.1，给定训练集T＝{(e_u,d_v)|u＝1,2,...,M；v＝1,2,...,N}，R＝{r_uv|u＝1,2,...,M；v＝1,2,...,N}表示训练集T的相关性判断，根据步骤3构建的实体-引文类别依赖的判别混合模型生成T＝{(e_u,d_v)|u＝1,2,...,M；v＝1,2,...,N}的似然函数：

步骤4.2，根据步骤4.1得到的似然函数构建对数似然函数：

其中，ω是由参数ω_zxk(z＝1,2,...,N_z；x＝1.2....,N_x,k＝1,2,...,H)组成的参数矢量，α是由参数α_zi＝(z＝1,2,...,N_z；i＝1.2....,L)组成的参数矢量；β是由参数β_xi＝(x＝1.2....,N_x,j＝1,2,...,C)组成的参数矢量；

步骤4.3，利用EM算法循环迭代求步骤4.2得到的对数似然函数的最优参数：

步骤4.3.1，对参数α,β,ω随机初始化，为每个参数进行赋值；

步骤4.3.2使用EM算法的E步计算后验概率P(z,x|e_u,d_v；θ^old)：

其中，θ＝{α,β,ω}，θ^old＝{α^old,β^old,ω^old}为上次迭代的参数值，

根据得到的后验概率P(z,x|e_u,d_v；θ^old)，利用概率公式推算边缘分布P(z|e_u,d_v；θ^old)和P(x|e_u,d_v；θ^old)：

步骤4.4.3，步骤4.4.2完成后，使用EM算法的M步计算，利用(13)，式(14)和式(15)求下列式(16)、(17)和(18)的局部最优解ω^* _zx、α^* _z和β^* _x：

步骤4.4.4，循环步骤4.3.2和4.3.3，直到EM算法收敛，得到式(4)的最优参数

和

本发明的有益效果在于：

本发明的一种基于判别混合模型的实体-引文相关性分类方法，在混合模型中引入了实体和引文的类别先验信息，能够提高实体-引文相关性分类系统的性能。

具体实施方式

下面对本发明进行详细说明。

一种基于判别混合模型的实体-引文相关性分类方法，具体按照下述步骤进行：

步骤1，给定训练集T＝{(e_u,d_v)|u＝1,2,...,M；v＝1,2,...,N}，其中E＝{e_u|u＝1,2,...,M}为目标实体集，D＝{d_v|v＝1,2,...,N}为引文文档集；A＝{r_uv|u＝1,2,...,M；v＝1,2,...,N}表示训练集T的相关性判断；

步骤2，步骤1完成后，任取一实体-引文对(e,d)∈T，设计并抽取目标实体e的类别特征g(e)、引文文档d的类别特征g(d)以及实体-引文对(e,d)的语义特征f(e,d)：

g(e)＝(g₁(e),g₂(e),...,g_L(e)) (1)；

g(d)＝(g₁(d),g₂(d),...,g_C(d)) (2)；

f(e,d)＝(f₁(e,d),f₂(e,d),...,f_H(e,d)) (3)；

其中，L表示抽取的目标实体e的类别特征个数，g_i(e)表示实体e的第i个抽取的类别特征，i＝1,2,...,L；C表示抽取的引文d的类别特征个数，g_j(d)表示抽取引文d的第j个类别特征j＝1,2,...,C；H表示抽取实体-引文(e,d)对语义特征的个数，f_k(e,d)表示实体-引文对(e,d)的第k个语义特征，k＝1,2,...,H；

在抽取目标实体的类别特征g(e)时，可以抽取目标实体集的主页类别特征g^p(e)作为目标实体的类别特征g(e)，针对目标实体集E的所有实体，爬取所有实体在维基百科知识库中的主页内容，去除停用词、去掉高频与低频词，最后应用词袋模型，各词项的权重由TF-IDF确定；建立目标实体主页类别的特征向量：

g(e)＝g^p(e)＝(g₁ ^p(e),g₂ ^p(e),...,g_L ^p(e)) (6)，

其中，g_i ^p(e)表示实体e的第i个抽取的TF-IDF类别特征。

也可以抽取目标实体集E的实体分类标签类别特征g^c(e)作为目标实体的类别特征g(e)，针对目标实体集E的所有实体，爬取所有实体在维基百科知识库中的分类标签信息；采用类别词袋模型为目标实体的类别进行建模，权重由独热(0/1)表示：

在抽取引文文档类别特征g(d)时，可以抽取引文的TF-IDF类别特征g^t(d)作为引文文档的类别特征g(d)：采用词袋模型构建引文类别的特征向量，去除停用词、高频和低频词后，对引文语料库中的每个引文利用TF-IDF模式计算引文特征向量中对应词项的权重，将词典容量设置为20000，得到：

g(d)＝g^t(d)＝(g₁ ^t(d),g₂ ^t(d),...,g_C ^t(d)) (8)，

其中，g_j ^t(d)表示引文d抽取的第j个TF-IDF类别特征。

也可以抽取引文的主题类别特征g^l(d)作为引文文档的类别特征g(d)：采用LDA主题模型，使用JGibbLDA 2工具包对语料库中的每篇引文计算其主题特征向量，设置字典的容量为2万，主题个数为500，则：

g(d)＝g^l(d)＝(g₁ ^l(d),g₂ ^l(d),...,g_C ^l(d)) (9)；

其中，g_j ^l(d)表示对引文d抽取的第j个主题类别特征。

抽取实体-引文对(e,d)的语义特征是按照下述方法进行：

f(e,d)＝(f₁(e,d),f₂(e,d),...,f_H(e,d)) (10)。

为目标实体e隐类别归一化因子；

j＝1,2,...,C；k＝1,2,...,H；

步骤4，利用步骤3得到的实体-引文类别依赖的初始判别混合模型P(r|e,d；α,β,ω)，求步骤1中训练集T上的对数似然函数，然后利用EM算法求解实体-引文类别依赖的判别混合模型P(r|e,d；α,β,ω)的最优参数

和

步骤4.1，给定训练集T＝{(e_u,d_v)|u＝1,2,...,M；v＝1,2,...,N}，A＝{r_uv|u＝1,2,...,M；v＝1,2,...,N}表示训练集T的相关性判断，根据步骤3构建的实体-引文类别依赖的判别混合模型生成T＝{(e_u,d_v)|u＝1,2,...,M；v＝1,2,...,N}的似然函数：

步骤4.2，根据步骤4.1得到的似然函数构建对数似然函数：

步骤4.3，利用EM算法循环迭代求步骤4.2得到的对数似然函数的极大最优参数：

步骤4.3.1，对参数α,β,ω随机初始化，为每个参数进行赋值。

步骤4.3.2:使用EM算法的E步计算后验概率P(z,x|e_u,d_v；θ^old)：

步骤4.4.3，步骤4.4.2完成后，使用EM算法的M步计算，利用式(13)，式(14)和式(15)求下式(16)、(17)和(18)的局部最优解ω^* _zx、α^* _z和β^* _x：

步骤4.4.4，循环迭代步骤4.3.2和4.3.3,直到EM算法收敛，得到式(4)的最优参数

和

步骤5，将步骤4得到的最优参数

和

带入到步骤3中的实体-引文类别依赖的初始判别混合模型P(r|e,d；α,β,ω)中，得到：

步骤6，利用步骤5得到的体-引文类别依赖的判别混合模型P(r|e,d；α,β,ω)，对测试集的目标实体和引文进行相关性分类

表1实体-引文的语义和时序特征

结果分析

本发明给出实验所使用的数据集、实验场景、实验结果的评价指标、实验方法以实验结果的对比分析。

a，数据集

采用TREC-KBA-2013和TREC-KBA-2014两个数据集来验证实体-引文类别依赖判别混合模型的有效性。TREC-KBA-2013和TREC-KBA-2014数据集由国际文本检索大会(TREC)知识库加速(KBA)累积引文推荐(CCR)评测提供的公开数据集。

TREC-KBA-2013的数据集共有141个实体，其中98个人物实体、19个组织机构和24个设施实体，121个实体来源于维基百科，20个实体来源于Twitter。

TREC-KBA-2014的数据集由71个实体组成，33个来自于维基百科、38个实体取自流语料库，其中有48个人物实体、16个机构实体和7个设施实体。

相对TREC-KBA-2013的数据集，TREC-KBA-2014数据集主要有以下几个变化：

(1)目标实体是由数据标注人员选择的，而不是由评测的组织者来确定。

(2)所有目标实体集中在西雅图和温哥华之间，大多数是长尾实体，而不是流行度高的实体。

(3)33个实体来自维基百科。38个目标实体缺乏主页，其仅有一个来自流语料库中的网页内容。

TREC-KBA-2013数据集和TREC-KBA-2014数据集的引文文档均来源于新闻网站(news)、主流新闻网站(mainstream news)、社交网站(social)、博客网站(weblog)、bitly网站短链接(linking)、学术文档摘要(arXiv)、分类网站(classified)、评论(reviews)、论坛(forum)和迷你文(从memetracker网站抽取的来自新闻、博客中的短语)。TREC-KBA-2013数据集中的引文文档发表于2011年10月到2013年2月，TREC-KBA-2014数据集引文文档发表于2011年10月到2013年5月。由于两数据集中包含的原始文档太大，经过滤后，TREC-KBA-2013数据集的引文文档有84,214篇，TREC-KBA-2014数据集的引文文档有303,639篇。对于TREC-KBA-2013数据集，发表于2011年10月至2012年2月期间的引文文档与实体集构成训练集T₁，发表于2012年3月到2013年2月的引文文档与目标实体集构成测试集Test1。而对TREC-KBA-2014数据集，为了保证每个目标实体有标注数据用于训练，所以目标实体用于训练和测试的分割时间不同。为了统一，仍然记T₂为其训练集，Test2为其的测试集。根据引文与目标实体之间的相关程度，实体-引文对被标注为四个不同的相关类别，相关程度从高到低依次为：重要(vital)、有用(useful)、中性(Neutral)和垃圾(Garbage)。各相关程度的具体定义参见表2、表3。

表2KBA-2013数据集实体-文档相关程度定义

TREC-KBA-2013和TREC-KBA-2014数据集标注的详细统计如表4。

从表4中能够看出，TREC-KBA-2013的训练集T₁有8,935篇引文文档，TREC-KBA-2014训练集T₂包含8,420篇引文文档。但是对于测试集，TREC-KBA-2014测试集中的引文远远多于TREC-KBA-2013测试集。

表3TREC-KBA-2014实体-文档相关程度定义

表4TREC-KBA-2013和TREC-KBA-2014数据集标注的详细统计

B，任务场景

根据实体-引文相关性分类任务的不同粒度，实体-引文相关性分类分为两个难度不同的场景，分别是Vital Only场景和Vital+Useful场景。Vital Only场景把标注为Vital的实体-引文对视作正样本，标注为其它3类的实体-引文对视为负样本。而Vital+Useful场景把标注为Vital或Useful的实体-引文对作为正样本，其它两类为负样本。

C，实验比对方法

除了全局比较方法外，本发明实现了实体-引文类别依赖判别混合模型(HEDCDMM)的12个变种，来验证实体-引文类别依赖模型的实际效果。这些变种实验使用了不同的实体和引文的特征向量，分别是简单实体-引文类别依赖的判别混合模型、实体类别依赖的方法、引文类别依赖方法以及实体-引文类别依赖的方法。

基本方法

·全局判别模型(GDM)。在模型学习中，不使用实体与引文的任何类别信息，只使用二者的语义特征和时序特征的全局判别分类模型，该模型对所有的实体-引文类别学习固定权值的判别分类模型。

·简单实体-引文类别依赖的判别混合模型(

_CDMM)。此模型中，实体和引文的语义特征、时序特征不仅作为混合因子的类别特征，又作为判别分类成分的特征。

实体类别依赖的方法

·基于实体主页类别依赖的判别混合模型(Profile_ECDMM)。该模型从实体的主页里抽取实体的类别特征，作为判别混合模型中混合因子的实体类别特征。

·基于实体分类标签依赖的判别混合模型(Category_ECDMM)。模型混合因子使用从实体分类标签中抽取的实体类别特征。

·组合实体类别依赖的判别混合模型(Combine_ECDMM)。该判别混合模型把实体所对应的主页特征向量与分类标签向量组合起来，作为混合因子部分的实体类别特征向量。此方法采用最简单的组合方式，即把两种实体类别特征向量直接拼接起来，作为目标实体的类别特征。

引文类别依赖的方法

·基于TF-IDF引文类别依赖的判别混合模型(TFIDF_DCDMM)。模型利用TF-IDF模式建模引文的主题特征，作为引文对应的类别特征向量，并把它作为模型混合因子的输入，以此来学习混合因子对应的参数。

·基于LDA引文类别依赖的判别混合模型(LDA_DCDMM)。模型中混合因子使用基于LDA主题模型抽取的引文主题特征，作为引文类别的特征向量。

实体-引文类别依赖的方法

·实体主页-引文TFIDF类别依赖的判别混合模型(Pro2TFIDF_HEDCDMM)。模型首先提取目标实体的主页特征，作为实体的类别特征向量，其次从引文中获取引文的TF-IDF主题特征，作为引文的类别特征，最后把二者的类别特征向量组合起来，作为模型混合因子部分的特征输入。

·实体主页-引文LDA类别依赖的判别混合模型(Pro2LDA_HEDCDMM)。该模型组合实体主页类别特征和引文LDA主题类别特征作为混合因子的类别特征。

·实体分类标签-引文TFIDF类别依赖的混合模型(Cat2TFIDF_HEDCDMM)。模型首先从实体的分类标签中抽取实体的类别特征向量，接着从引文中利用TF-IDF模式获取引文的主题特征，作为引文的类别特征，最后把二者组合起来，输入混合模型的混合因子部分。

·实体分类标签-引文LDA类别依赖的混合模型(Cat2LDA_HEDCDMM)。模型把实体的分类标签特征和引文LDA主题特征作为混合因子部分的类别特征。

·实体主页分类标签-引文TFID类别依赖的判别混合模型(ProCat2TFIDF_HEDCDMM)。模型首先分别从实体的主页和分类标签中抽取实体的类别特征，接着把二者拼接起来作为实体的整体类别特征。然后从引文中利用TF-IDF模式捕获引文的主题特征，作为引文的类别特征。最后把实体的类别特征和引文的类别特征进行组合，作为混合因子部分的特征输入。

·实体主页分类标签-引文LDA类别依赖的判别混合模型(ProCat2LDA_HEDCDMM)。首先从实体的主页和分类标签中，分别提取实体的主题特征和分类特征，然后把二者连接起来作为实体的类别特征。接着从引文中利用LDA主题模型提出引文的主题特征，作为引文的类别特征。最后把实体的类别特征和引文的类别特征组合起来，作为混合模型中混合因子的特征输入。

为了进一步参考提出模型的表现效果，本发明引入TREC-KBA-2013评测中取得前三的方法和TREC-KBA-2014评测的官方基线方法：

·Official Baseline 2013.TREC-KBA-2013评测官方基线。该方法首先生成目标实体的扩展名。扩展名由实体的部分名、以及由专家组合实体的部分名而得到的可信名组成。然后系统从文本语料库中匹配出现目标实体扩展名的引文，把出现了扩展名的所有引文都视为Vital类别，同时按照匹配字符串长度给出一个相关性得分。

·BIT-MSRA。该方法在TREC-KBA-2013评测中获得第一名的好成绩。模型首先提取实体与引文的多个语义特征，以及实体的时序特征，然后构建实体无关的随机森林全局分类模型，来检测引文推荐的表现。

·UDEL。该模型以实体为中心，进行查询扩展，获得了TREC-KBA-2013评测第二名。给定目标实体，该方法首先从实体主页中检测所有相关实体，然后组合目标实体与相关实体，作为新的查询从文本流语料中检测与排序相关引文。

·Official Baseline 2014。TREC-KBA-2014评测官方基线。该基线把出现目标实体扩展名的所有引文视为Vital类别。与TREC-KBA-2013官方基线不同的是，扩展名仅仅由TREC-KBA组织者提供的目标实体的规范名组成。

d，参数选择策略

实体-引文类别依赖判别混合模型中涉及几个超参数，包括实体隐类别的个数、引文隐类别的个数以及实体-引文隐类别的个数。本发明使用5折交叉验证方法来选择最优超参数。对于实体类别依赖的方法，当隐实体类别个数HE∈{2,3,4···,50}变化时，选择在训练集中模型F1值最高的HE,然后以此超参数的值作为隐实体类别的个数在整个训练集中学习一个新的模型，作为最终在测试集上使用的分类模型。对于引文类别依赖的方法，采用相同的策略学习得到最后的分类模型，其中隐引文类别HD∈{2,3,4···,50}。对于实体-引文类别依赖的方法，此时实体隐类别的个数HE和引文隐类别的个数HD同时变化，在由HE,HD∈{2,3,4···,50}组成的二维格子上采用5折交叉验证选择最优的参数组合(HE,HD)，然后用最优的(HE,HD)组合参数在整个训练集上训练一个新模型，来做为在测试集上使用的最终分类模型。

e，实验结果评价指标

为了评价各模型在整个数据集上的分类效果，采用准确率(Precision，P)、召回率(Recall，R)和调和平均(F1)做为评价指标。所有指标的计算以实体无关的方式进行，即把所有测试的实体-引文实例放在一个测试池中，来计算所有的分类指标。需要说明的是，低召回率、高准确率的分类模型会返回较少的与目标实体相关的引文，但是会遗漏掉与目标实体重要的相关引文；相反，高召回率、低准确率的分类模型返回较多的与目标实体相关的引文，这在实践中是不可行的，因为知识库中的实体和文本大数据流中文档具有多样性和海量性的特点。因此，模型评价指标主要看调和平均指标F1，其它两个指标P和R作为参考。

f，实验结果及分析

所有比较的模型在TREC-KBA-2013数据集和TREC-KBA-2014数据集上的实验结果分别汇总在表5和表6中；

TREC-KBA-2013

除了召回率R外，同时考虑了实体分类标签和引文LDA主题类别的混合模型(Cat2LDA_HEDCDMM)在Vital Only场景下实现了最优的结果，因为实体的分类标签是由人工编辑者对实体赋予的类别，以及LDA模型是建模引文主题类别比较优秀的模型。相比于其它比较方法，官方基准(Official Baseline)方法获得了最高的召回率，这并不惊奇，因为官方方法提前为目标实体手动选择扩展名，尽最大可能检测最多与目标实体相关的引文。

表5TREC-KBA-2013数据集上所有对比方法的实验结果

与没有考虑实体类别或引文类别的全局判别模型相比，所有的混合模型，包括实体类别依赖的方法、引文类别依赖的方法以及实体-引文类别依赖的方法，在两个任务场景下都明确地取得了优秀的表现。这表明融入类别信息的混合模型是一个有效、能提高实体-引文分类性能的有效策略。同全局判别模型(GDM)相比，Cat2LDA_HEDCDMM模型将F1提升了53％。

简单混合模型(

_CDMM)在两个任务场景下表现不稳定。虽然在Vital+Useful任务场景下，

_CDMM表现优于全局判别模型(GDM),但在Vital only场景下，GDM超过了

_CDMM模型。这可能是混合模型重复使用了实体-引文的语义特征和时序特征引起的，因为这些特征中没有明确包括实体和引文的类别信息，仅仅是把这些特征作为实体-引文的类别信息来使用。与

_CDMM模型相比，所有其它混合模型的实验结果都表现非常优异。这也进一步验证了实体和引文的类别先验知识能够提高实体-引文的分类性能。

从表5看出，实体主页依赖的判别混合模型与实体分类标签依赖的判别混合模型远远超出了简单混合模型，这表明实体主页和实体分类标签能有效的建模实体的类别信息。而且实体的分类标签相对于实体的主页更有效，主要因为实体的分类标签是由人工志愿编辑者进行维护的，更能体现实体的真正类别。即使是最简单把实体主页与分类标签进行组合的Com-bine_ECDMM模型，其性能超越了实体主页类别依赖的方法(profile_ECDMM)以及实体分类标签依赖的方法(Category_ECDMM)。与简单混合模型相比(

_CDMM)，Combine_ECDMM模型把F1值提高了12％。

另外从表5也能看出，引文TFIDF类别依赖的混合模型(TFIDF_DCDMM)和引文LDA类别依赖的混合模型(LDA_DCDMM)完胜了全局判别模型(GDM)，表明引文的主题是建模引文类别的有效方法。LDA_DCDMM模型在两个任务场景下，都表现优于TFIDF_DCDMM模型，这说明引文LDA的主题模型在建模引文类别方面更加准确，相对于TF-IDF的词袋模型。与全局判别模型(GDM)相比较，LDA_DCDMM模型和TFIDF_DCDMM模型把F1分别提高了20％和13％。

仔细研究表5从实验结果中可以发现，相对于实体类别依赖的混合模型(Pro-file_ECDMM,Category_ECDMM,Combine_ECDMM)以及引文类别依赖的混合模型(TFIDF_DCDMM,LDA_DCDMM)，实体-引文类别依赖的6种混合模型在Vital Only任务场景下表现优秀。这表明实体类别和引文类别的组合能够更有效地建模实体-引文对的类别，更能有效地提高实体-引文相关性分类的性能。

TREC-KBA-2014

从表6中能够看出，除了官方的基线方法(Official Baseline)，所有比较的方法在Vital+Useful任务场景下实体结果相差不是很大。事实上，重要(Vital)引文的过滤是2014年知识库加速-累积引文推荐(TREC-KBA-CCR)评测的任务，因此在此数据集上，主要关注Vital only场景下各模型的实验结果比较。

从整体看，实体主页分类标签-引文LDA类别依赖的判别混合模型(ProCat2LDA_HEDCDMM)的调和平均指标F1获得最高得分，引文TFIDF类别依赖的混合模型(TFIDF_DCDMM)取得最好的精确率(P)，官方基线获得最好的召回率(R)。与TREC-KBA-2013官方基线利用手工挑选的目标实体扩展名不同，TREC-KBA-2014官方基线仅仅使用目标实体的规范名作为扩展名来查询尽可能多的相关引文，已经证明此方法在TREC-KBA-2014数据集上取得98％的召回率[6]。同没有使用任何实体或引文类别先验信息的全局判别模型相比，实体类别依赖的混合模型、引文类别依赖的混合模型(TFIDF_DCDMM,LDA_DCDMM)以及实体-引文类别依赖的混合模型(Pro2TFIDF_HEDCDMM,Pro2LDA_HEDCDMM,Cat2TFIDF_HEDCDMM,Cat2LDA_HEDCDMM,ProCat2TFIDF_HEDCDMM,ProCat2LDA_HEDCDMM)取得了优秀的分类性能。与TREC-KBA-2013数据集实验结果相似，这揭示了实体或引文类别依赖的判别混合模型是一个有效的策略，能够提高实体-引文相关性分类的性能。与GDM相比，ProCat2LDA_HEDCDMM模型将F1提高了近69％。

简单混合模型(

_CDMM)的实验结果表现一般，从调和平均F1指标角度看，稍稍好于全局判别分类模型(GDM)。与

_CDMM相比较，所有混合模型变种的实验结果都高于

_CDMM的结果。这表明实体和引文类别的先验知识能够有效提高实体-引文相关性分类的性能。

实体主页类别依赖的混合模型(Profile_ECDMM)和实体分类标签依赖的混合模型(Category_ECDMM)的调和平均F1得分远远超过简单混合模型(

_ECDMM)的F1得分，说明实体主页特征和实体的分类标签能够有效捕获实体类别的先验知识。但是，Profile_ECDMM模型与Category_ECDMM模型取得相同的F1得分，这可能是由于TREC-KBA-2014数据集中的大量实体缺乏Wikipedia主页，同时也没有目标实体分类标签的类别信息导致的。相对于

_ECDMM模型，直接拼接两种实体类别信息的混合模型(Combine_ECDMM)把F1值提高了41％。

另外，引文TFIDF类别依赖的混合模型(TFIDF_DCDMM)和引文LDA类别依赖的混合模型(LDA_DCDMM)大大超过

_CDMM的F1得分，显示引文的主题特征能够有效的建模引文的隐类别信息。LDA_DCDMM模型表现好于TFIDF_DCDMM模型，说明在建模引文主题方面，LDA模型更能捕获引文的主题特征。与

_CDMM模型相比，TFIDF_DCDMM模型和LDA_DCDMM模型分别将F1得分提高达34％和42％。

表6TREC-KBA-2014数据集所有对比模型的实验结果

与实体类别依赖的混合模型(Profile_ECDMM,Category_ECDMM,Combine_ECDM M)和引文类别依赖的混合模型(TFIDF_DCDMM,LDA_DCDMM)相比，6个实体-引文类别依赖判别混合模型的变种，在Vital Only任务场景下，都取得较好F1值。与简单混合模型(

_CDMM)相比，最高Pro2TFIDF_HEDCDMM模型将F1提高35％。

E，判别混合模型的泛化能力

TREC-KBA-2013标注数据集中，提供了训练集中没有标注数据的目标实体，称这些实体为未知实体。表7列出了10个未出现在训练集中的目标实体的标注数据。

由于未知实体在测试集上标注为重要或有用的引文数据非常稀疏，因此采用准确率(P)、召回率(R)以及调和平均F1来评价模型的泛化能力会导致出现0的情况，所以采用宏平均精确度(accuracy)作为模型的泛化能力指标。各种比较模型在TREC-KBA-2013数据集上关于10个未知实体的宏平均精确度结果汇总在表8中。

在Vital Only任务场景下，实体分类标签-引文LDA类别依赖的判别混合模型取得最好的宏平均精确度(泛化能力)，引文LDA类别依赖的判别混合模型(LDA_DCDMM)获得了次好的泛化能力。这说明引文的LDA主题模型能够有效地捕获引文隐含类别的特征向量。虽然实体分类标签能够很好地建模实体的隐含类别，但是实体分类标签依赖的判别混合模型在未知实体集上的结果不是很理想。特别实体分类标签依赖的判别混合模型模型在Vital+Useful任务场景中表现的更不好，这导致了Cat2TFIDF_HEDCDMM和Cat2LDA_HEDCDMM模型的泛化能力分别低于TFIDF_DCDMM和LDA_DCDMM模型。对于这个实验结果，可能的解释是学习到的模型没有包含未知目标实体的隐含类别信息，特别是对于来自Twitter的目标实体，它们几乎没有什么类别信息用来给模型学习。

表7未知实体标注数据统计情况

表8所有对比方法的宏平均精确度结果

在Vital Only任务场景下，与全局判别模型(GDM)和其它三个参考模型(OfficialBaseline,BIT-MSRA,UDEL)相比，所有其它融入实体或引文类别信息的混合模型都取得了好的泛化能力。这个结果证明了融入类别信息的混合模型具有灵活性，混合模型不仅能很好地学习训练集中出现过的实体，而且也能处理未知实体。这对于实体-引文相关性分类模型是至关重要的，因为相对于实体和引文的多样性和数量，训练集中的数据非常稀疏，处理未知实体是常态。

因此，综合上述实验结果，本发明采用的实体-引文类别依赖的判别混合模型混合模型中引入了实体和引文的类别，能够提高实体-引文相关性分类系统的性能。