CN108228570A - 一种基于实体突发特征的文本表示方法 - Google Patents

一种基于实体突发特征的文本表示方法 Download PDF

Info

Publication number
CN108228570A
CN108228570A CN201810095748.2A CN201810095748A CN108228570A CN 108228570 A CN108228570 A CN 108228570A CN 201810095748 A CN201810095748 A CN 201810095748A CN 108228570 A CN108228570 A CN 108228570A
Authority
CN
China
Prior art keywords
entity
document
burst
character
target entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810095748.2A
Other languages
English (en)
Inventor
马乐荣
高兴慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanan University
Original Assignee
Yanan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanan University filed Critical Yanan University
Priority to CN201810095748.2A priority Critical patent/CN108228570A/zh
Publication of CN108228570A publication Critical patent/CN108228570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种基于实体突发特征的文本表示方法,包括提出了一种基于实体突发特征的文档表示模型,称为Entity Burst based Document Representation(EBDR),用于实体‑文档相关性分类任务。EBDR将时间信息和语义信息同时融入到实体‑文档的特征表示中。使用这种表示模型将实体‑文档对作为向量表示,然后利用Logistic Regression进行分类。本发明一种基于实体突发特征的文本表示方法,以目标实体的突发特征为线索,提出一种新的实体‑文档表示模型,该模型从时序和语义两个方面建模实体‑文档的特征,以此来提高实体‑文档相关性分类系统的性能。

Description

一种基于实体突发特征的文本表示方法
技术领域
本发明属于知识工程、信息检索和文本分类技术领域,具体涉及一种基于实体突发特征的文本表示方法。
背景技术
随着互联网的快速发展,特别是以移动互联网为基础的各种社交网络、即时通讯平台在人们日常生活中的普及,大量用户生成的数据随之而来,这些大数据具有巨大的科研、商业应用价值,蕴含了大量的人类碎片化知识。因此,从这些用户生成的大数据中检索并更新知识库中目标实体的内容,对以知识库为基础的其它应用来说是具有重要意义的。如查询扩展、实体链接、问答系统和实体检索等应用。对于这些应用的性能和准确性而言,维护知识库的时效性是非常至关重要的。当知识库中关于现存文章主题的状态、行为或境况的即时信息一旦出现,知识库就应该更新其对应的内容。知识库中的实体可以是人、实施、机构或概念等;实体的即时信息为“新奇”信息。
考虑到新实体随时可能出现,以及由用户生成的网络文本大数据相当巨大,因此,要保持百科知识库内容的时效性面临很大的理论和技术挑战。为了缓解或解决这个挑战,2012年,国际文本检索大会(TREC)启动了知识库加速-累积文档推荐(KBA-CCR)。累积文档推荐(CCR)的任务旨在从文本大数据流中发现包含目标实体重要信息高度相关的文档并作为目标实体的文档。在以前的研究中,实体的突发活动已被证明能有效地挖掘其潜在的候选引用。目标实体突发活动最直观的想法是:当目标实体发生了重要事件时,人们通过知识库搜索实体的查询数量将急剧上升。如图1所示,在2011年10月1日至2011年12月31日期间,道格拉斯·卡斯韦尔实体在维基百科知识库中被用户搜索数量的统计。从图1中可以看出该实体有两个显而易见的突发时期。第一次爆发的时期是道格拉斯·卡斯韦尔对关于英国脱欧的辩论演讲,第二次是道格拉斯·卡斯韦尔提出英国与全世界国家贸易的问题,而不仅仅是与欧盟的贸易。
在先前的累积文档推荐(CCR)工作中,实体的突发特征通常作为实体-文档相关性分类的语义特征补充。在这些工作中,只是简单的统计目标实体在知识库中的查询量或者在某个时间段提及目标实体的文档数,没有充分挖掘目标实体突发特征在文档推荐中的作用。此外,CCR被视为分类任务,相对于知识库中的目标实体,文档被分为相关或不相关两类。对于分类任务,需要将文档表示为固定长度的向量。经典的文本表示方法,如词袋模型中的向量每一个维度对应一个词项,其权重由TF-IDF来确定,无法处理文档中的时间信息。另一个是文本表示的可扩展性问题,当文本大数据流中的文档数量增加时,流语料库生成的词汇量可能会非常大,因此需要大量的时间和空间来处理文本大数据流,这在实际的应用系统中几乎无法实现。
发明内容
本发明的目的在于提供一种基于实体突发特征的文本表示方法,来提高实体-文档相关性分类系统的性能。
本发明所采用的技术方案是:一种基于实体突发特征的文本表示方法,包括下列步骤:
步骤1:建立基于实体突发特征的文本表示向量;
步骤2:抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中;
步骤3:建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集,利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型,之后对实体-文档测试集数据进行分类。
本发明的特点还在于,
步骤1具体包括:
步骤1.1:确定目标实体e及相应的查询数量序列V=(v1,v2,…,ve),通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重,记实体e的所有压缩突发期构成的集合为eb={Bi[tstart,tend]|i=1,…,|eb|},其中|eb|表示目标实体e所有压缩突发期对应集合的大小;tstart为突发期的开始时间,tend为突发期结束时间;Bi[tstart,tend]为实体e的第i个突发期;
步骤1.2:确定实体-文档对(e,d),利用实体突发特征词袋模型表示实体-文档对(e,d)为一个向量,记为
f(e,d)=(f1(e,d),f2(e,d),…,f|eb|(e,d)) (1)
步骤1.3:建立文档d与目标实体e之间的时间相关性,则向量f(e,d)的第j个分量fj(e,d)的权值为:
式(2)中,t表示文档d发表的时间。
步骤1.1中目标实体突发期检测算法的计算步骤包括:
步骤1.1.1:对实体查询量序列V=(v1,v2,…,ve)进行归一化;
步骤1.1.2:给定滑动窗口的宽度w,通过以下公式计算移动平均序列MAw
式(3)中,偏移量offset为窗口宽度的一半w/2;
步骤1.1.3:计算拐点cutoff,cutoff=mean(MAw)+β·stdev(MAw);
步骤1.1.4:计算目标实体突发序列集d={iMAw(i)≥cutoff};
步骤1.1.5:计算目标实体突发期的权重:
步骤1.1.6:把目标实体的连续突发期压缩合并为分片连续的突发期,并计算压缩合并后的实体突发期权重bw(tstart,tend),其权重为各连续突发期权重的算术平均值;
步骤1.1.7:返回目标实体突发期及其对应的权重。
步骤2具体包括:
步骤2.1:抽取实体-文档对的语义特征如下:
表1实体-文档(e,d)对的语义特征
步骤2.2:将抽取的实体-文档对的语义特征融入到步骤1中得到的文本表示向量中得到:
f(e,d)=[f1(e,d),···,f|eb|(e,d),N um(erel),···,weekday(d)] (5)。
步骤3具体包括:
步骤3.1:建立实体-文档的Logistic Regression分类模型如下:
式(6)中,P(r|e,d)表示实体e和文档d相关性度量,r∈{-1,1}为二元随机变量,r取1表示文档d与目标实体e相关,r取-1表示文档d与目标实体e无关;K为(e,d)对应的特征向量的个数;σ(x)=1/(1+exp(-x))是Sigmoid函数;ωi是特征向量第i个分量的组合系数,其中w0=b为常数项,f0=1;
步骤3.2:令T={(e,dv)v=1,…,N}}表示实体-文档对训练集合,
R={rev|v=1,…,N}是对应训练集的相关性判别标签集合,则训练集T的似然函数为:
步骤3.3:对式(7)通过极大化对数似然函数求wi的局部最优解,记为将其代入实体-文档的Logistic Regression分类模型,得到实体-文档的相关性分类模型,如下式
步骤3.4:利用步骤3.3学习到的实体-文档的Logistic Regression分类模型,对实体-文档测试集数据进行分类。
本发明的有益效果是:本发明一种基于实体突发特征的文本表示方法,以目标实体的突发特征为线索,提出一种新的实体-文档表示模型,该模型从时序和语义两个方面建模实体-文档的特征,以此来提高实体-文档相关性分类系统的性能。
附图说明
图1是维基百科道格拉斯·卡斯韦尔实体的查询数量统计图;
图2是模型EBDR_1.5_5与模型SEMANTIC-LR对每个目标实体的F1差图。
具体实施方式
下面结合附图以及具体实施方式对本发明进行详细说明。
本发明提供了一种基于实体突发特征的文本表示方法,包括下列步骤:
步骤1:建立基于实体突发特征的文本表示向量,具体包括:
步骤1.1:确定目标实体e及相应的查询数量序列V=(v1,v2,…,ve),通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重,记实体e的所有压缩突发期构成的集合为eb={Bi[tstart,tend]|i=1,…,|eb|},其中|eb|表示目标实体e所有压缩突发期对应集合的大小;tstart为突发期的开始时间,tend为突发期结束时间;Bi[tstart,tend]为实体e的第i个突发期;其中目标实体突发期检测算法的计算步骤包括:
步骤1.1.1:对实体查询量序列V=(v1,v2,…,ve)进行归一化;
步骤1.1.2:给定滑动窗口的宽度w,通过以下公式计算移动平均序列MAw
式(3)中,偏移量offset为窗口宽度的一半w/2;
步骤1.1.3:计算拐点cutoff,cutoff=mean(MAw)+β·stdev(MAw);
步骤1.1.4:计算目标实体突发序列集d={i|MAw(i)≥cutoff};
步骤1.1.5:计算目标实体突发期的权重:
步骤1.1.6:把目标实体的连续突发期压缩合并为分片连续的突发期,并计算压缩合并后的实体突发期权重bw(tstart,tend),其权重为各连续突发期权重的算术平均值;
步骤1.1.7:返回目标实体突发期及其对应的权重;
步骤1.2:确定实体-文档对(e,d),利用实体突发特征词袋模型表示实体-文档对(e,d)为一个向量,记为
f(e,d)=(f1(e,d),f2(e,d),…,f|eb|(e,d)) (1)
步骤1.3:建立文档d与目标实体e之间的时间相关性,则向量f(e,d)的第j个分量fj(e,d)的权值为:
式(2)中,t表示文档d发表的时间。
步骤2:抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中,具体包括:
步骤2.1:抽取实体-文档对的语义特征如下:
表1实体-文档(e,d)对的语义特征
步骤2.2:将抽取的实体-文档对的语义特征融入到步骤1中得到的文本表示向量中得到:
f(e,d)=[f1(e,d),···,f|eb|(e,d),N um(erel),···,weekday(d)] (5)。
步骤3:建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集,利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型,之后对实体-文档测试集数据进行分类,具体包括:
步骤3.1:建立实体-文档的Logistic Regression分类模型如下:
式(6)中,P(r|e,d)表示实体e和文档d相关性度量,r∈{-1,1}为二元随机变量,r取1表示文档d与目标实体e相关,r取-1表示文档d与目标实体e无关;K为(e,d)对应的特征向量的个数;σ(x)=1/(1+exp(-x))是Sigmoid函数;ωi是特征向量第i个分量的组合系数,其中w0=b为常数项,f0=1;
步骤3.2:令T={(e,dv)|v=1,…,N}}表示实体-文档对训练集合,R={rev|v=1,…,N}是对应训练集的相关性判别标签集合,则训练集T的似然函数为:
步骤3.3:对式(7)通过极大化对数似然函数求wi的局部最优解,记为把其代入实体-文档的Logistic Regression分类模型,得到实体-文档的相关性分类模型,如下式
步骤3.4:利用步骤3.3学习到的实体-文档的Logistic Regression分类模型,对实体-文档测试集数据进行分类。
结果分析
本发明给出实验所使用的数据集、实验场景、实验结果的评价指标、实验方法以实验结果的对比分析。
数据集
本发明使用TREC-KBA-2012数据集来验证基于实体突发特征的文本表示模型的有效性。TREC-KBA-2012数据集是由国际文本检索大会(TREC)提供的知识库累积文档推荐(CCR)任务公开评测的基准数据集:TREC-KBA-2012数据集中的目标实体集合全部由29个来自Wikipedia的实体组成。从类别上看,包括了27个人名实体,2个组织机构实体。目标实体选择的依据是实体在Wikipedia中与其它活动实体有复杂链接关系的实体。2012年流语料库中包含4亿篇网络文档,文档发表于2011年10月至2012年4月期间,其中2012年2月之前的数据用于训练,其它数据用于测试。
经过对TREC-KBA-2012原始数据进行过滤,依据CCR对训练数据和测试数据的分割方法,最终工作数据集中有17,950个实体-文档对训练实例,71,365个实体-文档测试样本。实体-文档对实例被标注为四个相关类别:Central,Relevant,Neutral和Garbage,此四种不同相关程度的定义参见表2。
表2TREC-KBA-2012实体-文档相关程度定义
表3TREC-KBA-2012数据集标注统计
任务场景
由于实验数据集中实体-文档对的标注具有四种不同的相关类别,因此根据实体-文档相关性分类的不同粒度设置,实体-文档相关性分析任务分为两个不同的难度的任务:(1)Central Only,即从文本大数据流中发现与目标实体重要相关的文档。相对于目标实体,只有标注为Central的文档才作为分类模型的正例样本,其它的为负例样本。(2)Central+Relevant,即从文本大数据流中发现与目标实体重要或相关的文档。对于目标实体,标注为Central或Relevant的样本为正例,其它的为负例。
系统评价指标
TREC-KBA-2012使用最大宏平均F1=max(F(avg(P),avg(R))作为累积文档推荐系统的衡量指标,本发明也采用这个指标来度量实体-文档相关性分类任务的性能。该指标的计算包括如下三步。
首先,对于任一目标实体,分类系统按照序列的方式计算每个文档的相关性分数。对于每个文档计算一个介于[0,1000]范围的相关性得分。因此对所有的实体-文档对都能计算介于[0,1000]的相关性得分。
其次,对于任一介于0到1000之间的临界值(cutoff),对测试集中的数据进行分类。实体-文档对相关性分数高于cutoff被分为正样本,小于cutoff的实体-文档对样本被分为负样本;
最后,计算最大宏平均值F1=max(F(avg(P),avg(R))。通过以一定的步长变化cutoff值,针对每一cutoff,计算相对于每个实体的准确率(Precision,P)、召回(Recall,R)。接着计算对所有实体的平均准确率avg(P)和平均召回率avg(R)。再接着计算宏平均值F(avg(P),avg(R))。最后根据所有的cutoff值,取最大的宏平均F为F1值作为分类系统的性能指标。
另外TREC-KBA-2012还使用了规模效(Scale Utility,SU)作为系统的另一个度量指标。该指标衡量系统接收相关文档和拒绝不相关文档的能力。本发明也采用这一指标作为参考指标与F1同时作为实体-文档相关性分类系统的性能指标。
实验配置
由于TREC-KBA-2012数据集中每个目标实体的标注数据相对充足,因此本发明将对每个目标实体训练一个分类模型。
实验对比方法
由于目标实体突发期检测算法有两个超参数。一个是移动平均的滑动窗口的宽度w,决定了突发期的跨域的观察单位长度,以此来捕获长期或短期的突发期。另一个是标准差的系数β,决定cutoff相对于标准差的放大或缩小倍数,以此来捕获较平凡的突发期或较大的突发期。通过组合这两个超参数,本发明实现了25个变种的实体-文档相关性判别分类模型,并做了大量广泛的比较实验来验证提出模型的实际效果。对比实验列表如下:
·实体-文档相关性判别分类模型(EBDR_X_X)。该类模型是基于实体突发特征文本表示模型(EBDR)的实体-文档Logistic Regression分类模型。第一个X表示EBDR模型中超参数标准方差的系数β的值,第二个X表示EBDR模型中超参数移动平均滑动窗口的宽度。当w∈{1,3,5,7,15}和β∈{0.0,0.5,1.0,1.5,2.0}取这些值的组合时25个变种的实体-文档相关性分类模型被实现。
·基于词袋模型的判别分类模型(TFIDF-LR)。模型使用LogisticRegression分类方法,采用bag-of-words来表示实体-文档的语义特征。词袋模型中每个词的权重由TF-IDF值确定,由gensim软件包计算实体-文档的TF-IDF值。基于实体-文档相关性语义特征的判别分类模型(SEMANTIC-LR)。该方法也使用Logistic Regression分类模型。但特征使用已经被证明有效的实体-文档语义特征,这些特征由表1列出。需要说明的是这些语义特征也在EBDR模型中使用。
为了进一步比较实验效果,本发明引进了两个在TREC-KBA-2012数据集上取得较优秀结果的方法,详细介绍如下。
·HLTCOE。模型使用支持向量机,使用bag-of-words和bag-of-entity-names来表示实体-文档特征。该方法取得TREC-KBA-2012评测的第一名。
·2-step J48。两步分类方法。第一步从文本流中过滤提及目标实体的文档,作为候选文档。第二步使用J48分类模型对实体-文档进行分类。
实验整体结果及分析
所有比对实验的结果汇总在表4里。在Central Only任务场景上,EBDR_1.5_5取得了最好的F 1值,除了参考方法HLTCOE,EBDR_1.5_7获得了最好的SU值,这说EBDR模型在TREC-KBA-2012数据集上使用w=5和β=1.5能够很好的捕获实体的突发特征。相对于TFIDF-LR,SEMANTIC-LR,HLTCOE,和2-step J48参照方法,所有EBDR变种方法获得较高的F1值。然而在Central+Relevant任务场景下,所有对比的方法中,没有明显获胜的模型。需要特别说明的是,Central Only任务场景是实体-文档相关性分类技术的核心任务。
在表4中,相比于SEMANTIC-LR模型的结果,模型EBDR_1.5_5在Central Only任务场景中提高了近11%的F 1值。与模型TFIDF-LR相比较,所有的EBDR模型变种同样在Central Only任务场景中都取得相当高的F1值,且实验结果最高的EBDR模型,其F1值高出TFIDF-LR模型近28%。可是在Central+Relevant任务场景中,模型EBDR的各变种同TFIDF-LR模型从F1值角度看几乎没有什么明显的区别。在Central Only任务场景下,EBDR模型各变种的F1值远远超过模型SEMANTIC-LR和TFIDF-LR,这充分验证了本发明开始的研究动机:目标实体的突发特征能够提高实体-文档相关性分类任务的性能,同时也说明突发特征能够捕获目标实体的重要相关文档。
表4所有对比模型的结果比较
与TREC-KBA-2012评测第一名的模型HLTCOE以及2-step J48模型相比,EBDR所有变种在两种任务场景中都取得很高的F1值。在Central Only任务场景下,最大宏平均F1值最高的EBDR变种超出模型HLTCOE为14%,超出2-step J48模型为13%。在Central+Relevant任务场景下,EBDR变种F1最高的模型高出HLTCOE模型近65%,高出2-step J48模型近51%。这些结果表明EBDR模型优于比较的其它模型。
实体级粒度比较
最大宏平均F1值衡量了实体-文档相关性分类任务的整体性能,可是忽略了实体之间的差别,本发明关注实体级别的性能分析。本发明以EBDR_1.5_5模型和SEMANTIC-LR模型为比对模型,比较在Central Only任务场景下每个目标实体的分类性能。
具体来说,首先取模型EBDR_1.5_5与模型SEMANTIC-LR获得最大宏平均F1值对应的cutoff临界值。接着以cutoff临界值作为对每个目标实体对应的测试样本进行分类的临界值,大于此cutoff值的样本为正类,小于的则为负样本。然后计算每个目标实体在不同模型下的准确率P,召回率R和调和平均F1值。最后分别计算每个目标实体在模型EBDR_1.5_5与模型SEMANTIC-LR上的F1值差。图2给出29个目标实体两个比较模型的调和平均F1差,图中以降序的方式对目标实体调和平均F1差值进行排序。正值意味着模型EBDR_1.5_5在此目标实体上F1值优于模型SEMANTIC-LR,负值表示模型SEMANTIC-LR的F1值在对应的目标实体上优于模型EBDR_1.5_5。从结果可以看出,29个目标实体中,有24个实体的F1差值大于零。这进一步表明,EBDR模型不仅在整体上优于模型SEMANTIC-LR,而且在细粒度的实体级别也高于模型SEMANTIC-LR。
在线百科知识库实体-文档相关性分类任务的目的是从文本大数据流中检索并发现与目标实体具有不同相关程度的候选文档。分类任务涉及两方面的技术,其一是如何对实体-文档进行表示,其二是选择什么样的分类模型对其进行学习。本发明以实体的突发特征为出发点,构建以实体突发特征为基础的文本表示模型EBDR。该模型不仅能建模实体的突发特征,还能捕获实体-文档的语义特征。针对TREC-KBA-2012数据集中目标实体标注数据物特点,本发明为每个目标实体在TREC-KBA-2012数据集训练一个LogisticRegression分类模型。实验结果表明,本发明提出的EBDR模型优于其它比较的模型,如TFIDF-LR模型、SEMANTIC-LR模型以及参考模型HLTCOE和2-step J48。

Claims (5)

1.一种基于实体突发特征的文本表示方法,其特征在于,包括下列步骤:
步骤1:建立基于实体突发特征的文本表示向量;
步骤2:抽取实体-文档对的语义特征并将其融入到步骤1中得到的文本表示向量中;
步骤3:建立实体-文档的Logistic Regression分类模型并给定实体-文档训练集,利用步骤2中得到的文本表示向量学习Logistic Regression实体-文档分类模型,之后对实体-文档测试集数据进行分类。
2.如权利要求1所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤1具体包括:
步骤1.1:确定目标实体e及相应的查询数量序列V=(v1,v2,…,ve),通过目标实体突发期检测算法计算得到目标实体e的突发期序列及其对应的权重,记实体e的所有压缩突发期构成的集合为eb={Bi[tstart,tend]|i=1,…,|eb|},其中|eb|表示目标实体e所有压缩突发期对应集合的大小;tstart为突发期的开始时间,tend为突发期结束时间;Bi[tstart,tend]为实体e的第i个突发期;
步骤1.2:确定实体-文档对(e,d),利用实体突发特征词袋模型表示实体-文档对(e,d)为一个向量,记为
f(e,d)=(f1(e,d),f2(e,d),…,f|eb|(e,d)) (1)
步骤1.3:建立文档d与目标实体e之间的时间相关性,则向量f(e,d)的第j个分量fj(e,d)的权值为:
式(2)中,t表示文档d发表的时间。
3.如权利要求2所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤1.1中目标实体突发期检测算法的计算步骤包括:
步骤1.1.1:对实体查询量序列V=(v1,v2,…,ve)进行归一化;
步骤1.1.2:给定滑动窗口的宽度w,通过以下公式计算移动平均序列MAw
式(3)中,偏移量offset为窗口宽度的一半w/2;
步骤1.1.3:计算拐点cutoff,cutoff=mean(MAw)+β·stdev(MAw);
步骤1.1.4:计算目标实体突发序列集d={i|MAw(i)≥cutoff};
步骤1.1.5:计算目标实体突发期的权重:
步骤1.1.6:把目标实体的连续突发期压缩合并为分片连续的突发期,并计算压缩合并后的实体突发期权重bw(tstart,tend),其权重为各连续突发期权重的算术平均值;
步骤1.1.7:返回目标实体突发期及其对应的权重。
4.如权利要求3所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤2具体包括:
步骤2.1:抽取实体-文档对的语义特征如下:
表1 实体-文档(e,d)对的语义特征
步骤2.2:将抽取的实体-文档对的语义特征融入到步骤1中得到的文本表示向量中得到:
f(e,d)=[f1(e,d),…,f|eb|(e,d),N um(erel),…,weekday(d)] (5)。
5.如权利要求4所述的一种基于实体突发特征的文本表示方法,其特征在于,所述步骤3具体包括:
步骤3.1:建立实体-文档的Logistic Regression分类模型如下:
式(6)中,P(r|e,d)表示实体e和文档d相关性度量,r∈{-1,1}为二元随机变量,r取1表示文档d与目标实体e相关,r取-1表示文档d与目标实体e无关;K为(e,d)对应的特征向量的个数;σ(x)=1/(1+exp(-x))是Sigmoid函数;ωi是特征向量第i个分量的组合系数,其中w0=b为常数项,f0=1;
步骤3.2:令T={(e,dv)|v=1,…,N}}表示实体-文档对训练集合,R={rev|v=1,…,N}是对应训练集的相关性判别标签集合,则训练集T的似然函数为:
步骤3.3:对式(7)通过极大化对数似然函数求wi的局部最优解,记为将其代入实体-文档的Logistic Regression分类模型,得到实体-文档的相关性分类模型,如下式
步骤3.4:利用步骤3.3学习到的实体-文档的Logistic Regression分类模型,对实体-文档测试集数据进行分类。
CN201810095748.2A 2018-01-31 2018-01-31 一种基于实体突发特征的文本表示方法 Pending CN108228570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810095748.2A CN108228570A (zh) 2018-01-31 2018-01-31 一种基于实体突发特征的文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810095748.2A CN108228570A (zh) 2018-01-31 2018-01-31 一种基于实体突发特征的文本表示方法

Publications (1)

Publication Number Publication Date
CN108228570A true CN108228570A (zh) 2018-06-29

Family

ID=62670329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810095748.2A Pending CN108228570A (zh) 2018-01-31 2018-01-31 一种基于实体突发特征的文本表示方法

Country Status (1)

Country Link
CN (1) CN108228570A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663122A (zh) * 2012-04-20 2012-09-12 北京邮电大学 基于突发事件本体的语义查询扩展算法
CN105354693A (zh) * 2015-11-04 2016-02-24 中南大学 面向物流行业的用户隐私信息分级保护系统及方法
CN106469188A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663122A (zh) * 2012-04-20 2012-09-12 北京邮电大学 基于突发事件本体的语义查询扩展算法
CN105354693A (zh) * 2015-11-04 2016-02-24 中南大学 面向物流行业的用户隐私信息分级保护系统及方法
CN106469188A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINGANG WANG 等: "An Entity Class-Dependent Discriminative Mixture Model for Cumulative Citation Recommendation", 《SIGIR "15 PROCEEDINGS OF THE 38TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型

Similar Documents

Publication Publication Date Title
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN108363804A (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN104298785B (zh) 一种众搜资源搜索方法
CN108549647B (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
Rahnama Distributed real-time sentiment analysis for big data social streams
CN106126605A (zh) 一种基于用户画像的短文本分类方法
Chirawichitchai Sentiment classification by a hybrid method of greedy search and multinomial naïve bayes algorithm
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CA2956627A1 (en) System and engine for seeded clustering of news events
Wang et al. CAMO: A collaborative ranking method for content based recommendation
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN108228570A (zh) 一种基于实体突发特征的文本表示方法
Jotheeswaran et al. Feature reduction using principal component analysis for opinion mining
CN105608118B (zh) 基于用户交互信息的结果推送方法
CN105354339B (zh) 基于上下文的内容个性化提供方法
Gu Research on precision marketing strategy and personalized recommendation method based on big data drive
Hoang et al. Academic event recommendation based on research similarity and exploring interaction between authors
CN105205075B (zh) 基于协同自扩展的命名实体集合扩展方法及查询推荐方法
Liao et al. TIRR: A code reviewer recommendation algorithm with topic model and reviewer influence
Zhang et al. Personalized book recommender system based on Chinese library classification
CN115481325A (zh) 基于用户全局兴趣迁移感知的个性化新闻推荐方法及系统
Das et al. Opinion based on polarity and clustering for product feature extraction
Liu et al. Social community evolution by combining gravitational relationship with community structure
Li et al. Research on hot news discovery model based on user interest and topic discovery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629