CN103049470A - 基于情感相关度的观点检索方法 - Google Patents
基于情感相关度的观点检索方法 Download PDFInfo
- Publication number
- CN103049470A CN103049470A CN2012103378041A CN201210337804A CN103049470A CN 103049470 A CN103049470 A CN 103049470A CN 2012103378041 A CN2012103378041 A CN 2012103378041A CN 201210337804 A CN201210337804 A CN 201210337804A CN 103049470 A CN103049470 A CN 103049470A
- Authority
- CN
- China
- Prior art keywords
- query
- word
- document
- theme
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种基于情感相关度的观点检索方法,包括如下步骤:在文档集合中,用基于概率检索模型算法计算文档与查询主题的文本相关度;采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。本发明在观点抽取技术的基础上,计算主题在文档中的倾向性强弱,通过综合文档与主题的情感相关度以及文档与主题的文本相关度来计算文档与查询的整体相关性。另外,本发明使用通用知识网络对查询主题进行扩展,并计算了查询扩展词和查询主题之间的相关度,可以进一步改善观点检索的效果。
Description
技术领域
本发明涉及一种观点检索方法,尤其涉及一种基于情感相关度的观点检索方法,属于计算机信息数据处理技术领域。
背景技术
互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式。人们不仅能够被动地接受信息,还能与外界进行交互。越来越多的用户在互联网上分享自己的观点或者体验,人们可以通过BBS、Blogs等网络媒介发表对各种事物的评论。这些评论信息数量庞大,具有强烈的主观性,表达方式相当自由,而且不规范。2010年7月由中国互联网信息中心发布的《中国互联网络发展状况统计报告》表明:博客应用、论坛/BBS的使用率均处于网络应用的前列。这些观点信息的迅速增长,为科研人员提供了广泛的应用和研究对象,并引起了产业界和研究者的广泛关注。
互联网中主观性的评论包含着大量具有情感倾向的信息。这些信息,无论对于普通的网络用户,还是对于生产商以及其他机构组织都有很重要的价值。如何从互联网的海量数据中高效快捷地检索出针对某一主题的主观评论性信息至关重要。观点检索是主题检索与文本倾向性分析相结合的工作,是指利用信息检索与情感分析的技术,寻找针对主题的观点评论等信息。观点检索的目标是互联网用户发表的带有情感倾向的评论信息。观点检索可以分为两个相关联的内容:一是主题检索,二是文本倾向性分析。文本的倾向性分析着眼于分析文本中说话者对某些特定主题的态度,主要研究文本中不同粒度的倾向性类别及强度。现有技术中包括基于语义的以及基于机器学习的文本倾向性研究,目前很多研究都是二者的结合。
目前,国内外针对观点检索的研究较多,而大部分的研究往往是把观点检索的过程分成两个独立的步骤:首先根据给定的查询相关的文章并得到主题相关性分数,然后对这些文章进行倾向性分析,并得到这些文章的倾向性得分,最后通过线性拟合融合两部分分数得到最终评分。针对观点检索的研究主要有两种方法,即目前通常使用的线性拟合方法和基于生成时语言模型的观点检索方法。
通常使用的线性拟合方法是将观点检索过程分为主题的相关文档检索和基于情感的文档重排序两个阶段。然后将上述两个阶段得到的相关分数进行一个线性拟合的过程。文本的倾向性强弱并不一定是针对查询主题的倾向性强弱。所以,这种仅仅基于文本倾向性和主题相关度的融合计算方法得到的检索结果并不能够准确地反映出查询结果针对查询主题的倾向性强弱。
另一种研究思路主要基于生成语言模型,将上述观点检索的两个阶段通过二次拟合或一次查询的过程合并为一个阶段。例如,利用生成语言模型进行针对主题的情感查询扩展等。但是,基于生成语言模型的方法也有一定的不足。对于词语之间的共现并不能够很好地反映查询主题与情感之间的紧密程度,尤其是当窗口很大的时候,这种问题则越发明显。
在专利号为ZL200810118668.0的中国发明专利中,公开了一种基于观点检索的信息检索文档的评分方法。它首先建立情感词列表,在列表中指定要在检索系统中使用的所有带有感情色彩的词,然后根据用户具体输入的查询,生成候选结果集合;其次在系统中计算文档与用户查询之间的相关性,得到每篇文档的相关性评分;然后根据文档中与查询词在一定距离范围内共同出现的情感词的次数,计算出系统中每篇文档的主客观性评分;再将一篇文档的相关性评分和主客观性评分进行基于二次函数(即相乘)的合并,得到合并后的文档最终评分;最后检索系统根据文档的最终评分对系统中的所有候选文档进行排序,并按照评分从大到小的次序显示给用户。
发明内容
针对现有技术所存在的不足,本发明所要解决的技术问题在于提供一种基于情感相关度的观点检索方法。该方法结合查询扩展词与主题的相关度,计算出文档与主题的文本相关度和情感相关度。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于情感相关度的观点检索方法,包括:
采用基于概率检索模型算法计算文档与查询主题的文本相关度;
采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;
采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。
其中较优地,文本相关度由下式计算:
其中f(qi,D)为在给定的文档D中出现索引词qi的频率,|D|为给定文档D的长度,avgdl是文档集合中文档的平均长度,k1和b是可调参数,IDF(qi)为qi的逆文档频率,如下式所示:
其中N为文档集合中文档数量,n(qi)为包含索引词qi的文档数量。
其中较优地,所述查询主题由原始查询主题queryorigin(即用户输入的查询词或者语句)和抽取的与其相关的扩展词集合Queryexp构成,Query={queryorigin}∪Queryexp,具体方法包括:
a.采用查询扩展词的抽取算法对原始查询主题queryorigin进行扩展,得到查询扩展词集合;
b.对原始查询主题进行检索,判断查询扩展词是否存在于返回结果的前10篇文档,如果不存在去除查询扩展词,得到第一类查询扩展词集合;
c.判断原始查询主题的长度,如果为长查询,对其进行分词,并将分词后的各词语作为第二类查询扩展词集合;
d.计算第一类查询扩展词集合中每个扩展词与原始查询主题的相关度;
e.计算第二类查询扩展词集合中每个扩展词在第二类查询扩展词集合中的权重,并计算其与原始查询主题的相关度;
f.合并第一查询扩展词集合和第二查询扩展词集合得到Queryexp。
其中较优地,所述查询扩展词的抽取算法包括:
1)针对给定的查询词利用程序从通用知识网络搜索相关网页;
2)如果查询词过长则需先进行分词,然后返回步骤1)继续搜索;
3)从得到的网页中抽取锚文本作为查询扩展候选词;
4)在通用知识网络中搜索包含查询词、查询扩展候选词以及同时包含查询词和查询扩展候选词包含的条目数;
5)计算查询词与扩展候选词之间的PMI值;
6)根据PMI值进行排序,选取PMI值最高的n个词作为查询扩展。
其中较优地,所述计算查询词与扩展候选词之间的PMI值是通过下式计算:
其中,Word为原查询词,Wordexp为查询扩展候选词,Count(Word)为对原查询词“Word”查询返回的条目数,Cunt(Wordexp)为对扩展候选词“Wordexp”查询返回的条目数,Count(Word,Wordexp)为对同时包含查询词和查询扩展候选词(Word,Wordexp)查询返回的条目数。
其中较优地,所述计算文档与查询主题的情感相关度包括:
a.将文档以标点符号划分为不同的分句;
b.使用基于词语依存关系路径的观点抽取算法抽取出文档中的观点集合;
c.采用基于通用知识网络的词语语义倾向性预测方法计算观点的倾向性强度,并以倾向性强度的绝对值作为观点的主观性强度;
d.针对查询主题Query中的每个词,逐一找出与其相关的观点,并对这些观点的主观性强度求和,将其作为该词的主观性强度;
e.针对查询主题Query中的每个词,计算该词在文档中的倾向性权重,并以此作为该词与文档的情感相关度。
其中较优地,所述基于词语依存关系路径的观点抽取算法包括:
采集词语依存关系路径来构建词语依存关系库;
采用基于词语依存关系链的匹配算法抽取评价对象和情感特征;
通过评价对象和情感特征之间的词语依存关系判断观点极性。
其中较优地,所述计算查询主题Query中每个查询词的主观性强度是通过下式计算;
其中,query为查询主题Query中的一个查询词,Opi为文档中与query相关的观点集合Opinionquery中的一个观点,Opi→Topic=query,Polarity(Opi)为Opi的倾向性强度。
其中较优地,所述计算查询主题中每个查询词在文档中的倾向性权重是通过下式计算:
其中,query为查询主题Query中的一个查询词,Opi为文档中所有观点集合Opinion_Set中的一个观点,senti_Score(D,query)为查询词query与文档D的情感相关度,Polarity(query)为查询词query的倾向性强度,Polarity(Opi)为Opi的倾向性强度。
其中较优地,所述文档与查询主题的相关性由下式计算:
其中,score(D,Query)为文档D与查询主题Query的相关性,query是查询主题中的一个查询词,queryorigin为原始查询词。rel(query,queryorigin)为查询词query与原始查询词queryorigin之间的相关度,rel_Score(D,query)为文档D与查询词query的文本相关度,senti_Score(D,query)为文档D与查询词query的情感相关度,α为拟合系数。
本发明在观点抽取技术的基础上,计算主题在文档中的倾向性强弱,通过综合文档与查询主题的情感相关度以及文档与查询主题的文本相关度来计算文档与查询主题的整体相关性,可以更好地反映出查询主题在文本中是否具有主观性的描述。另外,本发明使用通用知识网络对查询主题进行扩展,并计算了查询扩展词和查询主题之间的相关度,可以进一步改善观点检索的效果。
附图说明
图1是本发明中,查询扩展与主题相关度计算的流程示意图;
图2是基于通用知识网络的查询扩展候选示意图;
图3是本发明中,查询扩展方法的流程示意图;
图4是本发明中,主题情感相关度计算的流程示意图;
图5是本发明中,查询扩展实验结果的示意图;
图6是本发明中,不同α值的P10平均值示意图;
图7是本发明中,观点检索实验效果的对比示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的详细说明。
本发明提出了一种基于情感相关度的观点检索方法,包括如下步骤:采用基于概率检索模型算法计算文档与查询主题的文本相关度;采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。本发明在基于通用知识网络或搜索引擎的查询扩展技术的基础上计算扩展词与给定查询主题的相关度;在观点抽取技术的基础上,通过综合文档与主题的情感相关度以及文档与主题的文本相关度来计算文档与查询的整体相关性,以更好地反映出查询主题在文档集合中是否具有主观性的描述。在文档集合中,可以利用本方法计算文档与查询主题的整体相关性,找出与主题相关并且包含针对主题的评论的文本。下面展开详细具体的说明。
首先介绍如何采用基于概率检索模型算法计算文档与查询主题的文本相关度。在本发明中,对主题检索主要是在文档集合中针对用户给定的一个查询主题找出与查询主题相关并且包含针对主题的文档子集。而主题检索的本质就是对主题与文本的相关度进行建模。所谓相关度指的是用户查询与查询结果文档的匹配程度。目前,在主题检索中最常使用的是语言模型和概率检索模型。基于语言模型的检索的效果取决于对文档模型的精确估计,主要包括查找似然模型、KL距离模型等。
本发明使用概率检索模型算法计算文档与查询主题的文本相关度,该模型是以概率理论为基础,对文档和查询建立概率模型,并且依据此模型计算文档和查询之间的相似度。目前,在文本检索领域,最具代表性的相似度计算方法为Okapi BM25公式,如公式1:
其中f(qi,D)为在给定的文档D中出现索引词qi的频率,|D|为给定文档D的长度,avgdl是文档集合中文档的平均长度,k1和b是可调参数,IDF(qi)为索引词qi的逆文档频率,如公式2所示:
其中N为文档集合中文档数量,n(qi)为包含索引词qi的文档数量。
Okapi BM25相似度计算方法在实际中有着优良的表现,词频、文档频率、文档长度、文档集合平均长度均被考虑其中。从Okapi BM25公式中可以看出,出现在少数文档中的词要比出现在大量文档中的词价值更高,而且一个词在一篇短文档和一篇长文档中出现相同的次数,在前者中的价值更高。同时,Okapi BM25相似度计算方法保证了词频的作用不会太强,词频增加两倍,该词的权重不会增加两倍。因此本发明将在此基础上采用Okapi BM25相似度计算方法计算文档与查询主题的文本相关度。
为了提高计算文档与查询主题的文本相关度的准确性,可以通过对原始查询主题(查询词或者查询语句)进行扩充,以更准确的查找到与其相关的文本。本发明采用查询扩展词的抽取方法抽取与原始查询主题相关的扩展词集合。结合与查询主题的相关扩展词集合计算文档与查询主题的相关度。
采用查询扩展词的抽取方法抽取与原始查询主题相关的扩展词集合的方法包括:1)采用查询扩展词的抽取算法对原始查询主题扩展,得到查询扩展词集合;2)对原始查询主题进行检索,判断查询扩展词是否存在返回结果的前十篇文档,如果不存在去除查询扩展词,得到第一类查询扩展词集合;3)判断原始查询主题的长度,如果为长查询,对其进行分词,并将分词后的各词语作为第二类查询扩展词集合;4)计算第一类查询扩展词集合中每个扩展词与原始查询主题的相关度;5)计算第二类查询扩展词集合中每个扩展词在第二类查询扩展词集合中的权重,并计算其与原始查询主题的相关度;6)合并第一类查询扩展词集合和第二类查询扩展词集合。下面对上述步骤作进一步的详细说明:
在主题检索阶段,用户输入的查询词或语句通常比较简短,提供的信息不够充分。所以,为了提高输入查询的准确性,可以通过对原始查询词或者查询语句进行扩充以更准确的查找到与输入主题相关的文本。查询扩展是对于输入查询寻找与之相关的词语作为扩展项,这些扩展项与原始查询组成新的扩展项,输入检索系统以达到改进检索效果的目的。
查询扩展技术是信息检索界广泛研究的一个主题。对于查询扩展的构建,早期的研究是通过同义词或者近义词词典来生成扩展词;另外的一些研究通过分析返回的相关文档集合和上下文获得查询扩展词。随着WordNet、Google、Wikipedia等资源的流行,生成扩展词的研究工作也逐渐转向如何利用通用知识网络或者搜索引擎来生成扩展词。在下面的一个实施例中,本发明以维基百科为例对查询扩展,但本发明不仅限于使用维基百科,也可以使用其它的通用知识网络,例如百度百科、互动百科等。下面简单介绍一下维基百科:
维基百科是一个基于wiki技术的全球性多语言百科全书协作计划,同时也是一部在互联网上体现的网络百科全书网站,是一个动态的、可自由访问和编辑的全球知识体。它的每一个条目对应一篇文档,并且每篇文档都总结了话题的重要信息。
通过研究维基百科的页面结构及特征(如表1所示),并处理页面中的摘要和内容中的锚文本,找到与查询相关的条目作为查询扩展的候选词。如图2所示在查询扩展后选中也存在着一定的噪声,例如“工程师”等。如果过多的引入会造成查询结果精确率下降。
描述 | |
标题 | 每个条目的唯一标题 |
摘要 | 位于段首,通常为话题的简介 |
目录 | 内容的组织结构 |
内容 | 分段描述 |
分类 | 该条目所属分类 |
附录 | 引用、标记等 |
语言栏 | 页面左侧一系列语言对应的标题列表 |
表1维基百科页面结构
如图3所示,本发明采用如下查询扩展词的抽取算法对扩展词抽取:
a)针对给定的查询词利用程序从维基百科搜索相关网页;
b)如果查询过长则需先进行分词,然后返回步骤a)继续搜索;
c)从得到的网页中抽取位于摘要和内容中的锚文本作为查询扩展候选词;
d)在维基百科中搜索包含查询词Word、查询扩展候选词Wordexp以及同时包含查询词和查询扩展候选词(Word,Wordexp)包含的条目数;
e)计算查询词Word与扩展候选词Wordexp之间的PMI值;
f)根据PMI值进行排序,选取PMI值最高的n个词作为查询扩展。
在本发明中,为了防止过多的引入会造成查询结果精确率下降,本发明采用PMI方法对查询扩展候选进行筛选,PMI值越高该扩展候选与查询词的关联度越大。本发明利用维基百科搜索包含查询词与其候选扩展词的条目来计算查询词与候选扩展词之间的PMI值,计算方法如下:
其中,Word为原查询词,Wordexp为查询扩展候选词,Count(Word)为对原查询词“Word”查询返回的条目数,Count(Wordexp)为对扩展候选词“Wordexp”查询返回的条目数,Count(Word,Wordexp)为对同时包含查询词和查询扩展候选词(Word,Wordexp)查询返回的条目数。通过计算,本发明选择PMI最高的前5个扩展候选作为我们的查询扩展关键词。
如图1所示,在本发明中,使用如下算法计算抽取扩展词与原始查询主题的相关度得到查询主题相关的扩展词集合:
2)对原始查询主题queryorigin进行检索,针对返回结果中的前10篇文档判断查询扩展词Q'exp1是否存在,若不存在,则去除查询扩展词Q'exp1,得到新的查询扩展词集合作为第一类查询扩展词集合Queryexp_I,其中
4)计算在第一类扩展词集合Queryexp_I中每个扩展词与原始查询主题queryorigin的相关度。本发明中,以维基百科为例,使用维基百科同时检索扩展词与查询主题(queryorigin)返回的文档数量Count(queryorigin)以及单独检索扩展词返回的文档数量Count()来衡量每个扩展词Qexpi与原始查询主题queryorigin二者的相关度,扩展词与原始查询主题queryorgin的相关度rel_I(queryorigin),按公式4进行计算;
5)在第二类查询扩展词集合Queryexp_II中,计算每个扩展词在Queryexp_II中的权重wj,并按公式5,用该权重除以集合中所有扩展词的权重之和所得到的商作为与原始查询主题queryorigin的相关度
其中, Count(D_Set)为文档集合D_Set中具有的文档数量,和分别为使用扩展词和检索时返回的文档数量。∈Queryexp_II是说第二类集合中的每一个,其中i和j没有用于区分哪个是集合I、哪个是集合II,只是变量代表而已。另一方面,wi和wj的计算方法是一样的,只不过wi代表的是当前计算相关度的那个扩展词,公式的分母是对第二类扩展集合中的每个扩展词的权重求和,wj代表的是集合中的任意一个词,两者的含义稍有不同。
6)合并第一类查询扩展词集合Queryexp_I和第二类查询扩展词集合Queryexp_II得到查询扩展词集合Queryexp,其中Queryexp=Queryexp_I∪Queryexp_II。
需要说明的是,使用查询扩展是为了提高检索准确率。在步骤6)中还没有涉及到计算与文档的相关度。这里只是对查询扩展词的集合求并,而不是合并相关度,扩展词仍保留自己的相关度。相关度是作为查询扩展词的一个属性存在的,不是一个单独的集合。
接下来介绍如何计算文档与查询主题的情感相关度。在本发明中,在计算文档与主题的情感相关度时,使用了基于词语依存关系的观点抽取方法来确定主题在文档中的倾向性强弱。使用基于词语依存关系的观点抽取方法抽取出文档中的观点,具体如下:采集词语依存关系路径来构建词语依存关系库;采用基于词语依存关系链的匹配算法抽取评价对象和情感特征;通过评价对象和情感特征之间的词语依存关系判断观点极性。
图4为本发明主题情感相关度计算流程示意图。如图4所示,本发明采用如下方法计算文档与主题的情感相关度:
a)对文档D中的句子进行预处理,将文档以“;”、“。”、“?”、“!”等标点符号划分为不同的分句S,其中,D={S1,S2,…,Sn}。
b)使用基于词语依存关系的观点抽取方法抽取出文档D中的观点集合Opinion_Set,其中,Opinion_Set={Op1,Op2,…,Opm}。
c)采用基于通用知识网络的词语语义倾向性预测方法,计算文档D中的观点Opi的倾向性强度Polarity(Opi),并以文档D中的观点倾向性强度的绝对值|Polarity(Opi)|作为观点的主观性强度,其中,
上述基于通用知识网络的词语语义倾向性预测方法在发明人在先提交的中国专利申请《基于通用知识网络的词语语义倾向性预测方法》(申请号:201210316850.3,申请日:2012年8月30日)中有详细的说明,在此就不赘述了。
d)针对查询主题Query={queryorigin}∪Queryexp中的每一个词分别计算其主观性强度,计算方法按照公式6所示:
(6)
其中,query为查询主题Query中的一个查询词,Opi为文档中与query相关的观点集合Opinionquery中的一个观点,Opi→Topic=query,,Polarity(Opi)为文档D中的观点Opi的倾向性强度。e)计算查询主题Query中每个查询词在文档D中的倾向性权重,并以此作为它与文档D的情感相关度,计算方法如公式7所示:
其中,query为查询主题Query中的一个查询词,Opi为文档所有观点集合Opinion_Set中的一个观点,senti_Score(D,query)为查询词query与文档D的情感相关度,Polarity(query)为查询词query的主观性强度,Polarity(Opi)为文档D中的观点Opi的倾向性强度。最后,介绍如何采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。文档与查询的最终相似度由主题与文档的相关度和主题与文档的情感相关度综合决定。综合相似度的计算有多种方法,线性组合的方法被多个研究者采用,本发明采用线性加权的方法,计算公式如下:
score(D,Query)=α×rel_Score(D,Query)+(1-α)×senti_Score(D,Query)(8)
其中,rel_Score(D,Query)为文档D与查询主题Query的文本相关度,本发明采用的是BM25算法(公式1),senti_Score(D,Query)为文档D与主题Query的情感相关度(公式7)。α是线性拟合系数,因为在检索中最重要的是寻找与主题相关的文档,需要突出主题检索的重要性,所以通常α取值大于0.5,α的具体值可以通过实验确定。
在本发明中,对于观点检索的综合相关度计算,需要综合考虑原始查询主题以及查询扩展词与文档的综合相关度。考虑查询扩展词的情况下,结合查询扩展词与原始查询主题的相关度rel(query,queryorigin),可以将上述公式修改为:
(9)
其中,score(D,Query)为文档D与查询主题Query的相关性,query是查询主题中的一个查询词,queryorigin为原始查询词。rel(query,queryorigin)为查询词query与原始查询词queryorigin之间的相关度,rel(queryorigin,queryorigin)=1。rel_Score(D,query)为文档D与查询词query的文本相关度,senti_Score(D,query)为文档D与查询词query的情感相关度,α为拟合系数。通过实验得知,线性拟合参数α的取值范围为0.3~0.9,其中较佳的取值为0.7。
下面根据为了验证在不同窗口条件下,使用本发明所提出的基于情感相关度的观点检索方法,验证其观点检索的效果,能否准确地反映出查询结果针对查询主题的倾向性强弱。
本实验采用第一届中文倾向性分析评测(Chinese Opinion AnalysisEvaluation,以下称COAE2008,详见赵军、许洪波、黄萱菁、谭松波、刘康等提出的《中文倾向性分析评测技术报告》)中观点检索子任务的语料和评测主题对基于情感相关度的观点检索方法进行实验。
COAE2008采用的方法是取结果的前300条记录组成评测池,经人工评判后作为答案,对各个结果的前若干个进行评判打分。该任务的评测分为两步:第一步考察识别出关于主题的观点性文档并进行正确排序的能力,评测的指标为MAP和F值;第二步考察对于识别出的主题相关的主观性文档进行褒贬极性判断并正确排序的能力,评测指标为Rprecision和F值。各评测指标如下:
1.平均准确率(Mean Average Precision,MAP)
平均准确率为每个文档被检索到时的准确率平均值,即
其中RQ为查询Q在文档集合中相关的总数,#DocQ(i)为在检索结果中,第i篇相关文档被检索出时,之前已经被检索出的相关文档数。
2.R-准确率(R-precision)
R-准确率计算R个文档找到时的精确率,计算公式如下:
其中,r是当前检索中相关文档总数,#Doc(r)是前r篇文档中相关文档数。查询集合中所有查询的R准确率是每个查询的R准确率的平均值。
3.准确率(Precision)
其中,System.Correct为结果中正确的答案的数量,System.PostResult为结果中所有答案的数量。
4.召回率(Recall)
其中System.Correct为结果中正确的答案的数量,System.ProposedResult为COAE2008评测委员会给出的标准答案。
5.F值(F-measure)
F值是准确率和召回率的加权调和平均值,即
MAP和Rprecision指标对结果的排序有较高的要求。
关于观点检索的评价方法,本发明采用COAE2008中采用的评价指标MAP、R-prec、B-pref和P10。其中平均准确率(MAP)为每个文档被检索到时的准确率平均值,单个查询的R准确率是检索出R篇相关文档时的准确率。B-pref(binary preference-based measure)值考虑对返回结果列表中的经过判断后的文档进行评价。其定义见下式:
其中,R为相关文档的数目,r是一个相关文档,n是在相关文档r之前的非相关文档数。
P10是系统对于查询返回的前10个结果的准确率。
本实验可以验证查询扩展的有效性,确定α的值,并且验证本发明的相关性计算模型的有效性。
为了验证查询扩展的作用,本发明使用Lucene构建索引。实验对给定的20个主题构造查询,得到查询结果记为Baseline;另对给定的20个主题进行查询扩展,实验为每个查询主题选取5个候选扩展词作为给定的查询扩展词,使用主题与查询扩展一次构造查询,进行检索并返回相关检索结果。结果如表2所示:
方法 | MAP | R-prec | B-pref | P10 |
Baseline | 0.2603 | 0.3859 | 0.3169 | 0.65 |
查询扩展 | 0.2792 | 0.4103 | 0.3581 | 0.69 |
表2查询扩展实验结果
需要注意的是,本实验的结果是以观点检索的评测标准来衡量的。上述结果仅仅比较了主题相关性检索的得到的结果,并没有考虑文中针对主题的倾向性强弱分析。将表2中的实验结果绘制成图表如图5所示,图5示出了查询扩展实验结果。从图5可以清楚的看出,在对给定查询进行查询扩展后检索的效果明显得到了提升。
本实验通过对α分别设置为不同值,对20个主题进行检索,结果评价指标采用P10。实验结果如表3所示:
α值 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 0.8 | 0.9 |
T1 | 0.6 | 0.6 | 0.7 | 0.8 | 0.8 | 0.8 | 0.8 |
T2 | 0.7 | 0.8 | 0.8 | 0.8 | 0.8 | 0.8 | 0.8 |
T3 | 0.7 | 0.7 | 0.7 | 0.7 | 0.8 | 0.8 | 0.8 |
T4 | 0.6 | 0.7 | 0.6 | 0.8 | 0.8 | 0.7 | 0.7 |
T5 | 0.7 | 0.6 | 0.7 | 0.8 | 0.8 | 0.7 | 0.7 |
T6 | 0.6 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 |
T7 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 |
T8 | 0.6 | 0.6 | 0.7 | 0.8 | 0.8 | 0.8 | 0.8 |
T9 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 |
T10 | 0.6 | 0.6 | 0.7 | 0.8 | 0.8 | 0.8 | 0.8 |
T11 | 0.6 | 0.6 | 0.7 | 0.7 | 0.7 | 0.6 | 0.6 |
T12 | 0.5 | 0.5 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 |
T13 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 |
T14 | 0.4 | 0.4 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 |
T15 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 |
T16 | 0.5 | 0.5 | 0.7 | 0.7 | 0.7 | 0.7 | 0.6 |
T17 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 |
T18 | 0.5 | 0.5 | 0.6 | 0.6 | 0.6 | 0.6 | 0.6 |
T19 | 0.5 | 0.7 | 0.7 | 0.7 | 0.8 | 0.8 | 0.8 |
T20 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 | 0.7 |
表3α对P10的影响
将上表3中的实验数据绘制成不同α值的P10平均值曲线如图6所示。从图6中可以看出,当α=0.7时,P10达到最大,说明在进行面向主题的观点检索时,文档与主题的相关性更为重要,需要突出主题检索的重要性。
根据以上实验结果,本发明将线性拟合参数α设置为0.7。针对20个主题,使用本发明提出的基于情感相关度的观点检索方法在测试集中进行检索。评价指标采用MAP、R-prec、B-pref和P10。下面本发明给出了评测结果如表4所示,MEDIAN是COAE2008观点检索子任务的平均结果,BEST是COAE2008中最好的结果:
方法 | MAP | R-prec | B-pref | P10 |
本发明方法 | 0.3962 | 0.4607 | 0.4293 | 0.71 |
BEST | 0.444 | 0.4999 | 0.4817 | 0.8 |
MEDIAN | 0.3686 | 0.4477 | 0.4069 | 0.69 |
表4观点检索实验结果
将表4中的实验数据绘制成图表如图7所示。从图7所示的结果中可以看出,本发明提出的基于情感相关度的观点检索方法已经比较接近COAE2008观点检索子任务的最好结果,也说明本发明在观点检索下具有较好的效果。
上面对本发明所提供的基于情感相关度的观点检索方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (10)
1.一种基于情感相关度的观点检索方法,其特征在于包括:
采用基于概率检索模型算法计算文档与查询主题的文本相关度;
采用基于词语依存关系路径的观点抽取方法计算文档与查询主题的情感相关度;
采用线性加权的方法综合文档与查询主题的文本相关度和文档与查询主题的情感相关度确定文档与查询的最终相关性。
2.如权利要求1所述的观点检索方法,其特征在于:
所述文档与查询主题的文本相关度由下式计算:
其中f(qi,D)为在给定的文档D中出现索引词qi的频率,|D|为给定文档D的长度,avgdl是文档集合中文档的平均长度,k1和b是可调参数,IDF(qi)为qi的逆文档频率,如下式所示:
其中N为文档集合中文档数量,n(qi)为包含索引词qi的文档数量。
3.如权利要求1所述的观点检索方法,其特征在于:
所述查询主题由原始查询主题queryorigin(用户输入的查询词或者语句)和抽取的与其相关的扩展词集合Queryexp构成,Query={queryorigin}∪Queryexp,具体方法包括:
a.采用查询扩展词的抽取算法对原始查询主题queryorigin进行扩展,得到查询扩展词集合;
b.对原始查询主题进行检索,判断查询扩展词是否存在于返回结果的前10篇文档,如果不存在去除查询扩展词,得到第一类查询扩展词集合;
c.判断原始查询主题的长度,如果为长查询,对所述原始查询主题进行分词,并将分词后的各词语作为第二类查询扩展词集合;
d.计算第一类查询扩展词集合中每个扩展词与原始查询主题的相关度;
e.计算第二类查询扩展词集合中每个扩展词在第二类查询扩展词集合中的权重,并计算与原始查询主题的相关度;
f.合并第一查询扩展词集合和第二查询扩展词集合得到Queryexp。
4.如权利要求3所述的观点检索方法,其特征在于:
所述查询扩展词的抽取算法包括:
1)针对给定的查询词利用程序从通用知识网络搜索相关网页;
2)如果查询词过长则需先进行分词,然后返回步骤1)继续搜索;
3)从得到的网页中抽取锚文本作为查询扩展候选词;
4)在通用知识网络中搜索包含查询词、查询扩展候选词以及同时包含查询词和查询扩展候选词包含的条目数;
5)计算查询词与扩展候选词之间的PMI值;
6)根据PMI值进行排序,选取PMI值最高的n个词作为查询扩展。
5.如权利要求4所述的观点检索方法,其特征在于:
所述计算查询词与扩展候选词之间的PMI值由下式计算:
其中,Word为原查询词,Wordexp为查询扩展候选词,Count(Word)为对原查询词“Word”查询返回的条目数,Cunt(Wordexp)为对扩展候选词“Wordexp”查询返回的条目数,Count(Word,Wordexp)为对同时包含查询词和查询扩展候选词(Word,Wordexp)查询返回的条目数。
6.如权利要求1所述的观点检索方法,其特征在于所述计算文档与查询主题的情感相关度包括:
a.将文档以标点符号划分为不同的分句;
b.使用基于词语依存关系路径的观点抽取算法抽取出文档中的观点集合;
c.采用基于通用知识网络的词语语义倾向性预测方法计算观点的倾向性强度,并以倾向性强度的绝对值作为观点的主观性强度;
d.针对查询主题Query中的每个词,逐一找出与每个词相关的观点,并对这些观点的主观性强度求和,将求和结果作为该词的主观性强度;
e.针对查询主题Query中的每个词,计算该词在文档中的倾向性权重,并以此作为该词与文档的情感相关度。
7.如权利要求6所述的观点检索方法,其特征在于:
所述基于词语依存关系路径的观点抽取算法包括:
采集词语依存关系路径来构建词语依存关系库;
采用基于词语依存关系链的匹配算法抽取评价对象和情感特征;
通过评价对象和情感特征之间的词语依存关系判断观点极性。
8.如权利要求6所述的观点检索方法,其特征在于:
所述计算查询主题Query中每个查询词的主观性强度由下式计算;
其中,query为查询主题Query中的一个查询词,Opi为文档中与query相关的观点集合Opinionquery中的一个观点,Opi→Topic=query,Polarity(Opi)为Opi的倾向性强度。
9.如权利要求1所述的观点检索方法,其特征在于:
所述计算查询主题中每个查询词在文档中的倾向性权重由下式计算:
其中,query为查询主题Query中的一个查询词,Opi为文档中所有观点集合Opinion_Set中的一个观点,senti_Sore(D,query)为查询词query与文档D的情感相关度,Polarity(query)为查询词query的倾向性强度,Polarity(Opi)为Opi的倾向性强度。
10.如权利要求1所述的观点检索方法,其特征在于:
所述文档与查询主题的相关性由下式计算:
其中,score(D,Query)为文档D与查询主题Query的相关性,query是查询主题中的一个查询词,queryorigin为原始查询词,rel(query,queryorigin)为查询词query与原始查询词queryorigin之间的相关度,rel_Score(D,query)为文档D与查询词query的文本相关度,senti_Score(D,query)为文档D与查询词query的情感相关度,α为拟合系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210337804.1A CN103049470B (zh) | 2012-09-12 | 2012-09-12 | 基于情感相关度的观点检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210337804.1A CN103049470B (zh) | 2012-09-12 | 2012-09-12 | 基于情感相关度的观点检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103049470A true CN103049470A (zh) | 2013-04-17 |
CN103049470B CN103049470B (zh) | 2016-09-21 |
Family
ID=48062111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210337804.1A Active CN103049470B (zh) | 2012-09-12 | 2012-09-12 | 基于情感相关度的观点检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049470B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217026A (zh) * | 2014-09-28 | 2014-12-17 | 福州大学 | 一种基于图模型的中文微博客倾向性检索方法 |
CN104268230A (zh) * | 2014-09-28 | 2015-01-07 | 福州大学 | 一种基于异质图随机游走的中文微博客观点探测方法 |
CN104778276A (zh) * | 2015-04-29 | 2015-07-15 | 北京航空航天大学 | 一种基于改进tf-idf的多索引合并排序算法 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
CN105653703A (zh) * | 2015-12-31 | 2016-06-08 | 武汉传神信息技术有限公司 | 一种文档检索匹配方法 |
CN105975507A (zh) * | 2016-04-28 | 2016-09-28 | 南京理工大学 | 一种基于多源网络新闻数据的多媒体问答方法 |
CN106547822A (zh) * | 2016-09-29 | 2017-03-29 | 北京奇艺世纪科技有限公司 | 一种文本相关性确定方法及装置 |
CN107291689A (zh) * | 2017-05-31 | 2017-10-24 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据中文网络评论语句主题语义倾向的分析方法 |
CN108038204A (zh) * | 2017-12-15 | 2018-05-15 | 福州大学 | 针对社交媒体的观点检索系统及方法 |
CN108052554A (zh) * | 2017-11-29 | 2018-05-18 | 有米科技股份有限公司 | 多维度拓展关键词的方法和装置 |
CN108550054A (zh) * | 2018-04-12 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 一种内容质量评估方法、装置、设备和介质 |
CN109255017A (zh) * | 2018-08-23 | 2019-01-22 | 北京所问数据科技有限公司 | 一种基于语法树的实时文本观点抽取方法 |
CN111460104A (zh) * | 2020-04-01 | 2020-07-28 | 神思电子技术股份有限公司 | 行业自适应的智能搜索方法 |
CN112597274A (zh) * | 2020-12-18 | 2021-04-02 | 深圳市彬讯科技有限公司 | 基于bm25算法的文档确定方法、装置、设备及存储介质 |
CN113544689A (zh) * | 2019-02-11 | 2021-10-22 | 谷歌有限责任公司 | 为文档的来源观点生成并提供附加内容 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246296A1 (en) * | 2010-04-02 | 2011-10-06 | Apple Inc. | Background process for providing targeted content within a third-party application |
-
2012
- 2012-09-12 CN CN201210337804.1A patent/CN103049470B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246296A1 (en) * | 2010-04-02 | 2011-10-06 | Apple Inc. | Background process for providing targeted content within a third-party application |
Non-Patent Citations (3)
Title |
---|
刘全升等: ""基于关联度模型的文本倾向性检索研究"", 《中文信息学报》 * |
李海琳: ""网络舆情热点信息发现及其倾向性研究"", 《中国优秀硕士学位论文全文数据库(电子期刊) 经济与管理科学辑》 * |
王振宇等: ""基于HowNet和PMI的词语情感极性计算"", 《计算机工程》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268230A (zh) * | 2014-09-28 | 2015-01-07 | 福州大学 | 一种基于异质图随机游走的中文微博客观点探测方法 |
CN104217026B (zh) * | 2014-09-28 | 2017-08-11 | 福州大学 | 一种基于图模型的中文微博客倾向性检索方法 |
CN104268230B (zh) * | 2014-09-28 | 2017-09-15 | 福州大学 | 一种基于异质图随机游走的中文微博客观点探测方法 |
CN104217026A (zh) * | 2014-09-28 | 2014-12-17 | 福州大学 | 一种基于图模型的中文微博客倾向性检索方法 |
CN104778276A (zh) * | 2015-04-29 | 2015-07-15 | 北京航空航天大学 | 一种基于改进tf-idf的多索引合并排序算法 |
CN105320772B (zh) * | 2015-11-02 | 2019-03-26 | 武汉大学 | 一种专利查重的关联论文查询方法 |
CN105320772A (zh) * | 2015-11-02 | 2016-02-10 | 武汉大学 | 一种专利查重的关联论文查询方法 |
CN105653703A (zh) * | 2015-12-31 | 2016-06-08 | 武汉传神信息技术有限公司 | 一种文档检索匹配方法 |
CN105975507A (zh) * | 2016-04-28 | 2016-09-28 | 南京理工大学 | 一种基于多源网络新闻数据的多媒体问答方法 |
CN106547822A (zh) * | 2016-09-29 | 2017-03-29 | 北京奇艺世纪科技有限公司 | 一种文本相关性确定方法及装置 |
CN107291689A (zh) * | 2017-05-31 | 2017-10-24 | 温州市鹿城区中津先进科技研究院 | 一种基于大数据中文网络评论语句主题语义倾向的分析方法 |
CN108052554B (zh) * | 2017-11-29 | 2019-04-30 | 有米科技股份有限公司 | 多维度拓展关键词的方法和装置 |
CN108052554A (zh) * | 2017-11-29 | 2018-05-18 | 有米科技股份有限公司 | 多维度拓展关键词的方法和装置 |
CN108038204A (zh) * | 2017-12-15 | 2018-05-15 | 福州大学 | 针对社交媒体的观点检索系统及方法 |
CN108550054A (zh) * | 2018-04-12 | 2018-09-18 | 百度在线网络技术(北京)有限公司 | 一种内容质量评估方法、装置、设备和介质 |
CN109255017A (zh) * | 2018-08-23 | 2019-01-22 | 北京所问数据科技有限公司 | 一种基于语法树的实时文本观点抽取方法 |
CN113544689A (zh) * | 2019-02-11 | 2021-10-22 | 谷歌有限责任公司 | 为文档的来源观点生成并提供附加内容 |
CN111460104A (zh) * | 2020-04-01 | 2020-07-28 | 神思电子技术股份有限公司 | 行业自适应的智能搜索方法 |
CN111460104B (zh) * | 2020-04-01 | 2023-09-22 | 神思电子技术股份有限公司 | 行业自适应的智能搜索方法 |
CN112597274A (zh) * | 2020-12-18 | 2021-04-02 | 深圳市彬讯科技有限公司 | 基于bm25算法的文档确定方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103049470B (zh) | 2016-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103049470B (zh) | 基于情感相关度的观点检索方法 | |
Jianqiang | Pre-processing boosting Twitter sentiment analysis? | |
CN102831184B (zh) | 根据对社会事件的文字描述来预测社会情感的方法及系统 | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN103678278A (zh) | 一种中文文本情感识别方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN103473317A (zh) | 提取关键词的方法和设备 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
Bruno | Text mining and sentiment extraction in central bank documents | |
CN103646099A (zh) | 一种基于多层图的论文推荐方法 | |
CN102929962B (zh) | 一种搜索引擎的评测方法 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
Yatim et al. | A corpus-based lexicon building in Indonesian political context through Indonesian online news media | |
Zhao et al. | Collocation polarity disambiguation using web-based pseudo contexts | |
Juan | An effective similarity measurement for FAQ question answering system | |
Syn et al. | Using latent semantic analysis to identify quality in use (qu) indicators from user reviews | |
Oco et al. | Measuring language similarity using trigrams: Limitations of language identification | |
CN104933097A (zh) | 一种用于检索的数据处理方法和装置 | |
TWI446191B (zh) | Word matching and information query method and device | |
Tian et al. | Research of product ranking technology based on opinion mining | |
Angdresey et al. | Classification and Sentiment Analysis on Tweets of the Ministry of Health Republic of Indonesia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |