CN106649433B - 基于观点语句可信度的话题观点强度计算方法 - Google Patents

基于观点语句可信度的话题观点强度计算方法 Download PDF

Info

Publication number
CN106649433B
CN106649433B CN201610802312.3A CN201610802312A CN106649433B CN 106649433 B CN106649433 B CN 106649433B CN 201610802312 A CN201610802312 A CN 201610802312A CN 106649433 B CN106649433 B CN 106649433B
Authority
CN
China
Prior art keywords
web page
viewpoint
topic
statement
credibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610802312.3A
Other languages
English (en)
Other versions
CN106649433A (zh
Inventor
杨鹏
袁志伟
刘旋
赵丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610802312.3A priority Critical patent/CN106649433B/zh
Publication of CN106649433A publication Critical patent/CN106649433A/zh
Application granted granted Critical
Publication of CN106649433B publication Critical patent/CN106649433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于观点语句可信度的话题观点强度计算方法。该方法综合考虑了网页的可信度和网页对话题观点语句的支持程度,结合这两方面因素计算出话题观点类中每一个观点语句的可信度,最后通过对多个观点语句的可信度求和,得到每一个话题观点类的强度值。本发明能够帮助用户定量地了解不同观点的观点强度,区分主要观点和次要观点,揭示话题不同观点的细节。

Description

基于观点语句可信度的话题观点强度计算方法
技术领域
本发明涉及一种基于观点语句可信度的话题观点强度计算方法,用于量化表征互联网中与话题有关观点的强度,属于互联网与信息技术领域。
背景技术
随着网络技术的飞速发展,互联网日益成为人们获取信息和日常娱乐的主要途径。在日常的学习和生活中,人们越来越依赖于从互联网中获取知识、掌握时事,越来越需要借助互联网了解围绕某一热点话题的不同观点。在互联网中,网页是最常见的信息载体,也是联系信息和网民的纽带。然而,由于互联网中的网页数量众多,每个人的精力相对有限,因此受时间和精力等因素制约,人们往往无法深入了解围绕某一话题的所有观点的细节。现有的话题检测与跟踪(Topic Detection and Tracking)技术,多侧重于对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪等方面,还少有专门针对话题的不同观点进行话题观点强度计算方面的有效方法。
如果可以区分不同的话题观点,借助适宜的方法计算这些观点强度,并通过观点强度来揭示大众观点和小众观点,人们就能够更加迅速在了解和勾勒出话题的全貌,并可以进一步根据自己的兴趣偏好,有选择性地了解话题不同观点的观点细节。例如,当人们在搜索某个热点事件的时候,通常受时间和精力的限制只能够阅读少数几个或者几十个网页,这样就难以通过有限的网页了解该热点事件的所有观点及每一观点的支持比例。但是,如果可以根据与话题有关的网页进行自动分析计算,进而获得围绕该话题的不同观点及其观点强度,则可以方便人们快速、理性地认识事件的主流观点与看法。因此,亟需设计一种能对网页进行自动处理的话题观点强度计算方法,定量地计算话题不同观点的观点强度,既能呈现话题的全貌,又能展示话题不同观点的细节。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供了一种基于观点语句可信度的话题观点强度计算方法,该方法能够计算话题不同观点的观点强度,方便用户定量地了解围绕话题的不同观点的观点强度大小,区分主要观点和次要观点,有选择地去了解不同观点的细节信息。
技术方案:一种基于观点语句可信度的话题观点强度计算方法,先通过网页的多个关键属性计算出网页的可信程度(简称网页可信度),接着通过计算网页中观点语句(包含有观点的语句)和网页主题的关联性,获得网页主题(主要是标题和关键词)对于观点语句的支持度,然后综合网页可信度和观点语句支持度得到观点语句的可信度,最后通过对隶属于给定观点类的所有观点语句的可信度进行求和,计算得到该话题观点类的观点强度。
假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即
Figure BDA0001109269170000021
上述n个观点类中的所有观点语句来源于m(≥1)个网页,这m个网页所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk(dk∈VCD)包含Dk(≥1)个观点语句,这Dk个观点语句构成网页dk的观点语句集合
Figure BDA0001109269170000022
则话题观点类VCi的观点强度计算主要分为三个步骤,具体如下:
步骤1:网页可信度计算。对m个网页中的每一个网页dk(dk∈VCD),综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,计算出网页dk的网页可信度;
步骤2:观点语句支持度计算。对于VCi中任一观点语句
Figure BDA0001109269170000023
(即
Figure BDA0001109269170000024
),不失一般性,假定满足
Figure BDA0001109269170000025
则首先采用余弦相似度计算方法,计算观点语句
Figure BDA0001109269170000026
和网页dk的标题间的相似度;接着,采用余弦相似度计算方法,计算观点语句
Figure BDA0001109269170000027
和网页dk的关键词间的相似度;最后,在前述两种相似度中,选择取值较大的相似度,作为网页dk对观点语句
Figure BDA0001109269170000028
的支持度;
步骤3:话题观点强度值计算。综合步骤1得到的网页dk的网页可信度,以及步骤2得到的网页dk对观点语句
Figure BDA0001109269170000031
的支持度,获得观点类VCi中任一观点语句
Figure BDA0001109269170000032
的可信度。最后,通过对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点的强度值。
有益效果:本发明与现有技术相比,具有以下优点:
1.通过观点语句支持度表征观点语句和网页主题的关系,并从观点语句和网页标题之间的相似度以及观点语句和网页关键词之间的相似度两个方面,更加合理地刻画网页主题对观点语句的支持程度;
2.给出了话题观点强度的量化计算方法,综合考虑了网页的可信度和网页对话题观点语句的支持程度,能够帮助用户定量地了解话题不同观点的观点强度,区分主要观点和次要观点,加深对话题观点的细节认识。
附图说明
图1为基于观点语句可信度的话题观点强度计算流程;
图2为话题观点类、观点语句和来源网页的对应关系示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明主要根据观点语句可信度对话题观点强度进行计算,具体计算流程如图1所示,包括三个步骤:网页可信度计算、观点语句支持度计算和观点强度值计算阶段。假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合记为VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即
Figure BDA0001109269170000033
上述n个观点类中的所有观点语句来源于m(≥1)个网页,这m个网页所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk(dk∈VCD)包含Dk(≥1)个观点语句,这Dk个观点语句构成网页dk的观点语句集合
Figure BDA0001109269170000041
话题观点类、观点语句和来源网页之间的关系如图2所示。
不失一般性,下面对任一话题观点类VCi(VCi∈VCS)的观点强度进行计算,具体三个实施步骤如下:
步骤1:网页可信度计算。对于网页集合VCD中的每一个网页dk(dk∈VCD),综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,采用公式(1)计算出网页dk的网页可信度DRW(dk);
DRW(dk)=λ1NPR(dk)+λ2NTR(dk)+λ3T(dk) 公式(1)
公式(1)中的3个系数λ1、λ2和λ3满足:
Figure BDA0001109269170000042
在本发明中,取λ1=0.8,λ2=0.1,λ3=0.1。NPR(dk)表示网页dk的NPR因子,NTR(dk)表示网页dk的NTR因子,T(dk)表示网页dk的时间因子。这三个因子的计算方法如下:
网页dk的NPR因子计算基于Google搜索引擎所采用的链接分析算法PageRank,该算法为用户的浏览行为建立了一个随机访问模型:当用户访问一个网页的时候,或者以概率g沿着超链接进行访问,或者以概率(1-g)从一个新的页面开始访问。而一个页面被访问的概率,主要取决于链接到这个页面的页面访问概率。如果一个页面的入链越多,或者入链的PR值(即PageRank值)越高,则该网页的PR值越高。网页的PR值的取值范围为PR∈[0,10),对网页的PR值进行归一化处理,可以得到该网页的NPR(New PageRank)值。因此,网页dk的NPR因子的计算如公式(2)所示,其中PR(dk)表示网页dk的PageRank值(即PR值):
Figure BDA0001109269170000043
网页dk的NTR因子计算基于垃圾网站检测算法TrustRank,该算法为每个网站计算一个TR值,该值的高低与网站是垃圾网站的概率大小有关。TrustRank算法首先挑选出一定数量的“种子”网站,并赋予这些“种子”网站很高的TR值;这些“种子”网站链接出的网站的TR值稍微降低,但仍旧很高;类似地,第二层权威网站链接向第三层权威网站,则第三层权威网站的TR值比第二层权威网站的TR值又稍微降低。那么,TR值与第一层权威网站相差较大的网站有很大的可能性是垃圾网站。本发明对TrustRank算法进行简化处理,假定AP是权威专业网站的集合(包括域名为edu、org、以及挑选出的其他权威网站,如新华网、人民网、科学网、知乎等),当网页属于AP时,其NTR值设为α(在本发明中α的值取1);否则,该网页的NTR值设为0。则网页dk的NTR因子的计算如公式(3)所示:
Figure BDA0001109269170000051
网页dk的时间因子基于这样的考虑:网页的可信度高低,与网页的发布时间有密切的关系。对于同样的信息,发布时间较晚的网页,搜集到的资料更加丰富和全面,自然更加能够反应事物的本质信息。所以,发布时间较晚的网页具有更高的可信度,相对应地,应该为发布时间较晚的网页设置更高的可信度权重。网页dk的时间因子计算如公式(4)所示:
Figure BDA0001109269170000052
其中,td表示网页dk的最后修改时间,而tmax表示集合VCD中修改时间最晚的网页的修改时间。
步骤2:观点语句支持度计算。本发明使用网页标题和网页关键词来表征网页的主题,网页标题可以通过对网页源码的<title>标签获得,而网页关键词则通过对网页正文用TF-IDF算法得到。假设
Figure BDA0001109269170000058
为VCi中的任一观点语句(即
Figure BDA0001109269170000053
),且满足
Figure BDA0001109269170000054
网页dk的标题经过分词、去停用词之后,所得的词语集合记为
Figure BDA0001109269170000055
取网页dk的所有关键词构成集合
Figure BDA0001109269170000056
而观点语句
Figure BDA0001109269170000057
经过分词、去停用词之后,所得的词语集合记为
Figure BDA0001109269170000061
并且令
Figure BDA0001109269170000062
Figure BDA0001109269170000063
下面示例利用余弦相似度计算方法,计算观点语句
Figure BDA0001109269170000064
和网页dk的标题之间的相似度的过程,观点语句
Figure BDA0001109269170000065
和网页dk的关键词之间的相似度的计算过程与此类似。首先,计算网页dk的标题词语集合W1相对于词语集合WTS的词语向量
Figure BDA0001109269170000066
其中元素
Figure BDA0001109269170000067
的取值满足公式(5):
Figure BDA0001109269170000068
接着,计算观点语句
Figure BDA0001109269170000069
的词语集合W3相对于词语集合WTS的词语向量
Figure BDA00011092691700000610
其中元素
Figure BDA00011092691700000611
的取值满足公式(6):
Figure BDA00011092691700000612
然后,利用公式(7)计算VT1和VS1之间的余弦相似度:
Figure BDA00011092691700000613
类似地,计算网页dk的关键词集合W2相对于词语集合WKS的词语向量
Figure BDA00011092691700000614
以及观点语句
Figure BDA00011092691700000615
的词语集合W3相对于词语集合WKS的词语向量
Figure BDA00011092691700000616
进而计算VT2和VS2之间的余弦相似度Cos(VT2,VS2)。
在此基础上,采用公式(8)网页dk的对观点语句
Figure BDA00011092691700000617
的支持度:
Figure BDA00011092691700000618
步骤3:话题观点强度值计算。首先,根据步骤1得到的网页dk的网页可信度DRW(dk),以及步骤2得到的网页dk的对观点语句
Figure BDA00011092691700000619
的支持度
Figure BDA00011092691700000620
采用公式(9)计算观点语句
Figure BDA0001109269170000071
的可信度:
Figure BDA0001109269170000072
然后,采用公式(10)对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点类VCi的强度值:
Figure BDA0001109269170000073

Claims (5)

1.一种基于观点语句可信度的话题观点强度计算方法,其特征在于:首先通过网页的多个关键属性计算出网页的可信程度,接着通过计算网页中观点语句和网页主题的关联性,获得网页主题对于观点语句的支持度,然后综合网页可信度和观点语句支持度得到观点语句的可信度,最后通过对隶属于给定观点类的所有观点语句的可信度进行求和,计算得到该话题观点类的观点强度,方便用户定量地了解围绕话题的不同观点的观点强度大小,区分主要观点和次要观点,有选择地去了解不同观点的细节信息;
假设围绕某话题的观点共分为n类,由这n个观点类所构成的集合记为VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi,VCi∈VCS,包含Ci个观点语句,即
Figure FDA0002470970720000011
上述n个观点类中的所有观点语句来源于m个网页,这m个网页所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk,dk∈VCD,包含Dk个观点语句,这Dk个观点语句构成网页dk的观点语句集合
Figure FDA0002470970720000012
网页可信度计算;对m个网页中的每一个网页dk,dk∈VCD,综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,计算出网页dk的网页可信度;
观点语句支持度计算:使用网页标题和网页关键词来表征网页的主题,网页标题通过对网页源码的<title>标签获得,而网页关键词则通过对网页正文用TF-IDF算法得到;假设
Figure FDA0002470970720000013
为VCi中的任一观点语句,且满足
Figure FDA0002470970720000014
网页dk的标题经过分词、去停用词之后,所得的词语集合记为
Figure FDA0002470970720000015
取网页dk的所有关键词构成集合
Figure FDA0002470970720000016
而观点语句
Figure FDA0002470970720000017
经过分词、去停用词之后,所得的词语集合记为
Figure FDA0002470970720000018
并且令
Figure FDA0002470970720000019
Figure FDA00024709707200000110
利用余弦相似度计算方法,计算观点语句
Figure FDA00024709707200000111
和网页dk的标题之间的相似度,以及观点语句
Figure FDA0002470970720000021
和网页dk的关键词之间的相似度;首先,计算网页dk的标题词语集合W1相对于词语集合WTS的词语向量
Figure FDA0002470970720000022
其中元素
Figure FDA0002470970720000023
的取值满足公式(5):
Figure FDA0002470970720000024
接着,计算观点语句
Figure FDA0002470970720000025
的词语集合W3相对于词语集合WTS的词语向量
Figure FDA0002470970720000026
其中元素
Figure FDA0002470970720000027
的取值满足公式(6):
Figure FDA0002470970720000028
然后,利用公式(7)计算VT1和VS1之间的余弦相似度:
Figure FDA0002470970720000029
计算网页dk的关键词集合W2相对于词语集合WKS的词语向量
Figure FDA00024709707200000210
以及观点语句
Figure FDA00024709707200000211
的词语集合W3相对于词语集合WKS的词语向量
Figure FDA00024709707200000212
进而计算VT2和VS2之间的余弦相似度Cos(VT2,VS2);
在此基础上,采用公式(8)网页dk的对观点语句
Figure FDA00024709707200000213
的支持度:
Figure FDA00024709707200000214
2.如权利要求1所述的基于观点语句可信度的话题观点强度计算方法,其特征在于,话题观点强度值计算:综合网页dk的网页可信度,以及网页dk对观点语句
Figure FDA00024709707200000215
的支持度,获得观点类VCi中任一观点语句
Figure FDA00024709707200000216
的可信度;最后,通过对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点的强度值。
3.如权利要求1所述的基于观点语句可信度的话题观点强度计算方法,其特征在于,对于网页集合VCD中的每一个网页dk,综合考虑网页dk的多个关键属性,采用公式(1)计算出网页dk的网页可信度DRW(dk);
DRW(dk)=λ1NPR(dk)+λ2NTR(dk)+λ3T(dk) 公式(1)
公式(1)中的3个系数λ1、λ2和λ3满足:
Figure FDA0002470970720000031
NPR(dk)表示网页dk的NPR因子,NTR(dk)表示网页dk的NTR因子,T(dk)表示网页dk的时间因子。
4.如权利要求3所述的基于观点语句可信度的话题观点强度计算方法,其特征在于,网页dk的NPR因子计算如公式(2)所示,其中PR(dk)表示网页dk的PageRank值:
Figure FDA0002470970720000032
网页dk的NTR因子的计算如公式(3)所示,其中AP表示权威专业网站的集合:
Figure FDA0002470970720000033
网页dk的时间因子计算如公式(4)所示:
Figure FDA0002470970720000034
其中,td表示网页dk的最后修改时间,而tmax表示集合VCD中修改时间最晚的网页的修改时间。
5.如权利要求1所述的基于观点语句可信度的话题观点强度计算方法,其特征在于,话题观点强度值计算:首先,根据网页dk的网页可信度DRW(dk),以及网页dk的对观点语句
Figure FDA0002470970720000035
的支持度
Figure FDA0002470970720000036
采用公式(9)计算观点语句
Figure FDA0002470970720000037
的可信度:
Figure FDA0002470970720000038
然后,采用公式(10)对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点类VCi的强度值:
Figure FDA0002470970720000041
CN201610802312.3A 2016-09-05 2016-09-05 基于观点语句可信度的话题观点强度计算方法 Active CN106649433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610802312.3A CN106649433B (zh) 2016-09-05 2016-09-05 基于观点语句可信度的话题观点强度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610802312.3A CN106649433B (zh) 2016-09-05 2016-09-05 基于观点语句可信度的话题观点强度计算方法

Publications (2)

Publication Number Publication Date
CN106649433A CN106649433A (zh) 2017-05-10
CN106649433B true CN106649433B (zh) 2020-08-11

Family

ID=58851550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610802312.3A Active CN106649433B (zh) 2016-09-05 2016-09-05 基于观点语句可信度的话题观点强度计算方法

Country Status (1)

Country Link
CN (1) CN106649433B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778214A (zh) * 2014-01-16 2014-05-07 北京理工大学 一种基于用户评论的商品属性聚类方法
CN104217026A (zh) * 2014-09-28 2014-12-17 福州大学 一种基于图模型的中文微博客倾向性检索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867123B2 (en) * 2009-11-09 2020-12-15 Microsoft Technology Licensing, Llc Social browsing
CN101556580A (zh) * 2009-05-20 2009-10-14 北京工商大学 一种基于篇章结构分析的股评观点分类系统及方法
US9135354B2 (en) * 2010-04-07 2015-09-15 Yahoo! Inc. Method and system for topical browser history
CN105447036B (zh) * 2014-08-29 2019-08-16 华为技术有限公司 一种基于观点挖掘的社交媒体信息可信度评估方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778214A (zh) * 2014-01-16 2014-05-07 北京理工大学 一种基于用户评论的商品属性聚类方法
CN104217026A (zh) * 2014-09-28 2014-12-17 福州大学 一种基于图模型的中文微博客倾向性检索方法

Also Published As

Publication number Publication date
CN106649433A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
Sun et al. Tag‐based social image retrieval: An empirical evaluation
US9720904B2 (en) Generating training data for disambiguation
US7519588B2 (en) Keyword characterization and application
Kang et al. Modeling user interest in social media using news media and wikipedia
JP5454357B2 (ja) 情報処理装置および方法、並びに、プログラム
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
Kien et al. Answering legal questions by learning neural attentive text representation
US20150310099A1 (en) System And Method For Generating Labels To Characterize Message Content
US20100205176A1 (en) Discovering City Landmarks from Online Journals
US20150324350A1 (en) Identifying Content Relationship for Content Copied by a Content Identification Mechanism
Li et al. Entity disambiguation with linkless knowledge bases
Mahdabi et al. The effect of citation analysis on query expansion for patent retrieval
Raghav et al. Text and citations based cluster analysis of legal judgments
Bi et al. Iterative relevance feedback for answer passage retrieval with passage-level semantic match
Carta et al. VSTAR: visual semantic thumbnails and tAgs revitalization
Kawase et al. Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources
Ma et al. Social user profiling: A social-aware topic modeling perspective
Kravi et al. One query, many clicks: Analysis of queries with multiple clicks by the same user
Bellaachia et al. Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction
Hsu et al. Efficient and effective prediction of social tags to enhance web search
Wasim et al. Extracting and modeling user interests based on social media
US9305103B2 (en) Method or system for semantic categorization
CN106649433B (zh) 基于观点语句可信度的话题观点强度计算方法
Liebeskind et al. Text categorization from category name in an industry-motivated scenario
Liu et al. An improved topic detection method for chinese microblog based on incremental clustering.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant