CN106649433B

CN106649433B - 基于观点语句可信度的话题观点强度计算方法

Info

Publication number: CN106649433B
Application number: CN201610802312.3A
Authority: CN
Inventors: 杨鹏; 袁志伟; 刘旋; 赵丹丹
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2020-08-11
Anticipated expiration: 2036-09-05
Also published as: CN106649433A

Abstract

本发明公开了一种基于观点语句可信度的话题观点强度计算方法。该方法综合考虑了网页的可信度和网页对话题观点语句的支持程度，结合这两方面因素计算出话题观点类中每一个观点语句的可信度，最后通过对多个观点语句的可信度求和，得到每一个话题观点类的强度值。本发明能够帮助用户定量地了解不同观点的观点强度，区分主要观点和次要观点，揭示话题不同观点的细节。

Description

基于观点语句可信度的话题观点强度计算方法

技术领域

本发明涉及一种基于观点语句可信度的话题观点强度计算方法，用于量化表征互联网中与话题有关观点的强度，属于互联网与信息技术领域。

背景技术

随着网络技术的飞速发展，互联网日益成为人们获取信息和日常娱乐的主要途径。在日常的学习和生活中，人们越来越依赖于从互联网中获取知识、掌握时事，越来越需要借助互联网了解围绕某一热点话题的不同观点。在互联网中，网页是最常见的信息载体，也是联系信息和网民的纽带。然而，由于互联网中的网页数量众多，每个人的精力相对有限，因此受时间和精力等因素制约，人们往往无法深入了解围绕某一话题的所有观点的细节。现有的话题检测与跟踪(Topic Detection and Tracking)技术，多侧重于对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪等方面，还少有专门针对话题的不同观点进行话题观点强度计算方面的有效方法。

如果可以区分不同的话题观点，借助适宜的方法计算这些观点强度，并通过观点强度来揭示大众观点和小众观点，人们就能够更加迅速在了解和勾勒出话题的全貌，并可以进一步根据自己的兴趣偏好，有选择性地了解话题不同观点的观点细节。例如，当人们在搜索某个热点事件的时候，通常受时间和精力的限制只能够阅读少数几个或者几十个网页，这样就难以通过有限的网页了解该热点事件的所有观点及每一观点的支持比例。但是，如果可以根据与话题有关的网页进行自动分析计算，进而获得围绕该话题的不同观点及其观点强度，则可以方便人们快速、理性地认识事件的主流观点与看法。因此，亟需设计一种能对网页进行自动处理的话题观点强度计算方法，定量地计算话题不同观点的观点强度，既能呈现话题的全貌，又能展示话题不同观点的细节。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供了一种基于观点语句可信度的话题观点强度计算方法，该方法能够计算话题不同观点的观点强度，方便用户定量地了解围绕话题的不同观点的观点强度大小，区分主要观点和次要观点，有选择地去了解不同观点的细节信息。

技术方案：一种基于观点语句可信度的话题观点强度计算方法，先通过网页的多个关键属性计算出网页的可信程度(简称网页可信度)，接着通过计算网页中观点语句(包含有观点的语句)和网页主题的关联性，获得网页主题(主要是标题和关键词)对于观点语句的支持度，然后综合网页可信度和观点语句支持度得到观点语句的可信度，最后通过对隶属于给定观点类的所有观点语句的可信度进行求和，计算得到该话题观点类的观点强度。

假设围绕某话题的观点共分为n(≥1)类，由这n个观点类所构成的集合VCS＝{VC₁,VC₂,VC₃,...,VC_n}，其中任一观点类VC_i(VC_i∈VCS)包含C_i(≥1)个观点语句，即

上述n个观点类中的所有观点语句来源于m(≥1)个网页，这m个网页所构成的集合记为VCD＝{d₁,d₂,d₃,...,d_m}，其中任一网页d_k(d_k∈VCD)包含D_k(≥1)个观点语句，这D_k个观点语句构成网页d_k的观点语句集合

则话题观点类VC_i的观点强度计算主要分为三个步骤，具体如下：

步骤1：网页可信度计算。对m个网页中的每一个网页d_k(d_k∈VCD)，综合考虑网页d_k的多个关键属性，主要包括网页d_k的NPR因子、网页d_k的NTR因子、以及网页d_k的时间因子，计算出网页d_k的网页可信度；

步骤2：观点语句支持度计算。对于VC_i中任一观点语句

(即

)，不失一般性，假定满足

则首先采用余弦相似度计算方法，计算观点语句

和网页d_k的标题间的相似度；接着，采用余弦相似度计算方法，计算观点语句

和网页d_k的关键词间的相似度；最后，在前述两种相似度中，选择取值较大的相似度，作为网页d_k对观点语句

的支持度；

步骤3：话题观点强度值计算。综合步骤1得到的网页d_k的网页可信度，以及步骤2得到的网页d_k对观点语句

的支持度，获得观点类VC_i中任一观点语句

的可信度。最后，通过对观点类VC_i中的所有观点语句的可信度进行求和，计算得到话题观点的强度值。

有益效果：本发明与现有技术相比，具有以下优点：

1.通过观点语句支持度表征观点语句和网页主题的关系，并从观点语句和网页标题之间的相似度以及观点语句和网页关键词之间的相似度两个方面，更加合理地刻画网页主题对观点语句的支持程度；

2.给出了话题观点强度的量化计算方法，综合考虑了网页的可信度和网页对话题观点语句的支持程度，能够帮助用户定量地了解话题不同观点的观点强度，区分主要观点和次要观点，加深对话题观点的细节认识。

附图说明

图1为基于观点语句可信度的话题观点强度计算流程；

图2为话题观点类、观点语句和来源网页的对应关系示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明主要根据观点语句可信度对话题观点强度进行计算，具体计算流程如图1所示，包括三个步骤：网页可信度计算、观点语句支持度计算和观点强度值计算阶段。假设围绕某话题的观点共分为n(≥1)类，由这n个观点类所构成的集合记为VCS＝{VC₁,VC₂,VC₃,...,VC_n}，其中任一观点类VC_i(VC_i∈VCS)包含C_i(≥1)个观点语句，即

话题观点类、观点语句和来源网页之间的关系如图2所示。

不失一般性，下面对任一话题观点类VC_i(VC_i∈VCS)的观点强度进行计算，具体三个实施步骤如下：

步骤1：网页可信度计算。对于网页集合VCD中的每一个网页d_k(d_k∈VCD)，综合考虑网页d_k的多个关键属性，主要包括网页d_k的NPR因子、网页d_k的NTR因子、以及网页d_k的时间因子，采用公式(1)计算出网页d_k的网页可信度DRW(d_k)；

DRW(d_k)＝λ₁NPR(d_k)+λ₂NTR(d_k)+λ₃T(d_k) 公式(1)

公式(1)中的3个系数λ₁、λ₂和λ₃满足：

在本发明中，取λ₁＝0.8，λ₂＝0.1，λ₃＝0.1。NPR(d_k)表示网页d_k的NPR因子，NTR(d_k)表示网页d_k的NTR因子，T(d_k)表示网页d_k的时间因子。这三个因子的计算方法如下：

网页d_k的NPR因子计算基于Google搜索引擎所采用的链接分析算法PageRank，该算法为用户的浏览行为建立了一个随机访问模型：当用户访问一个网页的时候，或者以概率g沿着超链接进行访问，或者以概率(1-g)从一个新的页面开始访问。而一个页面被访问的概率，主要取决于链接到这个页面的页面访问概率。如果一个页面的入链越多，或者入链的PR值(即PageRank值)越高，则该网页的PR值越高。网页的PR值的取值范围为PR∈[0,10)，对网页的PR值进行归一化处理，可以得到该网页的NPR(New PageRank)值。因此，网页d_k的NPR因子的计算如公式(2)所示，其中PR(d_k)表示网页d_k的PageRank值(即PR值)：

网页d_k的NTR因子计算基于垃圾网站检测算法TrustRank，该算法为每个网站计算一个TR值，该值的高低与网站是垃圾网站的概率大小有关。TrustRank算法首先挑选出一定数量的“种子”网站，并赋予这些“种子”网站很高的TR值；这些“种子”网站链接出的网站的TR值稍微降低，但仍旧很高；类似地，第二层权威网站链接向第三层权威网站，则第三层权威网站的TR值比第二层权威网站的TR值又稍微降低。那么，TR值与第一层权威网站相差较大的网站有很大的可能性是垃圾网站。本发明对TrustRank算法进行简化处理，假定AP是权威专业网站的集合(包括域名为edu、org、以及挑选出的其他权威网站，如新华网、人民网、科学网、知乎等)，当网页属于AP时，其NTR值设为α(在本发明中α的值取1)；否则，该网页的NTR值设为0。则网页d_k的NTR因子的计算如公式(3)所示：

网页d_k的时间因子基于这样的考虑：网页的可信度高低，与网页的发布时间有密切的关系。对于同样的信息，发布时间较晚的网页，搜集到的资料更加丰富和全面，自然更加能够反应事物的本质信息。所以，发布时间较晚的网页具有更高的可信度，相对应地，应该为发布时间较晚的网页设置更高的可信度权重。网页d_k的时间因子计算如公式(4)所示：

其中，t_d表示网页d_k的最后修改时间，而t_max表示集合VCD中修改时间最晚的网页的修改时间。

步骤2：观点语句支持度计算。本发明使用网页标题和网页关键词来表征网页的主题，网页标题可以通过对网页源码的<title>标签获得，而网页关键词则通过对网页正文用TF-IDF算法得到。假设

为VC_i中的任一观点语句(即

)，且满足

网页d_k的标题经过分词、去停用词之后，所得的词语集合记为

取网页d_k的所有关键词构成集合

而观点语句

经过分词、去停用词之后，所得的词语集合记为

并且令

下面示例利用余弦相似度计算方法，计算观点语句

和网页d_k的标题之间的相似度的过程，观点语句

和网页d_k的关键词之间的相似度的计算过程与此类似。首先，计算网页d_k的标题词语集合W₁相对于词语集合W_TS的词语向量

其中元素

的取值满足公式(5)：

接着，计算观点语句

的词语集合W₃相对于词语集合W_TS的词语向量

其中元素

的取值满足公式(6)：

然后，利用公式(7)计算V_T1和V_S1之间的余弦相似度：

类似地，计算网页d_k的关键词集合W₂相对于词语集合W_KS的词语向量

以及观点语句

的词语集合W₃相对于词语集合W_KS的词语向量

进而计算V_T2和V_S2之间的余弦相似度Cos(V_T2,V_S2)。

在此基础上，采用公式(8)网页d_k的对观点语句

的支持度：

步骤3：话题观点强度值计算。首先，根据步骤1得到的网页d_k的网页可信度DRW(d_k)，以及步骤2得到的网页d_k的对观点语句

的支持度

采用公式(9)计算观点语句

的可信度：

然后，采用公式(10)对观点类VC_i中的所有观点语句的可信度进行求和，计算得到话题观点类VC_i的强度值：

Claims

1.一种基于观点语句可信度的话题观点强度计算方法，其特征在于：首先通过网页的多个关键属性计算出网页的可信程度，接着通过计算网页中观点语句和网页主题的关联性，获得网页主题对于观点语句的支持度，然后综合网页可信度和观点语句支持度得到观点语句的可信度，最后通过对隶属于给定观点类的所有观点语句的可信度进行求和，计算得到该话题观点类的观点强度，方便用户定量地了解围绕话题的不同观点的观点强度大小，区分主要观点和次要观点，有选择地去了解不同观点的细节信息；

假设围绕某话题的观点共分为n类，由这n个观点类所构成的集合记为VCS＝{VC₁,VC₂,VC₃,...,VC_n}，其中任一观点类VC_i，VC_i∈VCS，包含C_i个观点语句，即