CN106649433B - 基于观点语句可信度的话题观点强度计算方法 - Google Patents
基于观点语句可信度的话题观点强度计算方法 Download PDFInfo
- Publication number
- CN106649433B CN106649433B CN201610802312.3A CN201610802312A CN106649433B CN 106649433 B CN106649433 B CN 106649433B CN 201610802312 A CN201610802312 A CN 201610802312A CN 106649433 B CN106649433 B CN 106649433B
- Authority
- CN
- China
- Prior art keywords
- web page
- viewpoint
- topic
- statement
- credibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于观点语句可信度的话题观点强度计算方法。该方法综合考虑了网页的可信度和网页对话题观点语句的支持程度,结合这两方面因素计算出话题观点类中每一个观点语句的可信度,最后通过对多个观点语句的可信度求和,得到每一个话题观点类的强度值。本发明能够帮助用户定量地了解不同观点的观点强度,区分主要观点和次要观点,揭示话题不同观点的细节。
Description
技术领域
本发明涉及一种基于观点语句可信度的话题观点强度计算方法,用于量化表征互联网中与话题有关观点的强度,属于互联网与信息技术领域。
背景技术
随着网络技术的飞速发展,互联网日益成为人们获取信息和日常娱乐的主要途径。在日常的学习和生活中,人们越来越依赖于从互联网中获取知识、掌握时事,越来越需要借助互联网了解围绕某一热点话题的不同观点。在互联网中,网页是最常见的信息载体,也是联系信息和网民的纽带。然而,由于互联网中的网页数量众多,每个人的精力相对有限,因此受时间和精力等因素制约,人们往往无法深入了解围绕某一话题的所有观点的细节。现有的话题检测与跟踪(Topic Detection and Tracking)技术,多侧重于对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪等方面,还少有专门针对话题的不同观点进行话题观点强度计算方面的有效方法。
如果可以区分不同的话题观点,借助适宜的方法计算这些观点强度,并通过观点强度来揭示大众观点和小众观点,人们就能够更加迅速在了解和勾勒出话题的全貌,并可以进一步根据自己的兴趣偏好,有选择性地了解话题不同观点的观点细节。例如,当人们在搜索某个热点事件的时候,通常受时间和精力的限制只能够阅读少数几个或者几十个网页,这样就难以通过有限的网页了解该热点事件的所有观点及每一观点的支持比例。但是,如果可以根据与话题有关的网页进行自动分析计算,进而获得围绕该话题的不同观点及其观点强度,则可以方便人们快速、理性地认识事件的主流观点与看法。因此,亟需设计一种能对网页进行自动处理的话题观点强度计算方法,定量地计算话题不同观点的观点强度,既能呈现话题的全貌,又能展示话题不同观点的细节。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供了一种基于观点语句可信度的话题观点强度计算方法,该方法能够计算话题不同观点的观点强度,方便用户定量地了解围绕话题的不同观点的观点强度大小,区分主要观点和次要观点,有选择地去了解不同观点的细节信息。
技术方案:一种基于观点语句可信度的话题观点强度计算方法,先通过网页的多个关键属性计算出网页的可信程度(简称网页可信度),接着通过计算网页中观点语句(包含有观点的语句)和网页主题的关联性,获得网页主题(主要是标题和关键词)对于观点语句的支持度,然后综合网页可信度和观点语句支持度得到观点语句的可信度,最后通过对隶属于给定观点类的所有观点语句的可信度进行求和,计算得到该话题观点类的观点强度。
假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即上述n个观点类中的所有观点语句来源于m(≥1)个网页,这m个网页所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk(dk∈VCD)包含Dk(≥1)个观点语句,这Dk个观点语句构成网页dk的观点语句集合则话题观点类VCi的观点强度计算主要分为三个步骤,具体如下:
步骤1:网页可信度计算。对m个网页中的每一个网页dk(dk∈VCD),综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,计算出网页dk的网页可信度;
步骤2:观点语句支持度计算。对于VCi中任一观点语句(即),不失一般性,假定满足则首先采用余弦相似度计算方法,计算观点语句和网页dk的标题间的相似度;接着,采用余弦相似度计算方法,计算观点语句和网页dk的关键词间的相似度;最后,在前述两种相似度中,选择取值较大的相似度,作为网页dk对观点语句的支持度;
步骤3:话题观点强度值计算。综合步骤1得到的网页dk的网页可信度,以及步骤2得到的网页dk对观点语句的支持度,获得观点类VCi中任一观点语句的可信度。最后,通过对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点的强度值。
有益效果:本发明与现有技术相比,具有以下优点:
1.通过观点语句支持度表征观点语句和网页主题的关系,并从观点语句和网页标题之间的相似度以及观点语句和网页关键词之间的相似度两个方面,更加合理地刻画网页主题对观点语句的支持程度;
2.给出了话题观点强度的量化计算方法,综合考虑了网页的可信度和网页对话题观点语句的支持程度,能够帮助用户定量地了解话题不同观点的观点强度,区分主要观点和次要观点,加深对话题观点的细节认识。
附图说明
图1为基于观点语句可信度的话题观点强度计算流程;
图2为话题观点类、观点语句和来源网页的对应关系示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明主要根据观点语句可信度对话题观点强度进行计算,具体计算流程如图1所示,包括三个步骤:网页可信度计算、观点语句支持度计算和观点强度值计算阶段。假设围绕某话题的观点共分为n(≥1)类,由这n个观点类所构成的集合记为VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi(VCi∈VCS)包含Ci(≥1)个观点语句,即上述n个观点类中的所有观点语句来源于m(≥1)个网页,这m个网页所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk(dk∈VCD)包含Dk(≥1)个观点语句,这Dk个观点语句构成网页dk的观点语句集合话题观点类、观点语句和来源网页之间的关系如图2所示。
不失一般性,下面对任一话题观点类VCi(VCi∈VCS)的观点强度进行计算,具体三个实施步骤如下:
步骤1:网页可信度计算。对于网页集合VCD中的每一个网页dk(dk∈VCD),综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,采用公式(1)计算出网页dk的网页可信度DRW(dk);
DRW(dk)=λ1NPR(dk)+λ2NTR(dk)+λ3T(dk) 公式(1)
公式(1)中的3个系数λ1、λ2和λ3满足:在本发明中,取λ1=0.8,λ2=0.1,λ3=0.1。NPR(dk)表示网页dk的NPR因子,NTR(dk)表示网页dk的NTR因子,T(dk)表示网页dk的时间因子。这三个因子的计算方法如下:
网页dk的NPR因子计算基于Google搜索引擎所采用的链接分析算法PageRank,该算法为用户的浏览行为建立了一个随机访问模型:当用户访问一个网页的时候,或者以概率g沿着超链接进行访问,或者以概率(1-g)从一个新的页面开始访问。而一个页面被访问的概率,主要取决于链接到这个页面的页面访问概率。如果一个页面的入链越多,或者入链的PR值(即PageRank值)越高,则该网页的PR值越高。网页的PR值的取值范围为PR∈[0,10),对网页的PR值进行归一化处理,可以得到该网页的NPR(New PageRank)值。因此,网页dk的NPR因子的计算如公式(2)所示,其中PR(dk)表示网页dk的PageRank值(即PR值):
网页dk的NTR因子计算基于垃圾网站检测算法TrustRank,该算法为每个网站计算一个TR值,该值的高低与网站是垃圾网站的概率大小有关。TrustRank算法首先挑选出一定数量的“种子”网站,并赋予这些“种子”网站很高的TR值;这些“种子”网站链接出的网站的TR值稍微降低,但仍旧很高;类似地,第二层权威网站链接向第三层权威网站,则第三层权威网站的TR值比第二层权威网站的TR值又稍微降低。那么,TR值与第一层权威网站相差较大的网站有很大的可能性是垃圾网站。本发明对TrustRank算法进行简化处理,假定AP是权威专业网站的集合(包括域名为edu、org、以及挑选出的其他权威网站,如新华网、人民网、科学网、知乎等),当网页属于AP时,其NTR值设为α(在本发明中α的值取1);否则,该网页的NTR值设为0。则网页dk的NTR因子的计算如公式(3)所示:
网页dk的时间因子基于这样的考虑:网页的可信度高低,与网页的发布时间有密切的关系。对于同样的信息,发布时间较晚的网页,搜集到的资料更加丰富和全面,自然更加能够反应事物的本质信息。所以,发布时间较晚的网页具有更高的可信度,相对应地,应该为发布时间较晚的网页设置更高的可信度权重。网页dk的时间因子计算如公式(4)所示:
其中,td表示网页dk的最后修改时间,而tmax表示集合VCD中修改时间最晚的网页的修改时间。
步骤2:观点语句支持度计算。本发明使用网页标题和网页关键词来表征网页的主题,网页标题可以通过对网页源码的<title>标签获得,而网页关键词则通过对网页正文用TF-IDF算法得到。假设为VCi中的任一观点语句(即),且满足网页dk的标题经过分词、去停用词之后,所得的词语集合记为取网页dk的所有关键词构成集合而观点语句经过分词、去停用词之后,所得的词语集合记为并且令
下面示例利用余弦相似度计算方法,计算观点语句和网页dk的标题之间的相似度的过程,观点语句和网页dk的关键词之间的相似度的计算过程与此类似。首先,计算网页dk的标题词语集合W1相对于词语集合WTS的词语向量其中元素的取值满足公式(5):
然后,利用公式(7)计算VT1和VS1之间的余弦相似度:
然后,采用公式(10)对观点类VCi中的所有观点语句的可信度进行求和,计算得到话题观点类VCi的强度值:
Claims (5)
1.一种基于观点语句可信度的话题观点强度计算方法,其特征在于:首先通过网页的多个关键属性计算出网页的可信程度,接着通过计算网页中观点语句和网页主题的关联性,获得网页主题对于观点语句的支持度,然后综合网页可信度和观点语句支持度得到观点语句的可信度,最后通过对隶属于给定观点类的所有观点语句的可信度进行求和,计算得到该话题观点类的观点强度,方便用户定量地了解围绕话题的不同观点的观点强度大小,区分主要观点和次要观点,有选择地去了解不同观点的细节信息;
假设围绕某话题的观点共分为n类,由这n个观点类所构成的集合记为VCS={VC1,VC2,VC3,...,VCn},其中任一观点类VCi,VCi∈VCS,包含Ci个观点语句,即上述n个观点类中的所有观点语句来源于m个网页,这m个网页所构成的集合记为VCD={d1,d2,d3,...,dm},其中任一网页dk,dk∈VCD,包含Dk个观点语句,这Dk个观点语句构成网页dk的观点语句集合则
网页可信度计算;对m个网页中的每一个网页dk,dk∈VCD,综合考虑网页dk的多个关键属性,主要包括网页dk的NPR因子、网页dk的NTR因子、以及网页dk的时间因子,计算出网页dk的网页可信度;
观点语句支持度计算:使用网页标题和网页关键词来表征网页的主题,网页标题通过对网页源码的<title>标签获得,而网页关键词则通过对网页正文用TF-IDF算法得到;假设为VCi中的任一观点语句,且满足网页dk的标题经过分词、去停用词之后,所得的词语集合记为取网页dk的所有关键词构成集合而观点语句经过分词、去停用词之后,所得的词语集合记为并且令
利用余弦相似度计算方法,计算观点语句和网页dk的标题之间的相似度,以及观点语句和网页dk的关键词之间的相似度;首先,计算网页dk的标题词语集合W1相对于词语集合WTS的词语向量其中元素的取值满足公式(5):
然后,利用公式(7)计算VT1和VS1之间的余弦相似度:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610802312.3A CN106649433B (zh) | 2016-09-05 | 2016-09-05 | 基于观点语句可信度的话题观点强度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610802312.3A CN106649433B (zh) | 2016-09-05 | 2016-09-05 | 基于观点语句可信度的话题观点强度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106649433A CN106649433A (zh) | 2017-05-10 |
CN106649433B true CN106649433B (zh) | 2020-08-11 |
Family
ID=58851550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610802312.3A Active CN106649433B (zh) | 2016-09-05 | 2016-09-05 | 基于观点语句可信度的话题观点强度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649433B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN104217026A (zh) * | 2014-09-28 | 2014-12-17 | 福州大学 | 一种基于图模型的中文微博客倾向性检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10867123B2 (en) * | 2009-11-09 | 2020-12-15 | Microsoft Technology Licensing, Llc | Social browsing |
CN101556580A (zh) * | 2009-05-20 | 2009-10-14 | 北京工商大学 | 一种基于篇章结构分析的股评观点分类系统及方法 |
US9135354B2 (en) * | 2010-04-07 | 2015-09-15 | Yahoo! Inc. | Method and system for topical browser history |
CN105447036B (zh) * | 2014-08-29 | 2019-08-16 | 华为技术有限公司 | 一种基于观点挖掘的社交媒体信息可信度评估方法及装置 |
-
2016
- 2016-09-05 CN CN201610802312.3A patent/CN106649433B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778214A (zh) * | 2014-01-16 | 2014-05-07 | 北京理工大学 | 一种基于用户评论的商品属性聚类方法 |
CN104217026A (zh) * | 2014-09-28 | 2014-12-17 | 福州大学 | 一种基于图模型的中文微博客倾向性检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106649433A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Tag‐based social image retrieval: An empirical evaluation | |
US9720904B2 (en) | Generating training data for disambiguation | |
US7519588B2 (en) | Keyword characterization and application | |
Kang et al. | Modeling user interest in social media using news media and wikipedia | |
JP5454357B2 (ja) | 情報処理装置および方法、並びに、プログラム | |
US20090292685A1 (en) | Video search re-ranking via multi-graph propagation | |
Kien et al. | Answering legal questions by learning neural attentive text representation | |
US20150310099A1 (en) | System And Method For Generating Labels To Characterize Message Content | |
US20100205176A1 (en) | Discovering City Landmarks from Online Journals | |
US20150324350A1 (en) | Identifying Content Relationship for Content Copied by a Content Identification Mechanism | |
Li et al. | Entity disambiguation with linkless knowledge bases | |
Mahdabi et al. | The effect of citation analysis on query expansion for patent retrieval | |
Raghav et al. | Text and citations based cluster analysis of legal judgments | |
Bi et al. | Iterative relevance feedback for answer passage retrieval with passage-level semantic match | |
Carta et al. | VSTAR: visual semantic thumbnails and tAgs revitalization | |
Kawase et al. | Exploiting the wisdom of the crowds for characterizing and connecting heterogeneous resources | |
Ma et al. | Social user profiling: A social-aware topic modeling perspective | |
Kravi et al. | One query, many clicks: Analysis of queries with multiple clicks by the same user | |
Bellaachia et al. | Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction | |
Hsu et al. | Efficient and effective prediction of social tags to enhance web search | |
Wasim et al. | Extracting and modeling user interests based on social media | |
US9305103B2 (en) | Method or system for semantic categorization | |
CN106649433B (zh) | 基于观点语句可信度的话题观点强度计算方法 | |
Liebeskind et al. | Text categorization from category name in an industry-motivated scenario | |
Liu et al. | An improved topic detection method for chinese microblog based on incremental clustering. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |