CN104077377B - 基于网络文章属性的网络舆情热点发现方法和装置 - Google Patents

基于网络文章属性的网络舆情热点发现方法和装置 Download PDF

Info

Publication number
CN104077377B
CN104077377B CN201410290240.XA CN201410290240A CN104077377B CN 104077377 B CN104077377 B CN 104077377B CN 201410290240 A CN201410290240 A CN 201410290240A CN 104077377 B CN104077377 B CN 104077377B
Authority
CN
China
Prior art keywords
web documents
weight
network public
public
opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410290240.XA
Other languages
English (en)
Other versions
CN104077377A (zh
Inventor
屈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd
Original Assignee
Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd filed Critical Poly-Letter Of Red Wheat (beijing) Software Engineering Co Ltd
Priority to CN201410290240.XA priority Critical patent/CN104077377B/zh
Publication of CN104077377A publication Critical patent/CN104077377A/zh
Application granted granted Critical
Publication of CN104077377B publication Critical patent/CN104077377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于网络文章属性的网络舆情热点发现方法和装置。该方法主要包括:通过定向采集和搜索引擎采集相互结合的方式采集网络文章,根据网络文章的多种参数信息计算各个网络文章的权重值,根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析。本发明实施例能够快速、及时地发现网络舆情热点。通过先对网络文章进行垃圾信息过滤、去重等预处理,再基于网站文章的多种参数属性判断网络文章的价值高低,提高网络舆情热点发现的准确度。

Description

基于网络文章属性的网络舆情热点发现方法和装置
技术领域
本发明涉及网络舆情技术领域,尤其涉及一种基于网络文章属性的网络舆情热点发现方法和装置。
背景技术
网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
目前,现有技术中的一种基于聚类的网络舆情热点发现方法主要包括:通过对样本网页文本的特征提取,构建向量空间模型,使用OPTICS算法获取网页热点簇,根据热点簇特征向量对网页进行二次聚类,从而获取关于舆情的时间演变模式,为相关领域研究提供决策支持。然后,通过二次聚类,提高舆情网页相关度的质量。
上述现有技术中的基于聚类的网络舆情热点发现方法的缺点为:该方法基于聚类,大量相关信息出现以后才能发现网络舆情热点,造成了网络舆情热点发现不及时的问题;网络上存在海量信息有大部分的是垃圾信息,该方法往往将很多出现频率高的垃圾信息判断为热点舆情信息,造成了网络舆情热点发现准确度低的问题。
发明内容
本发明的实施例提供了一种基于网络文章属性的网络舆情热点发现方法和装置,以提高网络舆情热点的发现速度和准确率。
本发明提供了如下方案:
一种基于网络文章属性的网络舆情热点发现方法,包括:
通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
根据网络文章的多种参数信息计算各个网络文章的权重值;
根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析。
所述的通过定向采集和搜索引擎采集相互结合的方式采集网络文章包括:
自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量可以为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
所述的方法还包括:
针对每个搜索关键词分别设置匹配条件、针对网站和站点类型、权重值、匹配类型、针对网站、站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
所述的根据网络文章的多种参数信息计算各个网络文章的权重值包括:
网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)
回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))))
所述的根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点包括:
利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;
所述的对判断出的网络舆情热点进行属性分析包括:
设置用于对网络舆情热点进行情感分析的情感值,所述情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:
网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
一种基于网络文章属性的网络舆情热点发现装置,包括:
网络文章采集模块,用于通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
文章权重值计算模块,用于根据网络文章的多种参数信息计算各个网络文章的权重值;
网络舆情热点判断模块,用于根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点;
网络舆情热点分析模块,用于对判断出的网络舆情热点进行属性分析。
所述的网络文章采集模块包括:
定向采集模块,用于自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现全面的定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量可以为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
搜索引擎采集模块,用于设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
存储处理模块,用于将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
所述的定向采集模块,还用于针对每个搜索关键词分别设置匹配条件、针对网站和站点类型、权重值、匹配类型、针对网站、站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
所述的文章权重值计算模块,具体用于设定网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)
回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))))
所述的网络舆情热点判断模块,具体用于利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;
所述的网络舆情热点分析模块,具体用于设置作为对网络舆情热点进行情感分析的情感值,所述情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:
网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过根据网络文章的多种参数信息计算出网络文章的权重值,再根据网络文章的权重值判断网络文章是否为网络舆情热点,能够快速、及时地发现网络舆情热点。通过先对网络文章进行垃圾信息过滤、去重等预处理,再基于网站文章的多种参数属性判断网络文章的价值高低,提高网络舆情热点发现的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种基于网络文章属性的网络舆情热点发现方法的处理流程图;
图2为本发明实施例一提供的一种针对每个关键词分别确定匹配条件、针对网站、站点类型、权重值、匹配类型、针对网站、站点列表信息的示意图;
图3为本发明实施例二提供的一种基于网络文章属性的网络舆情热点发现装置的具体实现结构图。
具体实施方式
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
实施例一
本发明实施例基于网站文章的权重值等属性信息判断、发现网络舆情热点,并对网络舆情热点进行情感分析,能够极大的提高网络热点舆情发现的速度、准确度。
该实施例提供了一种基于网络文章属性的网络舆情热点发现方法的处理流程如图1所示,包括如下的处理步骤:
步骤S110、通过定向采集和搜索引擎采集相互结合的方式采集网络文章。
在本发明实施例中,用户可自定义监测网站、监测站点及监测关键词,监测站点的范围可以包括:新闻、论坛、微博、贴吧、博客、视频、报刊杂志等。比如,在本发明的一个实施例中,收录有7000个监测网站,包含站点数约为15万个站点。然后,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现全面的定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章。同时支持对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数的抓取。
如图2所示,本发明实施例可以针对每个关键词分别设置匹配条件、针对网站、站点类型、权重值、匹配类型、针对网站、站点列表等信息,上述匹配条件可以为包含全部字符或者包含任一字符等,上述匹配类型可以为匹配标题、匹配标题或者内容、匹配内容等。
本发明实施例还将各个站点划分成不同的级别,针对每个级别的站点分别设定抓取频率列表,该抓取频率列表可以包括多个抓取频率,每个抓取频率对应相应的抓取时间。系统对不同级别的站点分别设置不同的抓取频率列表,另外站点级别是文章信息权重的重要依据。
上述数据采集服务器的数量可以为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式,服务器集群中空闲的服务器向调度服务器请求采集任务,调度服务器会分配任务给请求服务器,如果当前采集服务器已领取的任务已经完成,则可以重新向调度服务器领取其他采集任务,充分利用服务器资源。
由于数据采集服务器使用集群模式,集群中每台数据采集服务器独立运行,所以如果某台数据采集服务器出现故障,不会影响整个系统运行。当采集数据量过大,或对数据采集实效性要求增高,还可以在服务器集群中增加采集节点来扩展系统采集能力。
本发明实施例设置了元搜索引擎,元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成。将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章,本发明实施例能够采集不少于10个主流搜索引擎中的网络文章,包括新闻搜索、论坛搜索、博客搜索、网页搜索等。如百度、谷歌、搜搜、必应、搜狗、即刻、盘古、有道、爱问、奇虎、中搜等,将搜索到的网络文章作为上述定向抓取的网络文章的补充。
然后,将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章进行存储。
步骤S120、对采集的网络文章进行垃圾信息过滤、信息提取、去重等预处理。
首先,对网络文章进行垃圾信息过滤处理,采用基于机器学习的垃圾过滤方法自动过滤掉网络文章中的广告、水贴等无效垃圾信息。
采用自主知识产权的HTML(HyperText Markup Language,超文本标记语言)网页内容自动萃取方法提取任意网络文章中的标题、正文内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息。上述网页内容自动萃取方法采用基于文本密度的段落结构分析技术,计算网络文章中的各个HTML DOM(DocumentObject Model,文档对象模型)节点的文本密度,将计算得到的文本密度分别和预先设定的标题、正文内容、作者、发布时间等信息的文本密度进行匹配,匹配成功,则确定HTML DOM节点的文本为相应的标题、正文内容、作者或者发布时间等信息。比如,HTML DOM节点的文本密度与预先设定的标题的文本密度匹配,则确定HTML DOM节点的文本为标题。
除了上述网页内容自动萃取方法之外,系统还可以针对指定的网站、站点配置特定的内容提取规则,利用该特定的内容提取规则对来自指定的网站、站点的网络文章进行标题、正文内容、作者、发布时间等信息提取。在本发明的一个实施例中,针对主流的论坛和博客内置了近50种规则,当系统内置的规则不能满足需求时,还可以通过系统后台自行配置内容提取规则,
然后,对网络文章进行智能去重处理,采用设定的文章相似性计算算法计算垃圾信息过滤后的网络文章的两两之间的相似度,根据相似度确定两个网络文章是否重复、去重的级别。在实际应用中,根据不同的需要特点可以对网络文章进行URL(Uniform ResoureLocator,统一资源定位器)去重、标题去重和全文去重三种去重处理。
当进行URL去重时,当两个网络文章的URL完全相同,即判定为两篇网络文章URL重复。
当进行标题去重时,当两个网络文章的标题之间的相似度不低于设定标题判断阈值(比如,70%),即判定为两篇网络的标题重复。
当进行全文去重时,当两个网络文章的标题相似度不低于设定的标题判断阈值(比如,70%),并且正文内容相似度不低于设定的正文判断阈值(比如,70%),即判定为两篇网络文章重复,即两篇文章说的是同一件事。
对重复的网络文章进行去重处理,即在重复的两个或多个网络文章中保留一个网络文章,删除掉其他的网络文章。
对去重处理后的各个网络文章进行存储,对于每个经过去重处理的网络文章,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看被删除的文章或帖子。
步骤S130、根据网络文章的多种参数信息计算各个网络文章的权重值。
文章权重是指网络文章的重要性,本发明实施例综合文章的浏览次数、回复次数、出现网站的级别和位置(重点网站和普通网站权重不同)、主题相关度、危机程度、传播数量以及用户自定义规则等参数等属性来计算文章的重要性。
本发明实施例的文章权重的算法因素包括:
1、报表来源站点和网站(站点,网站,重点关注)
2、报表的点击数回复数
3、报表的正负性(正负性和用户设置的负面关键词)
4、文章正文的长度以及关键词出现的密度
5、关键词是否在标题中出现
网络文章权重值的算法公式为:
网络文章权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)
回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))))
本发明实施例将网络文章权重值分为5个级别选项,从级别1到级别5,其中级别5的文章权重为最高。网络文章权重值的默认值为级别1。具体说明如下详释:
级别1:网络文章权重值小于1的;级别2:网络文章权重值在1-2.8之间的(包含1);级别3:网络文章权重值在2.8-4.8之间的(包含2.8);级别4:网络文章权重值在4.8-6之间的(包含4.8);级别5:重点关注的和网络文章权重值在6以上的(含6)。
步骤S140、根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对作为网络舆情热点的网络文章进行情感分析等属性分析。
本发明实施例需要利用基于自然语言处理技术的训练系统确定舆情热点判断阈值。将上述计算出的每个网络文章权重值和上述舆情热点判断阈值进行比较,当某个网络文章权重值大于上述舆情热点判断阈值,则确定上述某个网络文章为网络舆情热点;否则,则确定上述某个网络文章不是网络舆情热点。
然后,对作为网络舆情热点的网络文章进行情感分析等属性分析,该属性分析包括:网络文章分类、传播轨迹分析、情感分析、相似文章聚类等处理。
本发明实施例将基于学习的自动分类与基于自定义规则的自动分类有机地结合起来,对作为网络舆情热点的网络文章进行分类。在基于学习的自动分类方面采用文档向量空间模型与分类算法的概率统计模型。该分类方法可以实现对新闻、论坛、博客等内容的自动分类,大大减少手工劳动的工作量,提高网络舆情热点处理的准确性。比如,在本发明的一个实施例中,将针对万达集团的海量的网络舆情热点,划分为品牌动态、高层动态、万商会、商业地产、高级酒店、文化产业等信息单元,实现信息科学分类以及方便万达集团从海量信息及时找到自身所关注的信息。
网络文章的情感训练分析原理为依据情感判定算法,抽取语料库进行信息对比测试,并逐渐磨合算法中参数的浮动范围以及找出其负面关键词,统计客户、行业关键词库。从而达到情感训练的目的,完成信息正负面的判定。本发明实施例将管理员或者客服人员在后台情感训练模块中设置的情感词作为对网络舆情热点进行情感分析的情感值。上述情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重。
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较,根据比较结果确定网络舆情热点为正面或者中立或者负面。
当网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<当网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
当网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
比如,当情感值>=7,则为正面的网络舆情热点
-7<情感值<7,则为中立的网络舆情热点
情感值<-7,则为负面的网络舆情热点
实施例二
该实施例提供了一种基于网络文章属性的网络舆情热点发现装置,其具体实现结构如图3所示,具体可以包括如下的模块:
网络文章采集模块31,用于通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
文章权重值计算模块33,用于根据网络文章的多种参数信息计算各个网络文章的权重值;
网络舆情热点判断模块34,用于根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点;
网络舆情热点分析模块35,用于对判断出的网络舆情热点进行属性分析。
进一步地,所述的网络文章采集模块31包括:
定向采集模块311,用于自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现全面的定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量可以为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
搜索引擎采集模块312,用于设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
存储处理模块313,用于将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
进一步地,所述的定向采集模块311,还用于针对每个搜索关键词分别设置匹配条件、针对网站和站点类型、权重值、匹配类型、针对网站、站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
进一步地,所述的装置还包括:
网络文章预处理模块32,用于采用基于机器学习的垃圾过滤方法过滤掉采集的网络文章中的无效垃圾信息;
采用特定的内容提取规则或者采用HTML网页内容自动萃取方法提取任意网络文章中的标题、正文内容、作者、发布时间信息;
采用设定的文章相似性计算算法计算网络文章的两两之间的相似度,根据相似度确定两个网络文章是否重复,对重复的网络文章进行去重处理。
进一步地,所述的网络文章预处理模块32,还用于计算网络文章中的各个HTMLDOM节点的文本密度,将计算得到的文本密度分别和预先设定的标题、正文内容、作者、发布时间信息的文本密度进行匹配,匹配成功,则确定HTML DOM节点的文本为相应的标题、正文内容、作者或者发布时间信息。
进一步地,所述的文章权重值计算模块33,具体用于设定网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
点击数权重=(点击数>0)?(10-10/(点击数+0.1)开4次方)
回复数权重=(回复数>0)?(10-10/(回复数+0.1)开3次方)
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))))
进一步地,所述的网络舆情热点判断模块34,具体用于利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点。
进一步地,所述的网络舆情热点分析模块35,具体用于设置作为对网络舆情热点进行情感分析的情感值,所述情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用、行业关键词权重×标题出现权重+通用、行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:
网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
用本发明实施例的装置进行基于网络文章属性的网络舆情热点发现的具体过程与前述方法实施例类似,此处不再赘述。
综上所述,本发明实施例通过根据网络文章的多种参数信息计算出网络文章的权重值,再根据网络文章的权重值判断网络文章是否为网络舆情热点,能够在网络舆情热点出现初期立即发现网络舆情热点,能够快速、及时地发现网络舆情热点。
本发明实施例通过先对网络文章进行垃圾信息过滤、去重等预处理,再基于网站文章的多种参数属性判断网络文章的价值高低,从而事先自动过滤掉没有价值的网站文章,提高网络舆情热点发现的准确度。
本发明实施例通过对网络舆情热点进行情感分析等属性分析,可以准确地区分出正面、中立或者负面的网络舆情热点,可以为后续进行网络舆情热点预警、生成网络舆情热点报告等操作提供基础。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于网络文章属性的网络舆情热点发现方法,其特征在于,包括:
通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
根据网络文章的多种参数信息计算各个网络文章的权重值;
根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点,对判断出的网络舆情热点进行属性分析;
所述的根据网络文章的多种参数信息计算各个网络文章的权重值包括:
网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?-4:(文章长度<500?0:(文本密度))));
所述的根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点包括:
利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;
所述的对判断出的网络舆情热点进行属性分析包括:
设置用于对网络舆情热点进行情感分析的情感值,情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用关键词权重或行业关键词权重×标题出现权重+通用关键词权重或行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:
网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
2.根据权利要求1所述的基于网络文章属性的网络舆情热点发现方法,其特征在于,所述的通过定向采集和搜索引擎采集相互结合的方式采集网络文章包括:
自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
3.根据权利要求2所述的基于网络文章属性的网络舆情热点发现方法,其特征在于,所述的方法还包括:
针对每个搜索关键词分别设置匹配条件、站点类型、权重值、匹配类型和站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
4.一种基于网络文章属性的网络舆情热点发现装置,其特征在于,包括:
网络文章采集模块,用于通过定向采集和搜索引擎采集相互结合的方式采集网络文章;
文章权重值计算模块,用于根据网络文章的多种参数信息计算各个网络文章的权重值;
网络舆情热点判断模块,用于根据网络文章的权重值和预先设定的舆情热点判断阈值判断网络文章是否为网络舆情热点;
网络舆情热点分析模块,用于对判断出的网络舆情热点进行属性分析;
所述的文章权重值计算模块,具体用于设定网络文章的权重值的算法公式为:
网络文章的权重值=站点权重*0.6+点击数、回复数权重*0.1+情感权重*0.2+标题出现权重*0.1+文章长度权重*0.1
站点权重=人工配置站点时所设置
点击数、回复数权重=(点击数权重+回复数权重)/2
标题出现权重=标题出现次数>2?10:(标题出现次数==2?8:(标题出现次数==1?5:0))
文章长度权重=文章长度<100?-10:(文章长度<200?-7:(文章长度<300?
-4:(文章长度<500?0:(文本密度))));
所述的网络舆情热点判断模块,具体用于利用基于自然语言处理技术的训练系统确定舆情热点判断阈值,将计算出的每个网络文章的权重值和所述舆情热点判断阈值进行比较,当某个网络文章的权重值大于所述舆情热点判断阈值,则确定所述某个网络文章为网络舆情热点;否则,则确定所述某个网络文章不是网络舆情热点;
所述的网络舆情热点分析模块,具体用于设置作为对网络舆情热点进行情感分析的情感值,情感词分成通用关键词、行业关键词、客户特定关键词三类,通用关键词的属性为正性,行业关键词的属性为负性,客户特定关键词的属性为中性,每个类别的情感词分别对应一定的权重;
网络舆情热点的情感值的计算公式如下:
其中,A=客户特定关键词权重×标题出现权重+客户特定关键词权重,
C=通用关键词权重或行业关键词权重×标题出现权重+通用关键词权重或行业关键词权重
将计算得到的网络舆情热点的情感值和预先设定的正整数的舆情情感判断阈值进行比较:
网络舆情热点的情感值>=舆情情感判断阈值时,则确定网络舆情热点为正面的网络舆情热点;
-舆情情感判断阈值<网络舆情热点的情感值<舆情情感判断阈值时,则确定网络舆情热点为中立的网络舆情热点;
网络舆情热点的情感值=<-舆情情感判断阈值时,则确定网络舆情热点为负面的网络舆情热点。
5.根据权利要求4所述的基于网络文章属性的网络舆情热点发现装置,其特征在于,所述的网络文章采集模块包括:
定向采集模块,用于自定义监测网站、监测站点及搜索关键词,通过数据采集服务器中设置的网页爬虫工具对监测网站、站点实现全面的定向的网络文章抓取,将定向抓取的网络文章进行格式化处理,得到格式化后的网络文章;所述数据采集服务器的数量为多个,多个数据采集服务器组成服务器集群,服务器集群采用队列调度模式;
搜索引擎采集模块,用于设置元搜索引擎,该元搜索引擎是一个具有双层客户机/服务器机构的系统,由搜索请求提交、搜索接口代理、搜索结果显示3部分组成,将所述元搜索引擎和多个主流搜索引擎进行对接,根据用户设置的搜索关键词通过利用元搜索引擎采集所述多个主流搜索引擎中的网络文章;
存储处理模块,用于将所有元搜索引擎搜索到的、网页爬虫工具定向抓取的网络文章数据进行存储。
6.根据权利要求5所述的基于网络文章属性的网络舆情热点发现装置,其特征在于:
所述的定向采集模块,还用于针对每个搜索关键词分别设置匹配条件、站点类型、权重值、匹配类型和站点列表,所述匹配条件为包含全部字符或者包含任一字符,所述匹配类型为匹配标题、匹配标题和内容或者匹配内容;
将各个站点划分成不同的级别,针对每个级别的站点分别设定对应的抓取频率列表,该抓取频率列表包括多个抓取频率,每个抓取频率对应相应的抓取时间。
CN201410290240.XA 2014-06-25 2014-06-25 基于网络文章属性的网络舆情热点发现方法和装置 Active CN104077377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410290240.XA CN104077377B (zh) 2014-06-25 2014-06-25 基于网络文章属性的网络舆情热点发现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410290240.XA CN104077377B (zh) 2014-06-25 2014-06-25 基于网络文章属性的网络舆情热点发现方法和装置

Publications (2)

Publication Number Publication Date
CN104077377A CN104077377A (zh) 2014-10-01
CN104077377B true CN104077377B (zh) 2018-02-23

Family

ID=51598631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410290240.XA Active CN104077377B (zh) 2014-06-25 2014-06-25 基于网络文章属性的网络舆情热点发现方法和装置

Country Status (1)

Country Link
CN (1) CN104077377B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794161A (zh) * 2015-03-24 2015-07-22 浪潮集团有限公司 对网络舆情监控的方法
CN107193828B (zh) * 2016-03-14 2021-08-24 百度在线网络技术(北京)有限公司 小说网页抓取方法和装置
CN106202048A (zh) * 2016-07-15 2016-12-07 合肥指南针电子科技有限责任公司 一种舆情监测系统
CN106302455A (zh) * 2016-08-16 2017-01-04 成都鼎昊科技有限公司 一种网络安全防护方法
CN106383905A (zh) * 2016-09-30 2017-02-08 南京索酷信息科技股份有限公司 一种智慧养老大数据舆情网路监控的方法及装置
CN106570171B (zh) * 2016-11-03 2020-11-20 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN106886916A (zh) * 2017-01-20 2017-06-23 电通公共关系顾问(北京)有限公司 声誉管理系统及方法
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107293309B (zh) * 2017-05-19 2021-04-30 四川新网银行股份有限公司 一种基于客户情绪分析提升舆情监控效率的方法
CN107967364B (zh) * 2017-12-22 2021-11-23 新华网股份有限公司 网络文章传播力评估方法及装置
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN109255015A (zh) * 2018-06-29 2019-01-22 中译语通科技股份有限公司 一种评价热点事件价值度的方法
CN109376231A (zh) * 2018-09-29 2019-02-22 杭州凡闻科技有限公司 一种媒体热点跟踪方法及系统
CN109992656A (zh) * 2018-11-15 2019-07-09 厦门笨鸟电子商务有限公司 一种在社交媒体上发布的具有高关注度内容的机器撰写系统和方法
CN109992720A (zh) * 2018-11-15 2019-07-09 厦门笨鸟电子商务有限公司 一种提升用户撰写内容在社交媒体上的关注度的系统和方法
CN109783815B (zh) * 2018-12-28 2020-10-23 华南理工大学 一种多维度网络舆情大数据对比分析方法
CN110569406B (zh) * 2019-07-25 2022-04-19 北京明朝万达科技股份有限公司 可配置化的热点数据自动分析方法、装置、系统及介质
CN112528114A (zh) * 2019-09-17 2021-03-19 北京国双科技有限公司 一种文章去重方法、装置、设备及存储介质
CN111125561A (zh) * 2019-11-28 2020-05-08 泰康保险集团股份有限公司 一种网络热度的展示方法及装置
CN111046264B (zh) * 2019-11-29 2023-07-21 江西省天轴通讯有限公司 舆情线索处理方法、系统、可读存储介质及计算机设备
CN111984786A (zh) * 2020-08-17 2020-11-24 深圳新闻网传媒股份有限公司 一种基于新闻信息的智能吹哨预警方法及服务器
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质
CN116401435B (zh) * 2023-02-22 2023-11-10 北京麦克斯泰科技有限公司 一种日活跃栏目热度计算及调度方法和装置
CN116821502B (zh) * 2023-06-30 2024-03-08 武汉大学 一种基于舆情热点的数据管理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN102270240A (zh) * 2011-08-15 2011-12-07 哈尔滨工业大学 网络论坛中热点发现及其演化态势分析方法
CN103607407A (zh) * 2013-12-02 2014-02-26 中国联合网络通信集团有限公司 一种移动互联网热点业务的发现方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477556A (zh) * 2009-01-22 2009-07-08 苏州智讯科技有限公司 一种从互联网海量信息中发现热点的方法
CN102270240A (zh) * 2011-08-15 2011-12-07 哈尔滨工业大学 网络论坛中热点发现及其演化态势分析方法
CN103607407A (zh) * 2013-12-02 2014-02-26 中国联合网络通信集团有限公司 一种移动互联网热点业务的发现方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BBS的热点话题发现与态势预测技术的研究;卢珺珈等;《智能计算机与应用》;20120430;第2卷(第2期);第1-5页 *
面向BBS的话题挖掘初探;邱立坤等;《全国计算语言学联合学术会议》;20051231;第401-407页 *

Also Published As

Publication number Publication date
CN104077377A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104077377B (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US7577643B2 (en) Key phrase extraction from query logs
Agre et al. Keyword focused web crawler
KR20100084510A (ko) 전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치
CN106599022A (zh) 基于用户访问数据的用户画像形成方法
Ishikawa et al. Hot topic detection in local areas using Twitter and Wikipedia
CN110543595B (zh) 一种站内搜索系统及方法
CN110705288A (zh) 一种基于大数据的舆情分析系统
CN102855282B (zh) 一种文档推荐方法及装置
CN106294588A (zh) 快速搜索所要查询内容的方法及装置
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
Hati et al. Adaptive focused crawling based on link analysis
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN112256861A (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
Najadat et al. Automatic keyphrase extractor from arabic documents
Hati et al. Unvisited URL relevancy calculation in focused crawling based on Naïve Bayesian classification
Moumtzidou et al. Discovery of environmental nodes in the web
Antunes et al. Semantic features for context organization
JP2020113267A (ja) リーディングリストを生成するシステム及び方法
Pesaranghader et al. Applying semantic similarity measures to enhance topic-specific web crawling
Yang et al. Detecting tag spams for social bookmarking Websites using a text mining approach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant