一种网络舆情信息处理方法和装置
技术领域
本发明涉及互联网技术领域,具体涉及一种网络舆情信息处理方法和装置。
背景技术
随着互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。
网络舆情是通过互联网传播的,公众对现实生活某些热点事件所持有的情感、态度、意见、言论或观点,其主要通过新闻评论、论坛BBS、博客Blog、聚合新闻(RSS)等方式实现。由于网络的开放性和虚拟性,导致网络舆情形成迅速,对社会影响巨大。特别是当出现负面的网络舆情时,若不能及时了解、有效引导,很容易形成舆论危机,严重时甚至影响公共安全。因此,如何及时准确的了解网络舆情就成为社会管理部门必须面对和解决的问题。
现有技术200810147645.2,公开了一种网络舆情观点收集方法,通过在网络论坛中提取热点词,根据热点词提取相关的信息文档,构成该热点词相关的热点事件文档集,并对其中的关键句进行聚类,按不同类别建立正负情感词库,然后依据该情感词库对观点主题句集中的关键句的情感词进行情感标记,计算出每个网民在该观点主题下的情感倾向值,得到某一热点事件的网络舆情观点,从而实现了网络舆情观点的收集。
上述现有技术中通过建立正/负情感词库对关键句的情感词进行情感标记,进而判断该关键句的情感倾向值是正面还是负面。但是,在某些汉语句中,仅凭字词很难判断其情感倾向,以情感词“相当”为例:关键句‘他的球踢的相当好’与‘这车油耗相当高’仅依据情感词“相当”所在词库的情感倾向值就无法正确判断关键句的真实情感倾向。而当这样的误判累积到一定程度时,就会造成对网络舆情判断失真。
因此,需要本领域技术人员解决的技术问题是如何提高判断网络舆情信息倾向性的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种网络舆情信息处理方法和装置。
依据本发明的一个方面,提供了一种网络舆情信息处理方法,所述方法包括:
从网络数据源获取网页;
获取网络热词;
将所述网络热词和所述网页对应的文档存储在数据集合中;
从所述数据集合中提取网页文档进行分词;
从所述分词结果中提取单词与预置的标准情感词库匹配,若匹配,则将所述单词作为目标情感词;
从所述分词结果中提取单词与预置的基准情感词库匹配,若匹配,则将所述单词作为基准情感词;
计算所述目标情感词与基准情感词的语义距离;根据所述语义距离判断所述网页文档的情感倾向。
可选的,所述获取网络热词包括:
从网络报文中提取基于搜索引擎提交的搜索关键字;
统计所述搜索请求关键字在预定时间段内被搜索次数作为网络热度;
将所述预定时间段内网络热度超出阈值的搜索请求关键字作为网络热词。
可选的,所述将网络热词和网页存储在数据集合之后还包括:
对数据集合中的网页文档聚类,所述对网页文档聚类包括:
从所述数据集合中提取网页文档;
计算所述网页文档与目标网络热词的关联度;
将关联度超出阈值的网页文档存入所述目标网络热词对应的一类网页集合中;
重复上述步骤直到完成对所有网络热词的聚类;
所述计算网页文档与目标网络热词的关联度其中,XA表示目标网络热词与当前网页A的关联度,a1是目标网络热词在网络数据源D1中基于当前搜索日期所提取的网页A中出现的次数,a2是目标网络热词在网络数据源D1中基于其它日期所提取网页中出现的次数,A1、A2、A3...An分别是目标网络热词在网络数据源D1、D2、D3...Dn对应的网页中出现的总次数。
可选的,还包括:
对所述数据集合中的网页文档按地域信息分组。
可选的,所述计算目标情感词与基准情感词间的语义距离包括:
计算目标情感词w1与基准情感词w2的点互信息PMI(w1,w2)值;
所述语义距离so为所述网页文档中正面基准情感词的PMI合值与负面基准情感词PMI合值的差值;
所述根据语义距离判断所述网页文档的情感倾向包括:
当所述语义距离so值大于1,则所述网页文档的情感倾向为正面;当所述语义距离so值小于1,则所述网页文档的情感倾向为负面;
其中,
语义距离so(w)=∑PMI(w,gword)-∑PMI(w,bword),其中,w为目标情感词,gword为正面基准情感词,bword为负面基准情感词。
依据本发明的另一方面,本发明还提供了一种网络舆情信息处理装置,包括:
网页获取模块,用于从网络数据源获取网页;
网络热词获取模块,用于获取网络热词;
数据集合,用于存储所述网络热词和所述网页对应的文档;
分词模块,用于从所述数据集合中提取网页文档进行分词;
匹配模块,用于从所述分词结果中提取单词与预置的标准情感词库匹配,若匹配,则将所述单词作为目标情感词;
所述分词模块还用于从所述分词结果中提取单词与预置的基准情感词库匹配,若匹配,则将所述单词作为基准情感词;
语义距离计算模块,用于计算所述目标情感词与基准情感词的语义距离;
情感倾向判断模块,用于根据所述语义距离判断所述网页文档的情感倾向。
可选的,所述获取网络热词获取模块还包括:
关键字获取单元,用于从网络报文中提取基于搜索引擎提交的搜索关键字;
网络热度获取单元,用于统计所述搜索关键字在预定时间段内被搜索次数作为网络热度;
热词标记单元,用于将所述预定时间段内网络热度超出阈值的搜索关键字作为网络热词。
可选的,还包括:
文档聚类模块,用于对数据集合中的网页文档聚类。
可选的,还包括:
文档分组模块,用于对所述数据集合中的网页文档按地域信息分组。
可选的,所述语义距离计算模块还包括:
点互信息计算单元,用于计算目标情感词w1与基准情感词w2的点互信息PMI(w1,w2)值;
所述语义距离so为所述网页文档中正面基准情感词的PMI合值与负面基准情感词PMI合值的差值;
所述情感倾向判断模块还用于判断:当所述语义距离so值大于1,则所述网页文档的情感倾向为正面;当所述语义距离so值小于1,则所述网页文档的情感倾向为负面。
与现有技术相比,本发明包括以下优点:
现有技术中,根据正负情感词库对文档中的情感词直接进行情感标记,进而判断出该文档的情感倾向。但由于某些情感词在不同的上下文关系或语境中,其表达出的情感倾向完全不同,因此,仅依据情感词在情感词库中所固有的情感倾向标记对文档做情感倾向判断就会出现偏差,造成网络舆情的判断失真。而本发明通过计算文档中目标情感词与基准情感词之间的语义距离,通过语义距离来判断文档的情感倾向。由于语义距离能够反映出目标情感词与基准情感词之间关联的紧密程度,以及情感词在文档中不同位置对情感倾向的影响,因此,有效提高了对文档情感倾向判断的准确性,这样一来,也就大大提高了对网络舆情信息判断的准确性,为网络舆情信息的后续处理提供了更为真实、准确的基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一的一种网路舆情信息处理方法的流程示意图;
图2示出了根据本发明实施例二的一种网路舆情信息处理方法的流程示意图;
图3示出了根据本发明实施例三的一种网路舆情信息处理方法的流程示意图;
图4示出了根据本发明一实施例的一种网路舆情信息处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参照图1,图1示出了根据本发明实施例一的一种网络舆情信息处理方法的步骤流程图。本实施例的网络舆情信息处理方法包括以下步骤:
步骤101,从网络数据源获取网页。
为提高网络信息获取的效率,可使用网络爬虫对网络数据源进行数据爬取。
步骤102,获取网络热词。
可通过对新闻网站、论坛、博客Blog、微博、社交网站SNS等网络数据源进行搜集、整理获得当前网络热点事件的关键词作为网络热词,例如“两会、表叔、房姐”等。另外,也可将用户使用搜索引擎时满足一定热度的搜索关键词为网络热词。当然,也可采用其它方式获取网络热词,本发明实施例对此不作具体限制。
步骤103,将网络热词和网页对应的文档存储在数据集合中。
为方便对数据的读取和处理,本实施例中的数据集合优先采用数据库。
从网络数据源爬取到网页后,通过解析从所述网页中提取文本数据以文档的方式存储在数据库中。
可选的,在将网页的文本数据存储至数据库之前,可先对网页的文本数据做预处理,包括:将网页文本转换为统一编码格式,以及去除文本中的杂质信息等。
由于中文网页中的文字可能存在的多种编码格式,如GB2312、GBK、BIG5等,因此,将文本格式转换为统一编码格式,可降低因格式不匹配带来的识别错误,提高处理效率。
步骤104,从所述数据集合中提取网页文档进行分词。
由于汉语文本中词与词之间没有明确的分隔标记,而是连续的汉字串;并且汉语的语素和单字词,合成词和短语之间没有清晰的界限。因此,通过分词不仅可以去除无用的杂质信息,而且可以完成对词性标注、命名实体(人名/地名/机构名等)识别等相关处理。
步骤105,从所述分词结果中获取目标情感词和基准情感词。
具体包括:提取单词与预置的标准情感词库匹配,若匹配,则将所述单词作为目标情感词;从所述分词结果中提取单词与预置的基准情感词库匹配,若匹配,则将所述单词作为基准情感词。
本发明实施例中,所述标准情感词库可采用符合国家规范标准的情感词库或词典,当然也可采用自定义或其它标准情感词库。所述基准情感词库是预先定义词库,所述基准情感词库中的情感词设置有对应的情感倾向标识。所述基准情感词库的内容示例如表1所示:
情感倾向标识 |
情感词 |
正面(1) |
好、相当好、很好 |
负面(-1) |
坏、差、不利、非常坏 |
表1
步骤106,计算所述目标情感词与基准情感词的语义距离。
步骤107,根据所述语义距离判断所述网页文档的情感倾向。
本发明实施例通过计算句子中的目标情感词与基准情感词的语义距离判断该句子的情感倾向,不仅能够反映句子中情感词汇间语义关系的密切程度,而且能够体现情感词在句子中所处位置关系对句子情感倾向所带来的影响,因此有效提高了对情感倾向判定的准确性。
实施例二
参照图2,图2示出了根据本发明实施例二的一种网络舆情信息处理方法的步骤流程图。本实施例的网络舆情信息处理方法包括以下步骤:
步骤201,通过网络爬虫从网络数据源爬取网页。
步骤202,从爬取的网页中提取文本存入数据库。
步骤204,获取网络热词。
具体包括:从网络报文中提取基于搜索引擎提交的搜索关键字;统计所述搜索请求关键字在预定时间段内被搜索次数作为网络热度;将所述预定时间段内网络热度超出阈值的搜索请求关键字作为网络热词。
一般而言,用户在浏览网页时会产生与用户行为相关的http报文数据,因此,可基于该http报文提取搜索关键词。以下为http报文示例数据:〈ctn_rpt_0〉[31605]:rpt_search2013-03-1516:34:5960230114.254.244.1629999001207fcf27雾霾chongzhi00000073www.baidu.com/q?unc=i400044_9&cid=union.s.wh&ie=utf-8&w=%E6%8BA1BD%91%C%BAiMozilla/5.0(WindowsNT5.1)
ApplewebKit/537.1(KHTML,like Gecko)Chrome/21.0.1180.89Safari/537.1LBBROWSERtjz_1_uip=127.187.0.124;suid=55971625056;pgv_flv=11.1r102;〈/ctn_rpt_0〉
从上述http报文中可提取出用户使用的搜索引擎“百度”、搜索关键词“雾霾”,以及搜索时间、用户IP地址等。通过分析一段时间内的http报文就可获得搜索关键词和所述关键词在一段时间内被用户请求搜索的次数即搜索热度,如表2所示:
搜索引擎 |
搜索关键词 |
搜索热度 |
百度 |
雾霾 |
11900 |
搜搜 |
教育支出 |
12300 |
搜狗 |
自由迁徙 |
10900 |
搜狗 |
雾霾 |
11500 |
表2
然后,对表2的结果进行合并、排序,去掉重复关键词,得到当前网络中热度最高的关键词,如表3所示:
关键词 |
热度 |
雾霾 |
91000 |
自由迁徙 |
89000 |
教育支出 |
88902 |
表3
步骤205,对数据集合中的网页文档聚类。
网页文档聚类具体包括:从所述数据集合中提取网页文档;计算所述网页文档与目标网络热词的关联度;将关联度超出阈值的网页文档存入所述目标网络热词对应的一类网页集合中;重复上述步骤直到完成对所有网络热词的聚类。
其中,目标网络热词与网页文档的关联度X
A通过以下公式计算:
其中,X
A表示目标网络热词与当前网页A的关联度,a
1是目标网络热词在数据源D1中基于当前搜索日期所提取的网页A中出现的次数,a
2是目标网络热词在数据源D1中基于其它日期所提取网页中出现的次数,A1、A2、A3...An分别是目标网络热词在数据源D1、D2、D3...Dn对应的网页中出现的总次数。
按上述聚类方法对网页文档聚类后的结果示例如下:
网络热词 |
文档集 |
雾霾 |
文档1、文档2 |
自由迁徙 |
文档1、文档2、文档3 |
需要说明的是,除上述聚类方法外,亦可采用其它文档聚类方法,本发明实施例对此不做限制,例如:基于K中心点的文档聚类方法等。
步骤206,对文档集中的文档做倾向性分析。
首先,对文档中的文本进行分词,具体而言,就是将数据库中存储的网页文本切分成一个一个单独的词。
其次,通过分别匹配标准情感词库和基准情感词库从分词结果中获取目标情感词和基准情感词。
下面以文本T1为例说明上述过程:
T1(恶劣的雾霾天气对人民群众的身体健康造成了非常坏的影响)
s1:对T1做中文分词(恶劣、的、雾霾、天气、对、人民群众、的、身体、健康、造成、了、非常坏、的、影响);
s2:将分词结果与标准情感词库匹配后获得的目标情感词w1(恶劣、雾霾);
s3:将分词结果与基准情感词库匹配,若匹配,则将匹配结果作为基准情感词w2(非常坏);若所述基准情感词在基准情感词库中对应的情感倾向标识为正面,则将其标记为正面基准情感词gword,否则将其标记为负面基准情感词bword;
s4:计算目标情感词w1与基准情感词w2的点互信息PMI,所述PMI的计算公式为
其中,PMI(w1,w2)表示目标词w1和基准情感词w2在文档中同时出现的概率;
s5:计算文档的语义距离(Semantic Opinion Orientation,SO)来判断文档的情感倾向,所述语义距离so为文档中正面情感词的PMI值与负面情感词的PMI值之间的差值,其计算公式为so(w)=∑PMI(w,gword)-∑PMI(w,bword),其中,gword为正面基准情感词,bword为负面基准情感词。当so值大于1,则认为文档T1的情感倾向为正面,若so值小于1,则认为文档T1的情感倾向为负面。
需要说明的是,以上实施例中使用正面情感词的PMI值与负面情感词的PMI值之间的差值计算情感词之间的语义距离只是本发明优选的方式,本领域技术人员在实施本发明时,亦可采用其他方式计算情感词之间的语义距离。在本发明的另一优选实施例中,所述计算目标情感词与基准情感词的语义距离通过计算每个目标情感词与基准情感词的欧式距离d获得,具体包括:
其中,w为目标情感词,a为基准情感词;当d值越大,表明目标情感词w的情感同基准情感词a的情感越接近,因此,与正面基准情感词a距离越近表明文档是正面,同负面基准情感词a接近则表明文档是负面。
实施三
下面参照图3,结合实际的例子对本发明实施例所公开的网络舆情信息处理方法做进一步描述,所述方法包括:
步骤301,使用网络爬虫从新浪、新浪微博和天涯论坛中抓取网页,从网页中提取文本数据保存至数据库中。
步骤302,获取http报文,从http报文中提取网络热词。
根据http报文时间顺序提取不同时间的网络搜索关键词,并按照搜索热度排序,最后得出当前日期热度最热的5个关键词“PM2.5”、“自由迁徙”、“教育支出”、“异地高考”、“空气污染”为当前网络最热门关键词。
关键词 |
热度 |
PM2.5 |
91000 |
空气污染 |
89071 |
自由迁徙 |
89000 |
教育支出 |
88902 |
异地高考 |
90876 |
步骤303,按网络热词对数据库中的文档进行聚类。
从数据库中提取抓取的网页文本,根据公式
计算每一个网络热词与每一个网页的关联度,最后找出在新浪、微博、天涯论坛中同上述5个热词关联度超出阈值的所有文档。
步骤304,按照地域信息对每个热词对应的文档进行分组。
从数据库中获取网页文本对应的IP地址信息,通过匹配IP地址库获得该用户所在的地域信息。分组后的文档信息如下所示:
步骤305,对文档集合中的文档分别做情感倾向分析,并汇总出网路热词在不同地域的情感倾向。
首先,针对文档集中的一篇文档计算目标情感词与基准情感词之间的语义距离,进而判断出该文档的整体情感倾向。
然后,计算每篇文档的情感倾向。
最后,汇总出得出每一个网络热词在不同地域所关联文档的情感倾向,从而得出该地域人群的情感倾向。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表20述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参见图4,是本发明实施例的一种网路舆情信息处理装置的结构示意图。
所述装置包括:
网页获取模块410,用于从网络数据源获取网页;
网络热词获取模块420,用于获取网络热词;
数据集合430,用于存储所述网络热词和所述网页对应的文档;
分词模块440,用于从所述数据集合中提取网页文档进行分词;
匹配模块450,用于从所述分词结果中提取单词与预置的标准情感词库匹配,若匹配,则将所述单词作为目标情感词;
所述分词模块还用于从所述分词结果中提取单词与预置的基准情感词库匹配,若匹配,则将所述单词作为基准情感词;
语义距离计算模块460,用于计算所述目标情感词与基准情感词的语义距离;
情感倾向判断模块470,用于根据所述语义距离判断所述网页文档的情感倾向。
其中,所述获取网络热词获取模块420还包括:
关键字获取单元421,用于从网络报文中提取基于搜索引擎提交的搜索关键字;
网络热度获取单元422,用于统计所述搜索关键字在预定时间段内被搜索次数作为网络热度;
热词标记单423元,用于将所述预定时间段内网络热度超出阈值的搜索关键字作为网络热词。
其中,所述装置还包括:
文档聚类模块480,用于对数据集合中的网页文档聚类。
其中,所述装置还包括:
文档分组模块490,用于对所述数据集合中的网页文档按地域信息分组。
其中,所述语义距离计算模460块还包括:
点互信息计算单元,用于计算目标情感词w1与基准情感词w2的点互信息PMI(w1,w2)值;
所述语义距离so为所述网页文档中正面基准情感词的PMI合值与负面基准情感词PMI合值的差值;
所述情感倾向判断模块470还用于判断:当所述语义距离so值大于1,则所述网页文档的情感倾向为正面;当所述语义距离so值小于1,则所述网页文档的情感倾向为负面。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种网路舆情信息处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何页序。可将这些单词解释为名称。