CN103309960B - 一种网络舆情事件多维信息提取的方法及装置 - Google Patents

一种网络舆情事件多维信息提取的方法及装置 Download PDF

Info

Publication number
CN103309960B
CN103309960B CN201310207128.0A CN201310207128A CN103309960B CN 103309960 B CN103309960 B CN 103309960B CN 201310207128 A CN201310207128 A CN 201310207128A CN 103309960 B CN103309960 B CN 103309960B
Authority
CN
China
Prior art keywords
vector
time period
preset time
analyze data
name entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310207128.0A
Other languages
English (en)
Other versions
CN103309960A (zh
Inventor
肖赞
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN201310207128.0A priority Critical patent/CN103309960B/zh
Publication of CN103309960A publication Critical patent/CN103309960A/zh
Application granted granted Critical
Publication of CN103309960B publication Critical patent/CN103309960B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种网络舆情事件多维信息提取的方法及装置,其中,所述方法包括:基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;依据所述主题按照预设时间段分时获取特征网页;获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。本发明用以分析舆论事件,提高舆论事件分析的准确度。

Description

一种网络舆情事件多维信息提取的方法及装置
技术领域
本发明涉及网络信息处理技术领域,特别是涉及一种网络舆情事件多维信息提取的方法及装置。
背景技术
随着互联网的不断普及,越来越多的人们通过互联网来表达自己的观点、发表和交流对热点事件的看法等,使得互联网日渐成为舆情产生和传播主要场所之一。由于网络舆情传播简单、身份隐藏,具有隐蔽性和突发性,并且社会影响力大,使得对网络舆情的研究逐步受到各国政府的高度关注。
因此,本领域技术人员迫切需要解决的问题之一在于,提出一种网络舆情事件多维信息提取的方法及装置,用以分析舆论事件,提高舆论事件分析的准确度。
发明内容
本发明所要解决的技术问题是提供一种网络舆情事件多维信息提取的方法及装置,用以分析舆论事件,提高舆论事件分析的准确度。
为了解决上述问题,本发明公开了一种网络舆情事件多维信息提取的方法,包括:
基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
依据所述主题按照预设时间段分时获取特征网页;
获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
优选地,所述采用种子网页构建网络舆情事件初始的主题的步骤包括:
获取各种子网页的文本属性信息;
分别针对各种子网页的文本属性信息进行分词及识别命名实体;
采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
优选地,所述按照预设时间段分时获取特征网页的步骤包括:
分别在预设时间段抓取指定网页;所述指定网页包括新闻、论坛和微博网页;
计算各指定网页的内容向量和命名实体向量;
依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;
若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
优选地,所述依据各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度的步骤包括:
采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
优选地,所述方法还包括:
在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
所述在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新的步骤包括:
依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;
针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;
依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。
本发明实施例还公开了一种网络舆情事件多维信息提取的装置,包括:
种子网页提取模块,用于基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
特征网页获取模块,用于依据所述主题按照预设时间段分时获取特征网页;
文本信息获取模块,用于获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
第一分析数据获取模块,用于依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
第二分析数据获取模块,用于依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
对比和趋势分析模块,用于分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
优选地,所述种子网页提取模块包括:
文本信息获取子模块,用于获取各种子网页的文本属性信息;
文本信息处理子模块,用于分别针对各种子网页的文本属性信息进行分词及识别命名实体;
权重计算子模块,用于采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
特征词提取子模块,用于提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
主向量生成子模块,用于依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
主质心向量构建子模块,用于依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
优选地,所述特征网页获取模块包括:
指定网页抓取子模块,用于分别在预设时间段抓取指定网页;
质心向量计算子模块,用于计算各指定网页的内容向量和命名实体向量;
相似度计算子模块,用于依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;
特征网页获取子模块,用于若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
优选地,所述相似度计算子模块包括:
内容向量距离计算单元,用于采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
命名实体向量距离计算单元,用于采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
第一权重值添加单元,用于分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
相似度计算单元,用于依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
优选地,所述装置还包括:
主题更新模块,用于在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
所述主题信息更新模块包括:
当前质心向量计算子模块,用于依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;
第二权重值添加子模块,用于针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;
当前主质心向量计算子模块,用于依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。
与现有技术相比,本发明包括以下优点:
本发明基于用户行为进行网络舆情初始网页采集、网络舆情初始网页分析与事件主题表示、面向网络舆情主题的网页增量聚类、网络舆情多维度分析和结果展示。通过本发明可以采集互联网上网络舆情事件传播和评论等相关信息,并从多个维度对信息进行分析,展现该事件的产生、演化过程等,可帮助相关网络舆情管理人员能够更全面地了解网络舆情事件的态势,提高舆论事件分析的准确度。
附图说明
图1是本发明的一种网络舆情事件多维信息提取的方法实施例的步骤流程图;
图2是本发明的一种网络舆情事件多维分析的流程示意图;
图3是本发明的一种网络舆情事件多维信息提取的装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一在于,基于用户行为进行网络舆情初始网页采集、网络舆情初始网页分析与事件主题表示、面向网络舆情主题的网页增量聚类、网络舆情多维度分析和结果展示。
参照图1,示出了本发明一种网络舆情事件多维信息提取的方法实施例的步骤流程图,可以包括如下步骤:
步骤101,基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
在本发明实施例中,种子网页可以从搜索日志中提取,其中,种子网页可以基于用户搜索行为获取,例如可以是在指定时间段内用户采用并搜索次数在前M位的关键词搜索得到的,并且跳转次数排序在前N位的网页,
种子网页可以基于用户搜索行为获取,其中,用户搜索行为可以表示为<t,S,k>,其中t表示用户执行搜索的时间,S表示用户使用的搜索引擎,k表示用户输入的搜索关键词。这样对大量用户的搜索行为的分析,可以得到用户各个搜索关键词的搜索数量,可表示为<K,count>,k和count分别表示搜索关键词和搜索数,在此基础上,可以进一步获得用户通过搜索引擎跳转到的网页,即<k,((url1,num1),(url2,num2),……(urli,numi))>,其中,k则表示搜索关键词,((url1,num1),(url2,num2),……(urli,numi))表示用户通过搜索引擎跳转到种子网页,对于各种子网页分别包含其对应的url(Uniform Resource Locator,统一资源定位符)和该url相应的跳转次数。
在本发明的一种优选实施例中,所述步骤101可以包括如下子步骤:
子步骤S11,获取各种子网页的文本属性信息;
子步骤S12,分别针对各种子网页的文本属性信息进行分词及识别命名实体;
子步骤S13,采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
子步骤S14,提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
子步骤S15,依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
子步骤S16,依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
在具体实现中,可以利用爬虫来获取种子网页的文本属性信息,并作为网络舆情事件的初始种子数据。其中,所述文本属性信息可以包括网页标题、网页正文、网页描述等。
针对获取的文本属性信息可以进行相应的分析,根据文本属性信息进行分词和词性标注、停用词过滤等工作,并且从文本属性信息中提取出命名实体(Named Entity),其中,命名实体可以包括人名、地名、机构名等。
作为本实施例的一种优选示例,可以通过采用VSM(Vector SpaceModel,向量空间模)生成网络舆情事件的主题,VSM可以将种子网页表示成一个向量,向量的每一维表示一个特征词。具体地,可通过TF*IDF(term frequency–inverse document frequency,词频-逆向文件频率)来定义特征词的权重,例如,可以通过如下的TF*IDF的公式计算特征词权重:
wi=tfsi*log(N/ni)
其中,公式中的wi表示词项ti的权重,词项ti可以包括分词及命名实体,tfsi表示词项ti在当前网页中的重要程度,N表示所述热点种子网页对应背景语料库中所包括的网页文档数量,ni表示背景语料库中包含词项ti的网页文档数量。
在本发明实施例中还可以分别依据词项ti在网页标题、网页内容和网页表述中出现的数,并按重要性求加权和,以得到词项ti在当前网页中的重要程度tfsi,具体地,可以通过如下公式计算词项ti在当前网页中的重要程度tfsi
tfsi=hi*α+mi*β+ci*γ
其中,hi,mi,ci分别表示词项ti在网页标题、网页内容和网页表述中中出现的数,α,β,γ则分别表示各自的权重值。
当然,上述计算权重的方法仅是本发明实施例的一种示例,本领域技术人员采用其他的权重计算方法均是可以的,本发明对此无需加以限制。
优选地,为降低特征维度数,简化计算,以及防止过拟合等现象,在本发明实施例中,可以按照词项ti的权重值w的大小对某热点种子网页的词项ti进行排序,并选取权重值大于指定阈值w的词项ti作为种子网页的特征词,某热点种子网页的所有特征词构成该网页的特征向量。指定阈值w可由用户根据其需求自行设置。
由于在网络舆情事件中,一般涉及到具体人名、地点或者机构名称,因此,本发明实施例中采用两个向量来表示一个种子网页,两个向量分别可以为命名实体向量ve和内容向量ve,命名实体向量ve中的维度可以由命名实体构成,而内容向量vc则由命名实体之外的其他特征词构成。
本发明实施例用主质心向量来表示网络舆情事件的主题信息,取种子网页中质心向量中权重较大的前n的特征词构成的向量来表示主题。在本发明的一种优选示例中,可以依据命名实体向量ve和内容向量vc构建主质心向量,具体的公式如下所示:
其中,vi表示命名实体向量ve和内容向量vc。这样通过合并各特征网页的命名实体向量ve和内容向量vc,组成了主质心向量,即网络舆情事件的主题。
在本发明的一种优选实施例中,所述方法还可以包括如下步骤:
在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
所述在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新的步骤可以包括如下子步骤:
子步骤S21,依据所述在当前预设时间段内获取的相关的网页计算在当前的质心向量;
子步骤S22,针对上一预设时间段内的主质心向量及所述当前的质心向量添加对应的权重值;
子步骤S23,依据所述当前的质心向量与其对应添加的权重值,上一预设时间段内的主质心向量与其对应添加的权重值计算当前的主质心向量。
在具体实现中,在采集特征网页后,根据特征网页内容调整更新网络舆情的主题,以应对可能出现的主题漂移等问题。
在本发明实施例中,可以采用预设公式来进行相应的调整,并针对不同时间段的质心向量添加对应的权重值,对于每个时间段的获取的特征网页,可以先计算出质心向量,依据计算出的质心向量来更新当前的质心向量,更新网络舆情事件主题的计算公式如下所示:
Ct+1=β×Ct+γ×CΔt
其中Ct和Ct+1分别表示上一预设时间段内和当前的主质心向量,CΔt则表示时间段t内事件相关热点特征网页形成的质心向量。这样通过上述公式计算出当前的主质心向量,更新网络舆情事件的主题。
步骤104,将所述更新的主题与在先的主题进行对比,获得网络舆情事件的变化信息。
在实际运用中,还可以将更新的主题与在先的主题进行比对,得到网络舆情事件变化的信息,得到网络舆情事件的变化规律。
步骤102,依据所述主题按照预设时间段分时获取特征网页;
在本发明的一种优选实施例中,所述步骤102可以包括如下子步骤:
子步骤S31,分别在预设时间段抓取指定网页;
子步骤S32,计算各指定网页的内容向量和命名实体向量;
子步骤S33,依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;
子步骤S34,若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
在本发明的一种优选实施例中,所述子步骤S23可以包括如下子步骤:
子步骤S33-1,采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
子步骤S33-2,采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
子步骤S33-3,分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
子步骤S33-4,依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
在实际中,可以利用垂直搜索引擎定向抓取一段时间内的新闻、论坛和微博等网页文档,并根据主题对这些网页文档进行增量聚类,调整当前网络舆情的主题。其中,抓取的目标网站可由用户自行设置指定。对于在预设时间段内抓取的指定网页,可以计算其与上一预设时间段的主质心向量的相似度,去除相似度低的网页,以此可提高主题计算的准确度。具体地,相似度可以采用余弦距离来度量,具体的余弦距离计算公式可以为如下公式:
依据上述公式分别计算指定网页的向量v与主命名实体向量ve和主内容向量vc之间的命名实体向量距离sim(v,ve)和内容向量距离sim(v,vc),并将两者按如下公式组成,形成最终的相似度,最终的相似度计算公式如下所示:
sim(P,E)=α×sim(v,vc)+(1-α)×sim(v,ve)
其中,α表示权重值,若是指定网页的相似度大于或等于某个相似度阈值θ,则将相似度大的指定网页作为特征网页归入到该网络舆情事件中,若否则不作任何处理。
步骤103,获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
步骤104,依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
步骤105,依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
步骤106,分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据。
在本发明实施例中,可以结合基于用户搜索行为获取的在不同预设时间段的特征网页的文本属性信息,即用户网络行为数据,实现网络舆情事件相关数据地更高效采集,并从用户、媒体、关注度等多个维度对网络舆情进行深入分析,对网络舆情演化过程和趋势进行追踪。
1,用户维度分析;
用户维度分析主要分析关注该网络舆情事件的用户信息,具体可以包括用户的数量、性别、年龄、学历、地域分布信息。
用户维度分析的主要步骤可以包括:
(1)根据用户的性别、年龄、学历、地域等信息,对互联网用户进行分层抽样,形成可利用的互联网用户样本库;分析事件相关网页的用户访问信息,并将访问过这些网页的用户与用户样本库中的样本进行匹配,得到事件关注用户的样本;
(2)从事件关注用户的样本信息推断得到整个互联网上事件关注用户维度的信息。
2,媒体维度分析;
分析网络舆情事件的各预设时间段的特征网页的文本属性信息,得到网络舆情事件关注媒体的信息,具体地,可以包括媒体对该网络舆情事件进行报道和报道的数量分布信息。
3,用户情感倾向分析;
依据各预设时间段的特征网页的文本属性信息对网络舆情事件进行情感分析,采用情感分析技术分析各特征网页的文本特征信息和评论对该网络舆情事件态度的褒贬倾向进行统计,统计出用户情感倾向。
4,对于各维度的分析进行网络舆情事件演化追踪;
在本发明实施例中,还将在不同的预设时间段基于网络舆情事件主题抓取的特征网页的文本属性信息,从各个维度进行分析,并与上一时间段内相关分析数据进行比较,进行得出网络舆情事件演化趋势。具体地,例如可以是用户关注度的变化,例如刚开始多少人,后来多少人,媒体关注度的变化,网民态度的变化等。
为了使本领域技术人员进一步了解本发明实施例,下面通过一个具体的示例来说明本发明的网络舆情多维分析的步骤流程。
参照图2所示的本发明的一种网络舆情事件多维分析的流程示意图,具体的步骤如下所示:
1,针对用户搜索行为进行分析,并获取相关网页;
2,从所述相关网页中获取事件的关键词Top K网页的URL;
3,获取网页文本属性信息,并进行分析与文本的聚类;
4,依据网页文本属性信息生成网络舆情事件主题;
5,基于主题的获取相关网页;
6,提取所述相关网页的网页文本属性信息;
7,针对所述主题获取相关网页进行增量聚类,更新网络舆情事件的主题;
8,针对事件进行多维度的分析,包括用户维度分析、媒体维度分析以及用户的情感倾向分析。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
参照图3,示出了本发明的一种网络舆情事件信息提取的装置实施例的结构框图,可以包括如下模块:
种子网页提取模块201,用于基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
在本发明的一种优选实施例中,所述种子网页提取模块201可以包括如下子模块:
文本信息获取子模块,用于获取各种子网页的文本属性信息;
文本信息处理子模块,用于分别针对各种子网页的文本属性信息进行分词及识别命名实体;
权重计算子模块,用于采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
特征词提取子模块,用于提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
主向量生成子模块,用于依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
主质心向量构建子模块,用于依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
在本发明的一种优选实施例中,所述装置还可以包括如下模块:
主题更新模块,用于在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
在本发明的一种优选实施例中,所述主题信息更新模块可以包括如下子模块:
当前质心向量计算子模块,用于依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;
第二权重值添加子模块,用于针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;
当前主质心向量计算子模块,用于依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。
特征网页获取模块202,用于依据所述主题按照预设时间段分时获取特征网页;
在本发明的一种优选实施例中,所述特征网页获取模块202可以包括如下子模块:
指定网页抓取子模块,用于分别在预设时间段抓取指定网页;
质心向量计算子模块,用于计算各指定网页的内容向量和命名实体向量;
相似度计算子模块,用于依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间的段的主内容向量和主命名实体向量计算相似度;
特征网页获取子模块,用于若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
在本发明的一种优选实施例中,所述相似度计算子模块可以包括如下单元:
内容向量距离计算单元,用于采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
命名实体向量距离计算单元,用于采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
第一权重值添加单元,用于分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
相似度计算单元,用于依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
文本获取模块203,用于获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
第一分析数据获取模块204,用于依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
第二分析数据获取模块205,用于依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
对比和趋势分析模块206,用于分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的基于一种网络舆情事件多维信息提取的方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种网络舆情事件多维信息提取的方法,其特征在于,包括:
基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
依据所述主题按照预设时间段分时获取特征网页;
获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
2.根据权利要求1所述的方法,其特征在于,所述采用种子网页构建网络舆情事件初始的主题的步骤包括:
获取各种子网页的文本属性信息;
分别针对各种子网页的文本属性信息进行分词及识别命名实体;
采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
依据所述主命名实体向量及主内容向量构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
3.根据权利要求1或2所述的方法,其特征在于,所述按照预设时间段分时获取特征网页的步骤包括:
分别在预设时间段抓取指定网页;所述指定网页包括新闻、论坛和微 博网页;
计算各指定网页的内容向量和命名实体向量;
依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间段的主内容向量和主命名实体向量计算相似度;
若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
4.根据权利要求3所述的方法,其特征在于,所述依据各指定网页的内容向量和命名实体向量,以及,上一预设时间段的主内容向量和主命名实体向量计算相似度的步骤包括:
采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
5.根据权利要求1或2所述的方法,其特征在于,还包括:
在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
所述在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新的步骤包括:
依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;
针对上一预设时间段的主质心向量及所述当前预设时间段的质心向量添加对应的权重值;
依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。
6.一种网络舆情事件多维信息提取的装置,其特征在于,包括:
种子网页提取模块,用于基于用户搜索行为从搜索日志中提取种子网页,采用所述种子网页构建网络舆情事件初始的主题;
特征网页获取模块,用于依据所述主题按照预设时间段分时获取特征网页;
文本信息获取模块,用于获取在上一预设时间段及在当前预设时间段相应获取的特征网页的文本属性信息;
第一分析数据获取模块,用于依据所述在上一预设时间段的文本属性信息,获取上一预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
第二分析数据获取模块,用于依据所述在当前预设时间段的文本属性信息,获取当前预设时间段用户关注度的分析数据、媒体关注度的分析数据以及用户态度的分析数据;
对比和趋势分析模块,用于分别对比上一预设时间段与当前时间段用户关注度的分析数据,媒体关注度的分析数据以及用户态度的分析数据,获得网络舆情事件的趋势演化信息。
7.根据权利要求6所述的装置,其特征在于,所述种子网页提取模块包括:
文本信息获取子模块,用于获取各种子网页的文本属性信息;
文本信息处理子模块,用于分别针对各种子网页的文本属性信息进行分词及识别命名实体;
权重计算子模块,用于采用词频-逆向文件频率算法TF*IDF计算所述分词及命名实体的权重;
特征词提取子模块,用于提取权重大于预设权重阈值的分词及命名实体作为所述各种子网页对应的特征词;
主向量生成子模块,用于依据所述特征词中的命名实体生成主命名实体向量,依据所述特征词中除命名实体外的特征词生成主内容向量;
主质心向量构建子模块,用于依据所述主命名实体向量及主内容向量 构建主质心向量;其中,所述主质心向量为网络舆情事件的主题。
8.根据权利要求6或7所述的装置,其特征在于,所述特征网页获取模块包括:
指定网页抓取子模块,用于分别在预设时间段抓取指定网页;
质心向量计算子模块,用于计算各指定网页的内容向量和命名实体向量;
相似度计算子模块,用于依据所述各指定网页的内容向量和命名实体向量,以及,上一预设时间段的主内容向量和主命名实体向量计算相似度;
特征网页获取子模块,用于若所述相似度大于预设相似度阈值,则获取所述指定网页为特征网页。
9.根据权利要求8所述的装置,其特征在于,所述相似度计算子模块包括:
内容向量距离计算单元,用于采用余弦法依据各指定网页的内容向量与上一预设时间段的主内容向量计算内容向量距离;
命名实体向量距离计算单元,用于采用余弦法依据各指定网页的命名实体向量与上一预设时间段的主命名实体向量计算命名实体向量距离;
第一权重值添加单元,用于分别针对所述内容向量距离及所述命名实体向量距离添加对应的权重值;
相似度计算单元,用于依据所述内容向量距离与其对应添加的权重值,命名实体向量距离与其对应添加的权重值计算相似度。
10.根据权利要求6或7所述的装置,其特征在于,还包括:
主题更新模块,用于在各预设时间段分别采用相应获取的特征网页对所述网络舆情事件的主题进行更新;
所述主题信息更新模块包括:
当前质心向量计算子模块,用于依据所述在各预设时间段相应获取的特征网页计算在当前预设时间段的质心向量;
第二权重值添加子模块,用于针对上一预设时间段的主质心向量及所 述当前预设时间段的质心向量添加对应的权重值;
当前主质心向量计算子模块,用于依据所述当前预设时间段的质心向量与其对应添加的权重值,上一预设时间段的主质心向量与其对应添加的权重值计算当前的主质心向量。
CN201310207128.0A 2013-05-29 2013-05-29 一种网络舆情事件多维信息提取的方法及装置 Expired - Fee Related CN103309960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310207128.0A CN103309960B (zh) 2013-05-29 2013-05-29 一种网络舆情事件多维信息提取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310207128.0A CN103309960B (zh) 2013-05-29 2013-05-29 一种网络舆情事件多维信息提取的方法及装置

Publications (2)

Publication Number Publication Date
CN103309960A CN103309960A (zh) 2013-09-18
CN103309960B true CN103309960B (zh) 2017-06-06

Family

ID=49135178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310207128.0A Expired - Fee Related CN103309960B (zh) 2013-05-29 2013-05-29 一种网络舆情事件多维信息提取的方法及装置

Country Status (1)

Country Link
CN (1) CN103309960B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850537B (zh) * 2014-02-17 2017-12-15 腾讯科技(深圳)有限公司 对文本内容进行筛选的方法及装置
CN105389389B (zh) * 2015-12-10 2018-09-25 安徽博约信息科技股份有限公司 一种网络舆情传播态势媒体联动分析方法
CN105893462A (zh) * 2016-03-20 2016-08-24 百势软件(北京)有限公司 一种用户网络行为分析方法及装置
CN106504102A (zh) * 2016-10-20 2017-03-15 宁波江东大金佰汇信息技术有限公司 一种基于计算机大数据的社交网络中优质节点探测系统
CN106548375B (zh) * 2016-11-04 2019-10-08 东软集团股份有限公司 用于构建产品画像的方法和装置
CN110737820B (zh) * 2018-07-03 2022-05-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN109657116A (zh) * 2018-11-12 2019-04-19 平安科技(深圳)有限公司 一种舆情搜索方法、搜索装置、存储介质和终端设备
CN109783815B (zh) * 2018-12-28 2020-10-23 华南理工大学 一种多维度网络舆情大数据对比分析方法
CN110956210B (zh) * 2019-11-29 2023-03-28 重庆邮电大学 一种基于ap聚类的半监督网络水军识别方法及系统
CN113220823B (zh) * 2020-01-21 2024-03-01 北京中科闻歌科技股份有限公司 一种面向社交媒体公共言论的情感、话题及观点分析方法和装置
CN113449101A (zh) * 2020-03-26 2021-09-28 北京中科闻歌科技股份有限公司 公共卫生安全事件检测及事件集合构建方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103064866A (zh) * 2011-10-24 2013-04-24 北京千橡网景科技发展有限公司 确定网络中的内容的关注度的方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
CN103064866A (zh) * 2011-10-24 2013-04-24 北京千橡网景科技发展有限公司 确定网络中的内容的关注度的方法和设备

Also Published As

Publication number Publication date
CN103309960A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
CN103309960B (zh) 一种网络舆情事件多维信息提取的方法及装置
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN101711389B (zh) 基于一系列文档图对文档进行排名
Wen et al. A hybrid approach for personalized recommendation of news on the Web
CN102890713B (zh) 一种基于用户当前地理位置和物理环境的音乐推荐方法
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN103064945A (zh) 基于本体的情境搜索方法
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
Guo et al. An effective and economical architecture for semantic-based heterogeneous multimedia big data retrieval
TW201214167A (en) Matching text sets
CN103455524A (zh) 展现和获取词条信息的方法和装置
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN105718590A (zh) 面向多租户的SaaS舆情监控系统及方法
CN103150663A (zh) 一种网络投放数据投放的方法和装置
Aouicha et al. Derivation of “is a” taxonomy from Wikipedia Category Graph
CN103744954B (zh) 一种词关联网模型的构建方法及其构建器
CN107894986B (zh) 一种基于向量化的企业关系划分方法、服务器以及客户端
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
Yang Developing an ontology-supported information integration and recommendation system for scholars
CN108959641A (zh) 一种基于人工智能的内容信息推荐方法及系统
Jayawardhana et al. An ontology-based framework for extracting spatio-temporal influenza data using Twitter
CN111259220A (zh) 一种基于大数据的数据采集方法和系统
Viswanathan et al. Ranking semantic relationships between two entities using personalization in context specification
CN103257975A (zh) 一种搜索方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170606

Termination date: 20190529