CN102708096B - 一种基于语义的网络智能舆情监测系统及其工作方法 - Google Patents
一种基于语义的网络智能舆情监测系统及其工作方法 Download PDFInfo
- Publication number
- CN102708096B CN102708096B CN201210170862.XA CN201210170862A CN102708096B CN 102708096 B CN102708096 B CN 102708096B CN 201210170862 A CN201210170862 A CN 201210170862A CN 102708096 B CN102708096 B CN 102708096B
- Authority
- CN
- China
- Prior art keywords
- event
- keyword
- concept
- word
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于自然语言处理领域,特别涉及一种基于语义的网络智能舆情监测系统及其工作方法,该方法采用智能爬虫技术、命名实体抽取技术、概念智能识别技术、基于语义的倾向性分析技术、话题抽取技术、智能统计分析等;其搜索的结果不是简单的包含某个或某类关键词的网页集合,而是与所设定的监测事件具有相同语义(即在意义上相同)的文本信息,具有较高的准确率。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于语义的网络智能舆情监测系统及其工作方法。
背景技术
近年来,互联网发展迅速,作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个重要载体。另一方面,由于网络的开放性和虚拟性,网上舆情已经越来越复杂,对现实生活的影响与日俱增,一些重大的网络舆情事件往往对社会产生较大的影响力。舆情监测的目的,即为准确有效地掌握网络舆情现状,加强对网络舆情的及时监测和跟踪,以便准确快速地发现互联网上的各类舆情,产生舆论导向并积极化解舆论危机,对促进社会和企业的健康发展具有重要的现实意义。对政府部门、公众媒体和大型企业来说,如何加强对网络舆情的及时监测,以及时采取措施进行有效应对,成为网络舆情管理的一大难点。
发明内容
本发明就是针对上述背景技术中的不足之处,而提出的一种基于语义的网络智能舆情监测系统及其工作方法,其搜索的结果不是简单的包含某个或某类关键词的网页集合,而是与所设定的监测事件具有相同语义(即在意义上相同)的文本信息,具有较高的准确率。
本发明的目的是通过如下技术措施来实现的。
一种基于语义的网络智能舆情监测系统,该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。各模块具体功能如下:
智能爬虫爬取模块:传统的舆情监测系统采用关键词或关键词组合的方式进行搜索,该方法存在两个问题:一是基于关键词搜索的准确度不高,结果可能包含大量噪音,例如要搜索“北大”(这里指的是北京大学)的信息,那么包含词条“北大荒”的文本也会被搜索出来;二是传统舆情监测系统的关键词集需人工收集并添加,繁琐且费时。造成以上问题的根本原因是,系统无法真正理解搜索词的意义。本系统采用智能爬虫技术,通过“理解”输入的关键词或句子的意思,在文本中找出相应的内容。
命名实体抽取模块:舆情监测的内容中可能包含人物、地点和组织机构的信息。而传统的舆情监测系统无法自动识别出文本中包含的这些内容,只能由人工进行添加。本系统自动对人物名称、地点名称和组织机构的名称(即命名实体)进行识别,并提取与之相关的信息。全部过程由机器自动完成,无需人工干预。
概念智能识别模块:传统的舆情监测系统采用关键词或关键词组合的方式进行监测,一旦发现信息中包含关键词或其组合,则发布预警信息。然而,利用关键词检索得到的结果可能包含大量噪音,而有用的信息却可能因为不在关键词列表中而被过滤掉。本系统采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,过滤大量无关的信息,从而得到的结果具有较高的准确率。例如,给定一个新闻线索“腐败”,本系统自动监测与“腐败”相关的“行贿受贿”、“公款吃喝”、“买官卖官”等内容。
基于语义的倾向性分析模块:本系统实现了对舆情的倾向性进行自动分析,例如,调查网民对某一事件的评论是正面还是负面的。传统的舆情监测系统无法进行倾向性分析,或者倾向性分析方法是基于关键词的。这种方法的主要问题是准确度较低。利用基于语义的倾向性自动分析技术,本模块实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果。
话题抽取模块:话题就是一个核心事件或活动以及与之直接相关的事件或活动。而一个事件(Event)通常由某些原因、条件引起,发生在特定时间、地点,涉及某些对象(人或物),并可能伴随某些必然结果。通常情况下,可以简单地认为话题就是若干对某事件相关报道的集合。话题分析具体包括话题检测与跟踪,定义为“在新闻专线(Newswire)和广播新闻等来源的数据流中自动发现主题并把主题相关的内容联系在一起的技术”。本模块在海量信息中搜索同一话题的内容,并自动进行归类,同时给出话题名称,方便用户查看。
智能统计分析模块:将舆情监测的结果进行分析汇总,并以图文并茂的形式展现给用户。统计方式可由用户自行定义,如按时间、按来源、按舆情类别、按用户倾向性等。
本发明还提供一种基于语义的网络智能舆情监测系统的工作方法,该方法包括以下步骤:
(1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;具体构建步骤如下
(1-1)确定领域本体层次,将领域本体设计成层次型的结构,分为三个层次,事件层,模板层和概念层,并采用XML文档存储本体;
(1-2)定义常用的事件,每个事件都用模板来具体化;
(2)智能爬虫爬取模块从互联网上采集舆情信息,并存储到数据库中;具体步骤如下
(2-1)在数据库中定义需要采集信息的网站来源,包括新闻网站,论坛以及博客,并统一分成两类,即全国性的网站,和非全国性的网站;
(2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页,下载与本体中定义的事件相关的网页,过滤掉大量与要监控的舆情无关的网页;具体爬取过程如下
(2-2-1)通过本体中定义的事件对网页进行分析,以此将与要监控的事件无关的链接过滤掉,剩下与事件有关的网络链接,将这些与事件有关的链接保留下来,并把它们存入等待抓取网页的URL队列里面;
(2-2-2)完成上一步后,根据预先定义的搜索策略,举例来说,搜索策略为地域(云南|丽江)+时间(1年以内发表的)+本体概念层拆分出来的关键词(例如贪污|腐败),根据这些信息来综合搜索;从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL,重复过程(2-2-1),当满足了系统预设的停止条件后即所有满足条件的网站都以被标记则停止爬取过程;
(2-3)信息预处理,对步骤(2-2)中爬取的网页信息进行处理,具体处理过程如下
(2-3-1)对web文档去web标签,采用htmlparser包提供的方法;
(2-3-2)提取web文档的标题和正文;
(2-3-3)抽取web文档发表的精确的时间;
(2-3-4)web文档中有很多带链接的文字,对后续分析会产生一定的噪音,去掉文档中带链接的文字;
(2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地,供后续步骤使用,并将本地路径存储到数据库中以便读取本地文件;下载的时候存储的格式设定的为标题,内容,日期,网址,网站名;
(3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工;具体步骤如下
(3-A)命名实体自动抽取,自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别,并提取与之相关的信息;采用基于CRFs模型和规则的命名实体识别,基于CRFs的中文命名实体识别,关键在于抽取命名实体的合适特性,通过对中文命名实体的特点进行分析定义命名实体的特征,规则方法最主要利用到两种信息,命名实体用字分类和限制性成分,即分析过程中,如果扫描到具有明显特征的命名实体用字时,便开始触发命名实体抽取过程,并且采集命名实体前后相关的成分,对命名实体的前后位置进行相应的限制;
(3-B)概念智能识别,采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,从采集到的舆情信息中过滤无关的信息,得到对某一概念较高准确率的搜索结果;在本体中添加一个关键词时,同时会添加该关键词的同义词,近义词以及网络特殊说法,这一系列的关键词就形成了一个宏观的概念,概念智能识别的步骤如下
(3-B-1)找到经预处理格式化后的网页文档中的关键词;种子这个概念在某种程度上是为了反应一个汉字在一个文本或者文本聚类中的显著程度,为了找到那些能够代表一个文本完整概念的较长的关键词,首先要识别关键词的一个种子,然后依次扩散获得整个关键词;识别关键词的一个种子的方法如下
假设r是参考文本集,参考文本集包括文本集合和其它的统计大文本集合,d是一个文本或者文本集合,w是文本d中的单个汉字,那么用Pr(w) 和Pd(w) 来表示w分别在r和d中出现个概率;我们用条件一,称作w在d和r中的相对概率或者叫w在d和r中的显著度来衡量w是否是一个种子;
条件一,Pd(w) / Pr(w)
如果w满足 Pd(w) / Pr(w)≥δ ,δ为50,那么就把w选作一个种子;
然后进行关键词抽取,主要采用基于种子扩散的关键词抽取算法,给出一文本d中一个关键词所应该满足的条件
条件1,一个关键词至少要包含一个种子
条件2,一个关键词在文本d中至少要出现N次,N为4
条件3,一个关键词的长度要小于L,L为16
条件4,同时满足条件1,2和3的最大字符串是一个关键词
条件5,如果有一个最大真子串,在不考虑它在所有包含它的关键词串中出现的频率的情况下,仍然同时满足条件1,2和3,那么它仍然可以算作是一个关键词;
这里所说的同时满足条件1,2和3的最大字符串指的是同时满足条件1,2和3的相邻的汉字字符串,并且,没有其他包含这个串的更长字符串同时满足条件1,2和3,一个同时满足条件1,2和3的最大真子串指的是不存在更大的真子串包含它并且同时满足这三个条件;
(3-B-2)将得到的关键词与已有的概念进行词汇相似度分析,如果相似度大于某个固定的阈值,根据实验结果经验值,这个阈值设为0.8,就将该种子加入已有的概念中,判定为意义相同的概念,如果没有相似的,就定义一个新的概念;词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度,在实际的应用过程中,可以利用词汇之间的距离来计算相似度,对于两个词语W 1 和W 2 ,记其相似度为Sim(W 1 ,W 2 ),其词语距离为Dis(W 1 ,W 2 ),那么可以定义一个满足以上条件的简单的转换关系
其中α是一个可调节的参数,α的含义是当相似度为0.5时的词语距离值,距离越近,相似度越大;
(3-C)基于语义的倾向性分析,实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果;情感倾向性分析作为舆情分析的核心内容,通过对海量信息进行分析和挖掘,从而得到群众对某个事件的情感倾向,可以为企业和政府提供决策支持;
所谓倾向性分析,事实上是一个分类问题,即将事件分为正面和负面两类,这里采用基于模板的倾向性分析;
(3-C-1)对于带有评价词的模板,事先添加极性,即该评价词的褒贬倾向,1表示正面,-1表示负面,并标明评价词的位置,Polarity(template) = 评价对象+情感词;
(3-C-2)当否定词和情感词结合时,句子的极性将会被逆转,因此首先建立一个否定词列表List<negative>,然后对本地文档,即经步骤(2-3)预处理格式化后的文档,用每个事件的每个模板去匹配文本,同时进行句子的倾向性分析;综合考虑模板的极性,否定词可以确定一个句子的倾向性,公式如下
Polarity(sentence)= Polarity(template) * Polarity(negative) ,其中
最后根据事件分类,得到事件的倾向性;设一个事件包含{S1,S2,…Sn}这n个句子,则事件的倾向性计算公式如下
其中sgn为符号函数;
(3-C-3)把抽取出来的事件以及其倾向性存入数据库,并统计正负面比例;
(3-D)话题自动抽取,在海量信息中搜索同一话题的内容,并自动进行归类;
(4)智能统计分析,根据用户的需求,挖掘数据库里面的结果,分时间,地域,事件对监测到的结果进行统计生成报告,同时生成可视化图表,进行预警。
与现有的技术相比,本发明具有以下的优点和有益效果:
1、本发明是专门为各类舆情打造的智能监测系统,针对特定领域的专业用户。
2、用户可根据其关心的若干特定网站、论坛或博客进行内容监测,并可实时依据需求的不同对监控内容进行设定和增减。
3、同时,其搜索的结果不是简单的包含某个或某类关键词的网页集合,而是与所设定的监控事件具有相同语义(即在意义上相同)的文本信息。
本发明可自动生成图文并茂的舆情报告,供用户进行进一步分析和整理。
附图说明
图1是本发明实施例基于语义的网络智能舆情监测系统的架构图。
具体实施方式
下面将结合附图和具体实施例对本发明做进一步说明。但本发明的实施方式不限于此。
本实施例提供一种基于语义的网络智能舆情监测系统,该系统包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警。
本实施例还提供一种基于语义的网络智能舆情监测系统的工作方法,该方法包括以下步骤:
(1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;智能爬虫爬取,概念智能识别以及倾向性分析这三个模块都是基于本体来完成的。具体构建步骤如下
(1-1)确定领域本体层次,将领域本体设计成层次型的结构,分为三个层次,事件层(Event),模板层(Template)和概念层(Concept),并采用XML文档存储本体。
(1-2)定义常用的事件,每个事件都用模板来具体化;舆情监测一般都是相对于某个具体的事件,因此首先定义一些常用的事件。例如 :<event name="贪污">, <event name="公权滥用">。这些作为事件层的内容。每个事件都可以用一些模板来具体化,例如“不明+财产”可以作为事件“贪污”的其中一个模板,因为这是“贪污”的一种具体表现形式。模板层采用这种格式:<template name="t239">不明 + 财产</template>,这里“不明”和“财产”分别作为两个概念。
(1-3)概念扩展,通过上述两步骤,我们已经定义了一个简单的本体,但一个概念可能有很多个同义词,近义词以及类似的说法,这里采用基于语义相似度的办法来扩展概念。具体方法在下面的“概念智能识别”实施例里说明。
(2)智能爬虫爬取模块从互联网上采集舆情信息,并存储到数据库中;具体步骤如下
(2-1)在数据库中定义需要采集信息的网站来源,包括新闻网站,论坛以及博客,并统一分成两类,即全国性的网站(例如新浪网),和非全国性的网站(主要是一些本地论坛)。
(2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页,下载与本体中定义的事件相关的网页,过滤掉大量与要监控的舆情无关的网页;具体爬取过程如下
(2-2-1)通过本体中定义的事件对网页进行分析,以此将与要监控的事件无关的链接过滤掉,剩下与事件有关的网络链接,将这些与事件有关的链接保留下来,并把它们存入等待抓取网页的URL队列里面;
(2-2-2)完成上一步后,根据预先定义的搜索策略,举例来说,搜索策略为地域(云南|丽江)+时间(1年以内发表的)+本体概念层拆分出来的关键词(例如贪污|腐败),根据这些信息来综合搜索;从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL,重复过程(2-2-1),当满足了系统预设的停止条件后即所有满足条件的网站都以被标记则停止爬取过程。
(2-3)信息预处理,对步骤(2-2)中爬取的网页信息进行处理,具体处理过程如下
(2-3-1)对web文档去web标签,采用htmlparser包提供的方法;
(2-3-2)提取web文档的标题和正文;
(2-3-3)抽取web文档发表的精确的时间;
(2-3-4)web文档中有很多带链接的文字,对后续分析会产生一定的噪音,去掉文档中带链接的文字;对于新浪网页和腾讯网页需要特殊处理,由于这两个网站上面对于著名的人名和组织机构,如果他们有自己的博客或微博,网站上对他们的显示会做特殊标记,比如在名称下面有虚线或者是特殊颜色显示,以表明可以有超链接连到对应的博客或微博;针对这种情况,遇到这类标签,就可以认为标签标记的是命名实体,所以不必全部去掉。
(2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地,供后续步骤使用,并将本地路径存储到数据库中以便读取本地文件;下载的时候存储的格式设定的为标题,内容,日期,网址,网站名。
(3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工;具体步骤如下
(3-A)命名实体自动抽取,自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别,并提取与之相关的信息;采用基于CRFs模型和规则的命名实体识别,基于CRFs的中文命名实体识别,关键在于抽取命名实体的合适特性,通过对中文命名实体的特点进行分析定义命名实体的特征,规则方法最主要利用到两种信息,命名实体用字分类和限制性成分,即分析过程中,如果扫描到具有明显特征的命名实体用字时,便开始触发命名实体抽取过程,并且采集命名实体前后相关的成分,对命名实体的前后位置进行相应的限制;具体实施步骤如下
(3-A-1)根据分析命名实体中出现频率较高的人名、地名和组织机构名,构建命名实体识别的规则库,包括用于人名识别的规则,用于地名识别的规则以及用于组织机构名识别的规则。以地名为例,主要规则有三条:
规则一,地名1=著名的地名;
规则二,地名2=国名+省名(自治区/岛)+市名(自治区)+县名(自治区/自治州/旗/特别行政区/地区)+镇(区/州/乡)+村(寨/湾/坡);
规则三,地名3=地名2+路(大道/道/街/巷/桥/坊/屯/垒)+场(寓/厦/园/楼/馆/厂/学/局)+号。
(3-A-2)基于CRFs的命名实体识别,下面以人名识别为例来说明
(3-A-2-1)对训练语料及测试语料进行自动分词和词性标注(基于字的标注),建立训练集和测试集;
去掉人工标注结果还原到原始文本,并记录人名标注位置,然后用ICTCLAS系统 (ICTCLAS是中科院开发的基于层叠马尔可夫模型的分词和词性标注系统)进行自动分词和标注系统,并进行基于字的词性标注(词性-S,B,l,E),再根据记录人名的位置对语料中的每个字进行IB02自动标注:用相同方法对测试语料同样进行自动分词和基于字的词性标注;建立训练集和测试集;
(3-A-2-2)基于CRFs模型对训练集进行学习,学习的过程主要分为生成特征函数和训练得到每个特征函数的权重两部分,以下分别对这两部分进行说明
①生成特征函数:CRFs模型中产生的特征函数都是二值的,每个二值特征函数相当于一个条件,如果该特征函数的条件被满足,那么此特征函数的值为1,否则特征函数的值为0;
②训练得到每个特征函数的权重;
(3-A-2-3)CRFs模型进行测试,在测试过程中,系统同样遍历测试集,并遵循与训练过程相同的原则生成若干特征函数,根据CRFs公式计算得到每个节点各个候选标记的概率,之后通过Viterbi算法解码得到最优标记的序列。
(3-A-3)在步骤(3-A-2)中,我们已经得到了潜在的命名实体,然后根据(3-A-1)中定义的规则库对结果进行修正;
本实施例通过规则和统计相结合的方法实现了自动对大规模文本集合中的命名实体进行识别,且识别效果令人满意。
(3-B)概念智能识别,采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,从采集到的舆情信息中过滤无关的信息,得到对某一概念较高准确率的搜索结果;在本体中添加一个关键词时,同时会添加该关键词的同义词,近义词以及网络特殊说法,这一系列的关键词就形成了一个宏观的概念,例如,“行贿受贿”、“公款吃喝”、“买官卖官”等关键词可以构成一个概念,即“贪污”;概念智能识别的步骤如下
(3-B-1)找到文档中的关键词,该文档是步骤(2-3)信息预处理步骤中得到的无标签格式化后的纯文本;种子这个概念在某种程度上是为了反应一个汉字在一个文本或者文本聚类中的显著程度,为了找到那些能够代表一个文本完整概念的较长的关键词(超过2个汉字),首先要识别关键词的一个种子,然后依次扩散获得整个关键词;识别关键词的一个种子的方法如下
假设r是参考文本集,参考文本集包括文本集合和其它的统计大文本集合,d是一个文本或者文本集合,w是文本d中的单个汉字,那么用Pr(w) 和Pd(w) 来表示w分别在r和d中出现个概率;我们用条件一,称作w在d和r中的相对概率或者叫w在d和r中的显著度来衡量w是否是一个种子;
条件一,Pd(w) / Pr(w)
如果w满足 Pd(w) / Pr(w)≥δ ,δ为50,那么就把w选作一个种子;
其中,Pd(w) 的获得方法用如下算法描述:
输入:文本语料集D(本系统是从NTCIR中选取的一部分)
输出:一个HashMap,key值存储的是D中出现的所有汉字或单词,value值存储的是key中所存的汉字或者单词所对应的在文本中出现的概率
GetPdw(Set D){
HashMap m=new HashMap();//存放结果
对D中数据进行解析,得到文本文件集T;//语料库数据是xml格式,需要进行解析
读入所有文本;
w'hile(一行不为空)
{
If(是中文)
{
读入一个字符c;
If(m中不包含c)
将c和c在文本集T中的频率存入m;
If(m中包含c)
将原来m中c的频率加1;
}
If(是英文)
{
读入一个单词w;//英文用单词做单位,而不是字母
If(m中不包含w)
将w和w在文本集T中的频率存入m;
If(m中包含w)
将原来m中w的频率加1;
}
}
将m中每个value中的值除以文本长度,得到每个key值在文本集合中的概率;
Sort(m);//将哈希表m按降序排序
取出排完序后2/3大处的概率值b;
将后面1/3的结果所对应的value值都替换为b;
返回m;
};
然后进行关键词抽取,主要采用基于种子扩散的关键词抽取算法,给出一文本d中一个关键词所应该满足的条件
条件1,一个关键词至少要包含一个种子
条件2,一个关键词在文本d中至少要出现N次,N为4
条件3,一个关键词的长度要小于L,L为16
条件4,同时满足条件1,2和3的最大字符串是一个关键词
条件5,如果有一个最大真子串,在不考虑它在所有包含它的关键词串中出现的频率的情况下,仍然同时满足条件1,2和3,那么它仍然可以算作是一个关键词;
这里所说的同时满足条件1,2和3的最大字符串指的是同时满足条件1,2和3的相邻的汉字字符串,并且,没有其他包含这个串的更长字符串同时满足条件1,2和3,一个同时满足条件1,2和3的最大真子串指的是不存在更大的真子串包含它并且同时满足这三个条件。
下面描述了基于种子的关键词抽取算法(Keyterm Extraction Based on Seeds Expansion,简称KESE)从文本(或文本聚类)中抽取关键词的过程
Fd(t)表示t 在 d中的频率;
N 为给定的阈值 (N>1);
K = {};
S表示文本d中所有的种子的集合;
for all c∈S
{
let Q = {t: t contains c and Fd(t)≥N};
while Q ≠ NIL
{
max-t ← the longest string in Q;
K ← K + { max-t };
Remove max-t from Q;
for all other t in Q
{
if t is a substring of max-t
{ Fd(t)← Fd(t)- Fd(max-t);
if Fd(t)<N
removing t from Q;
}
}
}
}
return K as Key Terms in document d;
(3-B-2)将得到的关键词与已有的概念进行词汇相似度分析,如果相似度大于某个固定的阈值,根据实验结果经验值,这个阈值设为0.8,就将该种子加入已有的概念中,判定为意义相同的概念,如果没有相似的,就定义一个新的概念;词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度,在实际的应用过程中,可以利用词汇之间的距离来计算相似度,对于两个词语W 1 和W 2 ,记其相似度为Sim(W 1 ,W 2 ),其词语距离为Dis(W 1 ,W 2 ),那么可以定义一个满足以上条件的简单的转换关系
其中α是一个可调节的参数,α的含义是当相似度为0.5时的词语距离值,距离越近,相似度越大。
(3-C)基于语义的倾向性分析,实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果;情感倾向性分析作为舆情分析的核心内容,通过对海量信息进行分析和挖掘,从而得到群众对某个事件的情感倾向,可以为企业和政府提供决策支持;
所谓倾向性分析,事实上是一个分类问题,即将事件分为正面和负面两类,这里采用基于模板的倾向性分析;
(3-C-1)对于带有评价词的模板,事先添加极性,即该评价词的褒贬倾向,1表示正面,-1表示负面,并标明评价词的位置,Polarity(template) = 评价对象+情感词;例如:服务(评价对象)+差(情感词) = -1(负面倾向),形式化到本体中即
<template name="t239" polarity="-1" polarityGroup="2">服务 + 差</template>;
(3-C-2)当否定词和情感词结合时,句子的极性将会被逆转,因此首先建立一个否定词列表List<negative>,然后对本地文档,该文档是指步骤(2-3)信息预处理步骤中得到的无标签格式化后的纯文本,用每个事件的每个模板去匹配文本,同时进行句子的倾向性分析;综合考虑模板的极性,否定词可以确定一个句子的倾向性,公式如下
Polarity(sentence)= Polarity(template) * Polarity(negative) ,其中
最后根据事件分类,得到事件的倾向性;设一个事件包含{S1,S2,…Sn}这n个句子,则事件的倾向性计算公式如下
其中sgn为符号函数;
(3-C-3)把抽取出来的事件以及其倾向性存入数据库,并统计正负面比例;本实施例的平均准确率在80%以上,平均召回率在90%以上。
(3-D)话题自动抽取,在海量信息中搜索同一话题的内容,并自动进行归类;采用基于关键词抽取的方法进行话题分析;关键词的抽取算法上面已经介绍,下面介绍话题抽取的算法,基于KESE的话题抽取算法,算法如下
输入:不同类的网络新闻标题的集合组成的列表List<TitleSet>
输出:从每一类新闻标题集合中所抽出来的关键词列表List<Hashtable>
getTopics(List<TitleSet> lt)
{
List<Hashtable> lh;
For (i=0;i<lt.size();i++)
{
PreTitle(lt.get(i)); //对每一类的标题集合进行预处理
Candidates=KESE(lt.get(i)); //对预处理后的每一类标题都应用基于种子扩散的关键词抽取算法
Result=PostPro(Candidates);//对得到的候选关键词进行边界修改、分类等后期处理
lh.add(Result);
}
Return lh;
}。
(4)智能统计分析,根据用户的需求,挖掘数据库里面的结果,分时间,地域,事件对监测到的结果进行统计生成报告,同时生成可视化图表,进行预警。主要采用OLAP分析针对同一个主题,从多个角度对数据进行分析,以政府舆情分析为例,时间的集合是一维,地域的集合是一维,事件的集合是一维;而每段时间,每个地域,每个事件都是某一维的一个成员;通过多维分析,我们可以生成地域和事件的联合分布图标,某个时间段的基于事件的地域分布等。
Claims (1)
1.一种基于语义的网络智能舆情监测系统的工作方法,其特征在于该方法使用的硬件部分包括智能爬虫爬取模块、命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题抽取模块和智能统计分析模块,所述智能爬虫爬取模块用于从互联网上采集舆情信息,并存储到数据库中,所述命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块用于对舆情信息进行智能分析和加工,所述智能统计分析模块把舆情信息中经过分析处理的数据以各种形式展现给用户并提供预警;该方法包括以下步骤:
(1)构建语义本体,用XML文档描述本体,在构建好本体以后,通过解析XML文档,将本体存储到数据库中,便于其它模块使用;具体构建步骤如下
(1-1)确定领域本体层次,将领域本体设计成层次型的结构,分为三个层次,事件层,模板层和概念层,并采用XML文档存储本体;
(1-2)定义常用的事件,每个事件都用模板来具体化;
(2)智能爬虫爬取模块从互联网上采集舆情信息,并存储到数据库中;具体步骤如下
(2-1)在数据库中定义需要采集信息的网站来源,包括新闻网站,论坛以及博客,并统一分成两类,即全国性的网站,和非全国性的网站;
(2-2)智能爬虫爬取模块在指定网站来源爬取指定时间内的网页,下载与本体中定义的事件相关的网页,过滤掉大量与要监控的舆情无关的网页;具体爬取过程如下
(2-2-1)通过本体中定义的事件对网页进行分析,以此将与要监控的事件无关的链接过滤掉,剩下与事件有关的网络链接,将这些与事件有关的链接保留下来,并把它们存入等待抓取网页的URL队列里面;
(2-2-2)完成上一步后,根据预先定义的搜索策略,从前面存入的URL队列中选出根据本搜索策略抓取的网页所对应的URL,重复过程(2-2-1),当满足了系统预设的停止条件后即所有满足条件的网站都已被标记则停止爬取过程;
(2-3)信息预处理,对步骤(2-2)中爬取的网页信息进行处理,具体处理过程如下
(2-3-1)对web文档去web标签,采用htmlparser包提供的方法;
(2-3-2)提取web文档的标题和正文;
(2-3-3)抽取web文档发表的精确的时间;
(2-3-4)web文档中有很多带链接的文字,对后续分析会产生一定的噪音,去掉文档中带链接的文字;
(2-4)如果经预处理格式化后的网页与已经采集到的网页不重复就将下载的格式化后的网页文件储存到本地,供后续步骤使用,并将本地路径存储到数据库中以便读取本地文件;下载的时候存储的格式设定的为标题,内容,日期,网址,网站名;
(3)命名实体抽取模块、概念智能识别模块、基于语义的倾向性分析模块、话题自动抽取模块对采集到的舆情信息进行智能分析和加工;具体步骤如下
(3-A)命名实体自动抽取,自动对舆情监测的内容中包含的人物名称、地点名称和组织机构的名称即命名实体进行识别,并提取与之相关的信息;采用基于CRFs模型和规则的命名实体识别,基于CRFs的中文命名实体识别,关键在于抽取命名实体的合适特性,通过对中文命名实体的特点进行分析定义命名实体的特征,规则方法最主要利用到两种信息,命名实体用字分类和限制性成分,即分析过程中,如果扫描到具有明显特征的命名实体用字时,便开始触发命名实体抽取过程,并且采集命名实体前后相关的成分,对命名实体的前后位置进行相应的限制;
(3-B)概念智能识别,采用基于概念的识别搜索机制,通过自动识别出意义相同的概念,从采集到的舆情信息中过滤无关的信息,得到对某一概念较高准确率的搜索结果;在本体中添加一个关键词时,同时会添加该关键词的同义词,近义词以及网络特殊说法,这一系列的关键词就形成了一个宏观的概念,概念智能识别的步骤如下
(3-B-1)找到经预处理格式化后的网页文档中的关键词;种子这个概念在某种程度上是为了反应一个汉字在一个文本或者文本聚类中的显著程度,为了找到那些能够代表一个文本完整概念的较长的关键词,首先要识别关键词的一个种子,然后依次扩散获得整个关键词;识别关键词的一个种子的方法如下
假设r是参考文本集,参考文本集包括文本集合和其它的统计大文本集合,d是一个文本或者文本集合,w是文本d中的单个汉字,那么用Pr(w) 和Pd(w) 来表示w分别在r和d中出现个概率;我们用条件一,称作w在d和r中的相对概率或者叫w在d和r中的显著度来衡量w是否是一个种子;
条件一,Pd(w) / Pr(w)
如果w满足 Pd(w) / Pr(w)≥δ ,δ为50,那么就把w选作一个种子;
然后进行关键词抽取,主要采用基于种子扩散的关键词抽取算法,给出一文本d中一个关键词所应该满足的条件
条件1,一个关键词至少要包含一个种子
条件2,一个关键词在文本d中至少要出现N次, N为4
条件3,一个关键词的长度要小于L,L为16
条件4,同时满足条件1,2和3的最大字符串是一个关键词
条件5,如果有一个最大真子串,在不考虑它在所有包含它的关键词串中出现的频率的情况下,仍然同时满足条件1,2和3,那么它仍然可以算作是一个关键词;
这里所说的同时满足条件1,2和3的最大字符串指的是同时满足条件1,2和3的相邻的汉字字符串,并且,没有其他包含这个串的更长字符串同时满足条件1,2和3,一个同时满足条件1,2和3的最大真子串指的是不存在更大的真子串包含它并且同时满足这三个条件;
(3-B-2)将得到的关键词与已有的概念进行词汇相似度分析,如果相似度大于某个固定的阈值,根据实验结果经验值,这个阈值设为0.8,就将该种子加入已有的概念中,判定为意义相同的概念,如果没有相似的,就定义一个新的概念;词语相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度,在实际的应用过程中,可以利用词汇之间的距离来计算相似度,对于两个词语W 1 和W 2 ,记其相似度为Sim(W 1 ,W 2 ),其词语距离为Dis(W 1 ,W 2 ),那么可以定义一个满足以上条件的简单的转换关系
其中α是一个可调节的参数,α的含义是当相似度为0.5时的词语距离值,距离越近,相似度越大;
(3-C)基于语义的倾向性分析,实现了对舆情的语义分析,并能给出基于事件的某个侧面的倾向性评价结果;情感倾向性分析作为舆情分析的核心内容,通过对海量信息进行分析和挖掘,从而得到群众对某个事件的情感倾向,可以为企业和政府提供决策支持;
所谓倾向性分析,事实上是一个分类问题,即将事件分为正面和负面两类,这里采用基于模板的倾向性分析;
(3-C-1)对于带有评价词的模板,事先添加极性,即该评价词的褒贬倾向,1表示正面,-1表示负面,并标明评价词的位置,Polarity(template) = 评价对象+情感词;
(3-C-2)当否定词和情感词结合时,句子的极性将会被逆转,因此首先建立一个否定词列表List<negative>,然后对本地文档,即经步骤(2-3)预处理格式化后的文档,用每个事件的每个模板去匹配文本,同时进行句子的倾向性分析;综合考虑模板的极性,否定词可以确定一个句子的倾向性,公式如下
Polarity(sentence)= Polarity(template) * Polarity(negative) ,其中
最后根据事件分类,得到事件的倾向性;设一个事件包含{S1,S2,…Sn}这n个句子,则事件的倾向性计算公式如下
其中sgn为符号函数;
(3-C-3)把抽取出来的事件以及其倾向性存入数据库,并统计正负面比例;
(3-D)话题自动抽取,在海量信息中搜索同一话题的内容,并自动进行归类;
(4)智能统计分析,根据用户的需求,挖掘数据库里面的结果,分时间,地域,事件对监测到的结果进行统计生成报告,同时生成可视化图表,进行预警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210170862.XA CN102708096B (zh) | 2012-05-29 | 2012-05-29 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210170862.XA CN102708096B (zh) | 2012-05-29 | 2012-05-29 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102708096A CN102708096A (zh) | 2012-10-03 |
CN102708096B true CN102708096B (zh) | 2014-10-15 |
Family
ID=46900891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210170862.XA Active CN102708096B (zh) | 2012-05-29 | 2012-05-29 | 一种基于语义的网络智能舆情监测系统及其工作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102708096B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491438A (zh) * | 2017-08-25 | 2017-12-19 | 前海梧桐(深圳)数据有限公司 | 基于自然语言的企业决策要素提取方法及其系统 |
CN108241749A (zh) * | 2018-01-12 | 2018-07-03 | 新华智云科技有限公司 | 由传感器数据生成资讯信息的方法及设备 |
Families Citing this family (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9323736B2 (en) * | 2012-10-05 | 2016-04-26 | Successfactors, Inc. | Natural language metric condition alerts generation |
CN102968494B (zh) * | 2012-11-28 | 2016-09-21 | 青岛海信网络科技股份有限公司 | 通过微博采集交通信息的系统及方法 |
CN103854063B (zh) * | 2012-11-29 | 2017-04-05 | 中国科学院计算机网络信息中心 | 一种基于互联网开放信息的事件发生风险预测并预警方法 |
CN103853738B (zh) * | 2012-11-29 | 2017-06-27 | 中国科学院计算机网络信息中心 | 一种网页信息相关地域的识别方法 |
CN103853700B (zh) * | 2012-11-29 | 2016-09-07 | 中国科学院计算机网络信息中心 | 一种基于区域和对象信息发现的事件预警方法 |
CN103020038A (zh) * | 2012-12-25 | 2013-04-03 | 人民搜索网络股份公司 | 一种网络舆情地域相关度的计算方法 |
CN103150335A (zh) * | 2013-01-25 | 2013-06-12 | 河南理工大学 | 一种基于联合聚类的煤矿舆情监测系统 |
CN104063390A (zh) * | 2013-03-20 | 2014-09-24 | 腾讯科技(深圳)有限公司 | 一种微博数据处理方法及系统 |
CN103246644B (zh) * | 2013-04-02 | 2017-05-03 | 亿赞普(北京)科技有限公司 | 一种网络舆情信息处理方法和装置 |
CN103235818A (zh) * | 2013-04-27 | 2013-08-07 | 北京百度网讯科技有限公司 | 一种基于网页情感倾向性的信息推送方法和装置 |
CN103268350B (zh) * | 2013-05-29 | 2017-02-08 | 安徽雷越网络科技有限公司 | 一种互联网舆情信息监测系统及监测方法 |
US20140358521A1 (en) * | 2013-06-04 | 2014-12-04 | Microsoft Corporation | Capture services through communication channels |
CN104063412A (zh) * | 2013-09-22 | 2014-09-24 | 江苏金鸽网络科技有限公司 | 一种适用于互联网分析的本体构建方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN103544255B (zh) * | 2013-10-15 | 2017-01-11 | 常州大学 | 基于文本语义相关的网络舆情信息分析方法 |
CN103617212A (zh) * | 2013-11-19 | 2014-03-05 | 北京京东尚科信息技术有限公司 | 一种处理舆情数据的方法和系统 |
CN104657393A (zh) * | 2013-11-25 | 2015-05-27 | 深圳市至高通信技术发展有限公司 | 一种舆情分析方法及相应的装置 |
CN103744877A (zh) * | 2013-12-20 | 2014-04-23 | 潘大庆 | 部署于互联网的舆情监测应用系统及运用方法 |
CN103902659B (zh) * | 2014-03-04 | 2017-06-27 | 深圳市至高通信技术发展有限公司 | 一种舆情分析方法及相应的装置 |
CN104915361A (zh) * | 2014-03-14 | 2015-09-16 | 腾讯科技(深圳)有限公司 | 一种数据信息的展示方法及装置 |
CN103955505B (zh) * | 2014-04-24 | 2017-09-26 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
CN105096022A (zh) * | 2014-05-23 | 2015-11-25 | 中兴通讯股份有限公司 | 一种用于联络中心的数据分析方法及装置 |
EP3155536A4 (en) * | 2014-06-12 | 2017-11-22 | Nokia Technologies Oy | Method, apparatus, computer program product and system for reputation generation |
CN104035997B (zh) * | 2014-06-13 | 2017-05-10 | 淮阴工学院 | 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 |
CN104199845B (zh) * | 2014-08-08 | 2018-05-29 | 杭州电子科技大学 | 基于主体模型的网上评论情感分类方法 |
CN104636408B (zh) * | 2014-08-21 | 2017-08-08 | 中国科学院计算技术研究所 | 基于用户生成内容的新闻认证预警方法及系统 |
CN104408157A (zh) * | 2014-12-05 | 2015-03-11 | 四川诚品电子商务有限公司 | 一种网络舆情漏斗式数据采集分析推送系统及方法 |
CN104516961A (zh) * | 2014-12-18 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种基于地域的话题挖掘及话题走势分析方法及系统 |
CN104572616B (zh) * | 2014-12-23 | 2018-04-24 | 北京锐安科技有限公司 | 文本倾向性的确定方法和装置 |
CN104504150B (zh) * | 2015-01-09 | 2017-09-29 | 成都布林特信息技术有限公司 | 新闻舆情监测系统 |
CN104504151B (zh) * | 2015-01-09 | 2017-08-25 | 成都布林特信息技术有限公司 | 微信舆情监测系统 |
CN104537097B (zh) * | 2015-01-09 | 2017-08-11 | 成都布林特信息技术有限公司 | 微博舆情监测系统 |
CN104933093B (zh) * | 2015-05-19 | 2018-08-07 | 武汉泰迪智慧科技有限公司 | 基于大数据的地区舆情监控及决策辅助系统和方法 |
CN106294398A (zh) * | 2015-05-21 | 2017-01-04 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN105718587A (zh) * | 2016-01-26 | 2016-06-29 | 王薇 | 一种网络内容资源评估方法及评估系统 |
CN105787073A (zh) * | 2016-03-02 | 2016-07-20 | 上海源庐加佳信息科技有限公司 | 一种基于大数据挖掘技术的企业信用评价方法 |
CN105808712A (zh) * | 2016-03-07 | 2016-07-27 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
CN106095903A (zh) * | 2016-06-08 | 2016-11-09 | 成都三零凯天通信实业有限公司 | 一种基于深度学习技术的广播电视舆情分析方法及系统 |
CN107544988B (zh) * | 2016-06-27 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 一种获取舆情数据的方法和装置 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN106257458A (zh) * | 2016-07-15 | 2016-12-28 | 合肥指南针电子科技有限责任公司 | 一种舆情信息归类评估系统 |
CN106294619A (zh) * | 2016-08-01 | 2017-01-04 | 上海交通大学 | 舆情智能监管方法 |
CN107783973B (zh) * | 2016-08-24 | 2022-02-25 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN106339159A (zh) * | 2016-08-25 | 2017-01-18 | 乐视控股(北京)有限公司 | 字符选择处理方法、终端和语义分析服务器 |
CN106484902A (zh) * | 2016-10-21 | 2017-03-08 | 天津海量信息技术股份有限公司 | 基于网络数据对某一事件正负面影响的判断 |
CN106570171B (zh) * | 2016-11-03 | 2020-11-20 | 中国电子科技集团公司第二十八研究所 | 一种基于语义的科技情报处理方法及系统 |
CN106484915B (zh) * | 2016-11-03 | 2019-10-11 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
CN106649578A (zh) * | 2016-11-17 | 2017-05-10 | 华北理工大学 | 一种基于社交网络平台的舆情分析方法及系统 |
TWI629660B (zh) * | 2016-12-09 | 2018-07-11 | 鼎漢國際工程顧問股份有限公司 | 大數據分析之客運營運管理服務評鑑方法 |
CN106919700B (zh) * | 2017-03-09 | 2020-05-22 | 华北电力大学 | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 |
CN106951409A (zh) * | 2017-03-17 | 2017-07-14 | 黄淮学院 | 一种网络社交媒体观点倾向性分析系统及方法 |
CN107239489A (zh) * | 2017-04-21 | 2017-10-10 | 南京理工大学 | 基于soar模型的突发事件中网络舆情的预测与仿真方法 |
CN107093021A (zh) * | 2017-04-21 | 2017-08-25 | 深圳市创艺工业技术有限公司 | 电网工程物资合同履约诚信舆情监控系统 |
CN107293309B (zh) * | 2017-05-19 | 2021-04-30 | 四川新网银行股份有限公司 | 一种基于客户情绪分析提升舆情监控效率的方法 |
CN107329970A (zh) * | 2017-05-23 | 2017-11-07 | 成都联宇云安科技有限公司 | 一种针对手机管控系统舆情大数据进行分析处理的方法 |
CN107229735A (zh) * | 2017-06-13 | 2017-10-03 | 成都布林特信息技术有限公司 | 基于自然语言处理的舆情信息分析预警方法 |
CN107194617B (zh) * | 2017-07-06 | 2020-11-24 | 北京航空航天大学 | 一种app软件工程师软技能分类系统及方法 |
CN107391490A (zh) * | 2017-08-03 | 2017-11-24 | 武汉烽火普天信息技术有限公司 | 一种智能语义分析与文本挖掘方法 |
CN107590733A (zh) * | 2017-08-08 | 2018-01-16 | 杭州灵皓科技有限公司 | 基于地理经济和社交关系的网贷平台风险评估方法 |
CN107590193A (zh) * | 2017-08-14 | 2018-01-16 | 安徽晶奇网络科技股份有限公司 | 一种政务舆情监测管理系统 |
CN107491548A (zh) * | 2017-08-28 | 2017-12-19 | 武汉烽火普天信息技术有限公司 | 一种网络舆情文本信息推荐及可视化方法 |
CN107679084B (zh) * | 2017-08-31 | 2021-09-28 | 平安科技(深圳)有限公司 | 聚类标签生成方法、电子设备及计算机可读存储介质 |
CN107704621A (zh) * | 2017-10-27 | 2018-02-16 | 西南财经大学 | 一种互联网舆情地图可视化展示方法 |
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN108009229A (zh) * | 2017-11-29 | 2018-05-08 | 厦门市美亚柏科信息股份有限公司 | 舆情事件数据发现的方法、终端设备及存储介质 |
CN108153878A (zh) * | 2017-12-26 | 2018-06-12 | 中国联合网络通信集团有限公司 | 一种信息情报资源池建立方法及系统 |
CN108595472A (zh) * | 2018-03-07 | 2018-09-28 | 合肥工业大学 | 一种基于语义分析的政府网站舆情监测系统 |
CN108416034B (zh) * | 2018-03-12 | 2021-11-16 | 宿州学院 | 基于金融异构大数据的信息采集系统及其控制方法 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和系统 |
CN108509398B (zh) * | 2018-03-28 | 2019-04-12 | 掌阅科技股份有限公司 | 对话小说的生成方法、计算设备及计算机存储介质 |
CN108550380A (zh) * | 2018-04-12 | 2018-09-18 | 北京深度智耀科技有限公司 | 一种基于公共网络的药品安全信息监测方法和装置 |
CN108959432A (zh) * | 2018-06-11 | 2018-12-07 | 颜彦 | 一种基于大数据的融媒体舆情监测方法 |
CN109003624B (zh) * | 2018-06-29 | 2022-02-15 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN110929026B (zh) * | 2018-09-19 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 一种异常文本识别方法、装置、计算设备及介质 |
CN109359299A (zh) * | 2018-09-28 | 2019-02-19 | 中国电子科技集团公司信息科学研究院 | 一种基于商品数据的物联网设备能力本体自构建方法 |
CN109446465A (zh) * | 2018-11-10 | 2019-03-08 | 杨果 | 一种教育网络舆情监测及管理系统 |
CN109492162A (zh) * | 2018-11-23 | 2019-03-19 | 四川工大创兴大数据有限公司 | 一种智能化粮情监测方法及其系统 |
CN109614550A (zh) * | 2018-12-11 | 2019-04-12 | 平安科技(深圳)有限公司 | 舆情监控方法、装置、计算机设备及存储介质 |
CN109711613A (zh) * | 2018-12-24 | 2019-05-03 | 武汉烽火众智数字技术有限责任公司 | 一种基于人员关系模型和事件关联模型的预警方法及系统 |
CN109857933A (zh) * | 2019-01-21 | 2019-06-07 | 深圳市祥云万维科技有限公司 | 一种关键词分析系统与方法 |
CN110134842B (zh) * | 2019-04-03 | 2021-08-31 | 深圳价值在线信息科技股份有限公司 | 基于信息图谱的信息匹配方法、装置、存储介质和服务器 |
CN110134844A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 细分领域舆情监控方法、装置、计算机设备及存储介质 |
CN110110156A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 行业舆情监控方法、装置、计算机设备及存储介质 |
CN110134845A (zh) * | 2019-04-04 | 2019-08-16 | 平安科技(深圳)有限公司 | 项目舆情监控方法、装置、计算机设备及存储介质 |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
CN112711693B (zh) * | 2019-10-24 | 2024-04-09 | 富驰律法(北京)科技有限公司 | 一种基于多特征融合的诉讼线索挖掘方法及系统 |
CN110825945A (zh) * | 2019-10-29 | 2020-02-21 | 深圳前海环融联易信息科技服务有限公司 | 负面舆论收集方法、装置、计算机设备及存储介质 |
CN110956210B (zh) * | 2019-11-29 | 2023-03-28 | 重庆邮电大学 | 一种基于ap聚类的半监督网络水军识别方法及系统 |
CN111538887B (zh) * | 2020-04-30 | 2023-11-10 | 贵阳杰汇数字创新中心有限公司 | 一种基于人工智能的大数据图文识别系统及方法 |
CN111914087B (zh) * | 2020-07-30 | 2023-09-19 | 广州城市信息研究所有限公司 | 一种舆情分析方法 |
CN112100374A (zh) * | 2020-08-28 | 2020-12-18 | 清华大学 | 文本聚类方法、装置、电子设备及存储介质 |
CN112215012A (zh) * | 2020-10-22 | 2021-01-12 | 国网福建省电力有限公司 | 基于条件随机场的配电网检修单安全措施语义解析方法 |
CN112650848A (zh) * | 2020-12-30 | 2021-04-13 | 交控科技股份有限公司 | 基于文本语义相关乘客评价的城铁舆情信息分析方法 |
CN112883734B (zh) * | 2021-01-15 | 2023-01-10 | 成都链安科技有限公司 | 区块链安全事件舆情监测方法及系统 |
CN112929235B (zh) * | 2021-02-06 | 2022-02-11 | 珠海市鸿瑞信息技术股份有限公司 | 一种基于互联网的网络监测系统 |
CN113067950A (zh) * | 2021-03-17 | 2021-07-02 | 杭州元声象素科技有限公司 | 一种智能讯呼平台 |
CN113536133B (zh) * | 2021-07-30 | 2023-04-11 | 西安康奈网络科技有限公司 | 基于单一舆情事件的互联网数据处理方法 |
CN113435212B (zh) * | 2021-08-26 | 2021-11-16 | 山东大学 | 一种基于规则嵌入的文本推断方法及装置 |
CN114692593B (zh) * | 2022-03-21 | 2023-04-07 | 中国刑事警察学院 | 一种网络信息安全监测预警方法 |
CN115168686B (zh) * | 2022-07-25 | 2023-05-12 | 江苏金农股份有限公司 | 一种基于特征词的舆情线索处理方法 |
CN115640463A (zh) * | 2022-11-18 | 2023-01-24 | 太极计算机股份有限公司 | 一种互联网舆情监测分析系统 |
CN115757793B (zh) * | 2022-11-29 | 2023-09-05 | 海南达润丰企业管理合伙企业(有限合伙) | 基于人工智能的话题分析预警方法、系统及云平台 |
CN117786249A (zh) * | 2023-12-27 | 2024-03-29 | 王冰 | 网络实时热点话题挖掘解析与舆情提炼系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
-
2012
- 2012-05-29 CN CN201210170862.XA patent/CN102708096B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101408883A (zh) * | 2008-11-24 | 2009-04-15 | 电子科技大学 | 一种网络舆情观点收集方法 |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
CN101751458A (zh) * | 2009-12-31 | 2010-06-23 | 暨南大学 | 一种网络舆情监控系统及方法 |
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491438A (zh) * | 2017-08-25 | 2017-12-19 | 前海梧桐(深圳)数据有限公司 | 基于自然语言的企业决策要素提取方法及其系统 |
CN108241749A (zh) * | 2018-01-12 | 2018-07-03 | 新华智云科技有限公司 | 由传感器数据生成资讯信息的方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102708096A (zh) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102708096B (zh) | 一种基于语义的网络智能舆情监测系统及其工作方法 | |
Salloum et al. | Analysis and classification of Arabic newspapers’ Facebook pages using text mining techniques | |
CN104933164B (zh) | 互联网海量数据中命名实体间关系提取方法及其系统 | |
Venugopalan et al. | Exploring sentiment analysis on twitter data | |
CN103136360B (zh) | 一种互联网行为标注引擎及对应该引擎的行为标注方法 | |
Kang et al. | Modeling user interest in social media using news media and wikipedia | |
CN107577759A (zh) | 用户评论自动推荐方法 | |
CN101751458A (zh) | 一种网络舆情监控系统及方法 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN104408093A (zh) | 一种新闻事件要素抽取方法与装置 | |
Zhou et al. | Real world city event extraction from Twitter data streams | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
Geçkil et al. | A clickbait detection method on news sites | |
CN103049542A (zh) | 一种面向领域的网络信息搜索方法 | |
CN103886020A (zh) | 一种房地产信息快速搜索方法 | |
CN103246644A (zh) | 一种网络舆情信息处理方法和装置 | |
Archchitha et al. | Opinion spam detection in online reviews using neural networks | |
Lv et al. | Text analytics for supporting stakeholder opinion mining for large-scale highway projects | |
CN111859065A (zh) | 一种基于大数据的舆情聆听系统 | |
Schatten et al. | An introduction to social semantic web mining & big data analytics for political attitudes and mentalities research | |
Wang et al. | Seeft: Planned social event discovery and attribute extraction by fusing twitter and web content | |
CN103823847A (zh) | 一种关键词的扩充方法及装置 | |
Tran et al. | Automatic Detection of Outdated Information in Wikipedia Infoboxes. | |
Zamiralov et al. | Detection of housing and utility problems in districts through social media texts | |
Menchavez et al. | Fun in the philippines: Automatic identification and sentiment analysis of tourism-related tweets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160729 Address after: 430223, No. 8, Wuhan international road, 78 Optics Valley Road, Jiangxia District, Hubei, China Patentee after: WUHAN HUAAN SCIENCE AND TECHNOLOGY CO., LTD. Address before: 17, building 430000, block A, Hubei bank building, No. 81 North Central Road, Wuchang District, Wuhan, Hubei Patentee before: Dai Song |