CN104573016A - 一种基于行业的垂直舆情分析系统及方法 - Google Patents

一种基于行业的垂直舆情分析系统及方法 Download PDF

Info

Publication number
CN104573016A
CN104573016A CN201510012853.1A CN201510012853A CN104573016A CN 104573016 A CN104573016 A CN 104573016A CN 201510012853 A CN201510012853 A CN 201510012853A CN 104573016 A CN104573016 A CN 104573016A
Authority
CN
China
Prior art keywords
analysis
consumer electronics
industry
word segmentation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510012853.1A
Other languages
English (en)
Inventor
李成华
刘丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Original Assignee
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd filed Critical WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority to CN201510012853.1A priority Critical patent/CN104573016A/zh
Publication of CN104573016A publication Critical patent/CN104573016A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于行业的垂直舆情分析系统,其包括如下模块:采集预处理模块,用于对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息;分词模块,用于通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果;分析模块,用于通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;并用于根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息;显示模块,用于将经过分析处理的信息推送给用户。本发明还提供一种基于行业的垂直舆情分析方法。

Description

一种基于行业的垂直舆情分析系统及方法
技术领域
本发明涉及舆情分析技术领域,特别涉及一种基于行业的垂直舆情分析系统及方法。
背景技术
随着互联网在全球范围内的飞速发展,网络成为反映社会舆情的主要载体之一。网络媒体作为一种新的信息传播形式,已深入人们的日常生活。对企业而言,了解客户目前的想法的非常重要的。在互联网和社交媒体时代,一个品牌的价值是建立在客户对你提供的产品和服务的观点和评价以及客户接触点的经验上。你越了解和懂你的客户,你的生产和市场营销就会变得越有效。对竞争情报的获取和分析能够使我们能够时时处于主动,所谓知己知彼,百战不殆,对我们自身产品的了解和对竞争对手产品的分析,能够让我们掌握重要的信息,及时做战略调整,产品优化和服务改进。此外,一旦发生突发事件,就很容易被发布到互联网中进行传播,引起消费者的各种反应,包括一些负面的、消极的,也就可能会引起混乱。因此对突发事件的相关报道和媒体信息进行分析、预警,此时显得尤为重要,只有做好这些,才能做到防患于未然。然而在互联网信息的海洋中,有价值的信息不是信手拈来的,如何获取有价值的信息这是难点所在;另一方面,信息的价值是仁者见仁智者见智的,在别人眼里没有价值的信息,经过科学挖掘,就形成具有较高价值的信息。
国外研究现状
国外对自然语言处理方面的研究起步比较早,其中基于关键词统计分析方法的技术相对比较成熟,但是在有效性方面还有很大的提升空间。
1、英国科波拉软件公司推出的一款叫“感情色彩”的软件,能够对网上发布的新闻报道、网站等电子文章进行自动分析,得到民众的基本观点,从中判断该报道是正面、负面还是中立的。为相关政府机构提供公关意见,也可以帮助某些公司了解公众对他们的看法。
2、美国的TDT话题检测与跟踪(Topic Detection and Tracking)系统是最知名的网络舆情分析系统,这个概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据现实的需求,提出要开发一种能在没有人工干预的情况下自动判断新闻数据流主题的需求。在1997年,研究者开始此需求进行初步研究,并取得了一些初步成果,包括建立了一个针对TDT研究的预研语料库,研究的内容包括寻找内在主题一致的文本片断,也就是给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,并且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所
(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。
TDT主要涉及了5个子任务,分别是:报道切分,新报道识别,关联识别,话题识别和话题跟踪。通过这5个子任务之间的相辅相成,有机的整体就组成了,TDT项目在研究中积累的丰富的文本分类算法给目前解决网络舆情分析中的话题发现和追踪问题做了很好的引导作用。
国内研究现状
在国内方面,近几年在信息处理领域内成型的软件产品也很多,下面以国内两个比较出色的系统作为代表,介绍国内研究的现状:北京方正电子政务技术有限公司推出的方正智思舆情预警辅助决策支持系统和谷尼国际软件(北京)有限公司推出的Goonie网络舆情监控分析系统。
1、北京方正下电子政务技术有限公司推出的方正智思舆情预警辅助决策支持系统,以整合互联网搜索引擎技术和自然语言处理技术,通过知识管理的方法,对互联网海量信息进行自动抓取、分类和聚类、主题检测和专题聚焦,实现用户对互联网信息的监测和追踪等需求,得到以简报,报表或图表等多种形式的分析结果,为系统用户全面了解互联网用户的思想动态,做出正确的舆论引导,提供合理的分析依据。
2、谷尼国际软件(北京)有限公司推出的Goonie网络舆情监控分析系统依托自主研发的搜索引擎技术和文本挖掘技术,通过网页信息的自动采集处理、敏感词过滤、自动聚类、分类、主题检测、专题聚焦、统计分析,完成各部分对自己相关网络舆情监督管理的需要,最终形成舆情简报、分析报告、移动快报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。
但是现有的互联网舆情监测系统的实际使用效果并不理想,主要原因是现有系统对采集到的评论文本的情感倾向性分析不足、没有建立很好的解决方案。监测系统中如果没有对评论文本的情感倾向的分析,将使其不能有效地对互联网舆情进行自动分析而不能建立起有效且快速的舆情监测预警机制,进而不能有效阻止各种负面信息在互联网中的蔓延。
发明内容
为了解决现有的互联网舆情监测系统对采集到的评论文本的情感倾向性分析不足、没有建立很好的解决方案。监测系统中如果没有对评论文本的情感倾向的分析,将使其不能有效地对互联网舆情进行自动分析而不能建立起有效且快速的舆情监测预警机制,进而不能有效阻止各种负面信息在互联网中的蔓延的缺点,提出一种基于行业的垂直舆情分析系统及方法,定制化地实现消费电子行业特有的舆情方面的需求。
一种基于行业的垂直舆情分析系统,其包括如下模块:
采集预处理模块,用于对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息;
分词模块,用于通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果;
分析模块,用于通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;并用于根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息;
显示模块,用于将经过分析处理的信息推送给用户。
一种基于行业的垂直舆情分析方法,其包括如下步骤:
S1、对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息;
S2、通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果;
S3、通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息;
S4、将经过分析处理的信息推送给用户。
本发明提供的基于行业的垂直舆情分析系统及方法通过对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息可以获得全面的与电子行业消息相关的信息,并且通过预处理得到格式化的消费电子行业信息,使得后续的分析过程更为有效。通过通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果,可以提高分词的准确性,不再依赖于传统技术通过收集行业或产品知识库,能够基于理解和统计对分词结果进行修正,进一步地提高了分词的效率。通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息,能够有效地针对采集到的评论文本进行情感倾向性分析,从而有效地对互联网舆情进行自动分析,建立起有效且快速的舆情监测预警机制,有效阻止各种负面信息在互联网中的蔓延。
附图说明
图1是本发明实施的基于行业的垂直舆情分析系统结构框图;
图2是图1中分词模块的结构框图;
图3是图1中分析模块的结构框图;
图4是本发明实施的基于行业的垂直舆情分析方法流程图;
图5是图4中步骤S2的子流程图;
图6是图4中步骤S3的子流程图。
具体实施方式
如图1所示,一种基于行业的垂直舆情分析系统,其包括如下模块:
采集预处理模块,用于对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息。
可选地,所述采集预处理模块中消费电子行业相关的互联网信息来源包括新闻网页、论坛、贴吧、网络博客、网站中的一种或几种。比如互联网和社交平台,如谷歌、百度、搜搜、奇虎、新浪微博、腾讯微博及中怡康数据等等。
采集的方式包括通过URL采集器、http分析器、网络爬虫中的一种或几种对消费电子行业相关的互联网信息进行采集;将采集到的消费电子行业相关的互联网信息存储到关系型数据库以及非关系型数据库。
对采集到的消费电子行业相关的互联网信息进行预处理包括数据清理、数据去重、数据格式化得到格式化的消费电子行业消息。
分词模块,用于通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果。
对消费电子行业相关的互联网信息(新闻、博客、论坛等)的实时监测、数据采集、内容提取和排重。现有的信息采集技术主要是以某几个或者有限数量的网址为入口,进行采集,通过对网页中链接进行提取,为下一轮采集提供信息,进而向整个网络进行扩展。这也是搜索引擎的一项技术,目前一些搜索引擎网站是针对整个互联网中的网页进行采集,如百度,Google等。垂直舆情分析方法和系统通过此功能模块为整个系统提供数据,得到分析的对象,采集预处理模块也是整个系统的起始模块。
完成了对行业数据的采集之后,需要对信息采集模块获取的信息进行预处理,包括数据清理、数据去重、数据格式化等。如对论坛提取其中帖子的标题、内容、发帖时间、发帖人、回帖数量、回帖人、回帖内容等信息;对新闻评论提取其中的标题、来源、时间、点击量、评论内容、评论人等。然后保存这些格式化的信息。
可选地,如图2所示,所述分词模块包括如下单元:
存储单元,用于在系统词库中预先存储消费电子常用词汇,并对预先存储消费电子常用词汇进行分类统计得到统计结果,并判断常用词汇之间的逻辑关系。
匹配单元,用于通过字符串匹配算法对格式化的消费电子行业消息进行匹配。
修正单元,用于根据存储单元中的统计结果以及逻辑关系对匹配结果进行修正得到分词结果。
中文分词是中文信息处理的基础和关键,中文分词的好坏直接影响到文本分析和挖掘的效果。词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,中文比之英文要复杂的多、困难的多。
字符串匹配算法是按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。该方法的准确性依赖于行业或者产品知识库。
本发明实施例通过字符串匹配算法结合基于理解和统计进行中文分词,在通过字符串匹配的同时,通过理解和统计进行中文分词的修正,使整个分词结果的准确,不再依赖于系统所搜集或链接的行业或产品知识库,而是通过网络统计和人工智能算法理解进行实时修正。具体步骤如下:
通过系统词库中,消费电子常用词汇,屏幕,遥控,安卓,质量,行业知名企业名称,高清,画质,音质,影片,电视节目,频道,电视台,质量,保修期,压缩机等等家电行业词汇,消费电子行业词汇,竞争公司词汇等的知识库里的词条进行匹配。
将分词结果,根据存储单元中的统计结果以及逻辑关系对匹配结果进行修正得到分词结果。
分析模块,用于通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;并用于根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息。
可选地,如图3所示,所述分析模块包括如下单元:
文本聚类分类单元,用于通过自组织神经网络算法、K近邻算法、遗传算法将抓取的文档的分词结果中的文章或文本信息进行相似性的比较,将相似的文章或文本信息归为同一组实现文本聚类和文本分类。
文本聚类是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术,属于无监督学习,聚类没有任何先验知识,没有事先预定的类别,类别数不确定,不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。本发明提出基于行业的垂直舆情分析方法和系统中的自适应聚类算法模块,针对网络抓取内容的分词结果,自适应的选择系统内部的集成文本聚类算法模块,主要包括k邻近算法,遗传算法,自组织神经网络算法等。
文本的自动分类算法针对网络抓取内容的分词结果,自动的选择系统内部的集成文本分类算法模块,如神经网络,K近邻算法,支持向量机。该自动分类算法模块,是有监督学习算法,有先验知识进行学习(类别信息),把未知类别的文本信息归类到已知的类别中去,类别数固定不变,分类器需要由人工标注的分类训练语料训练得到。
抓取后的分词结果通过对文档中关键词的频率和相似度进行文档的自动聚类和自动分类,信息类别可以分为与企业相关信息,竞争企业信息,产品信息,如电视,冰箱,空调,洗衣机,手机等,某一具体产品信息又分为产品价格,服务,功能,质量等。
热点/敏感话题分析单元,用于分析文档的分词结果中关键词,得到并统计话题词组出现的频率以及更新的频率,并根据统计结果生成热点/敏感话题列表。
通过对海量网页数据进行深度挖掘,通过对关键词进行分析比较,统计话题词组出现的频率,更新频率。根据出现频率的高低对话题进行热点归类。对当前互联网争论的热点话题进行分析、发现。统计出当前热点话题列表。对特定话题进行跟踪分析,关注其回帖率,并支持按时间段跟踪统计分析。舆论导向分析,对热点话题进行褒贬分析,舆论导向分析,敏感话题分析,自动发现热点话题中的敏感话题,或者发现特定敏感话题。
倾向性分析单元,用于在系统词库中预先存储褒义、贬义、中性词,将话题词组与预先存储的褒义、贬义、中性词进行比较,判断话题词组的褒义、贬义或者中性,从而判断网页的倾向性。
倾向性分析对特定话题进行褒义、贬义分析。通过对自定义话题进行跟踪分析,统计分析涉及该话题的网页的负面内容。通过系统内置褒义、贬义词库,对网页内容进行智能分析,判断网页的褒义、贬义导向。判断是正面信息,中性信息,还是负面信息。褒义、贬义词库根据行业或者产品等具体的信息进行采集(如对电视,褒义词有内容丰富,清晰,贬义词有画质不好,屏幕漏光,死机等;对空调,有制冷效果好/不好,手机,通话效果好/不好等)。
趋势分析单元,根据热点/敏感话题列表以及网页的倾向性结果进行统计,并生成随时间变化的热点趋势跟踪统计曲线图。
对自然话题和特点的话题进行热点趋势跟踪分析。当自然形成的某类话题达到一定舆情热度时,对该话题进行跟踪统计分析,统计其出现的网页数量,进行按时间的热点统计,形成跟踪统计曲线图。通过系统设定的热点话题,对该类热点话题进行跟踪,当该类话题达到一定舆情热度时,即出现的网页数量,即对该话题进行跟踪统计,形成曲线图。同时可进行告警。
显示模块,用于将经过分析处理的信息推送给用户。
将采集并分析处理后的信息通过各种表现方式为用户直接或间接地提供信息服务,如自动生成舆情信息简报、对已发现的舆论焦点进行追踪并形成趋势分析,用于为满足各种用户的不同需求,提供决策支持。以图表形式显示统计分析结果,结果包括,热点,敏感话题的分析,倾向性分析(正面,中性,负面)趋势分析等。
此外,通过竞争信息分析可以把自家产品和竞品进行诸如价格,质量,功能,服务等的多维分析,并加以直观地展现。
本发明提供的基于行业的垂直舆情分析系统及方法通过对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息可以获得全面的与电子行业消息相关的信息,并且通过预处理得到格式化的消费电子行业信息,使得后续的分析过程更为有效。通过通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果,可以提高分词的准确性,不再依赖于传统技术通过收集行业或产品知识库,能够基于理解和统计对分词结果进行修正,进一步地提高了分词的效率。通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息,能够有效地针对采集到的评论文本进行情感倾向性分析,从而有效地对互联网舆情进行自动分析,建立起有效且快速的舆情监测预警机制,有效阻止各种负面信息在互联网中的蔓延。
实施本发明实施例的意义在于:
在企业层面
A、抓取所有企业和竞争对手的网络媒体信息,自动识别和分类不同企业的信息找出与竞争对手之间的不同或者差异,有针对性地进行战略调整和差异化路线。
B、抓取所有企业的网络媒体信息,自动识别是哪种性质的评论信息:(正面,中性,负面),识别其来源并对其采取相应的对策,(如对发负面消息的客户进行安抚和补偿)。
C、抓取所有行业的网络媒体信息,自动识别是哪种性质的信息(主动传播,被动传播),并对信息进行有效监控,引导和预警。
在产品层面
A、抓取所有企业产品的网络媒体信息,自动识别是哪种性质的评论信息:产品的服务,产品的质量,产品的价格,产品的功能等。针对评论的分析结果及时做产品优化和服务改进。
B、抓取所有企业产品的网络媒体信息,自动识别是什么产品(电视/空调/手机/冰箱等等)的信息。针对不同的产品信息和客户评价的信息进行相应的调整。
C、抓取所有行业相关的网络媒体信息,自动识别企业与其竞争对手的信息,发扬自家产品优势,避开或弥补不足。
本发明实施例还有以下优点:
1、提高效率,用机器代替人工的数据采集,分析工作。在使用人工的方式进行数据采集和分析工作,工作人员往往只能通过标题人为地判断信息的类别(包括是哪个公司的,什么产品的,正面的,负面的信息等等),在海量信息的情况下做重复性的工作,往往会使工作人员变的疲惫和不堪其烦,而且容易出错。在集团全面提效的情况下,这种工作方式变得极不和谐。
2、提高对事件反应的及时性。舆情分析人员经常会遇到的问题是:当一个事件最初发生的时候,如果能够及时发现并加以处理,会以很小的成本就可以完美的搞定,但如果一旦过了每个事件点,事态开始变得严重,处理的代价会变的很昂贵。但由于人工检测往往很难做到非常及时,所以通过系统的预警功能来发现和处理将会变得非常重要。
3、提高信息获取的覆盖率和全面性。使用人工的方式来处理舆情的信息,往往会比较片面,因为人工方式很难穷举所有的信息来源,可能只能通过采集和分析局部的数据,在同一个数据标准下对每个企业,产品的信息进行统计和对比,虽然保证了一定的公平性,但局部数据的统计效果相当全局和整体的数据还是会有偏差,所以,通过舆情系统的使用,能够提高信息获取的全面性,提高数据的覆盖率,提高分析的准确性。
此外,舆情分析还能够给消费电子行业内企业带来:
1、通过对信息的分析和处理,洞察客户的偏好和未知的趋势。
2、通过对公司,产品,服务信息的分析来量化对市场的感知。
3、实时而准确地采集各大行业论坛中的信息,从中了解消费者的需
求与反馈,从而发现市场趋势与商业机会。
4、准确地从网络公共信息中采集销售线索,潜在客户的资料。
5、准确地从网络公共信息中采集本行业上万种产品的产品信息(描
述,价格等),图片,技术文档等。
如图4所示,本发明实施例还提供一种基于行业的垂直舆情分析方法,其包括如下步骤:
S1、对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息。
可选地,所述步骤S1中消费电子行业相关的互联网信息来源包括新闻网页、论坛、贴吧、网络博客、网站中的一种或几种;
采集的方式包括通过URL采集器、http分析器、网络爬虫中的一种或几种对消费电子行业相关的互联网信息进行采集;将采集到的消费电子行业相关的互联网信息存储到关系型数据库以及非关系型数据库;
对采集到的消费电子行业相关的互联网信息进行预处理包括数据清理、数据去重、数据格式化得到格式化的消费电子行业消息。
S2、通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果。
可选地,如图5所示,所述步骤S2包括如下步骤:
S21、在系统词库中预先存储消费电子常用词汇,并对预先存储消费电子常用词汇进行分类统计得到统计结果,并判断常用词汇之间的逻辑关系。
S22、通过字符串匹配算法对格式化的消费电子行业消息进行匹配。
S23、根据步骤S21中的统计结果以及逻辑关系对匹配结果进行修正得到分词结果。
其具体包括:第一步,通过字符串匹配算法进行分词匹配;第二步,用基于上下理解进行修正;第三步,用基于统计的方法进行分词结果修正;例如字符串“…出版社会…”可能分词结果为“…出版/社会…”和“…出版社/会…”,而到底是哪个分词结果需要根据整篇文章的主题和对上下文的理解来确定,另外也会根据出版与社这个词同时出现的时候出版单独分词的概率以及出版社一起出现的概率来最终确定对字符串“…出版社会…”分词结果。
S3、通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息。
可选地,如图6所示,所述步骤S3包括如下步骤:
S31、通过自组织神经网络算法、K近邻算法、遗传算法将抓取的文档的分词结果中的文章或文本信息进行相似性的比较,将相似的文章或文本信息归为同一组实现文本聚类和文本分类。
S32、分析文档的分词结果中关键词,得到并统计话题词组出现的频率以及更新的频率,并根据统计结果生成热点/敏感话题列表。
S33、在系统词库中预先存储褒义、贬义、中性词,将话题词组与预先存储的褒义、贬义、中性词进行比较,判断话题词组的褒义、贬义或者中性,从而判断网页的倾向性。
S34、根据热点/敏感话题列表以及网页的倾向性结果进行统计,并生成随时间变化的热点趋势跟踪统计曲线图。
S4、将经过分析处理的信息推送给用户。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可檫除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (8)

1.一种基于行业的垂直舆情分析系统,其特征在于,其包括如下模块:
采集预处理模块,用于对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息;
分词模块,用于通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果;
分析模块,用于通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;并用于根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息;
显示模块,用于将经过分析处理的信息推送给用户。
2.如权利要求1所述的基于行业的垂直舆情分析系统,所述采集预处理模块中消费电子行业相关的互联网信息来源包括新闻网页、论坛、贴吧、网络博客、网站中的一种或几种;
采集的方式包括通过URL采集器、http分析器、网络爬虫中的一种或几种对消费电子行业相关的互联网信息进行采集;将采集到的消费电子行业相关的互联网信息存储到关系型数据库以及非关系型数据库;
对采集到的消费电子行业相关的互联网信息进行预处理包括数据清理、数据去重、数据格式化得到格式化的消费电子行业消息。
3.如权利要求2所述的基于行业的垂直舆情分析系统,其特征在于,所述分词模块包括如下单元:
存储单元,用于在系统词库中预先存储消费电子常用词汇,并对预先存储消费电子常用词汇进行分类统计得到统计结果,并判断常用词汇之间的逻辑关系;
匹配单元,用于通过字符串匹配算法对格式化的消费电子行业消息进行匹配;
修正单元,用于根据存储单元中的统计结果以及逻辑关系对匹配结果进行修正得到分词结果。
4.如权利要求3所述的基于行业的垂直舆情分析系统,其特征在于,所述分析模块包括如下单元:
文本聚类分类单元,用于通过自组织神经网络算法、K近邻算法、遗传算法将抓取的文档的分词结果中的文章或文本信息进行相似性的比较,将相似的文章或文本信息归为同一组实现文本聚类和文本分类;
热点/敏感话题分析单元,用于分析文档的分词结果中关键词,得到并统计话题词组出现的频率以及更新的频率,并根据统计结果生成热点/敏感话题列表;
倾向性分析单元,用于在系统词库中预先存储褒义、贬义、中性词,将话题词组与预先存储的褒义、贬义、中性词进行比较,判断话题词组的褒义、贬义或者中性,从而判断网页的倾向性;
趋势分析单元,根据热点/敏感话题列表以及网页的倾向性结果进行统计,并生成随时间变化的热点趋势跟踪统计曲线图。
5.一种基于行业的垂直舆情分析方法,其特征在于,其包括如下步骤:
S1、对消费电子行业相关的互联网信息进行采集和预处理得到基于文档的格式化的消费电子行业消息;
S2、通过字符串匹配算法进行匹配,并基于理解和统计进行分词的方法对匹配结果进行修正得到文档的分词结果;
S3、通过对文档的分词结果中关键词的频率和相似度对分词的结果进行文档的聚类和分类;根据聚类和分类结果进行热点/敏感话题分析、倾向性分析以及趋势分析得到经过分析处理的信息;
S4、将经过分析处理的信息推送给用户。
6.如权利要求5所述的基于行业的垂直舆情分析方法,所述步骤S1中消费电子行业相关的互联网信息来源包括新闻网页、论坛、贴吧、网络博客、网站中的一种或几种;
采集的方式包括通过URL采集器、http分析器、网络爬虫中的一种或几种对消费电子行业相关的互联网信息进行采集;将采集到的消费电子行业相关的互联网信息存储到关系型数据库以及非关系型数据库;
对采集到的消费电子行业相关的互联网信息进行预处理包括数据清理、数据去重、数据格式化得到格式化的消费电子行业消息。
7.如权利要求6所述的基于行业的垂直舆情分析方法,其特征在于,所述步骤S2包括如下步骤:
S21、在系统词库中预先存储消费电子常用词汇,并对预先存储消费电子常用词汇进行分类统计得到统计结果,并判断常用词汇之间的逻辑关系;
S22、通过字符串匹配算法对格式化的消费电子行业消息进行匹配;
S23、根据步骤S21中的统计结果以及逻辑关系对匹配结果进行修正得到分词结果。
8.如权利要求7所述的基于行业的垂直舆情分析方法,其特征在于,所述步骤S3包括如下步骤:
S31、通过自组织神经网络算法、K近邻算法、遗传算法将抓取的文档的分词结果中的文章或文本信息进行相似性的比较,将相似的文章或文本信息归为同一组实现文本聚类和文本分类;
S32、分析文档的分词结果中关键词,得到并统计话题词组出现的频率以及更新的频率,并根据统计结果生成热点/敏感话题列表;
S33、在系统词库中预先存储褒义、贬义、中性词,将话题词组与预先存储的褒义、贬义、中性词进行比较,判断话题词组的褒义、贬义或者中性,从而判断网页的倾向性;
S34、根据热点/敏感话题列表以及网页的倾向性结果进行统计,并生成随时间变化的热点趋势跟踪统计曲线图。
CN201510012853.1A 2015-01-12 2015-01-12 一种基于行业的垂直舆情分析系统及方法 Pending CN104573016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510012853.1A CN104573016A (zh) 2015-01-12 2015-01-12 一种基于行业的垂直舆情分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510012853.1A CN104573016A (zh) 2015-01-12 2015-01-12 一种基于行业的垂直舆情分析系统及方法

Publications (1)

Publication Number Publication Date
CN104573016A true CN104573016A (zh) 2015-04-29

Family

ID=53089078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510012853.1A Pending CN104573016A (zh) 2015-01-12 2015-01-12 一种基于行业的垂直舆情分析系统及方法

Country Status (1)

Country Link
CN (1) CN104573016A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理系统及方法
CN104899335A (zh) * 2015-06-25 2015-09-09 四川友联信息技术有限公司 一种对网络舆情信息进行情感分类的方法
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和系统
CN106445974A (zh) * 2015-08-12 2017-02-22 腾讯科技(深圳)有限公司 数据推荐方法及装置
CN106557513A (zh) * 2015-09-29 2017-04-05 腾讯科技(深圳)有限公司 事件信息推送方法及事件信息推送装置
CN107257314A (zh) * 2017-06-05 2017-10-17 成都知道创宇信息技术有限公司 一种基于微信群的消息统计分析方法
CN107391712A (zh) * 2017-07-28 2017-11-24 王亚迪 一种网络舆论趋势预测分析方法
CN107580036A (zh) * 2017-08-28 2018-01-12 成都融微软件服务有限公司 行业情报服务自适应单点采集的方法
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN108009857A (zh) * 2017-12-13 2018-05-08 互动派科技股份有限公司 一种基于大数据的公关营销方法
CN108108902A (zh) * 2017-12-26 2018-06-01 阿里巴巴集团控股有限公司 一种风险事件告警方法和装置
CN108153764A (zh) * 2016-12-05 2018-06-12 腾讯科技(深圳)有限公司 一种舆情处理方法及装置
CN108197106A (zh) * 2017-12-29 2018-06-22 深圳市中易科技有限责任公司 一种基于深度学习的产品竞争分析方法、装置及系统
CN108229810A (zh) * 2017-12-29 2018-06-29 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法
CN108363731A (zh) * 2018-01-15 2018-08-03 阿里巴巴集团控股有限公司 一种业务发布方法、装置以及电子设备
CN108491374A (zh) * 2018-02-12 2018-09-04 郑长敬 基于房地产行业的词库构建方法及系统
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法
CN108960772A (zh) * 2018-06-27 2018-12-07 北京窝头网络科技有限公司 基于深度学习的企业评审辅助方法及系统
CN109165349A (zh) * 2018-08-22 2019-01-08 南京涌亿思信息技术有限公司 证券数据监测方法、装置及系统
CN109471965A (zh) * 2018-10-26 2019-03-15 四川才子软件信息网络有限公司 一种基于大数据的网络舆情数据采集、处理方法及监测平台
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109657124A (zh) * 2018-12-14 2019-04-19 成都德迈安科技有限公司 基于消费者行为的舆情监控系统
CN110119512A (zh) * 2019-05-21 2019-08-13 杭州凡闻科技有限公司 数字剪报制作方法
CN110263238A (zh) * 2019-06-21 2019-09-20 浙江华坤道威数据科技有限公司 一种基于大数据的舆情聆听系统
CN110489461A (zh) * 2019-08-21 2019-11-22 合肥天源迪科信息技术有限公司 一种行业数据分析服务平台
CN111061777A (zh) * 2019-12-10 2020-04-24 广州电力工程监理有限公司 一种项目数据统计分析方法及系统
CN111274390A (zh) * 2020-01-15 2020-06-12 深圳前海微众银行股份有限公司 一种基于对话数据的情感原因确定方法及装置
CN111368515A (zh) * 2020-03-02 2020-07-03 中国农业科学院农业信息研究所 基于pdf文档碎片化的行业动态交互式报告生成方法及系统
CN111967911A (zh) * 2020-08-20 2020-11-20 广州原仓信息科技有限公司 衍生品的监控分析方法及系统
CN112051905A (zh) * 2020-10-10 2020-12-08 青海师范大学 一种互联网舆情追踪方法和应用装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446065B1 (en) * 1996-07-05 2002-09-03 Hitachi, Ltd. Document retrieval assisting method and system for the same and document retrieval service using the same
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446065B1 (en) * 1996-07-05 2002-09-03 Hitachi, Ltd. Document retrieval assisting method and system for the same and document retrieval service using the same
CN101751458A (zh) * 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
史鹏龙: "军网舆情监测与信息处理平台的开发研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
章栋兵: "互联网舆情分析关键技术的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820629A (zh) * 2015-05-14 2015-08-05 中国电子科技集团公司第五十四研究所 一种智能的舆情突发事件应急处理系统及方法
CN104899335A (zh) * 2015-06-25 2015-09-09 四川友联信息技术有限公司 一种对网络舆情信息进行情感分类的方法
CN106445974A (zh) * 2015-08-12 2017-02-22 腾讯科技(深圳)有限公司 数据推荐方法及装置
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和系统
US10834218B2 (en) 2015-09-29 2020-11-10 Tencent Technology (Shenzhen) Company Limited Event information system classifying messages using machine learning classification model and pushing selected message to user
CN106557513A (zh) * 2015-09-29 2017-04-05 腾讯科技(深圳)有限公司 事件信息推送方法及事件信息推送装置
CN106557513B (zh) * 2015-09-29 2022-05-10 腾讯科技(深圳)有限公司 事件信息推送方法及事件信息推送装置
WO2018036239A1 (zh) * 2016-08-24 2018-03-01 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
TWI664539B (zh) * 2016-08-24 2019-07-01 慧科訊業有限公司 基於行業知識圖譜資料庫對互聯網媒體事件進行監測的方法、裝置和系統
CN108153764A (zh) * 2016-12-05 2018-06-12 腾讯科技(深圳)有限公司 一种舆情处理方法及装置
CN107257314A (zh) * 2017-06-05 2017-10-17 成都知道创宇信息技术有限公司 一种基于微信群的消息统计分析方法
CN107391712A (zh) * 2017-07-28 2017-11-24 王亚迪 一种网络舆论趋势预测分析方法
CN107580036A (zh) * 2017-08-28 2018-01-12 成都融微软件服务有限公司 行业情报服务自适应单点采集的方法
CN108009857A (zh) * 2017-12-13 2018-05-08 互动派科技股份有限公司 一种基于大数据的公关营销方法
CN108108902A (zh) * 2017-12-26 2018-06-01 阿里巴巴集团控股有限公司 一种风险事件告警方法和装置
CN108108902B (zh) * 2017-12-26 2021-06-29 创新先进技术有限公司 一种风险事件告警方法和装置
CN108197106A (zh) * 2017-12-29 2018-06-22 深圳市中易科技有限责任公司 一种基于深度学习的产品竞争分析方法、装置及系统
CN108197106B (zh) * 2017-12-29 2021-07-13 深圳市中易科技有限责任公司 一种基于深度学习的产品竞争分析方法、装置及系统
CN108229810A (zh) * 2017-12-29 2018-06-29 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法
CN108229810B (zh) * 2017-12-29 2021-02-05 中国科学院自动化研究所 基于网络信息资源的行业分析系统及方法
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法
CN108363731A (zh) * 2018-01-15 2018-08-03 阿里巴巴集团控股有限公司 一种业务发布方法、装置以及电子设备
CN108363731B (zh) * 2018-01-15 2022-01-28 创新先进技术有限公司 一种业务发布方法、装置以及电子设备
CN108491374A (zh) * 2018-02-12 2018-09-04 郑长敬 基于房地产行业的词库构建方法及系统
CN108960772A (zh) * 2018-06-27 2018-12-07 北京窝头网络科技有限公司 基于深度学习的企业评审辅助方法及系统
CN109165349A (zh) * 2018-08-22 2019-01-08 南京涌亿思信息技术有限公司 证券数据监测方法、装置及系统
CN109471965A (zh) * 2018-10-26 2019-03-15 四川才子软件信息网络有限公司 一种基于大数据的网络舆情数据采集、处理方法及监测平台
CN109635283A (zh) * 2018-11-26 2019-04-16 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109635283B (zh) * 2018-11-26 2022-10-14 汉纳森(厦门)数据股份有限公司 一种基于挖掘市民投诉文本的公共安全事件事前预警方法
CN109657124A (zh) * 2018-12-14 2019-04-19 成都德迈安科技有限公司 基于消费者行为的舆情监控系统
CN110119512A (zh) * 2019-05-21 2019-08-13 杭州凡闻科技有限公司 数字剪报制作方法
CN110263238A (zh) * 2019-06-21 2019-09-20 浙江华坤道威数据科技有限公司 一种基于大数据的舆情聆听系统
CN110489461A (zh) * 2019-08-21 2019-11-22 合肥天源迪科信息技术有限公司 一种行业数据分析服务平台
CN111061777A (zh) * 2019-12-10 2020-04-24 广州电力工程监理有限公司 一种项目数据统计分析方法及系统
CN111274390A (zh) * 2020-01-15 2020-06-12 深圳前海微众银行股份有限公司 一种基于对话数据的情感原因确定方法及装置
CN111274390B (zh) * 2020-01-15 2023-10-27 深圳前海微众银行股份有限公司 一种基于对话数据的情感原因确定方法及装置
CN111368515A (zh) * 2020-03-02 2020-07-03 中国农业科学院农业信息研究所 基于pdf文档碎片化的行业动态交互式报告生成方法及系统
CN111368515B (zh) * 2020-03-02 2021-01-26 中国农业科学院农业信息研究所 基于pdf文档碎片化的行业动态交互式报告生成方法及系统
CN111967911A (zh) * 2020-08-20 2020-11-20 广州原仓信息科技有限公司 衍生品的监控分析方法及系统
CN112051905A (zh) * 2020-10-10 2020-12-08 青海师范大学 一种互联网舆情追踪方法和应用装置
CN112051905B (zh) * 2020-10-10 2021-03-19 青海师范大学 一种舆情预警装置

Similar Documents

Publication Publication Date Title
CN104573016A (zh) 一种基于行业的垂直舆情分析系统及方法
Shi et al. Detecting malicious social bots based on clickstream sequences
US9229977B2 (en) Real-time and adaptive data mining
Bosch et al. Scatterblogs2: Real-time monitoring of microblog messages through user-guided filtering
CN104933093B (zh) 基于大数据的地区舆情监控及决策辅助系统和方法
Lee et al. Incremental cluster evolution tracking from highly dynamic network data
US20140337328A1 (en) System and method for retrieving and presenting concept centric information in social media networks
CN109684481A (zh) 舆情分析方法、装置、计算机设备和存储介质
CN108733791B (zh) 网络事件检测方法
US9665561B2 (en) System and method for performing analysis on information, such as social media
KR20150067897A (ko) 소셜 데이터의 인기도 예측 장치 및 방법
WO2013171758A2 (en) System and method for creating structured event objects
WO2015066805A1 (en) Systems and methods for behavioral segmentation of users in a social data network
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
Zainol et al. Association analysis of cyberbullying on social media using Apriori algorithm
CN104268130A (zh) 一种面向Twitter的社交广告可投放性分析方法
Bello et al. Reverse engineering the behaviour of twitter bots
CN113268649A (zh) 基于多元化数据融合的线索监测方法及系统
Ogudo et al. Sentiment analysis application and natural language processing for mobile network operators’ support on social media
CN105808641A (zh) 线下资源的挖掘方法和装置
US9165053B2 (en) Multi-source contextual information item grouping for document analysis
US20220075804A1 (en) Method and device for providing guide information for enhancement of artist's reputation
Ashraf et al. Personalized news recommendation based on multi-agent framework using social media preferences
CN106570174B (zh) 运行于cmmb超级热点业务平台的大数据分析方法及系统
Gannarapu et al. Bot detection using machine learning algorithms on social media platforms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429

RJ01 Rejection of invention patent application after publication