CN102779174B - 一种舆情信息展示系统及方法 - Google Patents

一种舆情信息展示系统及方法 Download PDF

Info

Publication number
CN102779174B
CN102779174B CN201210216349.XA CN201210216349A CN102779174B CN 102779174 B CN102779174 B CN 102779174B CN 201210216349 A CN201210216349 A CN 201210216349A CN 102779174 B CN102779174 B CN 102779174B
Authority
CN
China
Prior art keywords
webpage
text message
result
module
administrative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210216349.XA
Other languages
English (en)
Other versions
CN102779174A (zh
Inventor
刘付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210216349.XA priority Critical patent/CN102779174B/zh
Publication of CN102779174A publication Critical patent/CN102779174A/zh
Priority to PCT/CN2013/075644 priority patent/WO2014000518A1/zh
Priority to US14/411,092 priority patent/US9705761B2/en
Application granted granted Critical
Publication of CN102779174B publication Critical patent/CN102779174B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种舆情信息展示系统及方法,涉及网络信息技术领域,所述系统包括:网页抓取模块,适于抓取当前网络中包含舆情信息的网页;网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示。本发明的系统及方法通过对包含舆情信息的网页进行地域识别,客观地、直观地反映了不同地域的舆情信息,不仅可以有效及时地发现网络中已知舆情信息的区域分布状况,还可以在未知舆情信息的萌发阶段就对重点区域进行有效的识别。

Description

一种舆情信息展示系统及方法
技术领域
本发明涉及网络信息技术领域,特别涉及一种舆情信息展示系统及方法。
背景技术
网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过BBS论坛、博客、新闻跟帖、转帖等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。现有技术多对网络舆情完成收集工作,但均无法客观地、直观地反映不同地域的舆情信息。
发明内容
本发明要解决的技术问题是:如何客观地、直观地反映不同地域的舆情信息。
为解决上述技术问题,本发明提供了一种舆情信息展示系统,所述系统包括:
网页抓取模块,适于抓取当前网络中包含舆情信息的网页;
网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;
地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域并对具有相同所属地域的网页进行数量统计;
展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示。
其中,所述系统还包括:存储模块,适于将所述正文信息进行数据存储。
其中,所述系统还包括:格式化模块,适于对所述正文信息进行格式化。
其中,所述地域识别模块进一步包括:
Trie树构建子模块,适于利用行政区域统计表构建双数组Trie树;
匹配子模块,适于将所述正文信息中出现的名词与所述双数组Trie树进行匹配;
地域获得子模块,适于利用所述匹配的结果获得所述正文信息的所属地域。
其中,所述行政区域统计表包括:省、市、县、镇和村中至少一个行政级别的地理名词。
其中,所述匹配的结果包括:地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
其中,所述网页抓取模块中采用网络爬虫抓取当前网络中包含舆情信息的网页。
其中,所述正文信息包括:正文内容和/或标题。
其中,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括:板块名称。
其中,所述网页分析模块中进一步包括:多维抽取子模块,所述多维抽取子模块,适于对所述网页进行多维抽取,以获得所述网页的正文信息。
其中,所述展示模块进一步包括:结果散列子模块,所述结果散列子模块,适于将所述数量统计的结果散列到颜色的色阶范围内来实现地图着色。
其中,所述展示模块进一步包括:放大缩小子模块,所述放大缩小子模块,适于根据需要对地图区域的不同行政级别进行调整显示。
其中,所述系统还包括:学习模块,在对大量样本做人工标识和校正后,适于采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。
本发明还公开了一种舆情信息展示方法,所述方法包括:
抓取当前网络中包含舆情信息的网页;
对所述网页进行分析,以获得所述网页的正文信息;
对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;
将所述数量统计的结果通过地图着色的方式进行展示。
其中,对所述正文信息进行地域识别之前,将所述正文信息进行数据存储。
其中,将所述正文信息进行数据存储之前,对所述正文信息进行格式化。
其中,对所述正文信息进行地域识别进一步包括:
利用行政区域统计表构建双数组Trie树;
将所述正文信息中出现的名词与所述双数组Trie树进行匹配;
利用所述匹配的结果获得所述正文信息的所属地域。
其中,所述行政区域统计表包括:省、市、县、镇和村中至少一个行政级别的地理名词。
其中,所述匹配的结果包括:地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
其中,采用网络爬虫抓取当前网络中包含舆情信息的网页。
其中,所述正文信息包括:正文内容和/或标题。
其中,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括:板块名称。
其中,对所述网页进行分析时,对所述网页进行多维抽取,以获得所述网页的正文信息。
其中,将所述数量统计的结果通过地图着色的方式进行展示时,将所述数量统计的结果散列到颜色的色阶范围内来实现地图着色。
其中,将所述数量统计的结果通过地图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显示。
其中,对所述正文信息进行地域识别之前,在大量样本做人工标识和校正后,采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。
本发明的系统及方法通过对包含舆情信息的网页进行地域识别,客观地、直观地反映了不同地域的舆情信息,不仅可以有效及时地发现网络中已知舆情信息的区域分布状况,还可以在未知舆情信息的萌发阶段就对重点区域进行有效的识别。
附图说明
图1是按照本发明第一种实施例的舆情信息展示方法的流程图;
图2是按照本发明第二种实施例的舆情信息展示方法的流程图;
图3是按照本发明第三种实施例的舆情信息展示方法的流程图;
图4是图1~图3所述的方法中对所述正文信息进行地域识别的流程图;
图5是利用地图着色进行展示的示意图;
图6是行政级别示意图;
图7是按照本发明第一种实施例的舆情信息展示系统的结构框图;
图8是按照本发明第二种实施例的舆情信息展示系统的结构框图;
图9是按照本发明第三种实施例的舆情信息展示系统的结构框图;
图10是图7~图9的系统中地域识别模块的结构框图。
具体实施例
下面结合附图和实施例,对本发明的具体实施例作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是按照本发明第一种实施例的舆情信息展示方法的流程图;参照图1,所述方法包括:
S101:抓取当前网络中包含舆情信息的网页(通常,网页抓取主要分为三个方面:1、搜集新出现的网页;2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不存在了的网页,并从数据库中删除);优选地,本实施例中,采用网络爬虫抓取当前网络中包含舆情信息的网页。
S102:对所述网页进行分析,以获得所述网页的正文信息;由于网页中所能最大反映地域信息的部分为正文内容,优选地,所述正文信息包括:正文内容;同样能够反映地域信息的部分为标题,为提高识别精度,优选地,所述正文信息还包括:标题;当所述网页为电子公告板(bbs)或网络日志(blog)的网页时,同样能够反映地域信息的部分为模块名称,为提高识别精度,优选地,所述正文信息包括:板块名称。
本实施例中,对所述网页进行分析时,对所述网页进行多维抽取,包括标题、正文内容、发表时间、作者、网站名称、针对bbs或blog的正文信息还可以抽取出板块名称、浏览数、回复数等信息,以获得所述网页的正文信息,对网页信息进行多个维度抽取。
S103:对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;
本实施例中,数量统计可以单纯按照所属地域,也可以收集在所属地域包含某些特征词的舆情信息两种,如可以展示3月份我国各地网络舆情的分布情况,也可以展示3月份关于江苏省某某话题的网络舆情分布情况等。
S104:参照图5,将所述数量统计的结果通过地图着色的方式进行展示。
本实施例中,利用所述数量统计的结果,结合预设的颜色值范围给地图进行着色,用颜色的深浅表达舆情信息的数量多少,但并不限定本发明的保护范围。比如:图5中“山西省”的色阶最深,舆情数最多,其次是舆情数非常多的“北京”、“辽宁”和“河南”,接着是舆情数较多的“广西”、“重庆”、“吉林”和“浙江”,之后是舆情数一般的“青海”和“云南”,再接着是舆情数较少的“海南”、“广东”、“湖南”、“安徽”和“内蒙古”,其中“安徽”的舆情数为23004,剩下的地区均为舆情数非常少的地区。
颜色的范围可用#000000到#ffffff来表示由深到浅,六位16进制表示的是RGB三个颜色,前两位表示R(红色),中间两位表示G(绿色),最后两位表示B(蓝色)。例如,把地图染色的主色调定义为红色时,红色的范围是00~ff共256个色阶,则可以利用地域信息的数据量定义一个散列函数将数据量散列到0~256之间(可以采用对数函数或拟合方法计算出一个散列函数)。
优选地,步骤S104中将所述数量统计的结果通过地图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显示。例如:可以展示3月份我国各地(即行政级别为省)网络舆情的分布情况,也可以展示3月份关于江苏省(即行政级别为市)网络舆情的分布情况等。
图2是按照本发明第二种实施例的舆情信息展示方法的流程图;参照图2,所述方法包括:
S201:抓取当前网络中包含舆情信息的网页;
S202:对所述网页进行分析,以获得所述网页的正文信息;
S203:将所述正文信息进行数据存储;本实施例中,数据存储于数据库中,并采用持久化存储方式,以备后续使用;
S204:对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;
S205:将所述数量统计的结果通过地图着色的方式进行展示。
图3是按照本发明第三种实施例的舆情信息展示方法的流程图;参照图3,所述方法包括:
S301:抓取当前网络中包含舆情信息的网页;
S302:对所述网页进行分析,以获得所述网页的正文信息;
S303:对所述正文信息进行格式化(即将所述正文信息处理成相同的规格、样式);
S304:将所述正文信息进行数据存储;本实施例中,数据存储于数据库中,并采用持久化存储方式;
S305:对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;
S306:将所述数量统计的结果通过地图着色的方式进行展示。
在所述实施例1~3中,对正文信息进行地域信息识别的处理,整体计算模型是利用分布式系统基础架构(hadoop),具体计算方法是利用双数组Trie树。其整体思想的描述如下:利用行政区划统计表构建一棵双数组Trie树,然后用正文内容去匹配,找出正文中所有的地理名词,可能会出现多条路径,再利用地理地名之间的行政关系和出现频度设置不同的权重值,基于倒排索引的原则,对正文信息进行分词、构建索引等操作,并提供按照关键词进行查询的接口。
对正文信息进行地域识别基于支持向量机(supportvectormachine,SVM)的机器学习法,利用国家邮政编码及行政区域统计表对大量样本做人工标注和校正,达到较高的准确率后(一般为95%以上),再对舆情信息进行地域识别,参照图4,对所述正文信息进行地域识别可采用如下方式:
S401:利用行政区域统计表构建双数组Trie树;所述行政区域统计表包括:省、市、县、镇和村中至少一个行政级别的地理名词;为实现从不同的行政级别来监测舆情的信息量情况,优选地,所述区域统计表包括:省、市、县、镇和村五个行政级别的地理名词,并且可以是以左前缀进行归并。如:河北省邯郸市永年县南沿村镇南马庄村是包含全五个行政级别的,同时它可以归为向上的行政级别。参照图6,即南沿村镇的舆情信息将归属于永年县的区域内,然后归属于邯郸市区域内,最后归属于河北省的区域内。
S402:将所述正文信息中出现的名词与所述双数组Trie树进行匹配;
S403:利用所述匹配的结果获得所述正文信息的所属地域;
优选地,所述匹配的结果包括:地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
图7是按照本发明第一种实施例的舆情信息展示系统的结构框图;参照图7,所述系统包括:
网页抓取模块701,适于抓取当前网络中包含舆情信息的网页;
网页分析模块702,适于对所述网页进行分析,以获得所述网页的正文信息;
地域识别模块703,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;
展示模块704,适于将所述数量统计的结果通过地图着色的方式进行展示。
图8是按照本发明第二种实施例的舆情信息展示系统的结构框图;参照图8,在第一种实施例的基础上,所述系统还包括:
存储模块705,适于将所述正文信息进行数据存储;
图9是按照本发明第三种实施例的舆情信息展示系统的结构框图;参照图9,在第二种实施例的基础上,所述系统还包括:
格式化模块706,适于对所述正文信息进行格式化;
参照图10,所述地域识别模块703具体包括:
Trie树构建子模块713,适于利用行政区域统计表构建双数组Trie树;
匹配子模块723,适于将所述正文信息中出现的名词与所述双数组Trie树进行匹配;
地域获得子模块733,适于利用所述匹配的结果获得所述正文信息的所属地域。
其中,所述行政区域统计表包括:省、市、县、镇和村中至少一个行政级别的地理名词。
其中,所述匹配的结果包括:地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
其中,所述网页抓取模块中采用网络爬虫抓取当前网络中包含舆情信息的网页。
其中,所述正文信息包括:正文内容和/或标题。
其中,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括:板块名称。
其中,所述网页分析模块中进一步包括:多维抽取子模块,所述多维抽取子模块,适于对所述网页进行多维抽取,以获得所述网页的正文信息。
其中,所述展示模块进一步包括:结果散列子模块,所述结果散列子模块,适于将所述数量统计的结果散列到颜色的色阶范围内来实现地图着色。
其中,所述展示模块进一步包括:放大缩小子模块,所述放大缩小子模块,适于根据需要对地图区域的不同行政级别进行调整显示。
其中,所述系统还包括:学习模块,在对大量样本做人工标识和校正后,适于采用基于支持向量机SVM的机器进行学习,直至达到预设的准确率。
应当注意的是,在本发明的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施例仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (22)

1.一种舆情信息展示系统,其特征在于,所述系统包括:
网页抓取模块,适于抓取当前网络中包含舆情信息的网页;
网页分析模块,适于对所述网页进行分析,以获得所述网页的正文信息;
地域识别模块,适于对所述正文信息进行地域识别,以获得所述正文信息的所属地域并对具有相同所属地域的网页进行数量统计;
展示模块,适于将所述数量统计的结果通过地图着色的方式进行展示;
其中,所述地域识别模块进一步包括:
Trie树构建子模块,适于利用行政区域统计表构建双数组Trie树;
匹配子模块,适于将所述正文信息中出现的名词与所述双数组Trie树进行匹配;
地域获得子模块,适于利用所述匹配的结果获得所述正文信息的所属地域;
其中,所述展示模块进一步包括:结果散列子模块,所述结果散列子模块,适于将所述数量统计的结果散列到颜色的色阶范围内来实现地图着色。
2.如权利要求1所述的系统,其特征在于,所述系统还包括:存储模块,适于将所述正文信息进行数据存储。
3.如权利要求1或2所述的系统,其特征在于,所述系统还包括:格式化模块,适于对所述正文信息进行格式化。
4.如权利要求1所述的系统,其特征在于,所述行政区域统计表包括:省、市、县、镇和村中至少一个行政级别的地理名词。
5.如权利要求1所述的系统,其特征在于,所述匹配的结果包括:地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
6.如权利要求1所述的系统,其特征在于,所述网页抓取模块中采用网络爬虫抓取当前网络中包含舆情信息的网页。
7.如权利要求1所述的系统,其特征在于,所述正文信息包括:正文内容和/或标题。
8.如权利要求1所述的系统,其特征在于,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括:板块名称。
9.如权利要求1所述的系统,其特征在于,所述网页分析模块中进一步包括:多维抽取子模块,所述多维抽取子模块,适于对所述网页进行多维抽取,以获得所述网页的正文信息。
10.如权利要求4所述的系统,其特征在于,所述展示模块进一步包括:放大缩小子模块,所述放大缩小子模块,适于根据需要对地图区域的不同行政级别进行调整显示。
11.如权利要求1所述的系统,其特征在于,所述系统还包括:学习模块,在对大量样本做人工标识和校正后,适于采用基于支持向量机的机器进行学习,直至达到预设的准确率。
12.一种舆情信息展示方法,其特征在于,所述方法包括:
抓取当前网络中包含舆情信息的网页;
对所述网页进行分析,以获得所述网页的正文信息;
对所述正文信息进行地域识别,以获得所述正文信息的所属地域,并对具有相同所属地域的网页进行数量统计;
将所述数量统计的结果通过地图着色的方式进行展示;
其中,对所述正文信息进行地域识别进一步包括:
利用行政区域统计表构建双数组Trie树;
将所述正文信息中出现的名词与所述双数组Trie树进行匹配;
利用所述匹配的结果获得所述正文信息的所属地域;
其中,将所述数量统计的结果通过地图着色的方式进行展示时,将所述数量统计的结果散列到颜色的色阶范围内来实现地图着色。
13.如权利要求12所述的方法,其特征在于,对所述正文信息进行地域识别之前,将所述正文信息进行数据存储。
14.如权利要求12或13所述的方法,其特征在于,将所述正文信息进行数据存储之前,对所述正文信息进行格式化。
15.如权利要求12所述的方法,其特征在于,所述行政区域统计表,包括:省、市、县、镇和村中至少一个行政级别的地理名词。
16.如权利要求12所述的方法,其特征在于,所述匹配的结果包括:地理名词、所述地理名词的出现频次及所述地理名词之间的行政关系。
17.如权利要求12所述的方法,其特征在于,采用网络爬虫抓取当前网络中包含舆情信息的网页。
18.如权利要求12所述的方法,其特征在于,所述正文信息包括:正文内容和/或标题。
19.如权利要求12所述的方法,其特征在于,当所述网页为电子公告板bbs或网络日志blog的网页时,所述正文信息包括:板块名称。
20.如权利要求12所述的方法,其特征在于,对所述网页进行分析时,对所述网页进行多维抽取,以获得所述网页的正文信息。
21.如权利要求12所述的方法,其特征在于,将所述数量统计的结果通过地图着色的方式进行展示时,根据需要对地图区域的不同行政级别进行调整显示。
22.如权利要求12所述的方法,其特征在于,对所述正文信息进行地域识别之前,在大量样本做人工标识和校正后,采用基于支持向量机的机器进行学习,直至达到预设的准确率。
CN201210216349.XA 2012-06-26 2012-06-26 一种舆情信息展示系统及方法 Expired - Fee Related CN102779174B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210216349.XA CN102779174B (zh) 2012-06-26 2012-06-26 一种舆情信息展示系统及方法
PCT/CN2013/075644 WO2014000518A1 (zh) 2012-06-26 2013-05-15 一种舆情信息展示系统及方法
US14/411,092 US9705761B2 (en) 2012-06-26 2013-05-15 Opinion information display system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210216349.XA CN102779174B (zh) 2012-06-26 2012-06-26 一种舆情信息展示系统及方法

Publications (2)

Publication Number Publication Date
CN102779174A CN102779174A (zh) 2012-11-14
CN102779174B true CN102779174B (zh) 2016-03-30

Family

ID=47124086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210216349.XA Expired - Fee Related CN102779174B (zh) 2012-06-26 2012-06-26 一种舆情信息展示系统及方法

Country Status (3)

Country Link
US (1) US9705761B2 (zh)
CN (1) CN102779174B (zh)
WO (1) WO2014000518A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779174B (zh) 2012-06-26 2016-03-30 北京奇虎科技有限公司 一种舆情信息展示系统及方法
CN103902621B (zh) * 2012-12-28 2017-02-08 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
CN103064951B (zh) * 2012-12-31 2016-08-31 南京烽火星空通信发展有限公司 一种舆情信息的地域识别方法和装置
CN103092950B (zh) * 2013-01-15 2016-01-06 重庆邮电大学 一种网络舆情地理位置实时监控系统和方法
CN103793492B (zh) * 2014-01-22 2017-01-18 武汉虹旭信息技术有限责任公司 基于移动互联网有害信息的地图区域化分析系统及其方法
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104965915B (zh) * 2015-07-06 2018-08-24 无锡天脉聚源传媒科技有限公司 一种用户访问行为数据的处理方法和系统
CN106933898B (zh) * 2015-12-31 2020-08-11 北京国双科技有限公司 网页信息的处理方法和装置
CN106021278A (zh) * 2016-04-27 2016-10-12 湖南蚁坊软件有限公司 一种微博事件地域热度指数的分析方法
CN108241695B (zh) * 2016-12-26 2021-11-02 北京国双科技有限公司 信息处理方法及装置
CN106919705A (zh) * 2017-03-10 2017-07-04 北京搜狐新媒体信息技术有限公司 网络信息所属地域识别方法及装置
CN107133311A (zh) * 2017-04-28 2017-09-05 安徽博约信息科技股份有限公司 基于区域编码的网络信息归属地索引标记方法
CN107145595A (zh) * 2017-05-27 2017-09-08 南京英斯特网络科技有限公司 一种基于地图的海量数据聚合显示方法
CN107330055A (zh) * 2017-06-29 2017-11-07 麦格创科技(深圳)有限公司 舆情监控方法及系统
CN107633064A (zh) * 2017-09-21 2018-01-26 山东浪潮云服务信息科技有限公司 一种数据可视化方法、装置、可读介质和存储控制器
CN107704621A (zh) * 2017-10-27 2018-02-16 西南财经大学 一种互联网舆情地图可视化展示方法
CN109977278A (zh) * 2019-02-21 2019-07-05 中国电子科技集团公司第二十八研究所 舆情数据的可视化展示系统、方法、设备及存储介质
CN109933656B (zh) * 2019-03-15 2023-08-15 深圳市赛为智能股份有限公司 舆情极性预测方法、装置、计算机设备及存储介质
CN110795449A (zh) * 2019-09-10 2020-02-14 紫光云技术有限公司 基于bs架构的环保舆情系统
CN112905913A (zh) * 2019-12-04 2021-06-04 支付宝(杭州)信息技术有限公司 一种舆情展示方法、装置及设备
CN111045998A (zh) * 2019-12-16 2020-04-21 北京智游网安科技有限公司 一种应用程序所属区域统计方法、系统及存储介质
CN111191103B (zh) * 2019-12-30 2021-08-24 河南拓普计算机网络工程有限公司 从互联网中识别分析企业主体信息方法、装置及存储介质
CN113343080A (zh) * 2021-05-19 2021-09-03 深圳海天力电子商务有限公司 一种数据智能分析方法、系统和设备以及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593209A (zh) * 2008-12-30 2009-12-02 中国科学院地理科学与资源研究所 一种交互式在线统计地图生成与发布装置及方法
CN101901258A (zh) * 2010-07-15 2010-12-01 北京协进科技发展有限公司 一种通过地图显示网页中地理信息的方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519200B2 (en) 2005-05-09 2009-04-14 Like.Com System and method for enabling the use of captured images through recognition
US20080010273A1 (en) 2006-06-12 2008-01-10 Metacarta, Inc. Systems and methods for hierarchical organization and presentation of geographic search results
AU2007294516A1 (en) * 2006-09-08 2008-03-13 Fortiusone, Inc. System and method for web enabled geo-analytics and image processing
US20080113674A1 (en) * 2006-11-10 2008-05-15 Mohammad Faisal Baig Vicinity-based community for wireless users
US20080235176A1 (en) * 2007-03-22 2008-09-25 Microsoft Corporation Data comparator
US20100042615A1 (en) * 2008-08-12 2010-02-18 Peter Rinearson Systems and methods for aggregating content on a user-content driven website
US20100204914A1 (en) * 2009-02-11 2010-08-12 Telmap Ltd Active widgets for mobile navigation systems
CN101819573B (zh) * 2009-09-15 2012-07-25 电子科技大学 一种自适应的网络舆情识别方法
CN101751458A (zh) 2009-12-31 2010-06-23 暨南大学 一种网络舆情监控系统及方法
US20110209201A1 (en) * 2010-02-19 2011-08-25 Nokia Corporation Method and apparatus for accessing media content based on location
CN102426603B (zh) * 2011-11-11 2014-06-18 任子行网络技术股份有限公司 一种文字信息地域识别方法及装置
CN102779174B (zh) * 2012-06-26 2016-03-30 北京奇虎科技有限公司 一种舆情信息展示系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593209A (zh) * 2008-12-30 2009-12-02 中国科学院地理科学与资源研究所 一种交互式在线统计地图生成与发布装置及方法
CN101901258A (zh) * 2010-07-15 2010-12-01 北京协进科技发展有限公司 一种通过地图显示网页中地理信息的方法和装置

Also Published As

Publication number Publication date
WO2014000518A1 (zh) 2014-01-03
US9705761B2 (en) 2017-07-11
US20150207704A1 (en) 2015-07-23
CN102779174A (zh) 2012-11-14

Similar Documents

Publication Publication Date Title
CN102779174B (zh) 一种舆情信息展示系统及方法
CN103455705A (zh) 网络社会事件的协同关联跟踪及全局态势分析与预测系统
CN102567494B (zh) 网站分类方法及装置
CN104657393A (zh) 一种舆情分析方法及相应的装置
CN103955505A (zh) 一种基于微博的事件实时监测方法及系统
CN102637172B (zh) 网页分块标注方法与系统
CN103957275A (zh) 用户评论信息的推送方法、客户端、服务器及系统
CN103268350A (zh) 一种互联网舆情信息监测系统及监测方法
CN104504081A (zh) 全媒体检测及监播大数据行为智能分析系统
CN104462509A (zh) 垃圾评论检测方法及装置
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN104504151B (zh) 微信舆情监测系统
CN105550253B (zh) 一种类型关系的获取方法及装置
CN103177076A (zh) 一种基于定点网站的舆情监测系统及方法
CN103778200A (zh) 一种报文信息源抽取方法及其系统
CN103618733A (zh) 一种应用于移动互联网的数据过滤系统及方法
CN103366120A (zh) 基于脚本的漏洞攻击图生成方法
CN104751053A (zh) 移动智能终端软件的静态行为分析方法
CN107958154A (zh) 一种恶意软件检测装置及方法
CN104572757A (zh) 微博群体处理方法及装置
CN103136212A (zh) 一种类别新词的挖掘方法及装置
CN103336761B (zh) 基于动态划分与语义加权的干扰过滤匹配算法
CN104462322A (zh) 字符串比对方法和装置
CN117077668A (zh) 风险画像展示方法、装置、计算机设备和可读存储介质
CN106547774A (zh) 网站内容的检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160330