CN107169143A - 一种高效的海量舆情数据信息集群匹配方法 - Google Patents
一种高效的海量舆情数据信息集群匹配方法 Download PDFInfo
- Publication number
- CN107169143A CN107169143A CN201710453666.6A CN201710453666A CN107169143A CN 107169143 A CN107169143 A CN 107169143A CN 201710453666 A CN201710453666 A CN 201710453666A CN 107169143 A CN107169143 A CN 107169143A
- Authority
- CN
- China
- Prior art keywords
- public sentiment
- information
- sentiment data
- matching
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种高效的海量舆情数据信息集群匹配方法,包括如下步骤:将Flume部署至各个舆情采集服务器上,并通过Flume采集从互联网爬取的舆情数据信息;将从Flume采集到的舆情数据信息存储到Kafka消息队列中;从Kafka实时消费舆情数据,并利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配;将匹配成功后的关联数据信息展示到各个web系统上。本发明通过搭建了一个集群匹配架构来解决时效性差和匹配速度慢等情况,测试结果表明,在采用该集群匹配方式后,从匹配速度、实时性上都有了很大的提高。
Description
技术领域
本发明涉及数据处理技术,特别涉及一种高效的海量舆情数据信息集群匹配方法。
背景技术
舆情信息,就是指在民众社会政治态度的收集、整理、分析、报送、利用和反馈的信息运动过程中,用以客观反映舆情状态及其运动情况的资讯、消息、音信、情报、指令、数据和信号。目前,网上可以获取很多互联网舆情信息,这些舆情信息对于企业来说都非常重要;舆情信息的正负面、转载量、阅读量、传播速度都时刻反应企业在公众心目中的形象。但是互联网舆情信息并没有关联是哪些企业发生负面舆论,所以很多企业都无法实时监控本企业在当前时段所有的舆情信息。
目前,企业数量众多,而从网络上爬取的互联网舆情信息最多时达到每分钟多达上百条,同时企业信息又分为企业全称信息和企业简称信息,所以每条舆情信息都需要和这些企业的全称信息匹配;同时每一条舆情包括标题、转载量、内容等重要信息,而且大部分舆情信息有包含企业全称或者企业简称的内容都在舆情文章的中部或者尾部,所以这对于企业名称的匹配速度也是一大问题。而且匹配的速度必须严格控制在毫秒内,否则到最后会导致舆情信息堵塞,影响企业舆情信息的实时性。
发明内容
为解决上述问题,本发明提供一种高效的海量舆情数据信息集群匹配方法,包括如下步骤:
S100、将Flume部署至各个舆情采集服务器上,并通过Flume采集从互联网爬取的舆情数据信息;
S110、将从Flume采集到的舆情数据信息存储到Kafka消息队列中;
S120、从Kafka实时消费舆情数据,并利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配;
S130、将匹配成功后的关联数据信息展示到各个web系统上。
进一步地,在步骤S110中将从Flume采集到的舆情数据信息存储到Kafka消息队列中,为了对企业舆情数据做离线数据分析,还包括:
将从Flume采集到的舆情数据信息同时存储到HDFS消息队列中。
进一步地,在步骤S120中利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时,把所有企业信息均加载至Spark内存中。
进一步地,在步骤S120中利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时,若企业信息容量超过内存,则Spark会保存至本地文件,再采用Hash散列的算法把每个企业信息分发到不同的work中与舆情数据信息进行匹配。
进一步地,在步骤S120中利用已部署的Spark集群对匹配的舆情信息添加企业唯一标识,若匹配到多家企业则进行信息分裂,产生多笔关联信息。
进一步地,在对企业信息处理前,对企业信息数据进行清洗处理。
进一步地,步骤S100中根据数据量动态调整舆情采集服务器的部署数量。
本发明提供的高效的海量舆情数据信息集群匹配方法,搭建了一个集群匹配架构来解决时效性差和匹配速度慢等情况,所以采用集群匹配方式,是因为单台服务器处理能力有限,所以匹配速度会很慢;而采用集群方式匹配时,可以把所有企业根据Hash散列进行切分,然后分配到不同的服务器上,那么每个服务器所匹配的数量就相对减少,进而匹配速度和时效性就得到保障。测试结果表明,在采用该集群匹配方式后,从匹配速度、实时性上都有了很大的提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的高效的海量舆情数据信息集群匹配方法流程图;
图2为本发明提供的高效的海量舆情数据信息集群匹配的架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种高效的海量舆情数据信息集群匹配方法,如图1和图2所示,包括:
S100、将Flume部署至各个舆情采集服务器上,并通过Flume采集从互联网爬取的舆情数据信息;
本步骤中,优选地,可以根据数据量动态调整舆情采集服务器的部署数量,因为舆情数据可能存在很多台服务器,所以配置多个Agent收集不同服务器的舆情数据,这里的Agent可以动态增删,以保证及时采集各个服务器爬取的舆情数据;
S110、将从Flume采集到的舆情数据信息存储到Kafka消息队列中;
本步骤中,存储在Kafka消息队列中的是实时数据,如果处理离线数据,则本步骤中还可以包括:
将从Flume采集到的舆情数据信息同时存储到HDFS消息队列中;
保存至HDFS一份数据,是因为在不同场景下(舆情的匹配信息不用实时显示在web系统上时,可以采用离线的方式对数据进行分析,比如分析每个企业舆情的正负面的比率、分析舆情同比上个月和环比去年的数据,这些都可以用离线分析),可以对企业舆情数据做离线数据分析,根据企业舆情信息的正负面、转载量等信息分析企业的健康状态;保存至HDFS是可选的,具体可以参考是否需要用于离线数据分析。如果需要离线数据分析,需要把舆情数据保存至HDFS,然后可以用离线分析工具hive或者spark-sql进行离线数据分析,如果只是实时分析,可以直接省略保存至HDFS的步骤;
存在Kafka中的主要目的是为了防止某个时间段舆情数据过多,导致第三步匹配的时候无法及时匹配,从而导致过多舆情数据阻塞无法及时匹配成功,所以用一个消息队列作为缓冲;
S120、从Kafka实时消费舆情数据,并利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配;
选择Spark集群的原因主要是Spark集群是基于内存的计算模型,所以在企业信息和舆情信息匹配时是在内存中完成,匹配速度会非常快;
优选地,本步骤中,在利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时,可以把所有企业信息均加载至Spark内存中,若企业信息容量超过内存,则Spark会保存至本地文件;
优选地,本步骤中,在利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时,还可以采用Hash散列的算法把每个企业信息分发到不同的work中与舆情数据信息进行匹配;
为了匹配的精确度和速度提高,在上述步骤中,对企业信息处理前,对企业信息数据进行清洗处理,比如把企业全称转换成企业简称、清洗简称比较通用的词语等清洗处理工作;
S130、将匹配成功后的关联数据信息展示到各个web系统上。
为了进一步详细解释说明提供的方法,下面以一个具体的操作实例进行说明。测试的企业总量为360万条,匹配的舆情信息为(一条舆情信息大概在5000字以上):xxx企业拖欠工资。
步骤1:准备工作:需要5台linux操作系统的物理机(最低配置5台),配置为16G内存,6核。
步骤2:把Flume安装至各个舆情采集服务器,然后配置Source、Channel、Sink,其中Sink配置为HDFS推送路径和Kafka推送路径
步骤3:安装hadoop环境,两台安装namenode,三台安装zookeeper,五台安装datanode,主要配置如表1所示:
表1
Host1 | Host2 | Host3 | Host4 | Host5 |
namenode | namenode | zookeeper | zookeeper | zookeeper |
yarnmanager | yarnmanager | nodemanager | nodemanager | nodemanager |
kafka | kafka | kafka | ||
datanode | datanode | datanode | ||
Master | Master | Work | Work | Work |
步骤4:安装Spark环境,并配置Spark-Streaming从Kafak实时消费数据。
步骤5:清洗企业目录,主要工作是把企业全称转换成企业简称,比如包括“有限公司”、“集团”、“xxx市”等词语的公司通过正则转换成企业简称。
步骤6:手工清洗简称比较通用的词语,比如“xxx市之所以公司”,这个简称是“之所以”,这样如果用简称匹配舆情信息就会出现很多错误的匹配,所以对于这种简称,需要维护一个数据,让这些企业排除在外。
步骤7:开始匹配时,需要把所有企业都加载到Spark内存中,如果企业信息超过内存,Spark会保存至本地文件,再采用Hash散列的算法把每个企业分发到不同的work中,这样在匹配的时候每个work匹配的企业舆情信息就比较均衡。
经过步骤1~7,采用集群进行企业和舆情信息匹配和传统的单机匹配效果对比如表2所示:
表2
匹配速度 | 是否会内存溢出 | 是否能实时匹配 | |
集群匹配 | 0.1~0.5秒 | 否 | 是 |
单机匹配 | 6~15秒 | 是 | 否 |
根据测试结果,在采用集群匹配方式后,无论从匹配速度、实时性上都有了很大的提高。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (6)
1.一种高效的海量舆情数据信息集群匹配方法,其特征在于,包括如下步骤:
S100、将Flume部署至各个舆情采集服务器上,并通过Flume采集从互联网爬取的舆情数据信息;
S110、将从Flume采集到的舆情数据信息存储到Kafka消息队列中;
S120、从Kafka实时消费舆情数据,并利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配;
S130、将匹配成功后的关联数据信息展示到各个web系统上。
2.根据权利要求1所述的高效的海量舆情数据信息集群匹配方法,其特征在于,在步骤S110中将从Flume采集到的舆情数据信息存储到Kafka消息队列中,为了对企业舆情数据做离线数据分析,还包括:
将从Flume采集到的舆情数据信息同时存储到HDFS消息队列中。
3.根据权利要求1所述的高效的海量舆情数据信息集群匹配方法,其特征在于,在步骤S120中利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时,把所有企业信息均加载至Spark内存中。
4.根据权利要求4所述的高效的海量舆情数据信息集群匹配方法,其特征在于,在步骤S120中利用已部署的Spark集群对舆情数据信息和企业信息进行实时匹配时,若企业信息容量超过内存,则Spark会保存至本地文件,再采用Hash散列的算法把每个企业信息分发到不同的work中与舆情数据信息进行匹配。
5.根据权利要求3或4所述的高效的海量舆情数据信息集群匹配方法,其特征在于,在对企业信息处理前,对企业信息数据进行清洗处理。
6.根据权利要求1所述的高效的海量舆情数据信息集群匹配方法,其特征在于,步骤S100中根据数据量动态调整舆情采集服务器的部署数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710453666.6A CN107169143B (zh) | 2017-06-15 | 2017-06-15 | 一种高效的海量舆情数据信息集群匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710453666.6A CN107169143B (zh) | 2017-06-15 | 2017-06-15 | 一种高效的海量舆情数据信息集群匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107169143A true CN107169143A (zh) | 2017-09-15 |
CN107169143B CN107169143B (zh) | 2020-06-16 |
Family
ID=59819647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710453666.6A Active CN107169143B (zh) | 2017-06-15 | 2017-06-15 | 一种高效的海量舆情数据信息集群匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169143B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052574A (zh) * | 2017-12-08 | 2018-05-18 | 南京中新赛克科技有限责任公司 | 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法 |
CN108304454A (zh) * | 2017-11-27 | 2018-07-20 | 大象慧云信息技术有限公司 | 基于大数据的发票数据实时聚合装置 |
CN110888972A (zh) * | 2019-10-27 | 2020-03-17 | 北京明朝万达科技股份有限公司 | 一种基于Spark Streaming的敏感内容识别方法及装置 |
CN111625583A (zh) * | 2020-05-21 | 2020-09-04 | 广西电网有限责任公司 | 业务数据处理方法、装置、计算机设备和存储介质 |
CN112732668A (zh) * | 2021-01-21 | 2021-04-30 | 浪潮云信息技术股份公司 | 一种大数据网页存储和分析的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317947A (zh) * | 2014-11-07 | 2015-01-28 | 烽火通信科技股份有限公司 | 一种基于海量数据的实时结构化数据比对系统 |
CN105447081A (zh) * | 2015-11-04 | 2016-03-30 | 国云科技股份有限公司 | 面向云平台的一种政务舆情监控方法 |
CN105893628A (zh) * | 2016-05-17 | 2016-08-24 | 中国农业银行股份有限公司 | 一种数据实时收集系统及方法 |
CN106534784A (zh) * | 2016-11-22 | 2017-03-22 | 苏州航天系统工程有限公司 | 一种用于视频分析数据结果集的采集分析存储统计系统 |
-
2017
- 2017-06-15 CN CN201710453666.6A patent/CN107169143B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104317947A (zh) * | 2014-11-07 | 2015-01-28 | 烽火通信科技股份有限公司 | 一种基于海量数据的实时结构化数据比对系统 |
CN105447081A (zh) * | 2015-11-04 | 2016-03-30 | 国云科技股份有限公司 | 面向云平台的一种政务舆情监控方法 |
CN105893628A (zh) * | 2016-05-17 | 2016-08-24 | 中国农业银行股份有限公司 | 一种数据实时收集系统及方法 |
CN106534784A (zh) * | 2016-11-22 | 2017-03-22 | 苏州航天系统工程有限公司 | 一种用于视频分析数据结果集的采集分析存储统计系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304454A (zh) * | 2017-11-27 | 2018-07-20 | 大象慧云信息技术有限公司 | 基于大数据的发票数据实时聚合装置 |
CN108304454B (zh) * | 2017-11-27 | 2022-05-17 | 大象慧云信息技术有限公司 | 基于大数据的发票数据实时聚合装置 |
CN108052574A (zh) * | 2017-12-08 | 2018-05-18 | 南京中新赛克科技有限责任公司 | 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法 |
CN110888972A (zh) * | 2019-10-27 | 2020-03-17 | 北京明朝万达科技股份有限公司 | 一种基于Spark Streaming的敏感内容识别方法及装置 |
CN111625583A (zh) * | 2020-05-21 | 2020-09-04 | 广西电网有限责任公司 | 业务数据处理方法、装置、计算机设备和存储介质 |
CN111625583B (zh) * | 2020-05-21 | 2022-07-29 | 广西电网有限责任公司 | 业务数据处理方法、装置、计算机设备和存储介质 |
CN112732668A (zh) * | 2021-01-21 | 2021-04-30 | 浪潮云信息技术股份公司 | 一种大数据网页存储和分析的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107169143B (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169143A (zh) | 一种高效的海量舆情数据信息集群匹配方法 | |
CN107908690A (zh) | 一种基于大数据运营分析的数据处理方法 | |
CN107294801B (zh) | 基于海量实时互联网dpi数据的流式处理方法及系统 | |
CN107818150A (zh) | 一种日志审计方法及装置 | |
CN105490854B (zh) | 实时日志收集方法、系统和应用服务器集群 | |
CN105812177B (zh) | 一种网络故障处理方法和处理设备 | |
CN106980678A (zh) | 基于zookeeper技术的数据分析方法及系统 | |
CN105072173A (zh) | 自动客服和人工客服自动切换的客服方法及系统 | |
WO2002099584A3 (en) | Systems and methods for managing business metrics | |
CN107508722A (zh) | 一种业务监控方法和装置 | |
CN105337753B (zh) | 一种互联网真实质量监测方法及装置 | |
CN101582090A (zh) | 一种基于web分析的分布式处理方法和系统 | |
CN107239499A (zh) | 基于多维异构数据源集成与整合模型的分析方法及系统 | |
CN107729219A (zh) | 基于超融合存储系统的资源监控方法、装置及终端 | |
CN105930502B (zh) | 一种收集数据的系统、客户端和方法 | |
CN106992886A (zh) | 一种基于分布式存储的日志分析方法及装置 | |
CN107241305A (zh) | 一种基于多核处理器的网络协议分析系统及其分析方法 | |
CN105069029B (zh) | 一种实时etl系统及方法 | |
CN106559498A (zh) | 风控数据收集平台及其收集方法 | |
CN107370830B (zh) | 基于大数据的行业信息推送系统及方法 | |
CN107391606A (zh) | 基于Storm的日志处理方法及装置 | |
Yi et al. | The Geo/G/1 queue with disasters and multiple working vacations | |
CN111858278A (zh) | 基于大数据处理的日志分析方法、系统及可读存储装置 | |
CN109167672A (zh) | 一种回源错误定位方法、装置、存储介质以及系统 | |
CN107704620A (zh) | 一种档案管理的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 361008 Room 502, No.18, guanri Road, phase II, software park, Xiamen City, Fujian Province Patentee after: YLZ INFORMATION TECHNOLOGY Co.,Ltd. Patentee after: Yilianzhong Zhiding (Xiamen) Technology Co., Ltd Address before: 361008 Xiamen City, Fujian Province Room 502, No. 18, guanri Road, phase II, software park, Xiamen City, Fujian Province Patentee before: YLZ INFORMATION TECHNOLOGY Co.,Ltd. Patentee before: Yilianzhong (Xiamen) big data Technology Co., Ltd |