CN104298669A - 一种基于社交网络的人员地理信息挖掘模型 - Google Patents
一种基于社交网络的人员地理信息挖掘模型 Download PDFInfo
- Publication number
- CN104298669A CN104298669A CN201310295894.7A CN201310295894A CN104298669A CN 104298669 A CN104298669 A CN 104298669A CN 201310295894 A CN201310295894 A CN 201310295894A CN 104298669 A CN104298669 A CN 104298669A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- information
- mining
- geographic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据并行数据挖掘,尤其是一种基于社交网络海量的数据信息挖掘兴趣人员的地理信息的模型。该模型包括海量数据存储与挖掘模块和软件功能模块,所述的数据存储与挖掘模块由前端服务器、地理信息位置配置库、数据预处理、大数据处理平台构成,软件功能模块加载在地理信息挖掘模型上。前端服务器用于抓取网络信息,数据预处理包含日志搜集和格式清洗两步,用于去掉一些记录不完全的坏数据,保证数据的格式统一,信息完整。大数据处理平台包含有1个名称节点处理单元和2个数据流多重处理器,进行快速、并行的数据挖掘,使数据信息在极短的时间内展现在用户面前。本发明将社交网络与大数据处理相结合,有效提高了地理信息提取的可靠性和速度。
Description
所属技术领域
本发明涉及数据挖掘模型,尤其是一种基于社交网络海量的数据信息挖掘兴趣人员的地理信息的模型。
背景技术
随着网络技术的迅速发展,网络用户和产生的数据量呈现爆炸增长的态势,同时用户的网络行为与现实社会中行为的复杂性和多样性相映射,形成一个庞大的数据资源池。为挖掘社交网络中积累的海量数据信息,恰当的对网络和现实行为进行分析、管理和预警,建立海量信息的分布式网络存储以及数据发掘平台就显得尤为重要。
当前,全球的各种分布式计算平台已有约百种,这些计算大多互无关联、独立管理、独立使用自己的一套软件。目前的这种分布式计算互相割据的格局很不利于发展的需要。并且这些计算平台运用范围较窄,并没有涉及通过挖掘社交网络海量数据对人员的行为轨迹的分析。
发明内容
为了克服现有的数据挖掘平台应用上的不足,本发明提供一种基于社交网络的人员行为轨迹分析系统,它通过挖掘人员主动在社交平台上标定自己的位置信息,获取当前人员的行为轨迹。
本系统着重体现在基于地理信息的数据挖掘系统,如对于一个用户,查询其地理位置等。此类查询可以满足一些日常生活场景中用户的需求。比如,用户在户外时需要寻求一些帮助,即可通过该系统找到离自己最近的好友,解决问题。同时,在公安和交通系统在查询人员信息时,个人发表的位置信息同样为侦查提供帮助。
为解决上述技术问题,本发明采用如下的技术方案:一种基于社交网络的人员轨迹分析系统,包括:海量数据存储与挖掘模块和软件功能模块。
海量数据存储与挖掘模块用于存储和挖掘海量的社交网络信息,这些信息是整个系统的构成基础,系统平台包含日志搜集、格式清洗、导入DFS、规则计算、导出DFS、清理历史数据六步信息处理过程。
软件功能模块包含数据采集模块,数据挖掘模块和数据索引模块。
前述的一种海量数据存储与挖掘模块日志搜集过程中,主要负责从各产品的前端机上收集获取原始的Web访问日志。为保证及时进行信息处理,需要建立轮转机制。所谓轮转机制,即每天1点、7点和19点会自动启动远程SCP程序,以期避开不同产品一天日志同一时间收集造成网路堵塞。所谓SCP,即决定呼叫如何处理的智能网络程序。
前述的一种海量数据存储与挖掘技术格式清洗过程中即对原始日志中多种产品不同的配置格式进行统一,包括定义每个字段的含义和位置以及统一分隔符,同时还去掉一些记录不完全的坏数据。保证数据的格式统一,信息完整。
前述的一种海量数据存储与挖掘模块导入DFS过程,是启动Hadoop分布式文件系统规则计算的前提必要工作。Hadoop的分布式文件系统被设计为将海量文件遍布存储在一个大集群的多台计算机上,每一个文件以分块序列的形式进行存储,一个文件的所有分块除去最后一个分块外都是等大小的。为了实现容错将文件分块进行自动复制。文件分块的块大小和复制比例都是可以按照单个文件进行配置的。
前述的一种海量数据存储与挖掘模块规则计算过程,是MapReduce计算模型的核心,主 要完成事务逻辑的规则设计和计算功能。MapReduce并行计算模型,即包含映射、混合和规约三个步骤。通过映射输入文件集合会先被划分为几个“文件片断”,每个“文件片段”将会对应的创建一个新的映射任务。当映射操作输出了它的键值对后它们就会在内存中驻留,通过混合,提供一个执行规约类型功能类,映射过程产生的键值对就不会立刻写到输出。当一个规约任务开始时,它的输入来源于分散在多个节点上的映射任务所产生的许多文件。
前述的一种海量数据存储与挖掘模块导出DFS过程,即将计算结果从DFS中导出,存放到指定的NFS或者大型数据库中。
前述的一种海量数据存储与挖掘模块清理历史数据过程,即垃圾数据或文件的清理工作,及时的清理出空闲磁盘,有利于下一次操作。
前述的软件功能模块的采集模块过程中,就是从微博网站中获取所有有用信息的页面,并对获取页面进行解析,将页面半结构化的信息转换成系统所识别的格式化的信息(用户、博文、发表时间、发布网站、发布地点等),并去除所有无关信息,作为模块的输入。
前述的软件功能模块的数据索引模块过程中,其中包含内容信息实体的定位,海量数据的各类统计分析,以及即时查询等。
前述的软件功能模块的数据挖掘模块过程中,主要是针对基于微博垂直搜索的互联网定位系统的关键词挖掘。
本发明的有益效果是,针对复杂异构的数据环境,提供社交网络海量数据的地理位置挖掘技术,有效解决当前互联网网络监测和分析领域的技术瓶颈。通过对海量数据的数据清理,保留有效数据,通过对数据库进行关联规则挖掘,发现有效关联并提供决策支持。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明所述基于社交网络的人员地理信息数据挖掘模型结构示意方框图;
图2是本发明的一种实施例的体系架构及其功能模块。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明:
在图1中,本发明所述的一种基于社交网络的人员地理信息数据挖掘模型包括前段服务器、地理信息位置配置库、大数据平台名称节点服务器、大数据平台数据节点服务器、大型数据库等构成。所述的前段服务器即为爬虫服务器,根据设定的抓取范围自动在社交网络上搜寻相关信息。这些信息通过所述的地理信息位置配置库进行地理位置的匹配,将匹配后的信息录入日志,进行日志搜集工作。所搜集的日志格式具备异构性,所以需要进行格式清洗。所述的大数据平台名称节点服务器、大数据平台数据节点服务器、大型数据库构成Hadoop数据存储平台。
海量数据在抓取后需要进行数据预处理,数据预处理包括日志搜集和格式清洗。
海量数据存储与挖掘技术日志搜集,主要从各产品的前端服务器上收集获取原始的Web访问日志。为保证及时进行信息处理,需要建立轮转机制。所谓轮转机制,即每天1点、7点和19点(或者自由设定)会自动启动远程SCP程序,以期避开不同产品一天日志同一时间收集造成网路堵塞。所谓SCP,即决定呼叫如何处理的智能网络程序,这里就是启动搜集程序。
格式清洗即对原始日志中多种产品不同的配置格式进行统一,包括定义每个字段的含义和位置以及统一分隔符,同时还会去掉一些记录不完全的坏数据,保证数据的格式统一,信息完整。
预处理后的数据导入Hadoop数据处理平台。Hadoop数据处理平台包括大数据平台名称 节点服务器、大数据平台数据节点服务器和大型数据库。
导入DFS过程即将数据导入到大数据平台名称节点服务器,名称节点服务器一般运行着一个GNU/Linux操作系统。在一个集群中一个专门的机器仅仅用于运行名称节点软件。集群中的其他机器则被当做数据节点服务器。数据节点服务器可以互相共享数据。导入DFS过程,是启动Hadoop分布式文件系统规则计算的前提必要工作。Hadoop的分布式文件系统被设计为将海量文件遍布存储在一个大集群的多台计算机上,每一个文件以分块序列的形式存储到大数据平台数据节点服务器上,一个文件的所有分块除去最后一个分块外都是等大小的。为了实现容错将文件分块进行自动复制。
规则计算过程,是MapReduce计算模型的核心,运行在名称节点服务器上。主要完成事务逻辑的规则设计和计算功能。MapReduce并行计算模型,即包含映射、混合和规约三个步骤。通过映射输入文件集合会先被划分为几个“文件片断”,每个“文件片段”将会对应的创建一个新的映射任务。当映射操作输出了它的键值对后它们就会在内存中驻留,通过混合,提供一个执行规约类型功能类,映射过程产生的键值对就不会立刻写到输出。当一个规约任务开始时,它的输入来源于分散在多个节点上的映射任务所产生的许多文件。
前述的一种海量数据存储与挖掘模型导出DFS过程,即将计算结果从DFS中导出,存放到指定的大型数据库中。
在图2所示实施例的体系架构及其功能模块包含数据采集模块、数据索引模块和数据挖掘模块。
数据采集模块包括从各类社交网络、微博和论坛上搜集到信息进行个人状态文字分析、地理位置挖掘和基础数据采集。即从微博、社交网站中获取所有有用信息的页面,并对获取页面进行解析,将页面半结构化的信息转换成系统所识别的格式化的信息(用户、博文、发表时间、发布网站、发布地点等),并去除所有无关信息,作为模块的输入。
数据索引模块主要用于信息筛选,其中包含内容信息实体的定位,海量数据的各类统计分析,以及即时查询等。
数据挖掘模块主要是针对基于微博垂直搜索的互联网定位系统的关键词挖掘。
Claims (8)
1.一种基于社交网络的人员地理信息数据挖掘模型,其特征在于,包括:
海量数据存储与挖掘模块;
地理信息位置配置库,其设置在海量数据存储与挖掘模块内,查找对应地理信息,与前端服务器相连;
日志搜集装置,其设置在海量数据存储与挖掘模块内,根据对应地理位置搜集在社交网络上人员的地理信息,与所述的地理信息配置库相连;
格式清洗装置,其设置在海量数据存储与挖掘模块内,统一原始日志中不同的配置格式,包括定义字段的含义和位置以及统一分隔符,删除记录不完全的坏数据,保证信息的完整性。
大数据存储挖掘平台,其设置在海量数据存储与挖掘模块内,与格式清洗装置相连。
软件功能模块;
数据采集模块,其设置在软件功能模块内,从各类社交网络、微博和论坛上搜集信息进行处理。
数据索引模块,其设置在软件功能模块内,采用并行处理方式从大量数据中提取可用数据。
数据挖掘模块,其设置在软件功能模块内,根据用户需求施行发掘任务。
2.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:大数据存储挖掘平台上包含导入DFS和导出DFS模块。
3.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:大数据存储挖掘平台上包含设置有1个名称节点处理单元和2个数据流多重处理器。
4.根据权利要求3所述的1个名称节点处理单元和2个数据流多重处理器,其特征在于:数据在名称节点处理单元进行分割,利用规则计算过程进行并行数据的处理。
5.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:所述的数据采集模块包含个人状态文字、地理信息和基础数据采集三个部分。
6.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:所述的数据索引模块包含信息筛选部分。
7.根据权利要求1所述的一种基于社交网络的人员地理信息数据挖掘模型,其特征在于:数据挖掘模块包含地理信息位置数据库和用户关系数据库。
8.根据权利要求7所述的地理信息位置数据库和用户关系数据库,其特征在于:利用敏感区域、热点聚合和用户关系进行数据挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310295894.7A CN104298669A (zh) | 2013-07-16 | 2013-07-16 | 一种基于社交网络的人员地理信息挖掘模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310295894.7A CN104298669A (zh) | 2013-07-16 | 2013-07-16 | 一种基于社交网络的人员地理信息挖掘模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104298669A true CN104298669A (zh) | 2015-01-21 |
Family
ID=52318397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310295894.7A Pending CN104298669A (zh) | 2013-07-16 | 2013-07-16 | 一种基于社交网络的人员地理信息挖掘模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104298669A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834706A (zh) * | 2015-04-30 | 2015-08-12 | 南京邮电大学 | 基于位置推荐的互联网数据处理系统及方法 |
CN105528391A (zh) * | 2015-11-26 | 2016-04-27 | 国网北京市电力公司 | 更新地理信息数据增量的方法及装置 |
CN106294625A (zh) * | 2016-08-02 | 2017-01-04 | 苏州鸿然信息科技有限公司 | 基于用户行为的云服务垂直搜索充电桩系统 |
CN106844435A (zh) * | 2016-12-14 | 2017-06-13 | 国网北京市电力公司 | 更新地理信息数据增量的方法及装置 |
CN107205060A (zh) * | 2017-05-10 | 2017-09-26 | 郑州埃文计算机科技有限公司 | 一种ip到id的关联方法 |
CN109039827A (zh) * | 2018-08-30 | 2018-12-18 | 河南信安通信技术股份有限公司 | 基于位置的社交软件热点采集系统及其方法 |
CN110995834A (zh) * | 2019-12-02 | 2020-04-10 | 北京应用科学技术研究院 | 社交网络轨迹跟随方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908191A (zh) * | 2010-08-03 | 2010-12-08 | 深圳市她秀时尚电子商务有限公司 | 应用于电子商务的数据分析方法及系统 |
CN101923549A (zh) * | 2009-07-29 | 2010-12-22 | 北京航天理想科技有限公司 | 自定义可视化智能轨迹线索分析系统及建立方法 |
CN102509170A (zh) * | 2011-10-10 | 2012-06-20 | 浙江鸿程计算机系统有限公司 | 一种基于历史轨迹数据挖掘的位置预测系统及方法 |
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
-
2013
- 2013-07-16 CN CN201310295894.7A patent/CN104298669A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101923549A (zh) * | 2009-07-29 | 2010-12-22 | 北京航天理想科技有限公司 | 自定义可视化智能轨迹线索分析系统及建立方法 |
CN101908191A (zh) * | 2010-08-03 | 2010-12-08 | 深圳市她秀时尚电子商务有限公司 | 应用于电子商务的数据分析方法及系统 |
CN102509170A (zh) * | 2011-10-10 | 2012-06-20 | 浙江鸿程计算机系统有限公司 | 一种基于历史轨迹数据挖掘的位置预测系统及方法 |
CN102880719A (zh) * | 2012-10-16 | 2013-01-16 | 四川大学 | 基于位置社交网络的用户轨迹相似性挖掘方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834706A (zh) * | 2015-04-30 | 2015-08-12 | 南京邮电大学 | 基于位置推荐的互联网数据处理系统及方法 |
CN105528391A (zh) * | 2015-11-26 | 2016-04-27 | 国网北京市电力公司 | 更新地理信息数据增量的方法及装置 |
CN106294625A (zh) * | 2016-08-02 | 2017-01-04 | 苏州鸿然信息科技有限公司 | 基于用户行为的云服务垂直搜索充电桩系统 |
CN106844435A (zh) * | 2016-12-14 | 2017-06-13 | 国网北京市电力公司 | 更新地理信息数据增量的方法及装置 |
CN107205060A (zh) * | 2017-05-10 | 2017-09-26 | 郑州埃文计算机科技有限公司 | 一种ip到id的关联方法 |
CN109039827A (zh) * | 2018-08-30 | 2018-12-18 | 河南信安通信技术股份有限公司 | 基于位置的社交软件热点采集系统及其方法 |
CN109039827B (zh) * | 2018-08-30 | 2020-09-22 | 河南信安通信技术股份有限公司 | 基于位置的社交软件热点采集系统及其方法 |
CN110995834A (zh) * | 2019-12-02 | 2020-04-10 | 北京应用科学技术研究院 | 社交网络轨迹跟随方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881424B (zh) | 一种基于正则表达式的电力大数据采集、存储及分析方法 | |
CN104298669A (zh) | 一种基于社交网络的人员地理信息挖掘模型 | |
CN104160394B (zh) | 用于半结构化数据的可缩放分析平台 | |
Poorthuis et al. | Making big data small: strategies to expand urban and geographical research using social media | |
CN102164186B (zh) | 一种实现云搜索服务的方法及系统 | |
CN103297503B (zh) | 基于分层次信息提取服务器的移动终端群智感知系统 | |
CN102999633A (zh) | 网络信息的云聚类提取方法 | |
CN105677842A (zh) | 基于Hadoop大数据处理技术的日志分析系统 | |
Wang et al. | Research and implementation on spatial data storage and operation based on Hadoop platform | |
Xia et al. | Big traffic data processing framework for intelligent monitoring and recording systems | |
CN102122291A (zh) | 一种基于树形日志模式分析的博客好友推荐方法 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN104462222A (zh) | 一种卡口车辆通行数据的分布式存储方法及系统 | |
Ding et al. | SeaCloudDM: a database cluster framework for managing and querying massive heterogeneous sensor sampling data | |
CN104951529A (zh) | 一种针对网站日志的交互式分析方法 | |
CN103631922A (zh) | 基于Hadoop集群的大规模Web信息提取方法及系统 | |
CN106407429A (zh) | 文件追踪方法、装置及系统 | |
CN111488420B (zh) | 去中心微服务化区域洪水预警水信息系统及其集成方法 | |
CN104881427A (zh) | 一种面向电网调控运行的数据血统分析方法 | |
CN105550375A (zh) | 一种异构数据的整合方法及系统 | |
CN109977125A (zh) | 一种基于网络安全的大数据安全分析平台系统 | |
CN110321446A (zh) | 相关数据推荐方法、装置、计算机设备及存储介质 | |
CN103412883B (zh) | 基于p2p技术的语义智能信息发布订阅方法 | |
Liu et al. | On construction of an energy monitoring service using big data technology for smart campus | |
CN107704620B (zh) | 一种档案管理的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150121 |