CN107679097B - 一种分布式数据处理方法、系统和存储介质 - Google Patents

一种分布式数据处理方法、系统和存储介质 Download PDF

Info

Publication number
CN107679097B
CN107679097B CN201710807042.XA CN201710807042A CN107679097B CN 107679097 B CN107679097 B CN 107679097B CN 201710807042 A CN201710807042 A CN 201710807042A CN 107679097 B CN107679097 B CN 107679097B
Authority
CN
China
Prior art keywords
data
analysis
group
marking
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710807042.XA
Other languages
English (en)
Other versions
CN107679097A (zh
Inventor
李雪青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Haiyou Communication Co ltd
Original Assignee
Guangzhou Haiyou Communication Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Haiyou Communication Co ltd filed Critical Guangzhou Haiyou Communication Co ltd
Priority to CN201710807042.XA priority Critical patent/CN107679097B/zh
Publication of CN107679097A publication Critical patent/CN107679097A/zh
Application granted granted Critical
Publication of CN107679097B publication Critical patent/CN107679097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种分布式数据处理方法、系统和存储介质,该方法包括有以下步骤:获取数据、预处理数据以及存储数据;对存储的数据进行个体、群体、事件以及整体分析;采用flume采集数据并通过sqoop将数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;展示数据分析结果。本发明通过相应的数据处理、数据存储以及采集数据、数据导入、并行化处理的过程,克服了关系型数据库不适合解决大规模数据的分布式计算的缺点,并且利用了MapReduce最适合于批处理任务的优势,从而实现高效地完成关系型数据库的分布式数据处理。本发明作为一种分布式数据处理方法、系统和存储介质可广泛应用于大数据处理领域。

Description

一种分布式数据处理方法、系统和存储介质
技术领域
本发明涉及大数据处理领域,尤其是一种分布式数据处理方法、系统和存储介质。
背景技术
随着现代社会的发展,人才流动,特别是优秀人才的快速流动成为一个普遍现象。如何在这样一个人才快速流动的环境中发现人才,并积极主动迎合人才的需求,保持自己的人才竞争优势已经成为各大公司人力资源管理所面临的一个非常重要的问题。
目前市场上常用的人才信息分析管理系统包括Beishen(北森)、Mordern HR inCloud等系统。上述所述信息分析系统大多数采用数据表格的结果化数据处理方式,在数据处理过程中面临复杂的ETL(extract、transform、load,萃取、转置、加载)的处理过程。一方面,所述系统进行数据信息分析的处理过程过于复杂,执行效率低,另一方面所述系统获取的信息数据通常仅包括例如学历、年龄、职业、工作年限、期望薪资等基于属性信息,对人才的分析受到获取的有限数据和固定分析方法的限制,没有涉及到其他影响人才流向的数据的分析,系统数据分析的灵活性较差、输出结果准确性较低。
现有技术中提供了多种大数据处理框架,例如一种基于网络流量元数据的安全分析框架(CN104753946A)。但是现有技术中Flume是一个分布式的海量日志采集和传输框架,Flume可以实时的从网络协议、消息系统、文件系统采集日志,并传输到HDFS上;但关系型数据库不适合解决大规模数据的分布式计算问题,Flume并没有改变MapReduce最适合于批处理任务的本质,Flume并不适合关系型数据库的数据采集和传输。并且,由于现阶段数据存储和项目服务器部署是分离得,每次请求数据的时候都需要进行网络请求,受制于网络连接速度的限制,数据访问极其不稳定,当大量用户进行数据访问的时候造成的问题更加突出。
术语解释:
关系数据:社会网络中的每个用户都具有基本属性信息,这些属性包括用户名称、性别、所属位置、描述、创建时间、好友数量等,用户与用户的好友关系构成的数据就叫关系数据。
团体数据:用户基于已经存在的关系或者共同兴趣构成了多种团体,这种数据就叫团体数据。
非结构化的信息数据:用户每时每刻发表的观点、评论、转发等信息形成的数据为非结构化的信息数据。
多类别的非结构化数据:用户上传的图片、音频、视频形成的数据为多类别的非结构化数据。
Hdfs:是一个高度容错性的分布式文件系统。
Flume:是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
MapReduce:是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。
Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
发明内容
为了解决上述技术问题,本发明的目的是:提供一种适用于关系型数据库的分布式数据处理方法。
为了解决上述技术问题,本发明的另一目的是:提供一种适用于关系型数据库的分布式数据处理系统。
为了解决上述技术问题,本发明的另一目的是:提供一种用于关系型数据库的分布式数据处理的存储介质。
本发明所采用的技术方案是:一种分布式数据处理方法,包括有以下步骤:
获取数据、预处理数据以及存储数据至数据库;
对存储的数据进行个体分析、群体分析、事件分析以及整体分析;
采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;
展示数据分析结果。
进一步,所述获取数据的具体过程为:对目标社会网络流量数据进行读取,提取目标社会网络流量数据的强特征,再从目标社会网络流量数据中识别出目标流量数据;然后对目标社会网络流量数据进行解析,提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。
进一步,所述预处理数据的具体过程为:对获取的数据进行清洗、打标和关联。
进一步,所述存储数据的具体过程为:将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。
进一步,所述个体分析的具体过程为:通过对获取的数据进行分析,得到个体社会属性的量化分析结果。
进一步,所述群体分析的具体过程为:通过对获取的数据进行分析,得到群体社会属性的量化分析结果。
进一步,所述事件分析的具体过程为:通过对获取的数据进行分析,得到事件传播过程中的传播特征量化分析结果。
进一步,所述整体分析的具体过程为:通过对获取的数据进行分析,得到整体的数据分析结果。
本发明所采用的另一技术方案是:一种分布式数据处理系统,包括有
数据模块,用于获取数据、预处理数据以及存储数据至数据库;
分析模块,用于对数据进行个体分析、群体分析、事件分析以及整体分析;
支撑模块,用于采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;
展示模块,用于展示数据分析结果。
本发明所采用的另一技术方案是:一种存储介质,该存储介质包括有计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时用于执行上述的一种分布式数据处理方法。
本发明方法、系统和存储介质的有益效果是:本发明通过相应的数据处理、数据存储以及采用flume采集数据并通过sqoop将关系型数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理,克服了关系型数据库不适合解决大规模数据的分布式计算的缺点,并且利用了MapReduce最适合于批处理任务的优势,从而实现高效地完成关系型数据库的分布式数据处理。
附图说明
图1为本发明方法的步骤流程图;
图2为本发明系统的模块框图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
参照图1,一种分布式数据处理方法,包括有以下步骤:
获取数据、预处理数据以及存储数据至数据库;
对存储的数据进行个体分析、群体分析、事件分析以及整体分析;
采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;
展示数据分析结果。
进一步作为优选的实施方式,所述获取数据的具体过程为:对目标社会网络流量数据进行读取,提取目标社会网络流量数据的强特征,再从背景流量数据(即目标社会网络流量数据)中识别出目标流量数据;然后对目标社会网络流量数据进行解析,提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。
进一步作为优选的实施方式,所述预处理数据的具体过程为:对获取的数据进行清洗、打标和关联。
数据清洗主要从数据的准确性、完整性、一致性、唯一性、适时性、有效性等几个方面来处理数据。对于遗漏数据需要对默认值填充;对于异常数据需要对其消除,以防止干扰后续分析工作;对于噪声数据需要进行平滑处理;对于所有数据都需要进行归一化处理。由于社会网络有很多重复数据,可以采用布隆过滤方法对目标社会的网络流量其去重。由于大部分数据是文本数据,为了节约存储空间,在数据预处理中还可使用压缩技术对其进行压缩。
社会网络数据往往十分繁杂,面对实时分析处理的苛刻需求,数据打标的工作必不可少。根据社会网络大数据分析的经验,我们将社会网络数据打标细分为:人物打标、群体打标、事件打标、关系权重打标、推文/微博打标。其中,人物打标是对兴趣、圈子、规律、影响力等进行打标;群体打标主要是对群体数量、活跃程度、群体兴趣等进行打标;事件打标主要是指对事件传播的广度、深度、参与数、受众数等进行打标;关系权重打标是计算并存储用户间的权重值;推文/微博打标主要是对信息类型、抽取后的关键词进行打标。
由于目前存在很多类型的社会网络,当对它们进行多源数据获取后,如何对数据进行关联也十分重要。首先,是多源帐号关联技术。现实社会中的用户往往会存在于多个社会网络中,例如Facebook、Twitter、新浪微博、人人网等,多个社会网络的账号会关联到同一实体用户上,而且这些账号往往具有相同或相似的特征,利用多源帐号关联技术可以将多个虚拟账号关联到某一实体用户上,从而为跨平台社会网络的分析奠定基础;其次,是多源数据整合技术。多平台数据的特征会存在趋同现象,例如同一个事件会同时在新浪微博和腾讯微博上进行传播。多源数据整合技术可以将多个平台的数据进行拟合或合并,既可以减少存储空间,又可以以全局角度统筹分析多平台数据。
进一步作为优选的实施方式,所述存储数据的具体过程为:将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。
其中数据存储是关系型数据库。为了存储当前需要分析的元数据;特征存储是为了将数据预处理的打标结果与其他数据分离,达到更优的分析速度;日志存储是为了存储系统运行所产生的大量日志;历史库存储是将历史数据分离存储,以减少实时分析的压力。
进一步作为优选的实施方式,所述个体分析的具体过程为:通过对获取的数据进行分析,得到个体社会属性的量化分析结果。
个体分析的目标是了解和洞察人物的身份、关系、社交圈、资本、位置、地位、行为、情感等社会属性,这些属性往往比较抽象,需要对其进行量化及测算。个体圈子分析主要是对人物所在的实体关系(具有直接联系的节点)和虚拟关系(人物节点的兴趣团体)进行分析,总结出圈子对人物各项属性的影响与关联;还可以对个体圈子演化过程和趋势进行分析。行为特征分析是对人物的基本属性和行为进行刻画,利用人物的时间序列、行为规律等信息来描述人物个体的行为状况;紧密度分析是指通过用户相似度计算用户紧密度好友;情感分析是指分析用户情感倾向性,主要分为正面情感、负面情感和中性情感;兴趣分析通过对人物的背景标签和用户发表的推文进行分析,抽取人物所关注用户的兴趣点,由于用户关注代表了用户的真实兴趣,因此可以根据关系属性推导人物个体兴趣。
进一步作为优选的实施方式,所述群体分析的具体过程为:通过对获取的数据进行分析,得到群体社会属性的量化分析结果。
群体分析的目标是分析群体边界、身份、群内关系、群际关系、群体凝聚力、群体兴趣、群体行为、群体心理、社会地位、群体变化等,从而更深层次洞察群体特性。特定群体发现主要是通过特征匹配技术对特定群体进行发现,主要匹配的目标有发布信息、关注主题、圈子兴趣等数据;由于群内个体与个体之间存在强关系,群与群之间存在弱关系,因此可以通过群内人物个体的链路分析其关联状态,群体关系分析可以将用户群作为一个整体,将视角放大,通过群之间的微量用户关联性分析群与群之间的弱关系;潜在群体成员推荐是指分析个体与目标群体的相似度情况,将相似度高的个体进行推荐;群体意见领袖分析是指通过群体的关系网络以及网络中心密度进行测算,度量每个节点在群内的影响力;因为每个群体都是由于共同的兴趣而存在,因此如何测算群体兴趣至关重要,群体兴趣发现是指通过群内关系相关迭代分析算法对其进行界定,通过群内的话题流传播对群体兴趣进行分析。
进一步作为优选的实施方式,所述事件分析的具体过程为:通过对获取的数据进行分析,得到事件传播过程中的传播特征量化分析结果。
事件分析的目标是分析事件在传播过程中的结构、内容、演化、意图、涌现性、行为、心理、受众、广度、深度、态势等。事件发现是以发布内容为中心,对事件的主题进行文本聚类,从而发现热门事件及参与的用户与群体;路径还原是通过事件传播方向进行刻画,通过获取到的传播信息,以正向的方式对传播路径进行还原;源头追溯是路径还原的逆过程,是通过传播的反向方式对节点进行回溯,最终寻找事件发生的源头节点;事件传播规律分析是指分析事件的热度、趋势、传播层数等,以掌握事件的发展状况;事件意见领袖分析是指通过事件传播过程中的爆发点特征计算节点的影响力,从而分析挖掘传播过程中的意见领袖。
进一步作为优选的实施方式,所述整体分析的具体过程为:通过对获取的数据进行分析,得到整体的数据分析结果。
整体分析主要分为热门人物和事件排序、整体统计分析、全局拓扑结构分析和按区域热点事件分析,其技术手段多用于基础统计分析和数据挖掘技术,主要目的是了解和掌握社会网络当前的全局情况,同时预测全局网络的未来状况。
作为本发明的另一具体实施例:参照图2,一种分布式数据处理系统,包括有
数据模块,用于获取数据、预处理数据以及存储数据至数据库;
分析模块,用于对数据进行个体分析、群体分析、事件分析以及整体分析;
支撑模块,用于采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,从而进行数据预处理,并利用mapReduce完成计算任务的并行化处理,自动化分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,并将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,并进行相应多层次数据挖掘分析。
展示模块,用于展示数据分析结果;其作为技术与应用之间的桥梁,具有交互性、多维性和可视性等特点。通展示模块可以根据用人需求方的需求和人才简历的关键词、工作经验、工作地等数据减缩以实现个性化的信息推荐、简历搜索可以对简历人员的关系数据、团体数据、非结构化的信息数据及多类型的非结构数据进行深层次挖掘分析,以确定简历人员的社会行为从而进行条件筛选、精准匹配。
作为本发明的另一具体实施例:一种存储介质,该存储介质包括有计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时用于执行上述的一种分布式数据处理方法。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可以作出种种的等同变换或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (5)

1.一种分布式数据处理方法,其特征在于,包括有以下步骤:
获取数据、预处理数据以及存储数据至数据库;其中,预处理数据的具体过程为:对获取的数据进行清洗、打标和关联,清洗包括对于遗漏数据需要对默认值填充,对于异常数据需要对其消除,以防止干扰后续分析工作,对于噪声数据需要进行平滑处理,对于所有数据都需要进行归一化处理;打标包括人物打标、群体打标、事件打标、关系权重打标、推文/微博打标;关联包括利用多源帐号关联技术可以将多个虚拟账号关联到某一实体用户上,以及将多个平台的数据进行拟合或合并;
对存储的数据进行个体分析、群体分析、事件分析以及整体分析;其中,个体分析通过对获取的数据进行包括个体圈子、行为特征、紧密度、情感或兴趣中的任一种或多种组合分析,得到个体社会属性的量化分析结果;群体分析通过对获取的数据进行包括特定群体、群与群之间的弱关系、潜在群体成员推荐、群体意见领袖、群体兴趣中的任一种或多种组合分析,得到群体社会属性的量化分析结果;事件分析通过对获取的数据进行包括事件发现、路径还原、源头追溯、事件传播规律及事件意见领袖中的任一种或多种组合分析,得到事件传播过程中的传播特征量化分析结果;整体分析通过对获取的数据进行包括热门人物、事件排序、整体统计、全局拓扑结构和按区域热点事件中的任一种或多种组合分析,得到整体的数据分析结果;
采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;
展示数据分析结果。
2.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述获取数据的具体过程为:对目标社会网络流量数据进行读取,提取目标社会网络流量数据的强特征,再从目标社会网络流量数据中识别出目标流量数据;然后对目标社会网络流量数据进行解析,提取用户关系数据、团体数据、非结构化的信息数据及多类别的非结构化数据。
3.根据权利要求1所述的一种分布式数据处理方法,其特征在于,所述存储数据的具体过程为:将获取的数据以及预处理之后的数据分为目标社会网络流量数据存储、特征数据存储、日志数据存储和历史数据存储。
4.一种分布式数据处理系统,其特征在于:包括有
数据模块,用于获取数据、预处理数据以及存储数据至数据库;其中,预处理数据的具体过程为:对获取的数据进行清洗、打标和关联,清洗包括对于遗漏数据需要对默认值填充,对于异常数据需要对其消除,以防止干扰后续分析工作,对于噪声数据需要进行平滑处理,对于所有数据都需要进行归一化处理;打标包括人物打标、群体打标、事件打标、关系权重打标、推文/微博打标;关联包括利用多源帐号关联技术可以将多个虚拟账号关联到某一实体用户上,以及将多个平台的数据进行拟合或合并,
分析模块,用于对数据进行个体分析、群体分析、事件分析以及整体分析;其中,个体分析通过对获取的数据进行包括个体圈子、行为特征、紧密度、情感或兴趣中的任一种或多种组合分析,得到个体社会属性的量化分析结果;群体分析通过对获取的数据进行包括特定群体、群与群之间的弱关系、潜在群体成员推荐、群体意见领袖、群体兴趣中的任一种或多种组合分析,得到群体社会属性的量化分析结果;事件分析通过对获取的数据进行包括事件发现、路径还原、源头追溯、事件传播规律及事件意见领袖中的任一种或多种组合分析,得到事件传播过程中的传播特征量化分析结果;整体分析通过对获取的数据进行包括热门人物、事件排序、整体统计、全局拓扑结构和按区域热点事件中的任一种或多种组合分析,得到整体的数据分析结果;
支撑模块,用于采用flume采集数据并通过sqoop将数据库中的数据导入到hadoop的hdfs中,并利用mapReduce完成计算任务的并行化处理;
展示模块,用于展示数据分析结果。
5.一种存储介质,该存储介质包括有计算机可执行指令,其特征在于:所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-3中任一权利要求所述的一种分布式数据处理方法。
CN201710807042.XA 2017-09-08 2017-09-08 一种分布式数据处理方法、系统和存储介质 Active CN107679097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710807042.XA CN107679097B (zh) 2017-09-08 2017-09-08 一种分布式数据处理方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710807042.XA CN107679097B (zh) 2017-09-08 2017-09-08 一种分布式数据处理方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN107679097A CN107679097A (zh) 2018-02-09
CN107679097B true CN107679097B (zh) 2021-06-18

Family

ID=61135277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710807042.XA Active CN107679097B (zh) 2017-09-08 2017-09-08 一种分布式数据处理方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN107679097B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241033A (zh) * 2018-08-21 2019-01-18 北京京东尚科信息技术有限公司 创建实时数据仓库的方法和装置
CN113032636B (zh) * 2019-12-25 2024-08-16 中移动信息技术有限公司 完全子图数据的搜索方法、装置、设备及介质
CN112181972A (zh) * 2020-11-02 2021-01-05 北京通付盾人工智能技术有限公司 基于大数据的数据治理方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120041907A (ko) * 2010-10-22 2012-05-03 동국대학교 경주캠퍼스 산학협력단 맵리듀스 기반의 대용량 데이터 분산 계산 방법 및 그 시스템
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN105139281A (zh) * 2015-08-20 2015-12-09 北京中电普华信息技术有限公司 一种电力营销大数据的处理方法及系统
CN105740397A (zh) * 2016-01-28 2016-07-06 广州市讯飞樽鸿信息技术有限公司 一种基于大数据并行运算的语音信箱业务数据分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120041907A (ko) * 2010-10-22 2012-05-03 동국대학교 경주캠퍼스 산학협력단 맵리듀스 기반의 대용량 데이터 분산 계산 방법 및 그 시스템
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN105139281A (zh) * 2015-08-20 2015-12-09 北京中电普华信息技术有限公司 一种电力营销大数据的处理方法及系统
CN105740397A (zh) * 2016-01-28 2016-07-06 广州市讯飞樽鸿信息技术有限公司 一种基于大数据并行运算的语音信箱业务数据分析方法

Also Published As

Publication number Publication date
CN107679097A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
US10546006B2 (en) Method and system for hybrid information query
CN104809242B (zh) 一种基于分布式结构的大数据聚类方法和装置
Stefanidis et al. Harvesting ambient geospatial information from social media feeds
US20150032492A1 (en) Methods of Identifying Relevant Content and Subject Matter Expertise for Online Communities
KR20120126093A (ko) 네트워크에서 프렌드 피드를 관리하는 방법, 시스템 및 서버
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
US10452639B2 (en) Processing joins in a database system using zero data records
CN110462604A (zh) 基于设备使用关联互联网设备的数据处理系统和方法
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
KR20160079863A (ko) 소셜 데이터 네트워크에서의 사용자의 거동 세그먼트화를 위한 시스템 및 방법
CN111159184B (zh) 元数据追溯方法、装置及服务器
Liu et al. Mining urban perceptions from social media data
CN107679097B (zh) 一种分布式数据处理方法、系统和存储介质
US20170270210A1 (en) Data Infrastructure and Method for Ingesting and Updating A Continuously Evolving Social Network
CN104298785A (zh) 一种众搜资源搜索方法
CN114429364A (zh) 业务数据管理方法和装置、存储介质及电子设备
CN103970891A (zh) 一种基于情境的用户兴趣信息查询方法
CN105183809A (zh) 一种云平台数据查询方法
US20140214834A1 (en) Clustering signifiers in a semantics graph
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
US20210182317A1 (en) Identification and analysis of cohesive and topic-focused groups of user accounts from user-generated content on electronic communication platforms
CN115905630A (zh) 一种图数据库查询方法、装置、设备及存储介质
CN111382345B (zh) 话题筛选和发布的方法、装置和服务器
CN112818223B (zh) 用户画像的查询处理方法、装置、设备、程序产品及介质
CN110909072B (zh) 一种数据表建立方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant