CN104615734A - 一种社区管理服务大数据处理系统及其处理方法 - Google Patents

一种社区管理服务大数据处理系统及其处理方法 Download PDF

Info

Publication number
CN104615734A
CN104615734A CN201510070156.1A CN201510070156A CN104615734A CN 104615734 A CN104615734 A CN 104615734A CN 201510070156 A CN201510070156 A CN 201510070156A CN 104615734 A CN104615734 A CN 104615734A
Authority
CN
China
Prior art keywords
data
label
community management
management service
long term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510070156.1A
Other languages
English (en)
Other versions
CN104615734B (zh
Inventor
丁帅
杨善林
蔡琼
徐健
潘禹辰
牛锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201510070156.1A priority Critical patent/CN104615734B/zh
Publication of CN104615734A publication Critical patent/CN104615734A/zh
Application granted granted Critical
Publication of CN104615734B publication Critical patent/CN104615734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社区管理服务大数据处理系统及其处理方法,包括社区管理服务数据库、数据收集系统和数据集成系统;数据收集系统用于实现对社区管理服务大数据的采集;数据集成系统用于实现对社区管理服务大数据的转换与融合。本发明能形成面向社区管理服务的半结构化数据和结构化数据的采集机制,针对具有不同时效性的社区管理服务大数据形成高效的存储机制,为解决社区管理服务大数据冗余性高的问题形成完整的集成机制,从而提升社区管理服务大数据的处理效率。

Description

一种社区管理服务大数据处理系统及其处理方法
技术领域
本发明涉及大数据处理分析,特别是涉及针对社区管理服务的大数据处理系统及方法。
背景技术
社区管理是社会治理的细胞,是国家治理体系和治理能力现代化建设的重要基础。互联网尤其是移动互联网在社区管理服务中的广泛应用,以及社交网络、智慧城市等新型信息源的不断涌现,催生了多源、动态、海量、异构的社区管理服务大数据。
目前主流的大数据计算方法为开源分布式计算平台Hadoop,其核心为分布式文件系统HDFS与编程模型MapReduce。虽然Mapreduce擅长处理半结构化数据与结构化数据,然而针对特定需求的数据处理任务效率低下,面对社区管理服务大数据对时效性要求高的问题尚未形成良好的解决办法,也没有形成完整的冗余数据集成机制,为开发社区管理服务大数据的潜在价值带来了不便。
发明内容
本发明是为了克服现有技术存在的不足之处,提供一种社区管理服务大数据处理系统及其处理方法,以期能形成面向社区管理服务的半结构化数据和结构化数据的采集机制,针对具有不同时效性的社区管理服务大数据形成高效的存储机制,为解决社区管理服务大数据冗余性高的问题形成完整的集成机制,从而提升社区管理服务大数据的处理效率。
本发明为达到上述目的所采用的技术方案是:
本发明一种社区管理服务大数据处理系统的特点包括:社区管理服务数据库、数据收集系统和数据集成系统;
所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块;所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;
所述数据集成系统包括数据转换模块和数据融合模块;所述数据转换模块将所述半结构化数据转换为新结构化数据,所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据。
本发明一种社区管理服务大数据处理系统的处理方法的特点是按如下步骤进行:
步骤1、获得半结构化数据并进行存储;
步骤1.1、构建用于临时存储半结构化数据的XML模板文档;
步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取;获得半结构化数据;将所述半结构化数据存入所述XML模板文档中;
步骤2、获得长期存储数据并进行存储;
步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集,获得第v个长期结构化数据,记为表示所述第v个长期结构化数据Av中第i个的元素;1≤i≤n;1≤v≤V;V表示所述长期存储数据的总数;
步骤2.2、创建用于存储所述第v个长期结构化数据Av的第一数据链栈与第二数据链栈
步骤2.3、根据所述第v个长期结构化数据Av的生成时间将所述第v个长期结构化数据Av依次存入所述第一数据链栈并用元素属性Date来表示所述第v个长期结构化数据Av的生成时间,记为 Date v = { Date 1 ( v ) , Date 2 ( v ) , . . . , Date i ( v ) , . . . , Date n ( v ) } ; 表示所述第v个长期结构化数据Av中第i个的元素的生成时间;
步骤2.4、初始化i=1;则所述第一数据链栈中第i个元素表示栈顶元素;
步骤2.5、令指针指向所述第i个元素
步骤2.6、将所述第i个元素的生成时间与时间阈值A进行比较;在所述第i个元素生成时间大于所述时间阈值A时,取出所述第i个元素并压入到所述第二数据链栈中;并将i+1赋给i后,返回步骤2.5顺序执行;从而利用所述第二数据链栈完成长期存储数据的存储;并形成第v个长期存储数据表,进而获得V个长期存储数据表;
步骤3、获得临时存储数据并进行存储;
步骤3.1、根据设定周期对所述社区管理服务数据库中的临时存储数据进行定向采集,获得临时结构化数据;
步骤3.2、创建容量为S的队列Queue1;
步骤3.3、将所述临时存储数据压入所述队列Queue1;
步骤3.4、用元素数据Data来表示存放在所述社区管理服务数据库中的其他临时存储数据;
步骤3.5、判断所述队列Queue1是否空余,若空余,则将所述元素数据Data顺序存放在所述队列Queue1的队尾;若所述队列Queue1已满,则删除所述队列Queue1的队头元素,并将所述元素数据Data插入到所述队列Queue1的队尾;从而形成临时存储数据表;
步骤4、将所述XML模板文档采用关键字映射机制生成结构化数据表;将所述半结构化数据存入所述结构化数据表;
步骤5、对所述长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作,包括:
步骤5.1、对所述V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label={label1,label2,...,labelj,...,labelv+2};labelj表示第j个数据表;1≤j≤V+2;
步骤5.2、对所述数据表label依次设立整合标志位flag;记为flag={flag1,flag2,...,flagj,...,flagv+2};flagj表示第j个数据表labelj的整合标志位;
步骤5.3、初始化j=1,flagj=1;则将第j个数据表labelj作为参照表;
步骤5.4、将所述第j个数据表labelj与第j+1个数据表labelj+1按照相似度规则进行关键字相似度比较;所述相似度规则为:若则设置flagj+1=1,并进行表整合操作,即labelj∪labelj+1=labelj∪j+1;并执行步骤5.5;若则设置flagj+1=0,并执行步骤5.6;
步骤5.5、将labelj∪j+1赋值给labelj+1;判断j+1=V+2是否成立,若成立,表示完成表整合操作,形成社区管理服务数据表label′;并执行步骤5.7;否则,则将j+1赋值给j后返回步骤5.4;
步骤5.6、将labelj+2赋值给labelj+1并返回步骤5.4;
步骤5.7、在所述数据表label中任意挑选整合标志位flag为0的数据表作为参照表,并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较,直到整合标志位flag为0的数据表都完成关键字相似度比较为止,从而形成最终更新的社区管理服务数据表;由此获得社区管理服务的结构化数据。
与现有技术相比,本发明的有益技术效果体现在:
1、本发明由社区管理服务数据库、数据收集系统和数据集成系统组成社区管理服务大数据处理系统,其社区管理服务数据库为数据收集系统提供数据,数据收集系统包括半结构化数据采集模块和结构化数据采集模块,分别采集半结构化数据与结构化数据,数据集成系统包括数据转换模块和数据融合模块,数据转换模块将半结构化数据转换为新结构化数据,数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,从而获得社区管理服务的结构化数据。
2、本发明通过创建数据链栈的方法,对需要进行长期存储的社区管理服务大数据进行采集与存储,实现了对该类型数据的批量式存储,大幅提高了社区管理服务大数据的采集与存储性能,为社区管理服务的数据分析任务提供了数据来源。
3、本发明通过创建数据队列的方法,对需要进行临时存储的社区管理服务大数据进行采集与存储,实现了对该类型数据的临时性存储,解决了现有大数据处理技术中时效性问题,提升了社区管理服务大数据存储选择的多样性,同时也为社区管理服务的数据分析任务提供了数据来源。
4、本发明通过基于主键的数据表整合方法,解决了现有大数据处理技术中数据冗余性高的问题,提升了社区管理服务大数据的数据价值密度,为社区管理服务大数据的数据分析任务带来了便利,为政府、企业等多类型用户的数据分析需求提供了基础。
附图说明
图1为本发明系统结构示意图;
图2为本发明方法流程图。
具体实施方式
本实施例中,社区管理服务大数据延伸至社区管理的公安、人社、计生、民政等人口基础信息相关的政务系统,工商、税务、质监、编办等法人基础信息相关的政务系统,以及宏观经济基础信息和地理空间基础信息相关的政务系统;如图1所示,一种社区管理服务大数据处理系统,包括:社区管理服务数据库、数据收集系统和数据集成系统;
数据收集系统包括半结构化数据采集模块和结构化数据采集模块;半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;
数据集成系统包括数据转换模块和数据融合模块;数据转换模块将半结构化数据转换为新结构化数据,数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据。
具体的,数据收集系统和数据集成系统对社区管理服务大数据的收集与处理过程是以平台云数据中心为支撑;社区管理服务数据库建立于平台云数据中心,并采用如下的任务调度机制:
1、当用户发起社区管理服务的大数据分析任务时,数据收集系统将采集与过滤后的社区管理服务数据自动上传至平台云数据中心,并触发数据处理系统启动相应进程;
2、数据集成系统在对社区管理服务数据进行转换与融合后将处理得到的规范化数据存储至平台云数据中心,并触发数据应用系统的分析与解释功能;
3、用户可通过对平台云数据中心的规范化社区管理服务数据进行抽取、分析和解释过程,获得分析处理结果。
如图2所示,一种社区管理服务大数据处理系统的处理方法是按如下步骤进行:
步骤1、获得半结构化数据并进行存储;
步骤1.1、构建用于临时存储半结构化数据的XML模板文档;
步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取;获得半结构化数据;将半结构化数据存入XML模板文档中;
现给出算例:为了满足用户的本地就餐需求,假设系统需要处理社区管理服务的数据分析任务,用户需要查找合肥市包河区内所有餐厅相关信息,半结构化数据采集模块根据以下步骤实现其需求:
步骤a、根据目标包含的信息构造地址
“http://hf.meituan.com/category/meishi/baohequ?”
步骤b、对步骤a中URL对应的网页文档进行结构化分析,确定需要抓取的目标数据:餐厅名称、地址、联系方式和介绍信息,最后构造XML模板文档。
步骤c、根据步骤b确定的目标数据的类型,实现网页数据的自动抓取。
步骤d、将步骤c抓取的数据序列化至已构建的XML模板文档中,并批量导入数据库中。
步骤2、获得长期存储数据并进行存储;
步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集,获得第v个长期结构化数据,记为表示第v个长期结构化数据Av中第i个的元素;1≤i≤n;1≤v≤V;V表示长期存储数据的总数;
步骤2.2、创建用于存储第v个长期结构化数据Av的第一数据链栈与第二数据链栈
步骤2.3、根据第v个长期结构化数据Av的生成时间将第v个长期结构化数据Av依次存入第一数据链栈并用元素属性Date来表示第v个长期结构化数据Av的生成时间,记为 Date v = { Date 1 ( v ) , Date 2 ( v ) , . . . , Date i ( v ) , . . . , Date n ( v ) } ; 表示第v个长期结构化数据Av中第i个的元素的生成时间;
步骤2.4、初始化i=1;则第一数据链栈中第i个元素表示栈顶元素;
步骤2.5、令指针指向第i个元素
步骤2.6、将第i个元素的生成时间与时间阈值A进行比较;在第i个元素生成时间大于时间阈值A时,取出第i个元素并压入到第二数据链栈中;并将i+1赋给i后,返回步骤2.5顺序执行;从而利用第二数据链栈完成长期存储数据的存储;并形成第v个长期存储数据表,进而获得V个长期存储数据表;
步骤3、获得临时存储数据并进行存储;
步骤3.1、根据设定周期对社区管理服务数据库中的临时存储数据进行定向采集,获得临时结构化数据;
步骤3.2、创建容量为S的队列Queue1;
步骤3.3、将临时存储数据压入队列Queue1;
步骤3.4、用元素数据Data来表示存放在社区管理服务数据库中的其他临时存储数据;
步骤3.5、判断队列Queue1是否空余,若空余,则将元素数据Data顺序存放在队列Queue1的队尾;若队列Queue1已满,则删除队列Queue1的队头元素,并将元素数据Data插入到Queue1的队尾;从而形成临时存储数据表;
步骤4、将XML模板文档采用关键字映射机制生成结构化数据表;将半结构化数据存入结构化数据表;
步骤5、对长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作,包括:
步骤5.1、对V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label={label1,label2,...,labelj,...,labelv+2};labelj表示第j个数据表;1≤j≤V+2;
步骤5.2、对数据表label依次设立整合标志位flag;记为flag={flag1,flag2,...,flagj,...,flagv+2};flagj表示第j个数据表labelj的整合标志位;
步骤5.3、初始化j=1,flagj=1;则将第j个数据表labelj作为参照表;
步骤5.4、将第j个数据表labelj与第j+1个数据表labelj+1按照相似度规则进行关键字相似度比较;相似度规则为:若则设置flagj+1=1,并进行表整合操作,即labelj∪labelj+1=labelj∪j+1;并执行步骤5.5;若则设置flagj+1=0,并执行步骤5.6;
步骤5.5、将labelj∪j+1赋值给labelj+1;判断j+1=V+2是否成立,若成立,表示完成表整合操作,形成社区管理服务数据表label′;并执行步骤5.7;否则,则将j+1赋值给j后返回步骤5.4;
步骤5.6、将labelj+2赋值给labelj+1并返回步骤5.4;
步骤5.7、在数据表label中任意挑选整合标志位flag为0的数据表作为参照表,并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较,直到整合标志位flag为0的数据表都完成关键字相似度比较为止,从而形成最终更新的社区管理服务数据表;由此获得社区管理服务的结构化数据。
具体的,基于主键关联的去冗整合操作需要提前进行数据过滤,以实现对噪音、异常、冗余以及不可信数据的集中过滤与约简,采用如下步骤:
(1)根据用户实际需求,设计可操作性强的有用性度量指标。例如:用户需要分析规定时间段内的社区管理服务大数据即可设立该时间段的起止阈值为有用性度量指标;
(2)依托有用性度量指标对所采集的社区管理服务数据进行辨识,筛选出满足指标要求的有用数据;
(3)对有用数据中可能存在的噪音数据、异常数据、冗余数据进行自动化处理,其中:噪音数据主要针对属性空值和错误值,错误值通过采用聚类方法来查找和修正,空值通过采用决策树归纳推导出可能值并填入,聚类方法则采用K-means方法;
异常数据针对数据集中的孤立点,通过采用基于距离的方法检测出孤立点,即计算词语相似度,并通过同义词林进行计算;
冗余数据针对字段和记录的重复现象,字段冗余通过采用编辑距离算法进行检测,记录冗余通过采用排序邻居算法进行检测;
通过对数据进行属性子集选择,对不相关或冗余的属性进行删除,达到约简目标。
(4)完成社区管理服务大数据的多级过滤,并将过滤后的结果存储在平台云数据中心。
具体的,社区管理服务大数据处理系统支持查询检索、统计分析与知识挖掘方法,其特征在于:包括基于关键字、满足用户兴趣和考虑上下文关联的查询检索方法,指标对比、分组、时间数列、综合评价和预测的统计分析方法,关联规则、分类、聚类、数据流的知识挖掘方法。

Claims (2)

1.一种社区管理服务大数据处理系统,其特征包括:社区管理服务数据库、数据收集系统和数据集成系统;
所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块;所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;
所述数据集成系统包括数据转换模块和数据融合模块;所述数据转换模块将所述半结构化数据转换为新结构化数据,所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据。
2.一种利用权利要求1所述的社区管理服务大数据处理系统的处理方法,其特征是按如下步骤进行:
步骤1、获得半结构化数据并进行存储;
步骤1.1、构建用于临时存储半结构化数据的XML模板文档;
步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取;获得半结构化数据;将所述半结构化数据存入所述XML模板文档中;
步骤2、获得长期存储数据并进行存储;
步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集,获得第v个长期结构化数据,记为 表示所述第v个长期结构化数据Av中第i个的元素;1≤i≤n;1≤v≤V;V表示所述长期存储数据的总数;
步骤2.2、创建用于存储所述第v个长期结构化数据Av的第一数据链栈与第二数据链栈
步骤2.3、根据所述第v个长期结构化数据Av的生成时间将所述第v个长期结构化数据Av依次存入所述第一数据链栈并用元素属性Date来表示所述第v个长期结构化数据Av的生成时间,记为 Date v = { Date 1 ( v ) , Date 2 ( v ) , . . . , Date i ( v ) , . . . , Date n ( v ) } ; 表示所述第v个长期结构化数据Av中第i个的元素的生成时间;
步骤2.4、初始化i=1;则所述第一数据链栈中第i个元素表示栈顶元素;
步骤2.5、令指针指向所述第i个元素
步骤2.6、将所述第i个元素的生成时间与时间阈值A进行比较;在所述第i个元素生成时间大于所述时间阈值A时,取出所述第i个元素并压入到所述第二数据链栈中;并将i+1赋给i后,返回步骤2.5顺序执行;从而利用所述第二数据链栈完成长期存储数据的存储;并形成第v个长期存储数据表,进而获得V个长期存储数据表;
步骤3、获得临时存储数据并进行存储;
步骤3.1、根据设定周期对所述社区管理服务数据库中的临时存储数据进行定向采集,获得临时结构化数据;
步骤3.2、创建容量为S的队列Queue1;
步骤3.3、将所述临时存储数据压入所述队列Queue1;
步骤3.4、用元素数据Data来表示存放在所述社区管理服务数据库中的其他临时存储数据;
步骤3.5、判断所述队列Queue1是否空余,若空余,则将所述元素数据Data顺序存放在所述队列Queue1的队尾;若所述队列Queue1已满,则删除所述队列Queue1的队头元素,并将所述元素数据Data插入到所述队列Queue1的队尾;从而形成临时存储数据表;
步骤4、将所述XML模板文档采用关键字映射机制生成结构化数据表;将所述半结构化数据存入所述结构化数据表;
步骤5、对所述长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作,包括:
步骤5.1、对所述V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label={label1,label2,…,labelj,…,labelv+2};labelj表示第j个数据表;1≤j≤V+2;
步骤5.2、对所述数据表label依次设立整合标志位flag;记为flag={flag1,flag2,…,flagj,…,flagv+2};flagj表示第j个数据表labelj的整合标志位;
步骤5.3、初始化j=1,flagj=1;则将第j个数据表labelj作为参照表;
步骤5.4、将所述第j个数据表labelj与第j+1个数据表labelj+1按照相似度规则进行关键字相似度比较;所述相似度规则为:若则设置flagj+1=1,并进行表整合操作,即labelj∪labelj+1=labelj∪j+1;并执行步骤5.5;若则设置flagj+1=0,并执行步骤5.6;
步骤5.5、将labelj∪j+1赋值给labelj+1;判断j+1=V+2是否成立,若成立,表示完成表整合操作,形成社区管理服务数据表label′;并执行步骤5.7;否则,则将j+1赋值给j后返回步骤5.4;
步骤5.6、将labelj+2赋值给labelj+1并返回步骤5.4;
步骤5.7、在所述数据表label中任意挑选整合标志位flag为0的数据表作为参照表,并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较,直到整合标志位flag为0的数据表都完成关键字相似度比较为止,从而形成最终更新的社区管理服务数据表;由此获得社区管理服务的结构化数据。
CN201510070156.1A 2015-02-10 2015-02-10 一种社区管理服务大数据处理系统及其处理方法 Active CN104615734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510070156.1A CN104615734B (zh) 2015-02-10 2015-02-10 一种社区管理服务大数据处理系统及其处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510070156.1A CN104615734B (zh) 2015-02-10 2015-02-10 一种社区管理服务大数据处理系统及其处理方法

Publications (2)

Publication Number Publication Date
CN104615734A true CN104615734A (zh) 2015-05-13
CN104615734B CN104615734B (zh) 2017-10-03

Family

ID=53150176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510070156.1A Active CN104615734B (zh) 2015-02-10 2015-02-10 一种社区管理服务大数据处理系统及其处理方法

Country Status (1)

Country Link
CN (1) CN104615734B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302917A (zh) * 2015-11-19 2016-02-03 中国建设银行股份有限公司 应用于电子商务平台的数据处理系统及数据处理方法
CN105956048A (zh) * 2016-04-27 2016-09-21 上海遥薇(集团)有限公司 一种社区服务大数据算法挖掘系统
CN108196515A (zh) * 2017-12-21 2018-06-22 中国电子信息产业集团有限公司第六研究所 跨平台实时数据处理方法和装置
CN109933572A (zh) * 2019-01-28 2019-06-25 安徽斯瑞菱智能科技有限公司 一种用于大型企业的数据管理方法及系统
CN110458743A (zh) * 2019-08-12 2019-11-15 软通动力信息技术有限公司 基于大数据分析的社区治理方法、装置、设备及存储介质
CN110855783A (zh) * 2018-08-11 2020-02-28 广元量知汇科技有限公司 基于大数据的智慧城市数据系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110196852A1 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Contextual queries
CN102591867A (zh) * 2011-01-07 2012-07-18 清华大学 一种基于移动设备位置的搜索服务方法
CN103279563A (zh) * 2013-06-13 2013-09-04 百度在线网络技术(北京)有限公司 web页面内的公共块元素的结构化识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110196852A1 (en) * 2010-02-05 2011-08-11 Microsoft Corporation Contextual queries
CN102591867A (zh) * 2011-01-07 2012-07-18 清华大学 一种基于移动设备位置的搜索服务方法
CN103279563A (zh) * 2013-06-13 2013-09-04 百度在线网络技术(北京)有限公司 web页面内的公共块元素的结构化识别方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302917A (zh) * 2015-11-19 2016-02-03 中国建设银行股份有限公司 应用于电子商务平台的数据处理系统及数据处理方法
CN105956048A (zh) * 2016-04-27 2016-09-21 上海遥薇(集团)有限公司 一种社区服务大数据算法挖掘系统
CN108196515A (zh) * 2017-12-21 2018-06-22 中国电子信息产业集团有限公司第六研究所 跨平台实时数据处理方法和装置
CN110855783A (zh) * 2018-08-11 2020-02-28 广元量知汇科技有限公司 基于大数据的智慧城市数据系统
CN110855783B (zh) * 2018-08-11 2020-07-24 深圳市都市交通规划设计研究院有限公司 基于大数据的智慧城市数据系统
CN109933572A (zh) * 2019-01-28 2019-06-25 安徽斯瑞菱智能科技有限公司 一种用于大型企业的数据管理方法及系统
CN110458743A (zh) * 2019-08-12 2019-11-15 软通动力信息技术有限公司 基于大数据分析的社区治理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104615734B (zh) 2017-10-03

Similar Documents

Publication Publication Date Title
CN104615734A (zh) 一种社区管理服务大数据处理系统及其处理方法
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN102750375B (zh) 一种基于随机游走的服务和标签推荐方法
CN107391502B (zh) 时间间隔的数据查询方法、装置及索引构建方法、装置
CN102207946B (zh) 一种知识网络的半自动生成方法
CN109977287B (zh) 一种不同信息源的房产数据同一性判别方法
CN103235825A (zh) 一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法
CN104346438A (zh) 基于大数据数据管理服务系统
CN109190051B (zh) 一种用户行为分析方法和基于该分析方法的资源推荐方法
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN105005600A (zh) 一种访问日志中url的预处理方法
Mahmood et al. FAST: frequency-aware indexing for spatio-textual data streams
CN102566945A (zh) 一种实现图书自动组稿按需印刷的方法和系统
CN106933883B (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN110232126A (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN104182465A (zh) 一种基于网络的大数据处理方法
CN113535788A (zh) 一种面向海洋环境数据的检索方法、系统、设备及介质
CN104699857A (zh) 基于知识工程的大数据存储方法
CN108733810A (zh) 一种地址数据匹配方法及装置
CN110059149A (zh) 电子地图空间关键字查询分布式索引系统和方法
Adam et al. A systematic review on city liveability global research in the built environment: publication and citation matrix
Min et al. Multimodal spatio-temporal theme modeling for landmark analysis
CN104915388A (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
CN104156431A (zh) 一种基于实体图社团结构的rdf关键词查询方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant