CN105701157A - 集成社交网站信息的监控系统 - Google Patents

集成社交网站信息的监控系统 Download PDF

Info

Publication number
CN105701157A
CN105701157A CN201511023630.1A CN201511023630A CN105701157A CN 105701157 A CN105701157 A CN 105701157A CN 201511023630 A CN201511023630 A CN 201511023630A CN 105701157 A CN105701157 A CN 105701157A
Authority
CN
China
Prior art keywords
module
data
model
map
fitting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511023630.1A
Other languages
English (en)
Inventor
高辉
尚成辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Leruisi Information Consulting Co Ltd
Original Assignee
Wuhu Leruisi Information Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Leruisi Information Consulting Co Ltd filed Critical Wuhu Leruisi Information Consulting Co Ltd
Priority to CN201511023630.1A priority Critical patent/CN105701157A/zh
Publication of CN105701157A publication Critical patent/CN105701157A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网通信技术领域,具体地说是一种对网络信息进行有效分类、分析,进而提供精确查找的集成社交网站信息的监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,本发明通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。

Description

集成社交网站信息的监控系统
技术领域:
本发明涉及互联网通信技术领域,具体地说是一种对网络信息进行有效的分类、分析,进而提供精确查找的集成社交网络信息监控系统。
背景技术:
随着科技的发展,互联网得到了大规模应用,Web网页在存在大量有价值的信息的同时也存在大量诸如导航、版权、广告等与正文无关的噪声信息。噪声信息的存在使得后续信息服务的数据质量无法保证。从网页中提取有价值的内容来保证数据质量无疑可以为后续的网页信息处理应用奠定基础。在信息搜索、信息过滤、文本分类、文本聚类、文摘等应用中,去除掉网页中的噪声信息,提取网页的内容是非常重要的一步。比如在信息搜索中,在去除掉噪声信息的网页内容基础上建立索引可以有效地提高搜索的准确率;而在信息过滤、文本分类、文本聚类和网页自动摘要等应用中,准确的网页内容对系统的性能有很大的提升作用。
如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但有时潜在有用的信息的过程被称为数据挖掘,显而易见,数据挖掘时大数据技术的关键。
现有的大数据系统处理数据时仍采用单机节点上的串行方式实现,其数据处理量以及算法的负载度依赖于单个执行节点的性能,而由于大数据处理系统往往要对海量数据进行处理,现有的单机节点串行机制显然存在效率低、运算量低的问题。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种对网络信息进行有效的分类、分析,进而提供精确查找的集成社交网络信息监控系统。
本发明可以通过以下措施达到:
一种集成社交网络信息监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。
本发明所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。
本发明所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。
本发明通过对现有用户数据进行主观行为分析,更准确的获取用户偏好信息,进而获得监控结果,通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。
附图说明:
附图1是本发明的结构示意图。
附图标记:数据处理服务器1、数据获取单元2、数据预处理单元3、数据挖掘单元4、结果输出单元5、聚类模块6、分类模块7、关联规则模块8、社会关系网分析模块9。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图所示,本发明提出了一种集成社交网络信息监控系统,其特征在于设有数据处理服务器1,所述数据处理服务器上设有数据获取单元2、数据预处理单元3、数据挖掘单元4、结果输出单元5;所述数据挖掘模块包括聚类模块6、分类模块7、关联规则模块8、社会关系网分析模块9,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。
本发明所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。
本发明所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。
本发明通过对现有用户数据进行主观行为分析,更准确的获取用户偏好信息,进而获得监控结果,通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。

Claims (5)

1.一种集成社交网络信息监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
2.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
3.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。
4.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。
5.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。
CN201511023630.1A 2015-12-30 2015-12-30 集成社交网站信息的监控系统 Pending CN105701157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511023630.1A CN105701157A (zh) 2015-12-30 2015-12-30 集成社交网站信息的监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511023630.1A CN105701157A (zh) 2015-12-30 2015-12-30 集成社交网站信息的监控系统

Publications (1)

Publication Number Publication Date
CN105701157A true CN105701157A (zh) 2016-06-22

Family

ID=56226792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511023630.1A Pending CN105701157A (zh) 2015-12-30 2015-12-30 集成社交网站信息的监控系统

Country Status (1)

Country Link
CN (1) CN105701157A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845526A (zh) * 2016-12-29 2017-06-13 北京航天测控技术有限公司 一种基于大数据融合聚类分析的关联参数故障分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN103593543A (zh) * 2012-08-14 2014-02-19 中国科学院声学研究所 一种更新p2p网络用户主观行为分析模型参数的方法及系统
CN104461551A (zh) * 2014-12-16 2015-03-25 芜湖乐锐思信息咨询有限公司 基于数据并行处理的大数据处理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN103593543A (zh) * 2012-08-14 2014-02-19 中国科学院声学研究所 一种更新p2p网络用户主观行为分析模型参数的方法及系统
CN104461551A (zh) * 2014-12-16 2015-03-25 芜湖乐锐思信息咨询有限公司 基于数据并行处理的大数据处理系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845526A (zh) * 2016-12-29 2017-06-13 北京航天测控技术有限公司 一种基于大数据融合聚类分析的关联参数故障分类方法

Similar Documents

Publication Publication Date Title
CN107229708B (zh) 一种个性化出行服务大数据应用系统及方法
US9590880B2 (en) Dynamic collection analysis and reporting of telemetry data
CN108021651B (zh) 一种网络舆情风险评估方法及装置
CN110806954B (zh) 评估云主机资源的方法、装置、设备及存储介质
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
CN111614690B (zh) 一种异常行为检测方法及装置
CN107895011B (zh) 会话信息的处理方法、系统、存储介质和电子设备
CN102542061B (zh) 一种产品的智能分类方法
CN104809188A (zh) 一种企业人才流失的数据挖掘分析方法及装置
CN109635006A (zh) 基于Apriori的社保业务关联规则挖掘和推荐装置及方法
CN103218405A (zh) 基于维数约简的集成迁移文本分类方法
CN103838754A (zh) 信息搜索装置及方法
CN102567494A (zh) 网站分类方法及装置
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN105808722A (zh) 一种信息判别方法和系统
CN102737063B (zh) 一种日志信息的处理方法及系统
WO2024067387A1 (zh) 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质
KR20140081721A (ko) 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체
Petrov et al. Large-scale content profiling for preservation analysis
CN105701157A (zh) 集成社交网站信息的监控系统
CN111611483B (zh) 一种对象画像构建方法、装置、设备及存储介质
Qiao et al. Constructing a data warehouse based decision support platform for China tourism industry
CN104298751A (zh) 互联网虚拟身份特征信息的获取方法及装置
CN111581199B (zh) 一种智能数据分析系统及方法
CN110968570A (zh) 面向电商平台的分布式大数据挖掘系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160622