CN105701157A - 集成社交网站信息的监控系统 - Google Patents
集成社交网站信息的监控系统 Download PDFInfo
- Publication number
- CN105701157A CN105701157A CN201511023630.1A CN201511023630A CN105701157A CN 105701157 A CN105701157 A CN 105701157A CN 201511023630 A CN201511023630 A CN 201511023630A CN 105701157 A CN105701157 A CN 105701157A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- model
- map
- fitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 17
- 238000007418 data mining Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 35
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000006399 behavior Effects 0.000 claims description 14
- 238000007619 statistical method Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 6
- 238000013481 data capture Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000000151 deposition Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 2
- 238000003012 network analysis Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网通信技术领域,具体地说是一种对网络信息进行有效分类、分析,进而提供精确查找的集成社交网站信息的监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,本发明通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。
Description
技术领域:
本发明涉及互联网通信技术领域,具体地说是一种对网络信息进行有效的分类、分析,进而提供精确查找的集成社交网络信息监控系统。
背景技术:
随着科技的发展,互联网得到了大规模应用,Web网页在存在大量有价值的信息的同时也存在大量诸如导航、版权、广告等与正文无关的噪声信息。噪声信息的存在使得后续信息服务的数据质量无法保证。从网页中提取有价值的内容来保证数据质量无疑可以为后续的网页信息处理应用奠定基础。在信息搜索、信息过滤、文本分类、文本聚类、文摘等应用中,去除掉网页中的噪声信息,提取网页的内容是非常重要的一步。比如在信息搜索中,在去除掉噪声信息的网页内容基础上建立索引可以有效地提高搜索的准确率;而在信息过滤、文本分类、文本聚类和网页自动摘要等应用中,准确的网页内容对系统的性能有很大的提升作用。
如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但有时潜在有用的信息的过程被称为数据挖掘,显而易见,数据挖掘时大数据技术的关键。
现有的大数据系统处理数据时仍采用单机节点上的串行方式实现,其数据处理量以及算法的负载度依赖于单个执行节点的性能,而由于大数据处理系统往往要对海量数据进行处理,现有的单机节点串行机制显然存在效率低、运算量低的问题。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种对网络信息进行有效的分类、分析,进而提供精确查找的集成社交网络信息监控系统。
本发明可以通过以下措施达到:
一种集成社交网络信息监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。
本发明所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。
本发明所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。
本发明通过对现有用户数据进行主观行为分析,更准确的获取用户偏好信息,进而获得监控结果,通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。
附图说明:
附图1是本发明的结构示意图。
附图标记:数据处理服务器1、数据获取单元2、数据预处理单元3、数据挖掘单元4、结果输出单元5、聚类模块6、分类模块7、关联规则模块8、社会关系网分析模块9。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图所示,本发明提出了一种集成社交网络信息监控系统,其特征在于设有数据处理服务器1,所述数据处理服务器上设有数据获取单元2、数据预处理单元3、数据挖掘单元4、结果输出单元5;所述数据挖掘模块包括聚类模块6、分类模块7、关联规则模块8、社会关系网分析模块9,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。
本发明所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。
本发明所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。
本发明通过对现有用户数据进行主观行为分析,更准确的获取用户偏好信息,进而获得监控结果,通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。
Claims (5)
1.一种集成社交网络信息监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
2.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
3.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。
4.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。
5.根据权利要求1所述的一种集成社交网络信息监控系统,其特征在于所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511023630.1A CN105701157A (zh) | 2015-12-30 | 2015-12-30 | 集成社交网站信息的监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511023630.1A CN105701157A (zh) | 2015-12-30 | 2015-12-30 | 集成社交网站信息的监控系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105701157A true CN105701157A (zh) | 2016-06-22 |
Family
ID=56226792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511023630.1A Pending CN105701157A (zh) | 2015-12-30 | 2015-12-30 | 集成社交网站信息的监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105701157A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799809A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 数据挖掘方法和数据挖掘系统 |
CN103593543A (zh) * | 2012-08-14 | 2014-02-19 | 中国科学院声学研究所 | 一种更新p2p网络用户主观行为分析模型参数的方法及系统 |
CN104461551A (zh) * | 2014-12-16 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 基于数据并行处理的大数据处理系统 |
-
2015
- 2015-12-30 CN CN201511023630.1A patent/CN105701157A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799809A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 数据挖掘方法和数据挖掘系统 |
CN103593543A (zh) * | 2012-08-14 | 2014-02-19 | 中国科学院声学研究所 | 一种更新p2p网络用户主观行为分析模型参数的方法及系统 |
CN104461551A (zh) * | 2014-12-16 | 2015-03-25 | 芜湖乐锐思信息咨询有限公司 | 基于数据并行处理的大数据处理系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845526A (zh) * | 2016-12-29 | 2017-06-13 | 北京航天测控技术有限公司 | 一种基于大数据融合聚类分析的关联参数故障分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229708B (zh) | 一种个性化出行服务大数据应用系统及方法 | |
US9590880B2 (en) | Dynamic collection analysis and reporting of telemetry data | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN110806954B (zh) | 评估云主机资源的方法、装置、设备及存储介质 | |
Yang et al. | A system architecture for manufacturing process analysis based on big data and process mining techniques | |
CN111614690B (zh) | 一种异常行为检测方法及装置 | |
CN107895011B (zh) | 会话信息的处理方法、系统、存储介质和电子设备 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN104809188A (zh) | 一种企业人才流失的数据挖掘分析方法及装置 | |
CN109635006A (zh) | 基于Apriori的社保业务关联规则挖掘和推荐装置及方法 | |
CN103218405A (zh) | 基于维数约简的集成迁移文本分类方法 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
CN102567494A (zh) | 网站分类方法及装置 | |
CN103164537B (zh) | 一种面向用户信息需求的搜索引擎日志数据挖掘的方法 | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
CN102737063B (zh) | 一种日志信息的处理方法及系统 | |
WO2024067387A1 (zh) | 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质 | |
KR20140081721A (ko) | 텍스트마이닝을 이용한 중요 키워드 도출 시스템, 방법, 및 상기 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 매체 | |
Petrov et al. | Large-scale content profiling for preservation analysis | |
CN105701157A (zh) | 集成社交网站信息的监控系统 | |
CN111611483B (zh) | 一种对象画像构建方法、装置、设备及存储介质 | |
Qiao et al. | Constructing a data warehouse based decision support platform for China tourism industry | |
CN104298751A (zh) | 互联网虚拟身份特征信息的获取方法及装置 | |
CN111581199B (zh) | 一种智能数据分析系统及方法 | |
CN110968570A (zh) | 面向电商平台的分布式大数据挖掘系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160622 |