CN105260448A - 大数据信息分析方法 - Google Patents

大数据信息分析方法 Download PDF

Info

Publication number
CN105260448A
CN105260448A CN201510650437.4A CN201510650437A CN105260448A CN 105260448 A CN105260448 A CN 105260448A CN 201510650437 A CN201510650437 A CN 201510650437A CN 105260448 A CN105260448 A CN 105260448A
Authority
CN
China
Prior art keywords
data
cluster
analysis
framework
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510650437.4A
Other languages
English (en)
Inventor
杨立波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Bo Yuan Epoch Softcom Ltd
Original Assignee
Chengdu Bo Yuan Epoch Softcom Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Bo Yuan Epoch Softcom Ltd filed Critical Chengdu Bo Yuan Epoch Softcom Ltd
Priority to CN201510650437.4A priority Critical patent/CN105260448A/zh
Publication of CN105260448A publication Critical patent/CN105260448A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种大数据信息分析方法以及装置,该方法包括以下步骤:在步骤S1中,确定数据分析目标和计划;在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构;在步骤S3中,数据准备和处理;在步骤S4中,对数据进行聚类,并对数据分析;以及在步骤S5中,对结果进行测试、验证、评估和部署。通过本发明的分析方法和装置,能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。

Description

大数据信息分析方法
技术领域
本发明涉及电数据信息处理领域,更具体而言,涉及一种大数据信息分析方法方法和装置。
背景技术
随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume(大量),数据量持续快速增加;Velocity(高速),数据I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。由于大数据中包含海量的信息,在对海量信息中的可用数据资源进行分布式的大数据分析和挖掘是最优选方式。然而,现有技术中的分布式数据系统和相关联的数据库不能满足于日益增长的数据量和分析挖掘需求,而且数据处理效率不够高,响应不够及时,因为其不能够有效地获得、存储、管理、挖掘和分析这种特征的数据,难以体现数据处理的准确性、及时性和灵活性。
因此,为了能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性,特别是提高分析结果的准确性、及时性和灵活性并改善其质量,本领域中需要一种能够有效解决上述技术问题的大数据信息分析方法。
发明内容
本发明的目的之一是提供一种大数据信息分析方法及其装置,通过该方法和执行该方法的装置,能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。
本发明为解决上述技术问题而采取的技术方案为:一种大数据信息分析方法,其特征在于包括以下步骤:在步骤S1中,确定数据分析目标和计划;在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构;在步骤S3中,数据准备和处理;在步骤S4中,对数据进行聚类,并对数据分析;以及在步骤S5中,对结果进行测试、验证、评估和部署。
根据本发明的另一个方面,其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。分析架构可以是基于大数据的特性的任意形式的架构。数据准备和处理包括步骤:为了处理数据,先传载数据;存储数据;将数据转换为一种形式,该形式是一对二进制格式的值;获取数据的标识符及对应的描述;每隔预定的时间段更新数据,但需确保不能传载所有的数据。对数据进行聚类以及分析包括步骤:识别相关联的数据;确定每个待处理的数据点;使用聚类机器学习算法来减少数据量;使用该聚类机器学习算法来分析数据集;对数据进行聚类以及分析进一步包括以下步骤:针对每个待处理的数据点,生成一对二进制格式的值;一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;为每个聚类生成输入的和;发送与相同的聚类有关的值;将聚类的结果存储为不相关的数据。
根据本发明的再一个方面,提供了一种执行上述方法中步骤的装置。
附图说明
在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中:
根据本发明的实施例,图1图示了一种大数据信息分析方法的流程图。
根据本发明的实施例,图2图示了数据准备和处理的流程图。
根据本发明的实施例,图3图示了对数据进行聚类以及分析的流程图。
具体实施方式
在下面的描述中,参考附图并以例示的方式示出几个具体的实施例。将理解的是:可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被认为具有限制意义。
根据本发明的实施例,图1例示了一种大数据信息分析方法的流程图。
首先,在步骤S1中,确定数据分析目标和计划。因为不同的数据具有不同的特征、特性和/或属性,例如社交媒体的大数据基于人与人之间的交互;军事新闻的大数据隐含或集中了军用武器或军事动向的数据;社会新闻的大数据反映了舆论导向和包括自媒体发布人员的意识倾向;针对某一个国家、地区或研究机构的技术新闻的大数据包含了其研究重点、人员和资金投入情况、产出效率、可能应用范围以及对研究和应用领域的引领作用/影响,等等。针对这些上下文背景,需要有针对不同数据的挖掘分析要求和属性对象,从而可以增强大数据分析的针对性,为之后的聚类分析的准确性奠定坚实的基础。
其次,在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构。因为不同的数据具有不同的特征、特性和/或属性,所以基于此,可针对性的结合其来搭建架构。该架构可基于任意的架构,例如但不限于:可采用中央数据处理架构,或者分布式数据处理架构,当然也可以采用其它形式的架构,但前提是基于大数据的特性。
再次,在步骤S3中,数据准备和处理。根据本发明的实施例,图2图示了数据准备和处理的流程图。数据的准备工作能够为后续分析提供保障,具体而言,在上述步骤S3中,数据准备和处理具体而言包括以下步骤:S31,为了处理数据,先传载数据;S32,存储数据;S33,将数据转换为一种形式,该形式是一对二进制格式的值;S34,获取数据的标识符及对应的描述;S35,每隔预定的时间段更新数据,但需确保不能传载所有的数据,该时间段可根据需要或者数据特点来人工或机器自动设置。通过上述步骤,数据得以进行初步处理,为准确分析作准备。
再次,在步骤S4中,对数据进行聚类,并对数据分析。根据本发明的实施例,图3图示了对数据进行聚类以及分析的流程图。具体而言,在步骤S4中,对数据进行聚类以及分析包括以下步骤:S41,识别相关联的数据;S42,确定每个待处理的数据点;S43,使用聚类机器学习算法来减少数据量;S44,使用该聚类机器学习算法来分析数据集;S45,针对每个待处理的数据点,生成一对二进制格式的值;S46,一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;S47,为每个聚类生成输入的和;S48,发送与相同的聚类有关的值;S49,将聚类的结果存储为不相关的数据。通过上述步骤,基于大数据所获得的数据被详细分析,从而极大地提高了大数据分析的准确性。优选地,在步骤S42中,机器学习算法例如可以是均值算法。
再次,在步骤S5中,对结果进行测试、验证、评估和部署。具体地,在步骤S5中,对结果进行测试、验证、评估和部署的方式是任意的,可采用现有的和以后开发的各种方式。
通过以上处理,大数据的信息分析方法能够完全迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。
将理解的是:可以硬件、软件或硬件和软件的组合的形式实现本发明的示例和实施例。如上所述,可存储任何执行这种方法的主体,以易失性或非易失性存储的形式,例如存储设备,像ROM,无论可擦除或可重写与否,或者以存储器的形式,诸如例如RAM、存储器芯片、设备或集成电路或在光或磁可读的介质上,诸如例如CD、DVD、磁盘或磁带。将理解的是:存储设备和存储介质是适合于存储一个或多个程序的机器可读存储的示例,当被执行时,所述一个或多个程序实现本发明的示例。经由任何介质,诸如通过有线或无线连接载有的通信信号,可以电子地传递本发明的示例,并且示例适当地包含相同内容。
应当注意的是:因为本发明解决了以上所述的技术问题,采用了计算机和通信领域中技术人员在阅读本说明书之后可根据其教导所能理解的技术手段,并获得了所述的技术效果,所以在所附权利要求中所请求保护的方案属于专利法意义上的技术方案。另外,因为所附权利要求要求保护的技术方案可以在工业中制造或使用,因此该技术方案具备实用性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应包涵在本发明的保护范围之内。除非以其他方式明确陈述,否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种大数据信息分析方法,其特征在于包括以下步骤:
在步骤S1中,确定数据分析目标和计划;
在步骤S2中,根据确定的数据分析目标和计划,创建基于大数据的分析架构;
在步骤S3中,数据准备和处理;
在步骤S4中,对数据进行聚类,并对数据分析;以及
在步骤S5中,对结果进行测试、验证、评估和部署。
2.如权利要求1所述的方法,其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。
3.如权利要求2所述的方法,其中步骤S2中的分析架构可采用中央数据处理架构,或者分布式数据处理架构。
4.如权利要求2所述的方法,其中步骤S2中的分析架构可以是基于大数据的特性的任意形式的架构。
5.如之前任一项权利要求所述的方法,其中数据准备和处理包括以下步骤:
S31,为了处理数据,先传载数据;
S32,存储数据;
S33,将数据转换为一种形式,该形式是一对二进制格式的值;
S34,获取数据的标识符及对应的描述;以及
S35,每隔预定的时间段更新数据,但需确保不能传载所有的数据。
6.如权利要求5所述的方法,其中对所述时间段可根据需要或者数据特点来人工或机器自动设置。
7.如权利要求1-4中任一项所述的方法,其中在步骤S4中,对数据进行聚类以及分析包括以下步骤:
S41,识别相关联的数据;
S42,确定每个待处理的数据点;
S43,使用聚类机器学习算法来减少数据量;以及
S44,使用该聚类机器学习算法来分析数据集。
8.如权利要求7所述的方法,其中在步骤S4中,对数据进行聚类以及分析进一步包括以下步骤:
S45,针对每个待处理的数据点,生成一对二进制格式的值;
S46,一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;
S47,为每个聚类生成输入的和;
S48,发送与相同的聚类有关的值;以及
S49,将聚类的结果存储为不相关的数据。
9.如权利要求7或8中任一项所述的方法,其中在步骤S42中,机器学习算法是均值算法。
10.一种用于实现权利要求1-9中任一项所述的大数据信息分析方法的系统,包括用于实现每个步骤的各个装置。
CN201510650437.4A 2015-10-10 2015-10-10 大数据信息分析方法 Pending CN105260448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510650437.4A CN105260448A (zh) 2015-10-10 2015-10-10 大数据信息分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510650437.4A CN105260448A (zh) 2015-10-10 2015-10-10 大数据信息分析方法

Publications (1)

Publication Number Publication Date
CN105260448A true CN105260448A (zh) 2016-01-20

Family

ID=55100138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510650437.4A Pending CN105260448A (zh) 2015-10-10 2015-10-10 大数据信息分析方法

Country Status (1)

Country Link
CN (1) CN105260448A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488235A (zh) * 2016-02-03 2016-04-13 苏州见微物联网科技有限公司 一种基于工业大数据的云平台数据管理系统及其构建方法
CN106971011A (zh) * 2017-05-19 2017-07-21 肇庆市智高电机有限公司 一种基于云平台的大数据分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法
CN104915793A (zh) * 2015-06-30 2015-09-16 北京西塔网络科技股份有限公司 基于大数据分析挖掘的公共信息智能分析平台
CN104936023A (zh) * 2015-06-11 2015-09-23 嘉兴市广播电视集团 一种数字电视用户行为的大数据采集与分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881424A (zh) * 2015-03-13 2015-09-02 国家电网公司 一种基于正则表达式的电力大数据采集、存储及分析方法
CN104936023A (zh) * 2015-06-11 2015-09-23 嘉兴市广播电视集团 一种数字电视用户行为的大数据采集与分析方法及系统
CN104915793A (zh) * 2015-06-30 2015-09-16 北京西塔网络科技股份有限公司 基于大数据分析挖掘的公共信息智能分析平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488235A (zh) * 2016-02-03 2016-04-13 苏州见微物联网科技有限公司 一种基于工业大数据的云平台数据管理系统及其构建方法
CN106971011A (zh) * 2017-05-19 2017-07-21 肇庆市智高电机有限公司 一种基于云平台的大数据分析方法

Similar Documents

Publication Publication Date Title
CN108021931A (zh) 一种数据样本标签处理方法及装置
CN109976998B (zh) 一种软件缺陷预测方法、装置和电子设备
CN110751224A (zh) 视频分类模型的训练方法、视频分类方法、装置及设备
CN112785086A (zh) 信贷逾期风险预测方法及装置
CN108197668A (zh) 模型数据集的建立方法及云系统
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
TWI673617B (zh) 使用者背景資訊的收集方法及裝置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN110796269B (zh) 一种生成模型的方法、装置、信息处理的方法及装置
CN105718848A (zh) 一种指纹图像的质量评估方法及装置
CN103957116A (zh) 一种云故障数据的决策方法及系统
CN110851817A (zh) 一种终端类型识别方法及装置
CN105528399A (zh) 多源终端参数数据融合方法及装置
CN105260448A (zh) 大数据信息分析方法
CN105898835A (zh) 生成无线接入点的接入点属性信息的方法与设备
CN109218211A (zh) 数据流的控制策略中阈值的调整方法、装置和设备
CN116958267B (zh) 位姿处理方法、装置、电子设备及存储介质
CN112800063A (zh) 基于数据结构的自动贯标方法及装置
JP2022534160A (ja) 情報を出力するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN116915442A (zh) 漏洞测试方法、装置、设备和介质
KR102351300B1 (ko) 공공기관 인증 플랫폼 제공 방법 및 시스템
CN114998001A (zh) 业务类别识别方法、装置、设备、存储介质和程序产品
CN114781517A (zh) 风险识别的方法、装置及终端设备
CN114493850A (zh) 基于人工智能的在线公证方法、系统及存储介质
CN106971011A (zh) 一种基于云平台的大数据分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160120

RJ01 Rejection of invention patent application after publication