CN117130793A - 一种大数据分析处理方法以及系统 - Google Patents

一种大数据分析处理方法以及系统 Download PDF

Info

Publication number
CN117130793A
CN117130793A CN202311401908.9A CN202311401908A CN117130793A CN 117130793 A CN117130793 A CN 117130793A CN 202311401908 A CN202311401908 A CN 202311401908A CN 117130793 A CN117130793 A CN 117130793A
Authority
CN
China
Prior art keywords
data
hash
node
hash value
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311401908.9A
Other languages
English (en)
Inventor
纪江涛
王进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianjian Technology Co ltd
Original Assignee
Qianjian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianjian Technology Co ltd filed Critical Qianjian Technology Co ltd
Priority to CN202311401908.9A priority Critical patent/CN117130793A/zh
Publication of CN117130793A publication Critical patent/CN117130793A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于大数据处理技术领域,尤其涉及一种大数据分析处理方法以及系统,所述方法包括:获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值;确定节点,构建分布式架构,将待处理数据归入到节点中,并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;划分哈希值范围,若哈希值超出范围,则对哈希值中超出范围的部分进行取模。本发明通过构建分布式架构,得以对数据进行分析预测,同时通过构建哈希环,得以在删除节点时,快速对数据进行迁移,减少了人力物力的耗费,降低了分布式架构的运维负担。

Description

一种大数据分析处理方法以及系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种大数据分析处理方法以及系统。
背景技术
利用大数据进行分析预测是一种基于数据驱动的决策过程,它可以通过利用大数据的特性来揭示隐藏在数据中的规律、趋势和模式,并以此为依据对数据发展进行预测,大数据具有数据量大、速度快、类型多、价值高和真实性的特点,由于信息的爆炸式增长,信息分析、预测的工作量过于庞杂,需要较高的算力支持,所以一般会通过组建分布式架构的方式进行。
但是在日常运用过程中,因为综合运营的需要,常常会对节点进行调整,这就需要对节点中的数据进行迁移,继而导致所需要迁移的数据量巨大,耗费大量人力物力,因此,如何降低数据在迁移过程中的工作量是本发明所要解决的技术问题。
发明内容
本发明的目的在于提供一种大数据分析处理方法,以解决上述背景技术中提出的如何降低数据在迁移过程中的工作量的问题。
为实现上述目的,本发明提供如下技术方案:
一种大数据分析处理方法,所述方法包括:
获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作;
得到关键词所对应的哈希值;
确定节点,构建分布式架构,将待处理数据归入到节点中,并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;
建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;
划分哈希值范围,若哈希值超出划分范围,则对哈希值中超出范围的部分进行取模,构建哈希环;若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环;
当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中;
基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理。
进一步的,所述获取待处理数据并提炼出待处理数据中的关键词;并利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值的步骤包括:
对获取到的数据进行清洗和预处理,将数据中的文本转化为可操作信息;
从可操作信息中提取关键词;
构建哈希函数,并利用哈希函数对关键词进行哈希操作;
计算关键词所对应的哈希值。
进一步的,所述确定节点,构建分布式架构,将待处理数据归入到节点中,并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中的步骤包括:
基于所述节点,构建分布式架构,将获取到的数据存储到每个节点中;
对存储在节点中的数据进行大数据分析处理;
遍历关键词、节点和哈希值的对应关系,将关键词所对应的哈希值赋予到每个节点中;完成哈希值与每个节点的哈希映射。
进一步的,所述构建哈希环的步骤包括:
对哈希值中超出范围的部分进行取模,定义哈希值模数,利用哈希值模数对哈希值超出划分范围的部分进行取模;基于取模后获得的值域,构建哈希环;
若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环。
进一步的,所述当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中的步骤包括:
确定待删除节点,定义待删除节点上的数据为跃迁数据;
标记待删除节点位于哈希环上的下一个节点;
对跃迁数据的哈希值进行偏移,并将跃迁数据迁移到下一个节点中。
进一步的,所述基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理的步骤包括:
在完成所述跃迁数据迁移后,基于待删除节点,重新确定节点的分布式架构;
利用重新确定的分布式架构对获取到的数据进行分析处理。
进一步的,所述方法还包括:
当需要添加某个新节点时,获取新节点的新哈希值;
在哈希环上找到第一个比新哈希值大的位置,将新节点插入到所述位置;
如果没有找到所述位置,则将新节点写入到哈希环的起始位置。
进一步的,所述系统包括:
计算模块,用于获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值;
构建模块,用于确定节点,构建分布式架构,将待处理数据归入到节点中;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;划分哈希值范围,若哈希值超出划分范围,则对哈希值中超出范围的部分进行取模,构建哈希环;若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环;
大数据处理模块,可以利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理
预测模块,能够在当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中;基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理。
进一步的,所述计算模块包括:
关键词提取单元,能够对获取到的数据进行清洗和预处理,将数据中的文本转化为可操作信息;从可操作信息中提取关键词;
哈希值计算单元,用于构建哈希函数,并利用哈希函数对关键词进行哈希操作;计算关键词所对应的哈希值。
进一步的,所述构建模块包括:
数据存储单元,能够基于节点,构建分布式架构,将获取到的数据存储到节点中;
映射单元,能够遍历关键词、节点和哈希值的对应关系,将关键词所对应的哈希值赋予到每个节点中;完成哈希值与每个节点的哈希映射。
与现有技术相比,本发明的有益效果是:
通过构建分布式架构,对数据进行分布式分析处理,并根据处理结果,对数据的发展趋势进行预测,极大地提高了数据的处理速率;在分布式架构的基础上,通过利用节点构建哈希环,极大地降低了分布式架构在调整过程中的数据迁移量,在提高了分布式架构数据处理效果的同时,也进一步提高了数据处理的便利性。
附图说明
图1为本发明实施例提供的大数据分析处理方法的流程框图;
图2为本发明实施例提供的大数据分析处理方法的第一子流程框图;
图3为本发明实施例提供的大数据分析处理方法的第二子流程框图;
图4为本发明实施例提供的大数据分析处理方法的第三子流程框图;
图5为本发明实施例提供的大数据分析处理系统的组成框图;
图6为本发明实施例提供的大数据分析处理系统中计算模块的组成框图;
图7为本发明实施例提供的大数据分析处理系统中构建模块的组成框图;
图8为本发明实施例提供的大数据分析处理系统中预测模块的组成框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在实施例1中,图1示出了本发明实施例提供的大数据分析处理方法以及系统实现流程,以下对大数据分析处理系统进行详述,如下:
S100:获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值。
获取待处理数据,此处的待处理数据可以是数据库中的数据,也可以为人工输入的数据,提炼出待处理数据中的关键词,例如在金融领域,银行、证券公司等金融机构通过对大量客户数据进行分析,可以得出客户的信用评级、消费习惯和风险偏好等方面的规律,为金融机构的信贷和投资决策提供支持;当接收到客户数据时,提取出客户数据中的关键词,此处的关键词可以为客户年龄、职业、籍贯等,通过提炼关键词,可对客户数据进行初步处理,将客户数据输入到哈希函数中,可得到关键词所对应的哈希值,其中哈希值为一个固定长度的字符串,也可以为数字1、2、3等。
S200:确定节点,构建分布式架构,将待处理数据归入到节点中,建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;划分哈希值范围,若哈希值超出划分范围,则对哈希值中超出范围的部分进行取模,构建哈希环;若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环。
确定可以用于进行大数据处理的节点,利用这些节点组建分布式架构,将获得的哈希值对应到节点中,确定好节点和哈希值的对应关系;由于哈希值和关键词存在对应关系,所以也就完成了关键词和节点的对应关系,利用这样的对应关系对数据进行分类,将数据归入到不同的节点中;通过对数据进行分类,并利用节点,对数据进行大数据处理,极大地提高了数据的处理速率;
确定哈希值的范围,避免哈希值跨度过大,超出节点的承受范围,如果所计算出的哈希值超出划定好的范围,则对哈希值进行取模,从而构建哈希环;此外,由于哈希环的连续性,所以哈希环上相邻两个节点中的数据近似;
此处以哈希值为数字举例,当计算出的哈希值为1~10,可用于进行数据处理的节点的数量为8,则应划定哈希值的范围为1~8,并对9和10两个哈希值进行取模,得到一个由1~8哈希值组成的哈希环,从而构建节点的闭环。
例如:在金融领域,在完成对客户数据的关键词提取后,利用哈希函数,获得关键词的哈希值,并通过转换对应关系,对数据进行分类,将不同分类的数据归入到不同的节点中,从而在保证大数据运算速率的同时,减少各节点的算力消耗,得以满足更为庞杂的大数据处理需求。
S300:当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中;基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理。
当需要删除某个节点时,该节点上的数据需要迁移到哈希环上的下一个节点中,(由于哈希环上相邻两个节点的数据存在相似性,所以并不会存在相斥现象,即数据种类差别过大)无需对哈希环上其他节点中的数据进行迁移,降低了数据迁移的工作量;在完成了数据迁移后,重新确定节点架构,并利用新的节点架构对获取到的数据进行分析处理。
S400:并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;
当分布式架构构建完成后,利用节点,对其中的数据进行大数据分析处理。
在实施例2中,图2示出了本发明实施例提供的大数据分析处理方法以及系统实现流程,以下对获取待处理数据并提炼出待处理数据中的关键词;并利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值的步骤进行详述,如下:
S101:对获取到的数据进行清洗和预处理,将数据中的文本转化为可操作信息;从可操作信息中提取关键词。
在收集到大量的待获取数据后,对获取到的数据进行清洗和预处理,以去除其中的噪声和不准确信息,提高数据的准确性,再将数据文本转化为可操作信息,通过利用gensim库、nltk库等现有的Python自然语言处理库,可轻而易举地将关键词从可操作信息中提取出;将获取到的数据转化为可操作信息,是为了降低关键词提取的工作量。
S102:构建哈希函数,并利用哈希函数对关键词进行哈希操作;计算关键词所对应的哈希值。
选择合适的哈希函数,利用哈希函数对关键词进行哈希操作,获取关键词所对应哈希值。
在实施例3中,图3示出了本发明实施例提供的大数据分析处理方法以及系统实现流程,以下对确定节点,构建分布式架构,将待处理数据归入到节点中,并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中的步骤进行详述,如下:
S201:基于节点,构建分布式架构,将获取到的数据存储到每个节点中。
首先获取可以用于进行大数据处理的节点数量,并根据节点数量,构建分布式架构,其中节点架构中应包括用于进行数据处理的节点、为节点提供冗余的副本等;获取到的数据在经过关键词提取后,归入到对应的节点中。
S202:遍历关键词、节点和哈希值的对应关系,将关键词所对应的哈希值赋予到每个节点中;完成哈希值与每个节点的哈希映射;
遍历是指沿着某条搜索路线,依次对结构中每个节点均做一次访问,在本实施例中是指确认关键词、节点和哈希值的对应关系。
在实施例4中,图3示出了本发明实施例提供的大数据分析处理方法以及系统实现流程,以下对构建哈希环的步骤进行详述,如下:
S203:判断哈希值是否超出划分范围;
S2031:若哈希值并未超出划分范围,直接将哈希值首尾相连,并构建哈希环。
S2032:若所述哈希值超出划分范围,定义哈希值模数,利用哈希值模数对哈希值超出划分范围的部分进行取模,基于取模后的值域,构建哈希环。
如果哈希值并未超出划分范围,将哈希值的首尾相连,即可构建哈希环,如果计算出的哈希值并未超出划分范围,哈希值全部在划分范围内,则直接将哈希值的首尾连接,形成一个闭环,获得哈希环;
如果哈希值超出预先设定的范围(此范围应根据节点数量而决定),则定义哈希值模数,确定超出范围的哈希值,并利用超出范围的哈希值除以模数,对该部分哈希值进行取模,并根据取模后的数据,确定全体哈希值的值域,根据此值域构建哈希环。
在实施例5中,图4示出了本发明实施例提供的大数据分析处理方法以及系统实现流程,以下对当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中的步骤进行详述,如下:
S301:确定待删除节点,定义待删除节点上的数据为跃迁数据。
如果需要删除某个节点,则直接将该节点上的全部数据确定为跃迁数据,跃迁数据也就是需要转移到其他节点上的数据;
S302:标记待删除节点位于哈希环上的下一个节点。
当确定好跃迁数据后,在哈希环上确定删除的节点中的下一个节点;
S303:对跃迁数据的哈希值进行偏移,并将跃迁数据迁移到下一个节点中。
将跃迁数据的关键词的哈希值进行偏移,使得跃迁数据得以迁移到下一个节点中,且不会发生数据冲突;
如何减少跃迁数据的转移工作量,在本领域中,常用的操作方式为封包全部数据,重新组建新的分布式架构,再将封包数据重新分配到新的分布式架构中;由此可见,这样的操作方式会产生巨大的工作量,在本发明中,通过组建哈希环,当某个节点需要删除时,直接将该节点中的数据迁移到哈希环中的下一个节点即可;当需要频繁删除节点时,这样的操作方式会极大地降低数据迁移的工作量。
在实施例5中,图4示出了本发明实施例提供的大数据分析处理方法以及系统实现流程,以下对基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理的步骤进行详述,如下:
S304:在完成所述跃迁数据迁移后,基于待删除节点,重新确定节点的分布式架构;
S305:利用重新确定的分布式架构对获取到的数据进行分析处理。
当跃迁数据迁移完成后,去除待删除节点,将剩下的其他节点重新确定为新的节点架构,最后利用新的节点架构对节点中的数据进行分析处理,从而实现对获取到的数据进行大数据处理。
在实施例6中,与实施例1不同的是,在本发明实施例中,
所述方法还包括:
当需要添加某个新节点时,获取新节点的新哈希值;
在哈希环上找到第一个比新哈希值大的位置,将新节点插入到所述位置;
如果没有找到所述位置,则将新节点写入到哈希环的起始位置。
在日常运行过程中,常常也会需要向分布式架构中添加节点,在添加前,需要获得新节点中数据的关键词,通过利用相同方法,获取新节点的哈希值,将新节点的哈希值插入到第一个比他大的位置,从而获得新的哈希环,如果没有找到更大的哈希值,则将新节点写入到哈希环的起始位置,从而最终实现对节点的添加。
图5示出了本发明实施例提供的大数据分析处理方法以及系统的组成结构框图,所述大数据分析处理方法以及系统1包括:
计算模块11,用于获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值;
构建模块12,用于确定节点,构建分布式架构,将待处理数据归入到节点中;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;划分哈希值范围,若哈希值超出范围,则对哈希值中超出范围的部分进行取模,构建哈希环;
预测模块13,能够在需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中;基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理;
大数据处理模块14,可以利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理。
图6示出了本发明实施例提供的大数据分析处理方法以及系统的组成结构框图,所述计算模块11包括:
关键词提取单元111,能够对获取到的数据进行清洗和预处理,将数据中的文本转化为可操作信息;从可操作信息中提取关键词;
哈希值计算单元112,用于构建哈希函数,并利用哈希函数对关键词进行哈希操作;计算关键词所对应的哈希值。
图7示出了本发明实施例提供的大数据分析处理方法以及系统的组成结构框图,所述构建模块12包括:
数据存储单元121,能够基于节点,构建分布式架构,将获取到的数据存储到节点中;
映射单元122,能够遍历关键词、节点和哈希值的对应关系,将关键词所对应的哈希值赋予到节点中;完成哈希值与节点的哈希映射。
判断单元123,判断哈希值是否超出划分范围;
连接单元124,可以判断若所述哈希值超出划分范围,定义哈希值模数,利用模数对哈希值超出范围的部分进行取模;基于取模后的值域,构建哈希环。
可以判断若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环。
图8示出了本发明实施例提供的大数据分析处理方法以及系统的组成结构框图,所述预测模块13包括:
定义单元131,能够确定待删除节点,定义待删除节点上的数据为跃迁数据;
标记单元132,可以标记待删除节点位于哈希环上的下一个节点;
迁移单元133,能够对跃迁数据的哈希值进行偏移,并将跃迁数据迁移到下一个节点中;
重构单元134,可以在完成所述跃迁数据迁移后,基于待删除节点,重新确定节点架构。
处理单元135,利用重新确定的节点架构对获取到的数据进行分析和预测。
其中,计算模块11用于完成步骤S100,构建模块12用于完成步骤S200,预测模块13用于完成步骤S300;大数据处理模块14主要用于完成步骤S400;
关键词提取单元111主要用于完成步骤S101,可以对数据进行初步处理,并从中提取出关键词;哈希值计算单元112主要用于完成步骤S102,能够计算出关键词所对应的哈希值;
数据存储单元121主要用于完成步骤S201,将数据存储到分布式架构中,映射单元122主要用于完成S202,确定哈希值与节点的对应关系,映射单元122用于完成S203,用于对哈希值是否超出范围进行判断,连接单元124用于完成S2031和S2032,主要用于构建哈希环;
定义单元131主要用于完成S301,从而确定跃迁数据,标记单元132主要用于完成S302,从而标记出哈希环上待删除节点的下一个节点,迁移单元133主要用于完成S303,将跃迁数据迁移到下一个节点中,重构单元134主要用于完成S304,从而重新确定节点架构,处理单元135主要用于完成S305,对获取到的数据进行处理分析。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种大数据分析处理方法,其特征在于,所述方法包括:
获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作,得到关键词所对应的哈希值;
确定节点,构建分布式架构,将待处理数据归入到节点中,并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;
建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;
划分哈希值范围,若哈希值超出划分范围,则对哈希值中超出范围的部分进行取模,构建哈希环;若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环;
当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中;
基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理;
所述构建哈希环的步骤包括:
对哈希值中超出范围的部分进行取模,定义哈希值模数,利用哈希值模数对哈希值超出划分范围的部分进行取模;基于取模后获得的值域,构建哈希环;
若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环;
所述当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中的步骤包括:
确定待删除节点,定义待删除节点上的数据为跃迁数据;
标记待删除节点位于哈希环上的下一个节点;
对跃迁数据的哈希值进行偏移,并将跃迁数据迁移到下一个节点中;
所述基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理的步骤包括:
在完成所述跃迁数据迁移后,基于待删除节点,重新确定节点的分布式架构;
利用重新确定的分布式架构对获取到的数据进行分析处理。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理数据并提炼出待处理数据中的关键词;并利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值的步骤包括:
对获取到的数据进行清洗和预处理,将数据中的文本转化为可操作信息;从可操作信息中提取关键词;
构建哈希函数,并利用哈希函数对关键词进行哈希操作;计算关键词所对应的哈希值。
3.根据权利要求1所述的方法,其特征在于,所述确定节点,构建分布式架构,将待处理数据归入到节点中,并利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中的步骤包括:
基于所述节点,构建分布式架构,将获取到的数据存储到每个节点中;
对存储在节点中的数据进行大数据分析处理;
遍历关键词、节点和哈希值的对应关系,将关键词所对应的哈希值赋予到每个节点中;完成哈希值与每个节点的哈希映射;
遍历每个关键词、节点和哈希值相互之间的对应关系,确保对应关系准确无误;通过对应关系的转换,确定哈希值与节点的映射;
当获取到待处理数据时,首先进行关键词提取,再确定关键词所对应的哈希值,将关键词所对应的待处理数据归入到对应的节点中,所以关键词、节点和哈希值三者之间存在对应关系。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当需要添加某个新节点时,获取新节点的新哈希值;
在哈希环上找到第一个比新哈希值大的位置,将新节点插入到所述位置;
如果没有找到所述位置,则将新节点写入到哈希环的起始位置。
5.一种大数据分析处理系统,其特征在于,所述系统包括:
计算模块,用于获取待处理数据并提炼出待处理数据中的关键词;利用哈希函数对关键词进行哈希操作;得到关键词所对应的哈希值;
构建模块,用于确定节点,构建分布式架构,将待处理数据归入到节点中;建立哈希值与各节点的对应关系,将哈希值映射到对应的节点中;划分哈希值范围,若哈希值超出划分范围,则对哈希值中超出范围的部分进行取模,构建哈希环;若哈希值并未超出划分范围,直接将哈希值首尾相连,构建哈希环;
大数据处理模块,可以利用已构建的分布式架构对归入到节点中的数据进行大数据分析处理;
预测模块,能够在当需要删除某个节点时,将此节点上的数据迁移到哈希环上的下一个节点中;基于迁移完成后重新确定的分布式架构,对待处理数据进行大数据分析处理。
6.根据权利要求5所述的系统,所述计算模块包括:
关键词提取单元,能够对获取到的数据进行清洗和预处理,将数据中的文本转化为可操作信息;从可操作信息中提取关键词;
哈希值计算单元,用于构建哈希函数,并利用哈希函数对关键词进行哈希操作;计算关键词所对应的哈希值。
7.根据权利要求5所述的系统,所述构建模块包括:
数据存储单元,能够基于节点,构建分布式架构,将获取到的数据存储到节点中;
映射单元,能够遍历关键词、节点和哈希值的对应关系,将关键词所对应的哈希值赋予到每个节点中;完成哈希值与每个节点的哈希映射。
CN202311401908.9A 2023-10-27 2023-10-27 一种大数据分析处理方法以及系统 Pending CN117130793A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311401908.9A CN117130793A (zh) 2023-10-27 2023-10-27 一种大数据分析处理方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311401908.9A CN117130793A (zh) 2023-10-27 2023-10-27 一种大数据分析处理方法以及系统

Publications (1)

Publication Number Publication Date
CN117130793A true CN117130793A (zh) 2023-11-28

Family

ID=88856796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311401908.9A Pending CN117130793A (zh) 2023-10-27 2023-10-27 一种大数据分析处理方法以及系统

Country Status (1)

Country Link
CN (1) CN117130793A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677736A (zh) * 2015-12-29 2016-06-15 曙光信息产业(北京)有限公司 一种增加、删除服务器节点的方法及装置
CN108810041A (zh) * 2017-04-27 2018-11-13 华为技术有限公司 一种分布式缓存系统的数据写入及扩容方法、装置
WO2019200714A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 服务器连接方法、计算机可读存储介质、终端设备及装置
CN111159193A (zh) * 2019-12-27 2020-05-15 掌迅亿通(北京)信息科技有限公司 多层一致性哈希环及其在创建分布式数据库中的应用
CN112230861A (zh) * 2020-10-26 2021-01-15 金钱猫科技股份有限公司 一种基于一致性哈希算法的数据存储方法及终端
CN116578641A (zh) * 2023-03-24 2023-08-11 厦门市美亚柏科信息股份有限公司 一种基于ketama算法的分库方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677736A (zh) * 2015-12-29 2016-06-15 曙光信息产业(北京)有限公司 一种增加、删除服务器节点的方法及装置
CN108810041A (zh) * 2017-04-27 2018-11-13 华为技术有限公司 一种分布式缓存系统的数据写入及扩容方法、装置
WO2019200714A1 (zh) * 2018-04-17 2019-10-24 平安科技(深圳)有限公司 服务器连接方法、计算机可读存储介质、终端设备及装置
CN111159193A (zh) * 2019-12-27 2020-05-15 掌迅亿通(北京)信息科技有限公司 多层一致性哈希环及其在创建分布式数据库中的应用
CN112230861A (zh) * 2020-10-26 2021-01-15 金钱猫科技股份有限公司 一种基于一致性哈希算法的数据存储方法及终端
CN116578641A (zh) * 2023-03-24 2023-08-11 厦门市美亚柏科信息股份有限公司 一种基于ketama算法的分库方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张战云;赵现纲;林曼筠;范存群;谢利子;金桦;国鹏;: "基于网络编码的哈希分布式卫星数据存储方法", 现代电信科技, no. 06, pages 17 - 20 *
童维勤: "数据密集型计算和模型", 上海科学技术出版社 , pages: 32 *

Similar Documents

Publication Publication Date Title
US12073298B2 (en) Machine learning service
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
CN110457302B (zh) 一种结构化数据智能清洗方法
US8650144B2 (en) Apparatus and methods for lossless compression of numerical attributes in rule based systems
US11580119B2 (en) System and method for automatic persona generation using small text components
CN110377744B (zh) 一种舆情分类的方法、装置、存储介质及电子设备
US20110320446A1 (en) Pushing Search Query Constraints Into Information Retrieval Processing
CN110990532A (zh) 一种处理文本的方法和装置
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
CN112084448A (zh) 相似信息处理方法以及装置
Ahmad 40 Algorithms Every Programmer Should Know: Hone your problem-solving skills by learning different algorithms and their implementation in Python
CN103324641B (zh) 信息记录推荐方法和装置
CN115438709A (zh) 基于代码属性图的代码相似性检测方法
CN113780418B (zh) 一种数据的筛选方法、系统、设备和存储介质
WO2022105178A1 (zh) 一种关键词提取的方法及相关装置
CN112527969B (zh) 增量意图聚类方法、装置、设备及存储介质
CN112446777B (zh) 一种信用评估方法、装置、设备及存储介质
CN117130793A (zh) 一种大数据分析处理方法以及系统
CN113032575B (zh) 一种基于主题模型的文档血缘关系挖掘的方法及装置
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
CN114115878A (zh) 一种工作流节点推荐方法及装置
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN109446239A (zh) 线下文本挖掘方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20231128