CN112363832B - 基于Ignite的分布式数据处理方法、装置及计算机设备 - Google Patents

基于Ignite的分布式数据处理方法、装置及计算机设备 Download PDF

Info

Publication number
CN112363832B
CN112363832B CN202011246206.4A CN202011246206A CN112363832B CN 112363832 B CN112363832 B CN 112363832B CN 202011246206 A CN202011246206 A CN 202011246206A CN 112363832 B CN112363832 B CN 112363832B
Authority
CN
China
Prior art keywords
cluster
data
calculated
node
ignite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011246206.4A
Other languages
English (en)
Other versions
CN112363832A (zh
Inventor
周毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011246206.4A priority Critical patent/CN112363832B/zh
Publication of CN112363832A publication Critical patent/CN112363832A/zh
Application granted granted Critical
Publication of CN112363832B publication Critical patent/CN112363832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/425Lexical analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了基于Ignite的分布式数据处理方法、装置、计算机设备及存储介质,涉及云部署的分布式部署技术,包括将所接收待计算数据集进行聚类得到聚类结果;统计各聚类簇中数据总条数为最小值的最小聚类簇,将其发送至Ignite集群中的各Ignite节点;获取聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇发送至对应的Ignite节点;获取本地接收的本地待计算数据集并获取与其对应的计算规则,将计算规则进行解析得到对应的计算表达式;根据计算表达式对本地待计算数据集进行运算,得到并保存本地计算结果。实现了将客户端程序在数据缓存集群中,可以快速的获取数据并通过计算引擎进行计算,且支持对自定义规则表达式进行解析和执行。

Description

基于Ignite的分布式数据处理方法、装置及计算机设备
技术领域
本发明涉及云部署的分布式部署技术领域,尤其涉及一种基于Ignite的分布式数据处理方法、装置、计算机设备及存储介质。
背景技术
目前,基于大数据架构进行数据运算时,主要包括在Oracle中进行计算或者使用Hadoop、Spark等大数据组件进行计算。如果使用Oracle进行计算,难以实现高并发和扩展性。使用Hadoop或者Spark进行计算时,对于复杂的大型SQL支持较弱,没有索引,导致计算效率不足。而且上述两种方式都无法实现计算规则的配置化,也无法实现在线实时更新计算规则。
发明内容
本发明实施例提供了一种基于Ignite的分布式数据处理方法、装置、计算机设备及存储介质,旨在解决现有技术中使用Oracle进行计算时,对于复杂的大型SQL支持较弱,导致计算效率不足,且无法实现计算规则的配置化的问题。
第一方面,本发明实施例提供了一种基于Ignite的分布式数据处理方法,其包括:
若本地已搭载Ignite程序JAR包,将Ignite节点的当前在线状态保存在本地;
若接收到待计算数据集,获取所述待计算数据集中所包括的待计算数据;
解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果;
获取所述聚类结果中所包括的聚类簇,统计所述聚类簇中所包括所述待计算数据的数据总条数为最小值的最小聚类簇,将所述最小聚类簇发送至Ignite集群中的各个Ignite节点;
获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据该聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点;
获取本地接收的聚类簇和最小聚类簇,以组成本地待计算数据集;其中,本地接收的聚类簇为所述聚类结果中最小聚类簇之外的其他聚类簇中的其中一个聚类簇;
获取预设的计算规则,将所述计算规则进行解析得到对应的计算表达式;以及
根据所述计算表达式对所述本地待计算数据集进行运算,得到并保存本地计算结果。
第二方面,本发明实施例提供了一种基于Ignite的分布式数据处理装置,其包括:
在线状态保存单元,用于若本地已搭载Ignite程序JAR包,将Ignite节点的当前在线状态保存在本地;
待计算数据集接收单元,用于若接收到待计算数据集,获取所述待计算数据集中所包括的待计算数据;
聚类单元,用于解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果;
最小聚类簇获取单元,用于获取所述聚类结果中所包括的聚类簇,统计所述聚类簇中所包括所述待计算数据的数据总条数为最小值的最小聚类簇,将所述最小聚类簇发送至Ignite集群中的各个Ignite节点;
其他聚类簇分发单元,用于获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据该聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点;
本地待计算数据集获取单元,用于获取本地接收的聚类簇和最小聚类簇,以组成本地待计算数据集;其中,本地接收的聚类簇为所述聚类结果中最小聚类簇之外的其他聚类簇中的其中一个聚类簇;
计算规则解析单元,用于获取预设的计算规则,将所述计算规则进行解析得到对应的计算表达式;以及
计算结果获取单元,用于根据所述计算表达式对所述本地待计算数据集进行运算,得到并保存本地计算结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于Ignite的分布式数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于Ignite的分布式数据处理方法。
本发明实施例提供了一种基于Ignite的分布式数据处理方法、装置、计算机设备及存储介质,包括将所接收待计算数据集进行聚类得到聚类结果;统计各聚类簇中数据总条数为最小值的最小聚类簇,将其发送至Ignite集群中的各Ignite节点;获取聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇发送至对应的Ignite节点;获取本地接收的本地待计算数据集并获取与其对应的计算规则,将计算规则进行解析得到对应的计算表达式;根据计算表达式对本地待计算数据集进行运算,得到并保存本地计算结果。实现了将客户端程序在数据缓存集群中,可以快速的获取数据并通过计算引擎进行计算,且支持对自定义规则表达式进行解析和执行。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于Ignite的分布式数据处理方法的应用场景示意图;
图2为本发明实施例提供的基于Ignite的分布式数据处理方法的流程示意图;
图3为本发明实施例提供的基于Ignite的分布式数据处理装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于Ignite的分布式数据处理方法的应用场景示意图;图2为本发明实施例提供的基于Ignite的分布式数据处理方法的流程示意图,该基于Ignite的分布式数据处理方法应用于Ignite节点设备(该Ignite节点设备可以理解为一个具有计算功能的服务器)中,该方法通过安装于Ignite节点设备中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S170。
S110、若本地已搭载Ignite程序JAR包,将Ignite节点的当前在线状态保存在本地。
在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及的终端进行详细介绍。本申请是在Ignite集群包括的若干个主节点中的其中一个主节点的角度描述技术方案。
第一是源数据服务器,其可以向Ignite集群发送待计算数据,之后可以接收Ignite集群进行分布式运算后反馈的计算结果。
第二是Ignite集群,其中Ignite集群中包括若干个Ignite节点,每一Ignite节点中均已嵌入Ignite程序JAR包,每一Ignite节点的本地配置有一个缓存空间,该已嵌入Ignite程序JAR包的Ignite节点可以启动一个进程将缓存空间中的缓存数据同步至其他Ignite节点。而且每一Ignite节点可以根据所接收的待计算数据和计算规则进行运算以得到计算结果。
在某一次分布式运算任务之前,为了通知Ignite集群中主节点以告知该节点处于无故障的有效状态,此时可以将该节点的当前在线状态发送至主节点进行保存。由于本申请是在主节点的角度描述技术方案,故主节点自身为当前在线状态时,只需将Ignite节点的当前在线状态保存在本地。
当主节点接收了多个Ignite节点分别发送的当前在线状态时,即可组成当前在线节点清单。
S120、若接收到待计算数据集,获取所述待计算数据集中所包括的待计算数据。
在本实施例中,当Ignite集群中的主节点接收到源数据服务器发送的待计算数据集后,需要先解析获取所述待计算数据集中包括的多条待计算数据。具体实施时,每一条待计算数据对应一个用户数据,该条用户数据中包括多个字段值,例如包括用户名称、用户号码、用户职级、用户当月业绩、用户总累计业绩、数据分组属性等,在后续根据运算规则完成计算任务时,会调用用户数据中的目标字段值。
S130、解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果。
在本实施例中,在主节点上获取了所述待计算数据集中所包括的待计算数据,还需进一步获取各条待计算数据的分组属性,例如聚类结果中某一聚类簇中对应相同或极为近似的数据分组属性(例如某一聚类簇对应的数据分组属性包括A部门A1小组、A部门A2小组、A部门A3小组),则在以数据分组属为主属性进行聚类时会被划分至同一分组。
其中,在以所述数据分组属性为主属性进行聚类时,采用基于密度的聚类方法(即DBSCAN聚类)进行聚类,具体过程如下:
获取预先设置的最小包含点数和扫描半径;
随机选取一个待计算数据作为初始聚类中心,获取与所述初始聚类中心在之间的间距未超出扫描半径的待计算数据,以组成初始聚类群;
将所述初始聚类群中每一待计算数据作为聚类中心,获取所述待计算数据集中各待计算数据与聚类中心直接密度可达、密度可达或密度相连的待计算数据,以得到聚类结果。
在本实施例中,通过DBSCAN聚类算法对待计算数据集进行分类,为了更清楚的理解DBSCAN聚类的详细过程,下面对DBSCAN聚类中所涉及的概念进行介绍。
eps,表示扫描半径;
minPts,表示最小包含点数;
ξ邻域,表示以给定对象为中心,在给定对象的扫描半径范围内的区域;
核心对象,表示若在给定对象的ξ邻域中所包括的对象个数大于或等于最小包含点数,则称该给定对象为核心对象;
直接密度可达,表示对于样本集合D,如果样本点q在p的ξ邻域内,且p为核心对象,那么对象q从对象p直接密度可达;
密度可达,表示对于样本集合D,给定一串样本点p1、p2、……、pn,若p1=q、pn=q,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达;
密度相连,表示存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相连。
通过DBSCAN聚类算法,能有效和快速的将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果。
S140、获取所述聚类结果中所包括的聚类簇,统计所述聚类簇中所包括所述待计算数据的数据总条数为最小值的最小聚类簇,将所述最小聚类簇发送至Ignite集群中的各个Ignite节点。
在本实施例中,在经过了上述的聚类过程将待计算数据集进行划分后,此时可以先统计获取多个聚类簇中数据总条数为最小值的聚类簇以记为最小聚类簇,为了避免该最小聚类簇中的数据被Ignite集群中的各个Ignite节点重复用到,此时可以将所述最小聚类簇发送至Ignite集群中的各个Ignite节点。
而且最小聚类簇中的待计算数据在Ignite集群中每个Ignite节点都已存储,那么查询时直接在Ignite节点本地可以查到,提高了数据查询效率,而且在后续计算的过程中避免了数据在Ignite节点之间的移动。
S150、获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据该聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点。
在本实施例中,当将最小聚类簇中的待计算数据已经发送到Ignite集群中的各个节点之后,此时可以将所述聚类结果中最小聚类簇之外的其他聚类簇发送至Ignite集群中对应的Ignite节点。
在具体实施时,为了更加提高运算速度,可以先在主节点上查询各聚类簇的数据分组属性在各Ignite节点的历史计算数据对应的数据分组属性在是否有相同属性,若聚类簇的数据分组属性与某一Ignite节点的历史计算数据对应的数据分组属性相同,则将该聚类簇发送至对应的Ignite节点上进行运算;若聚类簇的数据分组属性不与任一Ignite节点的历史计算数据对应的数据分组属性相同,则将该聚类簇随机分发至一个Ignite节点,例如可能分配至主节点上进行运算。
在一实施例中,以所述聚类结果中最小聚类簇之外的多个其他聚类簇其中一个其他聚类簇为例,步骤S150包括:
判断在Ignite集群中各Ignite节点对应的历史数据分组属性中是否存在有与其他聚类簇的数据分组属性相同的历史数据分组属性;
若在Ignite集群中各Ignite节点对应的历史数据分组属性中存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,获取对应的Ignite节点及Ignite节点编号,将该Ignite节点作为目标节点,将其他聚类簇对应的待计算数据发送至目标节点;
若在Ignite集群中各Ignite节点对应的历史数据分组属性中不存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,随机获取一个Ignite节点作为当前目标节点,将其他聚类簇对应的待计算数据发送至当前目标节点。
也即通过上述方式,能够尽量将关联性强的数据存放在相同节点,将小规模查询数据进行复制模式分布在各个节点。
S160、获取本地接收的聚类簇和最小聚类簇,以组成本地待计算数据集;其中,本地接收的聚类簇为所述聚类结果中最小聚类簇之外的其他聚类簇中的其中一个聚类簇。
在本实施例中,当有主节点完成了数据分发后,其本身也会接收到聚类簇,此时直接获取其接收到的聚类簇和最小聚类簇,以组成本地待计算数据集,这一本地待计算数据集则作为后续本地运算的数据基础。
S170、获取预设的计算规则,将所述计算规则进行解析得到对应的计算表达式。
在本实施例中,在Ignite节点中计算所采用的计算规则不是常规的计算表达式,而是计算规则,例如计算规则如下:
1、规则名称:【XX绩效】
2、前置规则:【用户职级】=经理
3、运算规则:【用户当月业绩】*【提奖比例】
循环场景:【用户当月业绩】=for_sum(【下级业务员列表】,【下级业务员业绩】)
逻辑场景:【提奖比例】=if_true(【业绩】>1000,0.1)
4、版本:V1,V2,V3
在解析所述计算规则时,具体过程如下:
根据调用的正则表达式集,以解析获取所述计算规则的词法分析结果;
将所述词法分析结果进行语法分析,得到对应的抽象语法树;
将所述抽象语法树进行语义分析,得到上下文信息;
根据所述上下文信息获取对应的计算表达式。
在本实施例中,将计算规则转化为计算机能理解的计算表达式,其本质也是一种编译过程,也是需要经过词法分析、语法分析等一系列数据处理。
将待转换计算规则转换为Java代码时,首先需要进行词法分析。词法分析可以使用词法分析器,词法分析器的输入是待转换计算规则对应的字符流,词法分析器的输出是词素序列,并对每个词素产生词法单元(token)。其中,词法单元的词素可能具有的形式用模式(pattern)来描述,而模式用正则表达式来表示(本申请中的正则表达式是只具有字符串匹配能力的正则表达式)。
在一实施例中,所述根据调用的正则表达式集,以解析获取所述计算规则的词法分析结果的步骤,包括:
通过所调用的汤普森算法将调用的正则表达式集转换为非确定有限状态自动机;
通过子集构造法将非确定有限状态自动机转换为确定有限状态机;
通过分割法将所述确定有限状态机简化为最小状态确定有限状态机,以得到与所述最小状态确定有限状态机相对应的转换表;
调用预先设置的确定有限状态机模拟器以与所述转换表组成词法分析器;
将所述待转换计算规则输入至所述词法分析器,以转换得到词法分析结果。
在本实施例中,非确定有限状态自动机是指(NFA是Nondeterministic FiniteAutomation的简写),确定有限状态机是指DFA(DFA是Deterministic Finite Automation的简写)。
其中,汤普森算法(即Thompson算法)用于将正则表达式转换为NFA。汤普森算法中最常使用的两种基本转换为:普通转换(是将输入字符转化为另一状态)和epsilon转换(无需输入,只是将一个状态转换为另一个状态)。
之后在得到了非确定有限状态自动机后,通过编译原理中的子集构造法来讲NFA转换为DFA。子集构造法的基本思想是让构造得到的DFA的每个状态对应NFA的一个状态集合。
最后,通过分割法将所述确定有限状态机简化为最小状态确定有限状态机时,是将其中的多余状态(多余状态是指这个状态没有通路到达终态)进行删除,从而简化为最小状态确定有限状态机。
在定义了模式的正则表达式,经过NFA转换、DFA转换和NFA化简后,可以对应得到一个转换表,这张转换表加上一个固定的DFA模拟器,就组成了词法分析器。
在一实施例中,所述将所述词法分析结果进行语法分析,得到对应的抽象语法树,包括:
通过Bison语法分析器对所述词法分析结果进行语法分析,得到对应的抽象语法树。
在本实施例中,语法分析就是将词法分析结果对应的词法单元(token)流中匹配出符合Java语言语法的语句,也即根据词法分析结果生成语法树的过程。对计算规则对应的词法分析结果进行语法分析时,可以采用Bison语法分析器,从而得到对应的抽象语法树。
在一实施例中,所述将所述抽象语法树进行语义分析,得到上下文信息,包括:
将所述抽象语法树依次进行变量引用的消解、类型名称的消解、类型定义检查、表达式的有效性检查和静态类型检查,以得到上下文信息。
在本实施例中,当通过语法分析获取了计算规则的抽象语法树后,需要通过语义分析获取对应的上下文信息。即生成抽象语法树之后,下一步要做的就是对其进行分析,这个过程就称为语义分析,在此步骤需要做的有变量引用的消解、类型名称的消解、类型定义检查、表达式的有效性检查和静态类型检查。语义分析时是按照上述列举的处理过程依序执行。
其中,变量引用的消解是指将所有变量和它们的定义关联起来,例如变量a可能是全局变量a,也可能是静态变量a,还可能是局部变量a,为了消除这种不确定性,我们对它们进行和定义的关联。具体操作就是给变量节点对象增加变量定义的属性。
类型名称的消解是因为在有的语言中,类型名称TypeRef和类型实体Type是分开处理的,原因是TypeRef可以理解为类型的声明,Type则是类型的实现,用户有可能在实现之前就使用了这种类型,所以才会区分处理。这里类型名称的消解,是将TypeRef和Type进行关联,通过一个TypeTable的对象去管理它们的对应关系。
类型定义的检查是检查在定义类型时使用了不符合逻辑的定义声明,比如1)包含void的数组、结构体、联合体;2)成员重复的结构、联合体;3)循环定义的结构体、联合体。
表达式的有效性检查需要检测的问题有:为无法赋值的表达式赋值(例:1=2+2),使用非法的函数名调用函数(例:"string"("%d\n",i)),操作数非法的数组引用(例:1[0]),操作数非法的成员引用(例:1.memb),操作数非法的指针间接引用(例:1->memb),对非指针的对象取值(例:*1),对非左值的表达式取地址。
静态类型检查是因为语言的操作都对操作数的类型有所限制.例如结构体之间无法用+进行加法运算,指针和数值之间无法用*进行乘法运算,将数组传递给参数类型为int型的函数会出现异常结果。对允许的操作数类型进行限制,例如*操作只适用于类型相同的数值之间,在编译过程中检查是否符合这样的限制的处理就是静态类型检查。
S180、根据所述计算表达式对所述本地待计算数据集进行运算,得到并保存本地计算结果。
在本实施例中,当获取了所述计算表达式后,再获取计算表达式在本地待计算数据集中需要的目标数据,将目标数据带入到计算表达式中进行计算得到本地计算结果。之后,该结果可由主节点发送至对应的数据需求终端进行查看。
该方法实现了将客户端程序在数据缓存集群中,可以快速的获取数据并通过计算引擎进行计算,且支持对自定义规则表达式进行解析和执行。
本发明实施例还提供一种基于Ignite的分布式数据处理装置,该基于Ignite的分布式数据处理装置用于执行前述基于Ignite的分布式数据处理方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于Ignite的分布式数据处理装置的示意性框图。该基于Ignite的分布式数据处理装置100可以配置于服务器中。
如图3所示,基于Ignite的分布式数据处理装置100包括:在线状态保存单元110、待计算数据集接收单元120、聚类单元130、最小聚类簇获取单元140、其他聚类簇分发单元150、本地待计算数据集获取单元160、计算规则解析单元170、计算结果获取单元180。
在线状态保存单元110,用于若本地已搭载Ignite程序JAR包,将Ignite节点的当前在线状态保存在本地。
在本实施例中,在某一次分布式运算任务之前,为了通知Ignite集群中主节点以告知该节点处于无故障的有效状态,此时可以将该节点的当前在线状态发送至主节点进行保存。由于本申请是在主节点的角度描述技术方案,故主节点自身为当前在线状态时,只需将Ignite节点的当前在线状态保存在本地。
当主节点接收了多个Ignite节点分别发送的当前在线状态时,即可组成当前在线节点清单。
待计算数据集接收单元120,用于若接收到待计算数据集,获取所述待计算数据集中所包括的待计算数据。
在本实施例中,当Ignite集群中的主节点接收到源数据服务器发送的待计算数据集后,需要先解析获取所述待计算数据集中包括的多条待计算数据。具体实施时,每一条待计算数据对应一个用户数据,该条用户数据中包括多个字段值,例如包括用户名称、用户号码、用户职级、用户当月业绩、用户总累计业绩、数据分组属性等,在后续根据运算规则完成计算任务时,会调用用户数据中的目标字段值。
聚类单元130,用于解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果。
在本实施例中,在主节点上获取了所述待计算数据集中所包括的待计算数据,还需进一步获取各条待计算数据的分组属性,例如聚类结果中某一聚类簇中对应相同或极为近似的数据分组属性(例如某一聚类簇对应的数据分组属性包括A部门A1小组、A部门A2小组、A部门A3小组),则在以数据分组属为主属性进行聚类时会被划分至同一分组。
其中,在以所述数据分组属性为主属性进行聚类时,采用基于密度的聚类方法(即DBSCAN聚类)进行聚类,具体过程如下:
获取预先设置的最小包含点数和扫描半径;
随机选取一个待计算数据作为初始聚类中心,获取与所述初始聚类中心在之间的间距未超出扫描半径的待计算数据,以组成初始聚类群;
将所述初始聚类群中每一待计算数据作为聚类中心,获取所述待计算数据集中各待计算数据与聚类中心直接密度可达、密度可达或密度相连的待计算数据,以得到聚类结果。
在本实施例中,通过DBSCAN聚类算法对待计算数据集进行分类,为了更清楚的理解DBSCAN聚类的详细过程,下面对DBSCAN聚类中所涉及的概念进行介绍。
eps,表示扫描半径;
minPts,表示最小包含点数;
ξ邻域,表示以给定对象为中心,在给定对象的扫描半径范围内的区域;
核心对象,表示若在给定对象的ξ邻域中所包括的对象个数大于或等于最小包含点数,则称该给定对象为核心对象;
直接密度可达,表示对于样本集合D,如果样本点q在p的ξ邻域内,且p为核心对象,那么对象q从对象p直接密度可达;
密度可达,表示对于样本集合D,给定一串样本点p1、p2、……、pn,若p1=q、pn=q,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达;
密度相连,表示存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相连。
通过DBSCAN聚类算法,能有效和快速的将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果。
最小聚类簇获取单元140,用于获取所述聚类结果中所包括的聚类簇,统计所述聚类簇中所包括所述待计算数据的数据总条数为最小值的最小聚类簇,将所述最小聚类簇发送至Ignite集群中的各个Ignite节点。
在本实施例中,在经过了上述的聚类过程将待计算数据集进行划分后,此时可以先统计获取多个聚类簇中数据总条数为最小值的聚类簇以记为最小聚类簇,为了避免该最小聚类簇中的数据被Ignite集群中的各个Ignite节点重复用到,此时可以将所述最小聚类簇发送至Ignite集群中的各个Ignite节点。
而且最小聚类簇中的待计算数据在Ignite集群中每个Ignite节点都已存储,那么查询时直接在Ignite节点本地可以查到,提高了数据查询效率,而且在后续计算的过程中避免了数据在Ignite节点之间的移动。
其他聚类簇分发单元150,用于获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据该聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点。
在本实施例中,当将最小聚类簇中的待计算数据已经发送到Ignite集群中的各个节点之后,此时可以将所述聚类结果中最小聚类簇之外的其他聚类簇发送至Ignite集群中对应的Ignite节点。
在具体实施时,为了更加提高运算速度,可以先在主节点上查询各聚类簇的数据分组属性在各Ignite节点的历史计算数据对应的数据分组属性在是否有相同属性,若聚类簇的数据分组属性与某一Ignite节点的历史计算数据对应的数据分组属性相同,则将该聚类簇发送至对应的Ignite节点上进行运算;若聚类簇的数据分组属性不与任一Ignite节点的历史计算数据对应的数据分组属性相同,则将该聚类簇随机分发至一个Ignite节点,例如可能分配至主节点上进行运算。
在一实施例中,其他聚类簇分发单元150包括:
分组属性判断单元,用于判断在Ignite集群中各Ignite节点对应的历史数据分组属性中是否存在有与其他聚类簇的数据分组属性相同的历史数据分组属性;
第一目标节点发送单元,用于若在Ignite集群中各Ignite节点对应的历史数据分组属性中存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,获取对应的Ignite节点及Ignite节点编号,将该Ignite节点作为目标节点,将其他聚类簇对应的待计算数据发送至目标节点;
第二目标节点发送单元,用于若在Ignite集群中各Ignite节点对应的历史数据分组属性中不存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,随机获取一个Ignite节点作为当前目标节点,将其他聚类簇对应的待计算数据发送至当前目标节点。
也即通过上述方式,能够尽量将关联性强的数据存放在相同节点,将小规模查询数据进行复制模式分布在各个节点。
本地待计算数据集获取单元160,用于获取本地接收的聚类簇和最小聚类簇,以组成本地待计算数据集;其中,本地接收的聚类簇为所述聚类结果中最小聚类簇之外的其他聚类簇中的其中一个聚类簇。
在本实施例中,当有主节点完成了数据分发后,其本身也会接收到聚类簇,此时直接获取其接收到的聚类簇和最小聚类簇,以组成本地待计算数据集,这一本地待计算数据集则作为后续本地运算的数据基础。
计算规则解析单元170,用于获取预设的计算规则,将所述计算规则进行解析得到对应的计算表达式。
在本实施例中,在Ignite节点中计算所采用的计算规则不是常规的计算表达式,而是计算规则,例如计算规则如下:
1、规则名称:【XX绩效】
2、前置规则:【用户职级】=经理
3、运算规则:【用户当月业绩】*【提奖比例】
循环场景:【用户当月业绩】=for_sum(【下级业务员列表】,【下级业务员业绩】)
逻辑场景:【提奖比例】=if_true(【业绩】>1000,0.1)
4、版本:V1,V2,V3
在一实施例中,计算规则解析单元170包括:
词法分析单元,用于根据调用的正则表达式集,以解析获取所述计算规则的词法分析结果;
语法分析单元,用于将所述词法分析结果进行语法分析,得到对应的抽象语法树;
语义分析单元,用于将所述抽象语法树进行语义分析,得到上下文信息;
计算表达式获取单元,用于根据所述上下文信息获取对应的计算表达式。
在本实施例中,将计算规则转化为计算机能理解的计算表达式,其本质也是一种编译过程,也是需要经过词法分析、语法分析等一系列数据处理。
将待转换计算规则转换为Java代码时,首先需要进行词法分析。词法分析可以使用词法分析器,词法分析器的输入是待转换计算规则对应的字符流,词法分析器的输出是词素序列,并对每个词素产生词法单元(token)。其中,词法单元的词素可能具有的形式用模式(pattern)来描述,而模式用正则表达式来表示(本申请中的正则表达式是只具有字符串匹配能力的正则表达式)。
在一实施例中,所述词法分析单元,包括:
第一转换单元,用于通过所调用的汤普森算法将调用的正则表达式集转换为非确定有限状态自动机;
第二转换单元,用于通过子集构造法将非确定有限状态自动机转换为确定有限状态机;
第三转换单元,用于通过分割法将所述确定有限状态机简化为最小状态确定有限状态机,以得到与所述最小状态确定有限状态机相对应的转换表;
词法分析器获取单元,用于调用预先设置的确定有限状态机模拟器以与所述转换表组成词法分析器;
词法转换单元,用于将所述待转换计算规则输入至所述词法分析器,以转换得到词法分析结果。
在本实施例中,非确定有限状态自动机是指(NFA是Nondeterministic FiniteAutomation的简写),确定有限状态机是指DFA(DFA是Deterministic Finite Automation的简写)。
其中,汤普森算法(即Thompson算法)用于将正则表达式转换为NFA。汤普森算法中最常使用的两种基本转换为:普通转换(是将输入字符转化为另一状态)和epsilon转换(无需输入,只是将一个状态转换为另一个状态)。
之后在得到了非确定有限状态自动机后,通过编译原理中的子集构造法来讲NFA转换为DFA。子集构造法的基本思想是让构造得到的DFA的每个状态对应NFA的一个状态集合。
最后,通过分割法将所述确定有限状态机简化为最小状态确定有限状态机时,是将其中的多余状态(多余状态是指这个状态没有通路到达终态)进行删除,从而简化为最小状态确定有限状态机。
在定义了模式的正则表达式,经过NFA转换、DFA转换和NFA化简后,可以对应得到一个转换表,这张转换表加上一个固定的DFA模拟器,就组成了词法分析器。
在一实施例中,语法分析单元还用于:
通过Bison语法分析器对所述词法分析结果进行语法分析,得到对应的抽象语法树。
在本实施例中,语法分析就是将词法分析结果对应的词法单元(token)流中匹配出符合Java语言语法的语句,也即根据词法分析结果生成语法树的过程。对计算规则对应的词法分析结果进行语法分析时,可以采用Bison语法分析器,从而得到对应的抽象语法树。
在一实施例中,所述语义分析单元还用于:
将所述抽象语法树依次进行变量引用的消解、类型名称的消解、类型定义检查、表达式的有效性检查和静态类型检查,以得到上下文信息。
在本实施例中,当通过语法分析获取了计算规则的抽象语法树后,需要通过语义分析获取对应的上下文信息。即生成抽象语法树之后,下一步要做的就是对其进行分析,这个过程就称为语义分析,在此步骤需要做的有变量引用的消解、类型名称的消解、类型定义检查、表达式的有效性检查和静态类型检查。语义分析时是按照上述列举的处理过程依序执行。
其中,变量引用的消解是指将所有变量和它们的定义关联起来,例如变量a可能是全局变量a,也可能是静态变量a,还可能是局部变量a,为了消除这种不确定性,我们对它们进行和定义的关联。具体操作就是给变量节点对象增加变量定义的属性。
类型名称的消解是因为在有的语言中,类型名称TypeRef和类型实体Type是分开处理的,原因是TypeRef可以理解为类型的声明,Type则是类型的实现,用户有可能在实现之前就使用了这种类型,所以才会区分处理。这里类型名称的消解,是将TypeRef和Type进行关联,通过一个TypeTable的对象去管理它们的对应关系。
类型定义的检查是检查在定义类型时使用了不符合逻辑的定义声明,比如1)包含void的数组、结构体、联合体;2)成员重复的结构、联合体;3)循环定义的结构体、联合体。
表达式的有效性检查需要检测的问题有:为无法赋值的表达式赋值(例:1=2+2),使用非法的函数名调用函数(例:"string"("%d\n",i)),操作数非法的数组引用(例:1[0]),操作数非法的成员引用(例:1.memb),操作数非法的指针间接引用(例:1->memb),对非指针的对象取值(例:*1),对非左值的表达式取地址。
静态类型检查是因为语言的操作都对操作数的类型有所限制.例如结构体之间无法用+进行加法运算,指针和数值之间无法用*进行乘法运算,将数组传递给参数类型为int型的函数会出现异常结果。对允许的操作数类型进行限制,例如*操作只适用于类型相同的数值之间,在编译过程中检查是否符合这样的限制的处理就是静态类型检查。
计算结果获取单元180,用于根据所述计算表达式对所述本地待计算数据集进行运算,得到并保存本地计算结果。
在本实施例中,当获取了所述计算表达式后,再获取计算表达式在本地待计算数据集中需要的目标数据,将目标数据带入到计算表达式中进行计算得到本地计算结果。之后,该结果可由主节点发送至对应的数据需求终端进行查看。
该装置实现了将客户端程序在数据缓存集群中,可以快速的获取数据并通过计算引擎进行计算,且支持对自定义规则表达式进行解析和执行。
上述基于Ignite的分布式数据处理装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于Ignite的分布式数据处理方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于Ignite的分布式数据处理方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于Ignite的分布式数据处理方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于Ignite的分布式数据处理方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种基于Ignite的分布式数据处理方法,其特征在于,包括:
若本地已搭载Ignite程序JAR包,将Ignite节点的当前在线状态保存在本地;
若接收到待计算数据集,获取所述待计算数据集中所包括的待计算数据;
解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果;
获取所述聚类结果中所包括的聚类簇,统计所述聚类簇中所包括所述待计算数据的数据总条数为最小值的最小聚类簇,将所述最小聚类簇发送至Ignite集群中的各个Ignite节点;
获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点;
获取本地接收的聚类簇和所述最小聚类簇,以组成本地待计算数据集;其中,本地接收的聚类簇为所述聚类结果中最小聚类簇之外的其他聚类簇中的其中一个聚类簇;
获取预设的计算规则,将所述计算规则进行解析得到对应的计算表达式;以及
根据所述计算表达式对所述本地待计算数据集进行运算,得到并保存本地计算结果;
所述解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果,包括:
获取预先设置的最小包含点数和扫描半径;
随机选取一个待计算数据作为初始聚类中心,获取与所述初始聚类中心之间的间距未超出扫描半径的待计算数据,以组成初始聚类群;
将所述初始聚类群中每一待计算数据作为聚类中心,获取所述待计算数据集中各待计算数据与聚类中心直接密度可达、密度可达或密度相连的待计算数据,以得到聚类结果;
其中,所述待计算数据集的聚类算法为DBSCAN聚类算法;
所述获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点,包括:
判断在Ignite集群中各Ignite节点对应的历史数据分组属性中是否存在有与其他聚类簇的数据分组属性相同的历史数据分组属性;
若在Ignite集群中各Ignite节点对应的历史数据分组属性中存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,获取对应的Ignite节点及Ignite节点编号,将该Ignite节点作为目标节点,将其他聚类簇对应的待计算数据发送至目标节点;
若在Ignite集群中各Ignite节点对应的历史数据分组属性中不存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,随机获取一个Ignite节点作为当前目标节点,将其他聚类簇对应的待计算数据发送至当前目标节点。
2.根据权利要求1所述的基于Ignite的分布式数据处理方法,其特征在于,所述将所述计算规则进行解析得到对应的计算表达式,包括:
根据调用的正则表达式集,以解析获取所述计算规则的词法分析结果;
将所述词法分析结果进行语法分析,得到对应的抽象语法树;
将所述抽象语法树进行语义分析,得到上下文信息;
根据所述上下文信息获取对应的计算表达式;
所述计算规则经过解析得到计算表达式本质为编译过程,将所述计算规则转换为计算机能理解的计算表达式,等待转换的所述计算规则为待转换计算规则。
3.根据权利要求2所述的基于Ignite的分布式数据处理方法,其特征在于,所述根据调用的正则表达式集,以解析获取所述计算规则的词法分析结果,包括:
通过所调用的汤普森算法将调用的正则表达式集转换为非确定有限状态自动机;
通过子集构造法将非确定有限状态自动机转换为确定有限状态机;
通过分割法将所述确定有限状态机简化为最小状态确定有限状态机,以得到与所述最小状态确定有限状态机相对应的转换表;
调用预先设置的确定有限状态机模拟器以与所述转换表组成词法分析器;
将所述待转换计算规则输入至所述词法分析器,以转换得到词法分析结果。
4.根据权利要求2所述的基于Ignite的分布式数据处理方法,其特征在于,所述将所述词法分析结果进行语法分析,得到对应的抽象语法树,包括:
通过Bison语法分析器对所述词法分析结果进行语法分析,得到对应的抽象语法树。
5.根据权利要求2所述的基于Ignite的分布式数据处理方法,其特征在于,所述将所述抽象语法树进行语义分析,得到上下文信息,包括:
将所述抽象语法树依次进行变量引用的消解、类型名称的消解、类型定义检查、表达式的有效性检查和静态类型检查,以得到上下文信息。
6.一种基于Ignite的分布式数据处理装置,其特征在于,包括:
在线状态保存单元,用于若本地已搭载Ignite程序JAR包,将Ignite节点的当前在线状态保存在本地;
待计算数据集接收单元,用于若接收到待计算数据集,获取所述待计算数据集中所包括的待计算数据;
聚类单元,用于解析获取所述待计算数据的数据分组属性,将所述待计算数据集根据数据分组属性进行聚类,以得到聚类结果;
最小聚类簇获取单元,用于获取所述聚类结果中所包括的聚类簇,统计所述聚类簇中所包括所述待计算数据的数据总条数为最小值的最小聚类簇,将所述最小聚类簇发送至Ignite集群中的各个Ignite节点;
其他聚类簇分发单元,用于获取所述聚类结果中最小聚类簇之外的其他聚类簇,将各其他聚类簇根据聚类簇对应的数据分组属性发送至Ignite集群中对应的Ignite节点;
本地待计算数据集获取单元,用于获取本地接收的聚类簇和最小聚类簇,以组成本地待计算数据集;其中,本地接收的聚类簇为所述聚类结果中最小聚类簇之外的其他聚类簇中的其中一个聚类簇;
计算规则解析单元,用于获取预设的计算规则,将所述计算规则进行解析得到对应的计算表达式;以及
计算结果获取单元,用于根据所述计算表达式对所述本地待计算数据集进行运算,得到并保存本地计算结果;
聚类单元具体用于:
获取预先设置的最小包含点数和扫描半径;
随机选取一个待计算数据作为初始聚类中心,获取与所述初始聚类中心之间的间距未超出扫描半径的待计算数据,以组成初始聚类群;
将所述初始聚类群中每一待计算数据作为聚类中心,获取所述待计算数据集中各待计算数据与聚类中心直接密度可达、密度可达或密度相连的待计算数据,以得到聚类结果;
其中,所述待计算数据集的聚类算法为DBSCAN聚类算法;
其他聚类簇分发单元具体用于:
判断在Ignite集群中各Ignite节点对应的历史数据分组属性中是否存在有与其他聚类簇的数据分组属性相同的历史数据分组属性;
若在Ignite集群中各Ignite节点对应的历史数据分组属性中存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,获取对应的Ignite节点及Ignite节点编号,将该Ignite节点作为目标节点,将其他聚类簇对应的待计算数据发送至目标节点;
若在Ignite集群中各Ignite节点对应的历史数据分组属性中不存在有与其他聚类簇的数据分组属性相同的历史数据分组属性,随机获取一个Ignite节点作为当前目标节点,将其他聚类簇对应的待计算数据发送至当前目标节点。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的基于Ignite的分布式数据处理方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的基于Ignite的分布式数据处理方法。
CN202011246206.4A 2020-11-10 2020-11-10 基于Ignite的分布式数据处理方法、装置及计算机设备 Active CN112363832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011246206.4A CN112363832B (zh) 2020-11-10 2020-11-10 基于Ignite的分布式数据处理方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011246206.4A CN112363832B (zh) 2020-11-10 2020-11-10 基于Ignite的分布式数据处理方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN112363832A CN112363832A (zh) 2021-02-12
CN112363832B true CN112363832B (zh) 2023-07-28

Family

ID=74508406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011246206.4A Active CN112363832B (zh) 2020-11-10 2020-11-10 基于Ignite的分布式数据处理方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112363832B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106332287A (zh) * 2015-07-01 2017-01-11 西安中兴新软件有限责任公司 一种数据传输方法及通信节点
CN108776934A (zh) * 2018-05-15 2018-11-09 中国平安人寿保险股份有限公司 分布式数据计算方法、装置、计算机设备及可读存储介质
CN110688307A (zh) * 2019-09-09 2020-01-14 平安普惠企业管理有限公司 JavaScript代码检测方法、装置、设备和存储介质
CN111444944A (zh) * 2020-03-16 2020-07-24 中国平安人寿保险股份有限公司 基于决策树的信息筛选方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106332287A (zh) * 2015-07-01 2017-01-11 西安中兴新软件有限责任公司 一种数据传输方法及通信节点
CN108776934A (zh) * 2018-05-15 2018-11-09 中国平安人寿保险股份有限公司 分布式数据计算方法、装置、计算机设备及可读存储介质
CN110688307A (zh) * 2019-09-09 2020-01-14 平安普惠企业管理有限公司 JavaScript代码检测方法、装置、设备和存储介质
CN111444944A (zh) * 2020-03-16 2020-07-24 中国平安人寿保险股份有限公司 基于决策树的信息筛选方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112363832A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
US11238069B2 (en) Transforming a data stream into structured data
US10237295B2 (en) Automated event ID field analysis on heterogeneous logs
KR102361153B1 (ko) 데이터 유형에 관련된 데이터 프로파일링 동작 관리
Cost et al. Using colored petri nets for conversation modeling
US10229104B2 (en) Efficient DFA generation for non-matching characters and character classes in regular expressions
US10324929B2 (en) Provision of position data for query runtime errors
CN112363727A (zh) Sql代码的java转换方法、装置、计算机设备及存储介质
CN103207878A (zh) 发布信息的检查方法和装置
CN111443901B (zh) 一种基于Java反射的业务扩展方法及装置
Bucchi et al. CORE: a complex event recognition engine
Rasool et al. A novel JSON based regular expression language for pattern matching in the internet of things
CN116483850A (zh) 数据处理方法、装置、设备以及介质
CN112347126B (zh) 大数据处理方法、装置、设备及介质
CN112363832B (zh) 基于Ignite的分布式数据处理方法、装置及计算机设备
Kaandorp Easy and efficient querying of smart contract data while maintaining data integrity
US11954102B1 (en) Structured query language query execution using natural language and related techniques
CN115563150B (zh) Hive SQL与执行引擎DAG的映射方法、设备及存储介质
CN112287012B (zh) 采用Spark SQL模式实现http接口调用方法
Taentzer A visual modeling framework for distributed object computing
Niewiadomski et al. Combining ontology reductions with new approaches to automated abstract planning of Planics
CN117520447A (zh) 数据处理系统、方法、电子设备及计算机可读存储介质
Blochwitz et al. Hardware-Accelerated Index Construction for Semantic Web
CN116501753A (zh) 基于规则引擎的数据处理方法、装置及规则引擎系统
CN116644121A (zh) 一种数据格式校验方法、装置、设备及存储介质
CN117931303A (zh) 组件的状态管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant