CN112860806A - 数据分类方法及装置、存储介质及电子设备 - Google Patents

数据分类方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112860806A
CN112860806A CN202110366455.5A CN202110366455A CN112860806A CN 112860806 A CN112860806 A CN 112860806A CN 202110366455 A CN202110366455 A CN 202110366455A CN 112860806 A CN112860806 A CN 112860806A
Authority
CN
China
Prior art keywords
data
preset category
preset
node
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110366455.5A
Other languages
English (en)
Other versions
CN112860806B (zh
Inventor
秦家虎
叶百家
付维明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110366455.5A priority Critical patent/CN112860806B/zh
Publication of CN112860806A publication Critical patent/CN112860806A/zh
Application granted granted Critical
Publication of CN112860806B publication Critical patent/CN112860806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据分类方法及装置、存储介质及电子设备,该方法应用于分布式网络,通过周期性循环遍历该网络中的各个工作节点,在当前循环周期中依次触发每个工作节点基于其所记录的待分类数据和输入该工作节点的输入数据,进行高斯分布的特征估计,以估计结果作为该工作节点的输出数据,将当前循环周期中最后访问的工作节点的输出数据作为该循环周期的输出结果。在结束所述遍历过程后,依据最后的循环周期的输出结果获得每个预设类别对应的目标高斯分布特征,使每个工作节点利用各个所述目标高斯分布特征对其所记录的每个待分类数据进行分类。应用本发明的方法,无需在各个工作节点间传递待分类数据,可节省通信资源。

Description

数据分类方法及装置、存储介质及电子设备
技术领域
本发明涉及数据挖掘技术领域,特别是涉及一种数据分类方法及装置、存储介质及电子设备。
背景技术
随着信息技术的发展,在信息技术的各个应用领域,数据挖掘技术已成为了数据分析的常用手段之一。数据挖掘指是从大量的数据中通过算法推断隐藏于其中信息的过程。
聚类分析是数据挖掘技术中重要的统计分析方法之一,它指的是依据各个数据的特征,将各个数据归并到若干个类别,即对数据进行分类。在聚类分析过程中,通常需获取所有数据信息,依据所有数据的特征,对每个数据进行分类。
在实际的工程应用中,聚类分析常常需应用于分布式网络,对分布式网络中的数据进行分类。而分布式网络中的数据独立分布在该网络的各个节点上,在对各个节点中的本地数据进行分类时,则需要各个节点将本地数据传输给预先指定的中心节点,由中心节点对所有数据统一进行分类。故在分布式网络的数据分类过程中,需要耗费通信资源将各个节点的本地数据传输至中心节点,在数据量较大时,通信资源消耗较大。其次,中心节点需对整个网络的数据进行分类,负载较高,稳定性较差。
发明内容
有鉴于此,本发明实施例提供了一种数据分类方法,以解决通信资源消耗较大的问题。
本发明实施例还提供了一种数据分类装置,用以保证上述方法实际中的实现及应用。
为实现上述目的,本发明实施例提供如下技术方案:
一种数据分类方法,所述方法应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述方法包括:
当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
所述基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征,包括:
循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
上述的方法,可选的,所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类,包括:
确定每个所述预设类别对应的目标混合概率;
基于各个所述预设类别对应的所述目标混合概率及所述目标高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中的每个待分类数据对应的各个目标概率,每个所述待分类数据对应的各个目标概率与各个所述预设类别一一对应;
针对所述工作节点中的每个所述待分类数据,将其对应的各个所述目标概率进行比较,并将其中最大的目标概率所对应的预设类别,确定为该待分类数据对应的类别。
上述的方法,可选的,所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,包括:
基于当前输入该工作节点的输入数据,确定每个所述预设类别对应的第一预估高斯分布特征;
确定每个所述预设类别当前的预估混合概率;
基于各个所述预设类别当前的预估混合概率及所述第一预估高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中每个待分类数据对应的各个期望概率,每个所述待分类数据对应的各个期望概率与各个所述预设类别一一对应;
针对每个所述预设类别,依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数;
确定每个所述预设类别对应的各个当前的全局参数,并依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新;
依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征。
上述的方法,可选的,所述依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数,包括:
将该预设类别作为目标预设类别,并在各个所述待分类数据对应的各个所述期望概率中,确定所述目标预设类别对应的各个期望概率;
将所述目标预设类别对应的各个所述期望概率进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第一节点参数;
针对所述目标预设类别对应的每个所述期望概率,计算该期望概率与其对应的待分类数据的乘积,并将所有所述期望概率与其对应的待分类数据的乘积进行求和运算,将运算结果作为所述目标预设类别对应的当前的第二节点参数;
确定每个所述待分类数据对应的转置;
确定所述目标预设类别对应的每个所述期望概率对应的目标乘积,每个所述期望概率对应的目标乘积为所述期望概率、所述期望概率对应的待分类数据及其对应的所述待分类数据的转置的乘积;
将所有所述期望概率对应的所述目标乘积进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第三节点参数;
将所述目标预设类别对应的所述当前的第一节点参数、当前的第二节点参数和所述当前的第三节点参数,作为所述目标预设类别对应的各个当前的节点参数。
上述的方法,可选的,每个所述预设类别对应的各个所述当前的全局参数包括当前的第一全局参数、当前的第二全局参数和当前的第三全局参数,所述依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新,包括:
获取每个所述预设类别对应的各个预先记录的节点参数;
针对每个所述预设类别,将其对应的当前的第一节点参数与其对应的预先记录的第一节点参数作差运算,得到第一运算结果,并将所述第一运算结果与该预设类别对应的当前的第一全局参数作和运算,得到第二运算结果,以所述第二运算结果作为该预设类别对应的更新后的第一全局参数;
针对每个所述预设类别,将其对应的当前的第二节点参数与其对应的预先记录的第二节点参数作差运算,得到第三运算结果,并将所述第三运算结果与该预设类别对应的当前的第二全局参数作和运算,得到第四运算结果,以所述第四运算结果作为该预设类别对应的更新后的第二全局参数;
针对每个所述预设类别,将其对应的当前的第三节点参数与其对应的预先记录的第三节点参数作差运算,得到第五运算结果,并将所述第五运算结果与所述预设类别对应的当前的第三全局参数作和运算,得到第六运算结果,以所述第六运算结果作为该预设类别对应的更新后的第三全局参数。
上述的方法,可选的,所述依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征,包括:
针对每个所述预设类别,计算其对应的更新后的第二全局参数与更新后的第一全局参数的比值,并将所述比值作为该预设类别对应的高斯分布的均值;
针对每个所述预设类别,依据其对应的所述高斯分布的均值、更新后的第一全局参数和更新后的第三全局参数,确定该预设类别对应的高斯分布的方差;
将每个所述预设类别对应的所述高斯分布的均值和方差,作为每个所述预设类别对应的第二预估高斯分布特征。
上述的方法,可选的,所述判断所述当前循环周期的输出结果是否符合预设的收敛条件,包括:
确定第一特征集合和第二特征集合,所述第一特征集合中包括所述当前循环周期的输出结果中包含的每个所述预设类别对应的第三预估高斯分布特征,所述第二特征集合中包括所述当前循环周期中输入最后访问的工作节点的输入数据中包含的,每个所述预设类别对应的第四预估高斯分布特征;
确定所述第一特征集合对应的第一特征矩阵和所述第二特征集合对应的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵作差运算,并确定运算结果对应的范数数值;
判断所述范数数值是否小于预设阈值,若所述范数数值小于所述预设阈值,则确定所述当前循环周期的输出结果符合所述收敛条件。
一种数据分类装置,所述装置应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述装置包括:
第一获取单元,用于当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
第二获取单元,用于基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发单元,用于触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
其中,所述第二获取单元,包括:
遍历子单元,用于循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断子单元,用于判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
上述的装置,可选的,所述触发单元,包括:
第一确定子单元,用于确定每个所述预设类别对应的目标混合概率;
第一计算子单元,用于基于各个所述预设类别对应的所述目标混合概率及所述目标高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中的每个待分类数据对应的各个目标概率,每个所述待分类数据对应的各个目标概率与各个所述预设类别一一对应;
比较子单元,用于针对所述工作节点中的每个所述待分类数据,将其对应的各个所述目标概率进行比较,并将其中最大的目标概率所对应的预设类别,确定为该待分类数据对应的类别。
上述的装置,可选的,所述遍历子单元,包括:
第二确定子单元,用于基于当前输入该工作节点的输入数据,确定每个所述预设类别对应的第一预估高斯分布特征;
第三确定子单元,用于确定每个所述预设类别当前的预估混合概率;
第二计算子单元,用于基于各个所述预设类别当前的预估混合概率及所述第一预估高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中每个待分类数据对应的各个期望概率,每个所述待分类数据对应的各个期望概率与各个所述预设类别一一对应;
第四确定子单元,用于针对每个所述预设类别,依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数;
第五确定子单元,用于确定每个所述预设类别对应的各个当前的全局参数,并依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新;
第六确定子单元,用于依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征。
上述的装置,可选的,所述第四确定子单元,包括:
第七确定子单元,用于将该预设类别作为目标预设类别,并在各个所述待分类数据对应的各个所述期望概率中,确定所述目标预设类别对应的各个期望概率;
第三计算子单元,用于将所述目标预设类别对应的各个所述期望概率进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第一节点参数;
第四计算子单元,用于针对所述目标预设类别对应的每个所述期望概率,计算该期望概率与其对应的待分类数据的乘积,并将所有所述期望概率与其对应的待分类数据的乘积进行求和运算,将运算结果作为所述目标预设类别对应的当前的第二节点参数;
第八确定子单元,用于确定每个所述待分类数据对应的转置;
第五计算子单元,用于确定所述目标预设类别对应的每个所述期望概率对应的目标乘积,每个所述期望概率对应的目标乘积为所述期望概率、所述期望概率对应的待分类数据及其对应的所述待分类数据的转置的乘积;
第六计算子单元,用于将所有所述期望概率对应的所述目标乘积进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第三节点参数;
第九确定子单元,用于将所述目标预设类别对应的所述当前的第一节点参数、当前的第二节点参数和所述当前的第三节点参数,作为所述目标预设类别对应的各个当前的节点参数。
上述的装置,可选的,每个所述预设类别对应的各个所述当前的全局参数包括当前的第一全局参数、当前的第二全局参数和当前的第三全局参数,所述第五确定子单元,包括:
获取子单元,用于获取每个所述预设类别对应的各个预先记录的节点参数;
第七计算子单元,用于针对每个所述预设类别,将其对应的当前的第一节点参数与其对应的预先记录的第一节点参数作差运算,得到第一运算结果,并将所述第一运算结果与该预设类别对应的当前的第一全局参数作和运算,得到第二运算结果,以所述第二运算结果作为该预设类别对应的更新后的第一全局参数;
第八计算子单元,用于针对每个所述预设类别,将其对应的当前的第二节点参数与其对应的预先记录的第二节点参数作差运算,得到第三运算结果,并将所述第三运算结果与该预设类别对应的当前的第二全局参数作和运算,得到第四运算结果,以所述第四运算结果作为该预设类别对应的更新后的第二全局参数;
第九计算子单元,用于针对每个所述预设类别,将其对应的当前的第三节点参数与其对应的预先记录的第三节点参数作差运算,得到第五运算结果,并将所述第五运算结果与所述预设类别对应的当前的第三全局参数作和运算,得到第六运算结果,以所述第六运算结果作为该预设类别对应的更新后的第三全局参数。
上述的装置,可选的,所述第六确定子单元,包括:
第十计算子单元,用于针对每个所述预设类别,计算其对应的更新后的第二全局参数与更新后的第一全局参数的比值,并将所述比值作为该预设类别对应的高斯分布的均值;
第十一计算子单元,用于针对每个所述预设类别,依据其对应的所述高斯分布的均值、更新后的第一全局参数和更新后的第三全局参数,确定该预设类别对应的高斯分布的方差;
第十确定子单元,用于将每个所述预设类别对应的所述高斯分布的均值和方差,作为每个所述预设类别对应的第二预估高斯分布特征。
上述的装置,可选的,所述判断子单元,包括:
第十一确定子单元,用于确定第一特征集合和第二特征集合,所述第一特征集合中包括所述当前循环周期的输出结果中包含的每个所述预设类别对应的第三预估高斯分布特征,所述第二特征集合中包括所述当前循环周期中输入最后访问的工作节点的输入数据中包含的,每个所述预设类别对应的第四预估高斯分布特征;
第十二确定子单元,用于确定所述第一特征集合对应的第一特征矩阵和所述第二特征集合对应的第二特征矩阵;
第十二计算子单元,用于将所述第一特征矩阵与所述第二特征矩阵作差运算,并确定运算结果对应的范数数值;
第十三确定子单元,用于判断所述范数数值是否小于预设阈值,若所述范数数值小于所述预设阈值,则确定所述当前循环周期的输出结果符合所述收敛条件。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的数据分类方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的数据分类方法。
基于上述本发明实施例提供的一种数据分类方法及装置、存储介质及电子设备,该方法包括:当需要在分布式网络中进行数据分类时,基于每个预设类别对应的初始高斯分布特征,和该网络中各个工作节点记录的各个待分类数据,获得每个预设类别对应的目标高斯分布特征。触发每个工作节点根据各个预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分布策略,对该工作节点中的每个待分类数据进行分类。其中,通过循环遍历各个工作节点,并在当前循环周期中依次触发每个工作节点基于其所记录的各个待分类数据和输入该工作节点的输入数据,进行高斯分布的特征估计,以得到该循环周期的输出结果,直到当前循环周期的输出结果符合预设的收敛条件时,基于所述当前循环周期的输出结果得到每个所述预设类别对应的目标高斯分布。应用本发明的方法,可通过触发每个工作节点基于其所记录的所有待分类数据进行高斯分布的特征估计,得到每个预估类别对应的目标高斯分布特征,并触发每个工作节点基于每个预设类别对应的目标高斯分布特征对其所记录的每个待分类数据进行分类。在数据分类的过程中,无需在各个工作节点之间进行待分类数据的传输,通信资源消耗较少,同时可降低数据泄露的风险。另外,由每个工作节点承担自身的数据分类工作,可平衡各个工作节点的负载,稳定性较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据分类方法的方法流程图;
图2为本发明实施例提供的一种数据分类方法的又一方法流程图;
图3为本发明实施例提供的一种数据分类方法的另一方法流程图;
图4为本发明实施例提供的一种数据分类装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,传统的分布式数据挖掘算法大多都是集中式的,也就是如若需对分布式网络中各个工作节点中数据进行分类,则需要求各个工作节点将其本地数据传输给事先指定的中心节点,由该中心节点对数据进行统一处理。当数据量很大时,需要消耗大量的通信资源以传输数据。而且,在同一个节点处理整个网络的数据,对节点的计算能力要求极高,一旦中心节点出现故障,则难以进行数据分类处理,稳定性较差。另外,集中式的算法,需要在各个工作节点之间传输原始的待分类数据,在金融、医疗等特殊的应用领域,意味着用户隐私可能遭到泄露,存在安全风险。
因此,本发明实施例提供了一种数据分类方法,通过依次触发各个工作节点基于其所记录的待分类数据进行高斯分布的特征估计,获得高斯分布的特征信息,使每个工作节点可依据高斯分布的特征信息对其所记录的待分类数据进行分类,无需在各个工作节点之间进行待分类数据的传输,减少资源消耗。
本发明实施例提供了一种数据分类方法,所述方法应用于分布式网络,该分布式网络中包括多个工作节点,该方法的执行主体可以为该网络中的工作节点的处理器。该方法的流程图如图1所示,包括:
S101:当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
本发明实施例提供的方法中,在分布式网络中的各个工作节点的工作过程中,可能会产生多个待分类数据,例如温度监控系统中的各个温度监测点捕获的各个温度数据,又如图像采集系统中的各个图像采集点采集的各个图像数据。每个工作节点在产生待分类数据会这些数据在本地进行记录。
当需要对网络中的各个工作节点的数据进行数据挖掘时,可由工作人员向该网络发送数据分类请求。数据分类请求可通过预先的控制节点发送,也可以通过该网络中的任意一个工作节点发送。
当分布式网络中的工作节点接收到数据分类请求时,可以获取网络中预先配置的每个预设类别对应的初始高斯分布特征。数据分类请求的接收对象,可以是该网络中的任意一个工作节点,也可以是其中预先指定的一个工作节点。每个所述预设类别为该网络的数据分析中,每个待分类数据可以归属的类别。每个预设类别对应的高斯分布特征意指的是属于该预设类别的数据所服从的高斯分布的特征,该特征包括高斯分布的均值和方差。而每个预设类别对应的初始高斯分布特征,是一个初始化的参数,并不包含当前待分类数据的分类信息。
S102:进入周期性遍历各个所述工作节点的首个循环周期,并将每个所述预设类别对应的初始高斯分布特征作为首个循环周期中首个访问的工作节点的输入数据;
本发明实施例提供的方法中,通过循环遍历各个节点以获得每个所述预设类别对应的目标高斯分布特征。在进入首个循环周期时,在各个工作节点中确定首个访问的节点,并将每个所述预设类别对应的初始高斯分布特征作为首个访问的节点的输入数据。遍历各个工作节点的具体实现方式,可采用令牌传递算法实现,也可采用闲话算法(AlgorithmGossip)实现,还可以采用其他现有的遍历节点的算法实现,需要说明的是,实现节点遍历的方式不影响本发明实施例提供的方法实现功能。
S103:在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
本发明实施例提供的方法中,在遍历各个工作节点的过程中,每个工作节点的输出数据为在其之后访问的工作节点的输入数据。在工作节点接收到输入数据时,可触发该工作节点基于其所记录的各个待分类数据和当前输入该工作节点的输入数据,进行高斯分布的特征估计,也就是基于其所记录的各个待分类数据,在输入数据的基础上对每个预设类别对应的高斯分布特征进行估计,将估计结果作为该工作节点的输出数据,输出给下一个工作节点,以访问下一个工作节点。当前循环周期中最后访问的工作节点的输出数据为当前循环周期的输出结果。
本发明实施例提供的方法中,每个工作节点进行高斯分布的特征估计的方式,可以基于增量式的期望极大算法(Expectation-Maximization algorithm,EM)实现,也可以基于变分推断算法等其他聚类算法实现,具体的特征估计方式不影响本发明实施例提供的方法实现功能。
本发明实施例提供的方法中,各个工作节点的访问顺序,可以预先设定好每个工作节点被访问的顺序,按照预定顺序依次进行访问,也可以按照预设的策略随机访问,各个工作节点能够依次被访问即可。需要说明的是,在遍历过程中,能够保证每个工作节点均被访问,也就是网络中的所有待分类数据能够参与高斯分布的特征估计即可,具体的访问顺序不影响本发明实施例提供的方法实现功能。
S104:判断当前循环周期的输出结果是否符合预设的收敛条件;
本发明实施例提供的方法中,当获取到当前循环周期的输出结果时,判断当前循环周期的输出结果是否符合预设的收敛条件,主要是判断每个预设类别对应的高斯分布特征的估计是否趋于稳定,具体可通过当前循环周期中最后一个访问的节点的输入数据和输出数据判断数据的变化,也可以通过当前循环周期的输出结果与该循环周期的上一个循环周期的输出结果判断数据的变化,在此情况下,若当前循环周期为首个循环周期,可依据当前循环周期的输出结果和每个预设类别对应的初始高斯分布判断数据的变化,也可在首个循环周期时不作收敛性判断或将判断结果配置为未收敛,因为在实际情况下首个循环周期数据收敛的可能性较低。
若经判断当前循环周期的输出结果符合预设的收敛条件,则进入步骤S105,若不符合则进入步骤S107。
S105:结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
本发明实施例提供的方法中,若所述当前循环周期的输出结果符合所述收敛条件,则结束循环遍历各个工作节点的过程,将当前循环循环周期的输出结果中包含的每个预设类别对应的预估高斯分布特征作为该预设类别对应的目标高斯分布特征。
S106:触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
本发明实施例提供的方法中,每个工作节点中预先配置有基于混合高斯分布的分类策略,也就是采用混合高斯模型所实现的分类策略。在具体的实现过程中,可以将每个预设类别对应的目标高斯分布特征直接传递给每个工作节点,使其直接将每个预设类别对应的目标高斯分布特征作为混合高斯模型中的模型参数,以对其所记录的每个待分类数据进行分类。也可以按照步骤S103中所提及的遍历方式再次遍历各个工作节点,将各个所述预设类别对应的目标高斯分布特征作为首个访问的工作节点的输入数据,触发每个工作节点基于其输入数据或输出数据确定混合高斯模型的模型参数,以对其所记录的每个待分类数据进行分类。
S107:将所述当前循环周期的输出结果作为下一个循环周期中首个访问的工作节点的输入数据,并进入下一个循环周期。
本发明实施例提供的方法中,若所述当前循环周期的输出结果不符合所述收敛条件,则将当前循环周期的输出结果作为该循环周期的下一个循环周期中首个访问的工作节点的输入数据,并进入下一个循环周期,返回执行步骤S103。
基于本发明实施例提供的方法,在分布式网络接收到数据分类请求的情况下,可依据每个预设类别对应的初始高斯分布特征和各个工作节点的待分类数据,获得每个预设类别对应的目标高斯分布特征,使各个工作节点可基于各个所述目标高斯分布特征对该节点中的待分类数据进行分类。在此过程中,触发每个工作节点基于其所记录的待分类数据和输入数据,自行进行高斯分布的特征估计,最终得到各个所述目标高斯分布特征。应用本发明实施例提供的方法,在数据分类过程中,每个工作节点可自行基于其所记录的待分类数据参与预设类别对应的高斯分布的特征估计,最终得到各个目标高斯分布特征,每个工作节点亦可自行对其所记录的每个待分类数据进行分类,无需将每个工作节点的待分类数据传输给其他节点,可大幅减少通信资源的消耗,且降低数据泄露风险。另外,由各个工作节点负担自身的数据分类工作,可有效平衡负载,稳定性较高。
为了更好地说明本发明实施例提供的方法,在图1所示方法的基础上,结合图2所示流程图,本发明实施例提供了又一种数据分类方法,其中,步骤S106中所提及的所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类的过程,包括:
S201:确定每个所述预设类别对应的目标混合概率;
本发明实施例提供的方法中,每个工作节点中预先配置有每个预设类别对应的混合概率这一参数,这一参数指的是混合高斯模型中每个预设类别对应的高斯分布所对应的混合概率。在每个工作节点进行高斯分布的特征估计的过程,每个工作节点中的每个预设类别对应的混合概率也随之更新。
本发明实施例提供的方法中,在当前工作节点需对其所记录的待分类数据进行分类时,可获取该工作节点最后一次进行高斯分布的特征估计的过程中所更新的每个预设类别对应的混合概率,作为每个预设类别对应的目标混合概率。
S202:基于各个所述预设类别对应的所述目标混合概率及所述目标高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中的每个待分类数据对应的各个目标概率,每个所述待分类数据对应的各个目标概率与各个所述预设类别一一对应;
本发明实施例提供的方法中,可将每个预设类别对应的目标混合概率和目标高斯分布特征,作为混合高斯模型中的模型参数,计算当前工作节点中每个待分类数据对应的每个预设类别的目标概率,也就是通过混合高斯模型预估每个待分类数据分别属于每个预设类别的概率。
本发明实施例提供的方法中的混合高斯模型的表达式如下:
Figure BDA0003007742370000161
其中,各参数中的上下标中,m为节点标识,i为待分类数据标识,表示当前节点中的第i个待分类数据,j为预设类别标识,表示第j种预设类别,J表示预设类别总数。ωm,i,j表示当前节点m中第i个待分类数据属于第j种预设类别的概率。αm,j表示当前节点m中第j个预设类别对应的混合概率。ym,i表示当前工作节点m中的第i个待分类数据,
Figure BDA0003007742370000162
表示第j种预设类别对应的高斯分布模型,
Figure BDA0003007742370000163
表示该预设类别j的数据服从均值μj,方差∑j的高斯分布的情况下,取到待分类数据ym,i的概率。而表达式分母中各参数含义可类比上述说明得到,在此不再赘述。
在本发明实施例提供的方法中,将每个预设类别对应的目标混合概率作为该上述表达式中该预设类别对应的混合概率,将每个预设类别对应的目标高斯分布特征作为上述表达式中该预设类别服从的高斯分布的均值和方差,以通过上述模型计算每个待分类数据属于每个预设类别的概率。
S203:针对所述工作节点中的每个所述待分类数据,将其对应的各个所述目标概率进行比较,并将其中最大的目标概率所对应的预设类别,确定为该待分类数据对应的类别。
本发明实施例提供的方法中,对于每个待分类数据,可将其分布属于每个预设类别的概率进行比较,并将其对应概率最大的预设类别作为该待分类数据对应的类别。例如待分类数据A,对应预设类别1的概率为10%,对比预设类别2的概率为60%,对应预设类别3的概率为30%,则将预设类别2确定为待分类数据A对应的类别。需要说明的是,本发明实施例提供中提供的具体概率数值和预设类别总数仅为更好地说明本发明的方法所提供的一个实施例,在具体实现过程中,具体概率数值由实际计算得到,各个预设类别总数也应实际应用需求所设置,不影响本发明实施例提供的方法实现功能。
基于本发明实施例提供的方法,可基于每个预设类别的目标高斯分布特征,利用预设的混合高斯模型,直接计算该工作节点中每个待分类数据属于每个预设类别的概率,通过比较每个待分类数据属于各个预设类别的概率以确定每个待分类数据的类别。分类过程较为简单快捷,无需再次进行特征估计,可节省计算资源,提高分类效率。
进一步的,在图1所示方法的基础上,本发明实施例提供了另一种数据分类方法,本发明实施例提供的方法中的每个工作节点基于EM算法(期望极大算法)进行高斯分布的特征估计。本发明实施例提供的方法中,步骤S103中所提及的所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计的过程,包括:
基于当前输入该工作节点的输入数据,确定每个所述预设类别对应的第一预估高斯分布特征;
本发明实施例提供的方法中,在当前工作节点接收到输入数据的情况下,从该输入数据中获取每个预设类别对应的第一预估高斯分布特征,每个预设类别对应的第一预设高斯分布特征中包含高斯分布的均值和方差。
确定每个所述预设类别当前的预估混合概率;
本发明实施例提供的方法中,当前工作节点中预先记录有每个预设类别对应的预估混合概率,其本质是当前工作节点在上一次进行高斯分布的特征估计的过程中更新得到的每个预设类别对应的混合概率。
基于各个所述预设类别当前的预估混合概率及所述第一预估高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中每个待分类数据对应的各个期望概率,每个所述待分类数据对应的各个期望概率与各个所述预设类别一一对应;
本发明实施例提供的方法中,工作节点在进行高斯分布的特征估计过程中所采用的混合高斯模型与实际分类过程中所采用的混合高斯模型是相同的,该混合高斯模型的表达式可参见上述实施例中步骤S202的说明,在此不再赘述。
本发明实施例提供的方法中,将每个预设类别当前的预估混合概率作为模型参数中的该预设类别对应的混合概率,将每个预设类别对应的第一预估高斯分布特征作为模型参数中该预设类别服从的高斯分布的均值和方差,将此时通过模型计算得到的每个待分类数据属于每个预设类别的概率,作为每个待分类数据对应每个预设类别的期望概率。这一步骤的原理为EM算法中的E步(Expectation-step)。
针对每个所述预设类别,依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数;
确定每个所述预设类别对应的各个当前的全局参数,并依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新;
依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征。
本发明实施例提供的方法中,依据增量式EM算法的原理,在各个工作节点中设置有每个预设类别对应的各个节点参数。每个工作节点中每个预设类别对应的各个节点参数,用于表征该工作节点中的待分类数据对应该预设类别的概率情况,而该分布式网络中设置有每个预设类别对应的各个全局参数,每个预设类别对应的各个全局参数用于表征该网络中的所有待分类数据对应该预设类别的概率情况。这些概率参数的具体设置方式基于增量式EM算法的M步(Maximization-step)原理实现,主要是求取预设类别对应的高斯分布特征的最大似然估计,这些参数可根据该原理的计算过程中的数学整理进行设置,也就是这些参数的本质是计算过程中的一些中间变量,在具体实现过程中可以有不同的表达形式,不影响本发明实施例提供的方法实现功能。
本发明实施例提供的方法中,当前工作节点在进行特征估计的过程时,可基于预设的各个节点参数的参数定义,利用其记录的所有待分类数据及其对应的各个期望概率,确定每个预设类别对应的各个当前的节点参数。获取每个预设类别对应的各个当前的全局参数,依据预设的增量式的更新策略,利用各个当前的节点参数,对各个当前的全局参数进行更新,并通过更新后的各个全局参数,估计高斯分布特征。当前工作节点的每个预设类别对应的各个当前的全局参数为上一个访问的工作节点更新后的各个全局参数,可通过输入当前工作节点的输入数据传递,若当前工作节点为首个循环周期中首个访问的节点,则各个当前的全局参数为初始化数值。
基于本发明实施例提供的方法,工作节点可基于增量式的EM算法原理,利用其所记录的待分类数据对各个预设类别对应的当前的全局参数进行更新,以各个中间参数表征每个工作节点的待分类数据的特征信息,在各个工作节点之间进行传递整合,传递的数据量较少。另外,基于现有的EM算法进行分布式改进,计算过程较为简单,可加快运行速度,应用较为方便快捷。
为了更好地说明本发明实施例提供的方法,在上述的方法的基础上,本发明实施例提供了又一种数据分类方法,在上述实施例中所提及的所述依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数的过程,包括:
将该预设类别作为目标预设类别,并在各个所述待分类数据对应的各个所述期望概率中,确定所述目标预设类别对应的各个期望概率;
本发明实施例提供的方法中,针对每个预设类别,将该预设类别作为目标预设类别,在通过混合高斯模型计算得到的各个待分类数据对应的各个期望概率中,确定所述目标预设类别对应的各个期望概率,也就是将每个待分类数据对应所述目标预设类别的期望概率,作为所述目标预设类别对应的期望概率。
将所述目标预设类别对应的各个所述期望概率进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第一节点参数;
本发明实施例提供的方法中,可基于下述公式(1),计算目标预设类别对应的当前的第一节点参数,其中,ω′m,j表示当前工作节点m中目标预设类别j对应的当前的第一节点参数,Nm表示当前工作节点m中的待分类数据个数,其他字符含义与前述实施例中步骤S202中的符号含义解释相同,在此不再赘述。
公式(1):
Figure BDA0003007742370000191
针对所述目标预设类别对应的每个所述期望概率,计算该期望概率与其对应的待分类数据的乘积,并将所有所述期望概率与其对应的待分类数据的乘积进行求和运算,将运算结果作为所述目标预设类别对应的当前的第二节点参数;
本发明实施例提供的方法中,可基于下述公式(2),计算目标预设类别对应的当前的第二节点参数,其中,a′m,j表示当前工作节点m中目标预设类别j对应的当前的第二节点参数,其他字符含义可参见前文说明。
公式(2):
Figure BDA0003007742370000192
确定每个所述待分类数据对应的转置;
确定所述目标预设类别对应的每个所述期望概率对应的目标乘积,每个所述期望概率对应的目标乘积为所述期望概率、所述期望概率对应的待分类数据及其对应的所述待分类数据的转置的乘积;
将所有所述期望概率对应的所述目标乘积进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第三节点参数;
本发明实施例提供的方法中,可基于下述公式(3),计算目标预设类别对应的当前的第三节点参数,其中,b′m,j表示当前工作节点m中目标预设类别j对应的当前的第三节点参数。
公式(3):
Figure BDA0003007742370000201
将所述目标预设类别对应的所述当前的第一节点参数、当前的第二节点参数和所述当前的第三节点参数,作为所述目标预设类别对应的各个当前的节点参数。
本发明实施例提供的方法中,将通过公式(1)、公式(2)和公式(3)分别得到的所述当前的第一节点参数、第二节点参数和所述当前的第三节点参数,作为该目标预设类别对应的各个当前的节点参数。以此得到每个预设类别对应的各个当前的节点参数。
本发明实施例提供的方法中,可基于下述公式(4),计算每个预设类别对应的预估混合概率进行更新,其中,α′m,j表示当前工作节点m中目标预设类别j对应的更新后的预估混合概率,公式(4):
Figure BDA0003007742370000202
在上述实施例的基础上,本发明实施例提供的数据分类方法中,每个所述预设类别对应的各个所述当前的全局参数包括当前的第一全局参数、当前的第二全局参数和当前的第三全局参数,上述实施例中所提及的依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新的过程,包括:
获取每个所述预设类别对应的各个预先记录的节点参数;
本发明实施例提供的方法中,每个工作节点在每次进行高斯分布的特征估计时,会记录各个更新后的参数,以替换对应的原先参数。当前每个预设类别对应的各个预先记录的节点参数,也就是当前工作节点在当前循环周期的上一个循环周期中被访问时,所确定的每个预设类别对应的各个当前的节点参数,若当前循环周期为首个循环周期,则各个预先记录的节点参数则为初始化的数值。
针对每个所述预设类别,将其对应的当前的第一节点参数与其对应的预先记录的第一节点参数作差运算,得到第一运算结果,并将所述第一运算结果与该预设类别对应的当前的第一全局参数作和运算,得到第二运算结果,以所述第二运算结果作为该预设类别对应的更新后的第一全局参数;
本发明实施例提供的方法中,对于每个预设类别,可基于下述公式(5),计算该预设类别对应的更新后的第一全局参数,其中,ω′j表示预设类别j对应的更新后的第一全局参数,ωj表示预设类别m对应的当前的第一全局参数,ωm,j表示当前工作节点m中预设类别j对应的预先记录的第一节点参数。
公式(5):ω′j=ωj+ω′m,jm,j
针对每个所述预设类别,将其对应的当前的第二节点参数与其对应的预先记录的第二节点参数作差运算,得到第三运算结果,并将所述第三运算结果与该预设类别对应的当前的第二全局参数作和运算,得到第四运算结果,以所述第四运算结果作为该预设类别对应的更新后的第二全局参数;
本发明实施例提供的方法中,对于每个预设类别,可基于下述公式(6),计算该预设类别对应的更新后的第二全局参数,其中,a′j表示预设类别j对应的更新后的第二全局参数,aj表示预设类别j对应的当前的第二全局参数,am,j表示当前工作节点m中预设类别j对应的预先记录的第二节点参数。
公式(6):a′j=aj+a′m,j-am,j
针对每个所述预设类别,将其对应的当前的第三节点参数与其对应的预先记录的第三节点参数作差运算,得到第五运算结果,并将所述第五运算结果与所述预设类别对应的当前的第三全局参数作和运算,得到第六运算结果,以所述第六运算结果作为该预设类别对应的更新后的第三全局参数。
本发明实施例提供的方法中,对于每个预设类别,可基于下述公式(7),计算该预设类别对应的更新后的第三全局参数,其中,b′j表示预设类别j对应的更新后的第三全局参数,bj表示预设类别j对应的当前的第三全局参数,bm,j表示当前工作节点m中预设类别j对应的预先记录的第三节点参数。
公式(7):b′j=bj+b′m,j-bm,j
基于本发明实施例提供的方法,基于增量式的EM算法制定了对应的计算策略,以利用每个工作节点中的待分类数据的特征对各个全局参数进行更新,以进行高斯分布的特征估计,可多次迭代更新使得全局参数中的待分类数据特征更加贴切,提高估计的准确性。
为了更好地说明本发明实施例提供的方法,所述依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征,包括:
针对每个所述预设类别,计算其对应的更新后的第二全局参数与更新后的第一全局参数的比值,将所述比值作为该预设类别对应的高斯分布的均值,并依据该预设类别对应的所述高斯分布的均值、更新后的第一全局参数和更新后的第三全局参数,确定该预设类别对应的高斯分布的方差;
本发明实施例提供的方法中,对于每个预设类别,可基于下述公式(8)和公式(9),分别计算该预设类别对应的高斯分布的均值和方差,其中,μ′j表示该预设类别对应的高斯分布的均值,Σ′j表示该预设类别对应的高斯分布的方差。公式(8):
Figure BDA0003007742370000221
公式(9):
Figure BDA0003007742370000222
将每个所述预设类别对应的所述高斯分布的均值和方差,作为每个所述预设类别对应的第二预估高斯分布特征。
本发明实施例提供的方法中,将当前计算得到的每个预设类别对应的均值和方差,作为每个预设类似类别对应的第二预估高斯分布特征,以作为当前工作节点进行高斯分布的特征估计的估计结果。在当前工作节点中完成特征估计后,这将此过程中得到的各个更新后的概率参数进行记录,替换原参数,也就是如令ωj=ω′j,同理记录所有更新后的数据。
需要说明的是,上述基于EM算法进行特征估计的各个实施例中,每个工作节点采用的是先利用E步原理,再利用M步原理进行特征估计的方式。在具体的实现过程中,也可先利用M步原理,再利用E步原理的方式进行特征估计,不影响本发明实施例提供的方法实现功能。其重点是采用各个中间参数在各个工作节点中传递及整合每个工作节点的待分类数据的特征。
进一步的,在图1所示方法的基础上,本发明实施例提供了又一种数据分类方法,其中,步骤S104中所提及的判断所述当前循环周期的输出结果是否符合预设的收敛条件的过程,包括:
确定第一特征集合和第二特征集合,所述第一特征集合中包括所述当前循环周期的输出结果中包含的每个所述预设类别对应的第三预估高斯分布特征,所述第二特征集合中包括所述当前循环周期中输入最后访问的工作节点的输入数据中包含的,每个所述预设类别对应的第四预估高斯分布特征;
确定所述第一特征集合对应的第一特征矩阵和所述第二特征集合对应的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵作差运算,并确定运算结果对应的范数数值;
判断所述范数数值是否小于预设阈值,若所述范数数值小于所述预设阈值,则确定所述当前循环周期的输出结果符合所述收敛条件。
本发明实施例提供的方法中,可预先设置一个较小的阈值,作为收敛性判断的临界值。通过当前循环周期中输入最后访问的工作节点的输入数据和该工作节点的输出数据,进行输出结果的收敛性判断。将该工作节点的特征估计结果与其接收到的上一个工作节点的特征估计结果作差运算,因特征估计结果中包含多个预设类别对应的多个特征参数,故通常以矩阵的方式表示,以特征估计结果中的各个特征参数作为矩阵中的元素,得到对应的特征矩阵。求取该差值对应的范数数值。当对应的范数数值小于预设阈值时,认为当前循环周期的输出结果符合收敛条件。需要说明的是,在具体的实现过程中可采取不同的方式求取范数,不影响本发明实施例的方法实现功能。
基于本发明实施例提供的方法,可基于一个工作节点的输入和输出进行收敛性的判断,数据获取较为便捷,且一次性结合了所有预设类别对应的特征数据进行判断,提升了数据处理的效率。
为了更好地说明本发明实施例提供的方法,结合图3所示流程图,基于图1所示方法的原理,本发明实施例提供了又一种数据分类方法,该方法应用于需对图像进行分类的分布式网络,该网络中有M个节点,分别记为1,2,……M。第m个节点中记录了Nm个独立同分布的数据,也就是待分类数据,各个待分类数据分别记为
Figure BDA0003007742370000231
本发明实施例中所述节点则为上述各个实施例中所称工作节点。各个待分类数据是维数相同的向量。所有待分类数据可分为J个类别。本发明实施例提供的方法,采用令牌传递的方式传递各个节点的输入输出数据,以遍历各个节点。其流程图如图3所示,包括:
S301:初始化各个节点;
本发明实施例提供的方法中,当接收到数据分类请求时,可触发该网络中的各个节点进行初始化,利用颜色直方图将待分类的图像数据转化为向量,向量的每一维度代表了该图片某种颜色像素数量占总像素数量的比例,将每个节点中每个待分类的图像数据所对应的向量作为该节点的待分类数据。
对于每个节点,对该节点中的每个预设类别对应的节点参数进行初始化,令
Figure BDA0003007742370000241
ωm,j,am,j,bm,j=0。将每个节点的本地设置进行初始化,如该节点的父节点、其当前未被访问的邻居节点、在当前循环周期中是否已被访问等信息进行初始化。
S302:选定一个节点作为根节点,并在该根节点初始化令牌,并进入基于令牌周期性遍历各个节点的首个循环周期;
本发明实施例提供的方法中,随机选择一个节点作为根节点root,并触发该根节点初始化令牌。令牌中的参数配置包括发送令牌的节点标识,发送令牌的节点所确定的每个预设类别对应的各个更新后的全局参数,发送令牌的节点的特征估计结果等等。
S303:根节点对令牌进行更新,并将更新后的令牌传给当前循环周期内任意一个未访问过的节点,触发在当前循环周期中首次接收到令牌的节点对其接收到的令牌进行更新,并将其更新后的令牌继续传递;
本发明实施例提供的方法中,根节点令其本地参数visitedroot=true,也就是记录其在当前循环周期已被访问。并将(root,visited)这一信息传递给其每个邻居节点,以触发其邻居节点将根节点root从当前循环周期内未访问的范畴中移除。
根节点随机确定每个预设类别对应的初始高斯分布特征,以每个预设类别对应的初始高斯分布特征,作为混合高斯模型中的参数,通过混合高斯模型进行特征估计,得到特征估计结果。然后,依据前文实施例中所提及的公式(1)~公式(7),更新根节点中每个预设类别对应的各个节点参数和各个预设类别对应的全局参数。根节点以其特征结果和更新后各个预设类别对应的各个全局参数,更新已初始化的令牌。在其各个邻居节点中选取一个未访问过的节点,将令牌发给该节点。
在该网络中,接收到令牌的节点m会执行如下操作:
判断当前节点在当前循环周期中是否被访问过,若当前节点已被访问过,则将令牌发送给其未经访问的邻居节点,若该节点不存在未经访问的邻居节点,且并非根节点,则将令牌发送给其父节点。
若当前节点未被访问过,则令当前节点的本地参数visitedm=true,并通知当前节点的邻居将其从未被访问的邻居范围中移除。如果当前节点并非根节点,则令其将发送该令牌的节点记录为父节点。
当前节点可依据接收到的令牌中,各个预设类别对应的全局参数,利用前文实施例中所提及的公式(8)和公式(9)的原理,计算当前节点的特征估计结果。需要说明的是,公式(8)和公式(9)中的各个全局参数,在前文提供的实施例中为该节点更新后的各个全局参数,而在本发明实施例中,使用的是输入数据中的全局参数,相当于前文实施例中的当前的全局参数。也就是本发明实施例的特征估计过程,先利用的是EM算法中的M步原理,再利用E步原理。
当获得当前节点的特征估计结果后,依据其特征估计结果和当前节点所记录的各个待分类数据,利用混合高斯模型,计算每个预设类别对应的期望概率。继而,依据前文实施例中所提及的公式(1)~公式(7)的原理,更新当前节点中每个预设类别对应的各个节点参数和各个预设类别对应的全局参数。
依据当前节点的特征估计结果和更新后的各个类别对应的全局参数更新令牌,判断当前节点的各个邻居节点中是否存在当前循环周期中未被访问的节点,若存在则将更新后的令牌发送未被访问的一个邻居节点,若当前节点不存在未经访问的邻居节点,则将令牌发送给其父节点。
S304:在当前循环周期中所有节点均已对其接收到的令牌进行一次更新后,目标节点更新后的令牌传递回根节点,根节点基于接收到的令牌进行特征估计,所述目标节点为当前循环周期中最后一个对其接收到的令牌进行更新的节点,结束当前循环周期的令牌传递;
本发明实施例提供的方法中,按照令牌传递的处理流程,当令牌传递回根节点,且根节点在当前循环周期中不存在未经访问的邻居节点时,表示当前循环周期中每个节点均已通过令牌访问,则结束当前的令牌传递,也就是结束当前循环周期的遍历过程。根节点此时在接收到令牌时,可根据接收到的令牌中的各个全局参数,按照公式(8)和公式(9)的原理进行特征估计。
S305:判断当前根节点的特征估计结果是否收敛;
在结束遍历过后,根节点可根据预设公式:||φ′-φ||<ε,判断其特征估计结果是否收敛。根节点接收到的令牌中的令牌参数包括目标节点的特征估计结果。上述公式中,φ表示目标节点的特征估计结果中各个预设类别对应的预估高斯分布特征的数据集合,φ′表示当前根节点接收到令牌时,进行特征估计的特征估计结果中各个预设类别对应的预估高斯分布特征的数据集合,ε表示预设阈值,含括该差值的数学符号表示求范数。若该公式的执行结果为错误,则结果未收敛,进入步骤S306。若该公式的执行结果为正确,则确定当前根节点的特征估计结果已收敛,则进入步骤S307。
S306:进入下一个循环周期;
本发明实施例提供的方法中,在结束当前循环周期时,各个节点已初始化本地的访问参数,也就是初始化了是否被访问和未经访问的邻居节点等等信息。在进入下个循环周期后,则返回执行步骤S303,根节点则会基于当前的特征估计结果更新各个节点参数和全局参数,并更新令牌,再次传递令牌。
S307:基于当前根节点的特征估计结果更新令牌,以遍历各个节点,触发每个节点基于所述目标节点更新后的令牌的参数进行数据分类。
本发明实施例提供的方法中,若是当前根节点的特征估计结果已收敛,根节点则基于该特征估计结果进行数据分类,并基于该特征估计结果配置令牌,并触发该令牌在各个节点之间传递,使每个接收到该令牌的节点,基于令牌中的特征估计结果进行数据分类。为了与上述特征估计过程中的令牌触发功能进行区分,可在令牌中配置一个finished参数,初始化为0,当估计结果已收敛时,根节点更新令牌的参数,将该参数配置为1,当每个节点接收到finished参数为1的令牌时,执行分类操作。而根节点接收到finished参数为1的令牌时,则结束数据分类过程。
与图1所示的数据分类方法相对应的,本发明实施例还提供了一种数据分类装置,用于对图1中所示方法的具体实现,所述装置应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述装置的结构示意图如图4所示,包括:
第一获取单元401,用于当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
第二获取单元402,用于基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发单元403,用于触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
其中,所述第二获取单元402,包括:
遍历子单元404,用于循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断子单元405,用于判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
应用本发明实施例提供的装置,在数据分类过程中,每个工作节点可自行基于其所记录的待分类数据参与预设类别对应的高斯分布的特征估计,最终得到各个目标高斯分布特征,每个工作节点亦可自行对其所记录的每个待分类数据进行分类,无需将每个工作节点的待分类数据传输给其他节点,可大幅减少通信资源的消耗,且降低数据泄露风险。另外,由各个工作节点负担自身的数据分类工作,可有效平衡负载,稳定性较高。
在图4所示装置的基础上,本发明实施例提供的装置中,所述触发单元403,包括:
第一确定子单元,用于确定每个所述预设类别对应的目标混合概率;
第一计算子单元,用于基于各个所述预设类别对应的所述目标混合概率及所述目标高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中的每个待分类数据对应的各个目标概率,每个所述待分类数据对应的各个目标概率与各个所述预设类别一一对应;
比较子单元,用于针对所述工作节点中的每个所述待分类数据,将其对应的各个所述目标概率进行比较,并将其中最大的目标概率所对应的预设类别,确定为该待分类数据对应的类别。
在图4所示装置的基础上,本发明实施例提供的装置中,所述遍历子单元404,包括:
第二确定子单元,用于基于当前输入该工作节点的输入数据,确定每个所述预设类别对应的第一预估高斯分布特征;
第三确定子单元,用于确定每个所述预设类别当前的预估混合概率;
第二计算子单元,用于基于各个所述预设类别当前的预估混合概率及所述第一预估高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中每个待分类数据对应的各个期望概率,每个所述待分类数据对应的各个期望概率与各个所述预设类别一一对应;
第四确定子单元,用于针对每个所述预设类别,依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数;
第五确定子单元,用于确定每个所述预设类别对应的各个当前的全局参数,并依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新;
第六确定子单元,用于依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征。
在上述装置的基础上,本发明实施例提供的装置中,所述第四确定子单元,包括:
第七确定子单元,用于将该预设类别作为目标预设类别,并在各个所述待分类数据对应的各个所述期望概率中,确定所述目标预设类别对应的各个期望概率;
第三计算子单元,用于将所述目标预设类别对应的各个所述期望概率进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第一节点参数;
第四计算子单元,用于针对所述目标预设类别对应的每个所述期望概率,计算该期望概率与其对应的待分类数据的乘积,并将所有所述期望概率与其对应的待分类数据的乘积进行求和运算,将运算结果作为所述目标预设类别对应的当前的第二节点参数;
第八确定子单元,用于确定每个所述待分类数据对应的转置;
第五计算子单元,用于确定所述目标预设类别对应的每个所述期望概率对应的目标乘积,每个所述期望概率对应的目标乘积为所述期望概率、所述期望概率对应的待分类数据及其对应的所述待分类数据的转置的乘积;
第六计算子单元,用于将所有所述期望概率对应的所述目标乘积进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第三节点参数;
第九确定子单元,用于将所述目标预设类别对应的所述当前的第一节点参数、当前的第二节点参数和所述当前的第三节点参数,作为所述目标预设类别对应的各个当前的节点参数。
在上述装置的基础上,本发明实施例提供的装置中,每个所述预设类别对应的各个所述当前的全局参数包括当前的第一全局参数、当前的第二全局参数和当前的第三全局参数,所述第五确定子单元,包括:
获取子单元,用于获取每个所述预设类别对应的各个预先记录的节点参数;
第七计算子单元,用于针对每个所述预设类别,将其对应的当前的第一节点参数与其对应的预先记录的第一节点参数作差运算,得到第一运算结果,并将所述第一运算结果与该预设类别对应的当前的第一全局参数作和运算,得到第二运算结果,以所述第二运算结果作为该预设类别对应的更新后的第一全局参数;
第八计算子单元,用于针对每个所述预设类别,将其对应的当前的第二节点参数与其对应的预先记录的第二节点参数作差运算,得到第三运算结果,并将所述第三运算结果与该预设类别对应的当前的第二全局参数作和运算,得到第四运算结果,以所述第四运算结果作为该预设类别对应的更新后的第二全局参数;
第九计算子单元,用于针对每个所述预设类别,将其对应的当前的第三节点参数与其对应的预先记录的第三节点参数作差运算,得到第五运算结果,并将所述第五运算结果与所述预设类别对应的当前的第三全局参数作和运算,得到第六运算结果,以所述第六运算结果作为该预设类别对应的更新后的第三全局参数。
在上述装置的基础上,本发明实施例提供的装置中,所述第六确定子单元,包括:
第十计算子单元,用于针对每个所述预设类别,计算其对应的更新后的第二全局参数与更新后的第一全局参数的比值,并将所述比值作为该预设类别对应的高斯分布的均值;
第十一计算子单元,用于针对每个所述预设类别,依据其对应的所述高斯分布的均值、更新后的第一全局参数和更新后的第三全局参数,确定该预设类别对应的高斯分布的方差;
第十确定子单元,用于将每个所述预设类别对应的所述高斯分布的均值和方差,作为每个所述预设类别对应的第二预估高斯分布特征。
在上述装置的基础上,本发明实施例提供的装置中,所述判断子单元405,包括:
第十一确定子单元,用于确定第一特征集合和第二特征集合,所述第一特征集合中包括所述当前循环周期的输出结果中包含的每个所述预设类别对应的第三预估高斯分布特征,所述第二特征集合中包括所述当前循环周期中输入最后访问的工作节点的输入数据中包含的,每个所述预设类别对应的第四预估高斯分布特征;
第十二确定子单元,用于确定所述第一特征集合对应的第一特征矩阵和所述第二特征集合对应的第二特征矩阵;
第十二计算子单元,用于将所述第一特征矩阵与所述第二特征矩阵作差运算,并确定运算结果对应的范数数值;
第十三确定子单元,用于判断所述范数数值是否小于预设阈值,若所述范数数值小于所述预设阈值,则确定所述当前循环周期的输出结果符合所述收敛条件。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的数据分类方法。
本发明实施例还提供了一种电子设备,其结构示意图如图5所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:
当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
所述基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征,包括:
循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据分类方法,其特征在于,所述方法应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述方法包括:
当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
所述基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征,包括:
循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
2.根据权利要求1所述的方法,其特征在于,所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类,包括:
确定每个所述预设类别对应的目标混合概率;
基于各个所述预设类别对应的所述目标混合概率及所述目标高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中的每个待分类数据对应的各个目标概率,每个所述待分类数据对应的各个目标概率与各个所述预设类别一一对应;
针对所述工作节点中的每个所述待分类数据,将其对应的各个所述目标概率进行比较,并将其中最大的目标概率所对应的预设类别,确定为该待分类数据对应的类别。
3.根据权利要求1所述的方法,其特征在于,所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,包括:
基于当前输入该工作节点的输入数据,确定每个所述预设类别对应的第一预估高斯分布特征;
确定每个所述预设类别当前的预估混合概率;
基于各个所述预设类别当前的预估混合概率及所述第一预估高斯分布特征,利用预设的混合高斯模型,计算所述工作节点中每个待分类数据对应的各个期望概率,每个所述待分类数据对应的各个期望概率与各个所述预设类别一一对应;
针对每个所述预设类别,依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数;
确定每个所述预设类别对应的各个当前的全局参数,并依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新;
依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征。
4.根据权利要求3所述的方法,其特征在于,所述依据所述工作节点中的各个待分类数据和每个所述待分类数据对应的各个所述期望概率,确定该预设类别对应的各个当前的节点参数,包括:
将该预设类别作为目标预设类别,并在各个所述待分类数据对应的各个所述期望概率中,确定所述目标预设类别对应的各个期望概率;
将所述目标预设类别对应的各个所述期望概率进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第一节点参数;
针对所述目标预设类别对应的每个所述期望概率,计算该期望概率与其对应的待分类数据的乘积,并将所有所述期望概率与其对应的待分类数据的乘积进行求和运算,将运算结果作为所述目标预设类别对应的当前的第二节点参数;
确定每个所述待分类数据对应的转置;
确定所述目标预设类别对应的每个所述期望概率对应的目标乘积,每个所述期望概率对应的目标乘积为所述期望概率、所述期望概率对应的待分类数据及其对应的所述待分类数据的转置的乘积;
将所有所述期望概率对应的所述目标乘积进行求和运算,并将运算结果作为所述目标预设类别对应的当前的第三节点参数;
将所述目标预设类别对应的所述当前的第一节点参数、当前的第二节点参数和所述当前的第三节点参数,作为所述目标预设类别对应的各个当前的节点参数。
5.根据权利要求4所述的方法,其特征在于,每个所述预设类别对应的各个所述当前的全局参数包括当前的第一全局参数、当前的第二全局参数和当前的第三全局参数,所述依据每个所述预设类别对应的各个所述当前的全局参数和各个所述当前的节点参数,对每个所述预设类别对应的各个所述当前的全局参数进行更新,包括:
获取每个所述预设类别对应的各个预先记录的节点参数;
针对每个所述预设类别,将其对应的当前的第一节点参数与其对应的预先记录的第一节点参数作差运算,得到第一运算结果,并将所述第一运算结果与该预设类别对应的当前的第一全局参数作和运算,得到第二运算结果,以所述第二运算结果作为该预设类别对应的更新后的第一全局参数;
针对每个所述预设类别,将其对应的当前的第二节点参数与其对应的预先记录的第二节点参数作差运算,得到第三运算结果,并将所述第三运算结果与该预设类别对应的当前的第二全局参数作和运算,得到第四运算结果,以所述第四运算结果作为该预设类别对应的更新后的第二全局参数;
针对每个所述预设类别,将其对应的当前的第三节点参数与其对应的预先记录的第三节点参数作差运算,得到第五运算结果,并将所述第五运算结果与所述预设类别对应的当前的第三全局参数作和运算,得到第六运算结果,以所述第六运算结果作为该预设类别对应的更新后的第三全局参数。
6.根据权利要求5所述的方法,其特征在于,所述依据每个所述预设类别对应的各个更新后的全局参数,确定每个所述预设类别对应的第二预估高斯分布特征,包括:
针对每个所述预设类别,计算其对应的更新后的第二全局参数与更新后的第一全局参数的比值,并将所述比值作为该预设类别对应的高斯分布的均值;
针对每个所述预设类别,依据其对应的所述高斯分布的均值、更新后的第一全局参数和更新后的第三全局参数,确定该预设类别对应的高斯分布的方差;
将每个所述预设类别对应的所述高斯分布的均值和方差,作为每个所述预设类别对应的第二预估高斯分布特征。
7.根据权利要求1所述的方法,其特征在于,所述判断所述当前循环周期的输出结果是否符合预设的收敛条件,包括:
确定第一特征集合和第二特征集合,所述第一特征集合中包括所述当前循环周期的输出结果中包含的每个所述预设类别对应的第三预估高斯分布特征,所述第二特征集合中包括所述当前循环周期中输入最后访问的工作节点的输入数据中包含的,每个所述预设类别对应的第四预估高斯分布特征;
确定所述第一特征集合对应的第一特征矩阵和所述第二特征集合对应的第二特征矩阵;
将所述第一特征矩阵与所述第二特征矩阵作差运算,并确定运算结果对应的范数数值;
判断所述范数数值是否小于预设阈值,若所述范数数值小于所述预设阈值,则确定所述当前循环周期的输出结果符合所述收敛条件。
8.一种数据分类装置,其特征在于,所述装置应用于分布式网络,所述分布式网络中包括多个工作节点,每个所述工作节点中记录有至少一个待分类数据,所述装置包括:
第一获取单元,用于当接收到数据分类请求时,获取每个预设类别对应的初始高斯分布特征;
第二获取单元,用于基于每个所述预设类别对应的初始高斯分布特征,以及所有所述工作节点中的所有待分类数据,获得每个所述预设类别对应的目标高斯分布特征;
触发单元,用于触发每个所述工作节点基于各个所述预设类别对应的目标高斯分布特征,利用预设的混合高斯分布的分类策略对该工作节点中的每个待分类数据进行分类;
其中,所述第二获取单元,包括:
遍历子单元,用于循环遍历各个所述工作节点,在当前循环周期中依次触发每个所述工作节点基于其所记录的各个待分类数据以及当前输入该工作节点的输入数据,进行高斯分布的特征估计,并将估计结果作为该工作节点的输出数据;每个所述工作节点的输出数据是其下一个工作节点的输入数据,所述当前循环周期中最后访问的工作节点的输出数据为该循环周期的输出结果;
判断子单元,用于判断所述当前循环周期的输出结果是否符合预设的收敛条件,若所述当前循环周期的输出结果不符合所述收敛条件,则进入下一个循环周期,若所述当前循环周期的输出结果符合所述收敛条件,则结束所述遍历过程,并将所述当前循环周期的输出结果中包含的每个所述预设类别对应的预估高斯分布特征,作为每个所述预设类别对应的目标高斯分布特征;
其中,每个所述预设类别对应的初始高斯分布特征为首个循环周期中首个访问的工作节点的输入数据,每个循环周期的输出结果为该循环周期的下一个循环周期中首个访问的工作节点的输入数据。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的数据分类方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的数据分类方法。
CN202110366455.5A 2021-04-06 2021-04-06 数据分类方法及装置、存储介质及电子设备 Active CN112860806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110366455.5A CN112860806B (zh) 2021-04-06 2021-04-06 数据分类方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110366455.5A CN112860806B (zh) 2021-04-06 2021-04-06 数据分类方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112860806A true CN112860806A (zh) 2021-05-28
CN112860806B CN112860806B (zh) 2022-09-02

Family

ID=75992257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110366455.5A Active CN112860806B (zh) 2021-04-06 2021-04-06 数据分类方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112860806B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104702378A (zh) * 2013-12-06 2015-06-10 华为技术有限公司 混合高斯分布的参数估计方法和装置
CN109299781A (zh) * 2018-11-21 2019-02-01 安徽工业大学 基于动量和剪枝的分布式深度学习系统
CN109460793A (zh) * 2018-11-15 2019-03-12 腾讯科技(深圳)有限公司 一种节点分类的方法、模型训练的方法及装置
US20190102155A1 (en) * 2017-09-29 2019-04-04 Oracle International Corporation Artificial intelligence driven configuration management
GB202010307D0 (en) * 2020-07-06 2020-08-19 Eaton Intelligent Power Ltd Method for efficient re-ranking and classification of ambiguous inputs in deep hierarchy

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104702378A (zh) * 2013-12-06 2015-06-10 华为技术有限公司 混合高斯分布的参数估计方法和装置
US20190102155A1 (en) * 2017-09-29 2019-04-04 Oracle International Corporation Artificial intelligence driven configuration management
CN109460793A (zh) * 2018-11-15 2019-03-12 腾讯科技(深圳)有限公司 一种节点分类的方法、模型训练的方法及装置
CN109299781A (zh) * 2018-11-21 2019-02-01 安徽工业大学 基于动量和剪枝的分布式深度学习系统
GB202010307D0 (en) * 2020-07-06 2020-08-19 Eaton Intelligent Power Ltd Method for efficient re-ranking and classification of ambiguous inputs in deep hierarchy

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ROSA ALTILIO ET AL.: "Distributed data clustering over networks", 《PATTERN RECOGNITION》 *
付维明 等: "基于扩散方法的分布式随机变分推断算法", 《自动化学报》 *
资和周: "优先聚类和高斯混合模型树相融合的递增聚类研究", 《现代电子技术》 *
陶建斌等: "基于高斯混合模型的遥感影像连续型朴素贝叶斯网络分类器", 《遥感信息》 *

Also Published As

Publication number Publication date
CN112860806B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
Zhang et al. Covering-based web service quality prediction via neighborhood-aware matrix factorization
CN109460793B (zh) 一种节点分类的方法、模型训练的方法及装置
Wang et al. Efficient learning by directed acyclic graph for resource constrained prediction
WO2019105163A1 (zh) 目标人物的搜索方法和装置、设备、程序产品和介质
Tekin et al. Adaptive ensemble learning with confidence bounds
Blostein et al. On modeling left-truncated loss data using mixtures of distributions
KR20200145827A (ko) 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체
CN108205570A (zh) 一种数据检测方法和装置
CN104391879B (zh) 层次聚类的方法及装置
CN112132208B (zh) 图像转换模型的生成方法、装置、电子设备及存储介质
CN115358487A (zh) 面向电力数据共享的联邦学习聚合优化系统及方法
WO2023207013A1 (zh) 一种基于图嵌入的关系图谱关键人员分析方法及系统
CN108737491B (zh) 信息推送方法和装置以及存储介质、电子装置
CN117061322A (zh) 物联网流量池管理方法及系统
CN112348079A (zh) 数据降维处理方法、装置、计算机设备及存储介质
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
CN111950611A (zh) 基于随机梯度追踪技术的大数据二分类分布式优化方法
CN108647739B (zh) 一种基于改进的密度峰值聚类的社交网络社区发现方法
Wang et al. Decentralized nonconvex optimization with guaranteed privacy and accuracy
Hassani et al. Consensus-based decision support model and fusion architecture for dynamic decision making
Thaker et al. Maximizing and satisficing in multi-armed bandits with graph information
CN112860806B (zh) 数据分类方法及装置、存储介质及电子设备
CN113515519A (zh) 图结构估计模型的训练方法、装置、设备及存储介质
Cao et al. A stochastic model for detecting overlapping and hierarchical community structure
CN111652329A (zh) 一种图像分类方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant