CN113988175A - 聚类处理方法和装置 - Google Patents

聚类处理方法和装置 Download PDF

Info

Publication number
CN113988175A
CN113988175A CN202111253253.6A CN202111253253A CN113988175A CN 113988175 A CN113988175 A CN 113988175A CN 202111253253 A CN202111253253 A CN 202111253253A CN 113988175 A CN113988175 A CN 113988175A
Authority
CN
China
Prior art keywords
nodes
training
clustering
model
network graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111253253.6A
Other languages
English (en)
Inventor
庞博
凌芳觉
纪忠光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111253253.6A priority Critical patent/CN113988175A/zh
Publication of CN113988175A publication Critical patent/CN113988175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Discrete Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供了一种聚类处理的方法和装置。根据该实施例的技术方案,首先获取利用被分析主体的相关数据构建的网络图,网络图包括节点和边,节点包括被分析主体,边指示节点之间的相关性;然后利用网络图中已标注类别标签的第一节点集合训练聚类模型;再从网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,n为1以上的正整数;获取对n个节点标注的类别标签后,将n个节点加入第一节点集合,转至执行利用网络图中已标注类别标签的第一节点集合训练聚类模型,直至满足预设的训练结束条件;最后利用训练得到的聚类模型对网络图中的待聚类节点进行聚类处理,待聚类节点为第二节点集合中的部分或全部节点。

Description

聚类处理方法和装置
技术领域
本说明书一个或多个实施例涉及人工智能技术领域,尤其涉及一种聚类处理方法和装置。
背景技术
在多种应用场景下,常常会使用聚类方法将分析对象进行聚类,然后进一步对聚类结果进行分析。例如,对消费数据进行聚类,分析各消费群体的消费模式或习惯,从而有针对性地为其提供服务。再例如,对用户网络行为进行分析并进行聚类,从而进行风险识别。然而,在很多应用场景下受限于已标注类别的样本数量少,而使得聚类效果差。
发明内容
本说明书一个或多个实施例描述了一种聚类处理方法和装置,以便于提高聚类效果。
根据第一方面,提供了一种聚类处理的方法,包括:
获取利用被分析主体的相关数据构建的网络图,所述网络图包括节点和边,所述节点包括被分析主体,所述边指示节点之间的相关性;
利用所述网络图中已标注类别标签的第一节点集合训练聚类模型;
从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,所述n为1以上的正整数;
获取对所述n个节点标注的类别标签后,将所述n个节点加入所述第一节点集合,转至执行所述利用所述网络图中已标注类别标签的第一节点集合训练聚类模型,直至满足预设的训练结束条件;
利用训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理,所述待聚类节点为第二节点集合中的部分或全部节点。
在一个实施例中,利用所述网络图中已标注类别标签的第一节点集合训练聚类模型包括:
在每一轮迭代中,利用聚类模型获取所述第一节点集合中节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;
利用所述第一节点集合中节点的概率密度向量计算损失函数;
利用所述损失函数更新所述聚类模型的模型参数,直至满足预设的训练停止条件。
在另一个实施例中,从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点包括:
利用所述聚类模型当前所采用的概率函数,确定所述第二节点集合中各节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;
利用所述第二节点集合中各节点的概率密度向量分别计算所述第二节点集合中各节点对应的损失函数;
选择对应损失函数满足预设要求的n个节点。
在一个实施例中,所述训练停止条件包括:损失函数的值小于或等于预设阈值,或者,本次训练的迭代次数达到预设的第一次数阈值;
所述训练结束条件包括:所述聚类模型的效果收敛,或者,训练的总迭代次数达到预设的第二次数阈值;
所述第一次数阈值小于所述第二次数阈值。
在另一个实施例中,获取对所述n个节点标注的类别标签包括:
将所述n个节点的信息提供给标注人员,获取标注人员对所述n个节点标注的类别标签;或者,
利用预设的标注策略,对所述n个节点标注类别标签。
在一个实施例中,所述利用训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理包括:
利用训练得到的聚类模型确定所述待聚类节点的概率密度向量,所述概率密度向量包括待聚类节点属于各类别的概率;
按照所述概率密度向量中概率最大的类别对所述待聚类节点标注类别标签。
在另一个实施例中,所述被分析主体包括消费者的消费数据,所述类别标签包括消费群体类别;或者,
所述被分析主体包括用户的网络行为数据,所述类别标签包括风险类别。
根据第二方面,提供了一种聚类处理的装置,包括:
图获取单元,被配置为获取利用被分析主体的相关数据构建的网络图,所述网络图包括节点和边,所述节点包括被分析主体,所述边指示节点之间的相关性;
模型训练单元,被配置为利用所述网络图中已标注类别标签的第一节点集合训练聚类模型;
训练判断单元,被配置为所述模型训练单元训练得到聚类模型后,判断是否满足预设的训练结束条件;
节点选择单元,被配置为在所述训练判断单元的判断结果为否时,从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,所述n为1以上的正整数;
标签获取单元,被配置为获取对所述n个节点标注的类别标签后,将所述n个节点加入所述第一节点集合,并触发所述模型训练单元训练聚类模型;
聚类处理单元,被配置为在所述训练判断单元的判断结果为是时,利用所述模型训练单元训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理,所述待聚类节点为第二节点集合中的部分或全部节点。
在一个实施例中,所述模型训练单元,具体被配置为在每一轮迭代中,利用聚类模型获取所述第一节点集合中节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;利用所述第一节点集合中节点的概率密度向量计算损失函数;利用所述损失函数更新所述聚类模型的模型参数,直至满足预设的训练停止条件。
在一个实施例中,所述节点选择单元,具体被配置为利用所述聚类模型当前所采用的概率函数,确定所述第二节点集合中各节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;利用所述第二节点集合中各节点的概率密度向量分别计算所述第二节点集合中各节点对应的损失函数;选择对应损失函数值满足预设要求的n个节点。
在一个实施例中,所述训练停止条件包括:损失函数的值小于或等于预设阈值,或者,本次训练的迭代次数达到预设的第一次数阈值;
所述训练结束条件包括:所述聚类模型的效果收敛,或者,训练的总迭代次数达到预设的第二次数阈值;
所述第一次数阈值小于所述第二次数阈值。
在一个实施例中,所述标签获取单元,具体被配置为将所述n个节点的信息提供给标注人员,获取标注人员对所述n个节点标注的类别标签;或者,利用预设的标注策略,对所述n个节点标注类别标签。
在一个实施例中,所述聚类处理单元,具体被配置为利用训练得到的聚类模型确定所述待聚类节点的概率密度向量,所述概率密度向量包括待聚类节点属于各类别的概率;按照所述概率密度向量中概率最大的类别对所述待聚类节点标注类别标签。
在一个实施例中,所述被分析主体包括消费者的消费数据,所述类别标签包括消费群体类别;或者,
所述被分析主体包括用户的网络行为数据,所述类别标签包括风险类别。
根据第三方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
由以上技术方案可以看出,本说明书实施例提供的方法和装置,通过主动学习的方式从未标注类别标签的节点中挑选“最有价值”的节点,获取对该节点标注的类别标签,来帮助聚类模型的训练,从而提高模型的聚类效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据一个实施例的聚类处理方法的流程图;
图2示出了根据一个实施例的聚类处理装置的结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
由于图模型具有强大的表达能力,能够在很多应用场景下体现数据和数据之间的关系,因此非常适用于社交网络、信息网络、web搜索、协作网络、电子商务网络等等场景下的聚类处理。目前比较常用的是基于图的半监督聚类算法,即利用有标签和无标签数据构建网络图,且基于图上的邻接关系将标签从有标签的节点向无标签的节点传播。然而,在很多应用场景下,有标签的样本数量很少,即有效信息很少,容易造成算法无法收敛或陷入局部最小值,从而造成聚类效果很差。
本说明书的构思在于将主动学习引入图聚类算法,从而得到更多具有标签的节点,提升聚类模型的聚类效果。下面描述以上构思的具体实现方式。
图1示出根据一个实施例的聚类处理方法的流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、服务器等来执行。其中,服务器可以是单个的服务器,也可以是由多个服务器组成的服务器集群,服务器可以是云服务器。如图1所示,该方法包括:
步骤101,获取利用被分析主体的相关数据构建的网络图,网络图包括节点和边,节点包括被分析主体,边指示节点之间的相关性。
步骤103,利用网络图中已标注类别标签的第一节点集合训练聚类模型。
步骤105,判断是否满足预设的训练结束条件,如果是,执行步骤111;否则执行步骤107。
步骤107,从网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,n为1以上的正整数。
步骤109:获取对上述n个节点标注的类别标签后,将上述n个节点加入所述第一节点集合,转至执行步骤103。
步骤111:利用训练得到的聚类模型对网络图中的待聚类节点进行聚类处理,待聚类节点为第二节点集合中的部分或全部节点。
在图1所示的方法中,通过主动学习的方式从未标注类别标签的节点中挑选“最有价值”的节点,获取对该节点标注的类别标签,来帮助聚类模型的训练,从而提高模型的聚类效果。
下面描述图1所示的各个步骤的执行方式。首先结合实施例对上述步骤101即“获取利用被分析主体的相关数据构建的网络图”进行详细描述。
本步骤是根据实际的应用场景确定被分析主体,然后利用被分析主体的相关数据构建网络图。例如,在针对用户的风险识别场景下,被分析主体就是用户,可以利用用户的相关数据构建网络图。再例如,在针对商品进行聚类的场景下,被分析主体就是商品,可以利用商品的相关数据构建网络图。
在本说明书中构建的网络图可以是同构网络图,即网络中的节点均为同一种类型。例如,节点均为用户,节点之间的边指示用户之间的相关性。例如,若节点之间存在边,则可以说明对应用户之间存在关联,边的权重用以指示用户之间的相关程度,权重越高说明相关程度越大。该相关程度可以通过用户之间的交易行为、通讯录关系等进行体现。
除此之外,本说明书中构建的网络图也可以是异构网络图,即网络中的节点的类型大于一种或者边的类型大于一种。例如,节点包括用户、用户设备、网络(例如wifi标识)。若用户使用过某用户设备,则两个对应节点之间存在边,边的权重可以依据使用次数或频率确定。若用户使用过某wifi,则两个对应节点之间存在边,边的权重可以依据使用次数或频率确定。若用户与用户之间存在关联,则两个对应节点之间存在边,边的权重可以依据用户之间的交易行为、通讯录关系等进行体现。
对于一个网络图G而言,可以表示为:G=G(V,E,W)。其中,V表示节点集合,包括已标注类别标签的第一节点集合V1和未标注类别标签的第二节点集合V2,E表示节点之间的边集合,W表示边的权重集合。
下面结合实施例对上述步骤103即“利用网络图中已标注类别标签的第一节点集合训练聚类模型”进行详细描述。
本步骤中是利用监督学习的方式进行聚类模型的训练。在本说明书中对采用的聚类模型并不加以限制,只要是能够应用于图聚类的模型都适用。例如,聚类模型可以包括近邻传播(AP,Affinity Propagation)聚类模型、谱聚类等等。为了方便描述,将聚类模型的处理表达为概率密度函数f。聚类模型针对节点vi输出概率密度向量f(vi)。假设存在m个类别,那么f(vi)就是一个m维的向量,向量中每个值在[0,1]之间,且向量中各元素求和为1。每个值表示节点属于第j个类别的概率,表示为fj(vi),j为m个类别中的任一个。
关于利用监督学习的方式训练聚类模型的方式在此不做详述,训练目标是使得聚类模型针对各节点输出的概率最大的类别与标注的类别一致。可以利用训练目标设计损失函数,在每一轮迭代中利用损失函数更新聚类模型的模型参数,直至满足预设的训练停止条件。其中训练停止条件可以是诸如损失函数的值小于或等于预设阈值,或者,本次训练的迭代次数得到预设的第一次数阈值,等等。
作为其中一种可实现的方式,可以设计损失函数r(f)如下:
Figure BDA0003323078920000071
其中,n1为第一节点集合中的节点数量。δ()为示性函数,如果argmaxkfk(vi)≠j,则δ(argmaxkfk(vi)≠j)的值为1,否则δ(argmaxkfk(vi)≠j)的值为0。
下面结合实施例对上述步骤105即“判断是否满足预设的训练结束条件”进行详细描述。
这里的训练结束条件并不同于每一次利用第一节点集合训练聚类模型所采用的训练停止条件。训练结束条件被满足时会结束聚类模型的训练,而得到最终的聚类模型。
上面已经提及了训练停止条件可以是诸如损失函数的值小于或等于预设阈值,或者,本次训练的迭代次数得到预设的第一次数阈值,等等。
本步骤中涉及的训练结束条件可以是诸如聚类模型的效果收敛,或者,训练的总迭代次数达到预设的第二次数阈值,等等。其中,上述的第一次数阈值小于第二次数阈值。
举个例子,对于每一次利用第一节点集合训练聚类模型时,在损失函数的值小于预设阈值时即可停止聚类模型的训练。但经过一次或多次执行后续步骤107和109后,聚类模型的效果逐渐收敛,不再提升。例如,准确度达到94%后就不再提升,则可以结束聚类模型的训练,得到最终的聚类模型。
另外,对于已标注类别标签的节点数量较少的情况下,在第一次利用第一节点集合训练聚类模型之后,即首次执行步骤103之后,是不会满足训练停止条件的,通常会执行一次或一次以上的步骤107、109、103所构成的循环,从而达到模型的不断优化。但也不排除在一些情况下,在第一次利用第一节点集合训练聚类模型之后就满足训练结束条件,直接得到最终的聚类模型。
下面结合实施例对上述步骤107即“从网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点”进行详细描述。
主动学习最重要的部分在于,挑选出对于模型训练而言“最有价值”的节点来进一步获取标注的类别标签。其中挑选的方式可以包括:利用聚类模型当前所采用的概率函数f,确定第二节点集合中各节点的概率密度向量;利用第二节点集合中各节点的概率密度向量分别计算第二节点集合中各节点对应的损失函数;选择对应损失函数满足预设要求的n个节点。
其中,n可以是1以上的正整数,但其取值可以采用试验值或经验值,也可以根据图网络中的节点总数量以及标注人员的人力状况来设定。
对于第二节点集合中的每一个节点vl均能够利用聚类模型当前采用的概率函数f输出概率密度向量f(vl)。节点vl对应的损失函数可以理解为假设节点vl也作为已标注类别标签的节点参与聚类模型的训练时损失函数的值。例如可以采用如下公式计算vl对应的损失函数
Figure BDA0003323078920000091
Figure BDA0003323078920000092
也就是说,针对第二节点集合中的每一个节点均采用上述公式(2)计算对应的损失函数,然后取损失函数满足预设要求的n个节点。例如取损失函数最小的n个节点。可以理解为按照损失函数的取值从小到大进行排序,取排在前n个的节点。也可以取诸如损失函数小于或等于预设值的n个节点等满足其他预设要求的n个节点。
下面结合实施例对上述步骤109即“获取对上述n个节点标注的类别标签后,将上述n个节点加入所述第一节点集合”进行详细描述。
本步骤中可以将上述n个节点的信息提供给标注人员,由标注人员对上述n个节点进行打标即标注类别标签,然后获取标注人员的标注结果。
也可以根据专家经验预先设置一些标注策略,在确定出上述n个节点后,自动根据标注策略对该n个节点标注类别标签。
在完成上述n个节点的标注后,将该n个节点加入第一节点集合。也就是说,该n个节点及其标签就可以作为新的训练数据。在转至执行上述步骤103时,可以利用该新的训练数据在已训练得到的聚类模型的基础上进行微调,即更新聚类模型。也可以利用所有第一节点集合中的节点重新训练聚类模型。不管采用哪种方式,聚类模型训练后得到更新后的概率密度函数f。如果本次训练后得到的聚类模型满足训练结束条件,则得到最终的聚类模型。如果本次训练后得到的聚类模型仍不满足训练结束条件,则继续执行上述107、105和103所构成的循环,即继续寻找“最有价值”的n个节点进行打标后加入第一节点集合再次训练聚类模型。
也就是说,通过主动学习的方式挑选出“最有价值”的节点来进行打标,能够加速图聚类算法的收敛。可以看做是,从网络图中未标记类别标签的节点中找到对图聚类算法收敛最有帮助的节点进行打标。
下面结合实施例对上述步骤111即“利用训练得到的聚类模型对网络图中的待聚类节点进行聚类处理”进行详细描述。
由于图聚类的机制是利用网络图中已标注类别标签的节点进行学习后,对未标注类别标签的节点进行聚类。因此,在训练得到最终的聚类模型后,对网络图中待聚类节点进行聚类处理,其中待聚类节点可以是网络图中未标注类别标签的节点即第二节点集合中的部分或全部。
具体地,可以利用聚类模型确定待聚类节点的概率密度向量,由于概率密度向量包含的是待聚类节点属于各类别的概率,即m维向量中的每一维分别表示该待聚类节点属于m个类别的概率,因此可以按照概率密度向量中概率最大的类别对待聚类节点标注类别标签。
本说明书上述实施例所提供的方式可以应用于多种应用场景,在此仅列举其中两种:
应用场景1:
上述被分析主体为消费者的消费数据,即利用消费者的消费数据构建网络图。采用本说明书上述实施例所提供的方式对网络图中的各节点进行聚类,最终得到对消费者的聚类结果。那么同一分组对应一种消费群体类别,对同一消费群体类别的消费数据进行分析,能够得到各消费群体的消费模式或消费习惯等,从而可以更个性化地为其提供服务。
应用场景2:
上述被分析主体为用户的网络行为数据,即利用用户的网络行为数据构建网络图。采用本说明书上述实施例所提供的方式对网络图中的各节点进行聚类,最终得到对用户的聚类结果。如果标注标签的用户标注的是风险类别标签,那么未标注标签的用户通过上述聚类就可以也得到风险类别标签,以此完成用户的风险识别。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
根据另一方面的实施例,提供了一种聚类处理装置。图2示出根据一个实施例的聚类处理装置的示意性框图。可以理解,该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图2所示,该装置200包括:图获取单元201、模型训练单元202、训练判断单元203、节点选择单元204、标签获取单元205和聚类处理单元206。其中各组成单元的主要功能如下:
图获取单元201,被配置为获取利用被分析主体的相关数据构建的网络图,网络图包括节点和边,节点包括被分析主体,边指示节点之间的相关性。
模型训练单元202,被配置为利用网络图中已标注类别标签的第一节点集合训练聚类模型。
训练判断单元203,被配置为模型训练单元202训练得到聚类模型后,判断是否满足预设的训练结束条件。
节点选择单元204,被配置为在训练判断单元203的判断结果为否时,从网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,n为1以上的正整数。
标签获取单元205,被配置为获取对n个节点标注的类别标签后,将n个节点加入第一节点集合,并触发模型训练单元202训练聚类模型。
聚类处理单元206,被配置为在训练判断单元203的判断结果为是时,利用模型训练单元202训练得到的聚类模型对网络图中的待聚类节点进行聚类处理,待聚类节点为第二节点集合中的部分或全部节点。
模型训练单元202,可以利用监督学习的方式进行聚类模型的训练。。在本说明书中对采用的聚类模型并不加以限制,只要是能够应用于图聚类的模型都适用。例如,聚类模型可以包括近邻传播(AP,Affinity Propagation)聚类模型、谱聚类等等。训练目标是使得聚类模型针对各节点输出的概率最大的类别与标注的类别一致。可以利用训练目标设计损失函数,在每一轮迭代中利用损失函数更新聚类模型的模型参数,直至满足预设的训练停止条件。
作为其中一种可实现的方式,模型训练单元202,可以具体被配置为在每一轮迭代中,利用聚类模型获取第一节点集合中节点的概率密度向量,概率密度向量包括节点属于各类别的概率;利用第一节点集合中节点的概率密度向量计算损失函数;利用损失函数更新聚类模型的模型参数,直至满足预设的训练停止条件。
作为其中一种优选实施方式,可以设计损失函数如方法实施例中公式(1)中所示,在此不做赘述。
其中,上述的训练停止条件可以包括诸如:损失函数的值小于或等于预设阈值,或者,本次训练的迭代次数达到预设的第一次数阈值。
上述的训练结束条件可以包括诸如:聚类模型的效果收敛,或者,训练的总迭代次数达到预设的第二次数阈值。其中,上述的第一次数阈值小于第二次数阈值。
作为其中一种可实现的方式,节点选择单元204,可以具体被配置为利用聚类模型当前所采用的概率函数,确定第二节点集合中各节点的概率密度向量,概率密度向量包括节点属于各类别的概率;利用第二节点集合中各节点的概率密度向量分别计算第二节点集合中各节点对应的损失函数;选择对应损失函数值满足预设要求的n个节点。
其中,上述预设要求可以包括但不限于:按照损失函数从小到大的顺序排在前n个,或者,损失函数小于或等于预设值。
作为其中一种可实现的方式,标签获取单元205,可以具体被配置为将n个节点的信息提供给标注人员,获取标注人员对n个节点标注的类别标签;或者,利用预设的标注策略,对n个节点标注类别标签。
作为其中一种可实现的方式,聚类处理单元206,可以具体被配置为利用训练得到的聚类模型确定待聚类节点的概率密度向量,概率密度向量包括待聚类节点属于各类别的概率;按照概率密度向量中概率最大的类别对待聚类节点标注类别标签。
作为其中一种应用场景,上述被分析主体可以包括消费者的消费数据,类别标签包括消费群体类别。
作为另外一种以应用场景,上述被分析主体可以包括用户的网络行为数据,类别标签包括风险类别。
除了上述两种应用场景之外,本说明书上述装置实施例还可以应用于其他应用场景,在此不做穷举。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图1所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图1所述的方法。
随着时间、技术的发展,计算机可读存储介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本说明书中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
上述的处理器可包括一个或多个单核处理器或多核处理器。处理器可包括任何一般用途处理器或专用处理器(如图像处理器、应用处理器基带处理器等)的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
另外需要说明的是,在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于……”。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.聚类处理的方法,包括:
获取利用被分析主体的相关数据构建的网络图,所述网络图包括节点和边,所述节点包括被分析主体,所述边指示节点之间的相关性;
利用所述网络图中已标注类别标签的第一节点集合训练聚类模型;
从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,所述n为1以上的正整数;
获取对所述n个节点标注的类别标签后,将所述n个节点加入所述第一节点集合,转至执行所述利用所述网络图中已标注类别标签的第一节点集合训练聚类模型,直至满足预设的训练结束条件;
利用训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理,所述待聚类节点为第二节点集合中的部分或全部节点。
2.根据权利要求1所述的方法,其中,利用所述网络图中已标注类别标签的第一节点集合训练聚类模型包括:
在每一轮迭代中,利用聚类模型获取所述第一节点集合中节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;
利用所述第一节点集合中节点的概率密度向量计算损失函数;
利用所述损失函数更新所述聚类模型的模型参数,直至满足预设的训练停止条件。
3.根据权利要求1所述的方法,其中,从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点包括:
利用所述聚类模型当前所采用的概率函数,确定所述第二节点集合中各节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;
利用所述第二节点集合中各节点的概率密度向量分别计算所述第二节点集合中各节点对应的损失函数;
选择对应损失函数满足预设要求的n个节点。
4.根据权利要求2所述的方法,其中,所述训练停止条件包括:损失函数的值小于或等于预设阈值,或者,本次训练的迭代次数达到预设的第一次数阈值;
所述训练结束条件包括:所述聚类模型的效果收敛,或者,训练的总迭代次数达到预设的第二次数阈值;
所述第一次数阈值小于所述第二次数阈值。
5.根据权利要求1所述的方法,其中,获取对所述n个节点标注的类别标签包括:
将所述n个节点的信息提供给标注人员,获取标注人员对所述n个节点标注的类别标签;或者,
利用预设的标注策略,对所述n个节点标注类别标签。
6.根据权利要求1所述的方法,其中,所述利用训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理包括:
利用训练得到的聚类模型确定所述待聚类节点的概率密度向量,所述概率密度向量包括待聚类节点属于各类别的概率;
按照所述概率密度向量中概率最大的类别对所述待聚类节点标注类别标签。
7.根据权利要求1至6中任一项所述的方法,其中,所述被分析主体包括消费者的消费数据,所述类别标签包括消费群体类别;或者,
所述被分析主体包括用户的网络行为数据,所述类别标签包括风险类别。
8.聚类处理的装置,包括:
图获取单元,被配置为获取利用被分析主体的相关数据构建的网络图,所述网络图包括节点和边,所述节点包括被分析主体,所述边指示节点之间的相关性;
模型训练单元,被配置为利用所述网络图中已标注类别标签的第一节点集合训练聚类模型;
训练判断单元,被配置为所述模型训练单元训练得到聚类模型后,判断是否满足预设的训练结束条件;
节点选择单元,被配置为在所述训练判断单元的判断结果为否时,从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点,所述n为1以上的正整数;
标签获取单元,被配置为获取对所述n个节点标注的类别标签后,将所述n个节点加入所述第一节点集合,并触发所述模型训练单元训练聚类模型;
聚类处理单元,被配置为在所述训练判断单元的判断结果为是时,利用所述模型训练单元训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理,所述待聚类节点为第二节点集合中的部分或全部节点。
9.根据权利要求8所述的装置,其中,所述模型训练单元,具体被配置为在每一轮迭代中,利用聚类模型获取所述第一节点集合中节点的概率密度向量,所述概率密度向量包括节点属于各类别的概率;利用所述第一节点集合中节点的概率密度向量计算损失函数;利用所述损失函数更新所述聚类模型的模型参数,直至满足预设的训练停止条件。
10.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202111253253.6A 2021-10-27 2021-10-27 聚类处理方法和装置 Pending CN113988175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111253253.6A CN113988175A (zh) 2021-10-27 2021-10-27 聚类处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111253253.6A CN113988175A (zh) 2021-10-27 2021-10-27 聚类处理方法和装置

Publications (1)

Publication Number Publication Date
CN113988175A true CN113988175A (zh) 2022-01-28

Family

ID=79742252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111253253.6A Pending CN113988175A (zh) 2021-10-27 2021-10-27 聚类处理方法和装置

Country Status (1)

Country Link
CN (1) CN113988175A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615262A (zh) * 2022-01-30 2022-06-10 阿里巴巴(中国)有限公司 网络聚合方法、存储介质、处理器以及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091274A1 (en) * 2015-09-30 2017-03-30 Linkedin Corporation Organizational data enrichment
CN108418825A (zh) * 2018-03-16 2018-08-17 阿里巴巴集团控股有限公司 风险模型训练、垃圾账号检测方法、装置以及设备
CN109102393A (zh) * 2018-08-15 2018-12-28 阿里巴巴集团控股有限公司 训练和使用关系网络嵌入模型的方法及装置
CN110363282A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和系统
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN111681059A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN111966823A (zh) * 2020-07-02 2020-11-20 华南理工大学 一种面向标签噪声的图节点分类方法
CN112241761A (zh) * 2020-10-15 2021-01-19 北京字跳网络技术有限公司 模型训练方法、装置和电子设备
CN113221950A (zh) * 2021-04-13 2021-08-06 天津大学 基于自监督图神经网络的图聚类方法、装置及存储介质
US20210248181A1 (en) * 2020-02-11 2021-08-12 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US20210279636A1 (en) * 2020-03-06 2021-09-09 International Business Machines Corporation Efficient ground truth annotation
CN113378913A (zh) * 2021-06-08 2021-09-10 电子科技大学 一种基于自监督学习的半监督节点分类方法
US20210319280A1 (en) * 2020-04-07 2021-10-14 NEC Laboratories Europe GmbH Interpretable node embedding

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091274A1 (en) * 2015-09-30 2017-03-30 Linkedin Corporation Organizational data enrichment
CN108418825A (zh) * 2018-03-16 2018-08-17 阿里巴巴集团控股有限公司 风险模型训练、垃圾账号检测方法、装置以及设备
CN109102393A (zh) * 2018-08-15 2018-12-28 阿里巴巴集团控股有限公司 训练和使用关系网络嵌入模型的方法及装置
US20200160177A1 (en) * 2018-11-16 2020-05-21 Royal Bank Of Canada System and method for a convolutional neural network for multi-label classification with partial annotations
CN110363282A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和系统
US20210248181A1 (en) * 2020-02-11 2021-08-12 Samsung Electronics Co., Ltd. Electronic device and control method thereof
US20210279636A1 (en) * 2020-03-06 2021-09-09 International Business Machines Corporation Efficient ground truth annotation
US20210319280A1 (en) * 2020-04-07 2021-10-14 NEC Laboratories Europe GmbH Interpretable node embedding
CN111966823A (zh) * 2020-07-02 2020-11-20 华南理工大学 一种面向标签噪声的图节点分类方法
CN111681059A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN112241761A (zh) * 2020-10-15 2021-01-19 北京字跳网络技术有限公司 模型训练方法、装置和电子设备
CN113221950A (zh) * 2021-04-13 2021-08-06 天津大学 基于自监督图神经网络的图聚类方法、装置及存储介质
CN113378913A (zh) * 2021-06-08 2021-09-10 电子科技大学 一种基于自监督学习的半监督节点分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王娜;王小凤;耿国华;宋倩楠;: "基于C均值聚类和图转导的半监督分类算法", 计算机应用, no. 09, 10 September 2017 (2017-09-10) *
王慧敏: "基于边信息提取的网络表示学习研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 01, 15 January 2021 (2021-01-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114615262A (zh) * 2022-01-30 2022-06-10 阿里巴巴(中国)有限公司 网络聚合方法、存储介质、处理器以及系统
CN114615262B (zh) * 2022-01-30 2024-05-14 阿里巴巴(中国)有限公司 网络聚合方法、存储介质、处理器以及系统

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN108563710B (zh) 一种知识图谱构建方法、装置及存储介质
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
JP7345530B2 (ja) SuperLoss:堅牢なカリキュラム学習のための一般的な損失
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN111522915A (zh) 中文事件的抽取方法、装置、设备及存储介质
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN113297351A (zh) 文本数据标注方法及装置、电子设备及存储介质
CN115203393A (zh) 一种对话应答方法及其系统、电子设备、存储介质
CN113806582A (zh) 图像检索方法、装置、电子设备和存储介质
CN113255354A (zh) 搜索意图识别方法、装置、服务器及存储介质
CN115062709A (zh) 模型优化方法、装置、设备、存储介质及程序产品
CN113988175A (zh) 聚类处理方法和装置
CN114328942A (zh) 关系抽取方法、装置、设备、存储介质和计算机程序产品
CN108664607A (zh) 一种基于迁移学习的电力通信网数据质量提升方法
CN116630714A (zh) 多标签识别的类别自适应标签发现与噪声拒绝方法及设备
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
US20230169358A1 (en) Continuous knowledge graph for links and weight predictions
US11887620B2 (en) Language model score calculation apparatus, language model generation apparatus, methods therefor, program, and recording medium
CN112069800A (zh) 基于依存句法的句子时态识别方法、设备和可读存储介质
CN113837252A (zh) 聚类处理方法和装置
Dheenadayalan et al. Pruning a random forest by learning a learning algorithm
Mao et al. Predicting QoS for cloud services through prefilling-based matrix factorization
CN115658926B (zh) 知识图谱的要素推测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination