CN117171347A - 模型的确定方法、装置、设备及计算机存储介质 - Google Patents

模型的确定方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN117171347A
CN117171347A CN202311214102.9A CN202311214102A CN117171347A CN 117171347 A CN117171347 A CN 117171347A CN 202311214102 A CN202311214102 A CN 202311214102A CN 117171347 A CN117171347 A CN 117171347A
Authority
CN
China
Prior art keywords
model
cluster
clustering
sample
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311214102.9A
Other languages
English (en)
Inventor
林利盈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202311214102.9A priority Critical patent/CN117171347A/zh
Publication of CN117171347A publication Critical patent/CN117171347A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种模型的确定方法、装置、设备及计算机存储介质。该方法包括:获取第一样本集和预设聚类模型,第一样本集包括第二预设数量和预设维度的向量化数据;利用预设聚类模型对第一样本集进行聚类,得到聚类结果,计算预设聚类模型的第一目标函数值;将第一目标函数值最小的第一聚类模型增加到聚类模型集合,从预设聚类模型中选取第二聚类模型,将第二聚类模型增加到聚类模型集合;从预设聚类模型中选取第三聚类模型,将第三聚类模型增加到聚类模型集合,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型。提高了聚类的效率和聚类结果的准确性,适用于大部分业务场景,具备通用性。

Description

模型的确定方法、装置、设备及计算机存储介质
技术领域
本申请涉及大数据技术领域,尤其涉及一种模型的确定方法、装置、设备及计算机存储介质。
背景技术
在对业务产品进行优化时,对用户体验反馈信息进行聚类分析是十分必要的。
现有技术中,通常在收集用户体验反馈信息之后,通过人工筛选进行用户体验反馈信息聚类,或者是设计者根据以往经验设定固定的预判结果,并根据设定的预判结果对用户体验反馈信息进行聚类。但是,基于人工筛选或设定固定预判结果的聚类方式或聚类模型较为单一,进而导致聚类的效率较低,得到的聚类结果也并不准确,而且适用的业务场景存在局限性。
发明内容
本申请实施例提供一种模型的确定方法、装置、设备及计算机存储介质,通过聚类模型的目标函数值,选择不同的聚类模型组成最终的目标聚类模型,避免聚类模型单一,不仅提高了聚类的效率,提高了聚类结果的准确性,而且摆脱了业务场景的限制,适用于大部分业务场景,具备通用性。
第一方面,本申请实施例提供一种模型的确定方法,包括:
获取第一预设数量的第一样本集和预设聚类模型,第一样本集包括第二预设数量和预设维度的向量化数据;
利用预设聚类模型对第一样本集进行聚类,得到聚类结果,并计算预设聚类模型的第一目标函数值,第一目标函数值表征聚类结果的聚集程度;
将第一目标函数值最小的第一聚类模型增加到聚类模型集合,从预设聚类模型中选取第二聚类模型,将第二聚类模型增加到聚类模型集合;
在聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从预设聚类模型中选取第三聚类模型,将第三聚类模型增加到聚类模型集合,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型;
其中,第一聚类模型和第二聚类模型的第二目标函数值小于第一聚类模型的第一目标函数值,第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值小于第二目标函数值。
在一个可能实现的实施例中,还包括:
根据目标聚类模型中每个聚类模型的聚类结果,生成第三预设数量的邻接矩阵;
计算第三预设数量的邻接矩阵的加权平均值;
根据加权平均值,确定第一预设数量的第一样本集中每个样本的类别。
在一个可能实现的实施例中,在获取第一预设数量的第一样本集和预设聚类模型之前,方法还包括:
获取多个维度的文本数据;
将文本数据转化成向量化数据,得到第二样本集;
从第二样本集中随机选取第二预设数量和预设维度的向量化数据,得到第一预设数量的第一样本集。
在一个可能实现的实施例中,预设聚类模型包括第一子聚类模型,方法还包括:
在第一样本集不包括标记信息的情况下,利用第一子聚类模型对第一样本集进行聚类,得到第一聚类结果,并利用第一目标函数,计算第一预设聚类模型的第四目标函数值;其中,标记信息包括第一样本集中第一样本和第二样本为同一类别的信息;
将第四目标函数值最小的第四聚类模型增加到第一聚类模型集合,从第一子聚类模型中选取第五聚类模型,将第五聚类模型增加到第一聚类模型集合;
在第一聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从第一子聚类模型中选取第六聚类模型,将第六聚类模型增加到第一聚类模型聚合,直至第一聚类模型集合中聚类模型的数量不小于第三预设数量,确定第一聚类模型集合中全部聚类模型为第一目标聚类模型;
其中,第四聚类模型和第五聚类模型的第五目标函数值小于第四聚类模型的第四目标函数值,第四聚类模型、第五聚类模型和第六聚类模型的第六目标函数值小于第五目标函数值。
在一个可能实现的实施例中,预设聚类模型包括第二子聚类模型,方法还包括:
在第一样本集包括标记信息的情况下,利用二子聚类模型对第一样本集进行聚类,得到第二聚类结果,并利用第二目标函数,计算第二预设聚类模型的第七目标函数值;其中,标记信息包括第一样本集中第一样本和第二样本为同一类别的信息;
将第七目标函数值最小的第七聚类模型增加到第二聚类模型集合,从第二子聚类模型中选取第八聚类模型,将第八聚类模型增加到第二聚类模型集合;
在第二聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从第二子聚类模型中选取第九聚类模型,将第九聚类模型增加到第二聚类模型集合,直至第二聚类模型集合中聚类模型的数量不小于第三预设数量,确定第二聚类模型集合中全部聚类模型为第二目标聚类模型;
其中,第七聚类模型和第八聚类模型的第八目标函数值小于第七聚类模型的第七目标函数值,第七聚类模型、第八聚类模型和第九聚类模型的第九目标函数值小于第八目标函数值。
在一个可能实现的实施例中,第一目标函数满足以下条件:
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,k表示样本类别的数量。
在一个可能实现的实施例中,第二目标函数满足以下条件:
其中,表示类别为h的聚类中心点,d(pi,μh)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,/>表征实际样本pi的类别yi和样本pj的类别yj相同却判断成不同类别的惩罚参数,θ(yi≠yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成相同,则为0,/>表征实际样本pi的类别yi和样本pj的类别yj不相同却判断成相同类别的惩罚参数,θ(yi=yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成不同,则为0,M和N标识第一样本集,k表示样本类别的数量。
第二方面,本申请实施例提供了一种模型的确定装置,包括:
获取模块,用于获取第一预设数量的第一样本集和预设聚类模型,第一样本集包括第二预设数量和预设维度的向量化数据;
确定模块,用于利用预设聚类模型对第一样本集进行聚类,得到聚类结果,并计算预设聚类模型的第一目标函数值,第一目标函数值表征聚类结果的聚集程度;
增加模块,用于将第一目标函数值最小的第一聚类模型增加到聚类模型集合,从预设聚类模型中选取第二聚类模型,将第二聚类模型增加到聚类模型集合;
增加模块,还用于在聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从预设聚类模型中选取第三聚类模型,将第三聚类模型增加到聚类模型集合,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型;
其中,第一聚类模型和第二聚类模型的第二目标函数值小于第一聚类模型的第一目标函数值,第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值小于第二目标函数值。
第三方面,本申请实施例提供了一种电子设备,设备包括:
处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现上述任意一项的在模型的确定方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述任意一项的模型的确定方法。
第五方面,本申请实施例提供了一种计算机程序产品,其特征在于,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任意一项的模型的确定方法。
本申请实施例的模型的确定方法、装置、设备及计算机存储介质,该方法包括:获取第一预设数量的第一样本集和预设聚类模型,第一样本集包括第二预设数量和预设维度的向量化数据;利用预设聚类模型对第一样本集进行聚类,得到聚类结果,并计算预设聚类模型的第一目标函数值,第一目标函数值表征聚类结果的聚集程度;将第一目标函数值最小的第一聚类模型增加到聚类模型集合,从预设聚类模型中选取第二聚类模型,将第二聚类模型增加到聚类模型集合;在聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从预设聚类模型中选取第三聚类模型,将第三聚类模型增加到聚类模型集合,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型;其中,第一聚类模型和第二聚类模型的第二目标函数值小于第一聚类模型的第一目标函数值,第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值小于第二目标函数值。如此,通过聚类模型的目标函数值,选择不同的聚类模型组成最终的目标聚类模型,避免聚类模型单一,不仅提高了聚类的效率,提高了聚类结果的准确性,而且摆脱了业务场景的限制,适用于大部分业务场景,具备通用性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的模型的确定方法的流程示意图;
图2是本申请另一个实施例提供的模型的确定方法的流程示意图;
图3是本申请又一个实施例提供的模型的确定装置的结构示意图;
图4是本申请再一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,本申请实施例中对数据的获取、存储、使用和处理等,均符合国家法律法规的相关规定。
在对业务产品进行优化时,对用户体验反馈信息进行聚类分析是十分必要的。
现有技术中,通常在收集用户体验反馈信息之后,通过人工筛选进行用户体验反馈信息聚类,或者是设计者根据以往经验设定固定的预判结果,并根据设定的预判结果对用户体验反馈信息进行聚类。但是,基于人工筛选或设定固定预判结果的聚类方式或聚类模型较为单一,进而导致聚类的效率较低,得到的聚类结果也并不准确,而且适用的业务场景存在局限性。
为了解决现有技术问题,本申请实施例提供了一种模型的确定方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的模型的确定方法进行介绍。
图1示出了本申请一个实施例提供的模型的确定方法的流程示意图。
如图1所示,本申请实施例提供的模型的确定方法包括以下S110至S140。
S110、获取第一预设数量的第一样本集和预设聚类模型,第一样本集包括第二预设数量和预设维度的向量化数据。
这里,第一预设数量是提前设定好的,第二预设数量是提前设定好的,预设维度是提前设定好的。
在一些实施例中,不同第一样本集中可以包括相同的样本。
在一些实施例中,向量化数据可以被聚类模型识别。预设聚类模型包括至少一个,可以是无监督聚类模型,也可以是半监督聚类模型。例如,无监督聚类模型可以但不限于包括Kmeans聚类模型和DBSCAN聚类模型,半监督聚类模型可以但不限于包括PCKmeans聚类模型和E2CP聚类模型。
作为一个示例,每个第一样本集包括10个维度的100个样本。
S120、利用预设聚类模型对第一样本集进行聚类,得到聚类结果,并计算预设聚类模型的第一目标函数值,第一目标函数值表征聚类结果的聚集程度。
这里,第一目标函数值表征聚类结果的聚集程度,第一目标函数值越小,表示聚类结果越紧凑。
在一些实施例中,聚类结果是对于第一样本集中样本的聚类结果,对于不同的第一样本集,可以是同一个样本的聚类结果。
在一些实施例中,对于每个第一样本集,利用预设聚类模型对每个第一样本集进行聚类,计算每个预设聚类模型的第一目标函数值,根据不同第一目标函数值选取预设聚类模型。
在一些实施例中,可以将第一目标函数值进行从小到大进行排序,得到排序结果。在排序结果中选择第一个第一目标函数值对应的预设聚类模型作为第一聚类模型。
在一些实施例中,还可以任意选择两个第一目标函数值,比较两个第一目标函数值的大小,保留较小的第一目标函数值。再选取除上述选择的两个第一目标函数值之外的第一目标函数值,与保留的第一目标函数值比较,保留较小的第一目标函数值。重复选择和比较的过程,最终选择出最小的第一目标函数值,将第一目标函数值最小的预设聚类模型作为第一聚类模型。
S130、将第一目标函数值最小的第一聚类模型增加到聚类模型集合,从预设聚类模型中选取第二聚类模型,将第二聚类模型增加到聚类模型集合。
这里,第一聚类模型为预设聚类模型中第一目标函数值最小的聚类模型。第二聚类模型的选取满足第一聚类模型和第二聚类模型的第二目标函数值小于第一聚类模型的第一目标函数值。
在一些实施例中,将第一聚类模型增加到聚类模型集合之后,从预设聚类模型中选取第二聚类模型,计算第一聚类模型和第二聚类模型的第二目标函数值,比较第一目标函数值和第二目标函数值的大小。若第二目标函数值小于第一目标函数值,将选取的第二聚类模型增加到聚类模型集合中;若第二目标函数值不小于第一目标函数值,重新选取第二聚类模型。可以理解的是,第二聚类模型不同于第一聚类模型。
S140、在聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从预设聚类模型中选取第三聚类模型,将第三聚类模型增加到聚类模型集合,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型;其中,第一聚类模型和第二聚类模型的第二目标函数值小于第一聚类模型的第一目标函数值,第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值小于第二目标函数值。
这里,第三预设数量是提前设定好的。第三聚类模型的选取满足第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值小于第二目标函数值。
在一些实施例中,在将第二聚类模型增加到聚类模型集合之后,判断聚类模型集合中包括聚类模型的数量是否小于第三预设数量。若小于,则从预设聚类模型中选取第三聚类模型,计算第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值,比较第二目标函数值和第三目标函数值的大小。若第三目标函数值小于第二目标函数值,将选取的第三聚类模型增加到聚类模型集合中;若第三目标函数值不小于第二目标函数值,重新选取第三聚类模型。可以理解的是,第三聚类模型不同于第一聚类模型和第二聚类模型。若聚类模型集合中包括聚类模型的数量不小于第三预设数量,确定所述第一聚类模型和第二聚类模型为目标聚类模型。可以理解的是,确定第一聚类模型和第二聚类模型为目标聚类模型的情况下,第三预设数量为2。
在一些实施例中,在将第三聚类模型增加到聚类模型集合之后,判断判断聚类模型集合中包括聚类模型的数量是否小于第三预设数量。若小于,则从预设聚类模型中继续选取聚类模型,增加到聚类模型集合,再次增加聚类模型之后的聚类模型集合中全部聚类模型的目标函数值始终小于(或不大于)增加聚类模型之前的聚类模型集合中全部聚类模型的目标函数值,向聚类模型集合中增加聚类模型,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型。若聚类模型集合中包括聚类模型的数量不小于第三预设数量,则确定第一聚类模型、第二聚类模型和第三聚类模型为目标聚类模型。可以理解的是,确定第一聚类模型、第二聚类模型和第三聚类模型为目标聚类模型的情况下,第三预设数量为3。
这样,通过聚类模型的目标函数值,选择不同的聚类模型组成最终的目标聚类模型,避免聚类模型单一,不仅提高了聚类的效率,提高了聚类结果的准确性,而且摆脱了业务场景的限制,适用于大部分业务场景,具备通用性。
基于此,在一些实施例中,该方法还可以包括:
根据目标聚类模型中每个聚类模型的聚类结果,生成第三预设数量的邻接矩阵;
计算第三预设数量的邻接矩阵的加权平均值;
根据加权平均值,确定第一预设数量的第一样本集中每个样本的类别。
在一些实施例中,利用公式(1)计算邻接矩阵的加权平均值,公式(1)如下:
其中,O表示邻接矩阵的加权平均值,B表示邻接矩阵的数量,Ob表示第b个邻接矩阵与对应权数的乘积。
在一些实施例中,利用Normalized Cuts算法的聚类一致性函数,根据加权平均值,确定第一预设数量的第一样本集中每个样本的类别,输出每个样本的聚类结果。需要说明的是,所谓一致性函数就是将聚类集体中的多个聚类结果进行结合,以生成一个统一的聚类结果。聚类结果包括样本的类别,邻接矩阵的构建方式为:若两个样本的聚类结果为同一类别,则为相邻关系。
作为一个示例,类别可以但不限于包括界面类、信息类、交互类、架构设计类、流程类、功能类和性能类。
这样,通过多个聚类模型对第一样本集进行聚类,提高了聚类性能,得到的聚类结果更准确。
基于此,在一些实施例中,在上述S110之前,该方法还可以包括S101至S103。
S101、获取多个维度的文本数据。
在一些实施例中,文本数据可以是用户体验反馈信息。这里,文本数据可以是多个维度的。
S102、将文本数据转化成向量化数据,得到第二样本集。
在一些实施例中,可以通过统计的方式或神经网络,将文本数据转化成向量化数据,在此不做具体限定。例如,基于统计的方式包括词袋模型和词频逆文本频率指数(termfrequency–inverse document frequency,TF-IDF)模型等;基于神经网络的方法包括word2vec模型(用来产生词向量的相关模型)、ELMo模型和BERT(全称:BidirectionalEncoder Representations from Transformers,是一种预训练的语言表征模型)模型等。
S103、从第二样本集中随机选取第二预设数量和预设维度的向量化数据,得到第一预设数量的第一样本集。
在一些实施例中,按照第二预设数量和预设维度,从第二样本集中随机选取向量化数据,得到第一预设数量的第一样本集。不同第一样本集中可以包括相同的样本。
这样,将文本数据转化成聚类模型可以识别的向量化数据,以便聚类模型对样本进行聚类,得到聚类结果。
基于此,在一些实施例中,预设聚类模型包括第一子聚类模型,该方法还可以包括:
在第一样本集不包括标记信息的情况下,利用第一子聚类模型对第一样本集进行聚类,得到第一聚类结果,并利用第一目标函数,计算第一预设聚类模型的第四目标函数值;其中,标记信息包括第一样本集中第一样本和第二样本为同一类别的信息;
将第四目标函数值最小的第四聚类模型增加到第一聚类模型集合,从第一子聚类模型中选取第五聚类模型,将第五聚类模型增加到第一聚类模型集合;
在第一聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从第一子聚类模型中选取第六聚类模型,将第六聚类模型增加到第一聚类模型聚合,直至第一聚类模型集合中聚类模型的数量不小于第三预设数量,确定第一聚类模型集合中全部聚类模型为第一目标聚类模型;
其中,第四聚类模型和第五聚类模型的第五目标函数值小于第四聚类模型的第四目标函数值,第四聚类模型、第五聚类模型和第六聚类模型的第六目标函数值小于第五目标函数值。
这里,第一子聚类模型包括无监督聚类模型。第一目标函数能够反应第一子聚类模型的聚类程度即可,在此不做具体限定。可以理解的是,对于第一样本集,若不包括第一样本集中第一样本和第二样本为同一类别的信息,则第四目标函数值只与两个样本之间的距离有关,距离越小,第四目标函数值越小,聚类结果越紧凑。
这样,可以确定在第一样本集不包括标记信息的情况下的目标聚类模型。
基于此,在一些实施例中,预设聚类模型包括第二子聚类模型,该方法还可以包括:
在第一样本集包括标记信息的情况下,利用二子聚类模型对第一样本集进行聚类,得到第二聚类结果,并利用第二目标函数,计算第二预设聚类模型的第七目标函数值;其中,标记信息包括第一样本集中第一样本和第二样本为同一类别的信息;
将第七目标函数值最小的第七聚类模型增加到第二聚类模型集合,从第二子聚类模型中选取第八聚类模型,将第八聚类模型增加到第二聚类模型集合;
在第二聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从第二子聚类模型中选取第九聚类模型,将第九聚类模型增加到第二聚类模型集合,直至第二聚类模型集合中聚类模型的数量不小于第三预设数量,确定第二聚类模型集合中全部聚类模型为第二目标聚类模型;
其中,第七聚类模型和第八聚类模型的第八目标函数值小于第七聚类模型的第七目标函数值,第七聚类模型、第八聚类模型和第九聚类模型的第九目标函数值小于第八目标函数值。
这里,第二子聚类模型包括半监督聚类模型。第二目标函数能够反应第二子聚类模型的聚类程度即可,在此不做具体限定。可以理解的是,对于第一样本集,若包括第一样本集中第一样本和第二样本为同一类别的信息,则第七目标函数值不仅与两个样本之间的距离有关,还与聚类结果的准确度有关,距离越小,聚类结果越准确,第七目标函数值越小,聚类结果越紧凑。
这样,可以确定在第一样本集包括标记信息的情况下的目标聚类模型。
基于此,在一些实施例中,第一目标函数可以满足公式(2),公式(2)如下:
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,k表示样本类别的数量,Δ(I)表示第四目标函数值。
这样,可以利用第一目标函数计算样本之间的距离,第四目标函数值越小,聚类结果越紧凑。
基于此,在一些实施例中,第二目标函数可以满足公式(3),公式(3)如下:
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,/>表征实际样本pi的类别yi和样本pj的类别yj相同却判断成不同类别的惩罚参数,θ(yi≠yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成相同,则为0,/>表征实际样本pi的类别yi和样本pj的类别yj不相同却判断成相同类别的惩罚参数,θ(yi=yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成不同,则为0,M和N标识第一样本集,k表示样本类别的数量,Δ(I)表示第七目标函数值。
这样,可以利用第二目标函数计算样本之间的距离,第七目标函数值越小,聚类结果越紧凑。
基于上述实施例提供的模型的确定方法,相应地,本申请还提供了模型的确定装置的具体实现方式。请参见以下实施例。
参见图3,本申请实施例提供的模型的确定装置300包括:
获取模块310,用于获取第一预设数量的第一样本集和预设聚类模型,第一样本集包括第二预设数量和预设维度的向量化数据;
确定模块320,用于利用预设聚类模型对第一样本集进行聚类,得到聚类结果,并计算预设聚类模型的第一目标函数值,第一目标函数值表征聚类结果的聚集程度;
增加模块330,用于将第一目标函数值最小的第一聚类模型增加到聚类模型集合,从预设聚类模型中选取第二聚类模型,将第二聚类模型增加到聚类模型集合;
增加模块330,还用于在聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从预设聚类模型中选取第三聚类模型,将第三聚类模型增加到聚类模型集合,直至聚类模型集合中聚类模型的数量不小于第三预设数量,确定聚类模型集合中全部聚类模型为目标聚类模型;
其中,第一聚类模型和第二聚类模型的第二目标函数值小于第一聚类模型的第一目标函数值,第一聚类模型、第二聚类模型和第三聚类模型的第三目标函数值小于第二目标函数值。
基于此,在一些实施例中,装置300还可以包括:
根据目标聚类模型中每个聚类模型的聚类结果,生成第三预设数量的邻接矩阵;
计算第三预设数量的邻接矩阵的加权平均值;
根据加权平均值,确定第一预设数量的第一样本集中每个样本的类别。
基于此,在一些实施例中,装置300还可以包括:
获取模块310,还用于在获取第一预设数量的第一样本集和预设聚类模型之前,获取多个维度的文本数据;
转化模块,用于将文本数据转化成向量化数据,得到第二样本集;
选取模块,用于从第二样本集中随机选取第二预设数量和预设维度的向量化数据,得到第一预设数量的第一样本集。
在一个可能实现的实施例中,预设聚类模型包括第一子聚类模型,装置300还可以包括:
确定模块320,还用于在第一样本集不包括标记信息的情况下,利用第一子聚类模型对第一样本集进行聚类,得到第一聚类结果,并利用第一目标函数,计算第一预设聚类模型的第四目标函数值;其中,标记信息包括第一样本集中第一样本和第二样本为同一类别的信息;
增加模块330,还用于将第四目标函数值最小的第四聚类模型增加到第一聚类模型集合,从第一子聚类模型中选取第五聚类模型,将第五聚类模型增加到第一聚类模型集合;
增加模块330,还用于在第一聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从第一子聚类模型中选取第六聚类模型,将第六聚类模型增加到第一聚类模型聚合,直至第一聚类模型集合中聚类模型的数量不小于第三预设数量,确定第一聚类模型集合中全部聚类模型为第一目标聚类模型;
其中,第四聚类模型和第五聚类模型的第五目标函数值小于第四聚类模型的第四目标函数值,第四聚类模型、第五聚类模型和第六聚类模型的第六目标函数值小于第五目标函数值。
基于此,在一些实施例中,预设聚类模型包括第二子聚类模型,装置300还可以包括:
确定模块320,还用于在第一样本集包括标记信息的情况下,利用二子聚类模型对第一样本集进行聚类,得到第二聚类结果,并利用第二目标函数,计算第二预设聚类模型的第七目标函数值;其中,标记信息包括第一样本集中第一样本和第二样本为同一类别的信息;
增加模块330,还用于将第七目标函数值最小的第七聚类模型增加到第二聚类模型集合,从第二子聚类模型中选取第八聚类模型,将第八聚类模型增加到第二聚类模型集合;
增加模块330,还用于在第二聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从第二子聚类模型中选取第九聚类模型,将第九聚类模型增加到第二聚类模型集合,直至第二聚类模型集合中聚类模型的数量不小于第三预设数量,确定第二聚类模型集合中全部聚类模型为第二目标聚类模型;
其中,第七聚类模型和第八聚类模型的第八目标函数值小于第七聚类模型的第七目标函数值,第七聚类模型、第八聚类模型和第九聚类模型的第九目标函数值小于第八目标函数值。
基于此,在一些实施例中,第一目标函数满足以下条件:
/>
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,k表示样本类别的数量。
基于此,在一些实施例中,第二目标函数满足以下条件:
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,/>表征实际样本pi的类别yi和样本pj的类别yj相同却判断成不同类别的惩罚参数,θ(yi≠yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成相同,则为0,/>表征实际样本pi的类别yi和样本pj的类别yj不相同却判断成相同类别的惩罚参数,θ(yi=yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成不同,则为0,M和N标识第一样本集,k表示样本类别的数量。
本申请实施例提供的模型的确定装置的各个模块,可以实现上述提供的模型的确定方法的各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备。
图4示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。
存储器可包括只读存储器(Read Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种模型的确定方法。
在一个示例中,电子设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(IndustryStandard Architecture,ISA)总线、无限带宽互连、低引脚数(Linear PredictiveCoding,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PeripheralComponent Interconnect-X,PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,SATA)总线、视频电子标准协会局部(VESA Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。该电子设备可以执行本发明实施例中的模型的确定方法,从而实现上述的模型的确定方法。
另外,结合上述实施例中的模型的确定方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种模型的确定方法。
本申请还提供了一种计算机程序产品,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行实现上述任意一种模型的确定方法实施例的各个过程。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除只读存储器(Erasable ReadOnly Memory,EROM)、软盘、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (11)

1.一种模型的确定方法,其特征在于,包括:
获取第一预设数量的第一样本集和预设聚类模型,所述第一样本集包括第二预设数量和预设维度的向量化数据;
利用所述预设聚类模型对所述第一样本集进行聚类,得到聚类结果,并计算所述预设聚类模型的第一目标函数值,所述第一目标函数值表征所述聚类结果的聚集程度;
将所述第一目标函数值最小的第一聚类模型增加到聚类模型集合,从所述预设聚类模型中选取第二聚类模型,将所述第二聚类模型增加到所述聚类模型集合;
在所述聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从所述预设聚类模型中选取第三聚类模型,将所述第三聚类模型增加到所述聚类模型集合,直至所述聚类模型集合中聚类模型的数量不小于所述第三预设数量,确定所述聚类模型集合中全部聚类模型为目标聚类模型;
其中,所述第一聚类模型和所述第二聚类模型的第二目标函数值小于所述第一聚类模型的第一目标函数值,所述第一聚类模型、所述第二聚类模型和所述第三聚类模型的第三目标函数值小于所述第二目标函数值。
2.根据权利要求1所述的模型的确定方法,其特征在于,还包括:
根据所述目标聚类模型中每个聚类模型的聚类结果,生成所述第三预设数量的邻接矩阵;
计算所述第三预设数量的邻接矩阵的加权平均值;
根据所述加权平均值,确定所述第一预设数量的第一样本集中每个样本的类别。
3.根据权利要求1所述的模型的确定方法,其特征在于,在获取第一预设数量的第一样本集和预设聚类模型之前,所述方法还包括:
获取多个维度的文本数据;
将所述文本数据转化成向量化数据,得到第二样本集;
从所述第二样本集中随机选取第二预设数量和预设维度的向量化数据,得到所述第一预设数量的第一样本集。
4.根据权利要求1或3所述的模型的确定方法,其特征在于,所述预设聚类模型包括第一子聚类模型,所述方法还包括:
在所述第一样本集不包括标记信息的情况下,利用所述第一子聚类模型对所述第一样本集进行聚类,得到第一聚类结果,并利用第一目标函数,计算所述第一预设聚类模型的第四目标函数值;其中,所述标记信息包括所述第一样本集中第一样本和第二样本为同一类别的信息;
将所述第四目标函数值最小的第四聚类模型增加到第一聚类模型集合,从所述第一子聚类模型中选取第五聚类模型,将所述第五聚类模型增加到所述第一聚类模型集合;
在所述第一聚类模型集合中聚类模型的数量小于所述第三预设数量的情况下,从所述第一子聚类模型中选取第六聚类模型,将所述第六聚类模型增加到所述第一聚类模型聚合,直至所述第一聚类模型集合中聚类模型的数量不小于所述第三预设数量,确定所述第一聚类模型集合中全部聚类模型为第一目标聚类模型;
其中,所述第四聚类模型和所述第五聚类模型的第五目标函数值小于所述第四聚类模型的第四目标函数值,所述第四聚类模型、所述第五聚类模型和所述第六聚类模型的第六目标函数值小于所述第五目标函数值。
5.根据权利要求1或3所述的模型的确定方法,其特征在于,所述预设聚类模型包括第二子聚类模型,所述方法还包括:
在所述第一样本集包括标记信息的情况下,利用所述二子聚类模型对所述第一样本集进行聚类,得到第二聚类结果,并利用第二目标函数,计算所述第二预设聚类模型的第七目标函数值;其中,所述标记信息包括所述第一样本集中第一样本和第二样本为同一类别的信息;
将所述第七目标函数值最小的第七聚类模型增加到第二聚类模型集合,从所述第二子聚类模型中选取第八聚类模型,将所述第八聚类模型增加到所述第二聚类模型集合;
在所述第二聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从所述第二子聚类模型中选取第九聚类模型,将所述第九聚类模型增加到所述第二聚类模型集合,直至所述第二聚类模型集合中聚类模型的数量不小于所述第三预设数量,确定所述第二聚类模型集合中全部聚类模型为第二目标聚类模型;
其中,所述第七聚类模型和所述第八聚类模型的第八目标函数值小于所述第七聚类模型的第七目标函数值,所述第七聚类模型、所述第八聚类模型和所述第九聚类模型的第九目标函数值小于所述第八目标函数值。
6.根据权利要求4所述的模型的确定方法,其特征在于,所述第一目标函数满足以下条件:
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,θ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,k表示样本类别的数量。
7.根据权利要求5所述的模型的确定方法,其特征在于,所述第二目标函数满足以下条件:
其中,表示类别为h的聚类中心点,d(pih)表示样本pi和聚类中心点的欧氏距离,h表示通过每个预设聚类模型得出的类别,θ为指示函数,λ(yi=h)用于判断样本pi的类别yi是否为h,若不是,则为0,P为第一样本集,/>表征实际样本pi的类别yi和样本pj的类别yj相同却判断成不同类别的惩罚参数,θ(yi≠yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成相同,则为0,/>表征实际样本pi的类别yi和样本pj的类别yj不相同却判断成相同类别的惩罚参数,θ(yi=yj)用于判断样本pi的类别yi和样本pj的类别yj是否相同,若判断成不同,则为0,M和N标识第一样本集,k表示样本类别的数量。
8.一种模型的确定装置,其特征在于,包括:
获取模块,用于获取第一预设数量的第一样本集和预设聚类模型,所述第一样本集包括第二预设数量和预设维度的向量化数据;
确定模块,用于利用所述预设聚类模型对所述第一样本集进行聚类,得到聚类结果,并计算所述预设聚类模型的第一目标函数值,所述第一目标函数值表征所述聚类结果的聚集程度;
增加模块,用于将所述第一目标函数值最小的第一聚类模型增加到聚类模型集合,从所述预设聚类模型中选取第二聚类模型,将所述第二聚类模型增加到所述聚类模型集合;
所述增加模块,还用于在所述聚类模型集合中聚类模型的数量小于第三预设数量的情况下,从所述预设聚类模型中选取第三聚类模型,将所述第三聚类模型增加到所述聚类模型集合,直至所述聚类模型集合中聚类模型的数量不小于所述第三预设数量,确定所述聚类模型集合中全部聚类模型为目标聚类模型;
其中,所述第一聚类模型和所述第二聚类模型的第二目标函数值小于所述第一聚类模型的第一目标函数值,所述第一聚类模型、所述第二聚类模型和所述第三聚类模型的第三目标函数值小于所述第二目标函数值。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的模型的确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的模型的确定方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-7任意一项所述的模型的确定方法。
CN202311214102.9A 2023-09-19 2023-09-19 模型的确定方法、装置、设备及计算机存储介质 Pending CN117171347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311214102.9A CN117171347A (zh) 2023-09-19 2023-09-19 模型的确定方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311214102.9A CN117171347A (zh) 2023-09-19 2023-09-19 模型的确定方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN117171347A true CN117171347A (zh) 2023-12-05

Family

ID=88942904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311214102.9A Pending CN117171347A (zh) 2023-09-19 2023-09-19 模型的确定方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN117171347A (zh)

Similar Documents

Publication Publication Date Title
CN111126396B (zh) 图像识别方法、装置、计算机设备以及存储介质
CN111967387A (zh) 表单识别方法、装置、设备及计算机可读存储介质
CN109344893B (zh) 一种基于移动终端的图像分类方法
CN111061842A (zh) 一种相似文本确定方法及装置
CN115174250B (zh) 网络资产安全评估方法、装置、电子设备及存储介质
CN116150125A (zh) 结构化数据生成模型的训练方法、装置、设备及存储介质
CN113807448A (zh) 点云数据分割模型训练方法、装置、存储介质及电子设备
CN104809229A (zh) 一种文本特征词提取方法及系统
CN116662555B (zh) 一种请求文本处理方法、装置、电子设备及存储介质
CN117171347A (zh) 模型的确定方法、装置、设备及计算机存储介质
CN111523322A (zh) 需求文档质量评价模型训练方法及需求文档质量评价方法
CN111144575A (zh) 舆情预警模型的训练方法、预警方法、装置、设备及介质
CN112214675B (zh) 用户购机的确定方法、装置、设备及计算机存储介质
CN115329872A (zh) 一种基于对比学习的敏感属性识别方法及装置
CN111026851B (zh) 模型预测能力优化方法、装置、设备及可读存储介质
CN115309891A (zh) 一种文本分类方法、装置、设备及计算机存储介质
CN114299043B (zh) 点云质量评估方法、装置、电子设备和存储介质
CN114547101B (zh) 数据中台的数据质量评估方法、装置、设备及存储介质
CN117792700A (zh) 接口资产分类方法、装置、电子设备及介质
CN116910340A (zh) 数据处理方法、装置、设备、介质及产品
CN116306631A (zh) 文本信息排序方法、装置、电子设备及计算机存储介质
CN117171141B (zh) 一种基于关系图谱的数据模型建模方法
CN116431787A (zh) 回复信息的确定方法、装置、设备及计算机存储介质
CN116028627B (zh) 新闻分类方法及装置、电子设备、计算机可读存储介质
CN116150697A (zh) 一种异常应用识别方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination