CN111581164B - 多媒体文件处理方法、装置、服务器及存储介质 - Google Patents
多媒体文件处理方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN111581164B CN111581164B CN202010408877.XA CN202010408877A CN111581164B CN 111581164 B CN111581164 B CN 111581164B CN 202010408877 A CN202010408877 A CN 202010408877A CN 111581164 B CN111581164 B CN 111581164B
- Authority
- CN
- China
- Prior art keywords
- classification model
- target
- classification
- multimedia file
- multimedia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000013145 classification model Methods 0.000 claims abstract description 582
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000000875 corresponding effect Effects 0.000 claims description 228
- 238000005070 sampling Methods 0.000 claims description 120
- 238000012360 testing method Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 28
- 230000002596 correlated effect Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种多媒体文件处理方法、装置、服务器及存储介质,属于计算机技术领域。所述方法包括:获取多媒体文件集合的多个多媒体文件子集合,多媒体文件集合包括多个第一多媒体文件;从多个分类模型中,为多个多媒体文件子集合分别确定对应的第一目标分类模型;根据每个多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数;从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于第二目标分类模型对多媒体文件集合进行分类。基于多媒体文件子集合进行超参数的更新和第二目标分类模型的确定,提高了对多媒体文件集合进行分类的效率。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种多媒体文件处理方法、装置、服务器及存储介质。
背景技术
聚类是一种无监督学习的方法,在机器学习、数据挖掘、模式识别和图像分析等方面都得到了广泛应用。通过聚类,对大规模的多媒体文件进行分析,确定每个多媒体文件的文件类别。
由于当前主流的聚类算法有很多种,每种聚类算法对应的聚类模型在不同的分类场景中具有不同的优势和劣势,因此,对于每种具体的分类场景,选择适用于该分类场景的聚类模型是最为棘手的问题。
当前,数据科学家需要花费大量的时间和精力去进行聚类模型的选择,再基于选择出的聚类模型去对多媒体文件集合进行分类,导致对多媒体文件集合进行分类的整体效率较低。
发明内容
本公开实施例提供了一种多媒体文件处理方法、装置、服务器及存储介质,能够提高对多媒体文件集合进行分类的效率。本公开的技术方案如下:
根据本公开实施例的第一方面,提供了一种多媒体文件处理方法,所述方法包括:
获取多媒体文件集合的多个多媒体文件子集合,所述多媒体文件集合包括多个第一多媒体文件;
从多个分类模型中,为所述多个多媒体文件子集合分别确定对应的第一目标分类模型;
根据每个所述多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,所述目标超参数使得所述第一目标分类模型的性能参数满足第一目标条件,所述性能参数用于表示对应的分类模型的分类性能;
从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于所述第二目标分类模型对所述多媒体文件集合进行分类。
在一种可能的实现方式中,所述从多个分类模型中,为所述多个多媒体文件子集合分别确定对应的第一目标分类模型,包括:
对于每个所述多媒体文件子集合,根据每个所述分类模型的性能参数和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重,所述采样权重用于表示所述分类模型被确定为所述第一目标分类模型的权重;
根据每个所述分类模型的采样权重,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型。
在另一种可能的实现方式中,所述性能参数包括分类速度和轮廓系数,所述根据每个所述分类模型的性能参数和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重,包括:
根据每个所述分类模型的分类速度在所述多个分类模型中的排序,确定每个所述分类模型的速度排名信息;
根据每个所述分类模型的轮廓系数在所述多个分类模型中的排序,确定每个所述分类模型的性能排名信息;
根据每个所述分类模型的速度排名信息、性能排名信息和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重。
在另一种可能的实现方式中,所述根据每个所述分类模型的采样权重,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型,包括:
根据所述多个分类模型的采样权重的和值以及每个所述分类模型的采样权重,确定每个所述分类模型的采样信息,所述采样信息用于表示对应的分类模型被确定为所述第一目标分类模型的概率;
根据每个所述分类模型的采样信息,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型。
在另一种可能的实现方式中,所述根据每个所述多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,包括:
对于任一个多媒体文件子集合,分别以各组测试超参数作为对应的第一目标分类模型的超参数,对所述多媒体文件子集合进行分类,基于对应的分类结果,确定所述第一目标分类模型对应于各组测试超参数的性能参数;
根据所述第一目标分类模型对应于各组测试超参数对应的性能参数,确定所述第一目标分类模型对应的目标超参数;
将所述第一目标分类模型的原超参数更新为对应的目标超参数。
在另一种可能的实现方式中,所述从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于所述第二目标分类模型对所述多媒体文件集合进行分类之后,所述多媒体文件处理方法还包括:
基于所述第二目标分类模型对所述多媒体文件集合的分类结果,确定所述第二目标分类模型的性能参数;
根据所述第二目标分类模型的性能参数,确定满足第三目标条件的第三目标分类模型;
根据第二多媒体文件和所述第三目标分类模型对所述多媒体文件集合的分类结果,确定所述第二多媒体文件对应的文件类别。
在另一种可能的实现方式中,所述根据第二多媒体文件和所述第三目标分类模型对所述多媒体文件集合的分类结果,确定所述第二多媒体文件对应的文件类别,包括:
从所述第三目标分类模型对所述多媒体文件集合的分类结果中,获取所述多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;
确定所述第二多媒体文件与每个文件类别的代表文件的距离;
根据所述第二多媒体文件与每个文件类别的代表文件的距离,将与所述第二多媒体文件距离最近的代表文件对应的文件类别确定为所述第二多媒体文件对应的文件类别。
根据本公开实施例的第二方面,提供了一种多媒体文件处理装置,所述装置包括:
获取单元,被配置为执行获取多媒体文件集合的多个多媒体文件子集合,所述多媒体文件集合包括多个第一多媒体文件;
第一确定单元,被配置为执行从多个分类模型中,为所述多个多媒体文件子集合分别确定对应的第一目标分类模型;
更新单元,被配置为执行根据每个所述多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,所述目标超参数使得所述第一目标分类模型的性能参数满足第一目标条件,所述性能参数用于表示对应的分类模型的分类性能;
分类单元,被配置为执行从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于所述第二目标分类模型对所述多媒体文件集合进行分类。
在一种可能的实现方式中,所述第一确定单元包括:
第一确定子单元,被配置为执行对于每个所述多媒体文件子集合,根据每个所述分类模型的性能参数和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重,所述采样权重用于表示所述分类模型被确定为所述第一目标分类模型的权重;
第二确定子单元,被配置为执行根据每个所述分类模型的采样权重,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型。
在另一种可能的实现方式中,所述性能参数包括分类速度和轮廓系数,所述第一确定子单元,被配置为执行:
根据每个所述分类模型的分类速度在所述多个分类模型中的排序,确定每个所述分类模型的速度排名信息;
根据每个所述分类模型的轮廓系数在所述多个分类模型中的排序,确定每个所述分类模型的性能排名信息;
根据每个所述分类模型的速度排名信息、性能排名信息和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重。
在另一种可能的实现方式中,所述第二确定子单元,被配置为执行:
根据所述多个分类模型的采样权重的和值以及每个所述分类模型的采样权重,确定每个所述分类模型的采样信息,所述采样信息用于表示对应的分类模型被确定为所述第一目标分类模型的概率;
根据每个所述分类模型的采样信息,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型。
在另一种可能的实现方式中,所述更新单元,被配置为执行:
对于任一个多媒体文件子集合,分别以各组测试超参数作为对应的第一目标分类模型的超参数,对所述多媒体文件子集合进行分类,基于对应的分类结果,确定所述第一目标分类模型对应于各组测试超参数的性能参数;
根据所述第一目标分类模型对应于各组测试超参数对应的性能参数,确定所述第一目标分类模型对应的目标超参数;
将所述第一目标分类模型的原超参数更新为对应的目标超参数。
在另一种可能的实现方式中,所述多媒体文件处理装置还包括:
第二确定单元,被配置为执行基于所述第二目标分类模型对所述多媒体文件集合的分类结果,确定所述第二目标分类模型的性能参数;
第三确定单元,被配置为执行根据所述第二目标分类模型的性能参数,确定满足第三目标条件的第三目标分类模型;
第四确定单元,被配置为执行根据第二多媒体文件和所述第三目标分类模型对所述多媒体文件集合的分类结果,确定所述第二多媒体文件对应的文件类别。
在另一种可能的实现方式中,所述第四确定单元,被配置为执行:
从所述第三目标分类模型对所述多媒体文件集合的分类结果中,获取所述多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;
确定所述第二多媒体文件与每个文件类别的代表文件的距离;
根据所述第二多媒体文件与每个文件类别的代表文件的距离,将与所述第二多媒体文件距离最近的代表文件对应的文件类别确定为所述第二多媒体文件对应的文件类别。
根据本公开实施例的第三方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现第一方面所述的多媒体文件处理方法。
根据本公开实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现第一方面所述的多媒体文件处理方法。
根据本公开实施例的第五方面,提供了一种计算机程序产品,当所述计算机程序产品中的指令由服务器的处理器执行时,使得服务器能够执行第一方面所述的多媒体文件处理方法。
在本公开实施例中,通过为多媒体文件集合的多个多媒体文件子集合分别确定对应的第一目标分类模型,从而以具有相对较少数据量的子集合中的多媒体文件,来分别对每个多媒体文件子集合对应的第一目标分类模型进行超参数的更新,从而找到能够使得性能参数较好的超参数,为各个第一目标分类模型确定较优化的配置,进而能够基于优化后的多个第一目标分类模型,进一步参考模型性能来确定用于对多媒体文件集合进行分类的第二目标分类模型,来实现分类,上述技术方案,通过包含较少数据量的各个子集合来分别训练各个第一目标分类模型的超参数,以相对较小的代价完成了对模型超参数的更新,进而基于更新后的模型和模型性能进一步选择分类所用模型,从而在保证了备选模型的性能,降低了模型选择过程所需的时间,能够提高对多媒体文件集合进行分类的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种多媒体文件处理方法的流程图;
图2是根据一示例性实施例示出的一种多媒体文件处理方法的流程图;
图3是根据一示例性实施例示出的一种多媒体文件处理方法的流程图;
图4是根据一示例性实施例示出的一种多媒体文件处理方法的流程图;
图5是根据一示例性实施例示出的一种多媒体文件处理装置的框图;
图6是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。
图1是根据一示例性实施例示出的一种多媒体文件处理方法的流程图。参见图1,该多媒体文件处理方法包括以下步骤:
在步骤S101中,获取多媒体文件集合的多个多媒体文件子集合,多媒体文件集合包括多个第一多媒体文件。
在步骤S102中,从多个分类模型中,为多个多媒体文件子集合分别确定对应的第一目标分类模型。
在步骤S103中,根据每个多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,目标超参数使得第一目标分类模型的性能参数满足第一目标条件。
其中,性能参数用于表示对应的分类模型的分类性能。
在步骤S104中,从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于第二目标分类模型对多媒体文件集合进行分类。
在本公开实施例中,通过为多媒体文件集合的多个多媒体文件子集合分别确定对应的第一目标分类模型,从而以具有相对较少数据量的子集合中的多媒体文件,来分别对每个多媒体文件子集合对应的第一目标分类模型进行超参数的更新,从而找到能够使得性能参数较好的超参数,为各个第一目标分类模型确定较优化的配置,进而能够基于优化后的多个第一目标分类模型,进一步参考模型性能来确定用于对多媒体文件集合进行分类的第二目标分类模型,来实现分类,上述技术方案,通过包含较少数据量的各个子集合来分别训练各个第一目标分类模型的超参数,以相对较小的代价完成了对模型超参数的更新,进而基于更新后的模型和模型性能进一步选择分类所用模型,从而在保证了备选模型的性能,降低了模型选择过程所需的时间,能够提高对多媒体文件集合进行分类的效率。
图2是根据一示例性实施例示出的一种多媒体文件处理方法的流程图。参见图2,在本公开实施例中,以分类模型为聚类模型,其所应用算法为聚类算法为例进行说明,该多媒体文件处理方法用于服务器中,包括以下步骤。
在步骤S201中,服务器获取多媒体文件集合的多个多媒体文件子集合。
其中,多媒体文件集合包括多个第一多媒体文件。每个多媒体文件子集合中包括多媒体文件集合中的部分第一多媒体文件。
多个多媒体文件子集合的数量可以为第一数量,该第一数量可以为任一数值,例如,第一数值可以为5、10或者15等。第一数量的多媒体文件子集合中的第一多媒体文件的数量总和不大于多媒体文件集合中第一多媒体文件的数量。
在一种可能的实现方式中,服务器可以根据随机采样比例,从多媒体文件集合中随机获取第一多媒体文件,组成多媒体文件子集合,相应的,本步骤可以为:对于多个多媒体文件子集合中的任一多媒体文件子集合,服务器获取随机采样比例,以及获取多媒体文件集合中的第一多媒体文件的第二数量;根据随机采样比例和第二数量,确定多媒体文件子集合中包括的第一多媒体文件的第三数量;从多媒体文件集合中随机获取第三数量的第一多媒体文件;由随机获取的第三数量的第一多媒体文件组成该多媒体文件子集合。
随机采样比例可以为0至1之间的任一数值,例如,随机采样比例可以为0.1、0.2或0.3等。假设多媒体文件集合中第一多媒体文件的第二数量为10万,随机采样比例为0.1,则服务器可以分别从多媒体文件集合中随机获取1万个第一多媒体文件组成多个多媒体文件子集合。
服务器可以直接获取预先被配置的随机采样比例。例如,预先被配置的随机采样比例为0.1,服务器可以直接获取该随机采样比例。
服务器也可以获取预先被配置的随机采样比例范围;从该随机采样比例范围中随机获取任一数值作为随机采样比例。随机采样比例范围可以为0至1之间的任一数值范围,服务器每次获取多媒体文件子集合之前,都从该随机采样比例范围中获取任一数值作为随机采样比例。例如,随机采样比例可以为[0.1~0.5],服务器上一次获取多媒体文件子集合的随机采样比例可以为[0.1~0.5]中的0.1;服务器本次获取多媒体文件子集合之前,可以将[0.1~0.5]中的0.3作为本次获取多媒体文件子集合的随机采样比例。
在本公开实施例中,服务器可以在每次获取多媒体文件子集合时,从随机采样比例范围中获取随机采样比例,从而获取到不同数据量的多媒体文件子集合,根据对不同数据量的多媒体文件子集合进行分类得到的分类模型的性能参数,进行目标分类模型的确定,能够提高目标分类模型对多媒体文件集合的适用性。
在另一种可能的实现方式中,服务器可以获取被配置的第四数量,从多媒体文件集合中获取第四数量的第一多媒体文件,由第四数量的第一多媒体文件组成多媒体文件子集合。例如,第四数量为1万,服务器可以从多媒体文件集合中获取1万个第一多媒体文件组成多媒体文件子集合。
在本公开实施例中,服务器可以从多媒体文件集合中随机获取部分第一多媒体文件组成多媒体文件子集合,基于包括部分第一多媒体文件的多媒体文件子集合确定目标分类模型,能够提高目标分类模型的确定效率。
需要说明的一点是,第一多媒体文件是多媒体信息的数据化表示,第一多媒体文件可以为用于对多媒体信息进行特征表示的多维向量。多媒体信息可以为任一媒体形式的信息,例如,多媒体信息可以包括文本形式的信息、图像形式的信息或视频形式的信息中的一个或多个。
多媒体信息可以为任一客户端的多媒体信息,客户端可以为视频应用、新闻应用、购物应用或社交应用等,视频应用可以为短视频应用、在线视频应用或者直播应用等。若客户端为短视频应用,多媒体信息可以为短视频。若客户端为新闻应用,多媒体信息可以为新闻,新闻可以包括用于描述新闻的文本信息、图像或视频中的一个或多个。若客户端为购物应用,多媒体信息可以为待售物品信息,待售物品信息可以包括用于描述待售物品的文本信息、图像或视频中的一个或多个。
对于任一客户端来说,多媒体信息还可以为客户端用户的用户信息,该用户信息可以包括用户的基本属性信息和用户的兴趣特征信息等,例如,用户的基本属性信息可以包括用户的性别和年龄等;对于短视频应用的用户,用户的兴趣特征信息包括用于表示用户的短视频偏好的信息;对于新闻应用的用户,用户的兴趣特征信息包括用于表示用户的新闻阅读偏好的信息;对于购物应用的用户,用户的兴趣特征信息包括用于表示用户对待售物品偏好的信息;对于社交应用的用户,用户的兴趣特征信息包括用于表示用户的社交偏好的信息。
需要说明的另一点是,本公开各实施例涉及的用户信息等均是经用户授权而采集,并进行后续处理的。
需要说明的另一点是,服务器获取多媒体文件集合的多个多媒体文件子集合之前,还获取已存储的多媒体文件集合。多媒体文件集合中的第一多媒体文件可以存储于分布式文件系统中,服务器可以从该分布式文件系统中获取多媒体文件集合。例如,存储第一多媒体文件的分布式文件系统可以为CephFS(Ceph File System,Ceph(一种统一的分布式存储系统)文件系统)或者HDFS(Hadoop Distributed File System,Hadoop(一种分布式系统基础架构)分布式文件系统)等。
存储于分布式文件系统中的第一多媒体文件可以为用于对多媒体信息进行特征表示的多维向量,向量的数据存储精度可以为int8(一种8位整型数)、fp16(一种16位浮点数)、float32(一种32位浮点数)或float64(一种64位浮点数)中的任一种。
在本公开实施例中,多媒体文件集合中的第一多媒体文件可以存储于分布式文件系统中,由于分布式文件系统支持超大规模数据的存储,因此,基于分布式文件系统可以支持超大规模多媒体文件集合的聚类场景,扩展了对多媒体文件集合进行分类的应用范围。
需要说明的另一点是,服务器可以一次获取多个多媒体文件子集合,基于获取到的每个多媒体文件子集合,继续执行步骤S202至步骤S204。服务器也可以每次获取一个多媒体文件子集合,基于该多媒体文件子集合继续执行步骤S202至步骤S204。在步骤S202中,对于每个多媒体文件子集合,服务器根据每个分类模型的性能参数和多媒体文件集合的数据量,确定每个分类模型的采样权重。
采样权重用于表示分类模型被确定为第一目标分类模型的权重,采样权重与对应的分类模型被确定为第一目标分类模型的可能性呈正相关。
性能参数用于表示对应的分类模型的分类性能。性能参数可以为分类模型的性能评估指标,性能参数可以包括分类模型的分类速度、轮廓系数或者纯度等用于表示分类模型的性能的参数中的一个或多个。
多媒体文件集合的数据量用于表示多媒体文件集合所包含的数据量的大小。多媒体文件集合的数据量可以根据多媒体文件集合中第一多媒体文件的第二数量和第一多媒体文件的向量维数得到。多媒体文件集合的数据量分别与多媒体文件集合中第一多媒体文件的第二数量和第一多媒体文件的向量维数呈正相关。多媒体文件集合的数据量可以为多媒体文件集合中第一多媒体文件的第二数量与第一多媒体文件的向量维数的乘积。
例如,多媒体文件集合中第一多媒体文件的第二数量为1万,第一多媒体文件的向量维数为128,则多媒体文件集合的数据量可以为128万。
分类模型的性能参数包括分类速度和轮廓系数,相应的,服务器根据每个分类模型的性能参数和多媒体文件集合的数据量,确定每个分类模型的采样权重的步骤可以为:服务器根据每个分类模型的分类速度、每个分类模型的轮廓系数和多媒体文件集合的数据量,确定每个分类模型的采样权重,其中,该采样权重分别与每个分类模型的分类速度和轮廓系数呈正相关,且与多媒体文件集合的数据量呈负相关。
在本公开实施例中,分类模型的采样权重与分类模型的分类速度和轮廓系数呈正相关,分类模型的分类速度越快,轮廓系数越大,则该分类模型被确定为第一目标分类模型的概率越大,从而基于采样权重能够确定出分类性能较优的第一目标分类模型。
服务器可以根据每个分类模型的分类速度在多个分类模型中的排序和每个分类模型的轮廓系数在多个分类模型中的排序,确定每个分类模型的采样权重,相应的,参见图3,服务器根据每个分类模型的性能参数和多媒体文件集合的数据量,确定每个分类模型的采样权重可以通过以下步骤S2021至步骤S2023实现。
在步骤S2021中,服务器根据每个分类模型的分类速度在多个分类模型中的排序,确定每个分类模型的速度排名信息。
分类模型的分类速度可以为基于该分类模型对历史的多媒体文件子集合进行分类的分类速度。该历史的多媒体文件子集合可以为上一次基于该分类模型所分类的多媒体文件子集合。
分类模型的分类速度与分类模型的分类时长呈负相关,分类模型的分类时长为从分类模型对多媒体文件子集合进行分类开始到输出分类结果的时长。
服务器可以对多个分类模型的分类速度按照从大到小的顺序进行排序。若服务器对多个分类模型的分类速度按照从大到小的顺序进行排序,则分类模型的速度排名信息与该分类模型对应的排名序号呈负相关,分类模型的速度排名信息可以为该分类模型对应的排名序号的倒数。
服务器也可以对多个分类模型的分类速度按照从小到大的顺序进行排序。若服务器对多个分类模型的分类速度按照从小到大的顺序进行排序,则分类模型的速度排名信息与该分类模型对应的排名序号呈正相关,分类模型的速度排名信息可以为该分类模型对应的排名序号。
需要说明的一点是,若服务器还未基于某一分类模型对多媒体文件子集合进行过分类,则服务器可以获取该分类模型的历史经验速度,将该历史经验速度作为该分类模型的分类速度,该历史经验速度可以为该分类模型对于其他多媒体文件集合的分类速度。
在本公开实施例中,分类模型的分类速度可以为基于该分类模型对历史的多媒体文件子集合进行分类的分类速度,多媒体文件子集合中包括多媒体文件集合中的第一多媒体文件,基于该分类速度确定出的第一目标聚类模型更加适应于对多媒体文件集合的分类,提高了第一目标分类模型对多媒体文件集合进行分类的适应性。
在步骤S2022中,服务器根据每个分类模型的轮廓系数在多个分类模型中的排序,确定每个分类模型的性能排名信息。
分类模型的轮廓系数可以根据该分类模型对于历史的多媒体文件子集合的分类结果确定。服务器可以获取上一次基于该分类模型对多媒体文件子集合进行分类的分类结果,根据该分类结果,确定该分类模型的轮廓系数。
服务器可以对多个分类模型的轮廓系数按照从大到小的顺序进行排序。若服务器对多个分类模型的轮廓系数按照从大到小的顺序进行排序,则分类模型的性能排名信息与该分类模型对应的排名序号呈负相关,分类模型的性能排名信息可以为该分类模型对应的排名序号的倒数。
服务器也可以对多个分类模型的轮廓系数按照从小到大的顺序进行排序。若服务器对多个分类模型的轮廓系数按照从小到大的顺序进行排序,则分类模型的轮廓系数与该分类模型对应的排名序号呈正相关,分类模型的性能排名信息可以为该分类模型对应的排名序号。
在本公开实施例中,分类模型的轮廓系数可以根据该分类模型对于历史的多媒体文件子集合的分类结果确定,多媒体文件子集合中包括多媒体文件集合中的第一多媒体文件,基于该轮廓系数确定出的第一目标分类模型更加适应于对多媒体文件集合的分类,提高了第一目标分类模型对多媒体文件集合进行分类的适应性。
在本公开实施例中,服务器可以通过分类模型的速度排名信息和性能排名信息来表示分类模型的采样权重与性能参数的正相关的关系,简化了对采样权重进行标准化处理的步骤,提高了确定第一目标分类模型的效率。
在步骤S2023中,服务器根据每个分类模型的速度排名信息、性能排名信息和多媒体文件集合的数据量,确定每个分类模型的采样权重。
其中,每个分类模型的采样权重与该分类模型的速度排名信息和性能排名信息呈正相关,且与多媒体文件集合的数据量呈负相关。
服务器可以获取多媒体文件集合的数据量对应的速度权重和性能权重,结合速度权重和性能权重,确定每个分类模型的采样权重。其中,速度权重用于表示在当前的多媒体文件集合的数据量的条件下,对分类模型的分类速度的关注程度;性能权重用于表示在当前的多媒体文件集合的数据量的条件下,对分类模型的输出性能的关注程度。相应的,本步骤可以为:服务器获取多媒体文件集合的数据量对应的速度权重和性能权重;根据每个分类模型的速度排名信息和该速度权重,确定第一数值;根据每个分类模型的性能排名信息和性能权重,确定第二数值;根据每个分类模型对应的第一数值、每个分类模型对应的第二数值和多媒体文件集合的数据量,确定每个分类模型的采样权重,其中,每个分类模型的采样权重与该分类模型对应的第一数值、该分类模型对应的第一数值呈正相关,且与多媒体文件集合的数据量呈负相关。
服务器存储有数据量与速度权重和性能权重的对应关系,服务器可以根据多媒体文件集合的数据量,从数据量与速度权重和性能权重的对应关系中,获取多媒体文件集合的数据量对应的速度权重和性能权重。
服务器存储的数据量与速度权重和性能权重的对应关系可以为数据量范围与速度权重和性能权重的对应关系。若数据量范围的最小值大于第一阈值,则该数据量对应的速度权重大于该数据量对应的性能权重;若数据量范围的最大值小于第一阈值,则该数据量对应的速度权重小于该数据量对应的性能权重。
例如,数据量范围为0至100万,该数据量范围内的数据量用于表示较小的数据量,对于数据量在该数据量范围内的多媒体文件集合,对分类模型的输出性能的关注程度可以大于对分类模型的分类速度的关注程度,0至100万的数据量范围对应的速度权重可以为0.5,0至100万的数据量范围对应的性能权重可以为1。
再如,数据量范围为900万至1000万,该数据量范围内的数据量用于表示较大的数据量,对于数据量在该数据量范围内的多媒体文件集合,对分类模型的分类速度的关注程度可以大于对分类模型的输出性能的关注程度,900至1000万的数据量范围对应的速度权重可以为0.9,0至100万的数据量范围对应的性能权重可以为0.1。其他数据量范围对应的速度权重和性能权重与在对数据量在该数据量范围内的多媒体文件集合进行分类时,对速度权重和性能权重的关注程度相关,在本公开实施例中,不再一一举例。
相应的,服务器可以通过以下公式一确定分类模型的采样权重:
公式一:Score=f(1/rank_v)×g(1/rank_p)/log(n×d)
其中,Score表示分类模型的采样权重;rank_v表示对多个分类模型的分类速度按照从大到小的顺序进行排序时,该分类模型的速度排名信息;f(1/rank_v)表示该分类模型对应的第一数值;rank_p表示对多个分类模型的轮廓系数按照从大到小的顺序进行排序时,该分类模型的性能排名信息;g(1/rank_p)表示该分类模型对应的第二数值;n表示多媒体文件集合中的第一多媒体文件的第二数量;d表示第一多媒体文件的向量维数;n×d表示多媒体文件集合的数据量;log(n×d)表示多媒体文件集合的数据量的对数。
在本公开实施例中,若数据量范围的最小值大于第一阈值,则该数据量对应的速度权重大于该数据量对应的性能权重,从而在多媒体文件集合的数据量较大时,对分类模型的分类速度的关注程度更高,使得分类速度更快的分类模型被确定为第一目标分类模型的概率越大,在多媒体文件集合的数据量较大时,能够保证多媒体文件集合的分类速度,提高多媒体文件集合的分类效率。
若数据量范围的最大值小于第一阈值,则该数据量对应的速度权重小于该数据量对应的性能权重,从而在多媒体文件集合的数据量较小时,对分类模型的输出性能的关注程度更高,使得输出性能更好的分类模型被确定为第一目标分类模型的概率越大,在多媒体文件集合的数据量较小时,更加关注多媒体文件集合的输出性能,提高多媒体文件集合分类的准确性。
需要说明的另一点是,每个分类模型分别对应有一种聚类算法。多个分类模型对应的聚类算法可以包括k均值(k-means)算法、层次聚类(Agglomerative Clustering)算法、基于层次结构的平衡迭代聚类算法(BIRCH,Balanced Iterative Reducing andClustering using Hierarchies)、密度聚类(DBSCAN,Density-Based SpatialClustering of Applications with Noise)算法、均值漂移(Mean Shift)聚类算法、谱聚类(Spectral Clustering)算法、亲和传播(Affinity Propagation)聚类算法和高斯混合模型(GMMs,Gaussian Mixture Models)中的一个或多个。
在步骤S203中,服务器根据每个分类模型的采样权重,从多个分类模型中,确定每个多媒体文件子集合分别对应的第一目标分类模型。
在一种可能的实现方式中,对于每个多媒体文件子集合,服务器根据每个分类模型的采样权重,将多个分类模型中采样权重最大的分类模型确定为该多媒体文件子集合对应的第一目标分类模型。
在另一种可能的实现方式中,服务器根据多个分类模型的采样权重的和值以及每个分类模型的采样权重,确定每个分类模型的采样信息;根据每个分类模型的采样信息,从多个分类模型中,确定每个多媒体文件子集合分别对应的第一目标分类模型。
服务器可以对每个分类模型的采样权重进行归一化处理,根据多个分类模型归一化处理后的采样权重的和值以及每个分类模型归一化处理后的采样权重,确定每个分类模型的采样信息。相应的,服务器可以通过以下公式二确定每个分类模型的采样信息:
公式二:p=Score/∑Score
其中,p表示任一分类模型的采样信息;Score表示该分类模型归一化处理后的采样权重;∑Score表示多个分类模型归一化处理后的采样权重的和值。
需要说明的一点是,多个分类模型的采样信息的和值为1。
每个分类模型的采样信息为该分类模型在多个分类模型中被确定为第一目标分类模型的概率。例如,多个分类模型中某个分类模型的采样信息为0.9,则服务器有0.9的概率将该分类模型确定为第一目标分类模型,有0.1的概率不将该分类模型确定为第一目标分类模型。分类模型的采样信息越大,则该分类模型当前被确定为第一目标分类模型的概率越大,也即该分类模型当前被确定为第一目标分类模型的可能性越大。
例如,多个分类模型分别为A、B和C,A的采样信息为0.7,B的采样信息为0.2,C的采样信息为0.1,则服务器有0.7的概率将A确定为第一目标分类模型,有0.2的概率将B确定为第一目标分类模型,有0.1的概率将C确定为第一目标分类模型。
需要说明的一点是,服务器可以为每个多媒体文件子集合确定对应的一个第一目标分类模型。服务器也可以为每个多媒体文件子集合确定对应的多个第一目标分类模型。
服务器确定的多个第一目标分类模型的数量可以设置为不大于多个分类模型的数量的任一数值,例如,多个第一目标分类模型的数量可以为2或3等。
多个第一目标分类模型的数量还可以根据多个分类模型的数量和模型选取比例得到,模型选取比例可以设置为大于0小于1的任一数值,例如,模型选取比例可以为0.2,假设多个分类模型的数量为10,则多个第一目标分类模型的数量为2。
在本公开实施例中,多个第一目标分类模型为多个分类模型中的部分分类模型,服务器不需要对全部的多个分类模型都进行遍历,能够提高多媒体文件分类的效率。
需要说明的一点是,服务器可以根据每个分类模型的采样权重,对多个分类模型进行一次采样,得到多个第一目标分类模型。服务器也可以根据每个分类模型的采样权重,对多个分类模型进行多次采样,每次采样确定一个第一目标分类模型。服务器可以每次确定一个第一目标分类模型,就执行将该第一目标分类模型的原超参数更新为对应的目标超参数的步骤。服务器也可以经过多次采样得到多个第一目标分类模型,再执行将多个第一目标分类模型的原超参数分别更新为对应的目标超参数的步骤。
在本公开实施例中,服务器可以根据每个分类模型的采样权重,自动从多个分类模型中确定第一目标分类模型,需要对多媒体文件集合进行分类的用户不需要了解分类模型的性能,也能够实现对多媒体文件集合的分类,降低了对多媒体文件集合进行分类的技术门槛,减少了用户选取分类模型的工作量,提高了多媒体文件集合的分类效率。
需要说明的一点是,服务器可以为一台服务器,也可以为多台服务器组成的服务器集群。若服务器为一台服务器,对于多个第一目标分类模型,服务器可以依次执行将每个第一目标分类模型的原超参数更新为对应的目标超参数的步骤。例如,服务器确定2个第一目标分类模型A和B,则服务器先执行将第一目标分类模型A的原超参数更新为对应的目标超参数的步骤,再执行将第一目标分类模型B的原超参数更新为对应的目标超参数的步骤。
若服务器为多台服务器组成的服务器集群,对于多个第一目标分类模型,可以分别在服务器集群的多台服务器上并行执行将多个第一目标分类模型的原超参数分别更新为对应的目标超参数的步骤。例如,服务器集群包括第一服务器和第二服务器,服务器确定2个第一目标分类模型A和B,则第一服务器和第二服务器可以同行进行并行处理,第一服务器执行将第一目标分类模型A的原超参数更新为对应的目标超参数的步骤的同时,第二服务器执行将第一目标分类模型B的原超参数更新为对应的目标超参数的步骤。
在本公开实施例中,服务器可以为多台服务器组成的服务器集群,通过服务器集群可以并行分别更新每个第一目标分类模型对应的目标超参数,能够大大减少更新第一目标分类模型的超参数的时间,提高确定第二目标分类模型的效率,进一步提高对多媒体文件分类的整体效率。
在步骤S204中,服务器根据每个多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,该目标超参数使得第一目标分类模型的性能参数满足第一目标条件。
第一目标条件可以为预先设定的条件,第一目标条件用于确定使第一目标分类模型的分类性能最优的目标超参数。第一目标条件可以为性能参数大于第二阈值。例如,性能参数可以为轮廓系数,第一目标条件可以为轮廓系数大于第二阈值,第二阈值可以为任一数值,如0.8、0.9或0.95等。
第一目标条件还可以为第一目标分类模型对应于目标超参数对应的性能参数为第一目标分类模型对应于各组测试超参数对应的性能参数中最大的性能参数。例如,性能参数可以为轮廓系数,第一目标条件还可以为第一目标分类模型对应于目标超参数对应的性能参数为第一目标分类模型对应于各组测试超参数对应的性能参数中最接近第三阈值的性能参数,第三阈值可以为1。
对于每个多媒体文件子集合,服务器分别基于各组测试超参数作为第一目标分类模型的超参数时对应的性能参数,确定该第一目标分类模型对应的目标超参数,将该第一目标分类模型的原超参数更新为对应的目标超参数。相应的,参见图4,本步骤可以通过以下步骤S2041至步骤S2043实现。
在步骤S2041中,对于任一个多媒体文件子集合,服务器分别以各组测试超参数作为对应的第一目标分类模型的超参数,对多媒体文件子集合进行分类,基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数的性能参数。
在机器学习的过程中,超参数是在开始学习之前设置的参数,超参数为用于定义模型属性或者训练过程的参数。在对多媒体文件集合进行分类之前,需要对分类过程中的超参数进行选取。例如,超参数可以为学习率或分类所要得到的簇的数量等。
服务器对多媒体文件子集合进行分类,得到多媒体文件子集合对应的分类结果,该分类结果包括多个文件类别的代表文件以及每个文件类别对应的簇中的第一多媒体文件。
在一种可能的实现方式中,性能参数可以为轮廓系数,相应的,服务器基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数的性能参数的步骤可以为:对于第一目标分类模型对应于任一组测试超参数对多媒体文件子集合进行分类对应的分类结果,服务器基于该分类结果,确定多媒体文件子集合中的任一第一多媒体文件所属的文件类别对应的第一簇;将该第一多媒体文件与第一簇中的其他第一多媒体文件的平均距离确定为簇内不相似度;将该第一多媒体文件与第二簇中的其他第一多媒体文件的平均距离确定为第二距离,第二簇为除第一簇外的任一簇;将多个第二簇对应的第二距离中的最小的第二距离确定为簇间不相似度;将簇间不相似度与簇内不相似度做差,得到第三数值;将簇间不相似度和簇内不相似度中的最大值确定为第四数值;将第三数值与第四数值的比值确定为第一目标分类模型对应于该组测试超参数的轮廓系数;将该轮廓系数确定为第一目标分类模型对应于该组测试超参数的性能参数。
在本公开实施例中,服务器可以确定第一目标分类模型对应于任一组测试超参数对多媒体文件子集合进行分类时的轮廓系数,将轮廓系数确定为性能参数,由于轮廓系数能够表示任一第一多媒体文件属于其所属的第一簇的合理性,从而将轮廓系数确定为用于表示模型的分类性能的性能参数,进而根据轮廓系数确定第二目标分类模型,能够提高确定第二目标分类模型的准确性。并且,轮廓系数的确定不需要获取每个第一多媒体文件的真实分类,能够减少分类过程中的人工干预,提高分类效率。
在另一种可能的实现方式中,性能参数可以为纯度,相应的,服务器基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数的性能参数的步骤可以为:对于第一目标分类模型对应于任一组测试超参数对多媒体文件子集合进行分类对应的分类结果,服务器基于该分类结果,确定每个文件类别对应的簇中正确分类的第一多媒体文件的数量;将每个文件类别对应的簇中正确分类的第一多媒体文件的数量之和确定为第五数值;将第五数值与多媒体文件子集合中所包括的第一多媒体文件的数量的比值确定为第一目标分类模型对应于该组测试超参数的纯度;将该纯度确定为第一目标分类模型对应于该组测试超参数的性能参数。
在本公开实施例中,服务器可以确定第一目标分类模型对应于任一组测试超参数对多媒体文件子集合进行分类时的纯度,将该纯度确定为性能参数,由于纯度能够表示第一多媒体文件分类的准确率,进而根据纯度确定第二目标分类模型,能够提高确定第二目标分类模型的准确性。
需要说明的一点是,服务器分别以各组测试超参数作为对应的第一目标分类模型的超参数,对多媒体文件子集合进行分类之前,还获取多组测试超参数。服务器可以基于随机搜索(Random Search)方式、网格搜索(Grid Search)方式、贝叶斯优化(BayesianOptimization)方式和零阶优化(Zeroth Order)方式中的任一种超参数搜索方式,获取多组测试超参数。
数据科学家可以对本次分类所应用的超参数搜索方式的进行配置,相应的,服务器可以获取本次被配置的超参数搜索方式。数据科学家也可以未对本次分类所应用的超参数搜索方式进行配置,服务器可以获取预先被配置的初始的超参数搜索方式。
在本公开实施例中,服务器支持多种超参数搜索方式,数据科学家可以从多种超参数搜索方式中配置适应于本次分类的超参数搜索方式,进而服务器基于被配置的超参数搜索方式进行获取各组测试超参数,能够提高超参数获取的效率和准确性。
需要说明的另一点是,服务器可以每获取一组测试超参数,就以该组测试超参数作为对应的第一目标分类模型的超参数,对多媒体文件子集合进行分类,基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数的性能参数。服务器也可以获取多组测试超参数,再分别以各组测试超参数作为对应的第一目标分类模型的超参数,对多媒体文件子集合进行分类,基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数的性能参数。
在步骤S2042中,服务器根据第一目标分类模型对应于各组测试超参数对应的性能参数,确定第一目标分类模型对应的目标超参数。
服务器可以根据第一目标分类模型对应于各组测试超参数对应的性能参数和第一目标条件,从各组测试超参数中,确定第一目标分类模型对应的目标超参数。
在一种可能的实现方式中,性能参数为轮廓系数,第一目标条件可以为第一目标分类模型对应于目标超参数对应的性能参数为第一目标分类模型对应于各组测试超参数对应的性能参数中最接近第三阈值的性能参数。服务器可以将对应于轮廓系数最接近第三阈值的测试超参数确定为目标超参数。
在另一种可能的实现方式中,性能参数为纯度,第一目标条件可以为纯度大于第四阈值,服务器可以将对应于纯度大于第四阈值的测试超参数确定为目标超参数。
在步骤S2043中,服务器将第一目标分类模型的原超参数更新为对应的目标超参数。
在本公开实施例中,服务器分别以各组测试超参数作为多媒体文件子集合对应的第一目标分类模型的超参数,对该多媒体文件子集合进行分类,基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数对应的性能参数,根据第一目标分类模型对应于各组测试超参数对应的性能参数,确定第一目标分类模型对应的目标超参数。将各组测试超参数应用于第一目标分类模型中,基于对多媒体文件子集合的分类结果,确定对应的性能参数,进而根据该性能参数,自动确定使第一目标分类模型的性能参数满足第一目标条件目标超参数,减少了人工调优超参数的工作量,提高了目标超参数的确定效率。并且,服务器自动进行目标超参数的确定,用户不需要具备超参数选取的相关知识,也可以得到使第一目标分类模型的性能参数满足第一目标条件目标超参数,降低了对多媒体文件集合进行分类的技术门槛。并且,目标超参数是基于多媒体文件子集合的分类结果确定的,由于多媒体文件子集合包括多媒体文件集合中的部分第一多媒体文件,能够提高目标超参数对于多媒体文件集合的适用性。并且,多媒体文件子集合的数据量较小,能够进一步提高目标超参数的确定效率。
需要说明的一点是,服务器将第一目标分类模型的原超参数更新为对应的目标超参数之后,可以将更新后的第一目标分类模型存储在模型数据库中。当服务器下一次为多媒体文件子集合确定对应的第一目标分类模型为该第一目标分类模型,服务器可以从模型数据库中恢复加载该第一目标分类模型,在该第一目标分类模型的基础上,继续执行根据每个多媒体文件子集合和对应的第一目标分类模型,将该第一目标分类模型的原超参数更新为对应的目标超参数的步骤。
在本公开实施例中,服务器可以将本次确定的第一目标分类模型存储在模型数据库中,在下一次确定到该第一目标分类模型时,可以从模型数据库中恢复加载第一目标分类模型,在该第一目标分类模型的基础上,继续进行目标超参数的确定,能够进一步提高目标超参数确定的准确率,提高更新后的第一目标分类模型的分类性能,进而提高对多媒体文件集合进行分类的准确性。
在步骤S205中,服务器从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于第二目标分类模型对多媒体文件集合进行分类。
第二目标条件可以为预先设定的条件,第二目标条件用于从多个第一目标分类模型中确定分类性能最优的第二目标分类模型。第二目标条件可以为性能参数大于第五阈值。例如,性能参数可以为轮廓系数,第二目标条件可以为轮廓系数大于第五阈值,第五阈值可以为任一数值,如0.8、0.9或0.95等。
在一种可能的实现方式中,服务器从更新后的多个第一目标分类模型中,可以确定出一个性能参数满足第二目标条件的第二目标分类模型。
在另一种可能的实现方式中,服务器从更新后的多个第一目标分类模型中,可以确定出多个性能参数满足第二目标条件的第二目标分类模型。
服务器基于第二目标分类模型对多媒体文件集合进行分类,可以得到多媒体文件集合的分类结果,该分类结果包括多媒体文件集合的多个文件类别的代表文件以及多媒体文件集合中每个第一多媒体文件对应的文件类别。
在步骤S206中,服务器基于第二目标分类模型对多媒体文件集合的分类结果,确定第二多媒体文件对应的文件类别。
第二多媒体文件为待分类的多媒体文件,且第二多媒体文件为多媒体文件集合之外的多媒体文件。
在一种可能的实现方式中,服务器从更新后的多个第一目标分类模型中,确定出一个第二目标分类模型。服务器可以根据该第二目标分类模型的分类结果,确定第二多媒体文件对应的文件类别,相应的,本步骤可以为:服务器从第二目标分类模型对多媒体文件集合的分类结果中,获取多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;确定第二多媒体文件与每个文件类别的代表文件的距离;根据第二多媒体文件与每个文件类别的代表文件的距离,将与第二多媒体文件距离最近的代表文件对应的文件类别确定为第二多媒体文件对应的文件类别。
在另一种可能的实现方式中,服务器从更新后的多个第一目标分类模型中,确定出多个第二目标分类模型,服务器可以根据每个第二目标分类模型对于多媒体文件集合的性能参数,确定满足第三目标条件的第三目标分类模型,根据第三目标分类模型对多媒体文件集合的分类结果,确定第二多媒体文件对应的文件类别。相应的,服务器基于第二目标分类模型对多媒体文件集合的分类结果,确定第二多媒体文件对应的文件类别的步骤可以为:服务器基于第二目标分类模型对多媒体文件集合的分类结果,确定第二目标分类模型的性能参数;根据第二目标分类模型的性能参数,确定满足第三目标条件的第三目标分类模型;根据第二多媒体文件和第三目标分类模型对多媒体文件集合的分类结果,确定第二多媒体文件对应的文件类别。
第三目标条件可以为预先设定的条件,第三目标条件用于从多个第二目标分类模型中确定分类性能最优的第三目标分类模型。第三目标条件可以为第三目标分类模型对于多媒体文件集合的性能参数在多个第二目标分类模型对于多媒体文件集合的性能参数中最大。例如,性能参数可以为轮廓系数,第三目标条件可以为第三目标分类模型对于多媒体文件集合的性能参数在多个第二目标分类模型对于多媒体文件集合的性能参数中最接近第六阈值的性能参数,第六阈值可以为1。
服务器可以根据第三目标分类模型对多媒体文件集合的分类结果中的多个文件类别的代表文件与第二多媒体文件的分类,确定第二多媒体文件对应的文件类别,相应的,服务器根据第二多媒体文件和第三目标分类模型对多媒体文件集合的分类结果,确定第二多媒体文件对应的文件类别的步骤可以为:服务器从第三目标分类模型对多媒体文件集合的分类结果中,获取多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;确定第二多媒体文件与每个文件类别的代表文件的距离;根据第二多媒体文件与每个文件类别的代表文件的距离,将与第二多媒体文件距离最近的代表文件对应的文件类别确定为第二多媒体文件对应的文件类别。
在本公开实施例中,服务器可以根据多个第二目标分类模型对于多媒体文件集合的性能参数,从多个第二目标分类模型中确定满足第三目标条件的第三目标分类模型,基于第三目标分类模型,确定第二多媒体文件对应的文件类别。考察了多个第二目标分类模型对于多媒体文件集合的性能参数,确定出的第三目标分类模型对于多媒体文件集合分类的适用性更强,基于第三目标分类模型对于多媒体文件集合的分类结果,对第二多媒体文件进行分类,能够提高对第二多媒体文件进行分类的准确性。
在本公开实施例中,通过为多媒体文件集合的多个多媒体文件子集合分别确定对应的第一目标分类模型,从而以具有相对较少数据量的子集合中的多媒体文件,来分别对每个多媒体文件子集合对应的第一目标分类模型进行超参数的更新,从而找到能够使得性能参数较好的超参数,为各个第一目标分类模型确定较优化的配置,进而能够基于优化后的多个第一目标分类模型,进一步参考模型性能来确定用于对多媒体文件集合进行分类的第二目标分类模型,来实现分类,上述技术方案,通过包含较少数据量的各个子集合来分别训练各个第一目标分类模型的超参数,以相对较小的代价完成了对模型超参数的更新,进而基于更新后的模型和模型性能进一步选择分类所用模型,从而在保证了备选模型的性能,降低了模型选择过程所需的时间,能够提高对多媒体文件集合进行分类的效率。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图5是根据一示例性实施例示出的一种多媒体文件处理装置的框图。参见图5,该装置包括获取单元501、第一确定单元502、更新单元503和分类单元504。
获取单元501,被配置为执行获取多媒体文件集合的多个多媒体文件子集合,多媒体文件集合包括多个第一多媒体文件;
第一确定单元502,被配置为执行从多个分类模型中,为多个多媒体文件子集合分别确定对应的第一目标分类模型;
更新单元503,被配置为执行根据每个多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,目标超参数使得第一目标分类模型的性能参数满足第一目标条件,性能参数用于表示对应的分类模型的分类性能;
分类单元504,被配置为执行从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于第二目标分类模型对多媒体文件集合进行分类。
在一种可能的实现方式中,第一确定单元502包括:
第一确定子单元,被配置为执行对于每个多媒体文件子集合,根据每个分类模型的性能参数和多媒体文件集合的数据量,确定每个分类模型的采样权重,采样权重用于表示分类模型被确定为第一目标分类模型的权重;
第二确定子单元,被配置为执行根据每个分类模型的采样权重,从多个分类模型中,确定每个多媒体文件子集合分别对应的第一目标分类模型。
在另一种可能的实现方式中,性能参数包括分类速度和轮廓系数,第一确定子单元,被配置为执行:
根据每个分类模型的分类速度在多个分类模型中的排序,确定每个分类模型的速度排名信息;
根据每个分类模型的轮廓系数在多个分类模型中的排序,确定每个分类模型的性能排名信息;
根据每个分类模型的速度排名信息、性能排名信息和多媒体文件集合的数据量,确定每个分类模型的采样权重。
在另一种可能的实现方式中,第二确定子单元,被配置为执行:
根据多个分类模型的采样权重的和值以及每个分类模型的采样权重,确定每个分类模型的采样信息,采样信息用于表示对应的分类模型被确定为第一目标分类模型的概率;
根据每个分类模型的采样信息,从多个分类模型中,确定每个多媒体文件子集合分别对应的第一目标分类模型。
在另一种可能的实现方式中,更新单元503,被配置为执行:
对于任一个多媒体文件子集合,分别以各组测试超参数作为对应的第一目标分类模型的超参数,对多媒体文件子集合进行分类,基于对应的分类结果,确定第一目标分类模型对应于各组测试超参数的性能参数;
根据第一目标分类模型对应于各组测试超参数对应的性能参数,确定第一目标分类模型对应的目标超参数;
将第一目标分类模型的原超参数更新为对应的目标超参数。
在另一种可能的实现方式中,该多媒体文件处理装置还包括:
第二确定单元,被配置为执行基于第二目标分类模型对多媒体文件集合的分类结果,确定第二目标分类模型的性能参数;
第三确定单元,被配置为执行根据第二目标分类模型的性能参数,确定满足第三目标条件的第三目标分类模型;
第四确定单元,被配置为执行根据第二多媒体文件和第三目标分类模型对多媒体文件集合的分类结果,确定第二多媒体文件对应的文件类别。
在另一种可能的实现方式中,第四确定单元,被配置为执行:
从第三目标分类模型对多媒体文件集合的分类结果中,获取多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;
确定第二多媒体文件与每个文件类别的代表文件的距离;
根据第二多媒体文件与每个文件类别的代表文件的距离,将与第二多媒体文件距离最近的代表文件对应的文件类别确定为第二多媒体文件对应的文件类别。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是:上述实施例提供的多媒体文件处理装置在处理多媒体文件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多媒体文件处理装置与多媒体文件处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在本公开实施例中,通过为多媒体文件集合的多个多媒体文件子集合分别确定对应的第一目标分类模型,从而以具有相对较少数据量的子集合中的多媒体文件,来分别对每个多媒体文件子集合对应的第一目标分类模型进行超参数的更新,从而找到能够使得性能参数较好的超参数,为各个第一目标分类模型确定较优化的配置,进而能够基于优化后的多个第一目标分类模型,进一步参考模型性能来确定用于对多媒体文件集合进行分类的第二目标分类模型,来实现分类,上述技术方案,通过包含较少数据量的各个子集合来分别训练各个第一目标分类模型的超参数,以相对较小的代价完成了对模型超参数的更新,进而基于更新后的模型和模型性能进一步选择分类所用模型,从而在保证了备选模型的性能,降低了模型选择过程所需的时间,能够提高对多媒体文件集合进行分类的效率。
图6根据一示例性实施例示出的一种服务器的框图,该服务器600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)601和一个或一个以上的存储器602,其中,存储器602中存储有至少一条指令,至少一条指令由处理器601加载并执行以实现上述各个方法实施例提供的多媒体文件处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器602,上述指令可由服务器600的处理器601执行以完成上述多媒体文件处理方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
本公开还提供了一种计算机程序产品,当计算机程序产品中的指令由服务器的处理器执行时,使得服务器能够执行上述各个方法实施例提供的多媒体文件处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种多媒体文件处理方法,其特征在于,所述方法包括:
获取多媒体文件集合的多个多媒体文件子集合,所述多媒体文件集合包括多个第一多媒体文件;
对于每个所述多媒体文件子集合,根据每个分类模型的性能参数和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重,所述性能参数包括分类速度和轮廓系数,所述采样权重用于表示所述分类模型被确定为第一目标分类模型的权重,所述采样权重与所述分类模型被确定为所述第一目标分类模型的可能性呈正相关,所述采样权重与所述分类模型的分类速度和轮廓系数呈正相关,所述采样权重与所述多媒体文件集合的数据量呈负相关;
根据每个所述分类模型的采样权重,从多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型;
根据每个所述多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,所述目标超参数使得所述第一目标分类模型的性能参数满足第一目标条件,所述性能参数用于表示对应的分类模型的分类性能;
从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于所述第二目标分类模型对所述多媒体文件集合进行分类。
2.根据权利要求1所述的多媒体文件处理方法,其特征在于,所述根据每个分类模型的性能参数和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重,包括:
根据每个所述分类模型的分类速度在所述多个分类模型中的排序,确定每个所述分类模型的速度排名信息;
根据每个所述分类模型的轮廓系数在所述多个分类模型中的排序,确定每个所述分类模型的性能排名信息;
根据每个所述分类模型的速度排名信息、性能排名信息和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重。
3.根据权利要求1所述的多媒体文件处理方法,其特征在于,所述根据每个所述分类模型的采样权重,从多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型,包括:
根据所述多个分类模型的采样权重的和值以及每个所述分类模型的采样权重,确定每个所述分类模型的采样信息,所述采样信息用于表示对应的分类模型被确定为所述第一目标分类模型的概率;
根据每个所述分类模型的采样信息,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型。
4.根据权利要求1所述的多媒体文件处理方法,其特征在于,所述根据每个所述多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,包括:
对于任一个多媒体文件子集合,分别以各组测试超参数作为对应的第一目标分类模型的超参数,对所述多媒体文件子集合进行分类,基于对应的分类结果,确定所述第一目标分类模型对应于各组测试超参数的性能参数;
根据所述第一目标分类模型对应于各组测试超参数对应的性能参数,确定所述第一目标分类模型对应的目标超参数;
将所述第一目标分类模型的原超参数更新为对应的目标超参数。
5.根据权利要求1所述的多媒体文件处理方法,其特征在于,所述从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于所述第二目标分类模型对所述多媒体文件集合进行分类之后,所述方法还包括:
基于所述第二目标分类模型对所述多媒体文件集合的分类结果,确定所述第二目标分类模型的性能参数;
根据所述第二目标分类模型的性能参数,确定满足第三目标条件的第三目标分类模型;
根据第二多媒体文件和所述第三目标分类模型对所述多媒体文件集合的分类结果,确定所述第二多媒体文件对应的文件类别。
6.根据权利要求5所述的多媒体文件处理方法,其特征在于,所述根据第二多媒体文件和所述第三目标分类模型对所述多媒体文件集合的分类结果,确定所述第二多媒体文件对应的文件类别,包括:
从所述第三目标分类模型对所述多媒体文件集合的分类结果中,获取所述多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;
确定所述第二多媒体文件与每个文件类别的代表文件的距离;
根据所述第二多媒体文件与每个文件类别的代表文件的距离,将与所述第二多媒体文件距离最近的代表文件对应的文件类别确定为所述第二多媒体文件对应的文件类别。
7.一种多媒体文件处理装置,其特征在于,所述装置包括:
获取单元,被配置为执行获取多媒体文件集合的多个多媒体文件子集合,所述多媒体文件集合包括多个第一多媒体文件;
第一确定子单元,被配置为执行对于每个所述多媒体文件子集合,根据每个分类模型的性能参数和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重,所述性能参数包括分类速度和轮廓系数,所述采样权重用于表示所述分类模型被确定为第一目标分类模型的权重,所述采样权重与所述分类模型被确定为所述第一目标分类模型的可能性呈正相关,所述采样权重与所述分类模型的分类速度和轮廓系数呈正相关,所述采样权重与所述多媒体文件集合的数据量呈负相关;
第二确定子单元,被配置为执行根据每个所述分类模型的采样权重,从多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型;
更新单元,被配置为执行根据每个所述多媒体文件子集合和对应的第一目标分类模型,将多个第一目标分类模型的原超参数分别更新为对应的目标超参数,所述目标超参数使得所述第一目标分类模型的性能参数满足第一目标条件,所述性能参数用于表示对应的分类模型的分类性能;
分类单元,被配置为执行从更新后的多个第一目标分类模型中,确定性能参数满足第二目标条件的第二目标分类模型,基于所述第二目标分类模型对所述多媒体文件集合进行分类。
8.根据权利要求7所述的多媒体文件处理装置,其特征在于,所述第一确定子单元,被配置为执行:
根据每个所述分类模型的分类速度在所述多个分类模型中的排序,确定每个所述分类模型的速度排名信息;
根据每个所述分类模型的轮廓系数在所述多个分类模型中的排序,确定每个所述分类模型的性能排名信息;
根据每个所述分类模型的速度排名信息、性能排名信息和所述多媒体文件集合的数据量,确定每个所述分类模型的采样权重。
9.根据权利要求7所述的多媒体文件处理装置,其特征在于,所述第二确定子单元,被配置为执行:
根据所述多个分类模型的采样权重的和值以及每个所述分类模型的采样权重,确定每个所述分类模型的采样信息,所述采样信息用于表示对应的分类模型被确定为所述第一目标分类模型的概率;
根据每个所述分类模型的采样信息,从所述多个分类模型中,确定每个所述多媒体文件子集合分别对应的第一目标分类模型。
10.根据权利要求7所述的多媒体文件处理装置,其特征在于,所述更新单元,被配置为执行:
对于任一个多媒体文件子集合,分别以各组测试超参数作为对应的第一目标分类模型的超参数,对所述多媒体文件子集合进行分类,基于对应的分类结果,确定所述第一目标分类模型对应于各组测试超参数的性能参数;
根据所述第一目标分类模型对应于各组测试超参数对应的性能参数,确定所述第一目标分类模型对应的目标超参数;
将所述第一目标分类模型的原超参数更新为对应的目标超参数。
11.根据权利要求7所述的多媒体文件处理装置,其特征在于,所述多媒体文件处理装置还包括:
第二确定单元,被配置为执行基于所述第二目标分类模型对所述多媒体文件集合的分类结果,确定所述第二目标分类模型的性能参数;
第三确定单元,被配置为执行根据所述第二目标分类模型的性能参数,确定满足第三目标条件的第三目标分类模型;
第四确定单元,被配置为执行根据第二多媒体文件和所述第三目标分类模型对所述多媒体文件集合的分类结果,确定所述第二多媒体文件对应的文件类别。
12.根据权利要求11所述的多媒体文件处理装置,其特征在于,所述第四确定单元,被配置为执行:
从所述第三目标分类模型对所述多媒体文件集合的分类结果中,获取所述多媒体文件集合的多个文件类别的代表文件,一个代表文件用于表示一个文件类别的簇心;
确定所述第二多媒体文件与每个文件类别的代表文件的距离;
根据所述第二多媒体文件与每个文件类别的代表文件的距离,将与所述第二多媒体文件距离最近的代表文件对应的文件类别确定为所述第二多媒体文件对应的文件类别。
13.一种服务器,其特征在于,所述服务器包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的多媒体文件处理方法。
14.一种存储介质,其特征在于,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至6中任一项所述的多媒体文件处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010408877.XA CN111581164B (zh) | 2020-05-14 | 2020-05-14 | 多媒体文件处理方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010408877.XA CN111581164B (zh) | 2020-05-14 | 2020-05-14 | 多媒体文件处理方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581164A CN111581164A (zh) | 2020-08-25 |
CN111581164B true CN111581164B (zh) | 2024-01-09 |
Family
ID=72126563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010408877.XA Active CN111581164B (zh) | 2020-05-14 | 2020-05-14 | 多媒体文件处理方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581164B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063736A (zh) * | 2018-06-29 | 2018-12-21 | 考拉征信服务有限公司 | 数据分类方法、装置、电子设备及计算机可读存储介质 |
CN109214436A (zh) * | 2018-08-22 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种针对目标场景的预测模型训练方法及装置 |
CN110033093A (zh) * | 2019-02-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 超参数确定方法、装置及设备 |
CN110825894A (zh) * | 2019-09-18 | 2020-02-21 | 平安科技(深圳)有限公司 | 数据索引建立、数据检索方法、装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180210944A1 (en) * | 2017-01-26 | 2018-07-26 | Agt International Gmbh | Data fusion and classification with imbalanced datasets |
-
2020
- 2020-05-14 CN CN202010408877.XA patent/CN111581164B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063736A (zh) * | 2018-06-29 | 2018-12-21 | 考拉征信服务有限公司 | 数据分类方法、装置、电子设备及计算机可读存储介质 |
CN109214436A (zh) * | 2018-08-22 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 一种针对目标场景的预测模型训练方法及装置 |
CN110033093A (zh) * | 2019-02-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 超参数确定方法、装置及设备 |
CN110825894A (zh) * | 2019-09-18 | 2020-02-21 | 平安科技(深圳)有限公司 | 数据索引建立、数据检索方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111581164A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hancer et al. | A survey on feature selection approaches for clustering | |
Wang et al. | Fast approximate k-means via cluster closures | |
CN107832456B (zh) | 一种基于临界值数据划分的并行knn文本分类方法 | |
CN112395487B (zh) | 信息推荐方法、装置、计算机可读存储介质及电子设备 | |
US20080071764A1 (en) | Method and an apparatus to perform feature similarity mapping | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN114238329A (zh) | 向量相似度计算方法、装置、设备及存储介质 | |
CN114048318A (zh) | 基于密度半径的聚类方法、系统、设备及存储介质 | |
CN112632984A (zh) | 基于描述文本词频的图模型移动应用分类方法 | |
CN109784354B (zh) | 基于改进分类效用的无参数聚类方法及电子设备 | |
CN113326432A (zh) | 一种基于决策树与推荐方法的模型优选方法 | |
CN113486670A (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN117312681A (zh) | 面向元宇宙的用户偏好产品推荐方法及系统 | |
CN111581164B (zh) | 多媒体文件处理方法、装置、服务器及存储介质 | |
Yu et al. | A classifier chain algorithm with k-means for multi-label classification on clouds | |
CN115600017A (zh) | 特征编码模型训练方法及装置、媒体对象推荐方法及装置 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113704617A (zh) | 物品推荐方法、系统、电子设备及存储介质 | |
CN111291182A (zh) | 热点事件发现方法、装置、设备及存储介质 | |
Alamdar et al. | Effective browsing of image search results via diversified visual summarization by clustering and refining clusters | |
JP2008165572A (ja) | データ分類装置、データ分類プログラム | |
CN114840686B (zh) | 基于元数据的知识图谱构建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |