CN115187809A - 分类及分类模型训练方法、装置及存储介质 - Google Patents
分类及分类模型训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115187809A CN115187809A CN202210813655.5A CN202210813655A CN115187809A CN 115187809 A CN115187809 A CN 115187809A CN 202210813655 A CN202210813655 A CN 202210813655A CN 115187809 A CN115187809 A CN 115187809A
- Authority
- CN
- China
- Prior art keywords
- classification
- commodity
- classification model
- weight
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 273
- 238000013145 classification model Methods 0.000 title claims abstract description 256
- 238000000034 method Methods 0.000 title claims abstract description 130
- 239000013598 vector Substances 0.000 claims abstract description 119
- 230000008569 process Effects 0.000 claims abstract description 47
- 238000010606 normalization Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000004590 computer program Methods 0.000 claims description 24
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000002596 correlated effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种分类及分类模型训练方法、装置及存储介质,本申请可应用于音乐、视频、语音等领域,该分类方法包括:获取目标短视频,并从目标短视频中获取N张第一图像;针对N张第一图像中的每一张第一图像,通过分类模型预测第一图像所包括的商品类别,其中分类模型在训练过程中对权值向量进行归一化处理;根据N张第一图像所包括的商品类别,确定推荐信息。本申请在分类模型的训练过程中,对权值向量进行归一化处理,这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而提升分类模型对长尾数据的学习。这样使用训练后的分类模型进行商品预测时,可以对目标短视频中的长尾商品进行准确识别,进而提高了商品识别准确性。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种分类及分类模型训练方法、装置及存储介质。
背景技术
随着电子商务技术的发展,视频号商品或直播带货。在视频号商品或直播带货中包括多种商品,需要对这多种商品进行分类。
商品类图片一般种类繁多,经常存在部分商品数据标准样本不够,存在训练样本不均的问题。此时,使用通用的分类模型识别短视频中商品的分类,存在分类不准确的问题。
发明内容
本申请提供一种分类及分类模型训练方法、装置及存储介质,可以实现对短视频中商品的准确识别。
第一方面,本申请提供一种分类方法,包括:
获取目标短视频,并从所述目标短视频中获取N张第一图像,所述N为正整数;
针对所述N张第一图像中的每一张第一图像,通过分类模型预测所述第一图像所包括的商品类别,其中所述分类模型在训练过程中对权值向量进行归一化处理;
根据所述N张第一图像所包括的商品类别,确定推荐信息。
在一些实施例中,所述分类模型在训练过程中对所述权值向量进行归一化处理包括:
对所述权值向量进行分解,得到参数向量和参数标量;
根据所述参数向量和所述参数标量,对所述权值向量进行归一化处理。
在一些实施例中,所述分类模型在训练过程中的损失是根据第一权重,以及所述分类模型预测的训练图像中商品的分类预测值确定的;
其中,所述第一权重是根据所述训练图像所属的样本类别所包括的训练数据,在训练数据集中的占比确定的,所述占比与所述第一权重成负相关。
在一些实施例中,所述损失是根据所述第一权重和所述训练图像中的商品属于第一分类的预测值确定的,所述第一分类为所述训练图像中商品的真实分类。
在一些实施例中,所述损失是根据所述第一权重、第二权重和所述训练图像中的商品属于第一分类的预测值确定的;
其中,所述第二权重是根据所述训练图像中的商品属于第一分类的预测值确定的,所述第二权重与所述训练图像中商品属于第一分类的预测值负相关。
在一些实施例中,所述第二权重为第一数值与所述训练图像中商品属于第一分类的预测值的差值,所述第一数值为正数。
在一些实施例中,所述第二权重为第一数值与所述训练图像中商品属于第一分类的预测值之间的差值的r次方,所述第一数值为正数,所述r为非负数。
在一些实施例中,所述损失为第一乘积的负数与第二数值的乘积,所述第二数值是对所述商品属于第一分类的预测值进行对数运算得到的,所述第一乘积为所述第一权重与所述第二权重的乘积。
第二方面,本申请提供一种分类模型训练方法,包括:
获取训练图像,并通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值,所述训练图像包括短视频中的商品图像帧;
根据所述商品的分类预测值,确定所述分类模型的损失;
对所述分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量;
根据所述损失对所述归一化后的权值向量进行更新,得到训练后的所述分类模型。
第三方面,本申请提供了一种分类装置,包括:
获取单元,用于获取目标短视频,并从所述目标短视频中获取N张第一图像,所述N为正整数;
分类单元,用于针对所述N张第一图像中的每一张第一图像,通过分类模型预测所述第一图像所包括的商品类别,其中所述分类模型在训练过程中对权值向量进行归一化处理;
推荐单元,用于根据所述N张第一图像所包括的商品类别,确定推荐信息。
第四方面,本申请提供了一种分类模型训练装置,包括:
分类单元,用于获取训练图像,并通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值,所述训练图像包括短视频中的商品图像帧;
损失确定单元,用于根据所述商品的分类预测值,确定所述分类模型的损失;
归一化单元,用于对所述分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量;
更新单元,用于根据所述损失对所述归一化后的权值向量进行更新,得到训练后的所述分类模型。
第五方面,本申请提供了一种电子设备,包括处理器和存储器。所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行上述第一方面或第二方面中的方法。
第六方面,提供了一种芯片,用于实现上述第一方面或第二方面中任一方面或其各实现方式中的方法。具体地,所述芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上述第一方面中任一方面或其各实现方式中的方法。
第七方面,提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序使得计算机执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。
第八方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令使得计算机执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。
第九方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面中任一方面或其各实现方式中的方法。
综上,本申请通过获取目标短视频,并从目标短视频中获取N张第一图像,N为正整数;针对N张第一图像中的每一张第一图像,通过分类模型预测第一图像所包括的商品类别,其中分类模型在训练过程中对权值向量进行归一化处理;根据N张第一图像所包括的商品类别,确定推荐信息。由于本申请实施例的分类模型在训练过程中,对权值向量进行归一化处理,这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而使得分类模型实现对样本不均的训练数据的平衡训练,提升分类模型对长尾数据的学习。这样使用训练后的分类模型进行商品预测时,可以对目标短视频中的长尾商品进行准确识别,进而提高了商品识别准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例涉及的一种应用场景示意图;
图2为本申请一实施例提供的分类模型训练方法的流程示意图;
图3为不同类型服装的示意图;
图4为不同样分布示意图;
图5A至图5E不同版本的EfficientNet的网络结构示意图;
图6为EfficientNet与其他网络以及不同版本的EfficientNet网络之间的对比示意图;
图7为分类网络输出节点示意图;
图8为本申请一实施例提供的分类方法流程示意图;
图9为本申请实施例涉及的推荐信息示意图;
图10是本申请一实施例提供的分类装置的示意性框图;
图11是本申请一实施例提供的分类模型训练装置的示意性框图;
图12是本申请实施例提供的电子设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应理解,在本发明实施例中,“与A对应的B”表示B与A相关联。在一种实现方式中,可以根据A确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
在本申请的描述中,除非另有说明,“多个”是指两个或多于两个。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
为了便于理解本申请的实施例,首先对本申请实施例涉及到的相关概念进行如下简单介绍:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如在智能搜索、智能分类等领域得到应用,并发挥越来越重要的价值。
本申请实施例,借助于人工智能技术,实现对短视频中商品的准确分类,例如对短视频中商品的准确分类。
本申请实施例提供的分类方法,可以应用于视频号商品带货或直播带货或视频商品搜索等潜在应用中。
图1为本申请实施例涉及的一种应用场景示意图,包括终端设备101和服务器102。
终端设备101可包括但不限于:PC(Personal Computer,个人计算机)、PDA(平板电脑)、手机、可穿戴智能设备、智能语音交互设备、智能家电、车载终端等等。设备往往配置有显示装置,显示装置也可为显示器、显示屏、触摸屏等等,触摸屏也可为触控屏、触控面板等等,显示装置可用来显示推荐信息等等。
服务器102可以是一台或多台。服务器102是多台时,存在至少两台服务器用于提供不同的服务,和/或,存在至少两台服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。其中,上述服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102也可以成为区块链的节点。
终端设备101与服务器102之间可以通过有线通信或者无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,本申请实施例的服务器102可以实现对本申请实施例涉及的分类模型进行训练,并对训练好的分类模型进行存储。
在一些实施例中,本申请实施例的分类方法可以由终端设备101完成。例如,终端设备101获取目标短视频,并加载服务器102中训练好的分类模型,且通过本申请实施例的方法,预测目标短视频对应的商品的分类,并根据商品的分类,确定推荐信息。
在一些实施例中,本申请实施例的分类方法可以由服务器102完成。例如,终端设备101将目标短视频发送给服务器102,服务器102使用训练好的分类模型,识别目标短视频中商品的分类,并根据商品的分类,确定推荐信息,并且将推荐信息发送给终端设备101进行显示。
在一些实施例中,本申请实施例的分类方法可以由终端设备101和服务器102共同完成,例如,服务器102执行网络模型相关的操作,终端设备101执行除网络模型之外的其他操作。示例性的,终端设备101获取目标短视频,并从目标短视频中获取N张第一图像,且将N张第一图像发送给服务器102。服务器102使用分类模型,预测N张第一图像中每一张第一图像所包括的商品的类别。接着,根据商品的类别,确定推荐信息,最后,将推荐信息发送给终端设备101进行显示。
需要说明的是,本申请实施例的应用场景包括但不限于图1所示。
下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
首先对本申请实施例涉及的分类模型的训练过程进行介绍。
图2为本申请一实施例提供的分类模型训练方法的流程示意图。
本申请实施例执行主体为具有模型训练功能的装置,例如分类模型训练装置。在一些实施例中,该分类模型训练装置可以为服务器。在一些实施例中,该分类模型训练装置可以为终端设备。在一些实施例中,该分类模型训练装置可以为服务器和终端设备组成的系统。其中服务器和终端设备均可以理解为电子设备,因此为了便于描述,下面以执行主体为电子设备为例进行说明。
如图2所示,本申请实施例的模型训练方法包括:
S201、获取训练图像,并通过分类模型对训练图像中的商品进行分类,得到商品的分类预测值。
其中,训练图像包括短视频中的商品图像帧。
由于视频中商品的变形、遮挡、运动模糊等原因,使得视频中的商品图像与商品的真实图像有些许差异。为了提高分类模型对短视频中商品分类的准确识别,则本申请实施例可以将短视频中的商品图像帧作为训练图像,对分类模型进行训练。例如,从直播短视频或视频号短视频中,提取包括目标商品的图像帧,将这些图像帧作为训练图像。
在一些实施例中,还可以将商品库中商品图像作为分类模型的训练图像。
以视频号中的服装类商品识别为例,从图3可以看出不同的服装类型,其类间差异可能比较小,例如背心上衣、无袖上衣与吊带上衣,而类内差异可能比较大,例如在短袖上衣中,女装有各种类型。因此,一个质量好的分类模型,期望可以实现对商品的精细准确分类。
继续以视频号中服装类的商品识别真实场景为例,从图4所示的收集和标注的样本数据分布看,训练数据集包括接近30万张图片,其中短袖上衣等头部类别数量非常多,而背心上衣,长马甲等类别数量非常少。因此,通常的分类模型对样本的分布非常敏感,一般会默认更加拟合样本数更多的类别效果,对样本数量少的长尾样本欠拟合。也就是说,目前的分类模型,对长尾商品的学习不够,进而无法实现对长尾商品的准确分类。其中,长尾商品可以理解为出现需求不旺或销量不佳的被封尘的商品。
为了解决由于长尾样本不足,导致分类模型对商品识别准确率不够的问题,本申请实施例,在分类模型的训练过程中,对分类模型的权值向量进行归一化处理,进而根据分类模型的损失对归一化后的权值向量进行更新优化,以增加分类模型对长尾样本的关注度,增强分类模型对长尾样本的学习,进而提升分类模型的分类准确性。
本申请实施例中,训练数据集中包括多张训练图像,使用每一张训练图像对分类模型进行训练的过程一致,为了便于描述,本申请实施例以一张训练图像为例进行说明。
本申请实施例对分类模型的具体网络结构不做限制,可以是任意可以实现图像分类的模型。
在一些实施例中,本申请实施例的分类模型的骨干网络可以为EfficientNet(高效网络)。
EfficientNet是基于MnasNet,且采取了同时优化精度(ACC)以及计算量(FLOPS)的方法得到的网络模型。
示例性的,初代的EfficientNet即EfficientNet-B0的结构如表1所示:
表1
如表1可知,EfficientNet-B0包括9层,第一层为3*3的卷积层,第2~8层为不同MB卷积块建立的网络注意力机制层,最后第9层为经过一个1*1卷积操作和迟化后,再加一个全连接层构成。
EfficientNet是一种多维度混合的模型放缩方法,以神经网络架构为基础,对网络的深度,宽度以及输入尺寸(即分辨率)进行优化,获取更高效的结构。
其中,深度depth,即网络的层数,网络越深,网络能捕捉更丰富,更复杂的特征。
宽度width,即通道数,通道数越深,网络更容易捕捉细粒度特征(fine-grainedfeatures),更容易训练。
分辨率resolution,即图片长宽乘积。分辨率越高,图像信息损失越少,捕捉细粒度模态(fine-grained patterns)的能力越强。
如图5A所示,图5A为基础网络,即EfficientNet-B0。图5B、图5C、图5C所示的三个网络分别是对图5A所示的基础网络的宽度、深度、和输入分辨率(resolution)进行扩展,即单独对某一个维度进行扩展。图5E所示的网络是综合宽度、深度和分辨率图5A所示的基础网络进行扩展,平衡了三个维度。
需要说明的是,在对图5A为基础网络进行扩展时,放大网络宽度、深度或分辨率中任何一个维度都可以提高准确率。
图6为EfficientNet与其他网络以及不同版本的EfficientNet网络之间的对比示意图,如图6所示,可以看出EfficientNet相对于其他网络,精度有较大的突破。
进一步的,如图6所示,不同的efficientNet版本,从B0~BN,对应不同的模型精度效果和模型参数规模。理论上要获取最高的84%模型精度,应该选取efficientNet-B7,但这意味着模型参数量要达到66M,这给实际应用中的模型训练时间和算力资源带来了挑战。本申请实施例,综合考虑在视频号或直播场景下能接受的商品识别精度和现有训练资源,选择EfficientNet-B3作为分类模型。
需要说明是,EfficientNet-B3只是本申请实施例在考虑训练时间和模型效果平衡时,所选择的分类模型的一种示例,本申请实施例还可以选择其他版本的EfficientNet,或者其他类型的分类模型,本申请实施例对分量模型的具体网络结构不做限制。
在一些实施例中,为了进一步降低模型的训练复杂度,本申请实施例将训练图像缩放至相同的尺寸,即本申请实施例,在将训练模型输入分类模型之前,首先将训练图像的大小缩放至目标大小,接着通过分类模型对目标大小的训练图像中的商品进行分类,得到商品的分类预测值。
本申请实施例对将训练图像的大小缩放至目标大小的具体大小不做限制。
示例性的,目标大小为300*300,即本申请实施例将训练图像的大小统一缩放至300*300的大小后,再输入分类模型中,对分类模型进行训练。
根据上述步骤,将训练图像输入分类模型,分类模型预测出训练图像中商品的分类预测值,接着,执行如下S202的步骤。
S202、根据商品的分类预测值,确定分类模型的损失。
本申请实施例对根据分类模型预测出的商品的分类预测值,确定分类模型的损失的具体方式不做限制。
在一种可能的实现方式中,根据训练图像中该商品的真实分类与分类模型预测出的商品的分类预测值,确定该分类模型的损失。例如,根据训练图像中该商品的真实分类与分类模型预测出的商品的分类预测值之间的偏差,根据该偏差确定该分类模型的损失。
在一种可能的实现方式中,为了提高模型对长尾商品的学习,则上述S202包括如下S202-A至S202-D的步骤:
S202-A、确定训练图像所属的样本类别;
S202-B、确定样本类别所包括的训练数据,在训练数据集中的占比;
S202-C、根据占比,确定第一权重,占比与第一权重成负相关;
S202-D、根据第一权重和商品的分类预测值,确定分类模型的损失。
在该实现方式中,通过确定训练数据集中不同类型训练数据的占比,来确定不同类型的训练数据的权重。即本申请实施例为不同类型的训练数据赋予不同的权重,以增大训练数据集中,数据量较少的训练数据类型的权重,降低数据量较大的训练数据类型的权重,这样使得分类模型对训练数据集中数据量较少的长尾商品的学习,进而使得训练后的分类模型,可以准确预测出长尾商品的类别。
在数据训练时,准备不同商品类型的训练数据。例如,以识别视频或直播中服装类商品的类别为了,收集和标注的样本数据如图4所示。训练收集近30万张图像,如图4所示的不同类型的商品分别可知,短袖上衣等类别的数据量较多,形成头部数据,而背心上衣、长马甲等类别数据量较少,形成长尾数据。而通用的EfficientNet等分类模型,对样本的分布非常敏感,通常分类模型的损失会默认更加拟合样本数更多的类别效果,这将使得分类模型在训练过程中比较关注样本数据较多的商品类型,而忽视样本数据量较少的商品类型,最终导致训练后的分类模型无法准确预测出长尾商品的类别。
为了解决该技术问题,本申请实施例,在模型训练过程中,对损失函数进行优化,以使分类模型在训练样本分布不均时,可以实现对长尾数据的有效学习,进而提高分类模型对长尾商品类别的准确预测。具体的,在确定分类模型的损失时,通过增加长尾数据的权重,以提高分类模型对长尾数据的学习。
下面对本申请实施例中,确定分类模型的损失的具体过程进行介绍。
由上述图4可知,训练数据集中包括不同类型的训练数据,在使用训练数据集中的一张训练图像对分类模型进行训练时,将训练图像输入分类模型中,该分类模型预测出该训练图像中商品的类别预测值。接着,根据类别预测值,确定分类模型的损失,进而根据该损失对分类模型中的参数进行调整,以实现对分类模型的训练。其中,确定分类模型关于该训练图像的损失时,首先确定该训练图像所属的样本类别,例如,图4所示,确定该训练图像是属于短袖上衣还是背心上衣。
接着,确定训练数据集中,训练图像所属的样本类别所包括的训练数据,进而确定该样本类别所包括的训练数据在训练数据集中的占比。
举例说明,假设训练图像为背心上衣的图像,在训练数据集中,确定背心上衣所包括的训练数据假设为100张图像,而训练数据集假设有3万张图像,这样可以确定出背心上衣所包括的训练数据在训练数据集中的占比为100/3万=1/300。
根据上述步骤,确定出训练图像所属的样本类别所包括的训练数据,在训练数据集中的占比后,根据该占比确定训练图像对应的第一权重。本申请实施例中,为了使得分类模型对长尾商品的充分学习,则对长尾商品赋予较大的权重,为头部商品赋予较小的权重。基于此,本申请实施例中,训练图像对应的第一权重与训练图像对应的占比成负相关,即训练图像所属的样本类别所包括的训练数据在训练数据集中的占比较大时,说明该训练图像中的商品为头部商品,给赋予较小的第一权重,若训练图像所属的样本类别所包括的训练数据在训练数据集中的占比较小时,说明该训练图像中的商品为长尾商品,给赋予较大的第一权重。也就是说,训练图像对应的占比越大,训练图像对应的第一权重越小,训练图像对应的占比越小,训练图像对应的第一权重越大。
本申请实施例对根据占比,确定第一权重的具体过程不做限制。
例如,将占比的倒数,确定为第一权重,或者将不同类型的训练样本的占比的倒数进行归一化处理,将归一化处理后的占比的倒数,确定为各占比对应的第一权重。
再例如,第一权重=1-占比。
可选的,还可以根据其他的方式,确定第一权重,本申请实施例对此不做限制,只要保证占比与对应的第一权重负相关即可。
确定出训练图像的第一权重后,执行上述S202-D的步骤,根据第一权重和商品的分类预测值,确定分类模型的损失。
本申请实施例上述S202-D的具体实现方式,包括但不限于如下几种:
方式一,根据分类模型预测的训练图像中商品的分类预测值,确定一个第一损失值,使用第一权重对该第一损失值进行校正,得到训练图像对应的分类模型的损失。例如,将第一权重与第一损失值的乘积的负数,确定为分类模型的损失。其中,根据分类模型预测的训练图像中商品的分类预测值,确定一个第一损失值的具体方式不做限制,可以参照已有的或未来任意损失计算方法可以计算得到。
方式二,上述S202-D包括如下S202-D1和S202-D2的步骤:
S202-D1、从商品的分类预测值中,确定出商品属于第一分类的预测值,第一分类为商品的真实分类;
S202-D2、根据第一权重,以及商品属于第一分类的预测值,确定分类模型的损失。
本申请实施例中,分类模型所预测的训练图像中商品的分类预测值,包括该商品属于预设的N种商品类别的分类预测值。其中N的大小可以根据实际需要进行设定,N可以理解为设定的该分类模型可以预测的商品的分类个数。示例性的,分类模型的输出包括训练图像中商品属于这N种商品类别中每一种商品类别的概率,例如图4所示,N=23,这样分类模型输出该训练图像中商品属于这23种商品类别中每一种商品类别的概率。接着,从分类模型预测的分类预测值,确定出该商品属于第一分类的预测值,其中第一分类为该商品的真实分类。
接着,根据上述确定的第一权重,以及该商品属于第一分类的预测值,确定分类模型的损失。
举例说明,假设训练图像中包括的商品的真实分类(即第一分类)为背心上衣,将该训练图像输入分类模型中,分类模型输出该训练图像中商品属于23种商品类别中每一种商品类别的预测值,从这23种分类预测值中,确定出背心上衣的预测值。接着,根据上述确定的第一权重,以及确定出的背心上衣的预测值,确定分类模型的损失。
本申请实施例对上述S202-D2中,根据第一权重,以及商品属于第一分类的预测值,确定分类模型的损失的具体方式不做限制。
在一些实施例中,将第一权重,以及分类模型预测的训练图像中商品属于第一分类的预测值的乘积的负数,确定该训练图像对应的分类模型的损失。
在一些实施例中,上述S202-D2包括如下S202-D21和S202-D22的步骤:
S202-D21、根据训练图像中商品属于第一分类的预测值,确定第二权重,该第二权重与训练图像中商品属于第一分类的预测值负相关;
S202-D22、根据第一权重、第二权重和商品属于第一分类的预测值,确定分类模型的损失。
在该实施例中,为了进一步提高分类模型的预测准确性,则根据分类模型的预测准确性,确定第二权重,通过第二权重对分类模型的损失进行修改,以使分类模型对预测不准确的商品类别进行着重学习。其中,第二权重与分类模型的预测准确性负相关,分类模型预测的某一商品属于第一分类(即真实分类)的预测值越大,表示分类模型对该商品类型的预测较准确,此时,可以为第二权重赋一较小的值,以使分类模型在后续训练中减少对该商品类型的学习。若分类模型预测的该商品属于第一分类(即真实分类)的预测值越小,表示分类模型对该商品类型的预测不准确,此时,可以为第二权重赋一较大的值,以使分类模型在后续训练中增强对该商品类型的学习。
基于此,在使用该训练图像训练分类模型时,可以根据分类模型预测的该训练图像中商品属于第一分类(即真实分类)的预测值,确定第二权重,例如,预测值越大,第二权重越小,预测值越小,则第二权重越大。
本申请实施例对根据训练图像中商品属于第一分类的预测值,确定第二权重的具体过程不做限制。
在一种可能的实现方式中,将第一数值与训练图像中商品属于第一分类的预测值的差值,确定为第二权重,第一数值为正数。
示例性的,根据如下公式(1)确定第二权重W2:
W2=c-Pt (1)
其中,c为第一数值,Pt为分类模型预测的训练图像中商品属于第一分类(即真实分类)的预测值。
本申请实施例对第一数值的具体取值不做限制。
在一种示例中,c=1。
在另一种可能的实现方式中,确定第一数值与训练图像中商品属于第一分类的预测值之间的差值,将该差值的r次方,确定为第二权重,其中,r为非负数。
示例性的,根据如下公式(2)确定第二权重W2:
W2=(c-Pt)r (2)
本申请实施例对r的具体取值不做限制。
在一种示例中,r为0、0.5、1、2、5等非负数。
根据上述步骤,确定出第二权重后,执行上述S202-D22的步骤,根据第一权重、第二权重和商品属于第一分类的预测值,确定分类模型的损失。
本申请实施例对上述S202-D22的具体实现过程不做限制。
在一些实施例中,首先根据训练图像中商品属于第一分类的预测值确定一个第一损失,接着,根据第一权重、第二权重对该第一损失进行修正,得到该训练图像下分类模型的损失。
例如,将第一权重、第二权重和第一损失的乘积的负数,确定为该训练图像下分类模型的损失。
在一些实施例中,将第一权重和第二权重相乘,得到第一乘积;对商品属于第一分类的预测值进行对数运算,得到第二数值;将第一乘积的负数与第二数值的乘积,确定为分类模型关于训练图像的损失。
示例性的,根据如下公式(3)确定分类模型的损失L:
L=-W1*W2*log(Pt) (3)
其中,W1为第一权重,W2为第二权重,Pt为分类模型预测的训练图像中商品属于第一分类(即真实分类)的预测值。
在一些示例中,当W1=1-a,W2=(1-Pt)r时,则可以根据如下公式(4)确定分类模型的损失:
L=-(1-a)*(1-Pt)r*log(Pt) (4)
其中,a为该训练图像所属的样本类别所包括的训练数据,在训练数据集中的占比。
根据上述步骤,确定出在该训练图像下分类模型的损失后,执行如下S203的步骤。
S203、对分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量。
需要说明的是,上述S203与上述S202在执行顺序上没有先后之分,即上述S203可以在上述S202之前执行,还可以在上述S202之后执行,或者与上述S202同步进行。
由上述描述可知,将训练图像输入分类模型中,分类模型输出训练图像中商品属于预设的N个分类中每个分类的概率。
示例性的,如图7所示,分类模型输出层包括N个节点,则N个节点包括一个标签,则N个节点分别输出训练图像中商品属于该节点所包括的标签类别的概率。此时,输出层的一个节点的输出如公式(5)所示:
P=Φ(W﹒X+b) (5)
其中,P表示该节点输出的训练图像中商品属于该节点所包括的标签类别的概率,X为输入,W为权值向量,b为模型参数。
在模型训练过程中,通过更新W和b来实现模型训练。也就是说,在模型训练过程中,将一张训练图像输入分类模型,得到该分类模型输出的分类预测值,例如公式(5)示出了一个节点输出的分类预测值。接着,根据分类预测值确定该分类模型关于该训练图像的损失,进而根据损失对模型的权值向量W和参数b进行更新优化。接着,将下一张训练图像输入权值向量W和参数b更新后的分类模型中,继续确定损失,并根据损失继续对分类模型的权值向量W和参数b进行更新,重复执行该更新过程,直到达到训练结束条件为止。其中,训练结束条件可以是训练次数达到预设次数,或者模型精度达到预设精度。
本申请实施例,为了使得分类模型对长尾商品进行充分学习,以使训练后的分类模型实现对长尾商品的准确分类,则本申请实施例在每次对分类模型的权值向量W进行更新之前,对权值向量W进行归一化处理。这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而使得分类模型实现对样本不均的训练数据的平衡训练,提升分类模型对长尾数据的学习。
本申请实施例对权值向量进行归一化的具体方式不做限制。例如可以是已有的任意归一化方法。
在一些实施例中,可以通过如下S203-A1和S203-A2的步骤,实现对权值向量的归一化处理:
S203-A1、对权值向量进行分解,得到参数向量和参数标量;
S203-A2、根据参数向量和参数标量,对权值向量进行归一化处理,得到归一化后的权值向量。
本申请实施例将权值向量分解为一个向量(即参数向量)和一个标量(即参数标量),使得参数向量和参数标量来表示该权值向量。
本申请实施例对权值向量的具体分解方法不做限制,例如可以沿着权值向量的方向,将权值向量分解为一个向量和标量。
在一些实施例中,在权值向量的范数和方向这两个指标上对权值向量进行分解,得到参数向量v和参数标量g。
在一种示例中,权值向量W与参数向量v和参数标量g之间的关系如公式(6)所示:
其中,||v||表示v的欧氏范数。
上述公式(6)以欧式范数为例,在一些实施例中,还可以采用v的其他范数来替换欧式范数,本申请实施例对此不做限制。
根据上述步骤,对分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量后,执行如下S204的步骤。
S204、根据损失对归一化后的权值向量进行更新,得到训练后的分类模型。
根据上述S202的步骤,确定出分类模型在该训练图像下的损失,根据上述S203的步骤,对分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量。接着,使用S202步骤确定的损失对上述S203步骤确定的归一化后的权值向量进行更新优化,得到更新优化后的分类模型。接着,使用下一张训练图像对更新优化后的分类模型再进行更新,重复上述更新步骤,直到达到模型训练结束条件为止。
在一些实施例中,根据上述公式(6)将权值向量分解为参数向量v和参数标量g,这样可以根据上述S202确定的损失,对参数向量v和/或参数标量g进行更新优化,以实现对权值向量的优化。
例如,当将g固定为||W||时,只优化v,这时候相当于只优化W的方向而保留其范数。当v固定为W时,这时候相当于只优化W的范数,而保留其方向,这样为优化权值向量提供了更多可以选择的空间,且解耦方向与范数的策略也能加速W收敛。
在一种示例中,在优化g时,一般通过优化g的log级参数来完成。
在一种示例中,可以通过SGD来更新v和g。
例如,通过SGD确定的g的更新值如公式(7)所示:
再例如,通过SGD确定的g的更新值如公式(8)所示:
上述是以梯度下降法确定v和g的更新值为例,在一些实施例中,还可以采用其他的方式,确定出v和g的更新值,本申请实施例对此不做限制。
本申请实施例,为了使得分类模型对长尾商品进行充分学习,以使训练后的分类模型实现对长尾商品的准确分类,则本申请实施例在每次对分类模型的权值向量W进行更新之前,对权值向量W进行归一化处理。这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而使得分类模型实现对样本不均的训练数据的平衡训练,提升分类模型对长尾数据的学习。
进一步的,本申请实施例根据不同类型商品在训练数据集中的分布,确定第一权重,根据分类模型对不同类型商品的学习程度,确定第二权重,进而根据第一权重和/或第二权重,确定分类模型在该训练图像下的损失,这样根据该损失对分类模型进行训练时,可以使分类模型对长尾数据进行有效学习,进而使用训练好的分类模型进行分类时,可以实现对长尾商品的准确分类。
本申请实施例提供的分类模型训练方法,通过获取训练图像,并通过分类模型对训练图像中的商品进行分类,得到商品的分类预测值,训练图像包括短视频中的商品图像帧;根据商品的分类预测值,确定分类模型的损失;对分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量;根据损失对归一化后的权值向量进行更新,得到训练后的分类模型。即本申请实施例在对分类模型的权值向量进行更新之前,对权值向量进行归一化处理。这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而使得分类模型实现对样本不均的训练数据的平衡训练,提升分类模型对长尾数据的学习。
上文对分类模型的训练过程进行详细介绍。下面以上述训练好的分类模型为基础,对本申请实施例提供的分类方法进行介绍。
图8为本申请一实施例提供的分类方法流程示意图。
本申请实施例执行主体为具有分类功能的装置,例如分类装置。在一些实施例中,该分类装置可以为服务器。在一些实施例中,该分类装置可以为终端设备。在一些实施例中,该分类装置可以为服务器和终端设备组成的系统。其中服务器和终端设备均可以理解为电子设备,因此为了便于描述,下面以执行主体为电子设备为例进行说明。在一些实施例中,分类装置可以与上述分类模型训练装置为相同的装置,在一些实施例中,分类装置可以与上述分类模型训练装置为不同的装置。
如图8所示,本申请实施例的分类方法包括:
S901、获取目标短视频,并从目标短视频中获取N张第一图像,N为正整数。
本申请实施例使用上述训练后的分类模型,对目标短视频中商品的类别进行识别。由上述可知,分类模型在训练过程中,对长尾商品进行了有效学习,因此,基于该分类模型进行商品识别时,可以对目标短视频中的长尾商品进行准确识别,进而提高了商品的识别准确性。
本申请实施例对目标短视频的具体获取方法不做限制,例如,该目标短视频为视频号的商品带货视频,或者为直播带货视频。
在一些实施例中,N张第一图像为目标短视频中包括某商品的N张图像。也就是说,本申请实施例中采用图像检测技术,检测出目标短视频中,包括该商品的N张图像,进而使用分类模型对这N张第一图像中的每一张第一图像所包括的商品进行分类识别。
在一些实施例中,N张第一图像为目标短视频的所有视频帧。也就是说,本申请实施例采用分类模型对目标短视频中的每一张图像所包括的商品进行检测,进而检测出目标短视频中每一张图像所包括的商品类别。
在一些实施例中,上述N张第一图像为目标短视频中的随机选取的N张图像。
在一些实施例中,上述N张第一图像为目标短视频在当前时间段内正在播放的图像。也就是说,本申请实施例对正在播放的目标短视频中的商品进行类别识别。
本申请实施例对从目标短视频中获取N张第一图像的具体方法不做限制。
S902、针对N张第一图像中的每一张第一图像,通过分类模型预测第一图像所包括的商品类别,其中分类模型在训练过程中对权值向量进行归一化处理。
根据上述步骤,获取目标短视频中的N张第一图像后,针对N张第一图像中的每一张第一图像,将该第一图像输入上述训练后的分类模型中,以使分类模型对该第一图像中所包括的商品的类别进行识别,输出该第一图像所包括的商品的类别。
由上述可知,本申请实施例的分类模型在训练过程中对权值向量进行归一化处理,这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而使得分类模型实现对样本不均的训练数据的平衡训练,提升分类模型对长尾数据的学习。
在一些实施例中,分类模型在训练过程中对权值向量进行归一化处理包括:对权值向量进行分解,得到参数向量和参数标量;根据参数向量和所述参数标量,对权值向量进行归一化处理。其中,对权值向量进行归一化的具体过程可以参照上述模型训练过程的描述,在此不再赘述。
在一些实施例中,分类模型在训练过程中的损失是根据第一权重,以及分类模型预测的训练图像中商品的分类预测值确定的;其中,第一权重是根据训练图像所属的样本类别所包括的训练数据,在训练数据集中的占比确定的,其中占比与第一权重成负相关。
在一些实施例中,分类模型在训练过程中的损失是根据第一权重和训练图像中的商品属于第一分类的预测值确定的,其中第一分类为训练图像中商品的真实分类。
在一些实施例中,分类模型在训练过程中的损失是根据第一权重、第二权重和训练图像中的商品属于第一分类的预测值确定的;其中,第二权重是根据训练图像中的商品属于第一分类的预测值确定的,第二权重与训练图像中商品属于第一分类的预测值负相关。
在一些实施例中,上述第二权重为第一数值与训练图像中商品属于第一分类的预测值的差值,第一数值为正数。
在一些实施例中,上述第二权重为第一数值与训练图像中商品属于第一分类的预测值之间的差值的r次方,第一数值为正数,所述r为非负数。
在一些实施例中,分类模型在训练过程中的损失为第一乘积的负数与第二数值的乘积,其中第二数值是对商品属于第一分类的预测值进行对数运算得到的,第一乘积为第一权重与第二权重的乘积。
本申请实施例的分类模型,在训练过程中,根据不同类型商品在训练数据集中的分布,确定第一权重,根据分类模型对不同类型商品的学习程度,确定第二权重,进而根据第一权重和/或第二权重,确定分类模型在该训练图像下的损失。这样根据该损失对分类模型进行训练时,可以使分类模型对长尾数据进行有效学习,进而使用训练好的分类模型进行分类时,可以实现对长尾商品的准确分类。
本申请实施例中,分类模型在训练过程中损失的具体确定过程,可以参照上述模型训练过程的描述,在此不再赘述。
S903、根据N张第一图像所包括的商品类别,确定推荐信息。
本申请实施例中,获取目标短视频,并从目标短视频中获取N张第一图像,针对N张第一图像中的每一张第一图像,将该第一图像输入上述训练后的分类模型中。由于上述分类模型在训练过程中,对长尾商品进行学习,这样若该第一图像包括长尾商品时,则分类模型可以对该第一图像中的商品进行准确识别。
接着,根据N张第一图像所包括的商品类别,确定推荐信息。
本申请实施例对上述S903中根据N张第一图像所包括的商品类别,确定推荐信息至少包括如下几种场景:
场景1,根据N张第一图像所包括的商品类别,从商品库中,获取与N张第一图像所包括的商品类别匹配的至少一个商品;将该至少一个商品,确定为推荐信息进行显示。
示例性的,如图9所示,在视频号带货或直播带货过程中,目标短视频如图9左侧所示,在目标视频的播放过程中,获取该目标短视频的N张第一图像,例如获取目标短视频当前时间段内正在播放的N张图像。将N张第一图像中的每一张第一图像输入训练好的分类模型中进行商品类别识别,识别出N张第一图像中每一张第一图像所包括的商品的类别,进而从商品库中,搜索与第一图像所包括的商品的类别一致的至少一个商品,并将这至少一个商品作为推荐信息,在图9的右侧区域进行显示。
在一些实施例中,上述N等于1,也就是说,分类模型对目标短视频中当前播放的图像所包括的商品的类别进行识别,并根据商品识别结果,从商品库中进行检索,检索出与当前播放图像中所包括商品类别一致的至少一个商品,进而将这至少一个商品作为推荐信息进行显示。
在一些实施例中,若N张第一图像包括多个商品时,则可以从商品库中检索出与这多个商品各自匹配的商品,并将各自匹配的商品作为推荐信息进行显示。
场景2,本申请实施例的目标短视频可以为视频号播放平台或直播平台上的任一短视频,在用户点击该目标短视频时,分类模型对该目标短视频所包括的商品进行分类识别,并根据识别结果从视频号播放平台或直播平台中搜索与该识别结果匹配的至少一个短视频,进而将这至少一个短视频作为推荐信息进行显示。
需要说明的是,上述场景1和场景2只是本申请实施例提供的分类方法的两种场景示例,本申请实施例提供的分类方法还可以应用到其他需要识别短视频中商品的类别的任意场景。
本申请实施例提供的分类方法,通过获取目标短视频,并从目标短视频中获取N张第一图像,N为正整数;针对N张第一图像中的每一张第一图像,通过分类模型预测第一图像所包括的商品类别,其中分类模型在训练过程中对权值向量进行归一化处理;根据N张第一图像所包括的商品类别,确定推荐信息。由于本申请实施例的分类模型在训练过程中,对权值向量进行归一化处理,这样可以降低首部数据对模型权值向量的影响,提升长尾数据对模型权值向量的影响,进而使得分类模型实现对样本不均的训练数据的平衡训练,提升分类模型对长尾数据的学习。这样使用训练后的分类模型进行商品预测时,可以对目标短视频中的长尾商品进行准确识别,进而提高了商品识别准确性。
上文结合图2至图9,详细描述了本申请的方法实施例,下文结合图10至图12,详细描述本申请的装置实施例。
图10是本申请一实施例提供的分类装置的示意性框图。该装置10可以为电子设备或者为电子设备中的一部分。
如图10所示,分类装置10包括:
获取单元11,用于获取目标短视频,并从所述目标短视频中获取N张第一图像,所述N为正整数;
分类单元12,用于针对所述N张第一图像中的每一张第一图像,通过分类模型预测所述第一图像所包括的商品类别,其中所述分类模型在训练过程中对权值向量进行归一化处理;
推荐单元13,用于根据所述N张第一图像所包括的商品类别,确定推荐信息。
在一些实施例中,所述N张第一图像为所述目标短视频在当前时间段内正在播放的图像。
在一些实施例中,推荐单元13,具体用于从商品库中,获取与所述N张第一图像所包括的商品类别匹配的至少一个商品;将所述至少一个商品,确定为所述推荐信息进行显示。
在一些实施例中,所述分类模型在训练过程中对所述权值向量进行归一化处理包括:对所述权值向量进行分解,得到参数向量和参数标量;根据所述参数向量和所述参数标量,对所述权值向量进行归一化处理。
在一些实施例中,所述分类模型在训练过程中的损失是根据第一权重,以及所述分类模型预测的训练图像中商品的分类预测值确定的;其中,所述第一权重是根据所述训练图像所属的样本类别所包括的训练数据,在训练数据集中的占比确定的,所述占比与所述第一权重成负相关。
在一些实施例中,所述损失是根据所述第一权重和所述训练图像中的商品属于第一分类的预测值确定的,所述第一分类为所述训练图像中商品的真实分类。
在一些实施例中,所述损失是根据所述第一权重、第二权重和所述训练图像中的商品属于第一分类的预测值确定的;其中,所述第二权重是根据所述训练图像中的商品属于第一分类的预测值确定的,所述第二权重与所述训练图像中商品属于第一分类的预测值负相关。
在一些实施例中,所述第二权重为第一数值与所述训练图像中商品属于第一分类的预测值的差值,所述第一数值为正数。
在一些实施例中,所述第二权重为第一数值与所述训练图像中商品属于第一分类的预测值之间的差值的r次方,所述第一数值为正数,所述r为非负数。
在一些实施例中,所述损失为第一乘积的负数与第二数值的乘积,所述第二数值是对所述商品属于第一分类的预测值进行对数运算得到的,所述第一乘积为所述第一权重与所述第二权重的乘积。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图10所示的装置可以执行上述分类方法的实施例,并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述方法实施例,为了简洁,在此不再赘述。
图11是本申请一实施例提供的分类模型训练装置的示意性框图。该装置20可以为电子设备或者为电子设备中的一部分。
如图11所示,分类模型训练装置20包括:
分类单元21,用于获取训练图像,并通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值,所述训练图像包括短视频中的商品图像帧;
损失确定单元22,用于根据所述商品的分类预测值,确定所述分类模型的损失;
归一化单元23,用于对所述分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量;
更新单元24,用于根据所述损失对所述归一化后的权值向量进行更新,得到训练后的所述分类模型。
在一些实施例中,归一化单元23,具体用于对所述权值向量进行分解,得到参数向量和参数标量;根据所述参数向量和所述参数标量,对所述权值向量进行归一化处理,得到所述归一化后的权值向量。
在一些实施例中,损失确定单元22,具体用于确定所述训练图像所属的样本类别;确定所述样本类别所包括的训练数据,在所述训练数据集中的占比;根据所述占比,确定第一权重,所述占比与所述第一权重成负相关;根据所述第一权重和所述商品的分类预测值,确定所述分类模型的损失。
在一些实施例中,损失确定单元22,具体用于从所述商品的分类预测值中,确定出所述商品属于第一分类的预测值,所述第一分类为所述商品的真实分类;根据所述第一权重,以及所述商品属于第一分类的预测值,确定所述分类模型的损失。
在一些实施例中,损失确定单元22,具体用于根据所述商品属于第一分类的预测值,确定第二权重,所述第二权重与所述商品属于第一分类的预测值负相关;根据所述第一权重、所述第二权重和所述商品属于第一分类的预测值,确定所述分类模型的损失。
在一些实施例中,损失确定单元22,具体用于将第一数值与所述商品属于第一分类的预测值的差值,确定为所述第二权重,所述第一数值为正数。
在一些实施例中,损失确定单元22,具体用于确定第一数值与所述商品属于第一分类的预测值之间的差值,所述第一数值为正数;将所述差值的r次方,确定为所述第二权重,所述r为非负数。
在一些实施例中,损失确定单元22,具体用于将所述第一权重和所述第二权重相乘,得到第一乘积;对所述商品属于第一分类的预测值进行对数运算,得到第二数值;将所述第一乘积的负数与所述第二数值的乘积,确定为所述分类模型关于所述训练图像的损失。
在一些实施例中,分类单元21,还用于将所述训练图像的大小缩放至目标大小;通过所述分类模型对目标大小的所述训练图像中的商品进行分类,得到所述商品的分类预测值。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图11所示的装置可以执行上述分类模型训练方法的实施例,并且装置中的各个模块的前述和其它操作和/或功能分别为了实现上述方法实施例,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图12是本申请实施例提供的电子设备的示意性框图,该电子设备用于执行上述分类方法和/或分类模型训练方法实施例。
如图12所示,该电子设备30可包括:
存储器31和处理器32,该存储器31用于存储计算机程序33,并将该程序代码33传输给该处理器32。换言之,该处理器32可以从存储器31中调用并运行计算机程序33,以实现本申请实施例中的方法。
例如,该处理器32可用于根据该计算机程序33中的指令执行上述方法步骤。
在本申请的一些实施例中,该处理器32可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器31包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序33可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器31中,并由该处理器32执行,以完成本申请提供的录制页面的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序33在该电子设备中的执行过程。
如图12所示,该电子设备30还可包括:
收发器34,该收发器34可连接至该处理器32或存储器31。
其中,处理器32可以控制该收发器34与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器34可以包括发射机和接收机。收发器34还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备30中的各个组件通过总线系统相连,其中,总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
根据本申请的一个方面,提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。
本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述方法实施例的方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (15)
1.一种分类方法,其特征在于,包括:
获取目标短视频,并从所述目标短视频中获取N张第一图像,所述N为正整数;
针对所述N张第一图像中的每一张第一图像,通过分类模型预测所述第一图像所包括的商品类别,其中所述分类模型在训练过程中对权值向量进行归一化处理;
根据所述N张第一图像所包括的商品类别,确定推荐信息。
2.根据权利要求1所述的方法,其特征在于,所述N张第一图像为所述目标短视频在当前时间段内正在播放的图像。
3.根据权利要求1所述的方法,其特征在于,所述根据所述N张第一图像所包括的商品的类别,确定推荐信息,包括:
从商品库中,获取与所述N张第一图像所包括的商品类别匹配的至少一个商品;
将所述至少一个商品,确定为所述推荐信息进行显示。
4.一种分类模型训练方法,其特征在于,包括:
获取训练图像,并通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值,所述训练图像包括短视频中的商品图像帧;
根据所述商品的分类预测值,确定所述分类模型的损失;
对所述分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量;
根据所述损失对所述归一化后的权值向量进行更新,得到训练后的所述分类模型。
5.根据权利要求4所述的方法,其特征在于,所述对所述分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量,包括:
对所述权值向量进行分解,得到参数向量和参数标量;
根据所述参数向量和所述参数标量,对所述权值向量进行归一化处理,得到所述归一化后的权值向量。
6.根据权利要求4或5所述的方法,其特征在于,所述根据所述商品的分类预测值,确定所述分类模型的损失,包括:
确定所述训练图像所属的样本类别;
确定所述样本类别所包括的训练数据,在所述训练数据集中的占比;
根据所述占比,确定第一权重,所述占比与所述第一权重成负相关;
根据所述第一权重和所述商品的分类预测值,确定所述分类模型的损失。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一权重和所述商品的分类预测值,确定所述分类模型的损失,包括:
从所述商品的分类预测值中,确定出所述商品属于第一分类的预测值,所述第一分类为所述商品的真实分类;
根据所述第一权重,以及所述商品属于第一分类的预测值,确定所述分类模型的损失。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一权重,以及所述商品属于第一分类的预测值,确定所述分类模型的损失,包括:
根据所述商品属于第一分类的预测值,确定第二权重,所述第二权重与所述商品属于第一分类的预测值负相关;
根据所述第一权重、所述第二权重和所述商品属于第一分类的预测值,确定所述分类模型的损失。
9.根据权利要求8所述的方法,其特征在于,所述根据所述商品属于第一分类的预测值,确定第二权重,包括:
将第一数值与所述商品属于第一分类的预测值的差值,确定为所述第二权重,所述第一数值为正数;或者
确定第一数值与所述商品属于第一分类的预测值之间的差值,将所述差值的r次方,确定为所述第二权重,所述r为非负数。
10.根据权利要求8所述的方法,其特征在于,所述根据所述第一权重、所述第二权重和所述商品属于第一分类的预测值,确定所述分类模型的损失,包括:
将所述第一权重和所述第二权重相乘,得到第一乘积;
对所述商品属于第一分类的预测值进行对数运算,得到第二数值;
将所述第一乘积的负数与所述第二数值的乘积,确定为所述分类模型关于所述训练图像的损失。
11.根据权利要求4所述的方法,其特征在于,所述通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值之前,所述方法还包括:
将所述训练图像的大小缩放至目标大小;
所述通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值,包括:
通过所述分类模型对目标大小的所述训练图像中的商品进行分类,得到所述商品的分类预测值。
12.一种分类装置,其特征在于,包括:
获取单元,用于获取目标短视频,并从所述目标短视频中获取N张第一图像,所述N为正整数;
分类单元,用于针对所述N张第一图像中的每一张第一图像,通过分类模型预测所述第一图像所包括的商品类别,其中所述分类模型在训练过程中对权值向量进行归一化处理;
推荐单元,用于根据所述N张第一图像所包括的商品类别,确定推荐信息。
13.一种分类模型训练装置,其特征在于,包括:
分类单元,用于获取训练图像,并通过分类模型对所述训练图像中的商品进行分类,得到所述商品的分类预测值,所述训练图像包括短视频中的商品图像帧;
损失确定单元,用于根据所述商品的分类预测值,确定所述分类模型的损失;
归一化单元,用于对所述分类预测值对应的权值向量进行归一化处理,得到归一化后的权值向量;
更新单元,用于根据所述损失对所述归一化后的权值向量进行更新,得到训练后的所述分类模型。
14.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序以实现如上述权利要求1至3或4至11任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如上述权利要求1至3或4至11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210813655.5A CN115187809A (zh) | 2022-07-11 | 2022-07-11 | 分类及分类模型训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210813655.5A CN115187809A (zh) | 2022-07-11 | 2022-07-11 | 分类及分类模型训练方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115187809A true CN115187809A (zh) | 2022-10-14 |
Family
ID=83517250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210813655.5A Pending CN115187809A (zh) | 2022-07-11 | 2022-07-11 | 分类及分类模型训练方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187809A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413825A (zh) * | 2019-06-21 | 2019-11-05 | 东华大学 | 面向时尚电商的街拍推荐系统 |
US20190347357A1 (en) * | 2018-05-08 | 2019-11-14 | Spotify Ab | Image based content search and recommendations |
CN111291841A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111597374A (zh) * | 2020-07-24 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置及电子设备 |
CN113642740A (zh) * | 2021-08-12 | 2021-11-12 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、电子设备和介质 |
CN113689233A (zh) * | 2021-08-03 | 2021-11-23 | 广州华多网络科技有限公司 | 广告投放选品方法及其相应的装置、设备、介质 |
-
2022
- 2022-07-11 CN CN202210813655.5A patent/CN115187809A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190347357A1 (en) * | 2018-05-08 | 2019-11-14 | Spotify Ab | Image based content search and recommendations |
CN110413825A (zh) * | 2019-06-21 | 2019-11-05 | 东华大学 | 面向时尚电商的街拍推荐系统 |
CN111291841A (zh) * | 2020-05-13 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置、计算机设备和存储介质 |
CN111597374A (zh) * | 2020-07-24 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 图像分类方法、装置及电子设备 |
CN113689233A (zh) * | 2021-08-03 | 2021-11-23 | 广州华多网络科技有限公司 | 广告投放选品方法及其相应的装置、设备、介质 |
CN113642740A (zh) * | 2021-08-12 | 2021-11-12 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837579B (zh) | 视频分类方法、装置、计算机以及可读存储介质 | |
CN111897964A (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN115917535A (zh) | 推荐模型的训练方法、推荐方法、装置及计算机可读介质 | |
CN112215171B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
US20230035366A1 (en) | Image classification model training method and apparatus, computer device, and storage medium | |
CN112052297B (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
WO2024002167A1 (zh) | 一种操作预测方法及相关装置 | |
WO2024041483A1 (zh) | 一种推荐方法及相关装置 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN117217284A (zh) | 一种数据处理方法及其装置 | |
WO2023050143A1 (zh) | 一种推荐模型训练方法及装置 | |
CN107968743A (zh) | 推送信息的方法和装置 | |
CN117251619A (zh) | 一种数据处理方法及相关装置 | |
CN107451194A (zh) | 一种图片搜索方法及装置 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
WO2023051678A1 (zh) | 一种推荐方法及相关装置 | |
CN116204709A (zh) | 一种数据处理方法及相关装置 | |
CN115618950A (zh) | 一种数据处理方法及相关装置 | |
CN115187809A (zh) | 分类及分类模型训练方法、装置及存储介质 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |