CN113850779A

CN113850779A - 一种基于变分多实例图像识别的二手手机自动评级算法

Info

Publication number: CN113850779A
Application number: CN202111124439.1A
Authority: CN
Inventors: 林乐新; 周超; 张康
Original assignee: Shenzhen Shanhui Technology Co ltd
Current assignee: Shenzhen Shanhui Technology Co ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-28

Abstract

本发明属于二手手机自动评级技术领域，尤其为一种基于变分多实例图像识别的二手手机自动评级算法，具体包含获取手机的外观图片数据，并进行预处理；将图像底库中相应的图片使用特征抽取器得到其特征；收集手机其他模态的特征；将步骤二获得的图片embedding特征和步骤三的特征一起输入模型，使用语义空间约束器计算出评级分数，在测试时，分数高的Top1结果将会作为手机的最终评级；使用端到端的多样性语义学习框架，不需要多阶段处理和人工设计规则就可以得到有效的手机评级结果；使用手机元属性引导的变分自编码器建模多样性语义分布，可以有效克服传统方法只能学习从输入到输出的单点映射,从而获得属性特征与外观图像特征更多样的语义表示。

Description

一种基于变分多实例图像识别的二手手机自动评级算法

技术领域

本发明属于二手手机自动评级技术领域，具体涉及一种基于变分多实例图像识别的二手手机自动评级算法。

背景技术

在一些线上软件的二手设备回收产品中，对设备进行评估定级应用广泛，它可以帮助用户快速了解手机的成色情况，成为影响用户出价的最重要因素，手机评级的业界主要做法是，由业务人员对手机各项功能进行检测后根据业务经验给出综合评级，其主要的缺点是由于业务人员的经验和判别尺度相差很大，导致评级结果存在较大偏差；同时，从检测项结果到评级，是由一个复杂的人工规则决定，可维护性较差，尤其是当多种功能故障同时出问题时，组合特征的人工规则制定变得困难。

对于二手手机回收类产品来说，机器评级的准确率是影响用户使用体验的核心因素，评级不仅可以给回收厂商提供最重要的定价依据，也是用户选择手机时的重要参考因子，准确的评级可以方便用户快速做出决定，我们认为，在用户提供清晰机况下，手机的评级应该有一个合理的值，越资深的专家认定的评级会越具有公允性，难点在于如何通过算法和系统工程，将专家们的经验知识转化成一个不需要人工深度参与的自动评级专家系统。

传统的二手手机评级一般有以下方法：

1.最常使用的方式是根据人工经验，对评级的影响因子进行权重分析，得到评级的多项式打分公式或者与/或条件表达式，根据手机的检测项判断其评级。

2.与方案1类似，主要区别为采用机器学习算法对手机外观图片进行图片分类。通常采用2阶段框架，即先识别出图片的检测项分类，再用人工规则组合的评级规则，得到手机的最终评级。

3.由业务专家完成外观损伤检测项的评定，获得手机的综合检测项特征，然后输入到一个机器学习分类算法中，例如GBDT，DNN，SVM等，从而得到最终评级。

现有技术的缺点：

1.传统的基于人工专家+复杂规则系统的方法拥有较高的准确率，但是它们只能对主要的机型和主要的损伤情况进行归纳和拟合，而对于中长尾的手机及检测组合无法进行较合理的设计，使得该方案的可扩展性较差；

2.传统的图像识别方案设计多阶段的分类，可以使返回解释性较强的中间结果，但是这种方法易受每一阶段性能的影响，使得准确率大大下降，从而影响用户体验；

3.传统的二手手机评级框架使用除了图片外的各种其他手机信息可以极大的补充手机的特征，但往往需要人工设计大量的规则，费时费力浪费资源，且这些辅助信息获取时存在较大的人工偏差，会限制此类方法的应用场景。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种基于变分多实例图像识别的二手手机自动评级算法，具有操作方便、适应能力强、适用范围广泛、学习更加敏感以及分类效果更好的特点。

为实现上述目的，本发明提供如下技术方案：一种基于变分多实例图像识别的二手手机自动评级算法，利用语义特征投影器提取图像特征并投影到语义空间中，利用跨模态特征生成器通过学习一对一的分布以产生多个实例，并执行跨模态多实例图，利用语义空间约束器设计多种损失函数来约束跨模态语义空间，使得属性特征和图像特征可以对齐，具体包含如下方法：

步骤一：获取手机的外观图片数据，并进行预处理；

步骤二：将图像底库中相应的图片使用特征抽取器得到其特征；

步骤三：收集手机其他模态的特征；

步骤四：将步骤二获得的图片embedding特征和步骤三的特征一起输入模型，使用语义空间约束器计算出评级分数，用于优化模型的训练，在测试时，分数高的Top1结果将会作为手机的最终评级。

作为本发明的一种优选技术方案，所述步骤一中，预处理包括但不限于去掉模糊不清的图片、图片裁剪以及亮度调整。

作为本发明的一种优选技术方案，所述步骤三中，其他模态的特征包括但不限于二手手机的机型、二手手机的使用年限以及维修情况。

作为本发明的一种优选技术方案，所述跨模态特征生成器为跨模态多样性生成器，其利用变分自编码器来建模完整的图片视觉语义概念，其最大化隐变量z与其后验分布的变分下界：

其中，f_v，f_t分别是图像和手机属性的特征。

作为本发明的一种优选技术方案，所述语义空间约束器含有多个损失函数以优化语义空间的学习，具体包括标签分类损失函数、多实例三元组损失函数和距离惩罚损失函数，多实例三元组损失基于图匹配分数：

其中，

和

为元属性特征和图像的多样性特征。

与现有技术相比，本发明的有益效果是：

(1)使用端到端的多样性语义学习框架，不需要多阶段处理和人工设计规则就可以得到有效的手机评级结果；

(2)使用手机元属性引导的变分自编码器建模多样性语义分布，可以有效克服传统方法只能学习从输入到输出的单点映射，从而获得属性特征与外观图像特征更多样的语义表示；

(3)使用跨模态多实例图优化不同模态下的多样性特征，可以有效解决不同模态多样性特征的匹配问题；

(4)使用距离感知的多实例学习惩罚函数优化语义空间学习，能够使对负样本的学习更加的敏感，得到更好的分类效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的算法流程示意图；

图2为本发明的模型架构示意图：

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和图2，本发明提供以下技术方案：一种基于变分多实例图像识别的二手手机自动评级算法，利用语义特征投影器提取图像特征并投影到语义空间中，利用跨模态特征生成器通过学习一对一的分布以产生多个实例，并执行跨模态多实例图，利用语义空间约束器设计多种损失函数来约束跨模态语义空间，使得属性特征和图像特征可以对齐，具体包含如下方法：

步骤一：获取手机的外观图片数据，并进行预处理，预处理包括但不限于去掉模糊不清的图片、图片裁剪以及亮度调整；

步骤二：将图像底库中相应的图片使用特征抽取器得到其特征，其他模态的特征包括但不限于二手手机的机型、二手手机的使用年限以及维修情况；

步骤三：收集手机其他模态的特征；

具体的，根据附图1和附图2所示，本实施例中，跨模态特征生成器为跨模态多样性生成器，其利用变分自编码器来建模完整的图片视觉语义概念，具体来说，其最大化隐变量z与其后验分布的变分下界：

其中，f_v，f_t分别是图像和手机属性的特征，通过计算分布的KL散度和特征的重构损失优化变分自编码器，其中手机特征将作为条件约束后验分布，可以使其学习到与手机元属性空间更相关的表示，然后从得到的分布中采样得到的多个Z便可以自然的表示语义空间中的多样性语义，通过这种策略使得手机属性特征端和图像端都能以多个特征表示其多样的语义，从而克服单点嵌入的缺点。

然后该生成器将这个任务抽象为多实例学习，该任务十分适合多实例学习的原因在于，手机元属性和图像的多语义中，只要有某一对语义实例是匹配的，那么两者将会是匹配的，即被认为是正例包对，这对于用户的手机评级诉求来说，只要有某个语义是对应了用户期待，那么应该被呈现给用户预期的评级，该生成器使用模态内实例图和模态间实例图这两方面来优化多样性表示，一方面模态内实例图可以挖掘实例概念间的关系和减少冗余，同时模态间实例图负责完成跨模态对齐，模态内实例图和模态间实例图节点的优化都为如下逻辑：

其中，

是采样得到的多样性语义特征，每个特征都从邻居节点聚合特征，然后更新自己的特征，通过这种消息传播机制，可以让实例之间的多样性语义得到充分的优化。

具体的，根据附图1和附图2所示，本实施例中，语义空间约束器含有多个损失函数以优化语义空间的学习，具体包括标签分类损失函数、多实例三元组损失函数和距离惩罚损失函数，标签分类损失是多模态检索中常用的损失函数，其额外使用一个分类器以区别元属性特征和图像以使学习到的多样性特征是语义可分的，多实例三元组损失基于图匹配分数：

其中，

和

为元属性特征和图像的多样性特征，按照多实例学习的思路计算距离的最小值作为图匹配分数，然后使正例包对(t，v⁺)和负例包(t，v^-)对离得越远越好；距离惩罚损失则是为了优化三元组损失函数在多样性检索中的鲁棒性，因为现有三元组损失并没有对负例包有区别能力，即默认为它们是一致的且应该与正例包越远越好，而实际上在多样性较强的数据集中，负例图片之间的差异非常大，距离惩罚能够使模型学习到负例之间的差异性性，即负例们的匹配分数也应该反应它们的距离差异，具体来说，其计算匹配分数S(t，v)与负例先验排名dist之间的KL散度：

L_dis＝KL(dist(t，v)||S(t，v))

模型训练时，将使用以上多个损失函数训练网络参数使其收敛，其中，λ₁，λ₂和λ₃是平衡各个损失函数的参数：

L＝L_label+λ₁L_quav+λ₂L_mil+λ₃L_dis

测试时将使用跨模态匹配分数作为手机元属性特征和图像之间的相似度分数，然后计算Top1排序返回给用户，这种端到端的模型可以直接得到手机评级给用户，而不需要其他的额外处理和人工规则。

(1)跨模态多样性生成器算法部分，可将变分自编码器改为其他方法，包括多头注意力机制、主题模型等；

(2)语义空间约束器算法部分，可将增加其他的损失函数，或者直接用注意力机制或神经网络计算特征的匹配分数以代替图匹配方案；

(3)应用场景的扩展，本方案可以扩展到任何需要图像+元数据分类的场景中，如视频分类等。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变分多实例图像识别的二手手机自动评级算法，其特征在于，利用语义特征投影器提取图像特征并投影到语义空间中，利用跨模态特征生成器通过学习一对一的分布以产生多个实例，并执行跨模态多实例图，利用语义空间约束器设计多种损失函数来约束跨模态语义空间，使得属性特征和图像特征可以对齐，具体包含如下方法：

步骤一：获取手机的外观图片数据，并进行预处理；

步骤三：收集手机其他模态的特征；

2.根据权利要求1所述的一种基于变分多实例图像识别的二手手机自动评级算法，其特征在于：所述步骤一中，预处理包括但不限于去掉模糊不清的图片、图片裁剪以及亮度调整。

3.根据权利要求1所述的一种基于变分多实例图像识别的二手手机自动评级算法，其特征在于：所述步骤三中，其他模态的特征包括但不限于二手手机的机型、二手手机的使用年限以及维修情况。

4.根据权利要求1所述的一种基于变分多实例图像识别的二手手机自动评级算法，其特征在于：所述跨模态特征生成器为跨模态多样性生成器，其利用变分自编码器来建模完整的图片视觉语义概念，其最大化隐变量z与其后验分布的变分下界：

其中，f_v，f_t分别是图像和手机属性的特征。

5.根据权利要求1所述的一种基于变分多实例图像识别的二手手机自动评级算法，其特征在于：所述语义空间约束器含有多个损失函数以优化语义空间的学习，具体包括标签分类损失函数、多实例三元组损失函数和距离惩罚损失函数，多实例三元组损失基于图匹配分数：

其中，

和

为元属性特征和图像的多样性特征。