CN113486943A

CN113486943A - 基于多模态数据的服装商品性别识别方法及装置

Info

Publication number: CN113486943A
Application number: CN202110747469.1A
Authority: CN
Inventors: 陈畅新; 黄于晏; 钟艺豪; 李百川
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-10-08
Anticipated expiration: 2041-07-01
Also published as: CN113486943B

Abstract

本发明公开了一种基于多模态数据的服装商品性别识别方法及装置，该方法包括：获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据；将所述文本相关数据输入至文本性别识别网络模型，以得到文本识别结果；将所述尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果；将所述图像相关数据输入至图像性别识别网络模型，以得到图像识别结果；根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品对应的性别类别。可见，本发明可以有效提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

Description

基于多模态数据的服装商品性别识别方法及装置

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于多模态数据的服装商品性别识别方法及装置。

背景技术

随着互联网服饰电商的崛起，服饰商品数据的形式和特点也发生了变化。早期的互联网电商更注重服饰产品在详情页上进行直接的体现，为了便于用户查看，服饰产品的图片文字信息也更加的规范，而新崛起的二类电商更加注重在内容上，把场景带入内容中，此时就会引入干扰的信息，加之不需进入平台，直接在单品页面下单，而单品页面的制作质量也是参差不齐，因此在进行服装商品的性别识别时，仅依赖单品页面进行服饰类商品的性别识别存在较大的挑战。

现有技术在识别服装商品的性别类别时，一般仅采用服装商品的单一模态的数据进行识别，例如服装商品的图像数据，但如前所述，由于单品页面的制作质量存在问题，仅依赖单一模态数据进行服装商品的性别识别，存在准确率低的问题。

发明内容

本发明所要解决的技术问题在于，提供一种基于多模态数据的服装商品性别识别确定方法及装置，基于服装商品的更多模态层次上的特征来进行服装性别识别，可以有效提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

为了解决上述技术问题，本发明第一方面公开了一种基于多模态数据的服装商品性别识别方法，所述方法包括：

获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据；

将所述文本相关数据输入至文本性别识别网络模型，以得到文本识别结果；

将所述尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果；

将所述图像相关数据输入至图像性别识别网络模型，以得到图像识别结果；

根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品对应的性别类别。

作为一种可选的实施方式，在本发明第一方面中，所述文本识别结果包括所述文本相关数据在至少一个性别类别下的置信度得分；和/或，所述尺寸识别结果包括所述尺寸相关数据在至少一个性别类别下的置信度得分；和/或，所述图像识别结果包括所述图像相关数据在至少一个性别类别下的置信度得分。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品对应的性别类别，包括：

根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品在多个性别类别下的最终置信度得分；

根据所述目标服装商品在多个性别类别下的最终置信度得分，确定所述目标服装商品对应的性别类别。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品在多个性别类别下的最终置信度得分，包括：

将所述文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的置信度得分，分别根据对应的置信度修正公式进行调整，以得到所述文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的最终置信度得分；所述置信度修正公式与对应的置信度得分所对应的性别识别网络模型的预测准确率和/或置信度得分阈值差有关；所述置信度得分阈值差为所述权重因子对应的置信度得分与对应的性别识别网络模型的识别置信度阈值之间的差；

将所述文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的最终置信度得分，确定为所述目标服装商品在多个性别类别下的最终置信度得分。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述目标服装商品在多个性别类别下的最终置信度得分，确定所述目标服装商品对应的性别类别，包括：

将所述目标服装商品在多个性别类别下的最终置信度得分中，所述最终置信度得分最高的性别类别，确定为所述目标服装商品对应的性别类别；

和/或，

根据所述目标服装商品在多个性别类别下的最终置信度得分，对多个所述最终置信度得分由高到低进行排序，得到得分排序结果；

根据所述得分排序结果中前N个最终置信度得分所对应的性别类别，确定所述目标服装商品对应的性别类别；其中，N为大于1的整数，且N小于所述最终置信度得分的总数量。

作为一种可选的实施方式，在本发明第一方面中，所述置信度修正公式为：

S＝S_o×b×γ；

其中，S为所述最终置信度得分，S_o为所述置信度得分，b为置信度标准化因子，γ为接口权重因子；所述接口权重因子与所述置信度得分所对应的性别识别网络模型的预测准确率相关；

所述置信度标准化因子基于以下公式确定：

b＝log_ax；

其中，x与所述置信度得分相关，a与所述置信度得分所对应的性别识别网络模型的置信度阈值相关，且x与a均大于1。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述得分排序结果中前N个最终置信度得分所对应的性别类别，确定所述目标服装商品对应的性别类别，包括：

计算所述得分排序结果中前两个最终置信度得分之间的差值；

判断所述差值是否大于预设的得分差阈值，得到第一判断结果；

当所述第一判断结果为是时，将最高的最终置信度得分所对应的性别类别，确定为所述目标服装商品对应的性别类别；

当所述第一判断结果为否时，判断所述前两个最终置信度得分所对应的性别类别是否分别为男性和女性，得到第二判断结果；

当所述第二判断结果为是时，将所述目标服装商品对应的性别类别确定为中性；

当所述第二判断结果为否时，将最高的最终置信度得分所对应的性别类别，确定为所述目标服装商品对应的性别类别。

本发明第二方面公开了一种基于多模态数据的服装商品性别识别装置，所述装置包括：

数据获取模块，用于获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据；

文本识别模块，用于将所述文本相关数据输入至文本性别识别网络模型，以得到文本识别结果；

尺寸识别模块，用于将所述尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果；

图像识别模块，用于将所述图像相关数据输入至图像性别识别网络模型，以得到图像识别结果；

性别确定模块，用于根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品对应的性别类别。

作为一种可选的实施方式，在本发明第二方面中，所述文本识别结果包括所述文本相关数据在至少一个性别类别下的置信度得分；和/或，所述尺寸识别结果包括所述尺寸相关数据在至少一个性别类别下的置信度得分；和/或，所述图像识别结果包括所述图像相关数据在至少一个性别类别下的置信度得分。

作为一种可选的实施方式，在本发明第二方面中，所述性别确定模块包括：

得分确定单元，用于根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品在多个性别类别下的最终置信度得分；

性别确定单元，用于根据所述目标服装商品在多个性别类别下的最终置信度得分，确定所述目标服装商品对应的性别类别。

作为一种可选的实施方式，在本发明第二方面中，所述得分确定单元根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品在多个性别类别下的最终置信度得分的具体方式，包括：

作为一种可选的实施方式，在本发明第二方面中，所述性别确定单元根据所述目标服装商品在多个性别类别下的最终置信度得分，确定所述目标服装商品对应的性别类别的具体方式，包括：

和/或，

作为一种可选的实施方式，在本发明第二方面中，所述置信度修正公式为：

S＝S_o×b×γ；

所述置信度标准化因子基于以下公式确定：

b＝log_ax；

作为一种可选的实施方式，在本发明第二方面中，所述性别确定单元根据所述得分排序结果中前N个最终置信度得分所对应的性别类别，确定所述目标服装商品对应的性别类别的具体方式，包括：

本发明第三方面公开了另一种基于多模态数据的服装商品性别识别装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的基于多模态数据的服装商品性别识别方法中的部分或全部步骤。

本发明实施例第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的基于多模态数据的服装商品性别识别方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据；将所述文本相关数据输入至文本性别识别网络模型，以得到文本识别结果；将所述尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果；将所述图像相关数据输入至图像性别识别网络模型，以得到图像识别结果；根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品对应的性别类别。可见，本发明能够结合服装商品的文本数据、图像数据和尺寸数据等多模态的数据，分别进行性别识别，再根据多模态数据对应多种识别结果来最终确定服装商品的性别，从而可以基于服装商品的更多模态层次上的特征来进行服装性别识别，可以有效提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于多模态数据的服装商品性别识别方法的流程示意图；

图2是本发明实施例公开的另一种基于多模态数据的服装商品性别识别方法的流程示意图；

图3是本发明实施例公开的一种基于多模态数据的服装商品性别识别装置的结构示意图；

图4是本发明实施例公开的另一种基于多模态数据的服装商品性别识别装置的结构示意图；

图5是本发明实施例公开的又一种基于多模态数据的服装商品性别识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于多模态数据的服装商品性别识别方法及装置，能够结合服装商品的文本数据、图像数据和尺寸数据等多模态的数据，分别进行性别识别，再根据多模态数据对应多种识别结果来最终确定服装商品的性别，从而可以基于服装商品的更多模态层次上的特征来进行服装性别识别，可以有效提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于多模态数据的服装商品性别识别方法的流程示意图。其中，图1所描述的方法应用于服装商品性别识别装置中，该识别装置可以是相应的识别终端、识别设备或服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图1所示，该基于多模态数据的服装商品性别识别方法可以包括以下操作：

101、获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据。

本发明实施例中，目标服装商品的文本相关数据可以从目标服装商品对应的商品页面的文本或图像中进行获取。本发明实施例中，目标服装商品的文本相关数据，可以为商品详情页中的商品介绍、商品宣传语和商家信息中的一种或多种数据的组合，例如其可以包括商品标题、商品推荐语、商品店铺名称、商品图像内文本、商品款式、商品价格、商品产地、商品品牌信息、商品店铺联系方式和商品发货地址信息中的一种或多种，本发明不做限定。

本发明实施例中，目标服装商品的尺寸相关数据，可以为商品详情页中的商家尺寸表、尺寸对照图和购买详情页中的商品现货尺寸信息中的一种或多种数据的组合，具体的，其可以包括身高尺寸信息和/或体重尺寸信息。可选的可以从网页直接提取具有Unicode编码形式的尺寸信息，并在将其转换成中文utf-8编码后，再采用正则表达式提取数字部分。可选的，也可以获取网页中的尺寸表图像信息，在使用图像OCR文本识别算法对尺寸表图像中的尺寸表文本信息进行提取，以得到尺寸信息。可选的，尺寸相关数据包括身高尺寸数据和/或体重尺寸数据。

本发明实施例中，目标服装商品的图像相关数据可以从目标服装商品的商品页面的图像素材进行获取。优选的，图像相关数据包括目标服装商品的商品相关页面的全部图像。本发明实施例中，目标服装商品的图像相关数据，可以为商品展示页中的图像或商品详情页中的图像，其可以为服装本体图像、服装细节图像和模特着装图像中的一种或多种。

102、将文本相关数据输入至文本性别识别网络模型，以得到文本识别结果。

本发明实施例中，文本识别结果包括文本相关数据在至少一个性别类别下的置信度得分。

103、将尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果。

本发明实施例中，尺寸识别结果包括尺寸相关数据在至少一个性别类别下的置信度得分。

104、将图像相关数据输入至图像性别识别网络模型，以得到图像识别结果。

本发明实施例中，图像识别结果包括图像相关数据在至少一个性别类别下的置信度得分。

105、根据文本识别结果、尺寸识别结果以及图像识别结果，确定目标服装商品对应的性别类别。

可见，实施本发明实施例所描述的方法能够结合服装商品的文本数据、图像数据和尺寸数据等多模态的数据，分别进行性别识别，再根据多模态数据对应多种识别结果来最终确定服装商品的性别，从而可以基于服装商品的更多模态层次上的特征来进行服装性别识别，可以有效提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

作为一种可选的实施方式，上述步骤102中的，将文本相关数据输入至文本性别识别网络模型，以得到文本识别结果，包括：

将文本相关数据中的多个文本维度的数据，依照预设的组合规则进行抽取组合形成多个文本组合数据；

将多个文本组合数据输入至文本性别识别网络模型中的多个对应的子文本性别识别网络模型中，以得到多个子文本识别结果；

根据多个子文本识别结果，确定文本相关数据对应的文本识别结果。

其中，文本识别结果用于指示文本相关数据的性别分类。本发明实施例中，预设的组合规则可以为将多个文本维度的数据进行多次随机抽取和组合，可选的，可以通过多次对多个文本维度的数据进行随机抽取其中若干个不重复的数据，来组成多个文本组合数据。

本发明实施例中，多个文本维度可以包括商品标题、商品推荐语、商品店铺名称、商品图像内文本、商品编码、商品款式、商品价格、商品产地、商品品牌信息、商品店铺联系方式和商品发货地址信息中的至少两种，其中，商品图像内文本可以通过图像识别算法如OCR算法来识别服装商品的页面中的图像中的文本。

本发明实施例中，每一子文本性别识别网络模型对应于一种文本组合数据所对应的若干个文本维度的组合，优选的，每一子文本性别识别网络模型是通过输入与对应的文本组合数据的文本维度组合相同的文本训练数据进行训练得到的。因此每一子文本性别识别网络模型的模型输入的数据格式，与对应的文本组合数据的格式相同。

可见，实施该可选的实施方式能够将商品的文本数据中多个维度的数据进行组合，并分别通过多个子网络模型进行预测识别，从而能够全面地结合商品的文本数据中的多种维度的信息进行性别识别，有利于提高识别的准确率，进而避免了现有技术中单纯使用关键词匹配而导致的识别错误或无法识别的问题。

作为一种可选的实施方式，子文本识别结果包括对应的文本组合数据在多个性别类别下的置信度得分；文本识别结果包括文本相关数据在多个性别类别下的置信度得分。上述步骤中的，根据多个子文本识别结果，确定文本相关数据对应的文本识别结果，包括：

确定每一子文本识别结果对应的子文本性别识别网络模型的文本子模型权重；

根据多个子文本识别结果和对应的文本子模型权重，确定文本相关数据对应的文本识别结果。

本发明实施例中，文本子模型权重与对应的子文本性别识别网络模型的训练预测准确率有关，可选的，训练预测准确率可以通过获取子文本性别识别网络模型的历史训练预测数据来计算得到，例如可以统计子文本性别识别网络模型在多次训练中的训练预测准确率的平均值。优选的，文本子模型权重与对应的子文本性别识别网络模型的训练预测准确率成正比，即子文本性别识别网络模型的训练预测准确率越高，其输出的子文本识别结果在最终的文本识别成功中的比重就越大。

可见，实施该可选的实施方式能够根据多个子文本识别结果和对应的文本子模型权重，确定文本相关数据对应的文本识别结果，从而可以得到更准确更合理的文本识别结果，有利于提高识别的准确率，进而避免了现有技术中单纯使用关键词匹配而导致的识别错误或无法识别的问题。

作为一种可选的实施方式，上述步骤中的，根据多个子文本识别结果和对应的文本子模型权重，确定文本相关数据对应的文本识别结果，包括：

对于每一子文本识别结果，将其中包括的对应的文本组合数据在多个性别类别下的置信度得分与对应的文本子模型权重相乘，得到对应的文本组合数据在多个性别类别下的加权置信度得分；

根据所有子文本识别结果对应的文本组合数据在多个性别类别下的加权置信度得分，计算每一性别类别对应的总加权置信度得分；

按照总加权置信度得分从高到低，对所有性别类别进行排序，以得到性别类别序列；

将性别类别序列的前预设数量个性别类别及对应的总加权置信度得分，确定为文本相关数据对应的文本识别结果。

可选的，可以将每一性别类别对应的所有加权置信度得分的和，确定为每一性别类别对应的总加权置信度得分。

可选的，预设数量可以为1，此时选取总加权置信度得分最高的性别类别及对应的总加权置信度得分，确定为文本相关数据对应的文本识别结果。可选的，预设数量也可以根据实际情况或经验值确定。

可见，实施该可选的实施方式能够根据所有子文本识别结果对应的文本组合数据在多个性别类别下的加权置信度得分，计算每一性别类别对应的总加权置信度得分，并进一步确定出文本相关数据对应的文本识别结果，从而可以得到更准确更合理的文本识别结果，有利于提高识别的准确率，进而避免了现有技术中单纯使用关键词匹配而导致的识别错误或无法识别的问题。

作为一种可选的实施方式，上述文本性别识别网络模型基于以下步骤训练得到：

获取服装商品的文本训练数据；

将文本训练数据中的多个文本维度的数据，依照组合规则进行抽取组合形成多个文本训练集；

将多个文本训练集分别输入至文本性别识别训练网络进行训练直至收敛，以训练得到多个子文本性别识别网络模型。

本发明实施例中，文本训练数据在抽取组合时所依照的组合规则，应当与上述步骤中的组合规则相同，但由于实际情况中，预测环节中可能文本相关数据的某些文本维度可能不存在或无数据，此时，通过组合规则抽取组合得到的多个文本组合数据的数量可能小于上述文本训练集的数量，由于每一文本训练集训练得到一个子文本性别识别网络模型，因此上述步骤中，可能存在部分子文本性别识别网络模型不存在对应的数据输入，但每一文本组合数据必然存在一个对应的子文本性别识别网络模型。

可选的，文本性别识别训练网络的结构，与训练得到的子文本性别识别网络模型的网络结构相同，其均可以采用可用于文本识别的神经网络结构如CNN结构。优选的，文本性别识别训练网络的结构可以采用基于TextCNN(Text Convolutional Neural Network,文本卷积神经网络)的深度学习网络结构，其中包括有卷积层、池化层和softmax分类层。

可选的，文本性别识别训练网络的结构也可以采用基于词向量的固定表征模型如FastText、Word2Vec、GloVe，或循环神经网络结构如TextRNN或TextRNN+Attention，或使用基于词向量的动态表征模型如Transformer、ERNIE、BERT、ElMo、BART、Bort、T5、XLNet等网络结构，以及这几种网络结构的搭配组合如DPCNN、TextRCNN、BERT+RNN、BERT+RCNN、BERT+DPCNN、BERT+CNN等网络结构皆可。

可选的，文本训练数据和文本相关数据，在进行训练或进行预测之前，都需要进行文本数据处理，包括但不限于对文本训练数据或文本相关数据的分词处理、清洗处理、词向量映射处理和词向量拼接处理中的一种或多种。

可见，实施该可选的实施方式能够将多个文本训练集分别输入至文本性别识别训练网络进行训练直至收敛，以训练得到多个子文本性别识别网络模型，以便于后续依据该多个子文本性别识别网络模型进行文本性别识别任务时，提高文本性别任务的效率和准确率。

作为一种可选的实施方式，将每一个文本训练集输入至文本性别识别训练网络进行训练直至收敛的步骤包括：

输入服装商品有关的文本信息；

整合各机构或各种分词器公开的领域词典，进行词频统计和关联词扩展，构建各个行业的领域词典和停用词表；

将构建好的领域词典导入HanLP(Han Language Processing，汉语言处理包)的分词工具或jieba分词器，作为分词器的先验知识，加上停用词表对输入文本进行分词和清洗；

使用预训练词向量将文本的分词结果映射为一个K维的词向量；

将每句话中M个词向量拼接起来构成一个M×K的矩阵作为文本性别识别训练网络的输入；

设定文本性别识别训练网络中卷积层的卷积核的数量J和尺寸S，对输入的矩阵进行卷积计算，以提取特征；

卷积后通过激活函数将M×K的向量矩阵映射为x×y的特征矩阵f，文本经过每个卷积核会输出一个特征矩阵；

把特征矩阵输入到池化层中进行池化操作得到池化结果，以在保留主要特征的情况下，减少参数的数目，加速计算；

经过多次的卷积和池化操作后，将最后的输出拼接起来输入到softmax层中进行分类得到各个性别类别的置信度，通过交叉熵损失函数进行训练，输出最大置信度对应的性别类别，并对各性别类别置信度设置阈值，大于阈值的输出作为该服装商品文本的性别标签，性别得分即为相应的置信度。

作为一种可选的实施方式，上述步骤103中的，将尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果，包括：

将尺寸相关数据中的多个尺寸维度的数据，依照预设的组合规则进行抽取组合形成多个尺寸组合数据；

将多个尺寸组合数据输入至尺寸性别识别网络模型中的多个对应的子尺寸性别识别网络模型中，以得到多个子尺寸识别结果；

根据多个子尺寸识别结果，确定尺寸相关数据对应的尺寸识别结果。

其中，尺寸识别结果用于指示尺寸相关数据的性别分类。

本发明实施例中，预设的组合规则可以为将多个尺寸维度的数据进行多次随机抽取和组合，可选的，可以通过多次对多个尺寸维度的数据进行随机抽取其中若干个不重复的数据，来组成多个尺寸组合数据。

本发明实施例中，多个尺寸维度可以包括最大身高尺寸、最小身高尺寸、最大体重尺寸和最小体重尺寸中的至少两种。

本发明实施例中，每一子尺寸性别识别网络模型对应于一种尺寸组合数据所对应的若干个尺寸维度的组合，优选的，每一子尺寸性别识别网络模型是通过输入与对应的尺寸组合数据的尺寸维度组合相同的尺寸训练数据进行训练得到的。因此每一子尺寸性别识别网络模型的模型输入的数据格式，与对应的尺寸组合数据的格式相同。

可见，实施该可选的实施方式能够将商品的文本数据中多个维度的数据进行组合，并分别通过多个子网络模型进行预测识别，从而能够结合服装商品的尺寸数据中多个维度的信息进行性别识别，有利于利用尺寸信息中隐含的性别信息提高性别识别的准确率，并进一步增加性别识别可利用信息的范围和种类，以提高性别识别的效率。

作为一种可选的实施方式，子尺寸识别结果包括对应的尺寸组合数据在多个性别类别下的置信度得分；尺寸识别结果包括尺寸相关数据在多个性别类别下的置信度得分。上述步骤中的，根据多个子尺寸识别结果，确定尺寸相关数据对应的尺寸识别结果，包括：

确定每一子尺寸识别结果对应的子尺寸性别识别网络模型的尺寸子模型权重；

根据多个子尺寸识别结果和对应的尺寸子模型权重，确定尺寸相关数据对应的尺寸识别结果。

本发明实施例中，尺寸子模型权重与对应的子尺寸性别识别网络模型的训练预测准确率有关，可选的，训练预测准确率可以通过获取子尺寸性别识别网络模型的历史训练预测数据来计算得到，例如可以统计子尺寸性别识别网络模型在多次训练中的训练预测准确率的平均值。优选的，尺寸子模型权重与对应的子尺寸性别识别网络模型的训练预测准确率成正比，即子尺寸性别识别网络模型的训练预测准确率越高，其输出的子尺寸识别结果在最终的尺寸识别成功中的比重就越大。

可见，实施该可选的实施方式能够根据多个子尺寸识别结果和对应的尺寸子模型权重，确定尺寸相关数据对应的尺寸识别结果，有利于利用尺寸信息中隐含的性别信息提高性别识别的准确率，并进一步增加性别识别可利用信息的范围和种类，以提高性别识别的效率。

作为一种可选的实施方式，上述步骤中的，根据多个子尺寸识别结果和对应的尺寸子模型权重，确定尺寸相关数据对应的尺寸识别结果，包括：

对于每一子尺寸识别结果，将其中包括的对应的尺寸组合数据在多个性别类别下的置信度得分与对应的尺寸子模型权重相乘，得到对应的尺寸组合数据在多个性别类别下的加权置信度得分；

根据所有子尺寸识别结果对应的尺寸组合数据在多个性别类别下的加权置信度得分，计算每一性别类别对应的总加权置信度得分；

将性别类别序列的前预设数量个性别类别及对应的总加权置信度得分，确定为尺寸相关数据对应的尺寸识别结果。

可见，实施该可选的实施方式能够根据所有子尺寸识别结果对应的尺寸组合数据在多个性别类别下的加权置信度得分，计算每一性别类别对应的总加权置信度得分，并进一步确定出尺寸相关数据对应的尺寸识别结果，有利于利用尺寸信息中隐含的性别信息提高性别识别的准确率，并进一步增加性别识别可利用信息的范围和种类，以提高性别识别的效率。

获取服装商品的尺寸训练数据；

将尺寸训练数据中的多个尺寸维度的数据，依照组合规则进行抽取组合形成多个尺寸训练集；

将多个尺寸训练集分别输入至尺寸性别识别训练网络进行训练直至收敛，以训练得到多个子尺寸性别识别网络模型。

本发明实施例中，尺寸训练数据在抽取组合时所依照的组合规则，应当与上述步骤中的组合规则相同，因此上述步骤中，每一尺寸组合数据必然存在一个对应的子尺寸性别识别网络模型。

可选的，尺寸性别识别训练网络的结构，与训练得到的子尺寸性别识别网络模型的网络结构相同，其均可以采用决策树网络结构。优选的，每一子尺寸性别识别网络模型均采用决策树网络结构，以形成随机森林网络模型。可选的，决策树网络是基于树结构进行决策判断的模型。它通过多个条件判别过程将数据集分类，最终获取需要的结果。决策树的起始点为根节点，中间决策流程为内部节点，分类结果为叶节点。一棵决策树包含一个根节点、若干个内部结点和若干个叶结点，根节点包含了样本全集，其中叶子节点对应于决策结果(输出什么性别标签)，其他每个结点对应于一个属性测试(例如输入的身高最大值是否小于身高最值)，每个结点包含的样本集合根据属性测试的结果被划分到子节点中，根节点包含了样本全集。从根节点到每个叶节点的路径对应了一个判定测试序列。就是通过很多个不同的二分类最终将输入的数据归到不同的类别中。

可选的，尺寸性别识别训练网络的结构也可以采用基于boosting集成学习策略的梯度提升树GBDT等，可选的其不局限于使用传统机器学习方法，也可以使用深度学习模型来捕捉性别标签和尺寸数据的关系，例如RNN、LSTM、GRU等深度学习网络皆可。

可选的，尺寸训练数据和尺寸相关数据，在进行训练或进行预测之前，都需要进行尺寸数据处理，包括但不限于对尺寸训练数据或尺寸相关数据的解码处理、转码处理、正则式提取处理中的一种或多种。可选的，尺寸数据处理包括：

判断尺寸相关数据的多个尺寸维度的数据中，是否存在某一尺寸维度的数据缺失；

当判断结果为是时，将该缺失数据的尺寸维度的数据，确定为其他的尺寸维度的数据的平均值，通过这样实施，能够将尺寸相关数据的缺失数据的尺寸维度的数据，确定为其他的尺寸维度的数据的平均值，有利于填充尺寸相关数据的信息，以便于后续利用尺寸相关数据进行性别预测，利用尺寸信息中隐含的性别信息提高性别识别的准确率。

可见，实施该可选的实施方式能够将多个尺寸训练集分别输入至尺寸性别识别训练网络进行训练直至收敛，以训练得到多个子尺寸性别识别网络模型，以便于后续依据该多个子尺寸性别识别网络模型进行尺寸性别识别任务时，提高尺寸性别任务的效率和准确率。

作为一种可选的实施方式，上述步骤中的，将多个尺寸训练集分别输入至尺寸性别识别训练网络进行训练直至收敛，以训练得到多个子尺寸性别识别网络模型，包括：

将多个尺寸训练集分别输入至尺寸性别识别训练网络，以得到多个决策树模型组成的随机森林模型；

基于网格搜索和/或交叉验证，对随机森林模型中的多个决策树模型进行选择和训练，以得到多个子尺寸性别识别网络模型。

具体的，基于网格搜索，可以手动设置一组模型中需要的参数，程序自动用穷举法将所有的参数都运行一遍，训练决策树模型的时候，需要调节的参数包括最大叶子节点数、各类别的权重、基尼系数阈值、决策树深度，叶子节点所有样本权重和的最小值。

具体的，基于交叉验证，可以将所有数据分为K份，选其中一份作为测试集，剩下的K-1份做训练集、进行训练，重复做K次，直至K份数据中的每一份都做过测试集，训练出K个模型得出K个准确率得分。

具体的，可以结合网格搜索和交叉验证，用网格搜索将所有的参数组合列举出来，分成N个参数组合，让模型使用每个参数组合轮流做k折交叉验证，训练出k个模型，将k个模型的预测的准确率的平均值作为这个参数组合的综合评分。然后比较N个参数组合的评分，得分最高的那个参数组合作为最终的模型参数。

具体的，随机森林模型是多个决策树模型的组合，将多个决策树模型的分类结果进行投票选择,从而组成一个强分类器，采用了模型集成的思想，是为了解决单个模型或者单组参数组合训练出的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。

可见，实施该可选的实施方式能够基于网格搜索和交叉验证，对多个决策树模型进行选择和训练，以使得训练的收敛速度更快，便于后续依据该多个子尺寸性别识别网络模型进行尺寸性别识别任务时，提高尺寸性别任务的效率和准确率。

作为一种可选的实施方式，上述步骤104中的，将图像相关数据输入至图像性别识别网络模型，以得到图像识别结果，包括：

将图像相关数据输入至图像性别识别网络模型中，以得到图像相关数据在多个性别类别下的置信度得分；

根据图像相关数据在多个性别类别下的置信度得分，以及每一性别类别对应的权重信息，确定图像相关数据对应的图像识别结果；图像识别结果用于指示图像相关数据的性别分类。

可见，实施该可选的实施方式能够结合服装商品的多个性别类别的权重信息以及多个置信度预测结果，来确定出服装商品的性别，可以有效提高服装商品的性别准确率。

作为一种可选的实施方式，图像相关数据包括目标服装商品对应的多个商品图像，上述步骤中的，将图像相关数据输入至图像性别识别网络模型中，以得到图像相关数据在多个性别类别下的置信度得分，包括：

将多个商品图像分别输入图像性别识别网络模型中，以得到每一商品图像对应的子预测性别类别和对应的图像置信度得分。

本发明实施例中，图像性别识别网络模型可以采用预先训练好的图像识别网络，可选的，图像性别识别网络模型可以采用基于ImageNet图像数据集预训练的图像识别模型如MobilenetV3模型、ResNet模型、EfficientNet模型或ShuffleNet模型，并在此基础上通过服装商品的图像训练数据集进行性别分类任务的迁移学习。具体的，模型以RGB三通道的图像训练数据集作为输入，通过softmax交叉熵损失进行训练，最终输出各类别对应的置信度，其中置信度最高且超过预设阈值的性别类别认为是该输入图像对应的预测性别类别。

可见，实施该可选的实施方式能够将多个商品图像分别输入图像性别识别网络模型中，以得到每一商品图像对应的子预测性别类别和对应的图像置信度得分，以便于后续依据每一商品图像对应的子预测性别类别和对应的图像置信度得分来确定出最终的图像识别结果，提高图像性别识别任务的效率和准确率。

作为一种可选的实施方式，图像识别结果包括图像相关数据对应的目标预测性别类别和目标置信度得分，上述步骤中的，根据图像相关数据在多个性别类别下的置信度得分，以及每一性别类别对应的权重信息，确定图像相关数据对应的图像识别结果，包括：

根据所有商品图像对应的子预测性别类别和对应的图像置信度得分，确定每一性别类别对应的类别置信度得分；

根据所有商品图像对应的子预测性别类别和对应的图像置信度得分，确定每一性别类别对应的类别权重；

将每一性别类别对应的类别置信度得分以及类别权重的乘积，确定为每一性别类别对应的最终类别置信度得分；

根据所有性别类别对应的最终类别置信度得分，确定图像相关数据对应的目标预测性别类别和目标置信度得分。

本发明实施例中，可以将每一子预测性别类别对应的所有图像置信度得分的平均值，确定为该子预测性别类别对应的性别类别的类别置信度得分，将所有图像置信度得分的平均值确定为类别置信度得分，而非直接取每个类别最高置信度的原因是为了解决某张图像素材被模型误判时，导致最终类别信息错误的情况，通过计算平均置信度可以降低模型对每个类别的输出误差。

可选的，类别权重可以包括性别类别对应的数量权重和/或类别权重衰减因子。

可见，实施该可选的实施方式能够根据所有性别类别对应的最终类别置信度得分，确定图像相关数据对应的目标预测性别类别和目标置信度得分，可以有效提高图像性别识别任务的效率和准确率。

作为一种可选的实施方式，上述步骤中的，根据所有商品图像对应的子预测性别类别和对应的图像置信度得分，确定每一性别类别对应的类别权重，包括：

针对每一子预测性别类别，确定属于该子预测性别类别的所有商品图像的图像数量，并将该图像数量占所有商品图像的总数量的比例确定为该子预测性别类别对应的性别类别对应的数量权重。

可见，实施该可选的实施方式能够将属于任一性别类别的所有商品图像的图像数量占所有商品图像的总数量的比例，确定为该性别类别对应的数量权重，可以有效修正该性别类别的置信度得分，提高数量多的类别得分，降低数量低的类别得分，以提高图像性别识别任务的效率和准确率。

确定每一性别类别对应的类别权重衰减因子。

其中，类别权重衰减因子与对应的性别类别所对应的图像素材在图像相关数据的占比有关。优选的，男性和女性的类别权重衰减因子可设置为1，中性和其他的类别权重衰减因子可设置为0.9。这是因为同一商品对应的多个图像素材中，可能会存在一些不包含服装的尺寸表、场景图等干扰图，当包含服饰的商品图和这部分干扰图数目相近时，最终计算出来的类别置信度得分差值会较小，因此引入类别权重衰减因子的目的就是小幅度地降低中性和其他类别的得分值，降低其对最终输出性别的贡献。

可见，实施该可选的实施方式能够确定每一性别类别对应的类别权重衰减因子，可以有效修正该性别类别的置信度得分，以提高图像性别识别任务的效率和准确率。

作为一种可选的实施方式，根据所有性别类别对应的最终类别置信度得分，确定图像相关数据对应的目标预测性别类别和目标置信度得分，包括：

对所有最终类别置信度得分按照从高到低进行排序，以得到置信度得分序列；

计算置信度得分序列的前两个置信度得分之间的得分差值，并判断得分差值是否大于预设的得分差值阈值，得到得分判断结果；

当得分判断结果为是时，将前两个置信度得分中更高的置信度得分以及其对应的性别类别，确定为图像相关数据对应的目标置信度得分和目标预测性别类别；

当得分判断结果为否时，判断前两个置信度得分所对应的性别类别是否分别为男性和女性，得到性别判断结果；

当性别判断结果为是时，将前两个置信度得分的平均值以及中性性别，确定为图像相关数据对应的目标置信度得分和目标预测性别类别；

当性别判断结果为否时，将前两个置信度得分的平均值以及其他性别类别，确定为图像相关数据对应的目标置信度得分和目标预测性别类别。

其中，其他性别类别，是指不能确定性别的类别，例如在输入图像为不包含性别信息的无关图像，如文字图像或是商家LOGO时，这一性别类别用于指示其无关性。

可见，实施该可选的实施方式能够判断置信度得分序列的前两个置信度得分之间的得分差值以及两个置信度得分分别对应的性别类别，以更准确确定出最终的性别识别结果。

接下来，对上述公开的将图像相关数据输入至图像性别识别网络模型进行识别的一个具体的实施方案进行阐述，该方案包括以下操作：

采用基于卷积神经网络的深度学习方法来进行服饰图像的性别分类，其中模型采用基于ImageNet图像数据集预训练的MobilenetV3，在此基础上通过服饰图像数据集进行性别分类任务的迁移学习。模型以RGB三通道的服饰图像作为输入，通过softmax交叉熵损失进行训练，最终输出各类别对应的置信度，其中置信度最高且超过预设阈值的类别认为是该输入图像对应的预测性别。

由于商品页面通常会包含多个图像素材，因此需要构建单个图像素材的性别与商品页面最终的性别之间的关联关系：图像接口需要接收同一商品页面的全部图像素材作为输入，即图像性别标签的存储集合。该集合存储了每个图像素材的模型预测性别和相应的置信度。得到图像性别标签的存储集合后，计算其中每个类别的平均置信度以及每个类别在整个标签集合中的权重占比。最后每个类别的平均置信度与权重占比进行相乘，再乘上一个预先设定的类别衰减因子，结果即为该类别的最终得分。对所有类别的得分进行从高到低的排序，取出前二者并计算得分差值，当差值大于等于阈值时，图像接口输出最高得分所属的性别类别，输出的性别得分即为该类别对应的得分；当差值小于阈值时，需加以判断得分最高的前两个性别是否同时互为男性或女性，是的话图像接口输出中性类别，性别得分则取二者的平均值，否则图像接口输出其他类别和对应得分。具体如下：

商品页面A包含了n张图像素材，其中模型为第i个图像素材预测一个性别类别C_i和置信度S_i，最终商品页面A会得到图像标签的存储集合L，集合L存储了每个图像素材的性别类别和置信度。

计算集合L中每个类别的平均置信度

l表示类别，n_l表示属于该类别的个数：

计算集合L中每个类别在整个标签集合中的权重占比，以得到数量权重W_l：

将每个类别的平均置信度与权重占比以及预先设定的类别权重衰减因子α相乘，结果即为该类别的最终得分S_l：

对所有类别的得分进行从高到低的排序，取出最高分S_l1和次高分S_l2，计算二者差值，当差值大于等于阈值k时，S_l1所属的类别C_l1即为图像接口的输出性别；当差值小于阈值k时，需加以判断C_l1和C_l2是否同时互为男性和女性这两个性别，是的话图像接口输出中性类别，否则图像接口输出其他性别。

实施例二

请参阅图2，图2是本发明实施例公开的另一种基于多模态数据的服装商品性别识别方法的流程示意图。其中，图2所描述的方法应用于服装商品性别识别装置中，该识别装置可以是相应的识别终端、识别设备或服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图2所示，该基于多模态数据的服装商品性别识别方法可以包括以下操作：

201、获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据。

202、将文本相关数据输入至文本性别识别网络模型，以得到文本识别结果。

203、将尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果。

204、将图像相关数据输入至图像性别识别网络模型，以得到图像识别结果。

上述步骤201-204的具体的技术细节和技术名词解释，可以参照实施一中对步骤101-104的表述，在此不再赘述。

205、根据文本识别结果、尺寸识别结果以及图像识别结果，确定目标服装商品在多个性别类别下的最终置信度得分。

本发明实施例中的性别类别可以包括男性、女性、中性或其他中的一种或多种的组合。

206、根据目标服装商品在多个性别类别下的最终置信度得分，确定目标服装商品对应的性别类别。

可见，本发明实施例能够根据目标服装商品在多个性别类别下的最终置信度得分确定目标服装商品对应的性别类别，从而提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

作为一种可选的实施方式，上述步骤205中的，根据文本识别结果、尺寸识别结果以及图像识别结果，确定目标服装商品在多个性别类别下的最终置信度得分，包括：

将文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的置信度得分，分别根据对应的置信度修正公式进行调整，以得到文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的最终置信度得分；

将文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的最终置信度得分，确定为目标服装商品在多个性别类别下的最终置信度得分。

本发明实施例中，置信度修正公式与对应的置信度得分所对应的性别识别网络模型的预测准确率和/或置信度得分阈值差有关，可选的，该置信度得分阈值差为权重因子对应的置信度得分与对应的性别识别网络模型的识别置信度阈值之间的差。

可见，实施该可选的实施方式能够将文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的经过置信度修正公式调整后的最终置信度得分，确定为目标服装商品在多个性别类别下的最终置信度得分，从而可以提高最终得到置信度得分的合理性和准确度，以便于提高后续进行的服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

作为一种可选的实施方式，置信度修正公式为：

S＝S_o×b×γ；

其中，S为最终置信度得分，S_o为置信度得分，b为置信度标准化因子，γ为接口权重因子。

本发明实施例中，接口权重因子与置信度得分所对应的性别识别网络模型的预测准确率相关，是用来衡量各个性别识别网络模型的重要性的，例如在考虑文本相关数据的置信度得分时，选取与文本性别识别网络模型相关的历史预测准确率信息，以确定接口权重因子。例如在考虑尺寸相关数据的置信度得分时，选取与尺寸性别识别网络模型相关的历史预测准确率信息，以确定接口权重因子。例如在考虑图像相关数据的置信度得分时，选取与图像性别识别网络模型相关的历史预测准确率信息，以确定接口权重因子。可选的，该历史预测准确率信息可以通过计算对应的性别识别网络模型的在历史时间段或历史预测任务中的平均预测准确率来确定。

可选的，也可以根据性别识别网络模型的固有判断属性来确定接口权重因子，例如：图像性别识别网络模型是基于服装商品的图像内容来进行性别判断，并且图像性别识别网络模型会接收多个图像素材来确定服装商品的输出性别类别，图像性别识别网络模型的性别分类准确率高于文本性别识别网络模型和尺寸性别识别网络模型，因此认为图像性别识别网络模型拥有更高的可信度和更强的分类能力，图像性别识别网络模型的接口权重因子可设置为最大，而文本性别识别网络模型和尺寸性别识别网络模型同样根据实际情况如实验结果来确定出比图像性别识别网络模型更低的接口权重因子。

作为一种可选的实施方式，置信度标准化因子基于以下公式确定：

b＝log_ax；

其中，x与置信度得分相关，a与置信度得分所对应的性别识别网络模型的置信度阈值相关，且x与a均大于1。其中，设置a大于1的原因，是为了保证log_ax这一对数函数为单调递增函数，以达到预期的标准化效果，而设置x大于1的原因，则是为了保证最终得到的b，也即置信度标准化因子大于0，以避免后续基于这一因子的置信度修正出现数据错误。

可选的，x可以由置信度得分转换而来，如x可以等于置信度得分加1，同理，a也可以由性别识别网络模型的置信度阈值转换而来，如a可以为置信度阈值加1，为了保证置信度标准化因子的转换效果，x与a由相应的置信度得分或置信度阈值转换过来所依据的公式应当一致或类似。举例而言，当置信度得分为0.88，置信度阈值为0.70，则x可为1+0.88，a为1+0.7，因此置信度标准化因子b＝log_1.71.88。

本发明实施例中，性别识别网络模型的置信度阈值为训练中确定的性别分类阈值，其与对应的网络，如文本性别识别网络模型、尺寸性别识别网络模型或图像性别识别网络模型的最终训练收敛后的置信度阈值相对应，本领域技术人员通晓，该置信度阈值用于确定输出的性别类别所对应的置信度得分是否足够可信，且该置信度阈值在训练中会被调整以达到一个较为精准的临界值。

可选的，置信度标准化因子也可以除了如上采用对数公式外，也可以为一个预设的具体数字，或是采用分段函数。具体的，置信度标准化因子的作用，是由于每种性别识别网络模型对性别得分的评判标准不同，也即其输出的置信度得分处在不同的维度下，因此不能直接用来比较高低，需要通过置信度标准化因子把各个性别识别网络模型的置信度映射到同一维度下，使得各模型的性别识别置信度得分能够直接进行比较。

例如：文本性别识别网络模型输出的置信度得分为0.88(阈值为0.85)，尺寸性别识别网络模型输出的置信度得分为0.6(阈值为0.4)，图像性别识别网络模型输出的置信度得分为0.88(阈值为0.7)。在此先假设三个模型的重要程度一致，此时若直接进行置信度得分的比较，显然文本性别识别网络模型的分值最高，而尺寸性别识别网络模型的分值最低，那么文本性别识别网络模型输出的性别会对最终输出的性别有很大影响。但对于文本性别识别网络模型而言，其置信度得分仅仅比阈值高出3.5％，而尺寸性别识别网络模型的置信度得分比阈值高出了50％，显然尺寸性别识别网络模型的结果更加可信。因此，需要通过置信度标准化因子来调节各个模型的分值，把文本模型的性别得分从0.88降低至0.74，尺寸模型的性别得分从0.6提高至0.93，这样才拥有了可比性。

可见，实施该可选的实施方式能够确定出用于修正置信度得分的置信度修正公式，从而可以更加准确地确定出最终置信度得分，以便于提高后续的服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

作为一种可选的实施方式，上述步骤206中的，根据目标服装商品在多个性别类别下的最终置信度得分，确定目标服装商品对应的性别类别，包括：

将目标服装商品在多个性别类别下的最终置信度得分中，最终置信度得分最高的性别类别，确定为目标服装商品对应的性别类别。

可见，实施该可选的实施方式能够将目标服装商品在多个性别类别下的最终置信度得分最高的性别类别，确定为目标服装商品对应的性别类别，从而可以准确确定出目标服装商品的性别类别，提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

作为一种可选的实施方式，上述步骤中的，根据目标服装商品在多个性别类别下的最终置信度得分，确定目标服装商品对应的性别类别，包括：

根据目标服装商品在多个性别类别下的最终置信度得分，对多个最终置信度得分由高到低进行排序，得到得分排序结果；

根据得分排序结果中前N个最终置信度得分所对应的性别类别，确定目标服装商品对应的性别类别；其中，N为大于1的整数，且N小于最终置信度得分的总数量。

可见，实施该可选的实施方式能够根据得分排序结果中前N个最终置信度得分所对应的性别类别，确定目标服装商品对应的性别类别，从而可以准确确定出目标服装商品的性别类别，提高服装商品性别识别的准确率和效率，进而可以有效解决现有技术仅利用单一模态数据进行服装性别识别带来的准确率更低的问题。

作为一种可选的实施方式，上述步骤中的，根据得分排序结果中前N个最终置信度得分所对应的性别类别，确定目标服装商品对应的性别类别，包括：

计算得分排序结果中前两个最终置信度得分之间的差值；

判断差值是否大于预设的得分差阈值，得到第一判断结果；

当第一判断结果为是时，将最高的最终置信度得分所对应的性别类别，确定为目标服装商品对应的性别类别；

当第一判断结果为否时，判断前两个最终置信度得分所对应的性别类别是否分别为男性和女性，得到第二判断结果；

当第二判断结果为是时，将目标服装商品对应的性别类别确定为中性；

当第二判断结果为否时，将最高的最终置信度得分所对应的性别类别，确定为目标服装商品对应的性别类别。

以下对以上公开的基于多模态数据的服装商品性别识别方法的一种具体实施方案进行表述，该方案包括以下步骤：

获取目标服装商品的多模态数据，包括图像数据、文本数据和尺寸数据，并分别输入到对应的性别识别网络模型。

为每个性别识别网络模型分别引入了预设的权重因子γ和置信度标准化因子b，通过置信度标准化因子b把各个性别识别网络模型的性别得分映射到同一维度下，随后再利用权重因子γ来调节各性别识别网络模型的重要程度，每个性别识别网络模型的最终性别得分S与各接口的输出得分So之间的关系为:S＝So×b×γ；

比较各个性别识别网络模型的最终性别得分S：取性别得分的最高者和次高者，计算二者的得分差值，若大于得分差阈值，则最高性别得分所属的性别类别作为该商品的输出性别；若得分差值小于得分差阈值，考虑性别得分的最高者和次高者所属的性别类别是否同时互为男性和女性，是的话输出中性类别作为该商品的性别，否则依旧输出最高性别得分所属的性别类别作为该商品的性别。

实施例三

请参阅图3，图3是本发明实施例公开的一种基于多模态数据的服装商品性别识别装置的结构示意图。其中，图3所描述的装置可以应用于相应的识别终端、识别设备或服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图3所示，该装置可以包括：

数据获取模块301，用于获取目标服装商品的文本相关数据、尺寸相关数据和图像相关数据；

文本识别模块302，用于将文本相关数据输入至文本性别识别网络模型，以得到文本识别结果；

尺寸识别模块303，用于将尺寸相关数据输入至尺寸性别识别网络模型，以得到尺寸识别结果；

图像识别模块304，用于将图像相关数据输入至图像性别识别网络模型，以得到图像识别结果；

性别确定模块305，用于根据文本识别结果、尺寸识别结果以及图像识别结果，确定目标服装商品对应的性别类别。

作为一种可选的实施方式，文本识别结果包括文本相关数据在至少一个性别类别下的置信度得分；和/或，尺寸识别结果包括尺寸相关数据在至少一个性别类别下的置信度得分；和/或，图像识别结果包括图像相关数据在至少一个性别类别下的置信度得分。

作为一种可选的实施方式，如图4所示，性别确定模块305包括：

得分确定单元3051，用于根据文本识别结果、尺寸识别结果以及图像识别结果，确定目标服装商品在多个性别类别下的最终置信度得分；

性别确定单元3052，用于根据目标服装商品在多个性别类别下的最终置信度得分，确定目标服装商品对应的性别类别。

作为一种可选的实施方式，得分确定单元3051根据文本识别结果、尺寸识别结果以及图像识别结果，确定目标服装商品在多个性别类别下的最终置信度得分的具体方式，包括：

将文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的置信度得分，分别根据对应的置信度修正公式进行调整，以得到文本相关数据、尺寸相关数据和图像相关数据分别的在至少一个性别类别下的最终置信度得分；置信度修正公式与对应的置信度得分所对应的性别识别网络模型的预测准确率和/或置信度得分阈值差有关；置信度得分阈值差为权重因子对应的置信度得分与对应的性别识别网络模型的识别置信度阈值之间的差；

作为一种可选的实施方式，性别确定单元3052根据目标服装商品在多个性别类别下的最终置信度得分，确定目标服装商品对应的性别类别的具体方式，包括：

将目标服装商品在多个性别类别下的最终置信度得分中，最终置信度得分最高的性别类别，确定为目标服装商品对应的性别类别；

和/或，

作为一种可选的实施方式，置信度修正公式为：

S＝S_o×b×γ；

其中，S为最终置信度得分，S_o为置信度得分，b为置信度标准化因子，γ为接口权重因子；接口权重因子与置信度得分所对应的性别识别网络模型的预测准确率相关；

置信度标准化因子基于以下公式确定：

b＝log_a(1+x)；

其中，x为置信度得分，a为置信度得分所对应的性别识别网络模型的置信度阈值。

作为一种可选的实施方式，性别确定单元3052根据得分排序结果中前N个最终置信度得分所对应的性别类别，确定目标服装商品对应的性别类别的具体方式，包括：

计算得分排序结果中前两个最终置信度得分之间的差值；

判断差值是否大于预设的得分差阈值，得到第一判断结果；

实施例四

请参阅图5，图5是本发明实施例公开的又一种基于多模态数据的服装商品性别识别装置的结构示意图。如图5所示，该装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一或实施例二公开的基于多模态数据的服装商品性别识别方法中的部分或全部步骤。

实施例五

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或实施例二公开的基于多模态数据的服装商品性别识别方法中的部分或全部步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于多模态数据的服装商品性别识别方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于多模态数据的服装商品性别识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态数据的服装商品性别识别方法，其特征在于，所述文本识别结果包括所述文本相关数据在至少一个性别类别下的置信度得分；和/或，所述尺寸识别结果包括所述尺寸相关数据在至少一个性别类别下的置信度得分；和/或，所述图像识别结果包括所述图像相关数据在至少一个性别类别下的置信度得分。

3.根据权利要求2所述的基于多模态数据的服装商品性别识别方法，其特征在于，所述根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品对应的性别类别，包括：

4.根据权利要求3所述的基于多模态数据的服装商品性别识别方法，其特征在于，所述根据所述文本识别结果、所述尺寸识别结果以及所述图像识别结果，确定所述目标服装商品在多个性别类别下的最终置信度得分，包括：

5.根据权利要求3所述的基于多模态数据的服装商品性别识别方法，其特征在于，所述根据所述目标服装商品在多个性别类别下的最终置信度得分，确定所述目标服装商品对应的性别类别，包括：

和/或，

6.根据权利要求4所述的基于多模态数据的服装商品性别识别方法，其特征在于，所述置信度修正公式为：

S＝S_o×b×γ；

所述置信度标准化因子基于以下公式确定：

b＝log_ax；

7.根据权利要求5所述的基于多模态数据的服装商品性别识别方法，其特征在于，所述根据所述得分排序结果中前N个最终置信度得分所对应的性别类别，确定所述目标服装商品对应的性别类别，包括：

8.一种基于多模态数据的服装商品性别识别装置，其特征在于，所述装置包括：

9.一种基于多模态数据的服装商品性别识别装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于多模态数据的服装商品性别识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于多模态数据的服装商品性别识别方法。