CN113918554A

CN113918554A - 商品数据清洗方法及其装置、设备、介质、产品

Info

Publication number: CN113918554A
Application number: CN202111271713.8A
Authority: CN
Inventors: 冯一丁
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-11

Abstract

本申请公开一种商品数据清洗方法及其装置、设备、介质、产品，所述方法包括：确定商品数据集，商品数据集被划分为训练集和数据集,包括多个携带原始分类标签的商品数据；采用经训练集训练的分类器对所述测试集中的商品数据进行分类，获得各个商品数据的预测分类标签；根据预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的多个原始分类标签，从训练集中提取该些原始分类标签下的商品数据作为待清洗数据集；对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据。本申请能够对海量的商品数据进行有效数据清洗以获得优质的训练集，使经其训练的分类器能够获得较高准确度的分类预测效果。

Description

商品数据清洗方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息技术领域，尤其涉及一种商品数据清洗方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

随着深度学习的发展，各种神经网络模型的规模越来越大，训练数据的规模也越来越大，随着规模的扩大，训练数据中的噪声数据也逐渐增多，大量的噪声数据会严重影响模型的效果，传统的人工标注很难高效地处理如此大批量的数据，如果未能有效地对数据进行清洗，噪声数据将会严重影响神经网络模型的训练效果。

现有技术中，对神经网络模型所需的训练数据进行清洗，一般是应用简单的手段，检测残缺数据、错误数据、重复数据等，非常简单粗暴，未充分考虑数据本身对神经网络模型的价值因素，因此，对于提升训练数据相对于模型的价值而言，收效甚微。

模型训练所需的训练数据，特别是携带监督标签的数据，其相应的标签是否准确有效，会在较大程度上影响模型的训练效果，具体会影响模型的习得能力，因此，数据清洗阶段，更需要对此加以关注。业内对于携带标签的训练数据进行清洗所提出的相关解决方案主要是基于聚类算法，根据聚类结果简单进行校验，去除标注信息与聚类结果不符的训练数据。此类方式尽管在相当程度上提升了数据的质量，但不够精细，而且未能与模型相结合对相关数据进行清洗，因此，仍有提升空间。

数据清洗的需求在电商领域尤为明显。电商领域中，海量的商品相对应的商品数据，一般均有标签信息与之一一对应，但是，当这些商品数据的标签信息是来自不同来源或以不同标准生成时，如何使这些商品数据得到有效的标注，便成为更大的难题。

综上所述，如何针对商品数据构成的训练数据进行数据清洗，使其适应神经网络模型的需要而成为有效的训练数据，对于电商领域而言，值得探索。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种商品数据清洗方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种商品数据清洗方法，包括如下步骤：

确定商品数据集，所述商品数据集包括多个携带原始分类标签的商品数据，所述商品数据被划分为训练集和数据集；

采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签；

根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集；

对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集。

深化的实施例中，采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签，包括如下步骤：

采用特征提取模型获取所述测试集中的商品数据的深层语义信息，所述深层语义信息包含所述商品数据的文本特征信息和/或图片特征信息；

采用分类器计算所述深层语义信息映射到各个所述的原始分类标签相对应的分类概率，以确定该深层语义信息相应的商品数据所属的预测分类标签，所述预测分类标签为该商品数据的分类概率最大的原始分类标签。

具体的实施例中，采用特征提取模型获取所述测试集中的商品数据的深层语义信息，所述深层语义信息包含所述商品数据的文本特征信息和/或图片特征信息，包括如下步骤：

采用第一特征提取模型对所述测试集中的商品数据的商品标题进行深层语义信息提取，获得相应的文本特征信息；

采用第二特征提取模型对所述测试集中的商品数据的商品图片进行深层语义信息提取，获得相应的图片特征信息；

将相同商品数据的所述文本特征信息与图片特征信息拼接为表示该商品数据的深层语义信息的图文特征信息。

深化的实施例中，根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集，包括如下步骤：

根据所述测试集中的商品数据的预测分类标签与其原始分类标签统计出混淆矩阵，混淆矩阵中的每个元素用于表征原始分类标签相对应的商品数据被预测为某个预测分类标签的统计数量；

从所述混淆矩阵内原始分类标签与预测分类标签不一致的元素中，针对其中统计数量最大的预定数量的多个目标元素，确定该些目标元素相对应的原始分类标签；

从所述训练集中提取出携带所述目标元素相对应的原始分类标签的商品数据构成待清洗数据集。

深化的实施例中，对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集，包括如下步骤：

采用预设聚类算法，根据所述待清洗数据集中的商品数据的深层语义信息进行聚类，获得聚类所得的多个商品数据簇；

统计每个商品数据簇中商品数据所拥有的最大数量的原始分类标签，将该商品数据簇中未携带该最大数量的原始分类标签的商品数据删除以实现对该商品数据簇的数据清洗；

确定净化训练集，该净化训练集包括各个已完成数据清洗的所述商品数据簇中的商品数据。

扩展的实施例中，对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集的步骤之后，包括如下步骤：

采用所述净化训练集作为新的训练集对所述分类器进行训练；

在该分类器完成训练后，自所述采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类的步骤开始循环执行本方法；

其中，在所述确定存在错误预测最多的预定数量的多个原始分类标签的步骤中，所述预定数量被重新设定。

进一步的实施例中，本申请的商品数据清洗方法，还包括如下后续步骤：

统计各次训练所得的分类器的预测准确率，所述预测准确率为所述测试集中商品数据的深层语义信息被分类器正确分类至其原始分类标签的准确率；

确定预测准确率最大的分类器所采用的训练集为最优训练集，将该分类器用于响应商品数据的分类需求而确定商品数据相对应的分类。

适应本申请的目的之一而提供的一种商品数据清洗装置，包括：数据确定模块、分类预测模块、误测筛选模块，以及聚类清洗模块，其中，所述数据确定模块，用于确定商品数据集，所述商品数据集包括多个携带原始分类标签的商品数据，所述商品数据被划分为训练集和数据集；所述分类预测模块，用于采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签；所述误测筛选模块，用于根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集；所述聚类清洗模块，用于对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集。

深化的实施例中，所述分类预测模块，包括：语义提取子模块，用于采用特征提取模型获取所述测试集中的商品数据的深层语义信息，所述深层语义信息包含所述商品数据的文本特征信息和/或图片特征信息；分类映射子模块，用于采用分类器计算所述深层语义信息映射到各个所述的原始分类标签相对应的分类概率，以确定该深层语义信息相应的商品数据所属的预测分类标签，所述预测分类标签为该商品数据的分类概率最大的原始分类标签。

具体的实施例中，所述语义提取子模块，包括：文本提取单元，用于采用第一特征提取模型对所述测试集中的商品数据的商品标题进行深层语义信息提取，获得相应的文本特征信息；图像提取单元，用于采用第二特征提取模型对所述测试集中的商品数据的商品图片进行深层语义信息提取，获得相应的图片特征信息；特征融合单元，用于将相同商品数据的所述文本特征信息与图片特征信息拼接为表示该商品数据的深层语义信息的图文特征信息。

深化的实施例中，所述误测筛选模块，包括：误测统计子模块，用于根据所述测试集中的商品数据的预测分类标签与其原始分类标签统计出混淆矩阵，混淆矩阵中的每个元素用于表征原始分类标签相对应的商品数据被预测为某个预测分类标签的统计数量；误测确定子模块，用于从所述混淆矩阵内原始分类标签与预测分类标签不一致的元素中，针对其中统计数量最大的预定数量的多个目标元素，确定该些目标元素相对应的原始分类标签；待洗提取子模块，用于从所述训练集中提取出携带所述目标元素相对应的原始分类标签的商品数据构成待清洗数据集。

深化的实施例中，所述聚类清洗模块，包括：标题聚类子模块，用于采用预设聚类算法，根据所述待清洗数据集中的商品数据的深层语义信息进行聚类，获得聚类所得的多个商品数据簇；清洗执行子模块，用于统计每个商品数据簇中商品数据所拥有的最大数量的原始分类标签，将该商品数据簇中未携带该最大数量的原始分类标签的商品数据删除以实现对该商品数据簇的数据清洗；净化数据子模块，用于确定净化训练集，该净化训练集包括各个已完成数据清洗的所述商品数据簇中的商品数据。

扩展的实施例中，本申请的商品数据清洗装置中，包括：再次训练模块，用于采用所述净化训练集作为新的训练集对所述分类器进行训练，所述再次训练模块运行之后，触发本装置的分类预测模块、误测筛选模块、聚类清洗模块的再次循环运行，其中，所述误测筛选模块中的预定数量被重新设定。

进一步的实施例中，本申请的商品数据清洗装置，还包括如下后续运行的结构：准确率统计模块，用于统计各次训练所得的分类器的预测准确率，所述预测准确率为所述测试集中商品数据的深层语义信息被分类器正确分类至其原始分类标签的准确率；选优确定模块，用于确定预测准确率最大的分类器所采用的训练集为最优训练集，将该分类器用于响应商品数据的分类需求而确定商品数据相对应的分类。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的商品数据清洗方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的商品数据清洗方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

首先，本申请在对商品数据进行清洗时，采用分类器提供的分类结果，根据分类结果中的误差信息从训练集中确定需要进行数据清洗的商品数据作为待清洗数据集，然后才在待清洗数据集的基础上借助聚类手段确定其中的需要删除的商品数据，据此，可以避免对训练集内的商品数据进行过度清洗，从而使数据清洗作业更有效精准。

其次，本申请在进行数据清洗时之前，便通过分类器的预测分类结果确定预测误差信息，然后根据误差信息确定其中的部分原始分类标签，仅针对这些原始分类标签相对应的商品数据进行聚类和数据清洗，不难理解，相对而言，只是对训练集中的部分类别的商品数据进行清洗，无需全量清洗，因此，不仅可以减少在整个训练集的全量数据的基础上进行聚类的运算压力，也可显著提升数据清洗速度。

此外，本申请所确定出的净化训练集，适于更高效地训练出新的分类器实例，可以促使分类器实例的训练过程更易快速收敛，并且能提升分类器的预测准确率。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的商品数据清洗方法的典型实施例的流程示意图；

图2为本申请实施例中获取商品数据的深层语义信息进行分类的过程的流程示意图；

图3为本申请实施例中所采用的一种神经网络模型的原理框图；

图4为本申请实施例中采用神经网络模型获取图文特征信息的过程的流程示意图；

图5为本申请实施例中所采用的另一神经网络模型的原理框图；

图6为本申请实施例中根据预测分类标签与原始分类标签之间的误差信息确定出待清洗数据集的过程的流程示意图；

图7为本申请实施例中对待清洗数据进行具体清洗过程的流程示意图；

图8为本申请实施例中对训练集进行迭代清洗数据的过程的流程示意图；

图9为本申请的实施例中对迭代清洗过程生成的训练集和分类器进行优选的过程的流程示意图；

图10为本申请的商品数据清洗装置的原理框图；

图11为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种商品数据清洗方法，可被编程为计算机程序产品，部署于服务集群中运行而实现，以便藉此通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品进行人机交互而执行该方法。

本申请示例性说明的一个应用场景是电商领域中的分类任务训练相关的应用场景，出于电商领域根据商品对象相应的商品数据，包括但不限于商品标题、商品图片、商品详情、商品属性等，进行某种标准的分类的需要，而采用由预备的商品数据构成的商品数据集对分类器进行训练，因此可以借助本申请的技术方案对这些商品数据集进行数据清洗，以便确定出有效的净化训练集，且确定出以该净化训练集训练而成的分类器作为投入生产所需的分类器，使该分类器能根据所述的标准对电商平台中的商品数据进行准确分类。

分类器所实施的分类，例如，可以是进行商品安全属性的分类、进行商品映射到电商平台的类目树中的分类等，不同的分类任务，根据不同的分类标准而确定而进行相应的训练即可。据此，商品数据集中的分类标签，也是与所述分类标准相对应的分类标签，以便分类器可根据该分类标签实施监督学习，经学习后习得相应的分类能力。对此，本领域技术人员应当知晓。

请参阅图1，本申请的商品数据清洗方法在其典型实施例中，包括如下步骤：

步骤S1100、确定商品数据集，所述商品数据集包括多个携带原始分类标签的商品数据，所述商品数据被划分为训练集和数据集：

首先预备一个商品数据集，所述商品数据集中包含训练本申请的示例性神经网络模型所需的商品数据，所述商品数据均携带预先建立好对应映射关系的分类标签，此处称为原始分类标签。所述原始分类标签适于为被训练的神经网络模型提供监督学习所需的监督标签，以便监督神经网络模型的训练过程，促使神经网络模型被训练至收敛状态。

所述的商品数据，适应本申请示例性应用场景而言，包括商品标题、商品图片等，视神经网络模型所依据的具体数据而确定其所包括的各类信息内容即可，例如还可包括商品详情、商品属性等数据。

所述商品数据可以由电商平台的商品数据库中获取，或者从网络中开放自由获取数据的网站中获取，由本领域技术人员灵活选用。

为便于实施数据清洗，将所述商品数据集中的商品数据，按照一定的预设比例划分为训练集和预测集，所述训练集用于对神经网络模型实施训练，故在本申请中需被清洗；所述预测集用于对每次训练后的神经网络模型实施预测校验，为了方便在同一预测集上比较多次训练的结果，故所述预测集中的商品数据相对固定，可无需清洗。

步骤S1200、采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签：

可以预先以所述的训练集对所述的神经网络模型进行训练，所述的神经网络模型一般包括两个部分，第一部分为用于对所述商品数据进行表示学习的特征提取模型，第二部分包括一个分类器，特征提取模型对商品数据中的相关具体数据进行表示学习后获得每个商品数据相应的深层语义信息，然后由分类器对所述深层语义信息的全连接结果进行分类，使其映射到出新的分类结果。

所述的特征提取模型一般是经预训练的模型，因此不难理解，本申请对相应的神经网络模型所实施的分类任务的训练，主要是针对所述分类器实施的训练。所述的分类器执行分类任务所映射的分类空间，是由所述商品数据集中的各个原始分类标签构成的分类空间，当针对一个商品数据的深层语义信息通过Softmax之类的分类器计算出该分类空间中的各个分类标签相对应的分类概率后，便可确定其中分类概率最大的分类标签为该商品对象的预测分类标签。据此，采用所述预测集中的各个商品数据的深层语义信息逐一通过分类器进行分类，便可确定预测集中的各个商品数据相对应的预测分类标签。

步骤S1300、根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集：

所述预测集中各个商品数据均获得其相应的预测分类标签之后，同一商品数据的预测分类标签与其原始分类标签未必一致，也即所述分类器虽经过训练集的训练，但由于训练集中商品数据未经清洗的缘故，仍有可能出现误预测。对此，利用误预测所包含的误差信息，可以确定出每个原始分类标签下的商品数据，被错误预测为其他原始分类标签的统计数量，该统计数量表征类间误预测数量。不难理解，一个原始分类标签映射到一个预测分类标签的统计数量越大，则该原始分类标签与该预测分类标签之间的类间易混淆性便越大，因此，最好能对这个原始分类标签之下的商品数据进行清理。

本申请中，可以针对所有原始分类标签分别映射到所有各个预测分类标签的统计数量，从中选择统计数量最大的数据所对应的原始分类标签，将这些原始分类标签确定为需要进行数据清洗的目标分类。

然后，便可回到所述的训练集，从训练集中确定出与这些目标分类即根据统计数量确定出的原始分类标签相对应的商品数据，将这些商品数据从训练集中提取出来构造为一个待清洗数据集，用于进行数据清洗。

步骤S1400、对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集：

确定出所述待清洗数据集后，可以借助任意已知的聚类算法对其中的商品数据进行聚类，这些聚类算法包括但不限于k-means聚类算法、均值偏移聚类算法、DBSCAN聚类算法、使用高斯混合模型(GMM)的期望最大化(EM)聚类、层次聚类算法、谱聚类算法等。具体聚类时，可依据商品数据中的某种具体数据进行，例如根据其中的商品标题或商品属性进行聚类均可，也可以根据其中某种或多种具体数据的深层语义信息进行，对此，本领域技术人员可灵活实施。

本申请对待清洗数据集中进行聚类的原理，在于通过计算各处商品数据之间的相似信息，或称距离信息，据此将距离相近或较为相似的商品数据视为同类数据，而将距离较远或较不相似的商品数据视为不同类数据，以便在此基础上实施数据清洗。

当完成聚类后，针对被视为不同类数据的部分商品数据，将其删除，从而便获得一个净化训练集。不难理解，当采用该净化训练集的数据用于对所述的分类器的实例进行训练时，可以提升相应的分类器实例的分类准确率。

通过本典型实施例，可以看出，本申请存在多方面的优势，例如：

请参阅图2，深化的实施例中，所述步骤S1200、采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签，包括如下步骤：

步骤S1210、采用特征提取模型获取所述测试集中的商品数据的深层语义信息，所述深层语义信息包含所述商品数据的文本特征信息和/或图片特征信息：

请结合图3所示的网络模型，即为本申请所应用的神经网络模型，该神经网络模型中，包括一个特征提取模型以及一个分类器，其中，所述特征提取模型负责从商品数据中提取出相应的深层语义信息，所述分类器负责根据所述深层语义信息进行分类预测。

更具体的一个实施例请参阅图4所示的流程以及图5所示的具体神经网络模型，根据该流程，步骤S1210可以包括如下步骤：

步骤S1211、采用第一特征提取模型对所述测试集中的商品数据的商品标题进行深层语义信息提取，获得相应的文本特征信息：

所述第一特征提取模型为预训练的文本特征提取模型，可以采用Bert、Electra、Albert等优秀的现有模型。此类模型适于对文本信息进行表示学习，因此，可以将商品数据中的商品标题作为输入，由此类模型提取出其中的深层语义信息，获得相应的文本特征信息，通常表示为向量形式。本实施例中，由于分类器已经过预训练，因此，是采用本申请的测试集中的商品数据进行深层语义信息的提取。

步骤S1212、采用第二特征提取模型对所述测试集中的商品数据的商品图片进行深层语义信息提取，获得相应的图片特征信息：

所述第二特征提取模型为预训练的图片特征提取模型，可以采用诸如Resnet系列模型、EfficientNet模型等现有技术中表现较为优秀的模型来实施。此类模型适于对图像进行表示学习，因此，可以将商品数据中的商品图片，通常是其中的默认图片，将其作为输入，由此类模型提取出其中的深层语义信息，获得相应的图片特征信息，同理，通常也表示为向量形式。

步骤S1213、将相同商品数据的所述文本特征信息与图片特征信息拼接为表示该商品数据的深层语义信息的图文特征信息：

如图5所示，两个特征提取模型获得的文本特征信息与图片特征信息，进一步被拼接为一个图文特征信息，该图文特征信息融合了商品数据的文本和图片两类数据的深层语义信息，更有助于提升分类器判断分类的可靠性。特别是对于电商领域而言，商品标题未能有效描述商品外观，而商品图片往往来难以概括商品本身的特点，因此，综合两种数据所获得的图文特征信息，具有丰富的语义表示能力，更有助于分类器的判别。

需要指出的是，其他变通的实施例中，如果单独采用所述的文本特征提取模型或单独采用所述的图片特征提取模型，单独利用所述文本特征信息或图片特征信息用于分类，也是可行的，并不影响本申请的创造精神的体现。

步骤S1220、采用分类器计算所述深层语义信息映射到各个所述的原始分类标签相对应的分类概率，以确定该深层语义信息相应的商品数据所属的预测分类标签，所述预测分类标签为该商品数据的分类概率最大的原始分类标签：

当商品数据经过特征提取模型获得深层语义信息之后，便可通过本申请的分类器进行分类，所述分类器将深层语义信息对应的向量进行全连接之后的结果映射到分类空间中，计算出分类空间内各个分类标签相对应的分类概率，然后，确定其中分类概率最大的分类标签为模型的预测分类标签。所述分类空间，由所述商品数据集中携带的原始分类标签构成，因此，商品数据集中存在多少个原始分类标签，分类器的分类空间中便对应存在多少个预测分类标签。

此处给出的实施例及其变通实施例，通过测试集对已经采用训练集预训练的分类器进行测试，方便后续获得其相对应的预测误差信息，并且，在这些实施例中也揭示了本申请的分类器所在的神经网络模型的网络结构，通过此类网络结构的介绍体现了本申请的分类器用于执行分类任务的可靠性，其通过商品数据的深层语义信息便可做出分类判别，因此，更便于引导本申请技术人员参照实施，增强了本申请技术方案的实用性。

请参阅图6，深化的实施例中，所述步骤S1300、根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集，包括如下步骤：

步骤S1310、根据所述测试集中的商品数据的预测分类标签与其原始分类标签统计出混淆矩阵，混淆矩阵中的每个元素用于表征原始分类标签相对应的商品数据被预测为某个预测分类标签的统计数量：

为了方便确定所述分类器对测试集中的商品数据进行分类后的误差信息，需要针对测试集中的商品数据的分类到各个预测分类标签的分布情况进行统计，为了便于数据呈现，可采用混淆矩阵来对统计数据进行表现。具体而言，如图7所示，以混淆矩阵的行坐标表示各个原始分类标签，以混淆矩阵的列坐标表示各个预测分类标签，其中，每一行的数据便表示一个原始分类标签相对应的测试集中的全量商品数据被映射到各个预测分类标签相对应的统计数量，据此，针对每一个原始分类标签对应的全量商品数据样本，可以知晓，除映射到与该原始分类标签相同的预测分类标签的元素外，余者其他元素均表示全量商品数据样本中被错误预测到各个其他分类标签的商品数据的统计数量，相应也表示了类间错误映射数量。由于原始分类标签与预测分类标签本质上是相同分类空间的分类标签构成，因此，不同理角，混淆矩阵为一个方阵，其左上角到右下角的对角线是原始分类标签与预测分类标签相一致的元素，表示分类器对这些元素的统计数量相对应的商品数据进行了正确的分类映射。

步骤S1320、从所述混淆矩阵内原始分类标签与预测分类标签不一致的元素中，针对其中统计数量最大的预定数量的多个目标元素，确定该些目标元素相对应的原始分类标签：

在混淆矩阵中，每一个原始分类标签一般均存在多个类间错误映射的情况，因此，所有原始分类标签均存在相同情况，其中，对于每一个原始分类标签而言，发生类间错误映射情况的若干个元素中，其中统计数量最大的元素，表示其所对应的原始分类标签相对应的商品数据易使分类器混淆，而易被分类器判定为该元素相对应的预测分类标签，据此，理应优先对这部分统计数量相对应的原始分类标签下的商品数据进行清洗。

为了确定这部分需要清洗的商品数据，可以采用Top_K算法，选取出整个混淆矩阵中，除左上角至右下角对角线元素以外的其他元素中，统计数量最大的K个目标元素，此处的K值可以由本领域技术人员灵活设定，后续的实施例中还将揭示该值可以多次调整以优化清洗效果。采用Top_K算法确定出部分而不是全部错误映射的目标元素，主要是为了避免对商品数据的过度清洗，提升数据清洗效率。

确定出统计数量最大的K个目标元素之后，便可确定出这些目标元素相对应的原始分类标签，以便根据这些原始分类标签确定待清洗数据集。

步骤S1330、从所述训练集中提取出携带所述目标元素相对应的原始分类标签的商品数据构成待清洗数据集：

构造所述的待清洗数据集，可从所述训练集中获取相应的商品数据，具体是从所述训练集中提取出携带所述原始分类标签的商品数据来构造为所述的待清洗数据集。不难理解，该待清洗数据集中的商品数据，是易被分类器混淆以致发生错误分类映射的主要商品数据。

本实施例借助混淆矩阵，对测试集中的商品数据被分类器分类后的分类分布情况进行统计，然后根据统计所得的统计数量选取其中部分容易混淆的分类标签，根据这些分类标签从训练集中确定相应的商品数据构造为待清洗数据集，可以有效地避免对训练集中的商品数据进行过度清洗，避免反而影响商品数据的有效性，同时，也有助于避免对训练集中的商品数据进行全量清洗，可以降低计算机设备的运算压力。

请参阅图7，深化的实施例中，所述步骤S1400、对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集，包括如下步骤：

步骤S1410、采用预设聚类算法，根据所述待清洗数据集中的商品数据的深层语义信息进行聚类，获得聚类所得的多个商品数据簇：

如前所述，本申请可以采用多种已知的聚类算法来对待清洗数据集中的商品数据进行聚类。示例而言，可采用K-means来实施有监督聚类，聚类的类别个数也与从混淆矩阵中确定出的目标元素所对应的原始分类标签的数量相同。

在进行聚类时，本实施例基于所述待清洗数据集中的商品数据的深层语义信息为K-means算法的输入来计算距离信息，从而实现聚类。所述的深层语义信息，也为本申请分类器进行分类时所采用的商品数据的深层语义信息，例如前述各实施例所述的文本特征信息、图片特征信息或图文特征信息等。因此，也可以在对所述训练集和测试集进行表示训练和测试的过程中，对经特征提取模型提取的深层语义信息进行存储，在本步骤中直接对应调用即可。

可以理解，待清洗数据中的商品数据经过聚类算法进行聚类后，便会形成多个商品数据簇，每个商品数据簇包含多个。

步骤S1420、统计每个商品数据簇中商品数据所拥有的最大数量的原始分类标签，将该商品数据簇中未携带该最大数量的原始分类标签的商品数据删除以实现对该商品数据簇的数据清洗；

商品数据簇中的商品数据之间的聚类标准，是聚类算法根据其自身的数据间距离信息统计逻辑而确定的，因此，其中会有大部分的商品数据拥有相同的原始分类标签，而也有少部分的商品数据的原始分类标签与前者不同且呈可能较为离散。据此，可将每个商品数据簇中拥有相同原始分类标签的商品数据保留，而将拥有其他原始分类标签的商品数据删除，由此便实现对各个商品数据簇的商品数据的数据清洗。

步骤S1430、确定净化训练集，该净化训练集包括各个已完成数据清洗的所述商品数据簇中的商品数据：

由于各个商品数据簇中的商品数据均为携带相同原始分类标签的商品数据，实现了净化，因此，可将所有各个商品数据簇中的商品数据重新构造为训练集，即为净化训练集。

该净化训练集可以对另一所述的分类器的实例进行训练，理论上，据此训练所得的分类器，其对商品数据进行分类判断的准确率便能得以提升。

本实施例中，参考聚类算法提供的聚类信息对待清洗数据进行数据清洗，将未能正确聚类的商品数据删除，由剩余的商品数据构造出新的训练集，该训练集中的商品数据得到了净化，可作为分类器实例训练的有效训练集，能够显著提升分类器实施的分类准确度。

本实施例在聚类时，根据商品数据的深层语义信息进行，所述深层语义信息是对商品数据的语义信息进行深层表示学习的结果，因此，能够更好地达成聚类效果。

请参阅图8，扩展的实施例中，所述步骤S1400、对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集的步骤之后，包括如下步骤：

步骤S1500、采用所述净化训练集作为新的训练集对所述分类器进行训练：

本实施例中，通过适用循环机制，可以对前述各实施例获得的净化训练集进行多次重复优化，使得最终的净化训练集中的商品数据的分类信息更有精准。具体而言，可先采用所述的净化训练集，作为新的训练集，对所述分类器的实例进行训练，从而使该分类器在理论上提升分类准确率。之后，重新执行本申请的步骤S1200至步骤S1400的过程，以便迭代获得进一步清洗的商品数据相对应的净化训练集，在此过程中，在所述步骤S1300中，具体在所述确定存在错误预测最多的预定数量的多个原始分类标签的步骤中，所述预定数量被重新设定，示例而言，设第一次执行数据清洗时，采用Top_K算法确定K个需要执行数据清洗的原始分类标签，据此构造第一次数据清洗相对应的待清洗数据集，则在第二次执行数据清洗时，采用Top_K算法时，可将K的值调整为更小的值，由此确定出更小的规范的待清洗数据集，以此类推，不断优化训练集。

可以理解，通过多次这样的迭代优化训练集，最终获得的净化训练集，对于分类器的训练而言，会越来越精准高效。

请参阅图9，进一步的实施例中，本申请的商品数据清洗方法，还包括如下后续步骤：

步骤S1600、统计各次训练所得的分类器的预测准确率，所述预测准确率为所述测试集中商品数据的深层语义信息被分类器正确分类至其原始分类标签的准确率：

根据前一实施例揭示的过程可知，在进行多次迭代优化训练集的过程中，会衍生出以不同规范的净化训练集进行训练所得的多个分类器实例，自然也完成了对这些分类器实例的训练，这些分类器可以择优用于生产阶段，用于为商品数据进行分类。但是各个分类器的预测准确率或有差异，也不完全取决于训练集的数据清洗次数，因此，有必要通过考察各个分类器实例的预测准确率来择取其中最优的分类器用于投入生产阶段。

为了统计各次训练所得的分类器(实例)的预测准确率，仍可以所述的测试集对各个分类器实例进行测试，以便统一各个分类器实例所依据的标准。同理，针对每个分类器实例对测试集进行测试之后，均可获得相应的混淆矩阵。关于混淆矩阵的概念及其实现可参照本申请前文的实施例的说明。

由于混淆矩阵中的每一行数据表示了一个原始分类标签被映射到分类空间中所有各个分类标签的商品数据统计数量，因此，可以利用正确的预测分类标签的统计数量，与该行的所有统计数量之和的比值，来确定针对该原始分类标签的预测准确率，将各个原始分类标签对应的预测准确率进行归一化加和，便可确定出对应的分类器实例的总体的预测准确率。

步骤S1700、确定预测准确率最大的分类器所采用的训练集为最优训练集，将该分类器用于响应商品数据的分类需求而确定商品数据相对应的分类。

在确定各个分类器实例相对应的总体的预测准确率的基础上，针对各个分类器实例的总体的预测准确率进行相互比较，便可确定其中预测准确率最大的分类器实例，为最优分类器，该最优分类器在进行训练时所采用的训练集(净化训练集)，即为最优训练集。可以理解，这一最优训练集不仅已经用于训练该分类器实例，也可用于其他分类任务中。而所述的最优分类器，理论上足可投入生产阶段使用，用于响应商品数据的分类需求而确定商品数据相对应的分类。

本实施例通过迭代机制实现了对所述训练集的不断优化，对于优化过程中产生的各个版本的净化训练集，还利用经其训练所得的分类器实施的预测准确率进行评判，评判出其中最优的分类器实例及最优的净化训练集，最终产生最优分类器和最优净化训练集均可投入实用。此举，进一步有效地避免训练集被过度清洗的情况出现，且在清洗训练集的过程中也产出了具有最高预测准确率的分类器，两全其美。

请参阅图10，适应本申请的目的之一而提供的一种商品数据清洗装置，包括：数据确定模块1100、分类预测模块1200、误测筛选模块1300，以及聚类清洗模块1400，其中，所述数据确定模块1100，用于确定商品数据集，所述商品数据集包括多个携带原始分类标签的商品数据，所述商品数据被划分为训练集和数据集；所述分类预测模块1200，用于采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签；所述误测筛选模块1300，用于根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集；所述聚类清洗模块1400，用于对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集。

深化的实施例中，所述分类预测模块1200，包括：语义提取子模块，用于采用特征提取模型获取所述测试集中的商品数据的深层语义信息，所述深层语义信息包含所述商品数据的文本特征信息和/或图片特征信息；分类映射子模块，用于采用分类器计算所述深层语义信息映射到各个所述的原始分类标签相对应的分类概率，以确定该深层语义信息相应的商品数据所属的预测分类标签，所述预测分类标签为该商品数据的分类概率最大的原始分类标签。

深化的实施例中，所述误测筛选模块1300，包括：误测统计子模块，用于根据所述测试集中的商品数据的预测分类标签与其原始分类标签统计出混淆矩阵，混淆矩阵中的每个元素用于表征原始分类标签相对应的商品数据被预测为某个预测分类标签的统计数量；误测确定子模块，用于从所述混淆矩阵内原始分类标签与预测分类标签不一致的元素中，针对其中统计数量最大的预定数量的多个目标元素，确定该些目标元素相对应的原始分类标签；待洗提取子模块，用于从所述训练集中提取出携带所述目标元素相对应的原始分类标签的商品数据构成待清洗数据集。

深化的实施例中，所述聚类清洗模块1400，包括：标题聚类子模块，用于采用预设聚类算法，根据所述待清洗数据集中的商品数据的深层语义信息进行聚类，获得聚类所得的多个商品数据簇；清洗执行子模块，用于统计每个商品数据簇中商品数据所拥有的最大数量的原始分类标签，将该商品数据簇中未携带该最大数量的原始分类标签的商品数据删除以实现对该商品数据簇的数据清洗；净化数据子模块，用于确定净化训练集，该净化训练集包括各个已完成数据清洗的所述商品数据簇中的商品数据。

扩展的实施例中，本申请的商品数据清洗装置中，包括：再次训练模块，用于采用所述净化训练集作为新的训练集对所述分类器进行训练，所述再次训练模块运行之后，触发本装置的分类预测模块1200、误测筛选模块1300、聚类清洗模块1400的再次循环运行，其中，所述误测筛选模块1300中的预定数量被重新设定。

为解决上述技术问题，本申请实施例还提供计算机设备。如图11所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种商品数据清洗方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的商品数据清洗方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图10中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的商品数据清洗装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的商品数据清洗方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请能够对海量的商品数据进行有效数据清洗以获得优质的训练集，使经其训练的分类任务的分类器能够获得较高准确度的分类预测效果。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种商品数据清洗方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的商品数据清洗方法，其特征在于，采用经所述训练集训练的分类器对所述测试集中的商品数据的深层语义信息进行分类，获得各个商品数据相对应的预测分类标签，包括如下步骤：

3.根据权利要求2所述的商品数据清洗方法，其特征在于，采用特征提取模型获取所述测试集中的商品数据的深层语义信息，所述深层语义信息包含所述商品数据的文本特征信息和/或图片特征信息，包括如下步骤：

4.根据权利要求1所述的商品数据清洗方法，其特征在于，根据商品数据的预测分类标签与原始分类标签之间的误差信息，确定存在错误预测最多的预定数量的多个原始分类标签，从所述训练集中提取该些原始分类标签下的商品数据作为待清洗数据集，包括如下步骤：

5.根据权利要求1所述的商品数据清洗方法，其特征在于，对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集，包括如下步骤：

6.根据权利要求1至5中任意一项所述的商品数据清洗方法，其特征在于，对待清洗数据集中的商品数据进行聚类，从训练集中删除聚类结果与原始分类标签不一致的商品数据，获得由剩余商品数据构成的净化训练集的步骤之后，包括如下步骤：

7.根据权利要求6所述的商品数据清洗方法，其特征在于，本方法还包括如下后续步骤：

8.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。