CN110414929A

CN110414929A - 一种汽车配件图片智能审核方法

Info

Publication number: CN110414929A
Application number: CN201910620505.0A
Authority: CN
Inventors: 曾万贵; 杨智帆
Original assignee: Guangzhou Batulu Information Technology Co Ltd
Current assignee: Guangzhou Batulu Information Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-05

Abstract

本发明公开了一种汽车配件图片智能审核方法，通过获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片，然后通过OCR技术对配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片，最后将所述第一图片上传至电商平台，并将非配件图片和第二图片退回至所述供应商，以使供应商重新上传符合要求的图片，采用本发明提供的实施例，能够自动对供应商上传的图片进行审核，有效的降低了审核的成本，提高了审核的效率和准确率；另外，将不符合要求的图片退回至供应商，并要求其重新上传符合要求的图片，提高了供应商的图片传输效率。

Description

一种汽车配件图片智能审核方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种汽车配件图片智能审核方法。

背景技术

在汽配电商平台中，汽配供应商上传的图片可能会被电商平台选择展示给用户浏览，但供应商在上传图片时可能存在内容不合规问题，如非配件图片被上传，这会影响用户体验，不利于企业的经营。此外，若配件图片包含敏感词汇、竞品水印等敏感信息，则一方面影响企业形象，另一方面会使企业面临违法违规经营风险。

目前供应商上传的配件图片类型众多且数量巨大，不对其进行审核会使经营面临风险，靠人工审核需要具备汽车配件专业知识的审核人员，这意味着用人成本的增加，且与计算机程序相比，人的效率稍显不足。

发明内容

本发明实施例的目的是提供一种汽车配件图片智能审核方法，能够自动对供应商上传的图片进行审核，有效的降低了审核的成本，提高了审核的效率和准确率。

为实现上述目的，本发明实施例提供了一种汽车配件图片智能审核方法，包括以下步骤：

获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片；

通过OCR技术对所述配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片；

将所述第一图片上传至电商平台，并将所述非配件图片和所述第二图片退回至所述供应商，以使所述供应商重新上传符合要求的图片。

进一步的，所述预设的图片分类模型通过以下方法构建：

获取5000张配件图片，5000张非配件图片；其中，所述5000张配件图片包含500张含有敏感信息；所述5000张非配件图片中的4500张从ImageNet数据集中随机采取，剩下500张从供应商上传图片中筛选出不合规图片；

对所述5000张配件图片和所述5000张非配件图片，通过包括旋转、翻转、调色的图像处理手段进行图像增强，以使1万张图片扩充为10万张图片，生成5万张配件图片和5万张非配件图片；

将所述5万张配件图片附以符号为1的标签，得到第一图片，将所述5万张非配件图片附以符号为0的标签，得到第二图片；

以3：1：1的比例将所述第一图片和所述第二图片随机划分为训练集、验证集和测试集；其中，所述训练集、验证集和测试集中的第一图片和第二图片的比例为1:1；

将PyTorch框架中集成的ResNet18神经网络模型作为基础模型，以所述训练集作为输入，以标签为1的配件图片和标签为0的非配件图片作为输出，以所述验证集对训练的过程进行验证和调节，以所述测试集对所述基础模型进行测试，以测试所述基础模型的准确率；

当所述准确率达到预设的阈值时，停止训练，并将准确率达到预设阈值的基础模型作为预设的图片分类模型。

进一步的，所述通过OCR技术对所述配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片，具体为：

对所述配件图片进行预处理，生成剔除了无用信息的预处理后的图片；

对所述预处理后的图片进行特征提取，生成特征字符；

根据预设的敏感信息库，判断所述特征字符是否属于敏感信息，若否，则将未含敏感信息的配件图片作为第一图片；若是，则将含有敏感信息的配件图片作为第二图片。

进一步的，所述预设的敏感信息库为开源敏感词汇库结合自定义词汇建立的敏感信息库；

其中，所述自定义词汇包括竞品名称、影响本企业形象的信息。

本发明实施例还提供了一种汽车配件图片智能审核装置，包括：图片获取模块、敏感信息识别模块，以及图片传递模块；

所述图片获取模块，用于获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片；

所述敏感信息识别模块，用于通过OCR技术对所述配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片；

所述图片传递模块，用于将所述第一图片上传至电商平台，并将所述非配件图片和所述第二图片退回至所述供应商，以使所述供应商重新上传符合要求的图片。

进一步的，所述预设的图片分类模型通过以下方法构建：

进一步的，所述敏感信息识别模块包括：预处理单元、特征提取单元以及判断单元；

所述预处理单元，用于对所述配件图片进行预处理，生成剔除了无用信息的预处理后的图片；

所述特征提取单元，用于对所述预处理后的图片进行特征提取，生成特征字符；

所述判断单元，用于根据预设的敏感信息库，判断所述特征字符是否属于敏感信息，若否，则将未含敏感信息的配件图片作为第一图片；若是，则将含有敏感信息的配件图片作为第二图片。

作为本发明的优选实施例，本发明还提供了一种汽车配件图片智能审核设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述发明实施例所述的汽车配件图片智能审核方法。

本发明另一实施例提供了一种存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的汽车配件图片智能审核方法。

与现有技术相比，具有如下有益效果：

本发明实施例提供的汽车配件图片智能审核方法，通过获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片，然后通过OCR技术对配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片，最后将所述第一图片上传至电商平台，并将非配件图片和第二图片退回至所述供应商，以使供应商重新上传符合要求的图片，采用本发明提供的实施例，能够自动对供应商上传的图片进行审核，有效的降低了审核的成本，提高了审核的效率和准确率；另外，将不符合要求的图片退回至供应商，并要求其重新上传符合要求的图片，提高了供应商的图片传输效率。

附图说明

图1是本发明提供的汽车配件图片智能审核方法的一个实施例的流程示意图；

图2是本发明提供的汽车配件图片智能审核方法的一个实施例的工作原理流程示意图；

图3是本发明提供的汽车配件图片智能审核装置的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明提供的汽车配件图片智能审核方法的一个实施例的流程示意图；本发明实施例提供一种汽车配件图片智能审核方法，包括步骤S1-S3；

S1，获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片。

在本实施例中，所述预设的图片分类模型通过以下方法构建：

需要说明的是，获取的图片数量越多、质量越高，越有利于提高图片分类的准确率。

在本实施例中，通过旋转、翻转、调色等图像处理手段进行图像增强，能够提高数据量，同时提高了模型的鲁棒性。

在本实施例中，选择带动量的梯度下降法(SGD)作为优化方法，利用批归一化(Batch Normalization)方法加速训练，采用随机失活(Dropout)防止模型过拟合，根据模型在验证集上的精度，结合个人经验，对学习率、动量等超参数进行调节，然后再进行训练。

优选的，本发明实施例还可通过计算模型在测试集上的准确率、覆盖度及F1值等评估指标，度量模型的泛化能力。由于F1值权衡了准确率与覆盖度，因此本发明实施例还可以选择使用F1值来确定最终模型。

在本实施例中，敏感词汇包括政治敏感词、色情敏感词、竞品水印等，不限于为其他能够影响企业形象的词汇。

S2，通过OCR技术对所述配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片。

在本实施例中，步骤S2，具体为：对所述配件图片进行预处理，生成剔除了无用信息的预处理后的图片；对所述预处理后的图片进行特征提取，生成特征字符；根据预设的敏感信息库，判断所述特征字符是否属于敏感信息，若否，则将未含敏感信息的配件图片作为第一图片；若是，则将含有敏感信息的配件图片作为第二图片。

需要说明的是，预处理步骤包括：灰度化、二值化、倾斜校正、文字切分等图像处理方法，实现对图片的无用信息的剔除，便于后续的特征提取。

在特征提取的步骤中，采用了谷歌开源OCR项目中的Tesseract库作为识别引擎，实现字符识别的功能。

所述预设的敏感信息库为开源敏感词汇库结合自定义词汇建立的敏感信息库；其中，所述自定义词汇包括竞品名称、影响本企业形象的信息。

S3，将所述第一图片上传至电商平台，并将所述非配件图片和所述第二图片退回至所述供应商，以使所述供应商重新上传符合要求的图片。

请参见图2，图2是本发明提供的汽车配件图片智能审核方法的一个实施例的工作原理流程示意图，为了更好的说明本发明实施例提供的汽车配件图片智能审核方法的原理，以下为实现本发明的具体步骤：

首先，对供应商上传的图片进行分类，将其分类为配件图片和非配件图片，其次对配件图片进行敏感信息识别，筛选出含有敏感信息的图片，然后将非配件图片和含敏感信息的配件图片退回，要求供应商重新上传，最后将不含敏感信息的配件图片上传至平台中。

作为本发明提供的优选实施例，请参见图3，图3是本发明提供的汽车配件图片智能审核装置的一个实施例的结构示意图，包括：图片获取模块、敏感信息识别模块，以及图片传递模块；

所述图片获取模块，用于获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片；所述敏感信息识别模块，用于通过OCR技术对所述配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片；所述图片传递模块，用于将所述第一图片上传至电商平台，并将所述非配件图片和所述第二图片退回至所述供应商，以使所述供应商重新上传符合要求的图片。

获取5000张配件图片，5000张非配件图片；其中，所述5000张配件图片包含500张含有敏感信息；所述5000张非配件图片中的4500张从ImageNet数据集中随机采取，剩下500张从供应商上传图片中筛选出不合规图片；对所述5000张配件图片和所述5000张非配件图片，通过包括旋转、翻转、调色的图像处理手段进行图像增强，以使1万张图片扩充为10万张图片，生成5万张配件图片和5万张非配件图片；将所述5万张配件图片附以符号为1的标签，得到第一图片，将所述5万张非配件图片附以符号为0的标签，得到第二图片；以3：1：1的比例将所述第一图片和所述第二图片随机划分为训练集、验证集和测试集；其中，所述训练集、验证集和测试集中的第一图片和第二图片的比例为1:1；将PyTorch框架中集成的ResNet18神经网络模型作为基础模型，以所述训练集作为输入，以标签为1的配件图片和标签为0的非配件图片作为输出，以所述验证集对训练的过程进行验证和调节，以所述测试集对所述基础模型进行测试，以测试所述基础模型的准确率；当所述准确率达到预设的阈值时，停止训练，并将准确率达到预设阈值的基础模型作为预设的图片分类模型。

优选的，所述敏感信息识别模块包括：预处理单元、特征提取单元以及判断单元；

所述预处理单元，用于对所述配件图片进行预处理，生成剔除了无用信息的预处理后的图片；所述特征提取单元，用于对所述预处理后的图片进行特征提取，生成特征字符；所述判断单元，用于根据预设的敏感信息库，判断所述特征字符是否属于敏感信息，若否，则将未含敏感信息的配件图片作为第一图片；若是，则将含有敏感信息的配件图片作为第二图片。

需要说明的是，所述预设的敏感信息库为开源敏感词汇库结合自定义词汇建立的敏感信息库；其中，所述自定义词汇包括竞品名称、影响本企业形象的信息。

由上可见，本发明实施例提供的一种汽车配件图片智能审核装置，通过图片获取模块获取供应商上传的图片，并将供应商上传的图片发送至预设的图片分类模型，生成配件图片和非配件图片，然后通过敏感信息识别模块采用OCR技术对配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片，最后通过图片传递模块将第一图片上传至电商平台，并将非配件图片和第二图片退回至供应商，以使供应商重新上传符合要求的图片，能够自动对供应商上传的图片进行审核，有效的降低了审核的成本，提高了审核的效率和准确率；另外，将不符合要求的图片退回至供应商，并要求其重新上传符合要求的图片，提高了供应商的图片传输效率。

本发明实施例还提供了一种汽车配件图片智能审核设备。该设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个汽车配件图片智能审核方法实施例中的步骤，例如图1所示的步骤S1至S3。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述汽车配件图片智能审核设备的控制中心，利用各种接口和线路连接整个汽车配件图片智能审核设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述汽车配件图片智能审核设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述汽车配件图片智能审核设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种汽车配件图片智能审核方法，其特征在于，包括以下步骤：

2.如权利要求1所述的汽车配件图片智能审核方法，其特征在于，所述预设的图片分类模型通过以下方法构建：

3.如权利要求1所述的汽车配件图片智能审核方法，其特征在于，所述通过OCR技术对所述配件图片进行字符识别处理，生成未含敏感信息的第一图片和含有敏感信息的第二图片，具体为：

对所述预处理后的图片进行特征提取，生成特征字符；

4.如权利要求3所述的汽车配件图片智能审核方法，其特征在于，所述预设的敏感信息库为开源敏感词汇库结合自定义词汇建立的敏感信息库；

5.一种汽车配件图片智能审核装置，其特征在于，包括：图片获取模块、敏感信息识别模块，以及图片传递模块；

6.如权利要求5所述汽车配件图片智能审核装置，其特征在于，所述预设的图片分类模型通过以下方法构建：

7.如权利要求5所述汽车配件图片智能审核装置，其特征在于，所述敏感信息识别模块包括：预处理单元、特征提取单元以及判断单元；

8.如权利要求7所述汽车配件图片智能审核装置，其特征在于，所述预设的敏感信息库为开源敏感词汇库结合自定义词汇建立的敏感信息库；

9.一种汽车配件图片智能审核设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的汽车配件图片智能审核方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的汽车配件图片智能审核方法。