CN111582825B

CN111582825B - 一种基于深度学习的产品信息审核方法及系统

Info

Publication number: CN111582825B
Application number: CN202010384910.XA
Authority: CN
Inventors: 袁明磊; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2021-02-12
Anticipated expiration: 2040-05-09
Also published as: CN111582825A

Abstract

一种基于深度学习的产品信息审核的方法，包括如下：1)准备产品信息审核数据集，筛选与审核结果有关的字段，并对人工审核结果的标注信息进行复核。与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录；2)对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总；3)将特征编码转换为特征向量后作为模型的输入，构建单层神经网络的Wide分类模型，预测产品过审的概率；4)将特征编码转映射为稠密向量后作为模型的输入，构建循环神经网络和深度神经网络结合的Deep分类模型；结合Wide和Deep分类模型的得分输出，以产品信息审核数据集中的人工审核结果为目标对模型进行训练，判断产品能否通过审核。

Description

一种基于深度学习的产品信息审核方法及系统

技术领域

本发明涉及计算机深度学习领域，特别是涉及一种基于深度学习的产品信息审核方法及系统。

背景技术

互联网电商平台需要对商户上传的产品信息进行合规性审核，通常这种审核由人工完成，当平台规模较大时，需要耗费大量的人力，人工审核也存在审核效率低下、周期较长等问题，同时存在审核人员疲劳导致审核准确率下降的风险。

本发明针产品信息审核的问题进行了方法和系统的设计，根据产品信息审核数据的各个字段，利用深度学习模型等方法抽取字段信息的特征，利用这些特征和审核结果构建分类模型，从而实现能否通过审核的判断。该方法和系统能够高效准确的完成产品信息的审核，最小化人工审核员的参与和工作量。单纯的用计算机程序的某一种信息审核数据的方法并不能保证审核的准确或效率。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于深度学习的产品信息审核的方法及系统。尤其是根据产品信息审核数据的各个字段构建分类模型的输入特征，使用单层神经网络构建一个Wide分类模型，同时使用多层深度神经网络以及循环神经网络共同构建一个Deep分类模型，以人工审核结果为目标进行训练，从而实现能否通过审核的判断。

为解决上述技术问题，本发明提供一种基于深度学习的产品信息审核的方法，包括如下步骤：

步骤一：准备产品信息审核数据集，筛选与审核结果有关的字段，并对人工审核结果的标注信息进行复核；与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录；

步骤二：对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总，在此基础上进行预处理后得到适合模型输入的特征编码Feature；

步骤三：将特征编码转换为特征向量后作为模型的输入，构建单层神经网络的Wide分类模型，预测产品过审的概率；对于Wide分类模型，输入为特征编码Feature，输出为概率得分Score_w，构建一个神经网络模型，使得F_w(Feature)＝Score_w；

步骤四：将特征编码转映射为稠密向量后作为模型的输入，构建循环神经网络和深度神经网络结合的Deep分类模型，预测产品过审的概率；对于Deep分类模型，输入为特征编码Feature，输出为概率得分Score_d，构建一个神经网络模型，使得F_d(Featur)e＝Score_d；

步骤五：结合Wide和Deep分类模型的得分输出，以产品信息审核数据集中的人工审核结果为目标对模型进行训练，判断产品能否通过审核；

所述步骤一中，所述产品信息审核数据集中至少包含300万条记录，每条记录至少包含产品标题、产品描述、产地、关键词、品牌、所属目录和审核结果字段，其中产品标题、产品描述为文本型字段字段{TextField_j}，关键词、品牌、所属目录为类别型字段{CategoryFeild_i}；

所述步骤二中，特征编码的构建还包括如下步骤：

步骤1：对于类别型字段信息，统计所有字段的所有可能出现的值，并给所有可能值一个从0开始的序号；构建一个字段值到特征序号的一个映射M_c(FieldValu)e＝id；

步骤2：将类别型字段信息使用映射M_c转换为类别型特征编码，使得M_c({CategoryFeild_i})＝CategoryFaeture；

步骤3：对于文本型字段信息，将所有文本进行分词后统计出词表，并对停用词和高频词进行过滤；构建一个词到词序号的一个映射M_t(Token)＝id；

步骤4：将文本型字段信息进行分词后使用映射M_t转换为字符型特征编码，使得

步骤5：将两种特征拼接起来，得到适合模型输入的特征编码

所述步骤四中，Deep分类模型构建还包括如下步骤：

步骤1：随机初始化一个M*N的嵌入矩阵EM，M＝len(M_t)+len(M_c)表示所有特征值的个数，N代表每个特征被映射的维度；

步骤2：将类别型特征编码

中的每个特征序号i从嵌入矩阵EM中查找对应行的向量

拼接成类别型特征向量

步骤3：将文本型特征编码

中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbedding_j，作为循环神经网络LSTM在第j个时间序列的输入，提取LSTM最后一个隐层输出作为文本型特征变量

步骤4：拼接类别型特征向量和文本型特征向量，构建模型的输入a⁽⁰⁾＝FeatureVector＝FeatureVector_c+FeatureVector_t，随机初始化L层深度神经网络每层的参数W^(l)和b^(l)，使用ReLU(x)＝max(0,x)作为隐层的激活函数，得到每个隐层的输出为a^(l+1)＝ReLU(W^(l)a^(l)+b^(l))，其中l为神经网络的层数；

步骤5：取深度神经网络的最后一层的输出，使得Score_d＝F_w(Feature)＝a^(L)，用于获取各个特征彼此之间的关系以及与能否过审之间的间接关系得分。

所述步骤三中，Wide分类模型构建还包括如下步骤：

步骤1：利用Multi-hot方式将特征编码Feature转换为特征向量

步骤2：随机初始化单层神经网络的参数W和b，构建二分类模型Score_w＝F_w(Feature)＝W·FeatureVetcor+b，用于获取各个特征与能否过审之间的直接关系得分。

所属步骤五中，模型训练还包括如下步骤：

步骤1：将Wide模型和Deep模型的得分输出相加作为总得分，并使用函数Sigmoid(x)＝1/(1+e^-x)计算产品信息过审的概率P＝Sigmoid(Score_w+Score_d)。

步骤2：以人工审核结果的标签Label为目标，使用对数似然损失函数Cost(P,Label)＝-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练。

步骤3：训练完成的模型即可用于根据各个字段的输入预测产品信息是否能够通过审核。

一种基于深度学习的产品信息审核的系统，包括数据获取模块、模型训练模块和结果预测模块。

所述数据获取模块，用于获取深度模型所需要的产品信息审核数据集，主要包括：产品信息审核数据集、数据清洗过滤及人工标注和复核。

所述模型训练模块，用于利用产品信息审核数据集和深度神经网络训练深度学习模型。其中包括两个依次相连的子模块：产品信息特征抽取子模块、特征分类模型训练子模块；所述产品信息特征抽取子模块，用于抽取产品信息的特征编码；所述特征分类模型训练子模块，用于构建神经网络模型并进行模型的训练。

所述结果预测模块，用于提供产品信息审核的接口，接收待审核的产品信息，通过调用模型最终返回打分结果，其中包括四个依次相连的子模块：待审核产品信息接收子模块、产品信息特征抽取子模块、产品信息特征分类子模块、结果处理子模块；所述待审核产品信息接收子模块，用于接收待审核的产品信息；所述产品信息特征抽取子模块，用于抽取产品信息的特征编码；所述产品信息特征分类子模块，调用神经网络模型对特征进行打分；所述结果处理子模块，对打分分值的阈值进行划分，对置信度较高的得分直接返回能否过审的标签，对于置信度较低的得分将产品信息返回给审核人员人工审核。

本发明所达到的有益效果:根据产品信息审核数据的各个字段，利用深度学习模型等方法抽取字段信息的特征，利用这些特征和审核结果构建分类模型，从而实现能否过审的判断。该方法和系统能够高效准确的完成产品信息的审核，最小化人工审核员的参与和工作量。尤其是利用单层神经网络构建一个Wide分类模型，再利用深层神经网络构建一个Deep分类模型，两者结合用于获取各个特征之间的关系以及与能否过审之间的直接和间接关系得分。单层神经网络的泛化能力高，深层神经网络的拟合能力强，二者的结合有助于判断的准确性和整个评价系统的效率并重，在实用中效果更好。

附图说明

图1为本发明的示例性实施例中基于深度学习的产品信息审核方法的流程示意图；

图2为本发明的示例性实施例中基于深度学习的产品信息审核系统的结构示意图。

具体实施方式

下面结合附图和示例性实施例对本发明作进一步的说明：

如图1所示，本发明公开一种基于深度学习的产品信息审核的方法，包括：

步骤11：准备产品信息审核数据集，筛选与审核结果有关的字段，并对人工审核结果的标注信息进行复核，按如下步骤准备数据集。

步骤111：导入既往人工产品审核数据。

步骤112：筛选与审核结果有关的字段，产品标题、产品描述、产地、关键词、品牌和所属目录作为产品特征信息，以及审核员对于产品的驳回意见字段作为预测目标。

步骤113：人工对产品信息数据的部分审核结果进行复核和补全。

步骤12：对筛选后的产品信息审核数据集中的各字段内容进行统计和汇总，在此基础上进行预处理后得到适合模型输入的特征编码Feature，按如下步骤获取特征编码。

步骤121：对于类别型字段信息，统计所有字段的所有可能出现的值，并给所有可能值一个从0开始的序号；即构建一个字段值到特征序号的一个映射M_c(FieldValu)e＝id。

步骤122：将类别型字段信息使用映射M_c转换为类别型特征编码，使得

步骤123：对于文本型字段信息，将所有文本进行分词后统计出词表，对停用词和高频词进行过滤，并给所有词语一个从0开始的序号；即构建一个词到词序号的一个映射M_t(Token)＝id。

步骤124：将文本型字段信息进行分词后使用映射M_t转换为字符型特征编码，使得

步骤125：将两种特征拼接起来，得到适合模型输入的特征编码

步骤13：将特征编码转换为特征向量后作为模型的输入，构建单层神经网络的Wide分类模型，预测产品过审的概率；对于Wide分类模型，输入为特征编码Feature，输出为概率得分Score_w，按如下步骤，构建一个神经网络模型，使得F_w(Feature)＝Score_w

步骤131：利用Multi-hot方式将特征编码Feature转换为特征向量FeatureVetcor。

步骤132：随机初始化单层神经网络的参数W和b，构建二分类模型Score_w＝F_w(Feature)＝W·FeatureVetcor+b，用于获取各个特征与能否过审之间的直接关系得分。

步骤14：将特征编码转映射为稠密向量后作为模型的输入，构建循环神经网络和深度神经网络结合的Deep分类模型，预测产品过审的概率；对于Deep分类模型，输入为特征编码Feature，输出为概率得分Score_d，按如下步骤，构建一个神经网络模型，使得F_d(Featur)e＝Score_d。

步骤141：随机初始化一个M*N的嵌入矩阵EM，M＝len(M_t)+len(M_c)表示所有特征值的个数，N代表每个特征被映射的维度。

步骤142：将类别型特征编码

中的每个特征序号i从嵌入矩阵EM中查找对应行的向量

拼接成类别型特征向量

步骤143：将文本型特征编码

步骤144：拼接类别型特征向量和文本型特征向量，构建模型的输入a⁽⁰⁾＝FeatureVector＝FeatureVector_c+FeatureVector_t，随机初始化L层深度神经网络每层的参数W^(l)和b^(l)，使用ReLU(x)＝max(0,x)作为隐层的激活函数，得到每个隐层的输出为a^(l+1)＝ReLU(W^(l)a^(l)+b^(l))，其中l为神经网络的层数。

步骤145：取深度神经网络的最后一层的输出，使得Score_d＝F_w(Feature)＝a^(L)，用于获取各个特征彼此之间的关系以及与能否过审之间的间接关系得分。

步骤15：结合Wide和Deep分类模型的得分输出，以产品信息审核数据集中的人工审核结果为目标，按如下步骤，对模型进行训练，判断产品能否通过审核。

步骤151：将Wide模型和Deep模型的得分输出相加作为总得分，并使用函数Sigmoid(x)＝1/(1+e^-x)计算产品信息过审的概率P＝Sigmoid(Score_w+Score_d)。

步骤152：以人工审核结果的标签Label为目标，使用对数似然损失函数Cost(P,Label)＝-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练。

步骤153：训练完成的模型即可用于根据各个字段的输入预测产品信息是否能够通过审核。

该方法既考虑了特征与审核结果的直接关系，也考虑了特征之间的关系对审核结果的影响，能够灵活考察特征组合，有效规避某特征缺失造成的影响，具有广泛的适用性。

实施例：

步骤111：获取公司既往人工产品审核数据约300万条。

步骤121：对于类别型字段信息如产地，关键词，品牌和目录等，统计所有字段的所有可能出现的值共约10万个，并给所有可能值一个从0开始的序号；即构建一个字段值到特征序号的一个长度约为10万的映射M_c(FieldValu)e＝id。

步骤123：对于文本型字段信息如产品标题，产品信息等，将所有文本使用分词工具jieba进行分词后统计出词表，对停用词和高频词进行过滤后剩余约20万个词，并给所有词语一个从0开始的序号；即构建一个词到词序号的一个长度约为20万的映射M_t(Token)＝id。

步骤131：利用Multi-hot方式将特征编码Feature转换为长度约为30万的特征向量

步骤132：随机初始化单层神经网络的参数W和b，构建Wide模型Score_w＝F_w(Feature)＝W·FeatureVetcor+b，用于获取各个特征与能否过审之间的直接关系得分。

步骤141：随机初始化一个300000*200的嵌入矩阵EM，其中300000为所有特征值的个数，200为每个特征被映射的维度。

步骤142：将类别型特征编码

中的每个特征序号i从嵌入矩阵EM中查找对应行的向量

拼接成长度为800的类别型特征向量

步骤143：将文本型特征编码

中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbedding_j，作为循环神经网络LSTM在第j个时间序列的输入，提取LSTM最后一个隐层输出作为长度为200的文本型特征变量

拼步骤144：接类别型特征向量和文本型特征向量，构建Deep模型的输入

随机初始化4层长度分别为512,256,128的深度神经网络每层的参数W^(l)和b^(l)，使用ReLU(x)＝max(0,x)作为隐层的激活函数，得到每个隐层的输出为a^(l+1)＝ReLU(W^(l)a^(l)+b^(l))，其中l为神经网络的层数。

步骤153：训练完成的模型即可用于根据各个字段的输入预测产品信息是否能够通过审核。以某化工类产品(信息已脱敏)为例：产品标题为“食品级次氯酸钠”，产品描述为“食品级次氯酸钠联系xxxxxxxxxxx混合均匀搅拌15min.在搅拌下向此溶液中加入70gNa2CO3溶于170ml水的溶液。食品级次氯酸钠联系xxxxxxxxxxx反应物最初变稠，然后变稀，过滤除去CaCO3沉淀得320mlNaCLO溶液...”，产地为“山东潍坊”，品牌为“XX”，关键词为“次氯化钠”，目录为“化工”。经过步骤12后，各个字段值和文本的分词结果转换为对应的特征编码。经过步骤13后得到Wide模型的输出得分约为4.3，经过步骤14后得到Deep模型的输出得分约为2.9，经过步骤151后得到模型预测的该产品不能过审的概率约为99.9％，大于设定的阈值80％，因此判断该产品不能通过审核。

如图2所示，本发明公开一种基于深度学习的产品信息审核的系统，主要包括：数据获取模块21、模型训练模块22和结果预测模块23。

所述数据获取模块21，用于获取深度模型所需要的产品信息审核数据集，主要包括：产品信息审核数据集、数据清洗过滤及人工标注和复核。

所述模型训练模块22，用于利用产品信息审核数据集和神经网络训练分类模型，其中包括两个依次相连的子模块：产品信息特征抽取子模块221、特征分类模型训练子模块222；

所述产品信息特征抽取子模块221，用于抽取产品信息的特征编码；

所述特征分类模型训练子模块222，用于构建神经网络模型并进行模型的训练；

所述结果预测模块23，用于提供产品信息审核的接口，接收待审核的产品信息，通过调用模型最终返回打分结果，其中包括四个依次相连的子模块：待审核产品信息接收子模块231、产品信息特征抽取子模块232、产品信息特征分类子模块233、结果处理子模块234；

所述待审核产品信息接收子模块231，用于用于接收待审核的产品信息；

所述产品信息特征抽取子模块232，用于抽取产品信息的特征编码；

所述产品信息特征分类子模块233，调用神经网络模型对特征进行打分；

所述结果处理子模块234，对打分分值的阈值进行划分，对置信度较高的得分直接返回能否过审的标签，对于置信度较低的得分将产品信息返回给审核人员人工审核。

本发明主要用于提供一种一种基于深度学习的产品信息审核的方法及系统，根据产品信息审核数据的各个字段，利用深度学习模型等方法抽取字段信息的特征，利用这些特征和审核结果构建分类模型，从而实现能否通过审核的判断。该方法和系统能够高效准确的完成产品信息的审核，最小化人工审核员的参与和工作量。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式做出的其它改进与应用，都属于本发明的保护范围。

Claims

1.一种基于深度学习的产品信息审核的方法，其特征在于，包括如下步骤：

步骤四：将特征编码转映射为稠密向量后作为模型的输入，构建循环神经网络和深度神经网络结合的Deep分类模型，预测产品过审的概率；对于Deep分类模型，输入为特征编码Feature，输出为概率得分Score_d，构建一个神经网络模型，使得F_d(Feature)＝Score_d；

所述步骤一中，所述产品信息审核数据集中至少包含300万条记录，每条记录至少包含产品标题、产品描述、产地、关键词、品牌、所属目录和审核结果字段，其中产品标题、产品描述为文本型字段{TextField_j}，关键词、品牌、所属目录为类别型字段{CategoryFeild_i}；

所述步骤二中，特征编码的构建还包括如下步骤：

步骤1：对于类别型字段信息，统计所有字段的所有可能出现的值，并给所有可能值一个从0开始的序号；构建一个字段值到特征序号的一个映射M_c(FieldValue)＝id；

步骤2：将类别型字段信息使用映射M_c转换为类别型特征编码，使得

步骤5：将两种特征拼接起来，得到适合模型输入的特征编码

所述步骤四中，Deep分类模型构建还包括如下步骤：

步骤2：将类别型特征编码CategoryFaeture中的每个特征序号i从嵌入矩阵EM中查找对应行的向量CategoryEmbeddin_ig，拼接成类别型特征向量FeatureVetcor_c；

步骤3：将文本型特征编码TextFeatuer中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbedding_j，作为循环神经网络LSTM在第j个时间序列的输入，提取LSTM最后一个隐层输出作为文本型特征变量FeatureVetco_tr；

2.根据权利要求1所述的基于深度学习的产品信息审核的方法，其特征在于，所述步骤三中，Wide分类模型构建还包括如下步骤：

步骤1：利用Multi-hot方式将特征编码Feature转换为特征向量FeatureVetcor；

3.根据权利要求1所述的基于深度学习的产品信息审核的方法，其特征在于，所属步骤五中，模型训练还包括如下步骤：

步骤1：将Wide模型和Deep模型的得分输出相加作为总得分，并使用函数Sigmoid(x)＝1/(1+e^-x)计算产品信息过审的概率P＝Sigmoid(Score_w+Score_d)；

步骤2：以人工审核结果的标签Label为目标，使用对数似然损失函数Cost(P,Label)＝-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练；

步骤3：训练完成的模型即能用于根据各个字段的输入预测产品信息是否能够通过审核。

4.根据权利要求1-3之一所述的基于深度学习的产品信息审核的方法得到的系统，其特征在于：包括数据获取模块、模型训练模块和结果预测模块；

所述数据获取模块，用于获取深度模型所需要的产品信息审核数据集，主要包括：产品信息审核数据集、数据清洗过滤及人工标注和复核；

所述模型训练模块，用于利用产品信息审核数据集和深度神经网络训练深度学习模型；其中包括两个依次相连的子模块：产品信息特征抽取子模块、特征分类模型训练子模块；所述产品信息特征抽取子模块，用于抽取产品信息的特征编码；所述特征分类模型训练子模块，用于构建神经网络模型并进行模型的训练；