CN111582825B - 一种基于深度学习的产品信息审核方法及系统 - Google Patents

一种基于深度学习的产品信息审核方法及系统 Download PDF

Info

Publication number
CN111582825B
CN111582825B CN202010384910.XA CN202010384910A CN111582825B CN 111582825 B CN111582825 B CN 111582825B CN 202010384910 A CN202010384910 A CN 202010384910A CN 111582825 B CN111582825 B CN 111582825B
Authority
CN
China
Prior art keywords
feature
product information
model
auditing
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010384910.XA
Other languages
English (en)
Other versions
CN111582825A (zh
Inventor
袁明磊
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN202010384910.XA priority Critical patent/CN111582825B/zh
Publication of CN111582825A publication Critical patent/CN111582825A/zh
Application granted granted Critical
Publication of CN111582825B publication Critical patent/CN111582825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于深度学习的产品信息审核的方法,包括如下:1)准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核。与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录;2)对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总;3)将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;4)将特征编码转映射为稠密向量后作为模型的输入,构建循环神经网络和深度神经网络结合的Deep分类模型;结合Wide和Deep分类模型的得分输出,以产品信息审核数据集中的人工审核结果为目标对模型进行训练,判断产品能否通过审核。

Description

一种基于深度学习的产品信息审核方法及系统
技术领域
本发明涉及计算机深度学习领域,特别是涉及一种基于深度学习的产品信息审核方法及系统。
背景技术
互联网电商平台需要对商户上传的产品信息进行合规性审核,通常这种审核由人工完成,当平台规模较大时,需要耗费大量的人力,人工审核也存在审核效率低下、周期较长等问题,同时存在审核人员疲劳导致审核准确率下降的风险。
本发明针产品信息审核的问题进行了方法和系统的设计,根据产品信息审核数据的各个字段,利用深度学习模型等方法抽取字段信息的特征,利用这些特征和审核结果构建分类模型,从而实现能否通过审核的判断。该方法和系统能够高效准确的完成产品信息的审核,最小化人工审核员的参与和工作量。单纯的用计算机程序的某一种信息审核数据的方法并不能保证审核的准确或效率。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于深度学习的产品信息审核的方法及系统。尤其是根据产品信息审核数据的各个字段构建分类模型的输入特征,使用单层神经网络构建一个Wide分类模型,同时使用多层深度神经网络以及循环神经网络共同构建一个Deep分类模型,以人工审核结果为目标进行训练,从而实现能否通过审核的判断。
为解决上述技术问题,本发明提供一种基于深度学习的产品信息审核的方法,包括如下步骤:
步骤一:准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核;与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录;
步骤二:对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总,在此基础上进行预处理后得到适合模型输入的特征编码Feature;
步骤三:将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;对于Wide分类模型,输入为特征编码Feature,输出为概率得分Scorew,构建一个神经网络模型,使得Fw(Feature)=Scorew
步骤四:将特征编码转映射为稠密向量后作为模型的输入,构建循环神经网络和深度神经网络结合的Deep分类模型,预测产品过审的概率;对于Deep分类模型,输入为特征编码Feature,输出为概率得分Scored,构建一个神经网络模型,使得Fd(Featur)e=Scored
步骤五:结合Wide和Deep分类模型的得分输出,以产品信息审核数据集中的人工审核结果为目标对模型进行训练,判断产品能否通过审核;
所述步骤一中,所述产品信息审核数据集中至少包含300万条记录,每条记录至少包含产品标题、产品描述、产地、关键词、品牌、所属目录和审核结果字段,其中产品标题、产品描述为文本型字段字段{TextFieldj},关键词、品牌、所属目录为类别型字段{CategoryFeildi};
所述步骤二中,特征编码的构建还包括如下步骤:
步骤1:对于类别型字段信息,统计所有字段的所有可能出现的值,并给所有可能值一个从0开始的序号;构建一个字段值到特征序号的一个映射Mc(FieldValu)e=id;
步骤2:将类别型字段信息使用映射Mc转换为类别型特征编码,使得Mc({CategoryFeildi})=CategoryFaeture;
步骤3:对于文本型字段信息,将所有文本进行分词后统计出词表,并对停用词和高频词进行过滤;构建一个词到词序号的一个映射Mt(Token)=id;
步骤4:将文本型字段信息进行分词后使用映射Mt转换为字符型特征编码,使得
Figure GDA0002769310650000021
步骤5:将两种特征拼接起来,得到适合模型输入的特征编码
Figure GDA0002769310650000022
所述步骤四中,Deep分类模型构建还包括如下步骤:
步骤1:随机初始化一个M*N的嵌入矩阵EM,M=len(Mt)+len(Mc)表示所有特征值的个数,N代表每个特征被映射的维度;
步骤2:将类别型特征编码
Figure GDA0002769310650000023
中的每个特征序号i从嵌入矩阵EM中查找对应行的向量
Figure GDA0002769310650000031
拼接成类别型特征向量
Figure GDA0002769310650000032
步骤3:将文本型特征编码
Figure GDA0002769310650000033
中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbeddingj,作为循环神经网络LSTM在第j个时间序列的输入,提取LSTM最后一个隐层输出作为文本型特征变量
Figure GDA0002769310650000034
步骤4:拼接类别型特征向量和文本型特征向量,构建模型的输入a(0)=FeatureVector=FeatureVectorc+FeatureVectort,随机初始化L层深度神经网络每层的参数W(l)和b(l),使用ReLU(x)=max(0,x)作为隐层的激活函数,得到每个隐层的输出为a(l+1)=ReLU(W(l)a(l)+b(l)),其中l为神经网络的层数;
步骤5:取深度神经网络的最后一层的输出,使得Scored=Fw(Feature)=a(L),用于获取各个特征彼此之间的关系以及与能否过审之间的间接关系得分。
所述步骤三中,Wide分类模型构建还包括如下步骤:
步骤1:利用Multi-hot方式将特征编码Feature转换为特征向量
Figure GDA0002769310650000035
步骤2:随机初始化单层神经网络的参数W和b,构建二分类模型Scorew=Fw(Feature)=W·FeatureVetcor+b,用于获取各个特征与能否过审之间的直接关系得分。
所属步骤五中,模型训练还包括如下步骤:
步骤1:将Wide模型和Deep模型的得分输出相加作为总得分,并使用函数Sigmoid(x)=1/(1+e-x)计算产品信息过审的概率P=Sigmoid(Scorew+Scored)。
步骤2:以人工审核结果的标签Label为目标,使用对数似然损失函数Cost(P,Label)=-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练。
步骤3:训练完成的模型即可用于根据各个字段的输入预测产品信息是否能够通过审核。
一种基于深度学习的产品信息审核的系统,包括数据获取模块、模型训练模块和结果预测模块。
所述数据获取模块,用于获取深度模型所需要的产品信息审核数据集,主要包括:产品信息审核数据集、数据清洗过滤及人工标注和复核。
所述模型训练模块,用于利用产品信息审核数据集和深度神经网络训练深度学习模型。其中包括两个依次相连的子模块:产品信息特征抽取子模块、特征分类模型训练子模块;所述产品信息特征抽取子模块,用于抽取产品信息的特征编码;所述特征分类模型训练子模块,用于构建神经网络模型并进行模型的训练。
所述结果预测模块,用于提供产品信息审核的接口,接收待审核的产品信息,通过调用模型最终返回打分结果,其中包括四个依次相连的子模块:待审核产品信息接收子模块、产品信息特征抽取子模块、产品信息特征分类子模块、结果处理子模块;所述待审核产品信息接收子模块,用于接收待审核的产品信息;所述产品信息特征抽取子模块,用于抽取产品信息的特征编码;所述产品信息特征分类子模块,调用神经网络模型对特征进行打分;所述结果处理子模块,对打分分值的阈值进行划分,对置信度较高的得分直接返回能否过审的标签,对于置信度较低的得分将产品信息返回给审核人员人工审核。
本发明所达到的有益效果:根据产品信息审核数据的各个字段,利用深度学习模型等方法抽取字段信息的特征,利用这些特征和审核结果构建分类模型,从而实现能否过审的判断。该方法和系统能够高效准确的完成产品信息的审核,最小化人工审核员的参与和工作量。尤其是利用单层神经网络构建一个Wide分类模型,再利用深层神经网络构建一个Deep分类模型,两者结合用于获取各个特征之间的关系以及与能否过审之间的直接和间接关系得分。单层神经网络的泛化能力高,深层神经网络的拟合能力强,二者的结合有助于判断的准确性和整个评价系统的效率并重,在实用中效果更好。
附图说明
图1为本发明的示例性实施例中基于深度学习的产品信息审核方法的流程示意图;
图2为本发明的示例性实施例中基于深度学习的产品信息审核系统的结构示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示,本发明公开一种基于深度学习的产品信息审核的方法,包括:
步骤11:准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核,按如下步骤准备数据集。
步骤111:导入既往人工产品审核数据。
步骤112:筛选与审核结果有关的字段,产品标题、产品描述、产地、关键词、品牌和所属目录作为产品特征信息,以及审核员对于产品的驳回意见字段作为预测目标。
步骤113:人工对产品信息数据的部分审核结果进行复核和补全。
步骤12:对筛选后的产品信息审核数据集中的各字段内容进行统计和汇总,在此基础上进行预处理后得到适合模型输入的特征编码Feature,按如下步骤获取特征编码。
步骤121:对于类别型字段信息,统计所有字段的所有可能出现的值,并给所有可能值一个从0开始的序号;即构建一个字段值到特征序号的一个映射Mc(FieldValu)e=id。
步骤122:将类别型字段信息使用映射Mc转换为类别型特征编码,使得
Figure GDA0002769310650000051
步骤123:对于文本型字段信息,将所有文本进行分词后统计出词表,对停用词和高频词进行过滤,并给所有词语一个从0开始的序号;即构建一个词到词序号的一个映射Mt(Token)=id。
步骤124:将文本型字段信息进行分词后使用映射Mt转换为字符型特征编码,使得
Figure GDA0002769310650000052
步骤125:将两种特征拼接起来,得到适合模型输入的特征编码
Figure GDA0002769310650000053
步骤13:将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;对于Wide分类模型,输入为特征编码Feature,输出为概率得分Scorew,按如下步骤,构建一个神经网络模型,使得Fw(Feature)=Scorew
步骤131:利用Multi-hot方式将特征编码Feature转换为特征向量FeatureVetcor。
步骤132:随机初始化单层神经网络的参数W和b,构建二分类模型Scorew=Fw(Feature)=W·FeatureVetcor+b,用于获取各个特征与能否过审之间的直接关系得分。
步骤14:将特征编码转映射为稠密向量后作为模型的输入,构建循环神经网络和深度神经网络结合的Deep分类模型,预测产品过审的概率;对于Deep分类模型,输入为特征编码Feature,输出为概率得分Scored,按如下步骤,构建一个神经网络模型,使得Fd(Featur)e=Scored
步骤141:随机初始化一个M*N的嵌入矩阵EM,M=len(Mt)+len(Mc)表示所有特征值的个数,N代表每个特征被映射的维度。
步骤142:将类别型特征编码
Figure GDA0002769310650000061
中的每个特征序号i从嵌入矩阵EM中查找对应行的向量
Figure GDA0002769310650000062
拼接成类别型特征向量
Figure GDA0002769310650000063
步骤143:将文本型特征编码
Figure GDA0002769310650000064
中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbeddingj,作为循环神经网络LSTM在第j个时间序列的输入,提取LSTM最后一个隐层输出作为文本型特征变量
Figure GDA0002769310650000065
步骤144:拼接类别型特征向量和文本型特征向量,构建模型的输入a(0)=FeatureVector=FeatureVectorc+FeatureVectort,随机初始化L层深度神经网络每层的参数W(l)和b(l),使用ReLU(x)=max(0,x)作为隐层的激活函数,得到每个隐层的输出为a(l+1)=ReLU(W(l)a(l)+b(l)),其中l为神经网络的层数。
步骤145:取深度神经网络的最后一层的输出,使得Scored=Fw(Feature)=a(L),用于获取各个特征彼此之间的关系以及与能否过审之间的间接关系得分。
步骤15:结合Wide和Deep分类模型的得分输出,以产品信息审核数据集中的人工审核结果为目标,按如下步骤,对模型进行训练,判断产品能否通过审核。
步骤151:将Wide模型和Deep模型的得分输出相加作为总得分,并使用函数Sigmoid(x)=1/(1+e-x)计算产品信息过审的概率P=Sigmoid(Scorew+Scored)。
步骤152:以人工审核结果的标签Label为目标,使用对数似然损失函数Cost(P,Label)=-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练。
步骤153:训练完成的模型即可用于根据各个字段的输入预测产品信息是否能够通过审核。
该方法既考虑了特征与审核结果的直接关系,也考虑了特征之间的关系对审核结果的影响,能够灵活考察特征组合,有效规避某特征缺失造成的影响,具有广泛的适用性。
实施例:
步骤11:准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核,按如下步骤准备数据集。
步骤111:获取公司既往人工产品审核数据约300万条。
步骤112:筛选与审核结果有关的字段,产品标题、产品描述、产地、关键词、品牌和所属目录作为产品特征信息,以及审核员对于产品的驳回意见字段作为预测目标。
步骤113:人工对产品信息数据的部分审核结果进行复核和补全。
步骤12:对筛选后的产品信息审核数据集中的各字段内容进行统计和汇总,在此基础上进行预处理后得到适合模型输入的特征编码Feature,按如下步骤获取特征编码。
步骤121:对于类别型字段信息如产地,关键词,品牌和目录等,统计所有字段的所有可能出现的值共约10万个,并给所有可能值一个从0开始的序号;即构建一个字段值到特征序号的一个长度约为10万的映射Mc(FieldValu)e=id。
步骤122:将类别型字段信息使用映射Mc转换为类别型特征编码,使得
Figure GDA0002769310650000071
步骤123:对于文本型字段信息如产品标题,产品信息等,将所有文本使用分词工具jieba进行分词后统计出词表,对停用词和高频词进行过滤后剩余约20万个词,并给所有词语一个从0开始的序号;即构建一个词到词序号的一个长度约为20万的映射Mt(Token)=id。
步骤124:将文本型字段信息进行分词后使用映射Mt转换为字符型特征编码,使得
Figure GDA0002769310650000072
步骤125:将两种特征拼接起来,得到适合模型输入的特征编码
Figure GDA0002769310650000073
步骤13:将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;对于Wide分类模型,输入为特征编码Feature,输出为概率得分Scorew,按如下步骤,构建一个神经网络模型,使得Fw(Feature)=Scorew
步骤131:利用Multi-hot方式将特征编码Feature转换为长度约为30万的特征向量
Figure GDA0002769310650000081
步骤132:随机初始化单层神经网络的参数W和b,构建Wide模型Scorew=Fw(Feature)=W·FeatureVetcor+b,用于获取各个特征与能否过审之间的直接关系得分。
步骤14:将特征编码转映射为稠密向量后作为模型的输入,构建循环神经网络和深度神经网络结合的Deep分类模型,预测产品过审的概率;对于Deep分类模型,输入为特征编码Feature,输出为概率得分Scored,按如下步骤,构建一个神经网络模型,使得Fd(Featur)e=Scored
步骤141:随机初始化一个300000*200的嵌入矩阵EM,其中300000为所有特征值的个数,200为每个特征被映射的维度。
步骤142:将类别型特征编码
Figure GDA0002769310650000082
中的每个特征序号i从嵌入矩阵EM中查找对应行的向量
Figure GDA0002769310650000083
拼接成长度为800的类别型特征向量
Figure GDA0002769310650000084
步骤143:将文本型特征编码
Figure GDA0002769310650000085
中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbeddingj,作为循环神经网络LSTM在第j个时间序列的输入,提取LSTM最后一个隐层输出作为长度为200的文本型特征变量
Figure GDA0002769310650000086
拼步骤144:接类别型特征向量和文本型特征向量,构建Deep模型的输入
Figure GDA0002769310650000087
随机初始化4层长度分别为512,256,128的深度神经网络每层的参数W(l)和b(l),使用ReLU(x)=max(0,x)作为隐层的激活函数,得到每个隐层的输出为a(l+1)=ReLU(W(l)a(l)+b(l)),其中l为神经网络的层数。
步骤145:取深度神经网络的最后一层的输出,使得Scored=Fw(Feature)=a(L),用于获取各个特征彼此之间的关系以及与能否过审之间的间接关系得分。
步骤15:结合Wide和Deep分类模型的得分输出,以产品信息审核数据集中的人工审核结果为目标,按如下步骤,对模型进行训练,判断产品能否通过审核。
步骤151:将Wide模型和Deep模型的得分输出相加作为总得分,并使用函数Sigmoid(x)=1/(1+e-x)计算产品信息过审的概率P=Sigmoid(Scorew+Scored)。
步骤152:以人工审核结果的标签Label为目标,使用对数似然损失函数Cost(P,Label)=-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练。
步骤153:训练完成的模型即可用于根据各个字段的输入预测产品信息是否能够通过审核。以某化工类产品(信息已脱敏)为例:产品标题为“食品级次氯酸钠”,产品描述为“食品级次氯酸钠联系xxxxxxxxxxx混合均匀搅拌15min.在搅拌下向此溶液中加入70gNa2CO3溶于170ml水的溶液。食品级次氯酸钠联系xxxxxxxxxxx反应物最初变稠,然后变稀,过滤除去CaCO3沉淀得320mlNaCLO溶液...”,产地为“山东潍坊”,品牌为“XX”,关键词为“次氯化钠”,目录为“化工”。经过步骤12后,各个字段值和文本的分词结果转换为对应的特征编码。经过步骤13后得到Wide模型的输出得分约为4.3,经过步骤14后得到Deep模型的输出得分约为2.9,经过步骤151后得到模型预测的该产品不能过审的概率约为99.9%,大于设定的阈值80%,因此判断该产品不能通过审核。
如图2所示,本发明公开一种基于深度学习的产品信息审核的系统,主要包括:数据获取模块21、模型训练模块22和结果预测模块23。
所述数据获取模块21,用于获取深度模型所需要的产品信息审核数据集,主要包括:产品信息审核数据集、数据清洗过滤及人工标注和复核。
所述模型训练模块22,用于利用产品信息审核数据集和神经网络训练分类模型,其中包括两个依次相连的子模块:产品信息特征抽取子模块221、特征分类模型训练子模块222;
所述产品信息特征抽取子模块221,用于抽取产品信息的特征编码;
所述特征分类模型训练子模块222,用于构建神经网络模型并进行模型的训练;
所述结果预测模块23,用于提供产品信息审核的接口,接收待审核的产品信息,通过调用模型最终返回打分结果,其中包括四个依次相连的子模块:待审核产品信息接收子模块231、产品信息特征抽取子模块232、产品信息特征分类子模块233、结果处理子模块234;
所述待审核产品信息接收子模块231,用于用于接收待审核的产品信息;
所述产品信息特征抽取子模块232,用于抽取产品信息的特征编码;
所述产品信息特征分类子模块233,调用神经网络模型对特征进行打分;
所述结果处理子模块234,对打分分值的阈值进行划分,对置信度较高的得分直接返回能否过审的标签,对于置信度较低的得分将产品信息返回给审核人员人工审核。
本发明主要用于提供一种一种基于深度学习的产品信息审核的方法及系统,根据产品信息审核数据的各个字段,利用深度学习模型等方法抽取字段信息的特征,利用这些特征和审核结果构建分类模型,从而实现能否通过审核的判断。该方法和系统能够高效准确的完成产品信息的审核,最小化人工审核员的参与和工作量。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (4)

1.一种基于深度学习的产品信息审核的方法,其特征在于,包括如下步骤:
步骤一:准备产品信息审核数据集,筛选与审核结果有关的字段,并对人工审核结果的标注信息进行复核;与审核结果有关的一个或多个字段是指产品标题、产品描述、产地、关键词、品牌或/和所属目录;
步骤二:对筛选后的产品信息审核数据集中的一个或多个字段内容进行统计和汇总,在此基础上进行预处理后得到适合模型输入的特征编码Feature;
步骤三:将特征编码转换为特征向量后作为模型的输入,构建单层神经网络的Wide分类模型,预测产品过审的概率;对于Wide分类模型,输入为特征编码Feature,输出为概率得分Scorew,构建一个神经网络模型,使得Fw(Feature)=Scorew
步骤四:将特征编码转映射为稠密向量后作为模型的输入,构建循环神经网络和深度神经网络结合的Deep分类模型,预测产品过审的概率;对于Deep分类模型,输入为特征编码Feature,输出为概率得分Scored,构建一个神经网络模型,使得Fd(Feature)=Scored
步骤五:结合Wide和Deep分类模型的得分输出,以产品信息审核数据集中的人工审核结果为目标对模型进行训练,判断产品能否通过审核;
所述步骤一中,所述产品信息审核数据集中至少包含300万条记录,每条记录至少包含产品标题、产品描述、产地、关键词、品牌、所属目录和审核结果字段,其中产品标题、产品描述为文本型字段{TextFieldj},关键词、品牌、所属目录为类别型字段{CategoryFeildi};
所述步骤二中,特征编码的构建还包括如下步骤:
步骤1:对于类别型字段信息,统计所有字段的所有可能出现的值,并给所有可能值一个从0开始的序号;构建一个字段值到特征序号的一个映射Mc(FieldValue)=id;
步骤2:将类别型字段信息使用映射Mc转换为类别型特征编码,使得
Figure FDA0002769310640000022
步骤3:对于文本型字段信息,将所有文本进行分词后统计出词表,并对停用词和高频词进行过滤;构建一个词到词序号的一个映射Mt(Token)=id;
步骤4:将文本型字段信息进行分词后使用映射Mt转换为字符型特征编码,使得
Figure FDA0002769310640000021
步骤5:将两种特征拼接起来,得到适合模型输入的特征编码
Figure FDA0002769310640000023
所述步骤四中,Deep分类模型构建还包括如下步骤:
步骤1:随机初始化一个M*N的嵌入矩阵EM,M=len(Mt)+len(Mc)表示所有特征值的个数,N代表每个特征被映射的维度;
步骤2:将类别型特征编码CategoryFaeture中的每个特征序号i从嵌入矩阵EM中查找对应行的向量CategoryEmbeddinig,拼接成类别型特征向量FeatureVetcorc
步骤3:将文本型特征编码TextFeatuer中的每个词序号j从嵌入矩阵EM中查找对应行的向量CategoryEmbeddingj,作为循环神经网络LSTM在第j个时间序列的输入,提取LSTM最后一个隐层输出作为文本型特征变量FeatureVetcotr;
步骤4:拼接类别型特征向量和文本型特征向量,构建模型的输入a(0)=FeatureVector=FeatureVectorc+FeatureVectort,随机初始化L层深度神经网络每层的参数W(l)和b(l),使用ReLU(x)=max(0,x)作为隐层的激活函数,得到每个隐层的输出为a(l+1)=ReLU(W(l)a(l)+b(l)),其中l为神经网络的层数;
步骤5:取深度神经网络的最后一层的输出,使得Scored=Fw(Feature)=a(L),用于获取各个特征彼此之间的关系以及与能否过审之间的间接关系得分。
2.根据权利要求1所述的基于深度学习的产品信息审核的方法,其特征在于,所述步骤三中,Wide分类模型构建还包括如下步骤:
步骤1:利用Multi-hot方式将特征编码Feature转换为特征向量FeatureVetcor;
步骤2:随机初始化单层神经网络的参数W和b,构建二分类模型Scorew=Fw(Feature)=W·FeatureVetcor+b,用于获取各个特征与能否过审之间的直接关系得分。
3.根据权利要求1所述的基于深度学习的产品信息审核的方法,其特征在于,所属步骤五中,模型训练还包括如下步骤:
步骤1:将Wide模型和Deep模型的得分输出相加作为总得分,并使用函数Sigmoid(x)=1/(1+e-x)计算产品信息过审的概率P=Sigmoid(Scorew+Scored);
步骤2:以人工审核结果的标签Label为目标,使用对数似然损失函数Cost(P,Label)=-Label·log(P)-(1-Label)·log(1-P)在数据集的所有样本上进行模型的训练;
步骤3:训练完成的模型即能用于根据各个字段的输入预测产品信息是否能够通过审核。
4.根据权利要求1-3之一所述的基于深度学习的产品信息审核的方法得到的系统,其特征在于:包括数据获取模块、模型训练模块和结果预测模块;
所述数据获取模块,用于获取深度模型所需要的产品信息审核数据集,主要包括:产品信息审核数据集、数据清洗过滤及人工标注和复核;
所述模型训练模块,用于利用产品信息审核数据集和深度神经网络训练深度学习模型;其中包括两个依次相连的子模块:产品信息特征抽取子模块、特征分类模型训练子模块;所述产品信息特征抽取子模块,用于抽取产品信息的特征编码;所述特征分类模型训练子模块,用于构建神经网络模型并进行模型的训练;
所述结果预测模块,用于提供产品信息审核的接口,接收待审核的产品信息,通过调用模型最终返回打分结果,其中包括四个依次相连的子模块:待审核产品信息接收子模块、产品信息特征抽取子模块、产品信息特征分类子模块、结果处理子模块;所述待审核产品信息接收子模块,用于接收待审核的产品信息;所述产品信息特征抽取子模块,用于抽取产品信息的特征编码;所述产品信息特征分类子模块,调用神经网络模型对特征进行打分;所述结果处理子模块,对打分分值的阈值进行划分,对置信度较高的得分直接返回能否过审的标签,对于置信度较低的得分将产品信息返回给审核人员人工审核。
CN202010384910.XA 2020-05-09 2020-05-09 一种基于深度学习的产品信息审核方法及系统 Active CN111582825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010384910.XA CN111582825B (zh) 2020-05-09 2020-05-09 一种基于深度学习的产品信息审核方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010384910.XA CN111582825B (zh) 2020-05-09 2020-05-09 一种基于深度学习的产品信息审核方法及系统

Publications (2)

Publication Number Publication Date
CN111582825A CN111582825A (zh) 2020-08-25
CN111582825B true CN111582825B (zh) 2021-02-12

Family

ID=72117249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010384910.XA Active CN111582825B (zh) 2020-05-09 2020-05-09 一种基于深度学习的产品信息审核方法及系统

Country Status (1)

Country Link
CN (1) CN111582825B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
CN109685297A (zh) * 2017-10-19 2019-04-26 成都勤智未来科技有限公司 一种评估数据开放效果的方法
CN110516066A (zh) * 2019-07-23 2019-11-29 同盾控股有限公司 一种文本内容安全防护方法和装置
CN110826320A (zh) * 2019-11-28 2020-02-21 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491433A (zh) * 2017-07-24 2017-12-19 成都知数科技有限公司 基于深度学习的电商异常金融商品识别方法
CN109685297A (zh) * 2017-10-19 2019-04-26 成都勤智未来科技有限公司 一种评估数据开放效果的方法
CN110516066A (zh) * 2019-07-23 2019-11-29 同盾控股有限公司 一种文本内容安全防护方法和装置
CN110826320A (zh) * 2019-11-28 2020-02-21 上海观安信息技术股份有限公司 一种基于文本识别的敏感数据发现方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Wide & Deep Learning for Recommender Systems;Heng-Tze Cheng 等;《DLRS 2016:Proceedings of the 1st Workshop on Deep Learning for Recommender Systems》;20160930;第2-3页 *

Also Published As

Publication number Publication date
CN111582825A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN110909164A (zh) 一种基于卷积神经网络的文本增强语义分类方法及系统
CN110413319B (zh) 一种基于深度语义的代码函数味道检测方法
CN113312500A (zh) 一种面向大坝安全运行的事件图谱构建方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
Choi et al. AI and text-mining applications for analyzing contractor’s risk in invitation to bid (ITB) and contracts for engineering procurement and construction (EPC) projects
CN112257441B (zh) 一种基于反事实生成的命名实体识别增强方法
CN108427729A (zh) 一种基于深度残差网络与哈希编码的大规模图片检索方法
CN109960727A (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
WO2023004632A1 (zh) 知识图谱的更新方法、装置、电子设备、存储介质及程序
CN111538836A (zh) 一种识别文本类广告中金融广告的方法
Kroon et al. Beyond counting words: Assessing performance of dictionaries, supervised machine learning, and embeddings in topic and frame classification
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN107480126B (zh) 一种工程材料类别智能识别方法
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN110866172B (zh) 一种面向区块链系统的数据分析方法
CN111582825B (zh) 一种基于深度学习的产品信息审核方法及系统
CN116777607A (zh) 一种基于nlp技术的智能审计方法
CN113705692B (zh) 基于人工智能的情感分类方法、装置、电子设备及介质
CN115712576A (zh) 基于开源软件缺陷问题的软件测试类型推荐方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant