CN108509959A - 色情应用识别方法、装置、计算机可读存储介质和服务器 - Google Patents

色情应用识别方法、装置、计算机可读存储介质和服务器 Download PDF

Info

Publication number
CN108509959A
CN108509959A CN201810333479.9A CN201810333479A CN108509959A CN 108509959 A CN108509959 A CN 108509959A CN 201810333479 A CN201810333479 A CN 201810333479A CN 108509959 A CN108509959 A CN 108509959A
Authority
CN
China
Prior art keywords
application
pornographic
sample
identified
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810333479.9A
Other languages
English (en)
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Youshi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youshi Network Technology Co Ltd filed Critical Guangzhou Youshi Network Technology Co Ltd
Priority to CN201810333479.9A priority Critical patent/CN108509959A/zh
Publication of CN108509959A publication Critical patent/CN108509959A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种色情应用识别方法、装置、计算机可读存储介质和服务器,以解决现有技术中缺乏色情应用自动识别方案的技术问题。所述的方法包括步骤:获取待识别应用的图片信息;基于所述图片信息生成所述待识别应用的特征向量;将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系;将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。本发明实施例能够对待识别应用是否为色情应用进行自动准确判断。

Description

色情应用识别方法、装置、计算机可读存储介质和服务器
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种色情应用识别方法、装置、计算机可读存储介质和服务器。
背景技术
在应用商店的运营过程中,有许多不法开发商为了追求利益,开发色情应用骗取用户下载后从中获取利益。为了打击这类开发商,从海量的应用中自动准确识别色情应用具有重要意义。但是现有技术中还未出现色情应用自动识别的相关方案。
发明内容
本发明针对现有方式的缺点,提出一种色情应用识别方法、装置、计算机可读存储介质和服务器,用以解决现有技术中缺乏色情应用自动识别方案的问题,以实现对色情应用的自动准确识别。
本发明的实施例根据第一个方面,提供了一种色情应用识别方法,包括步骤:
获取待识别应用的图片信息;
基于所述图片信息生成所述待识别应用的特征向量;
将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系;
将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。
在一个实施例中,所述色情应用识别模型通过以下步骤生成:
获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识;
对各个样本应用的图片信息进行灰度化以及压缩处理,得到各个样本应用的图片信息矩阵;
基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量;
将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型。
在一个实施例中,所述基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量,包括:
对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
在一个实施例中,所述对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量,包括:
按照矩阵行数从小到大的排列顺序,对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
在一个实施例中,所述将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型,包括:
通过预设算法求解预先构建的损失函数最小时深层神经网络的模型参数,基于求解的所述深层神经网络的模型参数得到色情应用识别模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述深层神经网络的模型参数和各个样本应用的特征向量有关的变量。
在一个实施例中,所述预设阀值通过以下步骤生成:
获取各个样本色情应用的图片信息;
对各个样本色情应用的图片信息进行灰度化以及压缩处理,得到各个样本色情应用的图片信息矩阵;
基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
将各个样本色情应用的特征向量输入所述色情应用识别模型中,得到各个样本色情应用的预测值;
对各个样本色情应用的预测值求均值,得到色情应用的基线值;
将所述色情应用的基线值与预设值相乘,得到预设阀值。
在一个实施例中,所述将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用,包括:
若所述待识别应用的预测值大于预设阀值,确定所述待识别应用为色情应用;
若所述待识别应用的预测值小于等于预设阀值,确定所述待识别应用为正常应用。
本发明的实施例根据第二个方面,还提供了一种色情应用识别装置,包括:
图片信息获取模块,用于获取待识别应用的图片信息;
特征向量生成模块,用于基于所述图片信息生成所述待识别应用的特征向量;
预测值获得模块,用于将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系;
识别模块,用于将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。
本发明的实施例根据第三个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的色情应用识别方法。
本发明的实施例根据第四个方面,还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的色情应用识别方法。
上述的色情应用识别方法、装置、计算机可读存储介质和服务器,根据待识别应用的图片信息生成待识别应用的特征向量,将该待识别应用的特征向量输入色情应用识别模型中得到该待识别应用的预测值,进而根据该预测值与预设阈值的比较结果实现对该待识别应用是否为色情应用的自动准确判断,为清洁应用商店环境,打压不法应用开发商提供基础的数据支撑。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的色情应用识别模型生成方法的流程示意图;
图2为本发明一实施例的应用A的简介示意图;
图3为本发明一实施例的DNN模型的结构示意图;
图4为本发明一个实施例的色情应用识别方法的流程示意图;
图5为本发明一个实施例的色情应用识别装置的结构示意图;
图6为本发明一个实施例的服务器的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的服务器其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
有必要先对本发明的原理进行如下的先导性说明。
本发明实施例通过色情应用识别模型实现对应用是否为色情应用的自动识别,因此本发明实施例提供的技术方案分两部分构成:第一部分利用各个样本应用进行DNN(DeepNeural Network,深度神经网络)模型训练,生成色情应用识别模型;第二部分利用训练好的色情应用识别模型判断待识别应用是否为色情应用。
下面按照色情应用识别模型生成、色情应用识别模型对待识别应用识别的顺序对本发明实施例进行详细介绍。
第一部分:色情应用识别模型生成
如图1所示,在一个实施例中,所述色情应用识别模型通过以下步骤生成:
S110、获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识。
各个样本应用可以是从某一个应用商店中随机抽取出的一批应用,也可以是从该应用商店中按照预设规则抽取出的一批应用,也可以是从多个应用商店中随机抽取的一批应用,也可以是从多个应用商店中按照预设规则抽取出来的一批应用,等等,本发明并不对此作出限定。
样本应用的图片信息获取的方式有很多。例如,应用商店一般会对样本应用的基本信息进行介绍,该介绍界面中一般包括多个图片简介,可以从该样本应用的多个图片简介中抽取一个或多个图片作为该样本应用的图片信息。为了降低计算量,可选的,将第一张图片简介作为该样本应用的图片信息。又例如,可以获取样本应用运行过程中的截图,将该截图作为该样本应用的图片信息。用户还可以采取其他方式获取样本应用的图片信息,本发明并不对此作出限定。
如图2所示,为一实施例的应用A的简介示意图,该简介示意图中包括图片简介1、图片简介2以及其它未示意的图片,那么就可以从多个图片简介中抽取一个或多个图片作为该应用A的图片信息,或者将应用A的简介中的第一张图片提取出来,作为应用A的图片信息。
标识用于指示样本应用是否为色情应用,具体形式可以根据用户实际需要进行设置。例如,一个样本应用的标识为1,表明该样本应用为色情应用,一个样本应用的标识为0,表明该样本应用为正常应用。又例如,一个样本应用的标识为1,表明该样本应用为正常应用,一个样本应用的标识为0,表明该样本应用为色情应用等等。
各个样本应用的标识可以由人工进行判断,例如,获取到样本应用的图片信息后,根据该图片信息由人工判断该样本应用是否为色情应用。各个样本应用的标识也可以根据先前已有的是否为色情应用的识别结果进行确定,例如,先前已经将某一应用标记为色情应用,则可以根据该标记直接将该应用的标识设置为指示色情应用的标识。另外,为了方便后续处理,可以将色情应用作为正样本,将正常应用作为负样本。需要说明的是,本发明并不对正样本和负样本包含的类型进行限定,也可以将色情应用作为负样本,将正常应用作为正样本。
S120、对各个样本应用的图片信息进行灰度化以及压缩处理,得到各个样本应用的图片信息矩阵。
由于图片信息一般是彩色图片信息,即图片信息是由3个矩阵构成,因此需要对图片信息进行灰度化处理。可选的,通过平均值法,把图片信息转化为1个矩阵,灰度公式如下所示:
其中,f(i,j)表示灰度化后,第i行,第j列像素的值;R(红)、G(绿)、B(蓝)分别是彩色图像的三维信息。
例如,某一彩色图片信息灰度化后的结果如下:
为了减少图片信息特征的数量,需要对图片进行压缩。压缩的方法有很多种,例如,在一个实施例中,通过下述公式将图片信息横向和纵向同时缩小20倍:
例如,应用简介中图片信息存放的3个大小为1920*1080的矩阵,灰度化后图片信息矩阵大小是行为1920,列为1080,总共的像素点有2073600个,计算量较大,而通过上述公式对灰度化后的图片信息进行压缩后,图片大小为90*54,总共的像素点为5184个像素点,可以看出像素点的数量大幅度降低。
应当理解的是,上述灰度化和压缩的方法仅用于示例,本发明并不对灰度化和压缩的方法进行限定。另外,灰度化和压缩的先后顺序可以根据需要进行设置。如果不考虑计算量的问题,也可以仅对图片信息进行灰度化处理。
S130、基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量。
特征向量用于标识样本应用。在一个实施例中,所述基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量,包括:对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
针对每一个样本应用的图片信息矩阵,对该图片信息矩阵中的所有元素从前到后依次排列,得到一个特征向量X,将该特征向量X作为该样本应用的特征向量,也即是深层神经网络的输入特征。
在一个实施例中,所述对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量,包括:
按照矩阵行数从小到大的排列顺序,对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
矩阵行数从小到达的排列顺序即从第一行开始,然后沿着第二行、第三行……的顺序直至到最后一行。以上述压缩后的5184个像素点的图片信息为例,把上述压缩后的图片信息矩阵中的所有元素,按照从第一行开始到最后一行结束的顺序,依次排列,生成一个5184维的向量X,把向量X作为对应样本应用的特征向量。
应当理解,本发明并不对排列顺序进行限定,还可以按照采用其它的排列顺序对图片信息矩阵中的各个元素进行依次排列,生成各个样本应用的特征向量。
S140、将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型。
首先结合一个具体实施对深层神经网络进行介绍,应当理解,本发明并不限制于该深层神经网络,还可以是其他类别的深层神经网络。
如图3所示,该深层神经网络包括1个输入层X、5个隐藏层L以及1个输出层Y,其中,输入层X为5184维的向量,隐藏层L是50维的向量,输出层Y为1维的向量。
模型参数的定义如下:
wi表示每个隐藏层的与上一个隐藏(输入层)连接的权重系数,模型总共5个隐藏层所以i=1,2,3,4,5,其中,i=1时是5184*50的矩阵,i=2,3,4时是50*50的矩阵,i=5时是50*1的矩阵;
bi表示每个隐藏层的偏置系数,其中,i=1,2,3,4是1*50的矩阵,i=5是1*1的矩阵;logistic(l)表示逻辑斯蒂函数,例如:
f(L)表示隐藏层的输出函数,其中,L是k维的向量,该函数会把L中每个元素带入逻辑斯蒂函数进行变换,最终逻辑斯蒂变换后的k维向量;
例如:L=(1,2,…,50),那么
Y是一个预测值,是用于预测色情应用的值。
各层关系如下:
L1=f(X·w1+b1)
L2=f(L1·w2+b2)
L3=f(L2·w3+b3)
L4=f(L3·w4+b4)
Y=f(L4·w5+b5)
下面介绍基于深层神经网络具体生成色情应用识别模型的过程。
在一个实施例中,所述将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型,包括:
通过预设算法求解预先构建的损失函数最小时深层神经网络的模型参数,基于求解的所述深层神经网络的模型参数得到色情应用识别模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述深层神经网络的模型参数和各个样本应用的特征向量有关的变量。
假设n表示收集的样本应用的数量;(Xi,yi)表示提取的第i个样本应用的DNN模型参数输入Xi,以及用于指示是否是色情应用的标识yi;Yi表示预测应用是否为色情应用的值,通过上面公式可知是关于w1,w2,w3,w4,w5,b1,b2,b3,b4,b5的变量,那么损失函数为:
把所有Yi按照上面的计算表达式展开,通过预设算法求解损失函数los最小时对应解w1,w2,w3,w4,w5,b1,b2,b3,b4,b5,该解即为深层神经网络的模型参数。
预设算法可以根据实际需要进行选取,例如,预设算法为梯度下降法,那么根据梯度下降法求解损失函数los的具体过程为:
第1步:把模型所有参数统一记到一个集合,假设记为θ={θi},随机给定一组在0-1之间,设为θ(0),初始化迭代步数k=0;
第2步:迭代计算
其中ρ用于控制收敛速度,可选的,取0.01
第3步:判断是否收敛
如果那么就返回θ(k+1),否则回到第2步继续计算,其中α是一个很小的值,可以取α=0.01·ρ。
至此就生成色情应用识别模型,以应用于后续的应用是否为色情应用的识别。
第二部分:利用色情应用识别模型对待识别应用进行识别
如图4所示,在一个实施例中,一种色情应用识别方法,包括步骤:
S210、获取待识别应用的图片信息。
待识别应用指的是待分析是否为色情应用的应用,可以是用户输入的自行设计的应用,也可以是用户从已有的应用中选择的某一个应用。待识别应用的图片信息获取的方式有很多。例如,可以从待识别应用的多个图片简介中抽取一个或多个图片作为该待识别应用的图片信息。为了降低计算量,可选的,将第一张图片简介作为该待识别应用的图片信息。又例如,可以获取待识别应用运行过程中的截图,将该截图作为该待识别应用的图片信息。用户还可以采取其他方式获取待识别应用的图片信息,本发明并不对此作出限定。
S220、基于所述图片信息生成所述待识别应用的特征向量。
特征向量用于标识待识别应用。在一个实施例中,所述基于所述图片信息生成所述待识别应用的特征向量,包括:
S2201、对所述图片信息进行灰度化以及压缩处理,得到待识别应用的图片信息矩阵。
灰度化处理和压缩的方法可以采用上述相同的方式实现,在此不予赘述。同样,本发明并不对灰度化和压缩的方法进行限定。另外,灰度化和压缩的先后顺序可以根据需要进行设置。如果不考虑计算量的问题,也可以仅对图片信息进行灰度化处理。
S2202、对待识别应用的图片信息矩阵包含的各个元素分别进行依次排列,生成待识别应用的特征向量。
对待识别应用的图片信息矩阵中的各个元素从前到后依次排列,得到一个特征向量X,将该特征向量X作为该待识别应用的特征向量。
在一个实施例中,所述对待识别应用的图片信息矩阵包含的各个元素分别进行依次排列,生成待识别应用的特征向量,包括:
按照矩阵行数从小到大的排列顺序,对待识别应用的图片信息矩阵包含的各个元素分别进行依次排列,生成待识别应用的特征向量。
矩阵行数从小到达的排列顺序即从第一行开始,然后沿着第二行、第三行……的顺序直至到最后一行。应当理解,本发明并不对排列顺序进行限定,还可以按照采用其它的排列顺序对图片信息矩阵中的各个元素进行依次排列,生成待识别应用的特征向量。
S230、将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系。
将待识别应用的特征向量输入事先训练好的色情应用识别模型中,该色情应用识别模型就可以输出该待识别应用的预测值。例如,给定一个应用A,按照上述介绍方法提取应用A的特征向量,然后将应用A的特征向量输入色情应用识别模型,得到预测值Y。
S240、将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。
预测阈值用于确定应用是否为色情应用,因此其准确性会影响识别结果的准确性。为了实现应用的准确识别,在一个实施例中,所述预设阀值通过以下步骤生成:
S2001、获取各个样本色情应用的图片信息;
S2002、对各个样本色情应用的图片信息进行灰度化以及压缩处理,得到各个样本色情应用的图片信息矩阵;
S2003、基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
S2004、将各个样本色情应用的特征向量输入所述色情应用识别模型中,得到各个样本色情应用的预测值;
S2005、对各个样本色情应用的预测值求均值,得到色情应用的基线值;
S2006、将所述色情应用的基线值与预设值相乘,得到预设阀值。
样本色情应用为标识为色情应用的样本应用。如果在训练DNN模型时划分了正样本和负样本,其中,正样本为色情应用,负样本为正常应用,则可以提取所有正样本的特征向量,把所有正样本的特征向量输入到训练好的DNN模型中,即色情应用识别模型中,得到所有正样本的预测值,然后计算均值,作为色情应用的基线值,然后将该基线值与预设值相乘,得到预设阀值。其中,预设值可以根据实际需要进行设置,可选的,预设值设置为0.5,基线值base可以根据下述公式确定:
在一个实施例中,所述将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用,包括:
S2401、若所述待识别应用的预测值大于预设阀值,确定所述待识别应用为色情应用;
S2402、若所述待识别应用的预测值小于等于预设阀值,确定所述待识别应用为正常应用。
以预设值为0.5为例,如果待识别应用的预测值Y大于0.5*base,那么就判断为色情应用,否则判断为非色情应用,即正常应用。
基于同一发明构思,本发明还提供一种色情应用识别装置,下面结合附图对本发明装置的具体实施方式进行详细介绍。
如图5所示,在一个实施例中,一种色情应用识别装置,包括:
图片信息获取模块210,用于获取待识别应用的图片信息;
特征向量生成模块220,用于基于所述图片信息生成所述待识别应用的特征向量;
预测值获得模块230,用于将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系;
识别模块240,用于将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。
在一个实施例中,还包括与所述预测值获得模块230相连的色情应用识别模型生成模块,色情应用识别模型生成模块用于执行以下操作:
获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识;
对各个样本应用的图片信息进行灰度化以及压缩处理,得到各个样本应用的图片信息矩阵;
基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量;
将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型。
在一个实施例中,色情应用识别模型生成模块还用于执行以下操作:
对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
在一个实施例中,色情应用识别模型生成模块还用于执行以下操作:
按照矩阵行数从小到大的排列顺序,对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
在一个实施例中,色情应用识别模型生成模块还用于执行以下操作:
通过预设算法求解预先构建的损失函数最小时深层神经网络的模型参数,基于求解的所述深层神经网络的模型参数得到色情应用识别模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述深层神经网络的模型参数和各个样本应用的特征向量有关的变量。
在一个实施例中,还包括与识别模块240相连的预设阀值生成模块,所述预设阀值生成模块用于执行以下操作:
获取各个样本色情应用的图片信息;
对各个样本色情应用的图片信息进行灰度化以及压缩处理,得到各个样本色情应用的图片信息矩阵;
基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
将各个样本色情应用的特征向量输入所述色情应用识别模型中,得到各个样本色情应用的预测值;
对各个样本色情应用的预测值求均值,得到色情应用的基线值;
将所述色情应用的基线值与预设值相乘,得到预设阀值。
在一个实施例中,识别模块240用于执行以下操作:
若所述待识别应用的预测值大于预设阀值,确定所述待识别应用为色情应用;
若所述待识别应用的预测值小于等于预设阀值,确定所述待识别应用为正常应用。
上述色情应用识别装置的其它技术特征与上述色情应用识别方法的技术特征相同,在此不予赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的色情应用识别方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明实施例还提供一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的色情应用识别方法。
图6为本发明服务器的结构示意图,包括处理器320、存储装置330、输入单元340以及显示单元350等器件。本领域技术人员可以理解,图6示出的结构器件并不构成对所有服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置330可用于存储应用程序310以及各功能模块,处理器320运行存储在存储装置330的应用程序310,从而执行设备的各种功能应用以及数据处理。存储装置330可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储装置包括但不限于这些类型的存储装置。本发明所公开的存储装置330只作为例子而非作为限定。
输入单元340用于接收信号的输入,以及接收用户输入的待识别应用。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置330内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,服务器包括一个或多个处理器320,以及一个或多个存储装置330,一个或多个应用程序310,其中所述一个或多个应用程序310被存储在存储装置330中并被配置为由所述一个或多个处理器320执行,所述一个或多个应用程序310配置用于执行以上实施例所述的色情应用识别方法。
上述的色情应用识别方法、装置、计算机可读存储介质和服务器,根据待识别应用的图片信息生成待识别应用的特征向量,将该待识别应用的特征向量输入色情应用识别模型中得到该待识别应用的预测值,进而根据该预测值与预设阈值的比较结果实现对该待识别应用是否为色情应用的自动准确判断,为清洁应用商店环境,打压不法应用开发商提供基础的数据支撑。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种色情应用识别方法,其特征在于,包括步骤:
获取待识别应用的图片信息;
基于所述图片信息生成所述待识别应用的特征向量;
将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系;
将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。
2.根据权利要求1所述的色情应用识别方法,其特征在于,所述色情应用识别模型通过以下步骤生成:
获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识;
对各个样本应用的图片信息进行灰度化以及压缩处理,得到各个样本应用的图片信息矩阵;
基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量;
将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型。
3.根据权利要求2所述的色情应用识别方法,其特征在于,所述基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量,包括:
对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
4.根据权利要求3所述的色情应用识别方法,其特征在于,所述对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量,包括:
按照矩阵行数从小到大的排列顺序,对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
5.根据权利要求2所述的色情应用识别方法,其特征在于,所述将各个样本应用的特征向量和各自的标识输入深层神经网络中进行训练,生成色情应用识别模型,包括:
通过预设算法求解预先构建的损失函数最小时深层神经网络的模型参数,基于求解的所述深层神经网络的模型参数得到色情应用识别模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述深层神经网络的模型参数和各个样本应用的特征向量有关的变量。
6.根据权利要求1至5任意一项所述的色情应用识别方法,其特征在于,所述预设阀值通过以下步骤生成:
获取各个样本色情应用的图片信息;
对各个样本色情应用的图片信息进行灰度化以及压缩处理,得到各个样本色情应用的图片信息矩阵;
基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
将各个样本色情应用的特征向量输入所述色情应用识别模型中,得到各个样本色情应用的预测值;
对各个样本色情应用的预测值求均值,得到色情应用的基线值;
将所述色情应用的基线值与预设值相乘,得到预设阀值。
7.根据权利要求1至5任意一项所述的色情应用识别方法,其特征在于,所述将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用,包括:
若所述待识别应用的预测值大于预设阀值,确定所述待识别应用为色情应用;
若所述待识别应用的预测值小于等于预设阀值,确定所述待识别应用为正常应用。
8.一种色情应用识别装置,其特征在于,包括:
图片信息获取模块,用于获取待识别应用的图片信息;
特征向量生成模块,用于基于所述图片信息生成所述待识别应用的特征向量;
预测值获得模块,用于将所述待识别应用的特征向量输入预先生成的色情应用识别模型中,得到所述待识别应用的预测值,其中,所述色情应用识别模型由各个样本应用训练深层神经网络生成,用于表征特征向量与预测值之间的关联关系;
识别模块,用于将所述待识别应用的预测值与预设阀值进行比较,根据比较结果确定所述待识别应用是否为色情应用。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述的色情应用识别方法。
10.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的色情应用识别方法。
CN201810333479.9A 2018-04-13 2018-04-13 色情应用识别方法、装置、计算机可读存储介质和服务器 Pending CN108509959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333479.9A CN108509959A (zh) 2018-04-13 2018-04-13 色情应用识别方法、装置、计算机可读存储介质和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333479.9A CN108509959A (zh) 2018-04-13 2018-04-13 色情应用识别方法、装置、计算机可读存储介质和服务器

Publications (1)

Publication Number Publication Date
CN108509959A true CN108509959A (zh) 2018-09-07

Family

ID=63382087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333479.9A Pending CN108509959A (zh) 2018-04-13 2018-04-13 色情应用识别方法、装置、计算机可读存储介质和服务器

Country Status (1)

Country Link
CN (1) CN108509959A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087300A (zh) * 2018-09-20 2018-12-25 视睿(杭州)信息科技有限公司 Led芯片支架故障自动检测方法和装置
CN110188790A (zh) * 2019-04-17 2019-08-30 阿里巴巴集团控股有限公司 图片样本的自动化生成方法和系统
CN111859370A (zh) * 2020-06-30 2020-10-30 百度在线网络技术(北京)有限公司 识别服务的方法、装置、电子设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989330A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 一种图片检测方法及设备
CN106951825A (zh) * 2017-02-13 2017-07-14 北京飞搜科技有限公司 一种人脸图像质量评估系统以及实现方法
CN106951848A (zh) * 2017-03-13 2017-07-14 平安科技(深圳)有限公司 图片识别的方法及系统
CN107169530A (zh) * 2017-06-09 2017-09-15 成都澳海川科技有限公司 图片的标注方法、装置及电子设备
CN107742117A (zh) * 2017-11-15 2018-02-27 北京工业大学 一种基于端到端模型的人脸表情识别方法
CN107895119A (zh) * 2017-12-28 2018-04-10 北京奇虎科技有限公司 程序安装包检测方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989330A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 一种图片检测方法及设备
CN106951825A (zh) * 2017-02-13 2017-07-14 北京飞搜科技有限公司 一种人脸图像质量评估系统以及实现方法
CN106951848A (zh) * 2017-03-13 2017-07-14 平安科技(深圳)有限公司 图片识别的方法及系统
CN107169530A (zh) * 2017-06-09 2017-09-15 成都澳海川科技有限公司 图片的标注方法、装置及电子设备
CN107742117A (zh) * 2017-11-15 2018-02-27 北京工业大学 一种基于端到端模型的人脸表情识别方法
CN107895119A (zh) * 2017-12-28 2018-04-10 北京奇虎科技有限公司 程序安装包检测方法、装置及电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087300A (zh) * 2018-09-20 2018-12-25 视睿(杭州)信息科技有限公司 Led芯片支架故障自动检测方法和装置
CN109087300B (zh) * 2018-09-20 2020-10-16 视睿(杭州)信息科技有限公司 Led芯片支架故障自动检测方法和装置
CN110188790A (zh) * 2019-04-17 2019-08-30 阿里巴巴集团控股有限公司 图片样本的自动化生成方法和系统
CN110188790B (zh) * 2019-04-17 2023-09-29 创新先进技术有限公司 图片样本的自动化生成方法和系统
CN111859370A (zh) * 2020-06-30 2020-10-30 百度在线网络技术(北京)有限公司 识别服务的方法、装置、电子设备和计算机可读存储介质
CN111859370B (zh) * 2020-06-30 2024-05-17 百度在线网络技术(北京)有限公司 识别服务的方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108197532B (zh) 人脸识别的方法、装置及计算机装置
CN108595585B (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
CN108399414B (zh) 应用于跨模态数据检索领域的样本选择方法及装置
CN107045503B (zh) 一种特征集确定的方法及装置
TWI772673B (zh) 行業識別模型確定方法和裝置
CN108875522A (zh) 人脸聚类方法、装置和系统及存储介质
KR20180091043A (ko) 사용자 포트레이트를 획득하는 방법 및 장치
CN109074642A (zh) 机器学习装置
CN108399386A (zh) 饼图中的信息提取方法及装置
CN106028134A (zh) 针对移动计算设备检测体育视频精彩部分
CN108154105A (zh) 水下生物检测与识别方法、装置、服务器及终端设备
CN108509959A (zh) 色情应用识别方法、装置、计算机可读存储介质和服务器
CN109902548A (zh) 一种对象属性识别方法、装置、计算设备及系统
JP2014511530A5 (zh)
CN109345553A (zh) 一种手掌及其关键点检测方法、装置和终端设备
CN108280455A (zh) 人体关键点检测方法和装置、电子设备、程序和介质
CN109241988A (zh) 特征提取方法和装置、电子设备、存储介质、程序产品
CN110264274A (zh) 客群划分方法、模型生成方法、装置、设备及存储介质
WO2022193753A1 (zh) 持续学习方法、装置、终端及存储介质
CN104504579B (zh) 一种信息审核方法和装置
CN115715385A (zh) 用于预测体育运动中的队形的系统和方法
CN107368820A (zh) 一种精细化手势识别方法、装置及设备
US20180143968A1 (en) System, method and non-transitory computer readable storage medium for conversation analysis
CN109614982A (zh) 产品分析方法、装置、计算机设备以及存储介质
CN108154153A (zh) 场景分析方法和系统、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200426

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510640 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180907

RJ01 Rejection of invention patent application after publication