CN108470027A

CN108470027A - 色情应用识别方法和装置、计算设备和存储介质

Info

Publication number: CN108470027A
Application number: CN201810295230.3A
Authority: CN
Inventors: 潘岸腾
Original assignee: Guangzhou Youshi Network Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-08-31

Abstract

本发明提供了一种基于机器学习的色情应用识别方法和装置、计算设备和存储介质。所述色情应用识别方法包括：从待识别的应用提取应用描述信息的切词特征；对所提取的切词特征进行独热编码，以得到独热编码特征；将所述独热编码特征输入到机器学习模型，以得到预测值；如果所述预测值大于预定值，则判断所述待识别的应用为色情应用，否则为非色情应用。本发明的技术方案，通过利用从包含色情应用和非色情应用的样本集提取的特征对机器学习训练决策模型进行训练，利用所得到的决策模型来识别应用是否为色情应用，确保了有效地区分色情应用和非色情应用，从而保护了用户的信息安全。

Description

色情应用识别方法和装置、计算设备和存储介质

技术领域

本发明涉及移动互联网安全技术领域，具体地涉及一种基于机器学习的色情应用识别方法和装置、计算设备和存储介质。

背景技术

随着移动互联网技术的迅速发展，智能移动终端存储着大量重要的用户信息，占据绝大多数市场份额的移动系统也就成为了色情信息传播的首选目标。2014年，AVL移动安全团队捕获色情应用超过10万个，其中恶意色情应用占此高达65％。近年来，此类应用数量呈现出爆发式增长。绝大多数的色情信息传播是通过移动恶意色情应用实施的。安全专家们在iOS和Android平台上同时发现了大量使用中文用户界面的色情应用程序，有些甚至可以App Store上找到。目前已经有大量的潜在有害应用程序(Potentially Unwanted Apps，PUA)正在通过色情网站、热门论坛及色情网站来进行传播。

这些色情应用以家族形式，连环作案，不断捆绑、推广其他恶意色情应用，以持续牟利。首先通过色情内容诱导用户付费；其次通过恶意安装推广一批应用来赚取额外收入；最后通过ROOT用户手机将自营后门植入用户手机底层，给用户推广各种应用来获利。为了打击这类应用的开发商，首先要做的是识别这类应用，因此急需一种有效地区分色情应用和非色情应用的应用识别方法。

发明内容

为了实现上述目的，本发明提供一种能够有效识别色情应用的基于机器学习的色情应用识别方法和装置、计算设备和存储介质。

根据本发明的第一方面，提供一种基于机器学习的色情应用识别方法。所述色情应用识别方法包括：从待识别的应用提取应用描述信息的切词特征；对所提取的切词特征进行独热编码，以得到独热编码特征；将所述独热编码特征输入到机器学习模型，以得到预测值；如果所述预测值大于预定值，则判断所述待识别的应用为色情应用，否则为非色情应用。

优选地，所述机器学习模型可以是由下式表达的逻辑回归模型：

其中，X表示所述独热编码特征，Y表示所述预测值，W表示与所述独热编码特征对应的权重，并且b表示常数。

优选地，在从待识别的应用提取应用描述信息的切词特征之前，所述色情应用识别方法还可以包括：

从包含色情应用样本和非色情应用样本的样本集提取样本值标记；

从所述样本集提取应用描述信息的样本切词特征；

对所述样本切词特征进行独热编码，以得到样本独热编码特征；

基于所提取的样本值标记和样本独热编码特征对逻辑回归模型进行训练，以确定逻辑回归模型的权重W和常数b。

优选地，所述预定值是可以通过如下来确定的：将所述样本集中的色情应用样本的独热编码特征输入到具有确定的权重W和常数b的逻辑回归模型，得到各个色情应用样本的输出值；计算所述各个色情应用样本的输出值的平均值，并取该平均值的二分之一作为所述预定值。

优选地，在对逻辑回归模型进行训练的过程中应用的损失函数可以被表达为：

其中，n表示所述样本集中的样本的数量，y_i表示所述样本集中的第i个样本的所述样本值标记的值，Y_i表示所述第i个样本的所述预测值，W表示与所述独热编码特征对应的权重，并且b表示常数。

根据本发明的第二方面，提供一种基于机器学习的色情应用识别装置。所述色情应用识别装置包括：切词特征提取模块，用于从待识别的应用提取应用描述信息的切词特征；独热编码模块，用于对所提取的切词特征进行独热编码，以得到独热编码特征；预测值计算模块，用于将所述独热编码特征输入到机器学习模型，以得到预测值；判断模块，用于如果所述预测值大于预定值，则判断所述待识别的应用为色情应用，否则为非色情应用。

优选地，所述色情应用识别装置还可以包括：

样本值标记提取模块，用于从包含色情应用样本和非色情应用样本的样本集提取样本值标记；

样本切词特征提取模块，用于从所述样本集提取应用描述信息的样本切词特征；

样本独热编码模块，用于对所述样本切词特征进行独热编码，以得到样本独热编码特征；

模型训练模块，用于基于所提取的样本值标记和样本独热编码特征对逻辑回归模型进行训练，以确定权重W和常数b。

优选地，所述预定值可以是通过如下来确定的：将所述样本集中的色情应用样本的独热编码特征输入到具有确定的权重W和常数b的逻辑回归模型，得到各个色情应用样本的输出值；计算所述各个色情应用样本的输出值的平均值，并取该平均值的二分之一作为所述预定值。

优选地，所述模型训练模块中应用的损失函数可以被表达为：

根据本发明的第三方面，提供一种计算设备。所述计算设备包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行上述的色情应用识别方法。

根据本发明的第四方面，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行上述的色情应用识别方法。

本发明的技术方案，通过利用从包含色情应用和非色情应用的样本集提取的特征对机器学习训练决策模型进行训练，利用所得到的决策模型来识别应用是否为色情应用，确保了有效地区分色情应用和非色情应用，从而保护了用户的信息安全。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1为根据本发明的示例性实施例的基于机器学习的色情应用识别方法的流程图。

图2为图1中所示的色情应用识别方法中的特征提取步骤的流程图。

图3为图2中所示的特征提取步骤中的样本特征提取步骤的流程图。

图4为图1中所示的色情应用识别方法中的决策模型训练步骤的流程图。

图5为图1中所示的色情应用识别方法中的应用识别步骤的流程图。

图6为根据本发明的示例性实施例的色情应用识别装置的框图。

图7为图6中所示的色情应用识别装置中的特征提取模块的框图。

图8为图7中所示的特征提取模块中的样本特征提取模块的框图。

图9为图6中所示的色情应用识别装置中的决策模型训练模块的框图。

图10为图6中所示的色情应用识别装置中的应用识别模块的框图。

图11示出了根据本发明的示例性实施例的可用于实现上述色情应用识别方法的数据处理的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

图1示出了根据本发明的示例性实施例的基于机器学习的色情应用识别方法的流程图。图2示出了图1中所示的色情应用识别方法中的特征提取步骤的流程图。图3示出了图2中所示的特征提取步骤中的样本特征提取步骤的流程图。图4示出了图1中所示的色情应用识别方法中的决策模型训练步骤的流程图。图5示出了图1中所示的色情应用识别方法中的应用识别步骤的流程图。

如图1所示，首先，根据本发明的示例性实施例的基于机器学习的色情应用识别方法执行特征提取步骤S1，即，从包含色情应用和非色情应用的样本集提取特征。具体地，该特征提取步骤S1可以包括样本值标记提取步骤S11和样本特征提取步骤S12。在样本值标记提取步骤S11中，从样本集中提取样本的样本值标记。在样本特征提取步骤S12中，从样本集中提取样本的特征。

具体地，在样本值标记提取步骤S11中，由运营人员随机抽取一批应用，通过应用简介、应用图标等信息通过经验判断是否为色情应用，把是色情应用作为正样本，样本值标记为1，不是色情应用作为负样本，样本值标记为0。样本特征提取步骤S12可以包括切词特征提取步骤S121和独热编码步骤S122。在切词特征提取步骤S121中，提取样本的应用描述信息的切词特征。在独热编码步骤S122中，对所提取的切词特征进行独热编码。

设有一个应用A，提取应用A的特征方法如下：

第一步，提取手机应用描述信息的切词特征。设某一篇手机应用i，提取手机应用i的切词特征，即，对手机应用i的内容进行分词：

tf＝{w1，w2，w3，...}

例如，“打字最精准、界面最个性化的输入法”语句的分词结果为：

tf＝{打字，精准，界面，个性化，输入法}

第二步，对切词特征进行独热编码(One-Hot Encoding)。首先对全库应用的应用描述进行切词，记全库切词的集合为T，给每个词按在集合的排列顺序作为编号，假设集合T有n个元素，那么所有词的序号在1到n之间。初始化一个n维向量X，对于应用A切词对应的序号位为1，其余位为0。

例如，应用A的应用描述信息为“打字最精准、界面最个性化的输入法”，切词为：

tf_i＝{打字，精准，界面，个性化，输入法}

“打字”对应序号为1，“精准”对应序号为3，“界面”对应序号为4，“个性化”对应序号为5，“输入法”对应序号为6。那么独热编码为：

X＝(1，0，1，1，1，1，0，0，...，0)

然后，所述色情应用识别方法执行决策模型训练步骤S2，即，基于所提取的特征对机器学习模型进行训练。

这里，机器学习模型可以是逻辑回归模型。优选地，所述逻辑回归模型可以被表达为：

其中，X表示样本的独热编码特征，Y表示预测样本是否色情应用的输出值，W表示与不同的独热编码特征对应的权重，并且b表示常数。

这里，在决策模型训练步骤中应用的损失函数可以被表达为：

其中，n表示样本集中的样本的数量，y_i表示样本集中的第i个样本的所述样本值标记的值，Y_i表示预测第i个样本是否色情应用的输出值，W表示与不同的独热编码特征对应的权重，并且b表示常数。

决策模型训练步骤S2可以包括：模型求解步骤S21，通过梯度下降法求损失函数的最小值来得到逻辑回归模型的最优解W和b(换而言之，通过梯度下降法求解损失函数los最小时对应解W和b，即为需要求解的模型参数)；基线值计算步骤S22，将样本集中的各个色情样本的特征向量输入到逻辑回归模型，得到各个色情样本的输出值，并计算它们的平均值作为色情应用的基线值。

具体地，模型求解步骤S21中采用的梯度下降法如下：

第1步：把模型所有参数统一记到一个集合，不妨记为θ＝{θ_i}，随机给定一组在0-1之间，设为θ⁽⁰⁾，初始化迭代步数k＝0；

第2步：迭代计算

其中ρ用于控制收敛速度，取0.01；

第3步：判断是否收敛

如果那么就返回θ^(k+1)，否则回到第2步继续计算，其中α是一个很小的值，可以取α＝0.01·ρ。

基线值计算步骤S22是通过把所有正样本的特征输入到所得到的模型并然后计算均值作为色情应用的基线值来执行的：

最后，所述色情应用识别方法执行应用识别步骤S3，即，利用所得到的决策模型来识别应用是否为色情应用。所述应用识别步骤S3可以包括：预测值计算步骤S31，从待识别的应用提取应用特征，并将提取的应用特征输入到所得到的决策模型，得到待识别的应用的预测值；判断步骤S32，如果所述预测值大于所述，则判断所述待识别的应用为色情应用，否则为非色情应用。

具体地，设给定一个应用A，通过前面介绍的方法提取应用A的模型输入特征，然后把所提取的特征输入到所得到的决策模型，得到预测值Y。如果预测值Y大于0.5＊base(基线值的二分之一)，那么就判断该应用A为色情应用，否则判断它为非色情应用。

本发明的色情应用识别方法，通过利用从包含色情应用和非色情应用的样本集提取的特征对机器学习模型进行训练，得到决策模型，然后利用所得到的决策模型来识别应用是否为色情应用，确保了有效地区分色情应用和非色情应用，从而保护了用户的信息安全。

另外，本发明还提供一种用于实现上述色情应用识别方法的色情应用识别装置100。图6示出了根据本发明的示例性实施例的色情应用识别装置的框图。如图6所示，色情应用识别装置100包括特征提取模块101、决策模型训练模块102和应用识别模块103。特征提取模块101用于从包含色情应用和非色情应用的样本集提取特征。决策模型训练模块102用于基于所提取的特征对机器学习训练决策模型进行训练，以得到决策模型。应用识别模块103用于利用所得到的决策模型来识别应用是否为色情应用。

图7示出了图6中所示的色情应用识别装置100中的特征提取模块101的框图。如图7所示，特征提取模块101可以包括样本值标记提取模块1011和样本特征提取模块1012。样本值标记提取模块1011用于从所述样本集中提取样本的样本值标记。样本特征提取模块1012用于从所述样本集中提取样本的特征。图8示出了图7中所示的特征提取模块101中的样本特征提取模块1012的框图。如图8所示，样本特征提取模块1012可以包括切词特征提取模块1012A和独热编码模块1012B。切词特征提取模块1012A用于提取样本的应用描述信息的切词特征。独热编码模块1012B用于对所提取的切词特征进行独热编码。

图9示出了图6中所示的色情应用识别装置100中的决策模型训练模块102的框图。如图9所示，决策模型训练模块102可以包括模型求解模块1021和基线值计算模块1022。模型求解模块1021用于通过梯度下降法求损失函数的最小值来得到逻辑回归模型的最优解。基线值计算模块1022用于将样本集中的色情样本的特征向量输入所得到的逻辑回归模型，并计算均值作为色情应用的基线值。

图10示出了图6中所示的色情应用识别装置100中的应用识别模块103的框图。如图10所示，应用识别模块103可以包括预测值计算模块1031和判断模块1032。预测值计算模块1031用于从待识别的应用提取应用特征，并将提取的应用特征输入到所得到的决策模型，得到待识别的应用的预测值。判断模块1032用于如果所述预测值大于所述基线值的二分之一，则判断所述待识别的应用为色情应用，否则判断为非色情应用。

图11示出了根据本发明示例性实施例的可用于实现上述色情应用识别方法的数据处理的计算设备的结构示意图。

参见图10，计算设备1000包括存储器1010和处理器1020。

处理器1020可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1020可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1020可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可处理代码，当可处理代码被处理器1020处理时，可以使处理器1020执行上文述及的基于机器学习的色情应用识别方法。

上文中已经参考附图详细描述了根据本发明的基于机器学习的色情应用识别方法和装置。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于机器学习的色情应用识别方法，其特征在于，所述色情应用识别方法包括：

从待识别的应用提取应用描述信息的切词特征；

对所提取的切词特征进行独热编码，以得到独热编码特征；

将所述独热编码特征输入到机器学习模型，以得到预测值；

如果所述预测值大于预定值，则判断所述待识别的应用为色情应用，否则为非色情应用。

2.根据权利要求1所述的色情应用识别方法，其特征在于，所述机器学习模型是由下式表达的逻辑回归模型：

3.根据权利要求2所述的色情应用识别方法，其特征在于，在从待识别的应用提取应用描述信息的切词特征之前，所述色情应用识别方法还包括：

从所述样本集提取应用描述信息的样本切词特征；

4.根据权利要求3所述的色情应用识别方法，其特征在于，所述预定值是通过如下来确定的：

将所述样本集中的色情应用样本的独热编码特征输入到具有确定的权重W和常数b的逻辑回归模型，得到各个色情应用样本的输出值；

计算所述各个色情应用样本的输出值的平均值，并取该平均值的二分之一作为所述预定值。

5.根据权利要求3所述的色情应用识别方法，其特征在于，在对逻辑回归模型进行训练的过程中应用的损失函数被表达为：

6.一种基于机器学习的色情应用识别装置，其特征在于，所述色情应用识别装置包括：

切词特征提取模块，用于从待识别的应用提取应用描述信息的切词特征；

独热编码模块，用于对所提取的切词特征进行独热编码，以得到独热编码特征；

预测值计算模块，用于将所述独热编码特征输入到机器学习模型，以得到预测值；

判断模块，用于如果所述预测值大于预定值，则判断所述待识别的应用为色情应用，否则为非色情应用。

7.根据权利要求6所述的色情应用识别装置，其特征在于，所述机器学习模型是由下式表达的逻辑回归模型：

8.根据权利要求7所述的色情应用识别装置，其特征在于，所述色情应用识别装置还包括：

9.根据权利要求8所述的色情应用识别装置，其特征在于，所述预定值是通过如下来确定的：

10.根据权利要求9所述的色情应用识别装置，其特征在于，所述模型训练模块中应用的损失函数被表达为：

11.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至5中任何一项所述的方法。

12.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至5中任一项所述的方法。