CN114117423A

CN114117423A - 仿冒应用信息获取方法、装置和设备

Info

Publication number: CN114117423A
Application number: CN202111086957.9A
Authority: CN
Inventors: 杨鹏迪; 张园超; 高嵩; 余锋; 柳寒
Original assignee: Zhejiang eCommerce Bank Co Ltd
Current assignee: Zhejiang eCommerce Bank Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-03-01

Abstract

本说明书实施例公开了一种仿冒应用信息获取方法、装置和设备，所述方法可以基于与应用下载相关的预设关键字从全网爬取目标网页；基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道，得到多个渠道识别结果；基于第一结合策略对所述多个渠道识别结果进行结合，并基于结合结果确定所述目标网页对应的网站是否属于应用下载渠道；当所述目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果；基于第二结合策略对所述多个信息识别结果进行结合，得到所述正版应用的仿冒信息。

Description

仿冒应用信息获取方法、装置和设备

技术领域

本文件涉及计算机技术领域，尤其涉及一种仿冒应用信息获取方法、装置和设备。

背景技术

为了使用户更加便捷地获得相关服务、办理相关业务，企业、银行、学校、医院等机构开发了相应的应用(Application，APP)并发布到应用市场，供用户下载使用。竞争对手、黑产等不法分子为了不正当利益经常会仿冒官方的正版应用进行欺诈、钓鱼攻击和导流，这不但会给用户造成损失，还会给正版应用背后的机构带来负面影响。

然而，当前的仿冒应用监控方案，仅能定向监控有限的几个下载渠道内的仿冒应用信息，存在监控盲区，检测出的仿冒应用信息不够全面。

发明内容

本说明书实施例提供了一种仿冒应用信息获取方法、装置和设备，以解决当前的仿冒APP监控方案存在监控盲区，检测出的仿冒APP信息不够全面的问题。

为解决上述技术问题，本说明书实施例是这样实现的：

第一方面，提出了一种仿冒应用信息获取方法，包括：

基于预设关键字从全网爬取目标网页，所述预设关键字是与应用下载相关的关键字；

基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道，得到多个渠道识别结果；

基于第一结合策略对所述多个渠道识别结果进行结合，并基于结合结果确定所述目标网页对应的网站是否属于应用下载渠道；

当所述目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别所述目标网页中包含的仿冒官方应用的信息，得到多个信息识别结果；

基于第二结合策略对所述多个信息识别结果进行结合，得到所述官方应用的仿冒信息。

第二方面，提出了一种仿冒应用信息获取装置，包括：

网页爬取模块，用于基于预设关键字从全网爬取目标网页，所述预设关键字是与应用下载相关的关键字；

渠道识别模块，用于基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道，得到多个渠道识别结果；

渠道确定模块，用于基于第一结合策略对所述多个渠道识别结果进行结合，并基于结合结果确定所述目标网页对应的网站是否属于应用下载渠道；

信息识别模块，用于当所述目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果；

信息确定模块，用于基于第二结合策略对所述多个信息识别结果进行结合，得到所述正版应用的仿冒信息。

第三方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

本说明书实施例提供的以上至少一个技术方案，由于可以基于与应用下载相关的关键字从全网爬取背后的网站可能是应用下载渠道的目标网页，然后基于多个渠道识别模型综合识别目标网页对应的网站是否属于应用下载渠道，并在识别出目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别目标网页中包含的仿冒应用信息，因此，可以动态扩展应用下载渠道，进而能够避免出现仿冒应用的监控盲区，并且能够检测出更加全面的仿冒应用信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本说明书一个实施例提供的一种仿冒应用信息获取方法的流程示意图。

图2是本说明书一个实施例提供的下载渠道识别的原理示意图。

图3是本说明书另一实施例提供的下载渠道识别的原理示意图。

图4是本说明书一个实施例提供的仿冒应用信息识别的原理示意图。

图5是本说明书一个实施例提供的一种仿冒应用信息获取方法的流程示意图。

图6是本说明书一个实施例提供的一种电子设备的结构示意图。

图7是本说明书一个实施例提供的一种仿冒应用信息获取装置的结构示意图。

图8是本说明书另一实施例提供的一种仿冒应用信息获取装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

本说明书实施例提供一种仿冒应用信息获取方法和装置，可以由电子设备执行，或者由安装在电子设备中的软件或硬件设备执行。这里的电子设备包括但不限于终端设备或服务器，其中，终端设备包括但不限于：智能手机、个人电脑(personalcomputer，PC)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种；其中，服务器可以是保险公司的后台服务端设备，该服务器包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

在实际应用中，可以周期性地或按照预设时间间隔实施本申请实施例提供的一种仿冒应用信息识别方法，以持续地检测关于某一官方应用的仿冒信息(也可称为仿冒情报)。

下面先对本说明书实施例提供的一种仿冒应用信息获取方法进行说明。

如图1所示，本说明书的一个实施例提供了一种仿冒应用信息获取方法，可以包括：

步骤102、基于预设关键字从全网爬取目标网页，所述预设关键字是与应用下载相关的关键字。

与应用下载相关的关键字是指出于下载应用的目的而输入的关键字，比如，应用商城、应用市场、应用下载等。

在实际应用中，可以利用网络爬虫基于预设关键字从全网爬取目标网页。可选的，由于无界面浏览技术支持高度定制化的网页操作，因此，可采用无界面浏览技术基于预设关键字从全网爬取目标网页，例如，采用Headless基于预设关键字从全网爬取目标网页。

可选地，一些网站为了防止其页面内容被爬取，可能设置了反爬虫检测，在这种情况下，本说明书实施例提供的方法可采用对抗反爬虫检测的技术，实现目标网页的爬取。

可以理解，基于预设关键字从全网爬取的目标网页的数量可以很多，在实际操作中，可以对所爬取的全部目标网页执行后续步骤，也可以选择一部分目标网页执行后续步骤。

步骤104、基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道，得到多个渠道识别结果。

上述多个渠道识别模型可以包括两个或两个以上的渠道识别模型。渠道识别模型用于基于网页中包含的内容识别该网页对应的网站是否属于应用下载渠道，其中，识别时所采用的网页的内容可以包括但不限于网页中的文本和图像中的至少一种。渠道识别模型可以是预先基于样本网页训练得到的，该训练可以是有监督的也可以是无监督的。

为了基于目标网页中包含的内容识别目标网页对应的网站是否属于应用下载渠道，可选地，在步骤104之前，图1所示的方法还可以包括：获取目标网页包含的内容。

步骤106、基于第一结合策略对所述多个渠道识别结果进行结合，并基于结合结果确定所述目标网页对应的网站是否属于应用下载渠道。

下面示例性地介绍获取目标网页包含的内容、上述步骤104以上述步骤106的两种可能的实施方式。

第一种实施方式

获取目标网页包含的内容，可包括：直接读取目标网页中包含的文本，得到第一文本，例如，直接将目标网页中的文字内容保存成文本；将目标网页转成图像，对所述图像进行文本识别，得到第二文本。其中，将目标网页转成图像可包括：对目标网页进行截图，以将目标网页转成图像。如图2所示和图3所示，在爬取目标网页20后，可从目标网页20中直接读取第一文本211，也可先将目标网页转换为图像221，然后利用光学字符识别(OpticalCharacter Recognition,OCR)222对目标网页的图像221进行文字识别，得到第二文本223。

可以理解，为了抵抗网络爬虫，一些发布仿冒应用的网站会对网络爬虫爬取的内容进行混淆，使得网络爬虫爬取的内容与网页上显示的内容不一致，这无疑会导致爬取的网页失真，为了避免该问题，本说明书实施例利用两种方式获取目标网页中包含的文本，第一种是直接从目标网页中读取，另一种是先将目标网页转化成图像，再从图像中进行识别。由于将目标网页先转化成图像能保证目标网页中包含的内容不失真，因此先将目标网页转化成图像，再从图像中识别得到目标网页包含的文本更可靠。

继续参考图2可知，上述多个渠道识别模型可以包括第一渠道识别模型213和第二渠道识别模型225，相应的，上述步骤104可包括：从第一文本211中提取至少一个第一关键字212，将所述至少一个第一关键字212输入第一渠道识别模型213，得到目标网页20对应的网站是否属于应用下载渠道的第一渠道识别结果214；以及，从第二文本223中提取至少一个第二关键字224，将所述至少一个第二关键字224输入第二渠道识别模型225，得到目标网页20对应的网站是否属于应用下载渠道的第二渠道识别结果226。

其中，所述第一关键字是与应用相关的关键字，且所述第二关键字是与应用相关的关键字，例如，第一关键字和第二关键字可以是目标网页中显示的诸如应用大小、应用平台、应用等级、应用厂商、应用语言、更新时间和应用官网等描述应用的相关文字。

相应的，步骤106可包括：按照第一结合策略对第一渠道识别结果214和第二渠道识别模型225进行结合，得到结合结果24。

在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型(弱监督模型，在某些方面表现的比较好)。集成学习(Ensemble Learning)就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。

鉴于集成学习的上述表现，在本说明书实施例中，也可采用预设集成学习框架得到上述多个渠道识别模型，具体的，在该实施方式中，可采用预设集成学习框架学习得到上述第一渠道识别模型和上述第二渠道识别模型。

集成学习的一般结构为：先产生一组“个体模型”，再用某种策略将它们结合起来。集成学习中包含的同种类型的个体模型，称为同质，当中的个体模型亦称为“基模型”，相应的算法称为“基学习算法”。集成中包含不同类型的个体模型，称为“异质”，当中的个体模型称为“组建模型”。在本实施方式中，第一渠道识别模型和第二渠道识别模型为同类型的个体模型，因此可以分别称之为基模型。也即，所述第一渠道识别模型和所述第二渠道识别模型是预设集成学习框架下的两个基模型，所述第一渠道识别模型和所述第二渠道识别模型是基于所述预设集成学习框架学习得到的，相应的，所述第一结合策略为所述预设集成学习框架的结合策略。

作为一个例子，上述预设集成学习框架可以是Bagging框架。当然，还可以是其他集成学习框架，本说明书实施例不做特别限制。

作为一个例子，上述预设集成学习框架的基学习算法可以是一种用于信息检索与数据挖掘的常用加权技术(term frequency–inverse document frequency，TF-IDF)，也即，所述第一渠道识别模型和所述第二渠道识别模型可以是基于TF-IDF学习得到的。

作为一个例子，上述第一结合策略可以包括但不限于平均法、投票法、最大值法，等等。例如，如果上述第一结合策略为平均法，且上述第一渠道识别结果和上述第二渠道识别结果为目标网页对应的网站属于应用下载渠道的概率，那么二者的结合结果即为平均概率。相应的，在步骤106中，可在该平均概率超过预设阈值(如90％)时，确定目标网页对应的网站属于应用下载渠道。

第二种实施方式

获取目标网页包含的内容，除了包括：直接读取目标网页中包含的文本，得到第一文本，将目标网页转成图像，对所述图像进行文本识别，得到第二文本，还可以包括：读取获取目标网页中包含的至少一张图片，以供渠道识别和仿冒信息识别时使用。如图3所示，在爬取目标网页20后，除了可从目标网页20中直接读取第一文本211，以及利用OCR 222对目标网页的图像221进行文字识别得到第二文本223，还可以直接读取目标网页20中包含的至少一张图片。

同样可以理解，为了抵抗网络爬虫，一些发布仿冒应用的网站会对网络爬虫爬取的内容进行混淆，使得网络爬虫爬取的内容与网页上显示的内容不一致，这无疑会导致爬取的网页失真，为了避免该问题，本说明书实施例利用两种方式获取目标网页中包含的文本，第一种是直接从目标网页中读取，另一种是先将目标网页转化成图像，再从图像中进行识别。

继续参考图3可知，上述多个渠道识别模型可以包括第一渠道识别模型213、第二渠道识别模型225和第三渠道识别模型232，相应的，上述步骤104可包括：从第一文本211中提取至少一个第一关键字212，将所述至少一个第一关键字212输入第一渠道识别模型213，得到目标网页20对应的网站是否属于应用下载渠道的第一渠道识别结果214；从第二文本223中提取至少一个第二关键字224，将所述至少一个第二关键字224输入第二渠道识别模型225，得到目标网页20对应的网站是否属于应用下载渠道的第二渠道识别结果226；以及，将所述至少一张图片231输入第三渠道识别模型232，得到目标网页20对应的网站是否属于应用下载渠道的第三渠道识别结果233。

相应的，步骤106可包括：按照第一结合策略对第一渠道识别结果214、第二渠道识别模型225和第三渠道识别结果233进行结合，得到结合结果24。

在本说明书实施例中，也可采用预设集成学习框架得到上述多个渠道识别模型，具体的，在该实施方式中，可采用预设集成学习框架学习得到上述第一渠道识别模型、上述第二渠道识别模型和上述第三渠道识别模型。也即，上述第一渠道识别模型、上述第二渠道识别模型和上述第三渠道识别模型是预设集成学习框架下的三个基模型，上述第一渠道识别模型、上述第二渠道识别模型和上述第三渠道识别模型是基于所述预设集成学习框架学习得到的，相应的，所述第一结合策略为所述预设集成学习框架的结合策略。

作为一个例子，上述预设集成学习框架的基学习算法可以是TF-IDF，也即，所述第一渠道识别模型和所述第二渠道识别模型可以是基于TF-IDF学习得到的。

作为一个例子，上述第一结合策略可以包括但不限于平均法、投票法、最大值法，等等。例如，如果上述第一结合策略为平均法，且上述第一渠道识别结果、上述第二渠道识别结果和上述第三渠道识别结果为目标网页对应的网站属于应用下载渠道的概率，那么三者的结合结果即为平均概率。相应的，在步骤106中，可在该平均概率超过预设阈值(如90％)时，确定目标网页对应的网站属于应用下载渠道。

需要说明的是，当步骤106判断的结果为目标网页对应的网站属于应用下载渠道时，执行下述步骤108，当步骤106判断的结果为目标网页对应的网站不属于应用下载渠道时，则在时间到达时(如下一周期开始时)返回执行上述步骤102。

步骤108、当所述目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果。

上述多种信息识别方式可以包括两种或两种以上的信息识别方式。这些信息识别方式用于识别网页中包含的仿冒应用信息，其大致的思路为，先构建正版应用的规则库，正版应用的规则库中包含正版应用的相关关键字和图标(logo)等样本规则，然后检测目标网页中与这些规则匹配的相关信息，作为该网页中仿冒应用信息的识别结果。

具体的，可先获取指定关键字和指定图像并保存至规则库，其中，指定关键字是所述正版应用的相关关键字，例如，指定关键字可包括但不限于描述正版应用的业务的关键字和描述正版应用所属机构的其他业务的关键字，如正版APP名称、正版APP背后的公司的相关产品的名称、正版APP包名等；指定图像是所述正版应用的相关图像，例如，指定图像可包括但不限于正版应用的图标(logo)和正版应用所属机构的其他应用的图标(logo)，等等。

可选的，还可以将正版应用的SHA256证书指纹等能唯一识别正版应用的标识保存至规则库中，以在后续研判一个应用是否为正版应用的仿冒应用时使用。

在此基础上，上述多种信息识别方式具体可包括下述三种识别方式中的至少两种。

第一种信息识别方式，如图4所示，在读取目标网页20中的文本，得到第一文本211后，可进行指定关键字检测251，具体的，可检测第一文本211中与上述指定关键字匹配的关键字信息，得到第一信息识别结果252。其中，与上述指定关键字匹配的关键字信息包括与指定关键字相同或相似的关键字信息。

第二种信息识别方式，如图4所示，在将目标网页20转化为图像221，并基于OCR222对图像221进行识别得到第二文本223后，也可进行指定关键字检测261，具体的，可检测第二文本223中与上述指定关键字匹配的关键字信息，得到第二信息识别结果262。其中，与上述指定关键字匹配的关键字信息包括与指定关键字相同或相似的关键字信息。

第三种信息识别方式，如图4所示，在将目标网页20转化为图像221后，可进行指定图像检测271，具体的，可检测目标网页转成的图像221中与指定图像匹配的图像信息，得到第三信息识别结果。其中，图像221中与指定图像匹配的图像信息包括图像221中包含的与指定图像相同或相似的图像信息。

可以理解，上述第一种信息识别方式和上述第二种信息识别方式意在目标网页中找出仿冒正版应用的相关文字信息，而上述第三种信息识别方式意在目标网页中找出仿冒正版应用的logo等图像信息。

需要说明的是，在上述第三种信息识别方式中，检测目标网页转成的图像中与指定图像匹配的图像信息的方式可以有很多种，本文不做限制。例如，可以采用图像金字塔的方式来检测，该方式具体可包括：构建所述目标网页所转图像的图像金字塔，得到第一图像金字塔；构建所述指定图像的图像金字塔，得到第二图像金字塔，所述第二图像金字塔的顶层的像素点数量为一；遍历所述第一图像金字塔中的像素，寻找所述第一图像金字塔中与所述第二图像金字塔中的像素点最接近的像素点；对寻找出来的像素点进行聚类，确定包含的像素点数量最多的目标类；将目标类中的像素点构成的图像信息，确定为所述目标网页所转图像中与所述指定图像匹配的图像信息。其中，聚类时所采用的聚类算法可以包括但不限于KNN(K-NearestNeighbor)和基于密度的聚类算法(Density-Based SpatialClustering of Applications with Noise，DBSCAN)的一种。

步骤110、基于第二结合策略对所述多个信息识别结果进行结合，得到所述正版应用的仿冒信息。

第二节结合策略可以包括组合、去重后再组合等策略。例如，可以将上述第一信息识别结果、第二信息识别结果和第三信息识别结果直接组合得到正版应用的仿冒信息，也可以将这三个结果中的重复信息删除之后，再组合得到正版应用的仿冒信息。

正版应用的仿冒信息可以包括仿冒应用名称、仿冒应用包、仿冒应用图标、仿冒应用证书指纹、仿冒应用指纹、仿冒应用包名和仿冒应用相关描述信息，等等。

本说明书实施例提供的一种仿冒应用信息获取方法，由于可以基于与应用下载相关的关键字从全网爬取背后的网站可能是应用下载渠道的目标网页，然后基于多个渠道识别模型综合识别目标网页对应的网站是否属于应用下载渠道，并在识别出目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别目标网页中包含的仿冒应用信息，因此，可以动态扩展应用下载渠道，进而能够避免出现仿冒应用的监控盲区，并且能够检测出更加全面的仿冒应用信息。

可选的，如图5所示，本说明实施例提供的仿冒应用信息获取方法，还可以包括：

步骤112、基于所述仿冒信息和所述正版应用的证书指纹确定是否存在所述正版应用的仿冒应用。

具体的，可以基于所述仿冒信息确定仿冒应用的证书指纹，然后比对仿冒应用的证书指纹与正版应用的证书指纹(如规则库中存储的SHA256证书指纹)是否一致，若不一致，说明存在仿冒应用，若一致，说明不存在仿冒应用。

不难理解，本说明实施例提供的仿冒应用信息获取方法，还可最终研判出是否存在正版应用的仿冒应用。

以上对本说明书提供的方法进行了说明，下面对本说明书提供的电子设备进行介绍。

图6是本说明书的一个实施例提供的电子设备的结构示意图。请参考图6，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成仿冒应用信息获取装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

当所述目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果；

基于第二结合策略对所述多个信息识别结果进行结合，得到所述正版应用的仿冒信息。

上述如本说明书图1所示实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1所示的实施例提供的方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

下面对本说明书提供的装置进行说明。

如图7所示，本说明书的一个实施例提供了一种仿冒应用信息获取装置700，在一种软件实施方式中，装置700可包括：网页爬取模块701、渠道识别模块702、渠道确定模块703、信息识别模块704和信息确定模块705。

网页爬取模块701，用于基于预设关键字从全网爬取目标网页，所述预设关键字是与应用下载相关的关键字。

具体的，网页爬取模块701，可用于利用网络爬虫基于预设关键字从全网爬取目标网页。

渠道识别模块702，用于基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道，得到多个渠道识别结果。

上述多个渠道识别模型可以包括两个或两个以上的渠道识别模型。渠道识别模型用于基于网页中包含的内容识别该网页对应的网站是否属于应用下载渠道，其中，识别时所采用的网页的内容可以包括但不限于网页中的文本和图像中的至少一种。

为了基于目标网页中包含的内容识别目标网页对应的网站是否属于应用下载渠道，可选地，图7所示的装置还可以包括：内容获取模块，用于获取目标网页包含的内容。

渠道确定模块703，用于基于第一结合策略对所述多个渠道识别结果进行结合，并基于结合结果确定所述目标网页对应的网站是否属于应用下载渠道。

第一种实施方式

所述内容获取模块，可用于读取所述目标网页中的文本，得到第一文本；将所述目标网页转成图像，对所述图像进行文本识别，得到第二文本。

所述渠道识别模块702，用于从所述第一文本中提取至少一个第一关键字，所述第一关键字是与应用相关的关键字；将所述至少一个第一关键字输入所述第一渠道识别模型，得到所述目标网页对应的网站是否属于应用下载渠道的第一渠道识别结果；从所述第二文本中提取至少一个第二关键字，所述第二关键字是与应用相关的关键字；将所述至少一个第二关键字输入所述第二渠道识别模型，得到所述目标网页对应的网站是否属于应用下载渠道的第二渠道识别结果。

所述渠道确定模块703，用于基于第一结合策略对第一渠道识别结果和第二渠道识别结果进行结合，并基于结合结果确定所述目标网页对应的网站是否属于应用下载渠道。

第二种实施方式

所述内容获取模块，除了可用于读取所述目标网页中的文本，得到第一文本；将所述目标网页转成图像，对所述图像进行文本识别，得到第二文本，还可用于从目标网页中读取至少一张图片。

所述渠道识别模块702，用于从所述第一文本中提取至少一个第一关键字，所述第一关键字是与应用相关的关键字；将所述至少一个第一关键字输入所述第一渠道识别模型，得到所述目标网页对应的网站是否属于应用下载渠道的第一渠道识别结果；从所述第二文本中提取至少一个第二关键字，所述第二关键字是与应用相关的关键字；将所述至少一个第二关键字输入所述第二渠道识别模型，得到所述目标网页对应的网站是否属于应用下载渠道的第二渠道识别结果；以及，将所述至少一张图片输入第三渠道识别模型，得到目标网页对应的网站是否属于应用下载渠道的第三渠道识别结果。

所述渠道确定模块703，具体可用于按照第一结合策略对第一渠道识别结果、第二渠道识别模型和第三渠道识别结果进行结合，得到结合结果。

信息识别模块704，用于当所述目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果。

作为一个例子，信息识别模块704，具体可用于基于下述三种识别方式中的至少两种识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果。

第一种信息识别方式，在读取目标网页中的文本，得到第一文本后，可进行指定关键字检测，具体的，可检测第一文本中与上述指定关键字匹配的关键字信息，得到第一信息识别结果。其中，与上述指定关键字匹配的关键字信息包括与指定关键字相同或相似的关键字信息。

第二种信息识别方式，在将目标网页转化为图像，并基于OCR识别得到第二文本后，也可进行指定关键字检测，具体的，可检测第二文本中与上述指定关键字匹配的关键字信息，得到第二信息识别结果。其中，与上述指定关键字匹配的关键字信息包括与指定关键字相同或相似的关键字信息。

第三种信息识别方式，在将目标网页转化为图像后，可进行指定图像检测，具体的，可检测目标网页转成的图像中与指定图像匹配的图像信息，得到第三信息识别结果。其中，图像中与指定图像匹配的图像信息包括图像中包含的与指定图像相同或相似的图像信息。

信息确定模块705，用于基于第二结合策略对所述多个信息识别结果进行结合，得到所述正版应用的仿冒信息。

第二节结合策略可以包括组合、去重后再组合等策略。

本说明书实施例提供的一种仿冒应用信息获取装置，由于可以基于与应用下载相关的关键字从全网爬取背后的网站可能是应用下载渠道的目标网页，然后基于多个渠道识别模型综合识别目标网页对应的网站是否属于应用下载渠道，并在识别出目标网页对应的网站属于应用下载渠道时，基于多种信息识别方式识别目标网页中包含的仿冒应用信息，因此，可以动态扩展应用下载渠道，进而能够避免出现仿冒应用的监控盲区，并且能够检测出更加全面的仿冒应用信息。

需要说明的是，仿冒应用信息获取装置700能够实现图1的方法，并能取得相同的技术效果，详细内容可参考图1所示的方法，不再赘述。

可选的，如图8所示，本说明书实施例提供的仿冒应用信息获取装置，还可以包括：仿冒应用确定模块706，用于基于所述仿冒信息和所述正版应用的证书指纹确定是否存在所述正版应用的仿冒应用。

不难理解，本说明书实施例提供的仿冒应用信息获取装置，还可最终研判出是否存在正版应用的仿冒应用。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种仿冒应用信息获取方法，包括：

2.根据权利要求1所述的方法，所述基于预设关键字从全网爬取目标网页，包括：

通过无界面浏览技术基于预设关键字从全网爬取目标网页。

3.根据权利要求1所述的方法，在所述基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道前，所述方法还包括：

读取所述目标网页中的文本，得到第一文本；

将所述目标网页转成图像，对所述图像进行文本识别，得到第二文本。

4.根据权利要求3所述的方法，其中，所述多个渠道识别模型包括第一渠道识别模型和第二渠道识别模型，所述基于多个渠道识别模型和所述目标网页包含的内容，识别所述目标网页对应的网站是否属于应用下载渠道，得到多个渠道识别结果，包括：

从所述第一文本中提取至少一个第一关键字，所述第一关键字是与应用相关的关键字；

将所述至少一个第一关键字输入所述第一渠道识别模型，得到所述目标网页对应的网站是否属于应用下载渠道的第一渠道识别结果；

从所述第二文本中提取至少一个第二关键字，所述第二关键字是与应用相关的关键字；

将所述至少一个第二关键字输入所述第二渠道识别模型，得到所述目标网页对应的网站是否属于应用下载渠道的第二渠道识别结果。

5.根据权利要求4所述的方法，

所述第一渠道识别模型和所述第二渠道识别模型是预设集成学习框架下的两个基模型，所述第一渠道识别模型和所述第二渠道识别模型是基于所述预设集成学习框架学习得到的，所述第一结合策略为所述预设集成学习框架的结合策略。

6.根据权利要求4或5所述的方法，

所述第一渠道识别模型和所述第二渠道识别模型是基于用于信息检索与数据挖掘的常用加权技术TF-IDF学习得到的。

7.根据权利要求3所述的方法，其中，所述基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果，包括：

检测所述第一文本中与指定关键字匹配的关键字信息，得到第一信息识别结果，其中，所述指定关键字是所述正版应用的相关关键字；

检测所述第二文本中与所述指定关键字匹配的关键字信息，得到第二信息识别结果；

检测所述目标网页转成的图像中与指定图像匹配的图像信息，得到第三信息识别结果，其中，所述指定图像是所述正版应用的相关图像。

8.根据权利要求7所述的方法，在所述基于多种信息识别方式识别所述目标网页中包含的仿冒正版应用的信息，得到多个信息识别结果前，所述方法还包括：

获取所述指定关键字和所述指定图像并保存。

9.根据权利要求7或8所述的方法，

所述指定关键字包括描述所述正版应用的业务的关键字和描述所述正版应用所属机构的其他业务的关键字；

所述指定图像包括所述正版应用的图标和所述正版应用所属机构的其他应用的图标。

10.根据权利要求1所述的方法，还包括：

基于所述仿冒信息和所述正版应用的证书指纹确定是否存在所述正版应用的仿冒应用。

11.一种仿冒应用信息获取装置，包括：

12.一种电子设备，包括：

处理器；以及

13.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：