CN107038173A - 应用查询方法和装置、相似应用检测方法和装置 - Google Patents

应用查询方法和装置、相似应用检测方法和装置 Download PDF

Info

Publication number
CN107038173A
CN107038173A CN201610079451.8A CN201610079451A CN107038173A CN 107038173 A CN107038173 A CN 107038173A CN 201610079451 A CN201610079451 A CN 201610079451A CN 107038173 A CN107038173 A CN 107038173A
Authority
CN
China
Prior art keywords
application
similarity
icon
query
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610079451.8A
Other languages
English (en)
Other versions
CN107038173B (zh
Inventor
王龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610079451.8A priority Critical patent/CN107038173B/zh
Publication of CN107038173A publication Critical patent/CN107038173A/zh
Application granted granted Critical
Publication of CN107038173B publication Critical patent/CN107038173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种应用查询方法和装置、相似应用检测方法和装置,所述应用查询方法包括:获取应用查询请求;根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度;获取满足候选相似应用条件的特征相似度所对应的第二应用的信息;反馈所述第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示;获取针对展示的第二应用的信息的下线命令,以对所述下线命令所指定的第二应用进行下线处理。本发明提供的应用查询方法和装置,通过批量查询以及先发布再下线的处理方式,提高了甄别仿冒应用的效率。

Description

应用查询方法和装置、相似应用检测方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种应用查询方法和装置、相似应用检测方法和装置。
背景技术
随着终端配置的不断升级,终端的硬件能力越来越强,可以支持数量庞大、种类繁多的应用,各软件开发商不断开发新的应用或者对原有应用进行升级,并通过应用管理平台发布,广大用户便可以从应用管理平台下载所需的应用。应用管理平台也通常被称为应用商店。
目前,应用管理平台所发布的应用数量庞大,而且不断有新的应用或者新版本的应用更新。而一些恶意软件开发商会选择一些正版的应用进行仿冒,通过应用管理平台发布一些仿冒应用,也称为山寨应用。仿冒应用通常会携带有恶意代码,用户在终端上安装仿冒应用后终端会产生恶意扣费、恶意消耗网络流量或者恶意弹窗等损害用户利益的行为。
然而,目前甄别仿冒应用主要是在应用发布时进行人工审核,但应用管理平台上发布的应用数量庞大,纯人工审核效率太低,影响应用发布的及时性,且无法满足应用不断更新的需求。
发明内容
基于此,有必要针对目前甄别仿冒应用通过发布应用时进行人工审核效率低的问题,提供一种应用查询方法和装置、相似应用检测方法和装置。
一种应用查询方法,所述方法包括:
获取应用查询请求;
根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度;
获取满足候选相似应用条件的特征相似度所对应的第二应用的信息;
反馈所述第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示;
获取针对展示的第二应用的信息的下线命令,以对所述下线命令所指定的第二应用进行下线处理。
一种应用查询装置,所述装置包括:
请求获取模块,用于获取应用查询请求;
特征相似度获取模块,用于根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度;
相似应用信息获取模块,用于获取满足候选相似应用条件的特征相似度所对应的第二应用的信息;
相似应用信息反馈模块,用于反馈所述第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示;
下线命令处理模块,用于获取针对展示的第二应用的信息的下线命令,以对所述下线命令所指定的第二应用进行下线处理。
上述应用查询方法和装置,获取到应用查询请求后,对于第一应用,获取其与已发布的各第二应用之间的特征相似度,从而获取到满足候选相似应用条件的特征相似度所对应的第二应用的信息并反馈。反馈的第二应用的信息被按照特征相似度从高到低的顺序展示,这样可以针对第一应用,批量查询相似的、满足候选相似应用条件的第二应用的信息,用户便可以对展示的第二应用触发下线指令,以对相应的第二应用进行下线处理。通过批量查询以及先发布再下线的处理方式,提高了甄别仿冒应用的效率。
一种相似应用检测方法,所述方法包括:
确定待检测的第一应用;
获取已发布的第二应用构成的比对应用库;
从所述比对应用库中查找与所述第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果;
根据所述查找结果输出是否存在所述第一应用的相似应用的相似应用检测结果。
一种相似应用检测装置,所述装置包括:
待检测应用确定模块,用于确定待检测的第一应用;
比对应用库获取模块,用于获取已发布的第二应用构成的比对应用库;
相似应用查找模块,用于从所述比对应用库中查找与所述第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果;
检测结果输出模块,用于根据所述查找结果输出是否存在所述第一应用的相似应用的相似应用检测结果。
上述相似应用检测方法和装置,通过将待检测的第一应用和比对应用库中已发布的第二应用进行比较,获得特征相似度高于相似度阈值的第二应用,从而获得是否存在第一应用的相似应用的相似应用检测结果。通过相似应用检测,可以主动地发现待检测的第一应用是否与已发布的第二应用相冲突,也可以用来判断第一应用是否有仿冒已发布的第二应用的可能性,可以在发布前避免仿冒应用的出现,提高了甄别仿冒应用的效率。
附图说明
图1为一个实施例中应用管理系统的应用环境图;
图2为一个实施例中用于实现应用查询方法的服务器的结构示意图;
图3为一个实施例中应用查询方法的流程示意图;
图4为一个实施例中应用管理平台上第一应用的详情页面的示意图;
图5为一个实施例中仿冒查询结果展示页面的示意图;
图6为另一个实施例中仿冒查询结果展示页面的示意图;
图7为一个实施例中根据应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度的步骤的流程示意图;
图8为一个实施例中应用查询方法的流程示意图;
图9为另一个实施例中根据应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度的步骤的流程示意图;
图10为一个实施例中生成视觉词汇词典以及生成视觉词汇特征的过程的示意图;
图11为一个实施例中视觉词汇词典以及视觉词汇特征的关系示意图;
图12为再一个实施例中根据应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度的步骤的流程示意图;
图13为一个实施例中根据应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度的步骤的流程示意图;
图14为一个实施例中应用查询装置的结构框图;
图15为一个实施例中特征相似度获取模块的结构框图;
图16为另一个实施例中应用查询装置的结构框图;
图17为另一个实施例中特征相似度获取模块的结构框图;
图18为再一个实施例中特征相似度获取模块的结构框图;
图19为一个实施例中特征相似度获取模块的结构框图;
图20为一个实施例中相似应用检测方法的流程示意图;
图21为一个实施例中从比对应用库中查找与第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果的步骤的流程示意图;
图22为一个实施例中相似应用检测装置的结构框图;
图23为一个实施例中相似应用查找模块的结构框图;
图24为一个实施例中终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种应用管理系统,包括终端110和服务器120。终端110可以是移动终端或者台式计算机,移动终端可以是手机、平板电脑或者个人数字助理(PDA)等。服务器120可以是独立的物理服务器或者服务器集群,服务器120可以包括CDN(Content Delivery Network,即内容分发网络)服务器。
如图2所示,在一个实施例中,提供了一种用于实现一种应用查询方法的服务器120,包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中处理器具有计算功能和控制服务器120工作的功能,该处理器被配置为执行一种应用查询方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种,非易失性存储介质存储有操作系统和应用查询装置。该应用查询装置用于实施一种应用查询方法。网络接口用于连接到网络。
如图3所示,在一个实施例中,提供了一种应用查询方法,本实施例以该方法应用于上述图1中的服务器120来举例说明。该方法具体包括如下步骤:
步骤302,获取应用查询请求。
具体地,服务器上运行有应用管理平台,普通用户可访问应用管理平台以查询以及下载应用,平台管理员账号可登录应用管理平台,对应用管理平台上已发布的应用进行管理操作。管理操作包括查询应用的操作以及对应用进行下线处理的操作等。
进一步地,终端向服务器发送访问应用管理平台的访问请求,服务器根据该访问请求向终端反馈应用管理平台的应用管理页面,终端在该应用管理页面中触发应用查询请求并发送到服务器,服务器获取到该应用查询请求。
参照图4,平台管理员可在应用管理平台的应用管理页面访问第一应用的详情页面,在该详情页面展示第一应用的信息,比如应用名称、应用别名、应用标识、自定义标签、应用分类以及应用开发商等信息。终端检测在第一应用的详情页面中触发的应用查询操作,以触发相应的应用查询请求。应用查询操作可以是对如图4中的仿冒查询控件401的触发操作或者预定义的在详情页面中进行检测的滑动操作或者多点触控操作等。触发操作比如单击操作或双击操作等。
步骤304,根据应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度。
其中,应用查询请求用于触发查询与该应用查询请求所指定的第一应用,应用查询请求可通过携带第一应用的第一应用标识来指定第一应用。应用标识可唯一标识出相应的应用,应用管理平台可向应用管理平台上的各应用统一分配彼此相异的应用标识。
第二应用是在应用管理平台上已经发布的应用,发布应用是指将应用在应用管理平台上公开,使得普通用户可以搜索并下载该应用。相对地,下线应用则是发布应用的逆操作,已发布的应用被下线后,无法再被普通用户搜索到并下载。
特征相似度是第一应用和第二应用各自特征信息的相似性度量,特征相似度越大表示第一应用和相应的第二应用越相似。具体地,服务器在接收到应用查询请求后,从应用查询请求中提取第一应用的第一应用标识,根据第一应用标识获取第一应用的第一特征信息。获取应用管理平台上已发布的全量的第二应用标识,根据第二应用标识获取第二应用的第二特征信息,进而计算第一特征信息与各第二特征信息之间的特征相似度。
步骤306,获取满足候选相似应用条件的特征相似度所对应的第二应用的信息。
其中,候选相似应用条件是根据特征相似度将第二应用是第一应用的应用的可能性进行量化的条件。在一个实施例中,候选相似应用条件为大于等于预设阈值,则满足候选相似应用条件的特征相似度包括:大于等于预设阈值的特征相似度。
在另一个实施例中,候选相似应用条件为特征相似度最高的预设数量的特征相似度,则满足候选相似应用条件的特征相似度包括:将获取的所有特征相似度按照从高到低的顺序排序后从首位开始预设数量的特征相似度,比如将特征相似度按照从高到低的顺序排序后的前50的特征相似度。
具体地,对于满足候选相似应用条件的特征相似度,获取该特征相似度所对应的第二应用的信息。第二应用的信息包括第二应用标识,还可以包括第二应用的图标或者文本信息,文本信息包括应用介绍信息、应用截图、应用数字签名、应用开发商信息以及应用版本信息等。
步骤308,反馈第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示。
具体地,服务器向终端反馈第二应用的信息,使得终端按照特征相似度从高到低的顺序展示第二应用的信息。当获取到的第二应用的信息超过单页容量时,服务器可分页返回第二应用的信息,终端也可将反馈的第二应用的信息分页展示。
在一个实施例中,服务器可按照特征相似度从高到低的顺序将第二应用的信息排序后进行反馈,终端接收到反馈的经过排序的第二应用的信息,并将反馈的第二应用的信息依排序展示在应用管理平台的仿冒查询结果展示页面中。
在一个实施例中,服务器也可以反馈第二应用的信息以及相应的特征相似度,终端则将反馈的第二应用的信息按照相应的特征相似度从高到低的顺序进行排序后展示到仿冒查询结果展示页面中。
在一个实施例中,若存在多种类型的特征相似度,终端则按照其中一种类型的特征相似度从高到低的顺序排序展示相应的第二应用的信息;若该种类型的特征相似度相等,则再按照另一种特征相似度从高到低的顺序排序展示相应的第二应用的信息。
在一个实施例中,终端展示的第二应用的信息还可以包括相应的特征相似度以及仿冒判断参考信息。仿冒判断参考信息比如可以包括应用图标、应用名称、应用检查等级以及应用来源等。应用检查等级可根据软件开发商的历史行为记录生成。通过特征相似度结合仿冒判断参考信息,可进一步提高仿冒查询的准确性。
举例说明,参照图5,终端可按照图标哈希序列相似度从高到低的顺序展示第二应用的信息,如果图标哈希序列相似度相同再按照图标视觉词汇特征相似度从高到低的顺序展示第二应用的信息。图5中展示的第二应用的信息包括第二应用的图标、应用名称、检查等级、来源、图标哈希序列相似度、图标视觉词汇特征相似度以及文本哈希序列相似度。
步骤310,获取针对展示的第二应用的信息的下线命令,以对下线命令所指定的第二应用进行下线处理。
具体地,终端可检测对展示的第二应用的信息的操作,以选中该第二应用,并进入该第二应用的详情页面,在该详情页面中展示下线控件。终端检测到对该下线控件的预定义操作后触发下线命令,该下线命令指定了需进行下线处理的第二应用。终端将该下线命令发送到服务器,使得服务器根据该下线命令对该下线命令所指定的第二应用进行下线处理,使得指定的第二应用不可被普通用户搜索以及下载。终端也可以根据特征相似度自动触发下线命令。
举例说明,参照图6,用户点击仿冒查询结果展示页面中展示的第二应用的信息,则终端会展示相应的第二应用其它详细的仿冒判断参考信息,比如安装包名、应用标识、安装包标识、版本信息、下载量、软件开发商信息、应用介绍信息以及应用截图等,用户对详细的仿冒判断参考信息进行操作,则终端会进入该第二应用的详情页面,在该详情页面中可触发对该第二应用进行下线处理的下线命令。
上述应用查询方法,获取到应用查询请求后,对于第一应用,获取其与已发布的各第二应用之间的特征相似度,从而获取到满足候选相似应用条件的特征相似度所对应的第二应用的信息并反馈。反馈的第二应用的信息被按照特征相似度从高到低的顺序展示,这样可以针对第一应用,批量查询相似的、满足候选相似应用条件的第二应用的信息,用户便可以对展示的第二应用触发下线指令,以对相应的第二应用进行下线处理。通过批量查询以及先发布再下线的处理方式,提高了甄别仿冒应用的效率。
如图7所示,在一个实施例中,步骤304具体包括如下步骤:
步骤702,根据应用查询请求,获取第一应用的第一特征信息;第一特征信息包括第一应用的图标特征和应用文本特征中的至少一种。
具体地,服务器接收到应用查询请求后,从应用查询请求中提取第一应用标识,从而获取该第一应用标识所对应的第一特征信息。应用的图标是图像,采用图像特征;应用的文本信息则是文本,采用文本特征。
在一个实施例中,服务器可定期计算并缓存全量应用的特征信息,则步骤702包括:判断是否缓存有第一应用的第一特征信息;若是,则直接获取缓存的第一特征信息;若否,则即时提取第一应用的第一特征信息。
其中,全量应用是指应用管理平台上的所有应用,应用管理平台不断会有新增的应用或者更新的应用,这样需要定期计算新增或更新应用的特征信息,以更新全量应用的特征信息。全量应用的特征信息可存储在CDN服务器中。
如果第一应用是新增或者更新的应用,且还没有计算并缓存相应的第一特征信息,则服务器可拉取第一应用的信息,从而即时地从第一应用的信息中提取第一特征信息。如果服务器缓存有第一特征信息,则服务器就可以在需要查询应用时即时获取缓存的第一特征信息。本实施例通过定期计算并缓存全量应用的特征信息可以显著提高查询仿冒应用的效率。
步骤704,获取已发布的第二应用的第二特征信息;第二特征信息与第一特征信息的特征类型相同。
具体地,服务器可即时计算已发布的各第二应用的第二特征信息,也可以查询缓存的各第二应用的第二特征信息。第二特征信息与第一特征信息的特征类型,比如第一特征信息为第一应用的图标特征,则第二特征信息则为第二应用的图标特征;若第一特征信息为第一应用的应用文本特征,则第二特征信息为第二应用的应用文本特征,依次类推。
步骤706,计算第一特征信息和第二特征信息的特征相似度。
具体地,根据第一特征信息和第二特征信息的特征类型,采用不同的计算方式来计算特征相似度。
本实施例中,服务器根据第一应用和第二应用之间的图标特征和应用文本特征中的至少一种的特征相似度来进行应用的查询,可以有效地检测出可能存在仿冒行为的第二应用,提高了查询访问应用的准确性。
举例说明,参照图8,服务器存储有图标数据库和应用文本数据库,图标数据库中存储有应用管理平台全量应用的图标,应用文本数据库中存储有应用管理平台全量应用的文本信息。服务器定期从图标数据库中读取图标,以及从应用文本数据库中读取文本信息,并通过算法模块提取图标特征和应用文本特征这些特征信息,再将提取的特征信息缓存。服务器在接收到应用查询请求后,从应用查询请求中提取第一应用标识,从而根据第一应用标识从图标数据库和/或应用文本数据库拉取第一应用图标和第一文本信息中的至少一种,提取第一特征信息,并从缓存的特征信息中读取已发布的第二应用的第二特征信息,计算第一特征信息和第二特征信息的特征相似度,从而反馈仿冒查询结果。仿冒查询结果包括满足应用条件的应用标识以及相应的特征相似度。
如图9所示,在一个实施例中,步骤304具体包括如下步骤:
步骤902,根据应用查询请求,获取第一应用的第一图标所包括的视觉词汇以及视觉词汇的词频;获取的视觉词汇属于根据应用图标训练样本生成的视觉词汇词典。
具体地,服务器可先根据应用图标训练库进行训练,获得视觉词汇词典。应用图标训练库可以包括应用管理平台上全量应用的图标。视觉词汇词典是视觉词汇的集合,视觉词汇是通过训练获得的用来组成应用图标的基础视觉元素,这样一个应用的图标组成便类似于一个文本的组成,可使用对文本单词的处理方式来处理图标的视觉词汇。
参照图10,服务器在训练获得视觉词汇词典时,具体可对应用图标数据库中的图标提取特征点,从而根据提取的特征点生成特征向量,再对生成的特征向量进行聚类,从而获得视觉词汇词典。服务器获取第一应用的第一图标所包括的属于视觉词汇词典的视觉词汇,并获取相应视觉词汇的词频。提取的特征点可以采用SURF(Speeded Up Robust Features,加速稳健特征)或者SIFT(Scale-invariant feature transform,即尺度不变特征变换)等。聚类可采用K-means聚类算法或者层次聚类算法等。
步骤904,根据获取的视觉词汇和相应的词频生成第一视觉词汇特征。
具体地,参照图10,第一图标可以用视觉词汇直方图来表示。参照图11,生成的第一视觉词汇特征用特征向量的形式来表示视觉词汇直方图,该特征向量与视觉词汇词典中的视觉词汇对应,该特征向量中第一图标不包括的视觉词汇对应的值为0,第一图标包括的视觉词汇对应的值与相应的词频正相关。由于第一图标仅包括视觉词汇词典中少部分视觉词汇,因此可仅存储词频大于0的关键点,以达到压缩矩阵的效果,缓存同样数量图标的特征信息内心消耗大幅减少,而且计算余弦距离时复杂度显著降低。其中第一视觉词汇特征包括于第一特征信息,也包括于第一应用的图标特征。
步骤906,获取已发布的各第二应用的第二视觉词汇特征。
具体地,服务器可直接读取缓存的第二视觉词汇特征,也可以即时地生成第二视觉词汇特征。其中,第二视觉词汇特征包括于第二特征信息,也包括于第二应用的图标特征。
步骤908,计算第一视觉词汇特征和第二视觉词汇特征的余弦距离,根据余弦距离获得图标视觉词汇特征相似度。
具体地,服务器可根据以下公式(1)来计算第一视觉词汇特征和第二视觉词汇特征的余弦距离:
公式(1)
其中,cosθ表示余弦距离,Ai表示第一视觉词汇特征各维度的值,Bi表示第二视觉词汇特征各维度的值,n表示第一视觉词汇特征和第二视觉词汇特征的向量维度数量,i表示第一视觉词汇特征和第二视觉词汇特征的中向量元素的位置编号。表示第一视觉词汇特征的向量模,表示第二视觉词汇特征的向量模。表示第一视觉词汇特征和第二视觉词汇特征的内积。其中公式(1)中分母中的向量模可以直接缓存下来,后续计算余弦距离时可直接读取缓存的向量模。根据余弦距离获得图标视觉词汇特征相似度,具体可直接将余弦距离作为图标视觉词汇特征相似度,也可以将余弦距离输入自变量和因变量正相关的函数获得图标视觉词汇特征相似度。其中图标视觉词汇特征相似度包括于特征相似度。
本实施例中,通过图标视觉词汇特征相似度来查询应用,对于含有固定物体(如游戏角色或者卡通形象)的图标的相似程度的衡量效果更优,即使固定物体的尺度或者位置有变化,也可以很好地衡量相似程度。而恶意软件开发商在应用时通常会保留正版应用图标中的固定物体以欺骗普通用户,通过图标视觉词汇特征相似度来查询应用具有特别突出的效果。
如图12所示,在一个实施例中,步骤304具体包括如下步骤:
步骤1202,根据应用查询请求将第一应用的第一图标转换为预设尺寸的灰度图。
具体地,服务器根据应用查询请求,将第一应用的第一图标转化为灰度图后缩放到预设尺寸,也可以将第一应用的第一图标缩放到预设尺寸后转化为灰度图。预设尺寸比如8×8像素的尺寸。
在一个实施例中,服务器可将第一图标转化为灰度图后,缩放到大于预设尺寸的尺寸,再进行离散余弦变换后,取信息熵高的低频部分的预设尺寸的灰度图。
步骤1204,求取灰度图的平均值。
步骤1206,将缩放后的灰度图的各灰度值与平均值比较,并根据比较结果将缩放后的灰度图转换为二值化的第一图标哈希序列。
具体地,服务器可遍历灰度图的灰度值,将灰度图的每个灰度值与平均值比较,如果灰度值大于等于平均值则标记为第一值,如果灰度值小于等于平均值则标记为第二值,将标记的值按照预定义的顺序组织成二值化的哈希序列,该哈希序列便是第一图标哈希序列。其中,第一图标哈希序列包括于第一特征信息,也包括于第一应用的图标特征。
步骤1208,获取已发布的各第二应用的第二图标哈希序列。
具体地,服务器可读取缓存的第二图标哈希序列,也可以即时计算第二图标哈希序列。其中,第二图标哈希序列包括于第二特征信息,也包括于第二应用的图标特征。
步骤1210,计算第一图标哈希序列和第二图标哈希序列的汉明距离,根据汉明距离获得图标哈希序列相似度。
具体地,汉明距离表示两个相同长度的字符序列对应位置的值不同的数量,比如100011与100010两个字符序列的汉明距离为1。如果汉明距离为0,则表示这第一图标和第二应用的第二图标非常相似;如果汉明距离小于5则表示第一图标和第二图标有些不同但比较接近;如果汉明距离大于10则表明第一图标和第二图标完全不同。服务器根据汉明距离获得图标哈希序列相似度,具体可将汉明距离输入自变量和因变量负相关的函数后输出的值作为图标哈希序列相似度。其中,图标哈希序列相似度包括于特征相似度。
本实施例中,通过图标哈希序列相似度来查询应用,对于特征点数量少的简单图标之间的相似程度的衡量效果突出,甚至优于通过图标视觉词汇特征相似度来查询应用。
在一个实施例中,可同时用图标视觉词汇特征相似度和图标哈希序列相似度来进行协同检索,以实现查询应用的效果。由于图标视觉词汇特征相似度更适合于含有固定物体的图标的应用查询,而图标哈希序列相似度则更适合于特征点数量少的简单图标的应用查询,两者的协同检索将使得应用的查询结果更加准确。
如图13所示,在一个实施例中,步骤304具体包括如下步骤:
步骤1302,根据应用查询请求获取第一应用的文本信息的关键词以及相应的权重。
具体地,服务器可将第一应用的文本信息进行分词,并剔除掉停用词表中的词之后,获得关键词。关键词的权重与该关键词的词频相关,关键词的权重还可以与关键词与上下文的语义关系相关。
步骤1304,将关键词映射为固定长度的哈希值。
步骤1306,将哈希值按照相应的权重进行加权累加。
具体地,服务器可将每个哈希值乘以相应的权重后获得加权哈希值,再将加权哈希值按位累加,获得累加的哈希值。
步骤1308,根据累加获得的哈希值获得二值化的第一文本哈希序列。
具体地,服务器可将累加获得的哈希值的每一位的值与0比较,若大于或等于0则将该位的值置为第一值,若小于0则将该位的值置为第二值,从而获得二值化的第一文本哈希序列。其中,第一文本哈希序列包括于第一特征信息,也包括于第一应用的文本描述特征。
步骤1310,获取已发布的各第二应用的第二文本哈希序列。
具体地,服务器可读取缓存的第二文本哈希序列,也可以即时计算第二应用的第二文本哈希序列。其中,第二文本哈希序列包括于第二特征信息,也包括于第二应用的文本描述特征。
步骤1312,计算第一文本哈希序列和第二文本哈希序列的汉明距离,根据汉明距离获得文本哈希序列相似度。
具体地,服务器根据汉明距离获得文本哈希序列相似度,具体可将该汉明距离输入自变量和因变量负相关的函数后输出的值作为图标哈希序列相似度。自变量和因变量负相关的函数比如y=-x或者y=1/x,其中x是自变量,y是因变量。其中,文本哈希序列相似度包括于特征相似度。
本实施例中,由于文本哈希序列可以有效地衡量文本之间的相似性,通过文本哈希序列相似度来查询应用,可查询到在文本信息上进行仿冒的应用,而且效率非常高。如果与图标特征(视觉词汇特征或者图标哈希序列)结合,可以从图标和文本信息两个维度查询应用,进一步提高应用查询的准确性。
如图14所示,在一个实施例中,提供了一种应用查询装置1400,包括请求获取模块1410、特征相似度获取模块1420、相似应用信息获取模块1430、相似应用信息反馈模块1440和下线命令处理模块1450。
请求获取模块1410,用于获取应用查询请求。
特征相似度获取模块1420,用于根据应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度。
相似应用信息获取模块1430,用于获取满足候选相似应用条件的特征相似度所对应的第二应用的信息。
相似应用信息反馈模块1440,用于反馈第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示。
下线命令处理模块1450,用于获取针对展示的第二应用的信息的下线命令,以对下线命令所指定的第二应用进行下线处理。
上述应用查询装置1400,获取到应用查询请求后,对于第一应用,获取其与已发布的各第二应用之间的特征相似度,从而获取到满足候选相似应用条件的特征相似度所对应的第二应用的信息并反馈。反馈的第二应用的信息被按照特征相似度从高到低的顺序展示,这样可以针对第一应用,批量查询相似的、满足候选相似应用条件的第二应用的信息,用户便可以对展示的第二应用触发下线指令,以对相应的第二应用进行下线处理。通过批量查询以及先发布再下线的处理方式,提高了甄别仿冒应用的效率。
在一个实施例中,满足候选相似应用条件的特征相似度包括:大于等于预设阈值的特征相似度,或者,将获取的所有特征相似度按照从高到低的顺序排序后从首位开始预设数量的特征相似度。
如图15所示,在一个实施例中,特征相似度获取模块1420包括第一特征信息获取模块1421、第二特征信息获取模块1422和特征相似度计算模块1423。
第一特征信息获取模块1421,用于根据应用查询请求,获取第一应用的第一特征信息;第一特征信息包括第一应用的图标特征和应用文本特征中的至少一种。
第二特征信息获取模块1422,用于获取已发布的第二应用的第二特征信息;第二特征信息与第一特征信息的特征类型相同。
特征相似度计算模块1423,用于计算第一特征信息和第二特征信息的特征相似度。
本实施例中,根据第一应用和第二应用之间的图标特征和应用文本特征中的至少一种的特征相似度来进行应用的查询,可以有效地检测出可能存在仿冒行为的第二应用,提高了查询访问应用的准确性。
如图16所示,在一个实施例中,应用查询装置1400还包括缓存模块1460,用于定期计算并缓存全量应用的特征信息;第一特征信息获取模块1421还用于判断是否缓存有第一应用的第一特征信息;若是,则直接获取缓存的第一特征信息;若否,则即时提取第一应用的第一特征信息。
本实施例中,如果第一应用是新增或者更新的应用,且还没有计算并缓存相应的第一特征信息,则服务器可拉取第一应用的信息,从而即时地从第一应用的信息中提取第一特征信息。如果服务器缓存有第一特征信息,则服务器就可以在需要查询应用时即时获取缓存的第一特征信息。本实施例通过定期计算并缓存全量应用的特征信息可以显著提高查询应用的效率。
如图17所示,在一个实施例中,特征相似度获取模块1420包括:第一视觉词汇特征获取模块1424、第二视觉词汇特征获取模块1425和图标视觉词汇特征相似度计算模块1426。
第一视觉词汇特征获取模块1424,用于根据应用查询请求,获取第一应用的第一图标所包括的视觉词汇以及视觉词汇的词频。根据获取的视觉词汇和相应的词频生成第一视觉词汇特征。获取的视觉词汇属于根据应用图标训练样本生成的视觉词汇词典。
第二视觉词汇特征获取模块1425,用于获取已发布的各第二应用的第二视觉词汇特征。
图标视觉词汇特征相似度计算模块1426,用于计算第一视觉词汇特征和第二视觉词汇特征的余弦距离,根据余弦距离获得图标视觉词汇特征相似度。
本实施例中,通过图标视觉词汇特征相似度来查询应用,对于含有固定物体(如游戏角色或者卡通形象)的图标的相似程度的衡量效果更优,即使固定物体的尺度或者位置有变化,也可以很好地衡量相似程度。而恶意软件开发商在应用时通常会保留正版应用图标中的固定物体以欺骗普通用户,通过图标视觉词汇特征相似度来查询应用具有特别突出的效果。
如图18所示,在一个实施例中,特征相似度获取模块1420包括:第一图标哈希序列获取模块1427、第二图标哈希序列获取模块1428和图标哈希序列相似度计算模块1429。
第一图标哈希序列获取模块1427,用于根据应用查询请求将第一应用的第一图标转换为预设尺寸的灰度图。求取灰度图的平均值。将缩放后的灰度图的各灰度值与平均值比较,并根据比较结果将缩放后的灰度图转换为二值化的第一图标哈希序列。
第二图标哈希序列获取模块1428,用于获取已发布的各第二应用的第二图标哈希序列。
图标哈希序列相似度计算模块1429,用于计算第一图标哈希序列和第二图标哈希序列的汉明距离,根据汉明距离获得图标哈希序列相似度。
本实施例中,通过图标哈希序列相似度来查询应用,对于特征点数量少的简单图标之间的相似程度的衡量效果突出,甚至优于通过图标视觉词汇特征相似度来查询应用。
如图19所示,在一个实施例中,特征相似度获取模块1420包括:第一文本哈希序列获取模块14210、第二文本哈希序列获取模块14211和文本哈希序列相似度计算模块14212。
第一文本哈希序列获取模块14210,用于根据应用查询请求获取第一应用的文本信息的关键词以及相应的权重。将关键词映射为固定长度的哈希值。将哈希值按照相应的权重进行加权累加。根据累加获得的哈希值获得二值化的第一文本哈希序列。
第二文本哈希序列获取模块14211,用于获取已发布的各第二应用的第二文本哈希序列。
文本哈希序列相似度计算模块14212,用于计算第一文本哈希序列和第二文本哈希序列的汉明距离,根据汉明距离获得文本哈希序列相似度。
本实施例中,由于文本哈希序列可以有效地衡量文本之间的相似性,通过文本哈希序列相似度来查询应用,可查询到在文本信息上进行仿冒的应用,而且效率非常高。如果与图标特征(视觉词汇特征或者图标哈希序列)结合,可以从图标和文本信息两个维度查询应用,进一步提高应用查询的准确性。
如图20所示,在一个实施例中,提供了一种相似应用检测方法,本实施例以该方法应用于上述图1中的终端110来举例说明,终端110上可安装相似应用检测程序,通过该相似应用检测程序来实施一种相似应用检测方法。该方法具体包括如下步骤:
步骤2002,确定待检测的第一应用。
其中待检测的第一应用是需要检测是否存在相似应用的应用。具体地,终端可在请求发布某应用前,将待发布的应用确定为待检测的第一应用。终端也可以在对终端进行安全检测时,将终端上已安装或者正在安装的某应用确定为待检测的第一应用。
步骤2004,获取已发布的第二应用构成的比对应用库。
具体地,终端可获取终端上已安装的应用构成比对应用库,安装在终端上的应用属于已发布的第二应用,这样本实施例的相似应用检测方法可用来检测已安装或者正在安装的第一应用,是否在终端上已存在相似的应用,从而提醒用户避免重复安装或者甄别仿冒应用。终端还可以通过网络拉取比对应用库,具体可从应用管理平台拉取已发布的第二应用从而构成比对应用库。
步骤2006,从比对应用库中查找与第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果。
具体地,终端可获取第一应用的第一特征信息,获取比对应用库中的各第二应用的第二特征信息,并计算第一特征信息和第二特征信息的特征相似度,从而从比对应用库中查找与第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果。其中,第一特征信息包括第一应用的图标特征和应用文本特征中的至少一种;第二特征信息与第一特征信息的特征类型相同。为了提高查找效率,终端可先从比对应用库中与第一应用属于相同应用分类的第二应用中查找,再从与第一应用不属于相同分类的第二应用中查找。
查找结果可以包括是否查找到与第一应用之间的特征相似度高于相似度阈值的第二应用的结果,还可以进一步包括查找到的第二应用的信息。第二应用的信息包括第二应用标识,还可以包括第二应用的图标或者文本信息,文本信息包括应用介绍信息、应用截图、应用数字签名、应用开发商信息以及应用版本信息等。
步骤2008,根据查找结果输出是否存在第一应用的相似应用的相似应用检测结果。
具体地,若查找结果表示查找到与第一应用之间的特征相似度高于相似度阈值的第二应用,则输出存在第一应用的相似应用的相似应用检测结果,还可以进一步输出查找到的第二应用的信息。若查找结果表示未查找到与第一应用之间的特征相似度高于相似度阈值的第二应用,则输出不存在第一应用的相似应用的相似应用检测结果。
上述相似应用检测方法,通过将待检测的第一应用和比对应用库中已发布的第二应用进行比较,获得特征相似度高于相似度阈值的第二应用,从而获得是否存在第一应用的相似应用的相似应用检测结果。通过相似应用检测,可以主动地发现待检测的第一应用是否与已发布的第二应用相冲突,也可以用来判断第一应用是否有仿冒已发布的第二应用的可能性,可以在发布前避免仿冒应用的出现,提高了甄别仿冒应用的效率。
如图21所示,在一个实施例中,步骤2006具体包括如下步骤:
步骤2102,获取第一应用与比对应用库中第二应用之间的多种特征相似度;多种特征相似度包括图标视觉词汇特征相似度、图标哈希序列相似度和文本哈希序列相似度中至少两种的组合。
多种特征相似度的种类以及特征类型可预先设定,也可以通过相似应用检测程序进行指定。多种特征相似度可以取自图标特征相似度和文本特征相似度中的至少一种。终端可在终端本地计算出多种特征相似度,也可以从服务器拉取多种特征相似度。
其中图标视觉词汇特征相似度和图标哈希序列相似度的组合中,由于图标视觉词汇特征相似度更适合于含有固定物体的图标的检测,而图标哈希序列相似度则更适合于特征点数量少的简单图标的检测,综合之后使得相似应用检测结果更加准确。图标特征和文本特征在不同的维度进行相似应用检测,也可以使得相似应用检测结果更加准确。图标视觉词汇特征相似度的计算可参照图9所示步骤,图标哈希序列相似度的计算可参照图12所示步骤,文本哈希序列相似度的计算可参照图13所示步骤。
步骤2104,根据获取的多种特征相似度生成综合特征相似度。
其中,综合特征相似度反映了多种特征相似度中每种特征相似度的相似性,综合特征相似度与多种特征相似度中的每种特征相似度正相关。终端具体可计算多种特征相似度的和、平均值、加权和或者加平均值作为综合特征相似度。
步骤2106,查找具有高于相似度阈值的综合特征相似度的第二应用,获得相应的查找结果。
具体地,终端可逐个地计算比对应用库中的第二应用与第一应用之间的综合特征相似度,判断计算出的综合特征相似度是否高于相似度阈值,如果判断为是则说明查找到相似应用;如果判断为否则可继续计算比对应用库中下一个第二应用与第一应用之间的综合特征相似度,直至遍历比对应用库所有的第二应用或者查找到相似应用。
本实施例中,根据第一应用与比对应用库中第二应用之间的多种特征相似度来生成综合特征相似度,使得综合特征相似度能够更好地反映出第一应用与比对应用库中第二应用的相似性,从而可以更加准确地检测出是否存在第一应用的相似应用,提高精确性,减少漏检的情况。
如图22所示,在一个实施例中,提供了一种相似应用检测装置2200,包括:待检测应用确定模块2201、比对应用库获取模块2202、相似应用查找模块2203和检测结果输出模块2204。
待检测应用确定模块2201,用于确定待检测的第一应用。
比对应用库获取模块2202,用于获取已发布的第二应用构成的比对应用库。
相似应用查找模块2203,用于从比对应用库中查找与第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果。
检测结果输出模块2204,用于根据查找结果输出是否存在第一应用的相似应用的相似应用检测结果。
上述相似应用检测装置2200,通过将待检测的第一应用和比对应用库中已发布的第二应用进行比较,获得特征相似度高于相似度阈值的第二应用,从而获得是否存在第一应用的相似应用的相似应用检测结果。通过相似应用检测,可以主动地发现待检测的第一应用是否与已发布的第二应用相冲突,也可以用来判断第一应用是否有仿冒已发布的第二应用的可能性,可以在发布前避免仿冒应用的出现,提高了甄别仿冒应用的效率。
如图23所示,在一个实施例中相似应用查找模块2203包括:特征相似度获取模块2203a、综合特征相似度生成模块2203b和查找执行模块2203c。
特征相似度获取模块2203a,用于获取第一应用与比对应用库中第二应用之间的多种特征相似度。多种特征相似度包括图标视觉词汇特征相似度、图标哈希序列相似度和文本哈希序列相似度中至少两种的组合。
综合特征相似度生成模块2203b,用于根据获取的多种特征相似度生成综合特征相似度。
查找执行模块2203c,用于查找具有高于相似度阈值的综合特征相似度的第二应用,获得相应的查找结果。
本实施例中,根据第一应用与比对应用库中第二应用之间的多种特征相似度来生成综合特征相似度,使得综合特征相似度能够更好地反映出第一应用与比对应用库中第二应用的相似性,从而可以更加准确地检测出是否存在第一应用的相似应用,提高精确性,减少漏检的情况。
如图24所示,在一个实施例中,提供了一种终端110,包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中处理器具有计算功能和控制终端110工作的功能,该处理器被配置为执行一种相似应用检测方法。非易失性存储介质包括磁存储介质、光存储介质和闪存式存储介质中的至少一种,非易失性存储介质存储有操作系统和相似应用检测装置,该相似应用检测装置用于实施一种相似应用检测方法。网络接口用于连接到网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (18)

1.一种应用查询方法,所述方法包括:
获取应用查询请求;
根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度;
获取满足候选相似应用条件的特征相似度所对应的第二应用的信息;
反馈所述第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示;
获取针对展示的第二应用的信息的下线命令,以对所述下线命令所指定的第二应用进行下线处理。
2.根据权利要求1所述的方法,其特征在于,所述满足候选相似应用条件的特征相似度包括:大于等于预设阈值的特征相似度,或者,将获取的所有特征相似度按照从高到低的顺序排序后从首位开始预设数量的特征相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度,包括:
根据所述应用查询请求,获取第一应用的第一特征信息;所述第一特征信息包括所述第一应用的图标特征和应用文本特征中的至少一种;
获取已发布的第二应用的第二特征信息;所述第二特征信息与所述第一特征信息的特征类型相同;
计算所述第一特征信息和所述第二特征信息的特征相似度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
定期计算并缓存全量应用的特征信息;
所述获取第一应用的第一特征信息,包括:
判断是否缓存有第一应用的第一特征信息;
若是,则直接获取缓存的第一特征信息;
若否,则即时提取所述第一应用的第一特征信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度,包括:
根据所述应用查询请求,获取第一应用的第一图标所包括的视觉词汇以及所述视觉词汇的词频;获取的视觉词汇属于根据应用图标训练样本生成的视觉词汇词典;
根据获取的视觉词汇和相应的词频生成第一视觉词汇特征;
获取已发布的各第二应用的第二视觉词汇特征;
计算所述第一视觉词汇特征和所述第二视觉词汇特征的余弦距离,根据所述余弦距离获得图标视觉词汇特征相似度。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度,包括:
根据所述应用查询请求将第一应用的第一图标转换为预设尺寸的灰度图;
求取所述灰度图的平均值;
将缩放后的灰度图的各灰度值与所述平均值比较,并根据比较结果将缩放后的灰度图转换为二值化的第一图标哈希序列;
获取已发布的各第二应用的第二图标哈希序列;
计算所述第一图标哈希序列和所述第二图标哈希序列的汉明距离,根据所述汉明距离获得图标哈希序列相似度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度,包括:
根据所述应用查询请求获取所述第一应用的文本信息的关键词以及相应的权重;
将所述关键词映射为固定长度的哈希值;
将所述哈希值按照相应的权重进行加权累加;
根据累加获得的哈希值获得二值化的第一文本哈希序列;
获取已发布的各第二应用的第二文本哈希序列;
计算所述第一文本哈希序列和所述第二文本哈希序列的汉明距离,根据所述汉明距离获得文本哈希序列相似度。
8.一种应用查询装置,其特征在于,所述装置包括:
请求获取模块,用于获取应用查询请求;
特征相似度获取模块,用于根据所述应用查询请求,获取所述应用查询请求指定的第一应用与已发布的各第二应用之间的特征相似度;
相似应用信息获取模块,用于获取满足候选相似应用条件的特征相似度所对应的第二应用的信息;
相似应用信息反馈模块,用于反馈所述第二应用的信息,以使反馈的第二应用的信息被按照特征相似度从高到低的顺序展示;
下线命令处理模块,用于获取针对展示的第二应用的信息的下线命令,以对所述下线命令所指定的第二应用进行下线处理。
9.根据权利要求8所述的装置,其特征在于,所述满足候选相似应用条件的特征相似度包括:大于等于预设阈值的特征相似度,或者,将获取的所有特征相似度按照从高到低的顺序排序后从首位开始预设数量的特征相似度。
10.根据权利要求8所述的装置,其特征在于,所述特征相似度获取模块包括:
第一特征信息获取模块,用于根据所述应用查询请求,获取第一应用的第一特征信息;所述第一特征信息包括所述第一应用的图标特征和应用文本特征中的至少一种;
第二特征信息获取模块,用于获取已发布的第二应用的第二特征信息;所述第二特征信息与所述第一特征信息的特征类型相同;
特征相似度计算模块,用于计算所述第一特征信息和所述第二特征信息的特征相似度。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
缓存模块,用于定期计算并缓存全量应用的特征信息;
所述第一特征信息获取模块还用于判断是否缓存有第一应用的第一特征信息;若是,则直接获取缓存的第一特征信息;若否,则即时提取所述第一应用的第一特征信息。
12.根据权利要求8所述的装置,其特征在于,所述特征相似度获取模块包括:
第一视觉词汇特征获取模块,用于根据所述应用查询请求,获取第一应用的第一图标所包括的视觉词汇以及所述视觉词汇的词频;根据获取的视觉词汇和相应的词频生成第一视觉词汇特征;获取的视觉词汇属于根据应用图标训练样本生成的视觉词汇词典;
第二视觉词汇特征获取模块,用于获取已发布的各第二应用的第二视觉词汇特征;
图标视觉词汇特征相似度计算模块,用于计算所述第一视觉词汇特征和所述第二视觉词汇特征的余弦距离,根据所述余弦距离获得图标视觉词汇特征相似度。
13.根据权利要求8至12中任意一项所述的装置,其特征在于,所述特征相似度获取模块包括:
第一图标哈希序列获取模块,用于根据所述应用查询请求将第一应用的第一图标转换为预设尺寸的灰度图;求取所述灰度图的平均值;将缩放后的灰度图的各灰度值与所述平均值比较,并根据比较结果将缩放后的灰度图转换为二值化的第一图标哈希序列;
第二图标哈希序列获取模块,用于获取已发布的各第二应用的第二图标哈希序列;
图标哈希序列相似度计算模块,用于计算所述第一图标哈希序列和所述第二图标哈希序列的汉明距离,根据所述汉明距离获得图标哈希序列相似度。
14.根据权利要求8所述的装置,其特征在于,所述特征相似度获取模块包括:
第一文本哈希序列获取模块,用于根据所述应用查询请求获取所述第一应用的文本信息的关键词以及相应的权重;将所述关键词映射为固定长度的哈希值;将所述哈希值按照相应的权重进行加权累加;根据累加获得的哈希值获得二值化的第一文本哈希序列;
第二文本哈希序列获取模块,用于获取已发布的各第二应用的第二文本哈希序列;
文本哈希序列相似度计算模块,用于计算所述第一文本哈希序列和所述第二文本哈希序列的汉明距离,根据所述汉明距离获得文本哈希序列相似度。
15.一种相似应用检测方法,所述方法包括:
确定待检测的第一应用;
获取已发布的第二应用构成的比对应用库;
从所述比对应用库中查找与所述第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果;
根据所述查找结果输出是否存在所述第一应用的相似应用的相似应用检测结果。
16.根据权利要求15所述的方法,其特征在于,所述从所述比对应用库中查找与所述第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果,包括:
获取所述第一应用与所述比对应用库中第二应用之间的多种特征相似度;所述多种特征相似度包括图标视觉词汇特征相似度、图标哈希序列相似度和文本哈希序列相似度中至少两种的组合;
根据获取的多种特征相似度生成综合特征相似度;
查找具有高于相似度阈值的综合特征相似度的第二应用,获得相应的查找结果。
17.一种相似应用检测装置,其特征在于,所述装置包括:
待检测应用确定模块,用于确定待检测的第一应用;
比对应用库获取模块,用于获取已发布的第二应用构成的比对应用库;
相似应用查找模块,用于从所述比对应用库中查找与所述第一应用之间的特征相似度高于相似度阈值的第二应用,获得相应的查找结果;
检测结果输出模块,用于根据所述查找结果输出是否存在所述第一应用的相似应用的相似应用检测结果。
18.根据权利要求17所述的装置,其特征在于,所述相似应用查找模块包括:
特征相似度获取模块,用于获取所述第一应用与所述比对应用库中第二应用之间的多种特征相似度;所述多种特征相似度包括图标视觉词汇特征相似度、图标哈希序列相似度和文本哈希序列相似度中至少两种的组合;
综合特征相似度生成模块,用于根据获取的多种特征相似度生成综合特征相似度;
查找执行模块,用于查找具有高于相似度阈值的综合特征相似度的第二应用,获得相应的查找结果。
CN201610079451.8A 2016-02-04 2016-02-04 应用查询方法和装置、相似应用检测方法和装置 Active CN107038173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610079451.8A CN107038173B (zh) 2016-02-04 2016-02-04 应用查询方法和装置、相似应用检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610079451.8A CN107038173B (zh) 2016-02-04 2016-02-04 应用查询方法和装置、相似应用检测方法和装置

Publications (2)

Publication Number Publication Date
CN107038173A true CN107038173A (zh) 2017-08-11
CN107038173B CN107038173B (zh) 2021-06-25

Family

ID=59533059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610079451.8A Active CN107038173B (zh) 2016-02-04 2016-02-04 应用查询方法和装置、相似应用检测方法和装置

Country Status (1)

Country Link
CN (1) CN107038173B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256328A (zh) * 2017-12-29 2018-07-06 北京奇虎科技有限公司 识别仿冒应用的方法及装置
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109446795A (zh) * 2018-09-19 2019-03-08 腾讯科技(深圳)有限公司 一种确定安全应用的方法、装置及服务器
CN109714296A (zh) * 2017-10-26 2019-05-03 中国电信股份有限公司 威胁情报分析方法和装置
CN110020002A (zh) * 2018-08-21 2019-07-16 平安普惠企业管理有限公司 事件处理方案的查询方法、装置、设备和计算机存储介质
CN110413871A (zh) * 2018-12-18 2019-11-05 腾讯科技(深圳)有限公司 应用推荐方法、装置及电子设备
CN110704104A (zh) * 2019-10-14 2020-01-17 北京智游网安科技有限公司 一种应用仿冒检测方法、智能终端及存储介质
CN110717108A (zh) * 2019-09-27 2020-01-21 国家计算机网络与信息安全管理中心 基于特征工程的相似移动应用计算方法及装置
CN111126928A (zh) * 2018-10-29 2020-05-08 阿里巴巴集团控股有限公司 对发布内容审核的方法和装置
CN112016606A (zh) * 2020-08-20 2020-12-01 恒安嘉新(北京)科技股份公司 一种应用程序app的检测方法、装置、设备及存储介质
CN112348104A (zh) * 2020-11-17 2021-02-09 百度在线网络技术(北京)有限公司 仿冒程序的识别方法、装置、设备及存储介质
CN113626665A (zh) * 2021-08-26 2021-11-09 北京京东乾石科技有限公司 一种数据展示的方法和装置
CN114117050A (zh) * 2021-11-30 2022-03-01 济南农村商业银行股份有限公司 一种全自动记账流程弹窗处理方法、装置和系统

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840420A (zh) * 2010-04-02 2010-09-22 清华大学 搜索辅助系统、搜索辅助方法及程序
CN102201001A (zh) * 2011-04-29 2011-09-28 西安交通大学 基于倒排技术的快速检索方法
CN102222199A (zh) * 2011-06-03 2011-10-19 奇智软件(北京)有限公司 应用程序身份识别方法及系统
CN102629261A (zh) * 2012-03-01 2012-08-08 南京邮电大学 由钓鱼网页查找目标网页的方法
CN103020111A (zh) * 2012-10-29 2013-04-03 苏州大学 基于词汇树层次语义模型的图像检索方法
CN103345516A (zh) * 2013-07-10 2013-10-09 百度在线网络技术(北京)有限公司 基于应用程序图标的应用程序搜索方法和系统
JP2014035575A (ja) * 2012-08-07 2014-02-24 Riso Kagaku Corp 画像処理装置及びその制御プログラム
CN103631823A (zh) * 2012-08-28 2014-03-12 腾讯科技(深圳)有限公司 一种媒体内容推荐方法及设备
CN103677866A (zh) * 2012-09-05 2014-03-26 北京搜狗科技发展有限公司 应用程序扩展工具推送方法及系统
CN104090842A (zh) * 2014-07-15 2014-10-08 深圳市金立通信设备有限公司 一种应用程序运行的检测方法
CN104102582A (zh) * 2014-07-15 2014-10-15 深圳市金立通信设备有限公司 一种应用程序运行的检测装置及终端
CN104166816A (zh) * 2014-08-12 2014-11-26 广东欧珀移动通信有限公司 一种基于应用图标的锁屏解锁方法及系统
CN104298787A (zh) * 2014-11-13 2015-01-21 吴健 一种基于融合策略的个性化推荐方法及装置
CN104346213A (zh) * 2013-07-25 2015-02-11 三星电子(中国)研发中心 在移动通信终端以及服务器识别应用程序的方法
US20150169740A1 (en) * 2011-11-21 2015-06-18 Google Inc. Similar image retrieval
CN104808983A (zh) * 2015-03-19 2015-07-29 深圳市梦域科技有限公司 一种应用程序的推送方法及服务器
CN104933360A (zh) * 2015-05-21 2015-09-23 中国科学院信息工程研究所 基于程序依赖图的Android平台仿冒应用检测方法
CN104965916A (zh) * 2015-07-06 2015-10-07 北京金山安全软件有限公司 一种待清理文件确定方法及装置
CN105868236A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 一种同义词数据挖掘方法和系统

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840420A (zh) * 2010-04-02 2010-09-22 清华大学 搜索辅助系统、搜索辅助方法及程序
CN102201001A (zh) * 2011-04-29 2011-09-28 西安交通大学 基于倒排技术的快速检索方法
CN102222199A (zh) * 2011-06-03 2011-10-19 奇智软件(北京)有限公司 应用程序身份识别方法及系统
US20150169740A1 (en) * 2011-11-21 2015-06-18 Google Inc. Similar image retrieval
CN102629261A (zh) * 2012-03-01 2012-08-08 南京邮电大学 由钓鱼网页查找目标网页的方法
JP2014035575A (ja) * 2012-08-07 2014-02-24 Riso Kagaku Corp 画像処理装置及びその制御プログラム
CN103631823A (zh) * 2012-08-28 2014-03-12 腾讯科技(深圳)有限公司 一种媒体内容推荐方法及设备
CN103677866A (zh) * 2012-09-05 2014-03-26 北京搜狗科技发展有限公司 应用程序扩展工具推送方法及系统
CN103020111A (zh) * 2012-10-29 2013-04-03 苏州大学 基于词汇树层次语义模型的图像检索方法
CN103345516A (zh) * 2013-07-10 2013-10-09 百度在线网络技术(北京)有限公司 基于应用程序图标的应用程序搜索方法和系统
CN104346213A (zh) * 2013-07-25 2015-02-11 三星电子(中国)研发中心 在移动通信终端以及服务器识别应用程序的方法
CN104090842A (zh) * 2014-07-15 2014-10-08 深圳市金立通信设备有限公司 一种应用程序运行的检测方法
CN104102582A (zh) * 2014-07-15 2014-10-15 深圳市金立通信设备有限公司 一种应用程序运行的检测装置及终端
CN104166816A (zh) * 2014-08-12 2014-11-26 广东欧珀移动通信有限公司 一种基于应用图标的锁屏解锁方法及系统
CN104298787A (zh) * 2014-11-13 2015-01-21 吴健 一种基于融合策略的个性化推荐方法及装置
CN104808983A (zh) * 2015-03-19 2015-07-29 深圳市梦域科技有限公司 一种应用程序的推送方法及服务器
CN104933360A (zh) * 2015-05-21 2015-09-23 中国科学院信息工程研究所 基于程序依赖图的Android平台仿冒应用检测方法
CN104965916A (zh) * 2015-07-06 2015-10-07 北京金山安全软件有限公司 一种待清理文件确定方法及装置
CN105868236A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 一种同义词数据挖掘方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IMMOK: "用图片搜索相似图片(视觉单词)", 《HTTPS://BLOG.CSDN.NET/NS2250225/ARTICLE/DETAILS/44102181》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109714296A (zh) * 2017-10-26 2019-05-03 中国电信股份有限公司 威胁情报分析方法和装置
CN108256328A (zh) * 2017-12-29 2018-07-06 北京奇虎科技有限公司 识别仿冒应用的方法及装置
CN110020002A (zh) * 2018-08-21 2019-07-16 平安普惠企业管理有限公司 事件处理方案的查询方法、装置、设备和计算机存储介质
CN110020002B (zh) * 2018-08-21 2024-01-12 山西掌柜鼎科技有限公司 事件处理方案的查询方法、装置、设备和计算机存储介质
CN109344397A (zh) * 2018-09-03 2019-02-15 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109344397B (zh) * 2018-09-03 2023-08-08 东软集团股份有限公司 文本特征词语的提取方法及装置、存储介质及程序产品
CN109446795B (zh) * 2018-09-19 2022-09-23 腾讯科技(深圳)有限公司 一种确定安全应用的方法、装置及服务器
CN109446795A (zh) * 2018-09-19 2019-03-08 腾讯科技(深圳)有限公司 一种确定安全应用的方法、装置及服务器
CN111126928B (zh) * 2018-10-29 2024-03-22 阿里巴巴集团控股有限公司 对发布内容审核的方法和装置
CN111126928A (zh) * 2018-10-29 2020-05-08 阿里巴巴集团控股有限公司 对发布内容审核的方法和装置
CN110413871A (zh) * 2018-12-18 2019-11-05 腾讯科技(深圳)有限公司 应用推荐方法、装置及电子设备
CN110717108B (zh) * 2019-09-27 2022-08-30 国家计算机网络与信息安全管理中心 基于特征工程的相似移动应用计算方法及装置
CN110717108A (zh) * 2019-09-27 2020-01-21 国家计算机网络与信息安全管理中心 基于特征工程的相似移动应用计算方法及装置
CN110704104B (zh) * 2019-10-14 2023-10-03 北京智游网安科技有限公司 一种应用仿冒检测方法、智能终端及存储介质
CN110704104A (zh) * 2019-10-14 2020-01-17 北京智游网安科技有限公司 一种应用仿冒检测方法、智能终端及存储介质
CN112016606A (zh) * 2020-08-20 2020-12-01 恒安嘉新(北京)科技股份公司 一种应用程序app的检测方法、装置、设备及存储介质
CN112348104A (zh) * 2020-11-17 2021-02-09 百度在线网络技术(北京)有限公司 仿冒程序的识别方法、装置、设备及存储介质
CN112348104B (zh) * 2020-11-17 2023-08-18 百度在线网络技术(北京)有限公司 仿冒程序的识别方法、装置、设备及存储介质
CN113626665A (zh) * 2021-08-26 2021-11-09 北京京东乾石科技有限公司 一种数据展示的方法和装置
CN113626665B (zh) * 2021-08-26 2024-04-05 北京京东乾石科技有限公司 一种数据展示的方法和装置
CN114117050A (zh) * 2021-11-30 2022-03-01 济南农村商业银行股份有限公司 一种全自动记账流程弹窗处理方法、装置和系统
CN114117050B (zh) * 2021-11-30 2022-08-05 济南农村商业银行股份有限公司 一种全自动记账流程弹窗处理方法、装置和系统

Also Published As

Publication number Publication date
CN107038173B (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN107038173A (zh) 应用查询方法和装置、相似应用检测方法和装置
US11341170B2 (en) Automated extraction, inference and normalization of structured attributes for product data
JP6526329B2 (ja) ウェブページトレーニング方法及び装置、検索意図識別方法及び装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
US20130110839A1 (en) Constructing an analysis of a document
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
JP6053131B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN106919575A (zh) 应用程序搜索方法及装置
US11481722B2 (en) Automated extraction, inference and normalization of structured attributes for product data
CN111666766A (zh) 数据处理方法、装置和设备
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN115392237A (zh) 情感分析模型训练方法、装置、设备及存储介质
CN111752922A (zh) 一种建立知识数据库、实现知识查询的方法及装置
CN111563212A (zh) 一种内链添加方法及装置
CN110135769A (zh) 货品属性填充方法及装置、存储介质及电子终端
CN110674388A (zh) 推送项目的配图方法、装置、存储介质和终端设备
CN112084406A (zh) 短信处理方法、装置、电子设备和存储介质
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN110717029A (zh) 一种信息处理方法和系统
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
CN112307298B (zh) 个人品牌标签的生成方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant