CN114579711A - 诈骗应用程序的识别方法、装置、设备及存储介质 - Google Patents

诈骗应用程序的识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114579711A
CN114579711A CN202210259718.7A CN202210259718A CN114579711A CN 114579711 A CN114579711 A CN 114579711A CN 202210259718 A CN202210259718 A CN 202210259718A CN 114579711 A CN114579711 A CN 114579711A
Authority
CN
China
Prior art keywords
fraud
application
application program
detected
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210259718.7A
Other languages
English (en)
Inventor
马宏谋
阿曼太
雷小创
庄越淋
郭立岩
石亚彬
傅强
梁彧
田野
王杰
杨满智
金红
陈晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202210259718.7A priority Critical patent/CN114579711A/zh
Publication of CN114579711A publication Critical patent/CN114579711A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Abstract

本申请实施例公开了一种诈骗应用程序的识别方法、装置、设备及存储介质。该方法包括:获取待检测应用程序的安装文件;根据安装文件的至少一类特征信息,结合对应类别的预创建特征库,对待检测应用程序进行诈骗应用软件识别;其中,预创建特征库由已知涉诈应用程序样本的特征信息构成。利用该方法,将安装文件的特征信息进行细化,按层次分别将不同类别特征信息与预创建特征库进行匹配,对于较易识别的诈骗应用程序,经过较少层次类别特征信息对比即可识别,对于较难识别的诈骗应用程序,经过多层次类别特征信息对比识别;相比于现有技术中采用简单的特征比对或者通过安装运行后通过行为识别,本方法提高了诈骗应用程序识别的检测效率和准确率。

Description

诈骗应用程序的识别方法、装置、设备及存储介质
技术领域
本申请涉及移动安全技术领域,尤其涉及一种诈骗应用程序的识别方法、装置、设备及存储介质。
背景技术
随着移动互联网技术的发展,诈骗分子作案手段不断升级,其中应用程序(Application,APP)类诈骗呈爆发式增长。涉诈APP是指涉及移动互联网非接触类犯罪,即电信网络诈骗类的应用程序,包含贷款类、刷单类、虚假购物类、理财类、彩票类、赌博类、交友类、色情类等等。为了更好的维护网络安全,需要能够准确识别出涉诈APP。
现有的检测识别技术方案,一般是采用简单的特征比对,或者通过安装运行后通过样本的行为识别,比如要求转账,填写详细的个人信息等。这种检测识别方式识别率低,效率低,用户识别难度大,并且无法对加壳,加密,强混淆的APP文件进行检测识别,同时需要专业的分析人员二次确认,技术门槛很高。
申请内容
本申请实施例提供了一种诈骗应用程序的识别方法、装置、设备及存储介质,以解决现有技术中对诈骗应用程序识别率低、效率低的问题。
第一方面,本实施例提供了一种诈骗应用程序的识别方法,包括:
获取待检测应用程序的安装文件;
根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别;
其中,所述预创建特征库由已知涉诈应用程序样本的特征信息构成。
第二方面,本实施例提供了一种诈骗应用程序的识别装置,包括:
获取模块,用于获取待检测应用程序的安装文件;
判断模块,用于根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别;
其中,所述预创建特征库由已知涉诈应用程序样本的特征信息构成。
第三方面,本实施例提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的诈骗应用程序的识别方法。
第四方面,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本申请任一实施例所述的诈骗类应用程序的识别方法。
本申请实施例公开了一种诈骗应用程序的识别方法、装置、设备及存储介质。该方法先获取待检测应用程序的安装文件;然后根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别;其中,所述预创建特征库由已知涉诈应用程序样本的特征信息构成。上述技术方案,将安装文件的特征信息进行细化,按层次分别将不同类别特征信息与预创建特征库进行匹配,对于较易识别的诈骗应用程序,经过较少层次类别特征信息对比即可识别,对于较难识别的诈骗应用程序,经过多层次类别特征信息对比识别;相比于现有技术中采用简单的特征比对或者通过安装运行后通过行为识别,本方法提高了诈骗应用程序识别的检测效率和准确率,从而降低诈骗案件发生的概率。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种诈骗应用程序的识别方法的流程图;
图2为本申请实施例二提供的一种诈骗应用程序的识别方法的流程图;
图3为本申请实施例三提供的一种诈骗应用程序的识别方法的示例流程图;
图4为本申请实施例四提供的一种诈骗类应用程序的识别装置的结构框图;
图5示出了可以用来实施本申请的实施例的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本申请实施例一提供的一种诈骗应用程序的识别方法的流程图,本实施例可适用于对诈骗应用程序进行识别的情况,该方法可以由诈骗应用程序的识别装置来执行,该诈骗应用程序的识别装置可以采用硬件和/或软件的形式实现,该诈骗应用程序的识别装置可配置于电子设备中。如图1所示,该方法包括:
S110、获取待检测应用程序的安装文件。
其中,诈骗应用程序是指涉及移动互联网非接触类犯罪(电信网络诈骗)类的应用程序,诈骗应用程序包含贷款类、刷单类、虚假购物类、理财类、彩票类、赌博类、交友类、色情类等。为了防止用户安装诈骗应用程序而造成财产等损失,本实施例中,当用户从浏览器或者他人推送的网页中下载新的应用程序时,或者是从其他存储设备中拷贝过来新的应用程序时,需要预先判断新的应用程序是否为诈骗应用程序,只有当确定这些应用程序不为诈骗应用程序时才能进行进行后续安装等操作。对于识别出来的诈骗应用程序,则用户不进行后续安装等操作,从而防止被电信诈骗。
具体的,可以通过下载或者拷贝获取新的应用程序的安装文件作为待检测应用程序的安装文件,作为下一步检测识别的对象。
S120、根据安装文件的至少一类特征信息,结合对应类别的预创建特征库,对待检测应用程序进行诈骗应用软件识别。
其中,预创建特征库由已知涉诈应用程序样本的特征信息构成。通常,用户可以根据已公布的诈骗应用程序名单进行排除,也可以根据简单的特征对比,确定欲安装的应用程序是否为诈骗应用程序。但是,诈骗应用程序名单中包含的诈骗应用程序种类有限,随着诈骗应用程序的特征越来越隐藏,用户识别诈骗应用程序的难度越来越大,且识别率低、效率低。
相比于现有技术中识别诈骗应用软件只是通过安装文件的简单特征对比,本实施例中,对安装文件进行分类别提取特征信息,逐步将特征信息与对应类别的预创建特征库中的特征信息进行匹配。例如,可以预先创建三个类别特征信息的特征库。三个特征库中存储的特征信息是不同的,其中一个特征库中存储有较简单的特征信息,另一个特征库中存储有较深层次的特征信息,另外一个特征库中可以存储有更深层次的特征信息。在对待检测应用程序进行诈骗应用软件识别时,先从待检测应用程序的安装文件中提取较简单的特征信息,将该特征信息与对应的特征库中特征信息进行匹配,如果特征信息与特征库中的特征信息匹配,则可以确定待检测应用程序为诈骗应用软件。如果不匹配,再进行深层次的特征信息提取,并与对应的特征库中特征信息进行匹配,如果特征信息与特征库中的特征信息匹配,则可以确定待检测应用程序为诈骗应用软件。如果不匹配,再进行更深层次的特征信息提取,并与对应的特征库中特征信息进行匹配。
需要说明的是,举例中是分三个层次进行特征信息比对,如果有其他类别特征信息可以作为识别依据,也可以再设置其他类别的数据库,增加更多维度的特征对比,从而更能提高诈骗应用软件识别的准确率。此处不做具体限制。
本实施例中,基于大量已知的诈骗应用软件,将其安装文件的不同类别特征信息进行提取,存储到对应类别数据库中。预创建特征库可以分为三个类别的特征库。其中,可以提取诈骗应用软件的安装文件中的元数据组成一类特征库,即通过传统人工提取的诈骗应用软件的特征作为一类特征库。示例性的,元数据可以包括:代码执行序列特征、签名证书特征、类特征、字符串特征、SO文件特征(指动态连接库、二进制文件),以及自定义特征等。该类特征库中包含有大量已知的诈骗应用软件安装文件对应的特征信息,对待检测应用程序进行诈骗识别时,优先从待检测应用程序的安装文件中提取元数据特征。比较该元数据特征是否包含在这类特征信息的预设数据库中。如果包含在其中,可以确定待检测应用程序为诈骗应用软件;如果不包含在其中,再进行下一步特征提取并进行特征匹配。
示例性的,深层次的特征信息提取可以是将贷款类、刷单类、虚假购物类、理财类、彩票类、赌博类、交友类、色情类等主要的涉诈类别的应用名称利用设定算法得到计算数值,将所有计算数值组成包含深层次特征信息的特征库。比较待检测应用程序名称的计算数值是否包含在这类特征信息的预设数据库中。如果包含在其中,可以确定待检测应用程序为诈骗应用软件;如果不包含在其中,再将待检测应用程序在动态沙箱中运行,进行下一步特征提取并进行特征匹配。对于包含更深层次特征信息的特征库,可以基于大量传统人工提取的诈骗应用软件的通联地址组成另一个特征库。
本申请实施例公开了一种诈骗应用程序的识别方法。该方法先获取待检测应用程序的安装文件;然后根据安装文件的至少一类特征信息,结合对应类别的预创建特征库,对待检测应用程序进行诈骗应用软件识别;其中,预创建特征库由已知涉诈应用程序样本的特征信息构成。上述技术方案,将安装文件的特征信息进行细化,按层次分别将不同类别特征信息与预创建特征库进行匹配,对于较易识别的诈骗应用程序,经过较少层次类别特征信息对比即可识别,对于较难识别的诈骗应用程序,经过多层次类别特征信息对比识别;相比于现有技术中采用简单的特征比对或者通过安装运行后通过行为识别,本方法提高了诈骗应用程序识别的检测效率和准确率,从而降低诈骗案件发生的概率。
实施例二
图2为本申请实施例二提供的一种诈骗应用程序的识别方法的流程图,本实施例以上述实施例一为基础进行优化,在本实施例中,将根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别进一步优化为:对所述安装文件进行元数据特征提取,获得第一特征信息;将所述第一特征信息与第一特征库中的特征信息进行匹配,若匹配成功,则确定所述待检测应用程序为诈骗应用程序,其中,所述第一特征库为对应涉诈元数据特征的预创建特征库;否则,根据第二特征信息,对所述待检测应用程序进行诈骗应用软件识别。如图2所示,该方法包括:
S210、获取待检测应用程序的安装文件。
S220、对安装文件进行元数据特征提取,获得第一特征信息。
其中,第一特征信息是指元数据特征,元特征数据具体可以包括:代码执行序列特征:指关键的代码执行序列;签名证书特征:指涉诈样本的证书的信息摘要算法(Message-Digest Algorithm,MD5);类特征:是指classes.dex中的典型类名,包括类,方法;字符串特征:是指classes.dex中的典型字符串,包括电话号码、邮箱、统一资源定位符(UniformResource Locator,URL)、结构化查询语言(Structured Query Language,SQL);SO文件特征:是指so文件中的典型字符串,以及自定义特征:是指根据样本大小、包名、签名等特征,进行组合计算。
具体的,可以通过元数据处理模型,提取安装文件中的元数据特征,将元数据特征作为第一特征信息,用于下一步的匹配操作。
S230、将第一特征信息与第一特征库中的特征信息进行匹配。
其中,第一特征库为对应涉诈元数据特征的预创建特征库。第一特征库的创建是基于大量已知的诈骗应用软件,提取软件对应安装文件中的元数据特征。这里可以将传统人工提取的大量诈骗应用软件安装文件中的元数据特征构成第一特征库。第一特征库可以不断更新,并通过静态引擎进行加载。第一特征库中包含代码执行序列特征、签名证书特征、类特征、字符串特征、SO文件特征以及自定义特征等。
具体的,将第一特征信息与第一特征库中的特征信息进行匹配,即判断第一特征信息是否包含在第一特征库中。
S240、判断第一特征信息与第一特征库中的特征信息是否匹配。
具体的,匹配结果可能是第一特征信息包含在第一特征库中,即匹配成功;也可能是第一特征信息不包含在第一特征库中,即匹配失败。
S250、若匹配成功,则确定待检测应用程序为诈骗应用软件。
具体的,若第一特征信息包含在第一特征库中,匹配成功,则可以理解为待检测应用程序对应安装文件包含诈骗应用软件的特点,因此确定待检测应用程序为诈骗应用软件。
S260、否则,根据第二特征信息,对待检测应用程序进行诈骗应用软件识别。
具体的,若第一特征信息不包含在第一第特征库中,匹配失败,则可以理解为待检测应用程序对应安装文件不包含第一特征库中特征信息,还需要进一步进行其它匹配操作,以对待检测应用程序进行诈骗应用软件识别,进而确定待检测应用程序是否为诈骗应用软件。
其中,第二特征信息是深层次的安装文件的特征信息。经过大量数据研究发现,诈骗应用软件基本上都是假冒正规应用软件的名称,如微粒贷,支付宝、微信,平安银行,京东等等。因此,可以将待检测应用程序的名称通过设定算法转化为数值,将该数值与包含大量已知诈骗应用软件的名称对应数值的特征库进行匹配,以对待检测应用程序进行诈骗应用软件识别。
作为本申请实施例的一个可选实施例,在上述实施例的基础上,根据第二特征信息,对待检测应用程序进行诈骗应用软件识别,可以包括:
S261、解析待检测应用程序的程序名称作为第二特征信息。
本步骤中,将基于第一特征库匹配失败的待检测应用程序的程序名称按照设定算法进行解析获得计算数值,将计算数值作为第二特征信息,以进行下一步的匹配操作。其中,设定算法可以是人工智能(Artificial Intelligence,AI)算法。
S262、将第二特征信息与第二特征库中的特征信息进行相似度计算,基于各相似度对待检测应用程序进行诈骗应用软件识别。
其中,第二特征库为对应各类别涉诈应用程序名称的预创建特征库。第二特征库中的特征信息为各类别涉诈应用程序经过设定算法处理获得的计算数值。第二特征库可以不断更新。
需要说明的是,经过大量数据研究发现,诈骗应用软件基本上都是假冒正规应用软件的名称,如微粒贷,支付宝、微信,平安银行,京东等等。因此,根据已知的诈骗应用软件名称作为关键词,将贷款类、刷单类、虚假购物类、理财类、彩票类、赌博类、交友类、色情类等主要的涉诈类别的应用软件名称利用AI算法计算数值,得到一个诈骗APP敏感信息库作为第二特征库,第二特征库中可以包含多个子库,子库分别对应一种涉诈类别,如贷款类子库、刷单类子库、虚假购物类子库等。第二特征库包含的特征不限于以上说明的种类。
示例性的,第二特征库的关键词可以是:
keyword_porn='直播午夜激情色情情色';
keyword_gamble='太阳城威尼斯北京赛车百小姐娱乐城';
keyword_financial='交易理财投资财富货币';
keyword_loan='借贷人人贷微粒贷京东金融';
keyword_lottery='彩票彩神福彩网中彩网福利彩票'。
为了验证通过应用软件名称与第二特征库匹配,可以识别诈骗应用软件,利用该方法进行诈骗识别,获得测试数据。从测试效果来看,测试现网数据130万条,共检出诈骗程序12592条(疑似彩票诈骗585条,疑似理财诈骗3285条,疑似色情诈骗5699条,疑似赌博诈骗1204条,疑似贷款诈骗1819条),抽检其中200条数据,正确181条,准确率高达90.5%。
进一步地,基于各相似度对待检测应用程序进行诈骗应用软件识别的步骤可以表述为:
a1)判断各相似度是否大于第一设定阈值。
本步骤中,每个涉诈类别对应一个包含敏感信息的子库,将第二特征信息与各涉诈类别子库进行相似度计算,对应每类涉诈类别,均会获得一个相似度数值,判断各个相似度是否大于第一设定阈值。其中,第一设定阈值可以是根据大量历史数据分析获得的。例如,第一设定阈值的范围可以是0~1,其中0代表两者完全不相同,1代表两者完全相同,示例性的,第一设定阈值可以设置为0.6。
示例性的,以贷款类涉诈APP为例,解析某应用程序X的名称获得第二特征信息,贷款类涉诈子库中包含有诈骗应用软件名称经过设定算法获得的特征信息,如A贷款应用程序(Application,APP)名称对应特征信息、B贷款APP名称对应特征信息、C贷款APP名称对应特征信息等。分别计算各个相似度,得到待检测应用程序与A贷款APP名称的相似度为0.7,与B贷款APP名称的相似度为0.3,与C贷款APP名称的相似度为0.5,等等。假设第一设定阈值为0.6,则可以判断各相似度是否大于第一设定阈值。
b1)确定相似度大于第一设定阈值对应程序名称的类别数量。
示例性的,判断各相似度是否大于第一设定阈值,判断出相似度大于第一设定阈值的类别数量为5。
c1)若类别数量大于第二设定阈值,则确定待检测应用程序为诈骗应用软件。
其中,第二设定阈值为具体数值,可以是根据大量历史数据分析获得的,如第二设定阈值设置为6。具体的,判断b1)步骤获得的类别数量与第二设定阈值的大小关系,若类别数量大于第二设定阈值,可以认为待检测应用程序的名称与已知的涉诈类应用软件名称很相似,则确定待检测应用程序为诈骗应用软件。
d1)否则,根据第三特征信息,对待检测应用程序进行诈骗应用软件识别。
具体的,若类别数量不大于第二设定阈值,可以认为待检测应用程序的名称与已知的涉诈类应用软件名称不相似,仅依据第二特征信息还不能判断待检测应用程序是否为诈骗应用软件,需要进一步进行其它匹配操作,以对待检测应用程序进行诈骗应用软件识别,进而确定待检测应用程序是否为诈骗应用软件。
其中,第三特征信息是更深层次的安装文件的特征信息。当通过第二特征信息与第二特征库进行匹配,不能确定待检测应用程序为诈骗应用软件时,可以将待检测应用程序在动态沙箱中运行,尝试提取运行过程中的通联地址作为第三特征信息,通过第三特征信息与特征库匹配,对待检测应用程序进行诈骗应用软件识别。
可选地,根据第三特征信息,对待检测应用程序进行诈骗应用软件识别,包括:
d11)将待检测应用程序在动态沙箱中运行。
具体的,利用动态沙箱启动并运行待检测应用程序。
d12)提取待检测应用程序运行过程中的通联地址作为第三特征信息。
具体的,尝试提取待检测应用程序运行过程中的通联地址,如果存在通联地址,则将通联地址作为第三特征信息,继续进行下一步的匹配操作。如果不存在通联地址,则可以确定待检测应用程序不是诈骗应用软件。
d13)将第三特征信息与第三特征库中的特征信息进行匹配,若匹配成功,则确定待检测应用程序为诈骗应用程序,否则,确定待检测应用程序为非诈骗应用程序。
其中,第三特征库为对应涉诈域名的预创建特征库。将传统人工提取的涉诈APP的通联地址作为涉诈域名的特征库作为第三特征库,特征库可以不断更新。
具体的,将第三特征信息与第三特征库中的特征信息进行匹配,根据匹配结果,确定待检测应用程序是否为诈骗应用程序。若第三特征信息包含在第三特征库中,匹配成功,表明待检测应用程序包含诈骗应用软件的通联地址,则可以确定待检测应用程序为诈骗应用软件。若第三特征信息不包含在第三特征库中,匹配失败,表明待检测应用软件不包含诈骗应用软件的通联地址,可以理解为,待检测应用程序经过三个层次特征信息与三个类别特征库匹配,均不成功,则可以确定待检测应用程序为非诈骗应用软件。
可选地,该方法还包括:将确定为诈骗应用程序的待检测应用程序标记为涉诈应用程序,并基于所述涉诈应用程序更新各预创建特征库。
可以清楚的是,对于新确定的诈骗应用软件,如果预设数据库中没有该诈骗应用软件对应的特征信息,则需要将从安装软件提取的各类别特征信息存储到对应的数据库中,从而保证各预设特征库包含较全面的特征信息。
具体的,在对待检测应用程序进行检测,确定待检测应用程序为涉诈应用程序。并将涉诈应用程序所包含的各层次特征信息更新至对应特征库中。如提取该涉诈应用程序的元数据,保存到第一特征库中;提取该涉诈应用程序名称的计算数值,保存到第二特征库中;提取该涉诈应用程序中的通联地址,保存到第三特征库中,实现各预创建特征库的实时更新。需要说明的是,即使不是通过本方案确定的诈骗应用程序,只要预创建数据库中不包含该诈骗应用程序包含的特征信息,则可以提取该诈骗应用程序的特征信息,并更新至预创建数据库中。
本实施例将根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别细化,采用递进方式,依次提取待检测应用程序对应安装文件的三个类别的特征信息。先进行第一特征信息与第一特征库进行匹配,如果能够确认待检测应用程序为诈骗应用软件,则无需进行后续特征信息提取;如果不能确认待检测应用程序为诈骗应用软件,则需要进一步进行第二特征信息提取与匹配,以此类推,直到已进行完第三特征信息匹配,实现对待检测应用程序是否为诈骗应用软件的识别。本技术方案能够对待检测应用程序进行自动化识别,同时提高了诈骗应用程序的检测效率、准确率及覆盖率,进而降低了降低诈骗案件发生的概率。
实施例三
图3为本申请实施例三提供的一种诈骗应用程序的识别方法的示例流程图,如图3所示,本实施例三采用下述步骤实现诈骗应用程序的识别。
具体的,本实施例所提供诈骗应用程序的识别方法的一种示例性实现可以包括:
S301、输入待检测应用程序的安装文件;
S302、从安装文件中提取第一特征信息;
S303、将第一特征信息与加载的第一特征库中的特征信息进行匹配;
S304、判断是否匹配成功,若匹配,则跳转到步骤S313;
S305、若不匹配,则从安装文件中提取第二特征信息;
S306、将第二特征信息与第二特征库中的特征信息进行相似度计算;
S307、确定相似度大于第一设定阈值的类别数量;
S308、判断类别数量是否超过第二设定阈值,若是,则跳转到步骤S313;
S309、若否,将待检测应用程序在动态沙箱中运行,提取第三特征信息;
S310、判断是否存在第三特征信息(即通联地址),若存在,则跳转至步骤S311,若不存在,则跳转至步骤S314;
S311、将第三特征信息与加载的第三特征库中的特征信息进行匹配;
S312、判断是否匹配成功,若匹配,则跳转到步骤S313,若不匹配,则跳转至步骤S314;
S313、确定待检测应用程序为诈骗应用软件;
S314、忽略,即该待检测应用程序为非诈骗应用软件。
实施例四
图4为本申请实施例四提供的一种诈骗应用程序的识别装置的结构框图,该装置适用于对诈骗应用程序进行识别的情况,其中,该装置可以由软件和/或硬件实现,并一般可集成在电子设备上。如图4所示,该装置包括:获取模块41和判断模块42。其中,
获取模块41,用于获取待检测应用程序的安装文件;
判断模块42,用于根据安装文件的至少一类特征信息,结合对应类别的预创建特征库,对待检测应用程序进行诈骗应用软件识别;
其中,预创建特征库由已知涉诈应用程序样本的特征信息构成。
进一步地,判断模块42可以包括:
第一特征信息获得单元,用于对安装文件进行元数据特征提取,获得第一特征信息;
第一确定单元,用于将第一特征信息与第一特征库中的特征信息进行匹配,若匹配成功,则确定待检测应用程序为诈骗应用程序,其中,第一特征库为对应涉诈元数据特征的预创建特征库;
第一识别单元,用于否则,根据第二特征信息,对待检测应用程序进行诈骗应用软件识别。
可选地,第一识别单元具体可以包括:
第二特征信息解析子单元,用于解析待检测应用程序的程序名称作为第二特征信息;
第二确定子单元,用于将第二特征信息与第二特征库中的特征信息进行相似度计算,基于各相似度对待检测应用程序进行诈骗应用软件识别,其中,第二特征库为对应各类别涉诈应用程序名称的预创建特征库。
可选地,第二特征库中的特征信息为各类别涉诈应用程序经过设定算法处理获得的计算数值。
进一步地,第二确定子单元具体用于:
判断各相似度是否大于第一设定阈值;
确定相似度大于第一设定阈值对应程序名称的类别数量;
若类别数量大于第二设定阈值,则确定待检测应用程序为诈骗应用程序;
否则,根据第三特征信息,对待检测应用程序进行诈骗应用软件识别。
可选地,第二确定子单元用于根据第三特征信息,对待检测应用程序进行诈骗应用软件识别的步骤,可以表述为:
将待检测应用程序在动态沙箱中运行;
提取待检测应用程序运行过程中的通联地址作为第三特征信息;
将第三特征信息与第三特征库中的特征信息进行匹配,若匹配成功,则确定待检测应用程序为诈骗应用程序,否则,确定待检测应用程序为非诈骗应用程序,其中,第三特征库为对应涉诈域名的预创建特征库。
可选地,该装置还包括更新模块,用于:
将确定为诈骗应用程序的待检测应用程序标记为涉诈应用程序,并基于涉诈应用程序更新各预创建特征库。
实施例五
图5示出了可以用来实施本申请的实施例的电子设备50的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,电子设备50包括至少一个处理器51,以及与至少一个处理器51通信连接的存储器,如只读存储器(ROM)52、随机访问存储器(RAM)53等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器51可以根据存储在只读存储器(ROM)52中的计算机程序或者从存储单元58加载到随机访问存储器(RAM)53中的计算机程序,来执行各种适当的动作和处理。在RAM 53中,还可存储电子设备50操作所需的各种程序和数据。处理器51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。
电子设备50中的多个部件连接至I/O接口55,包括:输入单元56,例如键盘、鼠标等;输出单元57,例如各种类型的显示器、扬声器等;存储单元58,例如磁盘、光盘等;以及通信单元59,例如网卡、调制解调器、无线通信收发机等。通信单元59允许电子设备50通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器51可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器51的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器51执行上文所描述的各个方法和处理,例如诈骗应用程序的识别方法。
在一些实施例中,诈骗应用程序的识别方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元58。在一些实施例中,计算机程序的部分或者全部可以经由ROM 52和/或通信单元59而被载入和/或安装到电子设备50上。当计算机程序加载到RAM 53并由处理器51执行时,可以执行上文描述的诈骗应用程序的识别方法的一个或多个步骤。备选地,在其他实施例中,处理器51可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行诈骗应用程序的识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种诈骗应用程序的识别方法,其特征在于,包括:
获取待检测应用程序的安装文件;
根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别;
其中,所述预创建特征库由已知涉诈应用程序样本的特征信息构成。
2.根据权利要求1所述的方法,其特征在于,所述根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别,包括:
对所述安装文件进行元数据特征提取,获得第一特征信息;
将所述第一特征信息与第一特征库中的特征信息进行匹配,若匹配成功,则确定所述待检测应用程序为诈骗应用软件,其中,所述第一特征库为对应涉诈元数据特征的预创建特征库;
否则,根据第二特征信息,对所述待检测应用程序进行诈骗应用软件识别。
3.根据权利要求2所述的方法,其特征在于,所述根据第二特征信息,对所述待检测应用程序进行诈骗应用软件识别,包括:
解析待检测应用程序的程序名称作为第二特征信息;
将所述第二特征信息与第二特征库中的特征信息进行相似度计算,基于各相似度对所述待检测应用程序进行诈骗应用软件识别,其中,所述第二特征库为对应各类别涉诈应用程序名称的预创建特征库。
4.根据权利要求3所述的方法,其特征在于,所述第二特征库中的特征信息为各类别涉诈应用程序经过设定算法处理获得的计算数值。
5.根据权利要求3所述的方法,其特征在于,所述基于各相似度对所述待检测应用程序进行诈骗应用软件识别,包括:
判断各相似度是否大于第一设定阈值;
确定所述相似度大于第一设定阈值对应程序名称的类别数量;
若所述类别数量大于第二设定阈值,则确定所述待检测应用程序为诈骗应用软件;
否则,根据第三特征信息,对所述待检测应用程序进行诈骗应用软件识别。
6.根据权利要求5所述的方法,其特征在于,所述根据第三特征信息,对所述待检测应用程序进行诈骗应用软件识别,包括:
将所述待检测应用程序在动态沙箱中运行;
提取所述待检测应用程序运行过程中的通联地址作为第三特征信息;
将所述第三特征信息与第三特征库中的特征信息进行匹配,若匹配成功,则确定所述待检测应用程序为诈骗应用软件,否则,确定所述待检测应用程序为非诈骗应用程序,其中,所述第三特征库为对应涉诈域名的预创建特征库。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
将确定为诈骗应用程序的待检测应用程序标记为涉诈应用程序,并基于所述涉诈应用程序更新各预创建特征库。
8.一种诈骗应用程序的识别装置,其特征在于,包括:
获取模块,用于获取待检测应用程序的安装文件;
判断模块,用于根据所述安装文件的至少一类特征信息,结合对应类别的预创建特征库,对所述待检测应用程序进行诈骗应用软件识别;
其中,所述预创建特征库由已知涉诈应用程序样本的特征信息构成。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的诈骗应用程序的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的诈骗应用程序的识别方法。
CN202210259718.7A 2022-03-16 2022-03-16 诈骗应用程序的识别方法、装置、设备及存储介质 Pending CN114579711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210259718.7A CN114579711A (zh) 2022-03-16 2022-03-16 诈骗应用程序的识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210259718.7A CN114579711A (zh) 2022-03-16 2022-03-16 诈骗应用程序的识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114579711A true CN114579711A (zh) 2022-06-03

Family

ID=81775807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210259718.7A Pending CN114579711A (zh) 2022-03-16 2022-03-16 诈骗应用程序的识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114579711A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859292A (zh) * 2023-02-20 2023-03-28 卓望数码技术(深圳)有限公司 一种涉诈app检测系统和判定方法以及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859292A (zh) * 2023-02-20 2023-03-28 卓望数码技术(深圳)有限公司 一种涉诈app检测系统和判定方法以及存储介质

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN105590055B (zh) 用于在网络交互系统中识别用户可信行为的方法及装置
US7866542B2 (en) System and method for resolving identities that are indefinitely resolvable
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN111179066B (zh) 业务数据的批量处理方法、装置、服务器和存储介质
CN111783132A (zh) 基于机器学习的sql语句安全检测方法、装置、设备及介质
CN112532624B (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN113743111A (zh) 基于文本预训练和多任务学习的金融风险预测方法及装置
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN112749973A (zh) 一种权限管理方法、装置和计算机可读存储介质
CN114579711A (zh) 诈骗应用程序的识别方法、装置、设备及存储介质
CN108920909B (zh) 仿冒移动应用程序判别方法及系统
CN112101024B (zh) 基于app信息的目标对象识别系统
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN111027065B (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN116485512A (zh) 基于强化学习的银行数据分析方法及系统
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN112686732B (zh) 异常地址数据识别方法、装置、设备、介质
CN114722401A (zh) 一种设备安全测试方法、装置、设备及存储介质
CN114443802A (zh) 一种接口文档处理方法、装置、电子设备和存储介质
CN111429257A (zh) 一种交易监控方法和装置
CN112949752B (zh) 业务预测系统的训练方法及装置
CN116244740B (zh) 一种日志脱敏方法、装置、电子设备及存储介质
CN109241428B (zh) 用户性别的确定方法、装置、服务器及存储介质
CN115081922A (zh) 一种基于图谱库的新风险主动识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination