CN114492584A - 一种针对安卓中文应用市场的自动内容分级方法 - Google Patents

一种针对安卓中文应用市场的自动内容分级方法 Download PDF

Info

Publication number
CN114492584A
CN114492584A CN202111627853.4A CN202111627853A CN114492584A CN 114492584 A CN114492584 A CN 114492584A CN 202111627853 A CN202111627853 A CN 202111627853A CN 114492584 A CN114492584 A CN 114492584A
Authority
CN
China
Prior art keywords
training feature
classification model
application
feature type
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111627853.4A
Other languages
English (en)
Inventor
周宸宇
李琳琳
刘烨庞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202111627853.4A priority Critical patent/CN114492584A/zh
Publication of CN114492584A publication Critical patent/CN114492584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种针对安卓中文应用市场的自动内容分级方法,所述方法包括:获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;提取所述应用源数据的特征;将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。本发明通过提取多维的应用源数据的特征,使得提取的特征信息非常丰富,并将特征输入至已训练的融合分类模型,得到准确的预测类别概率集,最终得到分级结果,能对安卓中文应用市场进行内容分级。

Description

一种针对安卓中文应用市场的自动内容分级方法
技术领域
本发明涉及机器学习软件工程技术领域,尤其涉及的是一种针对安卓中文应用市场的自动内容分级方法。
背景技术
智能手机在人们日常生活中扮演着重要的角色,通过多种多样有特定功能的手机应用,人们可以进行社交、娱乐、购物、工作等等。任何年龄的人都可以使用智能手机,但每个手机应用中的内容或功能却不一定适合所有人,比如,涉及黄、赌、毒等不宜内容的应用不应该提供给儿童或青少年用户。因此,移动应用应该合理地进行内容分级,现有的模型分级方法要么不适用于安卓中文应用市场,要么由于提取的特征来自于应用市场,而不是来自于应用本身导致内容分级准确性低。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种针对安卓中文应用市场的自动内容分级方法,旨在解决现有技术中模型分级方法要么不适用于安卓中文应用市场,要么由于提取的特征来自于应用市场,而不是来自于应用本身导致内容分级准确性低的问题。
本发明解决问题所采用的技术方案如下:
第一方面,本发明实施例提供一种针对安卓中文应用市场的自动内容分级方法,其中,所述方法包括:
获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;
提取所述应用源数据的特征;
将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
在一种实现方式中,所述提取所述应用源数据的特征包括:
当所述应用源数据为文本时,将所述文本输入至预设的词向量模型,通过所述词向量模型输出与所述文本对应的特征;
当所述应用源数据为图像时,对所述图像进行过滤,并将过滤后的所述图像进行图像特征抽取,得到与所述图像对应的特征。
在一种实现方式中,所述融合分类模型的生成过程包括:
获取若干训练特征类型;其中,每个训练特征类型包含若干训练特征数据;
针对每个训练特征类型,获取若干初始分类模型,并将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率;
根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型;
将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型。
在一种实现方式中,所述将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率包括:
获取每个训练特征类型中的若干训练特征数据的真实分级结果;
将若干训练特征数据输入每个初始分类模型,得到每个训练特征类型中若干训练特征数据对应的预测分级结果;
统计每个训练特征类型中的若干训练特征数据的真实分级结果和每个训练特征类型中若干训练特征数据对应的预测分级结果相同的个数,得到每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目;
根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率。
在一种实现方式中,所述根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率包括:
根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到每个训练特征类型经过每个初始分类模型分类后准确率;
根据每个训练特征类型经过每个初始分类模型分类后准确率,得到与所述训练特征类型对应的若干模型准确率。
在一种实现方式中,所述根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到每个训练特征类型经过每个初始分类模型分类后准确率包括:
获取每个训练特征类型中训练特征数据的总数;
将每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目除以每个训练特征类型中训练特征数据的总数,得到每个训练特征类型经过每个初始分类模型分类后准确率。
在一种实现方式中,所述根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型包括:
从若干所述模型准确率中选取最大的模型准确率;
将最大的模型准确率对应的初始分类模型作为与所述训练特征类型对应的目标分类模型。
在一种实现方式中,所述将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型包括:
基于预设的算法,将若干所述训练特征类型对应的目标分类模型进行累加,得到融合分类模型。
第二方面,本发明实施例还提供一种针对安卓中文应用市场的自动内容分级装置,其中,所述装置包括:
应用源数据获取模块,用于获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;
提取提取模块,用于提取所述应用源数据的特征;
预测类别概率集输出模块,用于将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
第三方面,本发明实施例还提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的针对安卓中文应用市场的自动内容分级方法。
第四方面,本发明实施例还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的针对安卓中文应用市场的自动内容分级方法。
本发明的有益效果:本发明实施例首先获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;然后提取所述应用源数据的特征;最后将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果;可见,本发明实施例通过提取多维的应用源数据的特征,使得提取的特征信息非常丰富,并将特征输入至已训练的融合分类模型,得到准确的预测类别概率集,能对安卓中文应用市场进行内容分级。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的针对安卓中文应用市场的自动内容分级方法流程示意图。
图2为本发明实施例提供的一种实现方式的自动内容分级的整体流程图。
图3为本发明实施例提供的一种实现方式的训练分类器的整体流程图。
图4为本发明实施例提供的针对安卓中文应用市场的自动内容分级装置的原理框图。
图5为本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
本发明公开了针对安卓中文应用市场的自动内容分级方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
由于现有技术中,使用手机的用户越来越低龄化,为了保护儿童安全上网,移动应用需要进行合理地年龄分级。Android和iOS平台是主流的智能手机操作系统,它们的官方应用市场Google Play和App Store都有年龄分级政策,并在应用的详情界面展示应用的年龄分级,以提供给合适的用户。App Store对应用的年龄分级被普遍认为更准确,因为他们有专门的工作人员对每个提交的应用进行审核,并根据App Store的分级政策为应用分级。然而,人工分级需要花费大量的时间和精力,但仍然可能有分级错误的情况发生。另一方面,Google Play中应用的年龄分级由开发者自行决定,分级不恰当的情形更加普遍。
遗憾的是,目前学术界关于手机应用自动分级技术的研究屈指可数。Chen等人将App Store与Google Play中的应用两两配对,以App Store提供的应用年龄分级作为真实标签,训练分类器ALM以验证Google Play中对应应用的年龄分级是否准确。ALM基于关键字匹配,关键字由人工在应用描述和用户评论中选取,模型在每一个分级上单独训练并自动调整关键字权重,在1464个游戏类应用上得到93.9%-100%的准确率。Hu等人在ALM的基础上增加了两类文本特征,词向量模型用于捕获关键字的同义词,词袋模型用于描述上下文。他们提出了两阶段多标签机器学习框架AAMR,其先根据分级政策和应用预测应用中的不宜内容,然后由不宜内容预测年龄分级。模型在Google Play和App Store上测试达到79%的准确率。Liu等人设计了一个机器学习模型来预测手机应用是否专为儿童设计,模型使用的特征涉及更多的数据类型,如应用类别、应用图标和截图等。他们通过在搜索引擎上搜索关键字来获取Google Play中适宜儿童的应用和适宜成人的应用,模型最终在1728个应用上达到95%的准确度。
现有技术主要有两个共同的缺点:1)模型只适用于英语语言的应用市场;2)对应用提取的特征只关注从应用市场中能得到的信息,而未深入到应用本身。然而,对于Android手机用户,官方应用市场并不是唯一的应用获取途径,还有大量第三方应用市场提供Android应用的下载,甚至在一些国家,Google Play被禁止访问,用户只能从非官方渠道获取应用。中国作为人口大国,拥有可观的手机用户数量,但却无法访问Google Play,因此第三方应用市场是中国手机用户主要的应用下载渠道。这些应用市场本身没有统一的规范,比如,在常见的中国Android应用市场中,仅有一个应用市场提供应用的年龄分级。其次,这些应用市场提供的应用质量良莠不齐,应用本身行为与在应用市场中展现出的可能有区别。因此,中国的未成年手机用户更容易接触到手机应用中的不宜内容,我们要提出一套能在中国Android应用市场辨别应用是否适宜儿童的技术。
为了解决现有技术的问题,本实施例提供了一种针对安卓中文应用市场的自动内容分级方法,本发明通过提取多维的应用源数据的特征,使得提取的特征信息非常丰富,并将特征输入至已训练的融合分类模型,得到准确的预测类别概率集,能对安卓中文应用市场进行内容分级。具体实施时,首先获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;然后提取所述应用源数据的特征;最后将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
示例性方法
本实施例提供针对安卓中文应用市场的自动内容分级方法,该方法可以应用于机器学习软件工程的智能终端。具体如图1所示,所述方法包括:
步骤S100、获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;
具体地,应用的属性信息为安卓中文应用市场中的应用类别、广告标签、应用描述、应用图标、应用截图,应用资源文件中的图像资源,应用清单文件中的应用权限以及应用源代码中的应用程序接口。现有技术中是对无分级的应用市场中的应用,将其在有分级的应用市场中做应用匹配,以获取其已有的分级,但是这个方法在中国Android应用市场行不通,因为不同应用市场提供的应用集有很大的差别,而且应用重打包的行为很常见,外观一致的应用其内部可能有差别。为了解决上述问题,最小化应用市场中提供的信息的欺诈性,本申请获取的应用源数据除了来自与安卓中文应用市场,还来自于应用本身,此外,本发明使用静态分析的方法,用安装包(APK)反编译工具AndroGuard处理所有APK,获得多种类型的特征,如从应用清单文件中获取应用的使用权限,从应用源码中获取应用使用的API(Application Programming Interface,即应用程序接口)。实际中,应用的使用权限指的是涉及金钱或者隐私的数据权限,如付款数据。应用程序接口是为了滤除对分类没有帮助的应用,如果80%的应用源代码都采用同一个应用程序接口,则该应用是大众的应用,不区分类别。为了使得源数据更加丰富,分别获取的是安卓中文应用市场中的应用类别、广告标签、应用描述、应用图标、应用截图,应用资源文件中的图像资源,应用清单文件中的应用权限以及应用源代码中的应用程序接口。在本实施例中,安卓中文应用市场包括谷歌商店(Google Play Store)、腾讯应用宝(Tencent App Store)、华为应用市场(HuaweiAppGallery)和360手机助手。其中,Google Play是Android官方应用市场,应用宝、华为应用市场和360应用市场是主流的中国Android第三方应用市场;Google Play和华为应用市场为应用提供年龄分级,而应用宝和360应用市场不提供。对每一个安卓中文应用市场,本发明使用一个定制化爬虫来爬取应用市场中应用的基本信息以及应用资源(APK、图标、截图)的下载链接,然后下载应用资源到本地。对于华为和360手机助手,爬虫按应用类别爬取所有可访问的应用的信息;应用宝按类别只能爬取到少量应用,将爬取到的应用名作为关键字在应用宝上搜索以访问到更多应用,并将新增的应用名作为新的关键字进行搜索,反复这一步直到所有应用名都被搜索过;Google Play按类别也只返回少量应用,但有第三方服务AndroZoo在持续收集包括Google Play在内的若干Android应用市场的应用,因此,本发明借助AndroZoo提供的应用列表获取到所有来自Google Play的应用的最新版本的信息,共识别到超过两百万个不同的应用,本发明在其中取样,在每个应用类别按照下载量分层取1000个应用。
得到应用源数据后,就可以执行如图1所示的如下步骤:S200、提取所述应用源数据的特征;相应的,所述提取所述应用源数据的特征包括如下步骤:
S201、当所述应用源数据为文本时,将所述文本输入至预设的词向量模型,通过所述词向量模型输出与所述文本对应的特征;
S202、当所述应用源数据为图像时,对所述图像进行过滤,并将过滤后的所述图像进行图像特征抽取,得到与所述图像对应的特征。
具体地,特征见表1:
表1特征总揽表
Figure BDA0003439101170000091
当所述应用源数据为文本时,将所述文本输入至预设的词向量模型,通过所述词向量模型输出与所述文本对应的特征。其中,词向量模型又包括Word2Vec和Bert。在一种实现方式中,也可以所述文本输入至预设的词袋模型,通过所述词袋模型输出与所述文本对应的特征。当所述应用源数据为图像时,对所述图像进行过滤,并将过滤后的所述图像进行图像特征抽取,得到与所述图像对应的特征。在本实施例中,图片作为复杂的数据,需要额外的处理:对图像进行过滤,然后对过滤后的实施图像进行图像特征抽取。例如:与每个应用相关的图像有三类:图标、截图和图片资源,其中图标和截图是从应用市场中获取的,图片资源是解压APK并遍历文件目录所找到的图像格式文件。jar工具和unzip命令都可以用来解压APK,但unzip命令无法处理分卷压缩包及乱码问题,所以本发明选择了jar工具。一个应用中可能包含大量的图片资源,图片资源也即图像资源,而它们并不是都对本发明提取应用特征有帮助,比如,一张纯色的图片无法告诉分类器任何有用信息,越复杂的图片含有越大的信息量,也就越值得进一步分析;尺寸过小的图片也难以包含有用信息;两张相似度过高的图片也不需要都保留,而只保留其一即可。因此,在图像过滤时,1)对从每一个应用获取的图片资源,本发明先按照尺寸进行过滤,仅保留尺寸大于144x144(像素)(主流屏幕密度xxhdpi的应用图标大小)的图片;2)然后按图片的香农熵(描述了图像的平均信息量)从大到小的顺序选择图片;3)计算图片的哈希值,若当前图片与已选择的任意一个图片相似度过高(即哈希值差异小于阈值,阈值可以取值为20%),则不保留当前图片;4)直到已选择的图片总数到达20,或所有的图片资源已被处理过。实际中,应用的图标和截图是默认已选择的。由此,经过图像过滤后,对每个应用,包括应用图标和截图在内,本发明保留了最多20张尺寸足够大且互不相似的复杂图片。图像经过过滤后,从这些保留下来的图片抽取图像特征,图像特征也分为多种类型,如标签属性、文字属性。图像标签可以借助GoogleVision API来进行图像标注,图像中的文字可以通过光学字符识别(OCR)技术抽取。实际中,OCR技术识别中文的准确率比识别英文时稍低,因为它对中文字符识别的准确率偏低,尤其是对于复杂汉字或复杂字体;它还会将每一个汉字分隔开,且只能横向处理图片,导致已有的分词信息丢失,尤其是在文字未横向排列时。因此,对于由OCR技术得到的原始文字,本发明还要对其进行一步预处理:只保留其中的汉字、英文字母和数字,然后将他们拼接,并在每串数字和字母两侧添加空格。每个应用应只进行一次特征提取,之后各类特征会被分组存放于结构化的文本文档中,后续可以供程序高效地读取。特征提取后还需要选择特征和预处理特征,以提高分类器的性能。对于应用类别,我们对每个安卓中文应用市场定制了一个映射,以统一它们不同的类别;对于应用权限,我们仅考虑其中被Android划分为“危险”级别的权限;对于应用程序接口(API),我们仅考虑其中与本分类问题相关性高(可以通过卡方检验来衡量)的API,且过滤其中的常用(可以借助词频-逆文档频率(TF-IDF))API。
得到所述应用源数据的特征后,就可以执行如图1所示的如下步骤:S300、将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
由于前述提取的特征非常丰富,故将所述特征输入到已训练的融合分类模型后,可以通过所述融合分类模型输出准确的预测类别概率集,在本实施例中,训练好的分类模型可以先进行测试,也可以在实际中进行使用。由于应用宝和360应用市场不提供年龄分级,故可以将应用宝和360应用市场中的数据集输入到本发明的融合分类模型,得到预测类别概率集。预测类别概率集可以分为应用适合12岁以下儿童的概率以及应用不适合12岁以下儿童的概率,也就是说本实施例中采用的是二分类,实际中可以根据实际需要进行多分类。最后根据所述预测类别概率集得到分级结果,这样当应用适合12岁以下儿童的概率大于等于应用不适合12岁以下儿童的概率时,分级结果为应用适合12岁以下儿童,否则分级结果为应用不适合12岁以下儿童。对于应用宝和360应用市场存在而华为应用市场没有的的一些应用,可以借助动态分析和人工标注:先用自动测试工具(如Monkey)运行应用并生成若干运行时截图,然后让具有相关领域知识的人查看这些截图,如果一个应用有至少一个截图被标注为12岁以下儿童不宜,则认为该应用不适合12岁以下儿童——这样测试的可靠性取决于测试工具生成的截图是否有代表性。
在一种实现方式中,所述融合分类模型的生成过程包括如下步骤:获取若干训练特征类型;其中,每个训练特征类型包含若干训练特征数据;针对每个训练特征类型,获取若干初始分类模型,并将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率;根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型;将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型。
具体地,如图2-3所示,由于华为应用市场提供年龄分级,故本实施例是基于华为应用市场来进行训练的,实际中也可以采用谷歌商店(Google Play Store)来进行模型训练,因为谷歌商店也提供年龄分级。先获取若干训练特征类型,在本实施例中,若干训练特征类型为从应用类别中提取的映射到华为应用类别、广告标签(广告标签是一个二元值,即是否有广告)、从应用描述中提取的词向量、从应用图标、应用截图、图像资源中提取的图像标注和图像中文字词向量、从应用权限中提取的Android危险级别权限、从应用API(应用程序接口)中提取的非常用API等共7个训练特征类型。对于7个训练特征类型中的每个训练特征类型,每个训练特征类型包含若干训练特征数据;在本实施例中,每个训练特征类型包含正负例各1000个的应用特征数据,正例是指分级结果中适合儿童的应用的数据,负例为分级结果中不适合儿童的应用的数据。针对每个训练特征类型,获取若干初始分类模型,在本实施例中,若干初始分类模型分别为决策树、逻辑回归、支持向量机、K近邻、随机森林和神经网络。实际中,将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率;将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率;相应的,所述将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率包括如下步骤:获取每个训练特征类型中的若干训练特征数据的真实分级结果;将若干训练特征数据输入每个初始分类模型,得到每个训练特征类型中若干训练特征数据对应的预测分级结果;统计每个训练特征类型中的若干训练特征数据的真实分级结果和每个训练特征类型中若干训练特征数据对应的预测分级结果相同的个数,得到每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目;根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率。
实际中,每个训练特征类型中的若干训练特征数据的真实分级结果是已知的,也就是说每个训练特征类型中每个训练特征数据对应的分级是应用适用于儿童或者应用不适用于儿童是已知确定的。当将若干训练特征数据输入每个初始分类模型,得到每个训练特征类型中若干训练特征数据对应的预测分级结果;此时可以统计每个训练特征类型中的若干训练特征数据的真实分级结果和每个训练特征类型中若干训练特征数据对应的预测分级结果相同的个数,得到每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目;例如,当每个训练特征类型中的一个训练特征数据的真实分级结果为应用适用于儿童(在本实施例中,儿童的年龄范围为年龄在12岁以下),而每个训练特征类型中的一个训练特征数据预测分级结果也为应用适用于儿童;又或者当每个训练特征类型中的一个训练特征数据的真实分级结果为应用不适用于儿童,而每个训练特征类型中的一个训练特征数据预测分级结果也为应用不适用于儿童;此时表明每个训练特征类型中的一个训练特征数据的真实分级结果与每个训练特征类型中的一个训练特征数据预测分级结果为相同,统计上述相同的个数,就可以得到每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目;然后根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率。相应的,所述根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率包括如下步骤:获取每个训练特征类型中训练特征数据的总数;将每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目除以每个训练特征类型中训练特征数据的总数,得到每个训练特征类型经过每个初始分类模型分类后准确率;根据每个训练特征类型经过每个初始分类模型分类后准确率,得到与所述训练特征类型对应的若干模型准确率。
具体地,先获取每个训练特征类型中训练特征数据的总数;在本实施例中,由于每个训练特征类型包含正负例各1000个的应用特征数据,故每个训练特征类型中训练特征数据的总数为2000,将每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目除以每个训练特征类型中训练特征数据的总数,得到每个训练特征类型经过每个初始分类模型分类后准确率。例如,当每个训练特征类型经过决策树分类后的准确预测分类数目为1500时,将1500除以2000,得到75%,则每个训练特征类型经过决策树分类后的准确率为75%,以此类推,可以得到每个训练特征类型经过逻辑回归分类后的准确率,每个训练特征类型经过支持向量机分类后的准确率,每个训练特征类型经过K近邻分类后的准确率,每个训练特征类型经过随机森林分类后的准确率,每个训练特征类型经过神经网络分类后的准确率,这样就得到与所述训练特征类型对应的若干模型准确率;在本实施例中,每个模型得到的准确率均是使用若干训练特征数据进行调参后得到的,评估指标除了使用准确率还可以使用f1或者AUC。
得到若干模型准确率后,就可以根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型;相应的,所述根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型包括如下步骤:从若干所述模型准确率中选取最大的模型准确率;将最大的模型准确率对应的初始分类模型作为与所述训练特征类型对应的目标分类模型。例如,从得到的每个训练特征类型经过决策树分类后的准确率75%,每个训练特征类型经过逻辑回归分类后的准确率70%,每个训练特征类型经过支持向量机分类后的准确率65%,每个训练特征类型经过K近邻分类后的准确率60%,每个训练特征类型经过随机森林分类后的准确率55%,每个训练特征类型经过神经网络分类后的准确率50%中选取准确率最大的一个,将准确率最大的一个对应的初始分类模型(如决策树)作为与所述训练特征类型对应的目标分类模型。对于每一个训练特征类型都会得到一个与之对应的目标分类模型,实际中由于训练特征类型有7个,7个训练特征类型总共可以得到7个目标分类模型。
得到目标分类模型后,将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型。相应的,所述将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型包括如下步骤:基于预设的算法,将若干所述训练特征类型对应的目标分类模型进行累加,得到融合分类模型。
在本实施例中,预设的算法为软投票算法,可以通过软投票算法将若干所述训练特征类型对应的目标分类模型进行累加;也可以通过软投票算法将若干所述训练特征类型对应的目标分类模型进行加权求平均,得到融合分类模型,最终的融合分类模型会选取准确率较高的目标分类模型,实际中,优先考虑获取时间较短或者成本较低的目标分类模型。
示例性设备
如图4中所示,本发明实施例提供一种针对安卓中文应用市场的自动内容分级装置,该装置包括应用源数据获取模块401、提取提取模块402和预测类别概率集输出模块403,其中:应用源数据获取模块401,用于获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;
提取提取模块402,用于提取所述应用源数据的特征;
预测类别概率集输出模块403,用于将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图5所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种针对安卓中文应用市场的自动内容分级方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图5中的原理图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;
提取所述应用源数据的特征;
将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种针对安卓中文应用市场的自动内容分级方法,所述方法包括:获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;提取所述应用源数据的特征;将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。本发明通过提取多维的应用源数据的特征,使得提取的特征信息非常丰富,并将特征输入至已训练的融合分类模型,得到准确的预测类别概率集,最终得到分级结果,能对安卓中文应用市场进行内容分级。
基于上述实施例,本发明公开了一种针对安卓中文应用市场的自动内容分级方法,应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种针对安卓中文应用市场的自动内容分级方法,其特征在于,所述方法包括:
获取应用源数据;其中,所述应用源数据用于表征应用的属性信息;
提取所述应用源数据的特征;
将所述特征输入到已训练的融合分类模型,通过所述融合分类模型输出预测类别概率集,并根据所述预测类别概率集得到分级结果。
2.根据权利要求1所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述提取所述应用源数据的特征包括:
当所述应用源数据为文本时,将所述文本输入至预设的词向量模型,通过所述词向量模型输出与所述文本对应的特征;
当所述应用源数据为图像时,对所述图像进行过滤,并将过滤后的所述图像进行图像特征抽取,得到与所述图像对应的特征。
3.根据权利要求1所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述融合分类模型的生成过程包括:
获取若干训练特征类型;其中,每个训练特征类型包含若干训练特征数据;
针对每个训练特征类型,获取若干初始分类模型,并将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率;
根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型;
将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型。
4.根据权利要求3所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述将每个训练特征类型中的若干训练特征数据输入每个初始分类模型,通过所述初始分类模型得到与所述训练特征类型对应的若干模型准确率包括:
获取每个训练特征类型中的若干训练特征数据的真实分级结果;
将若干训练特征数据输入每个初始分类模型,得到每个训练特征类型中若干训练特征数据对应的预测分级结果;
统计每个训练特征类型中的若干训练特征数据的真实分级结果和每个训练特征类型中若干训练特征数据对应的预测分级结果相同的个数,得到每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目;
根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率。
5.根据权利要求4所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到与所述训练特征类型对应的若干模型准确率包括:
根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到每个训练特征类型经过每个初始分类模型分类后准确率;
根据每个训练特征类型经过每个初始分类模型分类后准确率,得到与所述训练特征类型对应的若干模型准确率。
6.根据权利要求5所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述根据每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目,得到每个训练特征类型经过每个初始分类模型分类后准确率包括:
获取每个训练特征类型中训练特征数据的总数;
将每个训练特征类型经过每个初始分类模型分类后的准确预测分类数目除以每个训练特征类型中训练特征数据的总数,得到每个训练特征类型经过每个初始分类模型分类后准确率。
7.根据权利要求3所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述根据若干所述模型准确率,得到与所述训练特征类型对应的目标分类模型包括:
从若干所述模型准确率中选取最大的模型准确率;
将最大的模型准确率对应的初始分类模型作为与所述训练特征类型对应的目标分类模型。
8.根据权利要求3所述的针对安卓中文应用市场的自动内容分级方法,其特征在于,所述将若干所述训练特征类型对应的目标分类模型进行融合,得到融合分类模型包括:
基于预设的算法,将若干所述训练特征类型对应的目标分类模型进行累加,得到融合分类模型。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任意一项所述的方法。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中任意一项所述的方法。
CN202111627853.4A 2021-12-28 2021-12-28 一种针对安卓中文应用市场的自动内容分级方法 Pending CN114492584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111627853.4A CN114492584A (zh) 2021-12-28 2021-12-28 一种针对安卓中文应用市场的自动内容分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111627853.4A CN114492584A (zh) 2021-12-28 2021-12-28 一种针对安卓中文应用市场的自动内容分级方法

Publications (1)

Publication Number Publication Date
CN114492584A true CN114492584A (zh) 2022-05-13

Family

ID=81496058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111627853.4A Pending CN114492584A (zh) 2021-12-28 2021-12-28 一种针对安卓中文应用市场的自动内容分级方法

Country Status (1)

Country Link
CN (1) CN114492584A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688107A (zh) * 2022-12-28 2023-02-03 卓望数码技术(深圳)有限公司 一种涉诈app检测系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115688107A (zh) * 2022-12-28 2023-02-03 卓望数码技术(深圳)有限公司 一种涉诈app检测系统和方法

Similar Documents

Publication Publication Date Title
US20190108242A1 (en) Search method and processing device
US8718383B2 (en) Image and website filter using image comparison
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
WO2021213123A1 (zh) 用户欺诈行为检测方法、装置、设备及存储介质
CN111783016A (zh) 一种网站分类方法、装置及设备
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN113221032A (zh) 链接风险检测方法、装置以及存储介质
CN114492584A (zh) 一种针对安卓中文应用市场的自动内容分级方法
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN111723280B (zh) 信息的处理方法、装置、存储介质及电子设备
CN110008352B (zh) 实体发现方法及装置
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN113806613B (zh) 训练图像集生成方法、装置、计算机设备及存储介质
CN115576789A (zh) 流失用户识别方法和系统
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN114398973A (zh) 一种媒体内容标签识别方法、装置、设备及存储介质
CN115757764A (zh) 一种信息识别方法、装置、设备及计算机可读存储介质
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品
CN113076453A (zh) 域名分类方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination