CN110457895A - 一种pc应用程序违规内容监测方法及装置 - Google Patents
一种pc应用程序违规内容监测方法及装置 Download PDFInfo
- Publication number
- CN110457895A CN110457895A CN201910743225.9A CN201910743225A CN110457895A CN 110457895 A CN110457895 A CN 110457895A CN 201910743225 A CN201910743225 A CN 201910743225A CN 110457895 A CN110457895 A CN 110457895A
- Authority
- CN
- China
- Prior art keywords
- application program
- violation
- violation content
- screenshot
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/52—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种PC应用程序违规内容监测方法,该方法包括:下载PC应用程序;指示虚拟机运行所述PC应用程序;在所述PC应用程序运行过程中监测API序列、网络通信数据序列;将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站URL、违规网站IP。采用本发明能够对PC应用程序的违规内容进行自动、客观正确的判断。
Description
技术领域
本发明涉及互联网信息技术领域,特别涉及一种PC应用程序违规内容监测方法及装置。
背景技术
随着互联网的迅猛发展,各种应用程序已成为传播各类违法信息的重要渠道,据不完全统计,发布传播暴恐、色情等各类违法不良信息的应用数量已高达上千种,此外还有数千种新闻、公共社交、阅读、娱乐等应用不同程度的发布或者存在个别用户传播违法不良信息内容。由于个人计算机(PC)应用种类繁多,且容易传播,违规内容一旦出现,在极短时间内即可造成大范围传播。因此,对于大量不良应用内容采集监测,及时发现和预警违法信息内容,从源头上及时采取措施对有害信息传播的控制极为重要。
对于违规内容类的应用软件的检测技术较少,更多的是Web端违规内容的检测方法。在Web端违规内容检测方面大部分通过特征(如人体部位,关键暴恐元素等)利用机器学习进行检测,并进行半人工的复核。
目前主流的违规内容的检测技术主要基于图片的特征,辅以人工复核的办法,具体不足如下:
一、客观正确性不足
人工判断违规内容的方法,其过程存在过多的人为主观因素,由于个人原因会产生误判行为,使用这种方法客观正确性不足。
二、人工参与度高,效率低
如果人工判断违规内容,测试需要花费大量时间,造成效率低的后果。
发明内容
本发明的目的在于提供了一种PC应用程序违规内容监测方法及装置,能够对PC应用程序的违规内容进行自动、客观正确的判断。
本发明实施例提供了一种PC应用程序违规内容监测方法,该方法包括:
下载PC应用程序;指示虚拟机运行所述PC应用程序;在所述PC应用程序运行过程中监测API序列、网络通信数据序列;将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站URL、违规网站IP。
本发明实施例还提供了一种PC应用程序违规内容监测装置,该装置包括:下载单元,下载PC应用程序;指示单元,指示虚拟机运行所述PC应用程序;监测单元,在所述PC应用程序运行过程中监测API序列、网络通信数据序列;匹配确认单元,将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站URL、违规网站IP。
本发明提供的PC应用程序违规内容监测方法及装置,下载待测PC应用程序,并动态运行所述PC应用程序,获取其运行过程中的信息包括API序列、网络通信数据序列,将所获取的信息与违规内容特征库进行匹配,确定待测PC应用程序是否包含违规内容。与现有技术相比,本发明整个分析过程均由自动化工具自行完成,没有人工主观成分参与,分类信息具有客观正确性,形成简洁、高效的PC应用程序违规内容检测方法。
附图说明
图1为本发明实施例一种PC应用程序违规内容监测方法流程示意图。
图2为本发明实施例一种PC应用程序违规内容监测装置结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明所述方案作进一步地详细说明。
面对违规内容应用带来的威胁,以及现有检测方法的缺陷,本发明提出一种PC应用程序违规内容监测方法及装置,下载指定的PC应用程序,并动态运行所述PC应用程序,获取其运行过程中的信息包括API序列、网络通信数据序列,将所获取的信息与违规内容特征库进行匹配,确定待测PC应用程序是否包含违规内容。进一步地,在没有达到匹配次数的阈值时,本发明采用视觉词袋模型(BOVW)进行违规内容分类,对内容是否违规进行精准分类。
本发明实施例提出的一种PC应用程序违规内容监测方法,其流程示意图如图1所示,该方法包括:
步骤11、下载PC应用程序。
其中,所述下载PC应用程序的方法具体包括:
步骤111、向服务器发送查看PC应用程序的请求;
步骤112、根据服务器的响应获取所需要下载的PC应用程序及其简介信息。
其中,可以根据具体设定的任务条件下载所需要的PC应用程序。例如,可以根据某一关键字、或者更新日期等作为任务条件,下载所需要的PC应用程序。向服务器发送请求时,通过模拟互联网的网页访问行为获取要下载的PC应用程序URL,并根据要下载的PC应用程序URL下载PC应用程序,存储到数据库中,同时获取该PC应用程序的简介信息存储到相应数据库中。
URL是用于完整描述因特网(Internet)上网页和其他资源的地址的一种标识方法,对应的,Internet上的每一个网页都具有一个唯一的URL。
步骤12、指示虚拟机运行所述PC应用程序;
其中,指示虚拟机通过识别PC应用程序的各组件并点击相关按钮,以完整遍历PC应用程序运行的流程。
步骤13、在所述PC应用程序运行过程中监测应用程序编程接口(API)序列、网络通信数据序列;
其中,API序列指的是PC应用程序运行过程中使用的接口序列。网络通信数据序列包括:源/目的IP地址、源/目的端口、网络协议类型、通信开始/结束时间、客户端向服务器端发送的请求、服务器端向客户端发送的响应。
步骤14、将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站统一资源定位符URL、违规网站IP。
至此,完成本发明的PC应用程序违规内容监测方法。
优选地,在所述PC应用程序运行过程中,该方法进一步包括:对PC应用程序的实时状态进行截图,并对所述截图进行裁剪和灰度处理;所述截图包括PC应用程序运行过程中的安装画面、运行画面、弹出的网页画面、弹出的广告画面。本步骤中,截图的目的是后续将所截图片输入到模型中进行精准分类。
优选地,该方法进一步包括:在没有达到匹配次数的阈值时,将处理后的截图输入到视觉词袋模型(BOVW)进行分类,进一步确定所述PC应用程序是否包含违规内容。也就是说,在与违规内容特征库进行匹配,没有达到匹配次数的阈值时,进一步采用视觉词袋模型进行违规内容精准分类。
其中,在视觉词袋模型中,图片被表示为视觉词汇(visual words)的直方图。视觉词汇表示从图片中提取出来的局部特征。该模型经过训练后,就可以向模型输入待检测的图片,输出为内容是否违规的分类结果。视觉词袋模型训练过程如下:1)对图像进行预处理,图像增强,分割,图像统一格式,统一规格等等;2)接着利用SIFT算法,从每类图像中提取视觉词汇,将所有的视觉词汇集合在一起;3)利用k-means算法构造单词表,形成k个词汇的单词表;4)利用单词表中的词汇表示训练集中的样本,统计单词表中每个单词在图像中出现的次数,从而将图像表示成为一个K维数值向量;5)图片描述完毕后,将生成的图片特征向量输入SVM分类器训练模型。
通过使用本发明PC应用程序违规内容自动化检测方法,国内各大应用商店可以对其应用软件库中的应用软件进行自动化的机器学习分类,快速高效地得到违规内容分类结果,能够有效的解决商店内存在的违规内容应用的问题,有效的净化应用商店平台。
在另外一个实施例中,基于同样的发明构思,本发明实施例还提出了一种PC应用程序违规内容监测装置,结构示意图如图2所示,该装置包括:
下载单元201,下载PC应用程序;
指示单元202,指示虚拟机运行所述PC应用程序;
监测单元203,在所述PC应用程序运行过程中监测应用程序编程接口API序列、网络通信数据序列;
匹配确认单元204,将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站统一资源定位符URL、违规网站IP。
该装置进一步包括截图单元205,在所述PC应用程序运行过程中,对PC应用程序的实时状态进行截图,并对所述截图进行裁剪和灰度处理;所述截图包括PC应用程序运行过程中的安装画面、运行画面、弹出的网页画面、弹出的广告画面。
该装置进一步包括模型分类单元206:在没有达到匹配次数的阈值时,将处理后的截图输入到视觉词袋模型BOVW进行分类,进一步确定所述PC应用程序是否包含违规内容。
所述网络通信数据序列包括:源/目的IP地址、源/目的端口、网络协议类型、通信开始/结束时间、客户端向服务器端发送的请求、服务器端向客户端发送的响应。
所述下载单元201具体用于:
向服务器发送查看PC应用程序的请求;
根据服务器的响应获取所需要下载的PC应用程序及其简介信息。
综上,本发明的有益效果在于,
一、客观正确性强
本文发明的PC应用程序违规内容自动化检测方法,整个分析过程均由自动化工具自行完成,没有人工主观成分参与,分类信息具有客观正确性。
二、适用于PC应用程序检测的情况
本文发明的PC应用程序违规内容自动化检测方法,适用于PC应用程序内容繁杂,违规内容隐藏深的情况。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种PC应用程序违规内容监测方法,其特征在于,该方法包括:
下载个人计算机PC应用程序;
指示虚拟机运行所述PC应用程序;
在所述PC应用程序运行过程中监测应用程序编程接口API序列、网络通信数据序列;
将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站统一资源定位符URL、违规网站IP。
2.如权利要求1所述的方法,其特征在于,在所述PC应用程序运行过程中,该方法进一步包括:对PC应用程序的实时状态进行截图,并对所述截图进行裁剪和灰度处理;所述截图包括PC应用程序运行过程中的安装画面、运行画面、弹出的网页画面、弹出的广告画面。
3.如权利要求2所述的方法,其特征在于,该方法进一步包括:在没有达到匹配次数的阈值时,将处理后的截图输入到视觉词袋模型BOVW进行分类,进一步确定所述PC应用程序是否包含违规内容。
4.如权利要求1所述的方法,其特征在于,所述网络通信数据序列包括:源/目的IP地址、源/目的端口、网络协议类型、通信开始/结束时间、客户端向服务器端发送的请求、服务器端向客户端发送的响应。
5.如权利要求1所述的方法,其特征在于,所述下载PC应用程序的方法具体包括:
向服务器发送查看PC应用程序的请求;
根据服务器的响应获取所需要下载的PC应用程序及其简介信息。
6.一种PC应用程序违规内容监测装置,其特征在于,该装置包括:
下载单元,下载个人计算机PC应用程序;
指示单元,指示虚拟机运行所述PC应用程序;
监测单元,在所述PC应用程序运行过程中监测应用程序编程接口API序列、网络通信数据序列;
匹配确认单元,将API序列、网络通信数据序列与违规内容特征库进行匹配,当达到匹配次数的阈值时,确定该PC应用程序包含违规内容;所述违规内容特征库包括人工收集的可疑API序列、违规内容关键字、违规网站统一资源定位符URL、违规网站IP。
7.如权利要求6所述的装置,其特征在于,该装置进一步包括截图单元,在所述PC应用程序运行过程中,对PC应用程序的实时状态进行截图,并对所述截图进行裁剪和灰度处理;所述截图包括PC应用程序运行过程中的安装画面、运行画面、弹出的网页画面、弹出的广告画面。
8.如权利要求7所述的装置,其特征在于,该装置进一步包括模型分类单元:在没有达到匹配次数的阈值时,将处理后的截图输入到视觉词袋模型BOVW进行分类,进一步确定所述PC应用程序是否包含违规内容。
9.如权利要求6所述的装置,其特征在于,所述网络通信数据序列包括:源/目的IP地址、源/目的端口、网络协议类型、通信开始/结束时间、客户端向服务器端发送的请求、服务器端向客户端发送的响应。
10.如权利要求6所述的装置,其特征在于,所述下载单元具体用于:
向服务器发送查看PC应用程序的请求;
根据服务器的响应获取所需要下载的PC应用程序及其简介信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910743225.9A CN110457895A (zh) | 2019-08-13 | 2019-08-13 | 一种pc应用程序违规内容监测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910743225.9A CN110457895A (zh) | 2019-08-13 | 2019-08-13 | 一种pc应用程序违规内容监测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110457895A true CN110457895A (zh) | 2019-11-15 |
Family
ID=68486101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910743225.9A Pending CN110457895A (zh) | 2019-08-13 | 2019-08-13 | 一种pc应用程序违规内容监测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457895A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400132A (zh) * | 2020-03-09 | 2020-07-10 | 北京版信通技术有限公司 | 上架app的自动监测方法及系统 |
CN114782549A (zh) * | 2022-04-22 | 2022-07-22 | 南京新远见智能科技有限公司 | 基于定点标识的相机标定方法及系统 |
CN115314899A (zh) * | 2022-07-05 | 2022-11-08 | 南京邮电大学 | 一种基于大数据平台的网络安全管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156611A (zh) * | 2015-03-25 | 2016-11-23 | 北京奇虎科技有限公司 | 智能手机应用程序的动态分析方法及系统 |
CN109726551A (zh) * | 2017-10-31 | 2019-05-07 | 武汉安天信息技术有限责任公司 | 一种应用安装前不良行为的展示方法和系统 |
-
2019
- 2019-08-13 CN CN201910743225.9A patent/CN110457895A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156611A (zh) * | 2015-03-25 | 2016-11-23 | 北京奇虎科技有限公司 | 智能手机应用程序的动态分析方法及系统 |
CN109726551A (zh) * | 2017-10-31 | 2019-05-07 | 武汉安天信息技术有限责任公司 | 一种应用安装前不良行为的展示方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400132A (zh) * | 2020-03-09 | 2020-07-10 | 北京版信通技术有限公司 | 上架app的自动监测方法及系统 |
CN111400132B (zh) * | 2020-03-09 | 2023-08-18 | 北京版信通技术有限公司 | 上架app的自动监测方法及系统 |
CN114782549A (zh) * | 2022-04-22 | 2022-07-22 | 南京新远见智能科技有限公司 | 基于定点标识的相机标定方法及系统 |
CN114782549B (zh) * | 2022-04-22 | 2023-11-24 | 南京新远见智能科技有限公司 | 基于定点标识的相机标定方法及系统 |
CN115314899A (zh) * | 2022-07-05 | 2022-11-08 | 南京邮电大学 | 一种基于大数据平台的网络安全管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106557695B (zh) | 一种恶意应用检测方法和系统 | |
CN108734184B (zh) | 一种对敏感图像进行分析的方法及装置 | |
CN110457895A (zh) | 一种pc应用程序违规内容监测方法及装置 | |
WO2017118333A1 (zh) | 一种基于数据驱动预测用户问题的方法及装置 | |
CN106446179B (zh) | 热点话题的生成方法及装置 | |
CN106663167A (zh) | 识别在线服务的行为变化 | |
CN112016769B (zh) | 管理相对人风险预测以及信息推荐方法及装置 | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
JP7040535B2 (ja) | セキュリティ情報処理装置、情報処理方法及びプログラム | |
CN110413842B (zh) | 基于舆情态势感知的内容审核方法系统电子设备及介质 | |
CN111200607A (zh) | 一种基于多层lstm的线上用户行为分析方法 | |
CN104731937A (zh) | 用户行为数据的处理方法及装置 | |
CN111159241A (zh) | 一种点击转化预估方法及装置 | |
CN111355628A (zh) | 一种模型训练方法、业务识别方法、装置和电子装置 | |
CN113282920B (zh) | 日志异常检测方法、装置、计算机设备和存储介质 | |
CN108595580B (zh) | 新闻推荐方法、装置、服务器及存储介质 | |
CN111444447A (zh) | 内容推荐页面的展现方法及装置 | |
CN103605670B (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
CN111784360A (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN116578783A (zh) | 一种基于候选感知细粒度交互信息的新闻推荐方法及系统 | |
JP2005267095A (ja) | 情報表示方法及び装置及び情報表示プログラム | |
CN110069691A (zh) | 用于处理点击行为数据的方法和装置 | |
CN115037790A (zh) | 异常注册识别方法、装置、设备及存储介质 | |
CN113569879A (zh) | 异常识别模型的训练方法、异常账号识别方法及相关装置 | |
CN111353803B (zh) | 广告主分类方法及装置、计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191115 |
|
RJ01 | Rejection of invention patent application after publication |