CN116861412A - 一种基于大数据的信息安全分析方法和系统 - Google Patents

一种基于大数据的信息安全分析方法和系统 Download PDF

Info

Publication number
CN116861412A
CN116861412A CN202310759065.3A CN202310759065A CN116861412A CN 116861412 A CN116861412 A CN 116861412A CN 202310759065 A CN202310759065 A CN 202310759065A CN 116861412 A CN116861412 A CN 116861412A
Authority
CN
China
Prior art keywords
image
undetected
type
data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310759065.3A
Other languages
English (en)
Inventor
陶继伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailing Weiye Technology Co ltd
Original Assignee
Shenzhen Sailing Weiye Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailing Weiye Technology Co ltd filed Critical Shenzhen Sailing Weiye Technology Co ltd
Priority to CN202310759065.3A priority Critical patent/CN116861412A/zh
Publication of CN116861412A publication Critical patent/CN116861412A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • G06K7/1408Methods for optical code recognition the method being specifically adapted for the type of code
    • G06K7/14172D bar codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明适用于信息安全技术领域,尤其涉及一种基于大数据的信息安全分析方法和系统,所述方法包括:获取待传输数据,从待传输数据中提取未检测图像;对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像;对第一类图像进行文本识别以及二维码识别,提取图像内容信息;根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。本发明通过对待传输数据进行图像的提取,对提取的图像进行内容识别,根据识别得到的内容在隔离沙箱中进行模拟访问,从而判定访问页面的安全性,基于识别结果判定图像的安全性,实现了对图像数据的安全评估,保证了信息安全。

Description

一种基于大数据的信息安全分析方法和系统
技术领域
本发明属于信息安全技术领域,尤其涉及一种基于大数据的信息安全分析方法和系统。
背景技术
信息安全的定义为:为数据处理系统建立和采用的技术、管理上的安全保护,为的是保护计算机硬件、软件、数据不因偶然和恶意的原因而遭到破坏、更改和泄露。
在当前的信息传输过程中,为了保证数据安全,通常会对数据进行扫描,但是对于图片内容,往往直接认为其为安全数据,因此如何对图片内容进行安全性检测,成为了保证数据安全的重要一环。
发明内容
本发明实施例的目的在于提供一种基于大数据的信息安全分析方法,旨在解决现有技术无法对图像数据进行安全性管理的问题。
本发明实施例是这样实现的,一种基于大数据的信息安全分析方法,所述方法包括:
获取待传输数据,从待传输数据中提取未检测图像;
对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容;
对第一类图像进行文本识别以及二维码识别,提取图像内容信息;
根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
优选的,所述对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像的步骤,具体包括:
对未检测图像进行预处理,将其转化为二值图像;
对二值化图像中的像素进行统计,按照像素的灰度值进行像素分类,得到多个像素区域;
对各个像素区域进行形状识别,判定其是否包含文本或者二维码,据此将其划分为第一类图像和第二类图像。
优选的,所述对第一类图像进行文本识别以及二维码识别,提取图像内容信息的步骤,具体包括:
对第一类图像进行文本识别,得到文本识别结果;
对第一类图像进行二值化处理后,提取各个像素区域,提取二维码图像;
基于文本识别结果和二维码图像进行信息提取,得到图像内容信息。
优选的,所述根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性的步骤,具体包括:
创建隔离沙箱,对图像内容信息进行内容扩充,得到扩充访问链接;
在隔离沙箱中构建虚拟系统,并按照顺序对扩充访问链接进行逐个访问,得到访问界面;
记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,判定是否存在风险链接,若存在,则判定对应未检测图像存在风险。
优选的,判定未检测图像存在风险时,对该未检测图像进行拦截。
优选的,对未检测图像进行拦截之后,以预设图像对其进行替换。
本发明实施例的另一目的在于提供一种基于大数据的信息安全分析系统,所述系统包括:
数据获取模块,用于获取待传输数据,从待传输数据中提取未检测图像;
图像分类模块,用于对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容;
图像内容提取模块,用于对第一类图像进行文本识别以及二维码识别,提取图像内容信息;
安全性检测模块,用于根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
优选的,所述图像分类模块包括:
二值化处理单元,用于对未检测图像进行预处理,将其转化为二值图像;
像素分区单元,用于对二值化图像中的像素进行统计,按照像素的灰度值进行像素分类,得到多个像素区域;
识别分类单元,用于对各个像素区域进行形状识别,判定其是否包含文本或者二维码,据此将其划分为第一类图像和第二类图像。
优选的,所述图像内容提取模块包括:
文本识别单元,用于对第一类图像进行文本识别,得到文本识别结果;
二维码提取单元,用于对第一类图像进行二值化处理后,提取各个像素区域,提取二维码图像;
内容识别单元,用于基于文本识别结果和二维码图像进行信息提取,得到图像内容信息。
优选的,所述安全性检测模块包括:
链接扩充单元,用于创建隔离沙箱,对图像内容信息进行内容扩充,得到扩充访问链接;
链接访问模块,用于在隔离沙箱中构建虚拟系统,并按照顺序对扩充访问链接进行逐个访问,得到访问界面;
风险判定单元,用于记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,判定是否存在风险链接,若存在,则判定对应未检测图像存在风险。
本发明实施例提供的一种基于大数据的信息安全分析方法,通过对待传输数据进行图像的提取,对提取的图像进行内容识别,根据识别得到的内容在隔离沙箱中进行模拟访问,从而判定访问页面的安全性,基于识别结果判定图像的安全性,实现了对图像数据的安全评估,保证了信息安全。
附图说明
图1为本发明实施例提供的一种基于大数据的信息安全分析方法的流程图;
图2为本发明实施例提供的对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像的步骤的流程图;
图3为本发明实施例提供的对第一类图像进行文本识别以及二维码识别,提取图像内容信息的步骤的流程图;
图4为本发明实施例提供的根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性的步骤的流程图;
图5为本发明实施例提供的一种基于大数据的信息安全分析系统的架构图;
图6为本发明实施例提供的一种图像分类模块的架构图;
图7为本发明实施例提供的一种图像内容提取模块的架构图;
图8为本发明实施例提供的一种安全性检测模块的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,为本发明实施例提供的一种基于大数据的信息安全分析方法的流程图,所述方法包括:
S100,获取待传输数据,从待传输数据中提取未检测图像。
在本步骤中,获取待传输数据,在数据传输的过程中,对所有数据均进行传输,为了保证数据的安全性,通常需要对数据进行分析,但是对于图片数据,由于其无法做为执行程序或者执行链接,因此无法确定其风险性,当风险链接是通过二维码图片或者体现在图片上的文本传输时,则无法及时对其进行拦截,因此为了保证数据的安全性,在对待传输数据进行安全性检查时,对其中包含的图像进行提取,得到未检测图像,未检测图像的安全性均未知,因此直接进行传输是不安全的。
S200,对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容。
在本步骤中,对未检测图像进行像素分析,通过对图像进行二值化处理,此时未检测图像即可以通过灰度值来进行表征,每一个像素均具有对应的灰度值,根据像素之间的灰度值数值大小关系,可以完成对像素的分类,从而将像素划分为多个类型的像素,从而多个像素构成了多个像素区域,根据像素区域判定该像素区域是否包含连接或者文本,若包含则将其划分为第一类图像,反之,则将其划分为第二类图像,对于第二类图像,其内容仅为图像,不包含文本信息,因此无法直接传输危险链接,直接进行传输即可。
S300,对第一类图像进行文本识别以及二维码识别,提取图像内容信息。
在本步骤中,对第一类图像进行文本识别以及二维码识别,第一步进行文本的识别,对于图像而言,有的链接是直接通过图像进行体现的,如在普通的人物图像中叠加风险链接文本,此时,若采用常规的风险识别方式,上述图像中的链接就无法被识别,因此该风险链接得以传递,此时通过文本识别确定各个文本的内容,并且对于包含二维码的图像,通过扫描的方式提取其中包含的内容,即可得到图像内容信息。
S400,根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
在本步骤中,根据图像内容信息进行模拟执行操作,为了保证安全性,构建隔离沙箱,在隔离沙箱中运行程序或者访问链接不会对设备的安全性造成影响,因此直接根据图像内容信息进行网页的访问,从而得到不同的访问页面,在进行访问的时候,对网页显示的内容进行记录,并且对网页打开时其访问的数据进行记录,基于网页显示的内容以及访问数据的类型进行判定,若网页显示的内容包含违规的内容或者访问无关的隐私数据,则判定存在风险,反之则判定为不存在风险。
如图2所示,作为本发明的一个优选实施例,所述对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像的步骤,具体包括:
S201,对未检测图像进行预处理,将其转化为二值图像。
在本步骤中,对未检测图像进行预处理,预处理的过程即为对未检测图像进行二值化处理,经过二值化处理的图像仅包含黑色和白色,每一个像素均具有对应的灰度值,灰度值的取值范围为0-255。
S202,对二值化图像中的像素进行统计,按照像素的灰度值进行像素分类,得到多个像素区域。
在本步骤中,对二值化图像中的像素进行统计,具体的,构建二维坐标系,为每一个像素确定一个坐标,那么确定每个坐标对应的像素的灰度值,将同一灰度值对应的所有像素划分为一个分类,同属于同一个分类的像素组成一个像素区域。
S203,对各个像素区域进行形状识别,判定其是否包含文本或者二维码,据此将其划分为第一类图像和第二类图像。
在本步骤中,对各个像素区域进行形状识别,通过形状识别判定其中是否包含文本,二维码由于其结构特点,其具有定位区,因此,可以据此判定是否存在二维码,若包含文本或者二维码则将其划分为第一类图像,未包含文本或者二维码的图像则为第二类图像。
如图3所示,作为本发明的一个优选实施例,所述对第一类图像进行文本识别以及二维码识别,提取图像内容信息的步骤,具体包括:
S301,对第一类图像进行文本识别,得到文本识别结果。
在本步骤中,对第一类图像进行文本识别,文字识别技术已经是成熟的技术,因此可以直接通过对第一类图像进行文本识别来提取其中包含的文本内容,即可得到文本识别结果。
S302,对第一类图像进行二值化处理后,提取各个像素区域,提取二维码图像。
在本步骤中,对第一类图像进行二值化处理,具有相同灰度值的像素构成了一个像素区域,那么不同灰度值的像素则会构成多个像素区域,基于像素区域对第一类图像进行二维码提取,得到二维码图像。
S303,基于文本识别结果和二维码图像进行信息提取,得到图像内容信息。
在本步骤中,基于文本识别结果和二维码图像进行信息提取,对于文本则直接得到图像内容信息,对于二维码图像信息,则通过扫描的方式确定该二维码包含的内容。
如图4所示,作为本发明的一个优选实施例,所述根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性的步骤,具体包括:
S401,创建隔离沙箱,对图像内容信息进行内容扩充,得到扩充访问链接。
在本步骤中,创建隔离沙箱,隔离沙箱是在设备中独立开辟的封闭的储存空间,其内的数据不与外部的数据进行交互,因此能够保证安全性,对于图像内容信息,其中包含的链接可能不完整,因此将所有类型的前缀进行填充,并且识别图像内容信息中的文本,加入标点等信息,如“WWWAABBCOM”,则加入标点,将其变为WWW.AABB.COM,对于原始图像文本内容也进行保存,得到多个扩充访问链接。
S402,在隔离沙箱中构建虚拟系统,并按照顺序对扩充访问链接进行逐个访问,得到访问界面。
在本步骤中,在隔离沙箱中构建虚拟系统,在虚拟系统中模拟手机、电脑等系统,并设置对应的隐私数据,如模拟号码、短信信息、相册数据等,并按照顺序对扩充访问链接进行逐个访问,对各个访问界面进行截图记录。
S403,记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,判定是否存在风险链接,若存在,则判定对应未检测图像存在风险。
在本步骤中,记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,对于各个访问界面访问的数据进行记录,若其访问了超过其权限范围之外的数据,则将其划分为风险链接,若其显示的访问界面存在风险,也将其划分为风险链接;判定未检测图像存在风险时,对该未检测图像进行拦截;对未检测图像进行拦截之后,以预设图像对其进行替换。
如图5所示,为本发明实施例提供的一种基于大数据的信息安全分析系统,所述系统包括:
数据获取模块100,用于获取待传输数据,从待传输数据中提取未检测图像。
在本系统中,数据获取模块100获取待传输数据,在数据传输的过程中,对所有数据均进行传输,为了保证数据的安全性,通常需要对数据进行分析,但是对于图片数据,由于其无法做为执行程序或者执行链接,因此无法确定其风险性,当风险链接是通过二维码图片或者体现在图片上的文本传输时,则无法及时对其进行拦截,因此为了保证数据的安全性,在对待传输数据进行安全性检查时,对其中包含的图像进行提取,得到未检测图像,未检测图像的安全性均未知,因此直接进行传输是不安全的。
图像分类模块200,用于对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容。
在本系统中,图像分类模块200对未检测图像进行像素分析,通过对图像进行二值化处理,此时未检测图像即可以通过灰度值来进行表征,每一个像素均具有对应的灰度值,根据像素之间的灰度值数值大小关系,可以完成对像素的分类,从而将像素划分为多个类型的像素,从而多个像素构成了多个像素区域,根据像素区域判定该像素区域是否包含连接或者文本,若包含则将其划分为第一类图像,反之,则将其划分为第二类图像,对于第二类图像,其内容仅为图像,不包含文本信息,因此无法直接传输危险链接,直接进行传输即可。
图像内容提取模块300,用于对第一类图像进行文本识别以及二维码识别,提取图像内容信息。
在本系统中,图像内容提取模块300对第一类图像进行文本识别以及二维码识别,第一步进行文本的识别,对于图像而言,有的链接是直接通过图像进行体现的,如在普通的人物图像中叠加风险链接文本,此时,若采用常规的风险识别方式,上述图像中的链接就无法被识别,因此该风险链接得以传递,此时通过文本识别确定各个文本的内容,并且对于包含二维码的图像,通过扫描的方式提取其中包含的内容,即可得到图像内容信息。
安全性检测模块400,用于根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
在本系统中,安全性检测模块400根据图像内容信息进行模拟执行操作,为了保证安全性,构建隔离沙箱,在隔离沙箱中运行程序或者访问链接不会对设备的安全性造成影响,因此直接根据图像内容信息进行网页的访问,从而得到不同的访问页面,在进行访问的时候,对网页显示的内容进行记录,并且对网页打开时其访问的数据进行记录,基于网页显示的内容以及访问数据的类型进行判定,若网页显示的内容包含违规的内容或者访问无关的隐私数据,则判定存在风险,反之则判定为不存在风险。
如图6所示,作为本发明的一个优选实施例,所述图像分类模块200包括:
二值化处理单元201,用于对未检测图像进行预处理,将其转化为二值图像。
在本模块中,二值化处理单元201对未检测图像进行预处理,预处理的过程即为对未检测图像进行二值化处理,经过二值化处理的图像仅包含黑色和白色,每一个像素均具有对应的灰度值,灰度值的取值范围为0-255。
像素分区单元202,用于对二值化图像中的像素进行统计,按照像素的灰度值进行像素分类,得到多个像素区域。
在本模块中,像素分区单元202对二值化图像中的像素进行统计,具体的,构建二维坐标系,为每一个像素确定一个坐标,那么确定每个坐标对应的像素的灰度值,将同一灰度值对应的所有像素划分为一个分类,同属于同一个分类的像素组成一个像素区域。
识别分类单元203,用于对各个像素区域进行形状识别,判定其是否包含文本或者二维码,据此将其划分为第一类图像和第二类图像。
在本模块中,识别分类单元203对各个像素区域进行形状识别,通过形状识别判定其中是否包含文本,二维码由于其结构特点,其具有定位区,因此,可以据此判定是否存在二维码,若包含文本或者二维码则将其划分为第一类图像,未包含文本或者二维码的图像则为第二类图像。
如图7所示,作为本发明的一个优选实施例,所述图像内容提取模块300包括:
文本识别单元301,用于对第一类图像进行文本识别,得到文本识别结果。
在本模块中,文本识别单元301对第一类图像进行文本识别,文字识别技术已经是成熟的技术,因此可以直接通过对第一类图像进行文本识别来提取其中包含的文本内容,即可得到文本识别结果。
二维码提取单元302,用于对第一类图像进行二值化处理后,提取各个像素区域,提取二维码图像。
在本模块中,二维码提取单元302对第一类图像进行二值化处理,具有相同灰度值的像素构成了一个像素区域,那么不同灰度值的像素则会构成多个像素区域,基于像素区域对第一类图像进行二维码提取,得到二维码图像。
内容识别单元303,用于基于文本识别结果和二维码图像进行信息提取,得到图像内容信息。
在本模块中,内容识别单元303基于文本识别结果和二维码图像进行信息提取,对于文本则直接得到图像内容信息,对于二维码图像信息,则通过扫描的方式确定该二维码包含的内容。
如图8所示,作为本发明的一个优选实施例,所述安全性检测模块400包括:
链接扩充单元401,用于创建隔离沙箱,对图像内容信息进行内容扩充,得到扩充访问链接。
在本模块中,链接扩充单元401创建隔离沙箱,隔离沙箱是在设备中独立开辟的封闭的储存空间,其内的数据不与外部的数据进行交互,因此能够保证安全性,对于图像内容信息,其中包含的链接可能不完整,因此将所有类型的前缀进行填充,并且识别图像内容信息中的文本,加入标点等信息,如“WWWAABBCOM”,则加入标点,将其变为WWW.AABB.COM,对于原始图像文本内容也进行保存,得到多个扩充访问链接。
链接访问模块402,用于在隔离沙箱中构建虚拟系统,并按照顺序对扩充访问链接进行逐个访问,得到访问界面。
在本模块中,链接访问模块402在隔离沙箱中构建虚拟系统,在虚拟系统中模拟手机、电脑等系统,并设置对应的隐私数据,如模拟号码、短信信息、相册数据等,并按照顺序对扩充访问链接进行逐个访问,对各个访问界面进行截图记录。
风险判定单元403,用于记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,判定是否存在风险链接,若存在,则判定对应未检测图像存在风险。
在本模块中,风险判定单元403记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,对于各个访问界面访问的数据进行记录,若其访问了超过其权限范围之外的数据,则将其划分为风险链接,若其显示的访问界面存在风险,也将其划分为风险链接;判定未检测图像存在风险时,对该未检测图像进行拦截;对未检测图像进行拦截之后,以预设图像对其进行替换。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待传输数据,从待传输数据中提取未检测图像;
对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容;
对第一类图像进行文本识别以及二维码识别,提取图像内容信息;
根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
获取待传输数据,从待传输数据中提取未检测图像;
对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容;
对第一类图像进行文本识别以及二维码识别,提取图像内容信息;
根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的信息安全分析方法,其特征在于,所述方法包括:
获取待传输数据,从待传输数据中提取未检测图像;
对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容;
对第一类图像进行文本识别以及二维码识别,提取图像内容信息;
根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
2.根据权利要求1所述的基于大数据的信息安全分析方法,其特征在于,所述对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像的步骤,具体包括:
对未检测图像进行预处理,将其转化为二值图像;
对二值化图像中的像素进行统计,按照像素的灰度值进行像素分类,得到多个像素区域;
对各个像素区域进行形状识别,判定其是否包含文本或者二维码,据此将其划分为第一类图像和第二类图像。
3.根据权利要求2所述的基于大数据的信息安全分析方法,其特征在于,所述对第一类图像进行文本识别以及二维码识别,提取图像内容信息的步骤,具体包括:
对第一类图像进行文本识别,得到文本识别结果;
对第一类图像进行二值化处理后,提取各个像素区域,提取二维码图像;
基于文本识别结果和二维码图像进行信息提取,得到图像内容信息。
4.根据权利要求2所述的基于大数据的信息安全分析方法,其特征在于,所述根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性的步骤,具体包括:
创建隔离沙箱,对图像内容信息进行内容扩充,得到扩充访问链接;
在隔离沙箱中构建虚拟系统,并按照顺序对扩充访问链接进行逐个访问,得到访问界面;
记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,判定是否存在风险链接,若存在,则判定对应未检测图像存在风险。
5.根据权利要求4所述的基于大数据的信息安全分析方法,其特征在于,判定未检测图像存在风险时,对该未检测图像进行拦截。
6.根据权利要求5所述的基于大数据的信息安全分析方法,其特征在于,对未检测图像进行拦截之后,以预设图像对其进行替换。
7.一种基于大数据的信息安全分析系统,其特征在于,所述系统包括:
数据获取模块,用于获取待传输数据,从待传输数据中提取未检测图像;
图像分类模块,用于对未检测图像进行像素分析,将未检测图像划分为第一类图像和第二类图像,所述第一类图像中包含可读取数据,第二类图像中不包含可读取内容;
图像内容提取模块,用于对第一类图像进行文本识别以及二维码识别,提取图像内容信息;
安全性检测模块,用于根据图像内容信息进行模拟执行操作,根据模拟执行操作的结果判定对应未检测图像的安全性。
8.根据权利要求7所述的基于大数据的信息安全分析系统,其特征在于,所述图像分类模块包括:
二值化处理单元,用于对未检测图像进行预处理,将其转化为二值图像;
像素分区单元,用于对二值化图像中的像素进行统计,按照像素的灰度值进行像素分类,得到多个像素区域;
识别分类单元,用于对各个像素区域进行形状识别,判定其是否包含文本或者二维码,据此将其划分为第一类图像和第二类图像。
9.根据权利要求8所述的基于大数据的信息安全分析系统,其特征在于,所述图像内容提取模块包括:
文本识别单元,用于对第一类图像进行文本识别,得到文本识别结果;
二维码提取单元,用于对第一类图像进行二值化处理后,提取各个像素区域,提取二维码图像;
内容识别单元,用于基于文本识别结果和二维码图像进行信息提取,得到图像内容信息。
10.根据权利要求8所述的基于大数据的信息安全分析系统,其特征在于,所述安全性检测模块包括:
链接扩充单元,用于创建隔离沙箱,对图像内容信息进行内容扩充,得到扩充访问链接;
链接访问模块,用于在隔离沙箱中构建虚拟系统,并按照顺序对扩充访问链接进行逐个访问,得到访问界面;
风险判定单元,用于记录进入各个访问界面的过程中被调取的数据内容并识别访问界面,判定是否存在风险链接,若存在,则判定对应未检测图像存在风险。
CN202310759065.3A 2023-06-26 2023-06-26 一种基于大数据的信息安全分析方法和系统 Pending CN116861412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310759065.3A CN116861412A (zh) 2023-06-26 2023-06-26 一种基于大数据的信息安全分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310759065.3A CN116861412A (zh) 2023-06-26 2023-06-26 一种基于大数据的信息安全分析方法和系统

Publications (1)

Publication Number Publication Date
CN116861412A true CN116861412A (zh) 2023-10-10

Family

ID=88226059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310759065.3A Pending CN116861412A (zh) 2023-06-26 2023-06-26 一种基于大数据的信息安全分析方法和系统

Country Status (1)

Country Link
CN (1) CN116861412A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014176912A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Two dimensional-code scanning method and device
CN105704100A (zh) * 2014-11-26 2016-06-22 阿里巴巴集团控股有限公司 一种文件识别方法及装置
CN105718792A (zh) * 2015-08-13 2016-06-29 哈尔滨安天科技股份有限公司 一种基于沙箱的二维码检测方法及系统
WO2020253119A1 (zh) * 2019-06-18 2020-12-24 深圳壹账通智能科技有限公司 图形验证码识别方法、装置、可读存储介质及终端设备
WO2021169529A1 (zh) * 2020-02-25 2021-09-02 支付宝(杭州)信息技术有限公司 识别码图像中的风险的方法、装置以及设备
CN113987472A (zh) * 2021-09-14 2022-01-28 北京纽盾网安信息技术有限公司 网页浏览的安全性检测方法、装置及系统
CN115567284A (zh) * 2022-09-22 2023-01-03 上海天擎天拓软件技术有限公司 一种基于文字及图片的内容安全过滤方法及系统
CN116015772A (zh) * 2022-12-12 2023-04-25 深圳安巽科技有限公司 恶意网址的处理方法、装置、设备及存储介质
CN116074278A (zh) * 2022-12-30 2023-05-05 北京斗象信息科技有限公司 恶意邮件的识别方法、系统、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014176912A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Two dimensional-code scanning method and device
CN105704100A (zh) * 2014-11-26 2016-06-22 阿里巴巴集团控股有限公司 一种文件识别方法及装置
CN105718792A (zh) * 2015-08-13 2016-06-29 哈尔滨安天科技股份有限公司 一种基于沙箱的二维码检测方法及系统
WO2020253119A1 (zh) * 2019-06-18 2020-12-24 深圳壹账通智能科技有限公司 图形验证码识别方法、装置、可读存储介质及终端设备
WO2021169529A1 (zh) * 2020-02-25 2021-09-02 支付宝(杭州)信息技术有限公司 识别码图像中的风险的方法、装置以及设备
CN113987472A (zh) * 2021-09-14 2022-01-28 北京纽盾网安信息技术有限公司 网页浏览的安全性检测方法、装置及系统
CN115567284A (zh) * 2022-09-22 2023-01-03 上海天擎天拓软件技术有限公司 一种基于文字及图片的内容安全过滤方法及系统
CN116015772A (zh) * 2022-12-12 2023-04-25 深圳安巽科技有限公司 恶意网址的处理方法、装置、设备及存储介质
CN116074278A (zh) * 2022-12-30 2023-05-05 北京斗象信息科技有限公司 恶意邮件的识别方法、系统、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108280348B (zh) 基于rgb图像映射的安卓恶意软件识别方法
CN108579094B (zh) 一种用户界面检测方法及相关装置、系统和存储介质
CN111931179B (zh) 基于深度学习的云端恶意程序检测系统及方法
CN109471853B (zh) 数据降噪方法、装置、计算机设备和存储介质
CN112416777B (zh) 文本显示测试方法、装置、计算机设备和存储介质
CN115035539B (zh) 文档异常检测网络模型构建方法、装置、电子设备及介质
CN113282905A (zh) 一种登录测试方法及装置
CN113553583A (zh) 信息系统资产安全风险评估方法与装置
CN111597553A (zh) 病毒查杀中的进程处理方法、装置、设备及存储介质
CN116861412A (zh) 一种基于大数据的信息安全分析方法和系统
Doan et al. Image tampering detection based on a statistical model
CN115766090A (zh) 一种多特征融合神经网络网络安全检测方法
CN111476086B (zh) 烟火识别方法、装置、计算机设备和可读存储介质
CN115688107A (zh) 一种涉诈app检测系统和方法
CN114090650A (zh) 一种样本数据识别方法、装置、电子设备及存储介质
CN112464237B (zh) 一种静态代码安全诊断方法及装置
CN114579965A (zh) 一种恶意代码的检测方法、装置及计算机可读存储介质
CN112446850A (zh) 适配测试方法、装置及电子设备
CN106055693A (zh) 一种信息处理方法及终端
CN112883375A (zh) 恶意文件识别方法、装置、设备及存储介质
CN115563655B (zh) 一种用于网络安全的用户危险行为识别方法及系统
CN115859292B (zh) 一种涉诈app检测系统和判定方法以及存储介质
CN117079293A (zh) 风险数据识别方法、装置、计算机设备及存储介质
CN116132175B (zh) 一种基于事件驱动网络引擎的远程后门检测方法
CN111784719B (zh) 基于图片分析态势感知页面热点分布准确性的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination