CN112613074A - 一种敏感文件识别方法、装置、设备及介质 - Google Patents
一种敏感文件识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112613074A CN112613074A CN202011612386.3A CN202011612386A CN112613074A CN 112613074 A CN112613074 A CN 112613074A CN 202011612386 A CN202011612386 A CN 202011612386A CN 112613074 A CN112613074 A CN 112613074A
- Authority
- CN
- China
- Prior art keywords
- file
- sensitive
- stored
- scanning
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004590 computer program Methods 0.000 claims description 14
- 230000035945 sensitivity Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008676 import Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种敏感文件识别方法、装置、设备及介质,用以解决现有技术中文件服务器无法识别其内存储的文件是否为敏感文件的问题。该方法包括:获取扫描设备发送的脚本文件,基于该脚本文件进行以下操作:确定预先保存的文件的目标文件类型,确定该文件的校验值,确定该扫描设备中是否保存该校验值;若否,根据预先保存的敏感文件识别规则,确定该文件是否为敏感文件,由于文件服务器能够基于扫描设备发送的脚本文件确定文件是否敏感,降低敏感文件泄露的风险。
Description
技术领域
本发明涉及数据安全技术领域,尤其涉及一种敏感文件识别方法、装置、设备及介质。
背景技术
随着信息技术的不断发展,在文件服务器环境中,可能存在各种各样的文件,且用户有时不能确定这些文件中哪些文件是敏感文件,哪些是非敏感文件。
在现有技术中,文件服务器只能够提供对于文件进行存储的功能,却不能确定存储在文件服务器中的文件是否为敏感文件,因此也就不能够帮助用户高效解决发现敏感文件的问题,增加了敏感文件泄露的风险。
发明内容
本发明提供了一种敏感文件识别方法、装置、设备及介质,用以解决现有技术中不能够帮助用户高效解决发现敏感文件的问题,增加了敏感文件泄露的风险的问题。
第一方面,本发明提供了一种敏感文件识别方法,所述方法包括:
获取扫描设备发送的脚本文件,基于所述脚本文件进行以下操作:
确定预先保存的文件的目标文件类型;
确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;
若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
进一步地,所述获取扫描设备发送的脚本文件包括:
接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
进一步地,所述根据所述脚本文件确定预先保存的文件的目标文件类型包括:
基于预先保存的所述文件的文件名称的后缀,确定所述文件的目标文件类型。
进一步地,所述目标文件类型包括:
文本文件和二进制文件。
进一步地,所述确定预先保存的文件的目标文件类型之后,确定所述文件的校验值之前,所述方法还包括:
判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
进一步地,所述判断所述目标文件类型的文件是否支持扫描包括:
若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;
若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
进一步地,所述校验值包括:MD5值。
进一步地,所述根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件,包括:
获取所述文件的内容;
根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
进一步地,所述获取所述文件的内容之前,所述方法还包括:
若所述文件为二进制文件,则将所述文件发送给扫描设备,使得所述扫描设备识别所述二进制文件是否为敏感文件。
进一步地,所述获取所述文件中的内容包括:
将所述文件划分为至少两个子文件;
获取每个所述子文件的内容。
第二方面,本发明还提供了一种敏感文件识别装置,所述装置包括:
获取模块,用于获取扫描设备发送的脚本文件;
识别模块,用于基于所述脚本文件进行以下操作:确定预先保存的文件的目标文件类型;确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
进一步地,所述获取模块,具体用于接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
进一步地,所述识别模块,具体用于基于所述脚本文件识别预先保存的所述文件的文件名称的后缀,确定所述文件的目标文件类型。
进一步地,所述识别模块,还用于判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
进一步地,所述识别模块,具体用于若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
进一步地,所述识别模块,具体用于获取所述文件的内容;根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
进一步地,所述识别模块,还用于若所述文件为二进制文件,则将所述文件发送给扫描设备,使得所述扫描设备识别所述二进制文件是否为敏感文件。
进一步地,所述识别模块,具体用于将所述文件划分为至少两个子文件;获取每个所述子文件的内容。
第三方面,本发明还提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述敏感文件识别方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述敏感文件识别方法的步骤。
在本发明实施例中,根据获取到的扫描设备发送的脚本文件,基于该脚本文件进行以下操作:确定预先保存的文件的目标文件类型,确定该文件的校验值,确定该扫描设备中是否保存该校验值,若否,根据预先保存的敏感文件识别规则,确定该文件是否为敏感文件。由于本发明实施例中文件服务器获取到了扫描设备的脚本文件,可以通过该脚本文件确定保存的文件的目标文件类型,再确定该文件的校验值,并在确定扫描设备中不保存校验值后,根据预先保存的敏感文件识别规则,确定文件是否为敏感文件,从而实现了文件服务器能够基于扫描设备发送的脚本文件确定文件是否敏感,降低敏感文件泄露的风险。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种敏感文件识别的过程示意图;
图2为本实施例提供的一种扫描系统部署环境示意图;
图3为本实施例提供的一种远程扫描步骤示意图;
图4为本发明实施例提供的文件的敏感等级的详细识别过程示意图;
图5为本发明实施例提供的一种敏感文件识别的具体过程示意图;
图6为本发明实施例提供的一种敏感文件识别装置结构示意图;
图7为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发申请一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了使得文件服务器识别其内存储的文件是否为敏感文件,降低敏感文件泄露的风险,本发明实施例提供了一种敏感文件识别方法、装置、设备及介质。
实施例1:
图1为本发明实施例提供的一种敏感文件识别过程示意图,该过程包括以下步骤:
S101:获取扫描设备发送的脚本文件,基于所述脚本文件进行以下操作:
本发明实施例提供的敏感文件识别方法应用于文件服务器,文件服务器和扫描设备存在连接关系。具体的,扫描设备和文件服务器通过交换机进行连接,且文件服务器获取的脚本文件是由扫描设备发送的。
基于所述脚本文件进行以下操作:
S102:确定预先保存的文件的目标文件类型。
在文件服务器本地预先保存有海量文件,针对该海量文件中的每个文件,都可以通过该脚本文件确定该文件的目标文件类型。因为针对每个文件在进行敏感文件识别时,过程都是一样的,因此在本发明实施例中针对文件服务器中保存的任一文件进行说明。
S103:确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值,若否,进行S104,若是,进行S105。
识别目标文件类型后,因为文件服务器本地保存的文件可能已经被确定过是否为敏感文件,但是该文件被确认后,还可能会被更改,因此为了确定文件的内容是否被更改过,可以根据文件的校验值进行判断。在本发明实施例中,文件服务器确定该文件的校验值,并根据获取到的脚本文件,确定扫描设备中是否存在该校验值,其中,校验值是根据该文件的内容确定的,其目的是为了判断该文件的内容是否被更改过,该校验值为一组数值,常见的进行校验值计算的方法包括:sum、CRC等。
因为文件服务器是面向用户的,为了避免用户对校验值的修改,提高数据的安全性,在本发明实施例中已经被确定过是否为敏感文件的校验值保存在扫描设备中。
S104:根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
基于获取的脚本文件,远程读取扫描设备中保存的校验值,判断扫描设备中是否存在与文件服务确定的文件的校验值一致的校验值,若扫描设备中不存在与文件服务确定的文件的校验值一致的校验值,即扫描设备中未保存有该校验值对应的文件,则说明该文件的内容已被更改,或该文件为新存储到该文件服务器中的文件,因此需要进一步确定该文件是否为敏感文件。
扫描设备中预先保存有敏感文件识别规则,文件服务器通过该脚本文件可以下载该敏感文件识别规则并保存,从而根据该预先保存的敏感文件识别规则和该文件的内容,确定该文件是否为敏感文件。
S105:直接读取扫描设备中保存的该文件的敏感信息。
扫描设备中预先保存有文件服务器中存储的文件的校验值,以及该交验值对应的文件的敏感与否以及敏感等级信息,若扫描设备中存在与文件服务确定的文件的校验值一致的校验值,即扫描设备中未保存有该校验值对应的文件,则说明该文件的内容未被更改,则可以直接读取该扫描设备中保存的该文件的敏感信息,确定该文件是否为敏感文件,若为敏感文件,直接读取该文件的敏感等级信息。
由于本发明实施例中文件服务器获取到了扫描设备的脚本文件,可以通过该脚本文件确定保存的文件的目标文件类型,在并在确定扫描设备中未保存文件的校验值后,根据预先保存的敏感文件识别规则,确定文件是否为敏感文件。从而实现了对文件服务器中保存的文件是否为敏感文件的识别,降低敏感文件泄露的风险。
实施例2:
为了获取扫描文件发送的脚本文件,在上述实施例的基础上,在本发明实施例中,所述获取扫描设备发送的脚本文件包括:
接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
为了能够识别文件服务器上存储的文件是否为敏感文件,在本发明实施例中扫描设备将对文件进行识别的脚本文件发送给文件服务器。为了实现脚本文件的发送,首先,扫描设备向文件服务器发送一个echo命令,将脚本字符上传到文件服务器,文件服务器将脚本字符通过重定向的方式写入文件中从而获得对应的脚本文件。例如发送的echo命令可以是:echo’import os’>/tmp/scan_file.py,其中,import os为上传到文件服务器的脚本字符,echo命令通过重定向的方式将脚本字符写入到文件中,从而生成.py类型的脚本文件。
图2为本实施例提供的一种扫描设备部署环境示意图,图3为本实施例提供的一种远程扫描步骤示意图,现结合图2和图3进行说明。
扫描设备是通过交换机与文件服务器进行连接的,在扫描设备中配置文件服务器的安全外壳协议(Secure Shell,SSH)登录方式后,通过SSH的方式连接到文件服务器,并通过SSH隧道发送echo命令,将脚本字符上传都到文件服务器中,从而使文件服务器获取到脚本文件。
其中,SSH是安全外壳协议,也被称为安全远程登录协议。扫描设备是指远程文件扫描系统(Remote file scanning system,RFSS),也可以简称为RFSS。echo是一种Linux的系统命令,可以通过输出指定的字符到终端,也可以重定向到文件。
实施例3:
为了准确的确定文件的目标文件类型,在上述各实施例的基础上,在本发明实施例中,所述目标文件类型包括:文本文件和二进制文件。
文件的目标文件类型包括两种,一种为文本文件,另外一种为二进制文件。
为了准确的确定文件的目标文件类型,在上述各实施例的基础上,在本发明实施例中,所述根据所述脚本文件确定预先保存的文件的目标文件类型包括:
识别预先保存的所述文件的文件名称的后缀,确定所述文件的目标文件类型。
不同文本类型的文件的文件名称的后缀不同,因此可以根据文件的文件名称的后缀,对文件的文件类型进行区分。一般文件的文件类型包括:文本文件和二进制文件,具体的,文本文件的文件名称的后缀一般为txt、json、xml,二进制文件的文件名称的后缀一般为doc、docx、xlsx。
在本发明实施例中,基于脚本文件识别不同文本类型的文件的文件名称的后缀,并确定该文件的目标文件类型。
实施例4:
为了准确的确定文件是否支持扫描,在上述各实施例的基础上,在本发明实施例中,所述确定预先保存的文件的目标文件类型之后,确定所述文件的校验值之前,所述方法还包括:
判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
文件的文件类型包括:文本文件和二进制文件,为了确定文件是否支持扫描,需要确定文件的目标文件类型,也就是确定文件是文本文件还是二进制文件。根据确定出来的文件的目标文件类型,确定该文件是否支持扫描,若该文件支持扫描,则可以扫描该文件,确定该文件的校验值。
为了准确的确定该目标文件类型的文件是否支持扫描,在上述各实施例的基础上,在本发明实施例中,所述判断所述目标文件类型的文件是否支持扫描包括:
若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;
若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
确定了文件的目标文件类型后,若该文件的目标文件类型为文本文件,则确定该文件支持扫描,直接可以对该文件进行扫描,从而识别该文件的内容。
若该文件的类型为二进制文件,则基于脚本文件识别该二进制文件的后缀以及该二进制文件中设定位置的字节标识,确定该文件是否支持扫描,具体的,每个支持扫描的二进制文件,不同文件名称后缀的文件中都有对应的字节标识。因此,可以通过文件名称的后缀以及该文件中设定位置的字节标识,确定该二进制文件是否支持扫描。
具体的,在本发明实施例中,可以根据二进制文件的具体内容确定设定位置的具体位置,一般的基于现有的二进制文件,该设定位置的字节可以是文件中的前四个字节。例如,二进制文件的文件名称的后缀为docx、xlsx的文件的前四个字节为\x50\x4B,后缀为doc、xls的文件的前四个字节为\xD0\xCF对应的文件均支持扫描。
实施例5:
为了准确的计算文件的校验值,在上述各实施例的基础上,在本发明实施例中,所述校验值包括:MD5值。
通过MD5算法,根据该文件的内容,确定该文件的MD5值,并将该MD5值作为该文件的校验值。
其中通过MD5算法确定该MD5值的过程为现有技术,在此不做赘述。
实施例6:
为了准确的确定文件的敏感等级,在上述各实施例的基础上,在本发明实施例中,所述根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件,包括:
获取所述文件的内容;
根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
在本发明实施例中,预先保存有敏感文件识别规则,可以识别到的该文件的内容和预先保存的敏感文件识别规则,确定该文件是否为敏感文件。
具体的,该预先保存的敏感文件识别规则中,可以预先保存了一系列敏感内容的关键词,以及进行敏感词检测的正则表达式等,该敏感关键词可以是手机号码、身份证信息以及其他隐私信息等,基于预先保存的敏感关键词,对文件进行内容识别,识别该文件的内容中是否包含该敏感关键词,若识别到该文件中包含预设的敏感关键词,则确定该文件中包含的具体敏感关键词。
此外,若确定该文件为敏感文件后,还可以进一步根据预先保存的敏感文件识别规则确定该敏感文件的敏感等级。
具体的,该预先保存的敏感文件识别规则中,该规则可以是预先对涉及敏感内容的关键词设置了敏感等级,并设置了将获取的关键词与预先保存的敏感关键词进行匹配的顺序,在确定敏感文件的敏感等级时,依次按照预先保存的敏感文件识别规则中设定的顺序依次进行匹配,最终根据该匹配结果确定该文件的敏感等级。
具体的,根据获取到的文件内容中包含的敏感关键词,将该敏感关键词按照预先保存的敏感文件识别规则中设定的匹配顺序进行匹配,先将该文件内容中包含的敏感关键词与预先保存的敏感等级最高的敏感关键词进行匹配,若匹配成功,则不需要将该文件中内容中包含的敏感关键词与下一敏感等级的敏感关键词进行匹配,直接将该最高敏感等级确定为该文件的敏感等级,若匹配不成功,则将该文件内容中包含的敏感关键词与预先保存的下一敏感等级的敏感关键词依次进行匹配,直至匹配成功,并将匹配成功的敏感关键词的敏感等级确定为该文件的敏感等级。
另外基于正则表达式确定文件是否为敏感文件时,不同的正则表达式对应不同的敏感等级,如果基于某一正则表达式确定某一文件为敏感文件,并确定该文件的敏感等级为该正则表达式对应的敏感等级。
此外,在确定了文件是否为敏感文件后,在扫描设备中保存针对该文件的校验值,并保存该文件是否为敏感文件的信息,并当该文件为敏感文件时,保存该文件的敏感等级的信息。
图4为本发明实施例提供的文件的敏感等级的详细识别过程示意图,包括:
S401:获取扫描设备发送的脚本文件,基于该脚本文件识别预先保存的文件的文件名称的后缀,确定该文件的目标文件类型。
S402:确定该目标文件类型是否为二进制文件,若是,则进行S403,若否,则进行S404。
S403:基于该脚本文件识别该文件的设定位置的字节标识,确定该文件类型的文件是否支持扫描,若是,则进行S404,若否,则进行S407。
S404:计算该文件的校验值,并基于该脚本文件,确定扫描设备中是否保存该校验值,若扫描设备中未保存该校验值,则进行S405,若扫描设备中保存有该校验值,则进行S407。
S405:识别该文件的内容,基于预先存在的敏感文件识别规则,确定该文件是否为敏感文件,若是,则进行S406,若否,则进行S408。
若该文件为文本文件类型的文件,则直接对该文件进行内容的识别,并基于预先存在的敏感文件识别规则,若该文件为二进制文件类型的文件,则将该文件发送给扫描设备,在扫描设备中,对该文件进行解码,并识别解码后的文件的内容,并基于预先存在的敏感文件识别规则,确定该文件是否为敏感文件。
S406:确定该文件为敏感文件,基于预先存在的敏感文件识别规则,确定该文件的敏感等级。
S407:结束对该文件的扫描。
S408:确定该文件为非敏感文件。
实施例7:
为了确定二进制文件的敏感等级,在上述各实施例的基础上,所述获取所述文件的内容之前,所述方法还包括:
若所述文件为二进制文件,则将所述文件发送给扫描设备,使得所述扫描设备识别所述二进制文件是否为敏感文件。
在本发明实施例中,文件服务器不能直接对二进制文件直接进行内容的识别和关键词的提取,也就是不能直接确定该二进制文件是否为敏感文件,需要将该二进制类型的文件解码成文本文件类型的文件,而该二进制文件解码需要特定的解码库,而该解码库保存在扫描设备中,因此为了确定该二进制文件是否为敏感文件,文件服务器在确定文件的目标文件类型为二进制文件时,将该文件发送给扫描设备,由扫描设备对该文件进行解码。
具体的,扫描设备在接收到文件服务器发送的二进制文件后,基于解码库中对应的解码函数,对该二进制文件进行解码,解码后得到的文本文件,由于若将该文本文件发送给文件服务器,使得文件服务器确定该文件中是否为敏感文件,则会导致文件敏感情况确认的效率低,且由于扫描设备也能够根据预先保存到敏感文件识别规则和识别到的文件的内容,确定该文件是否为敏感文件。
具体的,扫描设备基于其本地的对应的解码库中的解码函数,对该二进制文件进行解码后获取到文本文件后,扫描设备直接对该文本文件进行内容的识别,并基于该内容以及预先保存的敏感文件识别规则,确定该文件是否为敏感文件,并确定该文件的敏感等级。
实施例8:
为了高效的获取文件的内容,在上述各实施例的基础上,在本发明实施例中,所述获取所述文件的内容包括:
将所述文件划分为至少两个子文件;
获取每个所述子文件的内容。
在文件内容特别多的情况下,直接通过识别该文件的所有内容并获取该文件的内容,会严重影响内容识别以及文件敏感等级确定的效率,因此为了提高文件是否为敏感文件的确定效率,可以获取该文件的部分内容,来进行文件是否为敏感文件确定。
具体的,可以将该文件划分为至少两个子文件,在将文件划分为至少两个子文件时,可以是对文件进行均分,得到大小相同的多个子文件,当然也可以是任一划分,也就是说划分后的每个子文件的大小也可以是不同的,或者部分相同,部分不同的,具体的选择什么方式进行划分,可以根据需求灵活选择。
划分到的每个子文件后,针对每个子文件,从该子文件的起始位置开始扫描,扫描到该子文件的末尾,但是为了提高文件的扫描效率,可以在扫描时,从该子文件的第一个非中文字符的位置开始,即标点符号、空格、换行符的位置,即将该位置作为该子文件扫描的开始位置,且从该开始位置开始,向后读取该子文件的部分内容,对该子文件的该部分内容进行扫描,从而识别该部分内容中是否包含敏感关键词,其中该部分内容可以是该子文件20%,或者30%的内容等。
例如,若文件的大小为2000B,可以将该文件划分为四个500B的子文件,并且选取0B、500B、1000B、1500B对应的子文件的位置开始进行扫描,若扫描到非中文字符的位置为20B、530B、1200B、1550B,则从20B、530B、1200B、1550B的对应的位置开始向后进行内容的读取,并分别读取到子文件中对应的120B、630B、1300B、1650B的部分内容,且识别该文件的内容。
图5为本发明实施例提供的一种敏感文件识别的具体过程示意图。为了实现在文件服务器中对于文本文件的敏感等级的确定,在文件服务器中能够读取到扫描设备中预设的敏感关键词,进而才能实现根据文件中的关键词确定该文件是否为敏感文件,进而确定该文件的敏感等级。
首先扫描设备将脚本文件发送给文件服务器后,扫描设备通过远程执行命令,在文件服务上启动脚本文件,文件服务器基于该脚本文件远程读取扫描设备(RFSS)缓存数据库中的敏感规则配置,并基于该脚本文件,识别文件的文件名称后缀确定预先保存的文件的目标文件类型。
若为文本文件,则文件服务器直接通过MD5算法,确定该文本文件的MD5值,基于脚本文件,查找RFSS预先保存的数据库中是否存在该MD5值,若存在,则说明该文本文件的内容未被更改,且该文本文件的敏感等级未发生变化。
RFSS在确定该本地保存有该MD5值时,将该文本文件是否为敏感文件的结果信息以及MD5值未发生变化的信息发送给文件服务器,文件服务器接收到信息后,若确定RFSS本地保存有该MD5值时,则文件服务器不需要对该文本文件进行内容的识别和该文件是否为敏感文件的判断;否则,即确定RFSS中未保存该MD5值时,则说明该文件的内容被修改,文件服务器识别该文本文件的内容,并基于预先保存的敏感文件识别规则,确定该文本文件是否为敏感文件,若是,再根据预设的敏感关键词的等级,确定该文件的敏感等级。
具体的,识别该文本文件的内容时,将文件均等分为四个子文件,识别这四个子文件的内容,并确定该文件中包含的关键词,通过预先保存的敏感文件识别规则,确定该关键词是否包含预设的敏感关键词,若是,则将该文件确定为敏感文件,并且按照匹配顺序依次将该文件中包含的关键词与预先保存的敏感关键词进行匹配,根据匹配成功的预设的敏感关键词的敏感等级,确定该文件的敏感等级,并将该结果存储在RFSS中的存储数据库中进行缓存。
若为二进制文件,则基于脚本文件识别该文件名称的后缀和文件的前四个字符标识,确定该二进制文件是否支持扫描,若不支持,则文件服务器结束对该文件的扫描,否则,通过MD5算法计算该二进制文件的MD5值,基于脚本文件,查找RFSS中预先保存的数据库中是否存在该MD5值,若存在,则说明该二进制文件的内容未被更改,且该二进制文件的敏感等级未发生变化。
若查找到RFSS中预先保存的数据库中存在该MD5值,不需要进行后续文件内容的识别的操作;否则,即查找到RFSS中预先保存的数据库中未保存该MD5值时,文件服务器则将该二进制文件发送给RFSS,RFSS将该二进制文件解码后得到文本文件,确定解码后获得的文本文件的内容,并根据该文件的内容,以及预先保存的敏感文件识别规则,确定该二进制文件是否为敏感文件,若是,按照匹配顺序依次将该文件中包含的关键词与预先保存的敏感关键词进行匹配,根据匹配成功的预设的敏感关键词的敏感等级,确定该文件的敏感等级。
具体的,RFSS在接收到该二进制文件后,在RFSS中基于对应的解码库中的解码函数,将该二进制文件进行解码后获取到文本文件,将解码后得到的文本文件均等分为四个子文件,识别这四个子文件的内容,确定为识别到的该文件的内容,通过预先保存的敏感文件识别规则,确定该文件是否为敏感文件,若是,再基于预先保存的敏感文件识别规则与该文件的内容,确定该文件的敏感等级。并将该文件的是否为敏感文件的信息、敏感文件的敏感等级信息在RFSS中进行存储。
实施例9:
图6为本发明实施例提供的一种敏感文件识别装置结构示意图,该装置包括:
获取模块601,用于获取扫描设备发送的脚本文件;
识别模块602,用于基于所述脚本文件进行以下操作:确定预先保存的文件的目标文件类型;确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
在一种可能的实施方式中,所述获取模块601,具体用于接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
在一种可能的实施方式中,所述识别模块602,具体用于识别预先保存的所述文件的文件名称的后缀,确定所述文件的目标文件类型。
在一种可能的实施方式中,所述识别模块602,还用于判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
在一种可能的实施方式中,所述识别模块602,具体用于若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
在一种可能的实施方式中,所述识别模块602,具体用于获取所述文件的内容;根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
在一种可能的实施方式中,所述识别模块602,还用于若所述文件为二进制文件,则将所述文件发送给扫描设备,并接收所述扫描设备对所述二进制文件解码后的文本文件。
在一种可能的实施方式中,所述识别模块602,具体用于将所述文件划分为至少两个子文件;获取每个所述子文件的内容。
实施例10:
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图7所示,包括:处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。
所述存储器703中存储有计算机程序,当所述程序被所述处理器701执行时,使得所述处理器701执行如下步骤:
获取扫描设备发送的脚本文件,基于所述脚本文件进行以下操作:
确定预先保存的文件的目标文件类型;确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
进一步地,所述处理器701,还用于接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
进一步地,所述处理器701,还用于识别预先保存的所述文件的文件名称的后缀,确定所述文件的目标文件类型。
进一步地,所述处理器701,还用于判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
进一步地,所述处理器701,还用于若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
进一步地,所述处理器701,还用于获取所述文件的内容;根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
进一步地,所述处理器701,还用于若所述文件为二进制文件,则将所述文件发送给扫描设备,并接收所述扫描设备对所述二进制文件解码后的文本文件。
进一步地,所述处理器701,还用于将所述文件划分为至少两个子文件;获取每个所述子文件的内容。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口702用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例11:
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取扫描设备发送的脚本文件,基于所述脚本文件进行以下操作:
确定预先保存的文件的目标文件类型;
确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;
若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
进一步地,所述获取扫描设备发送的脚本文件包括:
接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
进一步地,所述根据所述脚本文件确定预先保存的文件的目标文件类型包括:
基于预先保存的所述文件的文件名称的后缀,确定所述文件的目标文件类型。
进一步地,所述目标文件类型包括:
文本文件和二进制文件。
进一步地,所述确定预先保存的文件的目标文件类型之后,确定所述文件的校验值之前,所述方法还包括:
判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
进一步地,所述判断所述目标文件类型的文件是否支持扫描包括:
若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;
若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
进一步地,所述校验值包括:MD5值。
进一步地,所述根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件,包括:
获取所述文件的内容;
根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
进一步地,所述获取所述文件的内容之前,所述方法还包括:
若所述文件为二进制文件,则将所述文件发送给扫描设备,并接收所述扫描设备对所述二进制文件解码后的文本文件。
进一步地,所述获取所述文件中的内容包括:
将所述文件划分为至少两个子文件;
获取每个所述子文件的内容。
由于本发明实施例中文件服务器获取到了扫描设备的脚本文件,可以通过该脚本文件确定保存的文件的目标文件类型,在确定该文件的校验值,并在确定扫描设备中不保存校验值后,根据预先保存的敏感文件识别规则,确定文件是否为敏感文件。从而实现了文件服务器能够基于扫描设备发送的脚本文件,确定该文件是否为敏感文件,降低敏感文件泄露的风险。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种敏感文件识别方法,其特征在于,所述方法包括:
获取扫描设备发送的脚本文件,基于所述脚本文件进行以下操作:
确定预先保存的文件的目标文件类型;
确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;
若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
2.根据权利要求1所述的方法,其特征在于,所述获取扫描设备发送的脚本文件包括:
接收所述扫描设备发送的echo命令,将脚本字符通过重定向的方式写入文件获取对应的脚本文件。
3.根据权利要求1所述的方法,其特征在于,所述确定预先保存的文件的目标文件类型之后,确定所述文件的校验值之前,所述方法还包括:
判断所述目标文件类型的文件是否支持扫描,如是,则进行后续确定所述文件的校验值的步骤。
4.根据权利要求3所述的方法,其特征在于,所述判断所述目标文件类型的文件是否支持扫描包括:
若所述目标文件类型为文本文件,则确定所述目标文件类型的文件支持扫描;
若所述目标文件类型为二进制文件,识别所述二进制文件的设定位置的字节标识,确定所述目标文件类型的文件是否支持扫描。
5.根据权利要求1所述的方法,其特征在于,所述根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件,包括:
获取所述文件的内容;
根据预先保存的敏感文件识别规则和所述文件的内容,确定所述文件是否为敏感文件。
6.根据权利要求5所述的方法,其特征在于,所述获取所述文件的内容之前,所述方法还包括:
若所述文件为二进制文件,则将所述文件发送给扫描设备,使得所述扫描设备识别所述二进制文件是否为敏感文件。
7.根据权利要求5所述的方法,其特征在于,所述获取所述文件的内容包括:
将所述文件划分为至少两个子文件;
获取每个所述子文件的内容。
8.一种敏感文件识别装置,其特征在于,所述装置包括:
获取模块,用于获取扫描设备发送的脚本文件;
识别模块,用于基于所述脚本文件进行以下操作:确定预先保存的文件的目标文件类型;确定所述文件的校验值,确定所述扫描设备中是否保存所述校验值;若否,根据预先保存的敏感文件识别规则,确定所述文件是否为敏感文件。
9.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612386.3A CN112613074A (zh) | 2020-12-30 | 2020-12-30 | 一种敏感文件识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612386.3A CN112613074A (zh) | 2020-12-30 | 2020-12-30 | 一种敏感文件识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112613074A true CN112613074A (zh) | 2021-04-06 |
Family
ID=75249407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011612386.3A Pending CN112613074A (zh) | 2020-12-30 | 2020-12-30 | 一种敏感文件识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613074A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483780A (zh) * | 2009-07-10 | 2012-05-30 | F-赛酷公司 | 防病毒扫描 |
CN102684911A (zh) * | 2012-03-14 | 2012-09-19 | 北京神州绿盟信息安全科技股份有限公司 | 一种安全配置核查设备和方法以及安全配置核查网络系统 |
CN107360192A (zh) * | 2017-08-29 | 2017-11-17 | 四川长虹电器股份有限公司 | 提高漏洞扫描效率和精度的指纹识别方法 |
CN110263542A (zh) * | 2019-05-10 | 2019-09-20 | 西安交大捷普网络科技有限公司 | 一种基于插件技术的漏洞扫描方法与系统 |
CN110365714A (zh) * | 2019-08-23 | 2019-10-22 | 深圳前海微众银行股份有限公司 | 主机入侵检测方法、装置、设备及计算机存储介质 |
CN111291372A (zh) * | 2020-01-21 | 2020-06-16 | 上海戎磐网络科技有限公司 | 一种基于软件基因技术对终端设备文件检测的方法及装置 |
CN111737697A (zh) * | 2020-08-06 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于原子化功能的安全扫描系统及扫描方法 |
CN112114870A (zh) * | 2020-09-21 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 一种打包代码的方法、装置、终端设备和存储介质 |
-
2020
- 2020-12-30 CN CN202011612386.3A patent/CN112613074A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483780A (zh) * | 2009-07-10 | 2012-05-30 | F-赛酷公司 | 防病毒扫描 |
CN102684911A (zh) * | 2012-03-14 | 2012-09-19 | 北京神州绿盟信息安全科技股份有限公司 | 一种安全配置核查设备和方法以及安全配置核查网络系统 |
CN107360192A (zh) * | 2017-08-29 | 2017-11-17 | 四川长虹电器股份有限公司 | 提高漏洞扫描效率和精度的指纹识别方法 |
CN110263542A (zh) * | 2019-05-10 | 2019-09-20 | 西安交大捷普网络科技有限公司 | 一种基于插件技术的漏洞扫描方法与系统 |
CN110365714A (zh) * | 2019-08-23 | 2019-10-22 | 深圳前海微众银行股份有限公司 | 主机入侵检测方法、装置、设备及计算机存储介质 |
CN111291372A (zh) * | 2020-01-21 | 2020-06-16 | 上海戎磐网络科技有限公司 | 一种基于软件基因技术对终端设备文件检测的方法及装置 |
CN111737697A (zh) * | 2020-08-06 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于原子化功能的安全扫描系统及扫描方法 |
CN112114870A (zh) * | 2020-09-21 | 2020-12-22 | 平安国际智慧城市科技股份有限公司 | 一种打包代码的方法、装置、终端设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108427731B (zh) | 页面代码的处理方法、装置、终端设备及介质 | |
CN109582907B (zh) | 网页资源完整性的校验方法、装置、设备及可读存储介质 | |
EP3401782B1 (en) | File identification method and related device | |
CN105389177A (zh) | 一种软件版本确认方法、装置及系统 | |
CN106843947B (zh) | 代码缺陷的处理方法和装置 | |
CN106055375B (zh) | 应用程序安装方法及装置 | |
CN103207970A (zh) | 病毒文件扫描方法及装置 | |
CN110008758B (zh) | 一种id获取方法、装置、电子设备及存储介质 | |
CN106293849B (zh) | 一种应用更新方法和终端 | |
CN109656592B (zh) | 卡片管理方法、装置、终端及计算机可读存储介质 | |
CN108920962B (zh) | 固件下载验签方法、固件发布方法、移动终端及服务器 | |
CN105354490B (zh) | 一种处理被劫持浏览器的方法及设备 | |
CN106502707B (zh) | 代码生成方法及装置 | |
CN112613074A (zh) | 一种敏感文件识别方法、装置、设备及介质 | |
CN111695098A (zh) | 多分布式集群访问方法及装置 | |
CN113010197A (zh) | 应用静默升级方法、系统、终端设备及存储介质 | |
CN111240790A (zh) | 一种应用的多语言适配方法、装置、客户端和存储介质 | |
CN110955449A (zh) | 客户端的灰度发布方法及装置 | |
CN113485855B (zh) | 一种内存共享方法、装置、电子设备及可读存储介质 | |
CN110020040B (zh) | 查询数据的方法、装置和系统 | |
CN114968963A (zh) | 文件覆盖写方法、装置和电子设备 | |
CN112328288A (zh) | 一种服务器组件的更新方法、系统、设备及存储介质 | |
CN112732276A (zh) | U盾的控制方法及u盾设备 | |
CN108664259B (zh) | 一种进行应用安装的方法和终端 | |
CN111416832B (zh) | 一种文件更新方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |