CN109254868A - 一种文件检测方法及装置 - Google Patents

一种文件检测方法及装置 Download PDF

Info

Publication number
CN109254868A
CN109254868A CN201810996400.0A CN201810996400A CN109254868A CN 109254868 A CN109254868 A CN 109254868A CN 201810996400 A CN201810996400 A CN 201810996400A CN 109254868 A CN109254868 A CN 109254868A
Authority
CN
China
Prior art keywords
file
sensitive
attribute information
detection device
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810996400.0A
Other languages
English (en)
Other versions
CN109254868B (zh
Inventor
方姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Security Technologies Co Ltd
Original Assignee
New H3C Security Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Security Technologies Co Ltd filed Critical New H3C Security Technologies Co Ltd
Priority to CN201810996400.0A priority Critical patent/CN109254868B/zh
Publication of CN109254868A publication Critical patent/CN109254868A/zh
Application granted granted Critical
Publication of CN109254868B publication Critical patent/CN109254868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data

Abstract

本申请实施例提供了一种文件检测方法及装置,应用于通信技术领域,用以解决现有技术中文件文件检测的方法影响文件传输效率的问题。本申请实施例的方案包括:在传输文件之前,对文件进行扫描,若扫描发现文件中存在敏感信息,则为文件添加敏感属性信息,敏感属性信息用于标识文件为敏感文件,然后向文件检测设备发送文件,以使得文件检测设备根据敏感属性信息检测文件是否为敏感文件。

Description

一种文件检测方法及装置
技术领域
本申请涉及通信技术领域,特别是涉及一种文件检测方法及装置。
背景技术
随着信息化的发展,数据安全越来越被重视,文件泄漏问题成为了数据安全的重灾区。为了防止文件泄漏,目前可在文件传输过程中,对文件进行扫描,若扫描发现文件中存在敏感信息,则对该文件执行安全防护策略。
然而,对文件全文进行扫描的过程会占用一定的时间,文件越大扫描所需的时间越长,在扫描完成之后才可传输文件,容易影响文件传输的效率。
发明内容
本申请实施例的目的在于提供一种文件检测方法及装置,以解决现有技术中文件文件检测的方法影响文件传输效率的问题。具体技术方案如下:
第一方面,本申请实施例提供一种文件检测方法,所述方法应用于电子设备,所述方法包括:
在传输文件之前,对所述文件进行扫描;
若扫描发现所述文件中存在敏感信息,则为所述文件添加敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
向文件检测设备发送所述文件,以使得所述文件检测设备根据所述敏感属性信息检测所述文件是否为敏感文件。
在一种可能的实现方式中,所述为所述文件添加敏感属性信息包括:
在所述文件的文档摘要信息中添加所述敏感属性信息,所述敏感属性信息为携带敏感属性标识的自定义属性信息。
在一种可能的实现方式中,所述敏感属性信息的第一预设范围的字节为敏感级别,所述敏感属性信息的第二预设范围的字节为所述敏感属性信息的循环冗余校验CRC值。
在一种可能的实现方式中,所述敏感属性信息的第三预设范围的字节为敏感词列表。
在一种可能的实现方式中,所述文件为对象连接与嵌入OLE复合文档。
第二方面,本申请实施例提供一种文件检测方法,包括:
文件检测设备接收电子设备发送的文件;
所述文件检测设备识别所述文件中是否存在敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
若识别到所述文件中存在所述敏感属性信息,则所述文件检测设备对所述文件进行安全防护;
若识别到所述文件中不存在所述敏感属性信息,则所述文件检测设备传输所述文件。
在一种可能的实现方式中,所述文件检测设备识别所述文件中是否存在敏感属性信息,包括:
所述文件检测设备识别所述文件的文档摘要信息中是否包括所述敏感属性信息,所述敏感属性信息为携带敏感属性标识的自定义属性信息;
若检测到所述文档摘要信息中存在携带敏感属性标识的自定义属性信息,则确定所述携带敏感属性标识的自定义属性信息为敏感属性信息。
在一种可能的实现方式中,所述敏感属性信息包括敏感级别和所述敏感属性信息的循环冗余校验CRC值;则所述方法还包括:
从所述敏感属性信息的第一预设范围的字节中获取所述文件的敏感级别,从所述敏感属性信息的第二预设范围的字节中获取所述CRC值。
在一种可能的实现方式中,所述敏感属性信息还包括敏感词列表,则所述文件检测设备识别所述文件的文档摘要信息中是否包括所述敏感属性信息的步骤,还包括:
从所述敏感属性信息的第三预设范围的字节中获取所述敏感词列表。
在一种可能的实现方式中,所述文件为对象连接与嵌入OLE复合文档。
第三方面,本申请实施例提供一种文件检测装置,所述装置应用于电子设备,所述装置包括:
扫描模块,用于在传输文件之前,对所述文件进行扫描;
添加模块,用于若所述扫描模块扫描发现所述文件中存在敏感信息,则为所述文件添加敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
发送模块,用于向文件检测设备发送所述文件,以使得所述文件检测设备根据所述敏感属性信息检测所述文件是否为敏感文件。
在一种可能的实现方式中,所述添加模块,具体用于在所述文件的文档摘要信息中添加所述敏感属性信息,所述敏感属性信息为携带敏感属性标识的自定义属性信息。
在一种可能的实现方式中,所述敏感属性信息的第一预设范围的字节为敏感级别,所述敏感属性信息的第二预设范围的字节为所述敏感属性信息的循环冗余校验CRC值。
在一种可能的实现方式中,所述敏感属性信息的第三预设范围的字节为敏感词列表。
在一种可能的实现方式中,所述文件为对象连接与嵌入OLE复合文档。
第四方面,本申请实施例提供一种文件检测装置,所述装置应用于文件检测设备,所述装置包括:
接收模块,用于接收电子设备发送的文件;
识别模块,用于识别所述文件中是否存在敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
安全模块,用于若所述识别模块识别到所述文件中存在所述敏感属性信息,则对所述文件进行安全防护;还用于若所述识别模块识别到所述文件中不存在所述敏感属性信息,则传输所述文件。
在一种可能的实现方式中,所述识别模块,具体用于识别所述文件的文档摘要信息中是否包括所述敏感属性信息,所述敏感属性信息为携带敏感属性标识的自定义属性信息;若检测到所述文档摘要信息中存在携带敏感属性标识的自定义属性信息,则确定所述携带敏感属性标识的自定义属性信息为敏感属性信息。
在一种可能的实现方式中,所述敏感属性信息包括敏感级别和所述敏感属性信息的循环冗余校验CRC值;
所述识别模块,具体用于从所述敏感属性信息的第一预设范围的字节中获取所述文件的敏感级别,从所述敏感属性信息的第二预设范围的字节中获取所述CRC值。
在一种可能的实现方式中,所述敏感属性信息还包括敏感词列表;
所述识别模块,具体用于从所述敏感属性信息的第三预设范围的字节中获取所述敏感词列表。
在一种可能的实现方式中,所述文件为对象连接与嵌入OLE复合文档。
第五方面,本申请实施例提供一种电子设备,该电子设备包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第一方面中的文件检测方法。
第六方面,本申请实施例提供一种文件检测设备,该文件检测设备包括:处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第二方面中的文件检测方法。
第七方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面或第二方面中所述的文件检测方法。
第八方面,本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面中所述的文件检测方法。
采用本申请实施例提供的文件检测方法,电子设备可在传输文件之前对文件进行扫描,若扫描发现文件中存在敏感信息,则为文件添加敏感属性信息,进而在传输文件时,文件检测设备只要识别到文件中存在敏感属性信息就可以确定文件是敏感文件,反之,若识别到文件中不存在敏感属性信息则确定文件不是敏感文件,可见文件检测设备只需识别敏感属性信息,无需对文件进行全文扫描,相比于对文件进行全文扫描的检测方法,可以提高文件传输效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种通信系统的结构示意图;
图2为本申请实施例提供的一种文件检测方法的流程图;
图3为本申请实施例提供的一种OLE复合文档的目录结构示意图;
图4为本申请实施例提供的OLE复合文档的文档摘要信息流中的数据的二进制格式示意图;
图5为本申请实施例提供的OLE复合文档的携带敏感属性信息的文档摘要信息流中的数据的二进制格式示意图;
图6为本申请实施例提供的一种文件检测方法的流程图;
图7为本申请实施例提供的一种文件检测装置的结构示意图;
图8为本申请实施例提供的另一种文件检测装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图;
图10为本申请实施例提供的一种文件检测设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人在研究现有技术时发现:现有技术在文件传输时,可由文件检测设备对文件进行全文扫描,扫描之后确定文件中不包括敏感信息,才能继续传输,由于全文扫描耗费时间较长,会导致文件传输效率低。因此本申请可以在文件传输之前,在本地对文件进行扫描,并在包含敏感信息的文件中添加用于标识敏感文件的敏感属性信息,如此,在文件传输过程中,文件检测设备只要检测文件中是否包含用于标识敏感文件的敏感属性信息就可以确定该文件是否为敏感文件,无需对文件进行全文扫描,提高了文件传输的效率。
本申请实施例可以应用于如图1所示的通信系统中,该通信系统中包括电子设备、文件检测设备、用于支持电子设备向其他设备发送文件的网络设备以及接收端设备。
其中,电子设备可以为手机、平板电脑、台式电脑、具有网络通信功能的可穿戴设备等。
文件检测设备可以为一个独立的设备,也可以集成于电子设备中,图1为文件检测设备为一个独立的设备为例。
网络设备可以为交换机、路由器等通信设备。
接收端设备也可以为电子设备,用于接收文件。
电子设备需要发送的文件可先由文件检测设备检测,经检测确定文件可以传输时,文件检测设备将文件发送给网络设备,由网络设备将文件传输至接收端设备。
需要说明的是,图1中各设备的数量仅作为示例,在实际的通信系统中,各设备的数量不限制于图1中显示的数量。
为了实现在对文件进行文件检测检测的前提下提高文件传输效率,本申请实施例提供一种文件检测方法,该方法由电子设备执行,如图2所示,该方法包括:
S201、在传输文件之前,电子设备对文件进行扫描。
其中,本申请实施例中的文件可以为对象连接与嵌入(Object Linking andEmbedding,OLE)复合文档,OLE复合文档是指通过OLE技术创建的复合文档,OLE技术可基于组件对象模型(Component Object Model,COM)将文字、声音、图像、表格、应用程序等组合在一起,创建OLE复合文档。本申请实施例中的文件具体可以为微软office OLE复合文档,即OLE格式的微软Office文档。
OLE复合文档可采用目录的形式存储不同类型的流信息,其目录结构可以为树形结构,如图3所示,目录结构中可以包括流(stream)、仓库(storage)和根目录(rootdirectory)。
其中,流也可以称为叶子节点,用于存储数据。OLE文档中的具体内容,例如文字、图像、应用程序等一般以二进制数据的形式存储,组成OLE复合文档的数据可以被分为多个部分,每个流存储一部分数据,例如图3中的stream3、stream11、stream21和stream121分别存储一部分数据。
仓库用于存储流和/或其他仓库。例如图3中storage1可存储stream11和storage12,storage12可存储stream121,storage2可存储stream21,可以理解为,stream11和storage12中存储的数据均被存储于storage1中,stream121中存储的数据可被存储于stream121中,stream21中存储的数据可被存储于storage2。
每个复合文档都可以有一个根目录,根目录用于存储仓库和/或流。例如,图3中的root directory可存储storage1、storage2和stream3,可以理解为storage1、storage2和stream3中存储的数据均被存储于根目录中。
为方便理解,复合文档的根目录类似于电脑中的D盘,仓库类似于D盘中的文件夹,流类似于文件夹中的文件。
在本申请实施例中,电子设备可在本地对文件全文进行离线扫描,以判断该文件是否为敏感文件。
示例性地,可通过扫描文件,将文件内容与预设的敏感词进行匹配,若扫描发现文件中包括预设的敏感词,则认为该文件为敏感文件。当然,本申请实施例可采用的扫描方法不限于此,也可采用其他扫描方法来判断文件中是否为敏感文件。
S202、若扫描发现文件中存在敏感信息,则电子设备为文件添加敏感属性信息。
其中,若扫描发现文件中存在敏感信息(例如敏感词),可在文件的文档摘要信息中添加敏感属性信息,敏感属性信息为携带敏感属性标识的自定义属性信息。
换言之,可以理解为在文档摘要信息中添加一组自定义属性信息,该自定义属性信息中携带敏感属性标识。
敏感属性信息可以包括敏感级别和敏感属性信息的循环冗余校验(CyclicRedundancy Check,CRC)值。可选的,敏感属性信息还可以包括敏感词列表以及敏感词列表的长度。
可选地,敏感属性信息的第一预设范围的字节为敏感级别,第二预设范围的字节为敏感属性信息的CRC值,第三预设范围的字节为敏感词列表,第四预设范围的字节为敏感词列表的长度。其中,敏感词列表可以包括步骤S201扫描出来的敏感词。
以下以文件为OLE格式的微软Office文档为例,对添加的敏感属性信息进行说明。在OLE格式的微软Office文档中,存在名为“005DocumentSummaryInformation”的流,这个流为文档摘要信息,用于存储文档的描述信息,本申请实施例中,若电子设备扫描发现文件中存在敏感信息,可在这个流中添加携带敏感属性标识的自定义属性信息,该自定义属性信息记为敏感属性信息,由于添加的是自定义属性,所以不会影响OLE复合文档的正文内容。
OLE复合文档一般以二进制的方式存储,示例性的,如图4所示,图4为一种可能的“005DocumentSummaryInformation”流的二进式格式的示例性示意图。需提前说明的是,以下描述的“005DocumentSummaryInformation”流中各字节表示的含义仅为一种可能的示例,本申请实施例不限于此。例如下文中描述的每个属性组用20个字节表示仅为一种示例,本申请不限制每个属性组的字节数。
其中,从23F818H到23F81BH的4字节UInt32(32位无符号整数)用于表示OLE复合文档中存储的属性组的个数。图4中23F818H到23F81BH这四个字节(见图4中的下划线部分)为“02 00 00 00”,OLE复合文档采用小端序的存储模式,即数据的高字节保存在内存的高地址中,数据的低字节保存在内存的低地址中,“02 00 00 00”这四个字节中,最左侧的“02”保存在内存的低地址中,为数据的低字节,最右侧的“00”保存在内存的高地址中,为数据的高字节,所以存储的文档中“02 00 00 00”表示的数据为“00 00 00 02”,可见这四个字节表示的数值为2,即23F81BH之后有两个属性组信息,每个属性组信息用20个字节表示,每个属性组信息的的前16字节用于表示DocumentSummaryInformation(文档摘要信息)或UserDefinedProperties(自定义属性),后4字节用于表示该属性组相对于“005DocumentSummaryInformation”流的起始位置的偏移。
对于每个属性组信息的前16字节,如果是0x02 0xD5 0xCD 0xD5 0x9C 0x2E 0x1B0x10 0x93 0x97 0x08 0x00 0x2B 0x2C 0xF9 0xAE(见图4中括号内的前16个字节部分),则表示该属性组是DocumentSummaryInformation,该属性组的内容用于存储文档的摘要信息,例如文件的作者、标题、保存时间等除文档正文之外的信息;如果是0x05 0xD5 0xCD0xD5 0x9C 0x2E 0x1B 0x10 0x93 0x97 0x08 0x00 0x2B 0x2C 0xF9 0xAE(见图4中的黑色背景前16个字节部分),则表示该属性组是UserDefinedProperties,用于存储用户对文件添加的一些自定义属性信息。
对于每个属性组信息的后4个字节,例如图4中括号内的后4个字节部分“44 00 0000”表示该属性组相对于“005DocumentSummaryInformation”流的起始位置的偏移为44,即从23F844开始为该属性组的位置。
图4用以说明“005DocumentSummaryInformation”流的二进式格式,本申请实施例以另一个例子来描述添加敏感属性信息后的二进式格式的“005DocumentSummaryInformation”流,若电子设备扫描发现文件中存在敏感信息,例如文件中存在“党员”和“情况”这两个敏感词,对应的敏感级别为7,则在“005DocumentSummaryInformation”流中添加一个自定义属性用于表示该文件为敏感文件,如图5所示。
图5中下划线部分的4个字节“01 00 00 00”表示有一个属性组,该属性组信息为图5中的括号部分,括号部分的前16个字节为0x05 0xD5 0xCD 0xD5 0x9C 0x2E 0x1B 0x100x93 0x97 0x08 0x00 0x2B 0x2C 0xF9 0xAE,表示该属性组为自定义属性,括号部分的后4个字节为“30 00 00 00”,说明该属性组的偏移为0x30,即从图5中从8E30H的位置开始是该属性组的位置。从8E30H的位置开始的前4个字节“26 00 00 00”表示属性组大小为0x26,即26个字节,之后的4个字节“01 00 00 00”表示属性个数为1,再之后的4个字节“F0 00 0000”表示敏感属性标识为0x00F0,再之后的4个字节“10 00 00 00”表示属性内容相对于该属性组起始位置(8E30H)的偏移为0x10,即从8E40H开始为属性内容。
属性内容见图5中的虚线下划线部分,其中图5中属性内容的前4个字节为敏感级别,结合上述举例,敏感级别为7,则属性内容的前4个字节为“07 00 00 00”;图5中属性内容的第5至第8个字节为敏感词列表长度,即为将敏感词“党员”和“情况”转化为字符串(例如ASCII码)后的长度,该长度为10,所以用于表示敏感词列表长度的字节为“0A 00 0000”。在该例子中,用于表示敏感词列表长度的字节之后的10个字节为敏感词列表,图5中“B5 B3 D4 B1 00”用于表示敏感词“党员”,“C7 E9 BF F6 00”用于表示敏感词“情况”,属性内容的最后4个字节“63 06 00 00”代表属性内容的CRC校验值为0x663。
其中,敏感属性标识为预先设置的,图5中的敏感属性标识为0x00F0,敏感属性标识还可以设置为其他暂未被该OLE复合文档使用的标识,例如0x00F1、0x00F2等。
S203、电子设备向文件检测设备发送文件,以使得文件检测设备根据敏感属性信息检测文件是否为敏感文件。
其中,文件检测设备可以集成在电子设备中,也可以为电子设备和网络侧设备之间的一个独立的设备,在用户通过电子设备中的应用程序(例如电子邮件等)发送文件时,文件在被传输至网络侧之前可经过电子设备。示例性地,文件检测设备可以为数据防泄漏(Data leakage prevention,DLP)软件,或者为安装了DLP软件的电子设备。
可以理解的,若文件检测设备检测到文件中包括敏感属性信息,则可确定文件为敏感文件,若文件检测设备检测到文件中不包括敏感属性信息,则可确定为文件不是敏感文件。
采用本申请实施例提供的文件检测方法,在传输文件之前,电子设备可对文件进行扫描,若扫描发现文件中存在敏感信息,则为文件添加用于标识文件为敏感文件的敏感属性信息,然后向文件检测设备发送所述文件,由于电子设备在文件传输前就已经对敏感文件进行了标识,使得在文件传输过程中,文件检测设备可根据文件中的敏感属性信息检测文件是否为敏感文件,无需对文件进行全文扫描,相比于对文件进行全文扫描的检测方法,可以提高文件传输效率。
对应于图2所示的实施例,本申请实施例还提供了一种文件检测方法,该方法执行于图2的实施例之后,由文件检测设备执行,如图6所示,该方法包括:
S601、文件检测设备接收电子设备发送的文件。
S602、文件检测设备识别文件中是否存在敏感属性信息。
其中,敏感属性信息用于表示文件为敏感文件。文件检测设备具体可识别文件的文档摘要信息中是否包括敏感属性信息,敏感属性信息为携带敏感属性标识的自定义属性信息;若检测到文档摘要信息中存在携带敏感属性标识的自定义属性信息,则确定携带敏感属性标识的自定义属性信息为敏感属性信息。
然后从敏感属性信息的第一预设范围的字节中获取敏感级别,从敏感属性信息的第二预设范围的字节中获取CRC值,从敏感属性信息的第三预设范围的字节中获取敏感词列表。
文档摘要信息可以为文件的“005DocumentSummaryInformation”流,以图6为例,文件检测设备可检测“005DocumentSummaryInformation”流的自定义属性中是否包括属性标识0x00F0,文件检测设备可检测到图5中用于表示属性标识的字节为“F0 00 00 00”,进而确定属性标识为0x00F0,则可确定该自定义属性为敏感属性信息,进而根据自定义属性的内容部分的前4个字节“07 00 00 00”确定敏感级别为7,根据随后的4个字节“0A 00 0000”确定敏感词列表长度为10,然后获取之后的10个字节“B5 B3 D4 B1 00 C7 E9 BF F600”,将这10个字节转换为文字,可确定文件中携带“党员”和“情况”,然后根据属性内容的最后4个字节“63 06 00 00”确定CRC校验值为0x663,随后文件检测设备根据CRC校验值对该自定义属性进行CRC校验,若校验通过,则代表文件检测设备接收到的敏感属性信息完整且正确,可确定接收的文件正确,且文件中的敏感属性信息未被篡改。校验过程可以是:假设电子设备是根据自定义属性中的敏感级别、敏感词列表长度、敏感词生成的CRC校验值1,则文件检测设备在接收到文件后,依据自定义属性的敏感级别、敏感词列表长度、敏感词生成CRC校验值2,文件检测设备比对CRC校验值2和CRC校验值1,若一致,则校验通过。
若识别到文件中存在敏感属性信息,则执行S603;若识别到文件中不存在敏感属性信息,则执行S604。
S603、若识别到文件中存在敏感属性信息,则文件检测设备对文件进行安全防护。
可选的,若识别到文件中存在敏感属性信息,可确定文件是敏感文件,则可对该文件进行安全防护。例如:针对前文所述的敏感级别为7,则安全防护策略为:可以传输文件。
安全防护的方法为:若确定文件是敏感文件,则禁止传输该文件;或者根据敏感属性信息对文件执行安全防护策略。
例如,敏感属性信息中的敏感级别按照危险程度从高到低分别为1、2、3,则文件检测设备若确定敏感级别为1,则禁止文件传输;若确定敏感级别为2,则发出安全提醒,并显示敏感属性信息中的敏感词列表,由用户决定是否继续传输;若敏感级别为3,则继续传输文件。以上安全防护策略仅为示例,本申请不对安全防护策略进行具体限定,可根据实际需求预先在文件检测设备中配置安全防护策略,以便文件检测设备根据识别到的敏感属性信息执行相应的安全防护策略。
S604、若识别到文件中不存在敏感属性信息,则文件检测设备传输文件。
可以理解的,若识别到文件中不存在敏感属性信息,可确定文件不是敏感文件,则可传输该文件。
采用本申请实施例提供的文件检测方法,文件检测设备接收到文件后,只要识别到文件中存在敏感属性信息就可以确定文件是敏感文件,进而对文件进行安全防护;反之,若识别到文件中不存在敏感属性信息则确定文件不是敏感文件,则可传输该文件。可见文件检测设备只需识别文件中是否存在敏感属性信息,无需对文件进行全文扫描,相比于对文件进行全文扫描的检测方法,可以提高文件传输效率。
对应于上述方法实施例,本申请实施例还提供一种文件检测装置,该装置可以为电子设备或者为电子设备中的芯片,如图7所示,该装置包括:扫描模块701、添加模块702和发送模块703。
扫描模块701,用于在传输文件之前,对文件进行扫描;
其中,该文件可以为OLE复合文档。
添加模块702,用于若扫描模块701扫描发现文件中存在敏感信息,则为文件添加敏感属性信息,敏感属性信息用于标识文件为敏感文件;
其中,敏感属性信息包括敏感级别和文件中的敏感信息。
发送模块703,用于向文件检测设备发送文件,以使得文件检测设备根据敏感属性信息检测文件是否为敏感文件。
可选地,添加模块702,具体用于在文件的文档摘要信息中添加敏感属性信息,敏感属性信息为携带敏感属性标识的自定义属性信息。
其中,敏感属性信息的第一预设范围的字节为敏感级别,敏感属性信息的第二预设范围的字节为敏感属性信息的CRC值,敏感属性信息的第三预设范围的字节为敏感词列表。
本申请实施例还提供另一种文件检测装置,该装置应用于文件检测设备中,如图8所示,该装置包括:接收模块801、识别模块802和安全模块803。
接收模块801,用于接收电子设备发送的文件;
其中,该文件可以为OLE文件。
识别模块802,用于识别文件中是否存在敏感属性信息,敏感属性信息用于标识文件为敏感文件。
安全模块803,用于若识别模块802识别到文件中存在敏感属性信息,则对所述文件进行安全防护;还用于若识别模块802识别到文件中不存在敏感属性信息,则传输所述文件。
可选地,识别模块802,具体用于识别文件的文档摘要信息中是否包括敏感属性信息,敏感属性信息为携带敏感属性标识的自定义属性信息;若检测到所述文档摘要信息中存在携带敏感属性标识的自定义属性信息,则确定所述携带敏感属性标识的自定义属性信息为敏感属性信息。
可选地,敏感属性信息包括敏感级别和敏感属性信息的循环冗余校验CRC和。
识别模块802,具体用于从所述敏感属性信息的第一预设范围的字节中获取所述文件的敏感级别,从所述敏感属性信息的第二预设范围的字节中获取所述CRC值。
可选地,敏感属性信息还包括敏感词列表。
识别模块802,具体用于从所述敏感属性信息的第三预设范围的字节中获取所述敏感词列表。
本申请实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述方法实施例中由电子设备执行的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种文件检测设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,
存储器1003,用于存放计算机程序;
处理器1001,用于执行存储器1003上所存放的程序时,实现上述方法实施例中由文件检测设备执行的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述文件检测设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一文件检测方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一文件检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (15)

1.一种文件检测方法,其特征在于,所述方法应用于电子设备,所述方法包括:
在传输文件之前,对所述文件进行扫描;
若扫描发现所述文件中存在敏感信息,则为所述文件添加敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
向文件检测设备发送所述文件,以使得所述文件检测设备根据所述敏感属性信息检测所述文件是否为敏感文件。
2.根据权利要求1所述的方法,其特征在于,所述为所述文件添加敏感属性信息包括:
在所述文件的文档摘要信息中添加所述敏感属性信息,所述敏感属性信息为携带敏感属性标识的自定义属性信息。
3.根据权利要求2所述的方法,其特征在于,所述敏感属性信息的第一预设范围的字节为敏感级别,所述敏感属性信息的第二预设范围的字节为所述敏感属性信息的循环冗余校验CRC值。
4.根据权利要求3所述的方法,其特征在于,所述敏感属性信息的第三预设范围的字节为敏感词列表。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述文件为对象连接与嵌入OLE复合文档。
6.一种文件检测方法,其特征在于,包括:
文件检测设备接收电子设备发送的文件;
所述文件检测设备识别所述文件中是否存在敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
若识别到所述文件中存在所述敏感属性信息,则所述文件检测设备对所述文件进行安全防护;
若识别到所述文件中不存在所述敏感属性信息,则所述文件检测设备传输所述文件。
7.根据权利要求6所述方法,其特征在于,所述文件检测设备识别所述文件中是否存在敏感属性信息,包括:
所述文件检测设备识别所述文件的文档摘要信息中是否包括所述敏感属性信息,所述敏感属性信息为携带敏感属性标识的自定义属性信息;
若检测到所述文档摘要信息中存在携带敏感属性标识的自定义属性信息,则确定所述携带敏感属性标识的自定义属性信息为敏感属性信息。
8.根据权利要求7所述的方法,其特征在于,所述敏感属性信息包括敏感级别和所述敏感属性信息的循环冗余校验CRC值;则所述方法还包括:
从所述敏感属性信息的第一预设范围的字节中获取所述文件的敏感级别,从所述敏感属性信息的第二预设范围的字节中获取所述CRC值。
9.根据权利要求8所述的方法,其特征在于,所述敏感属性信息还包括敏感词列表,则所述文件检测设备识别所述文件的文档摘要信息中是否包括所述敏感属性信息的步骤,还包括:
从所述敏感属性信息的第三预设范围的字节中获取所述敏感词列表。
10.根据权利要求6-9任一项所述的方法,其特征在于,所述文件为对象连接与嵌入OLE复合文档。
11.一种文件检测装置,其特征在于,所述装置应用于电子设备,所述装置包括:
扫描模块,用于在传输文件之前,对所述文件进行扫描;
添加模块,用于若所述扫描模块扫描发现所述文件中存在敏感信息,则为所述文件添加敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
发送模块,用于向文件检测设备发送所述文件,以使得所述文件检测设备根据所述敏感属性信息检测所述文件是否为敏感文件。
12.一种文件检测装置,其特征在于,所述装置应用于文件检测设备,所述装置包括:
接收模块,用于接收电子设备发送的文件;
识别模块,用于识别所述文件中是否存在敏感属性信息,所述敏感属性信息用于标识所述文件为敏感文件;
安全模块,用于若所述识别模块识别到所述文件中存在所述敏感属性信息,则对所述文件进行安全防护;还用于若所述识别模块识别到所述文件中不存在所述敏感属性信息,则传输所述文件。
13.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-5任一所述的方法步骤。
14.一种文件检测设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求6-10任一所述的方法步骤。
15.一种机器可读存储介质,其特征在于,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器:实现权利要求1-5或6-10任一所述的方法步骤。
CN201810996400.0A 2018-08-29 2018-08-29 一种文件检测方法及装置 Active CN109254868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996400.0A CN109254868B (zh) 2018-08-29 2018-08-29 一种文件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996400.0A CN109254868B (zh) 2018-08-29 2018-08-29 一种文件检测方法及装置

Publications (2)

Publication Number Publication Date
CN109254868A true CN109254868A (zh) 2019-01-22
CN109254868B CN109254868B (zh) 2022-06-21

Family

ID=65049484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996400.0A Active CN109254868B (zh) 2018-08-29 2018-08-29 一种文件检测方法及装置

Country Status (1)

Country Link
CN (1) CN109254868B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135128A (zh) * 2019-05-22 2019-08-16 北京明朝万达科技股份有限公司 一种文件处理方法及装置
CN111209723A (zh) * 2020-01-13 2020-05-29 中孚安全技术有限公司 一种解析Office二进制格式并提取文档属性文字的方法及系统
CN111488556A (zh) * 2020-04-09 2020-08-04 深信服科技股份有限公司 一种嵌套文档提取方法、装置及电子设备和存储介质
CN112788146A (zh) * 2021-01-22 2021-05-11 中信银行股份有限公司 一种敏感信息识别和自动阻断的文件传输方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037313A1 (en) * 2000-05-01 2001-11-01 Neil Lofgren Digital watermarking systems
CN102143009A (zh) * 2010-07-07 2011-08-03 华为数字技术有限公司 报文处理方法、装置及系统
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN105184580A (zh) * 2015-09-01 2015-12-23 福建新大陆软件工程有限公司 一种基于可读标识的通信管理方法及系统
CN105573686A (zh) * 2015-12-31 2016-05-11 苏州恒盛信息技术有限公司 一种面向多文档的敏感关键词识别与打印控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037313A1 (en) * 2000-05-01 2001-11-01 Neil Lofgren Digital watermarking systems
CN102143009A (zh) * 2010-07-07 2011-08-03 华为数字技术有限公司 报文处理方法、装置及系统
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN105184580A (zh) * 2015-09-01 2015-12-23 福建新大陆软件工程有限公司 一种基于可读标识的通信管理方法及系统
CN105573686A (zh) * 2015-12-31 2016-05-11 苏州恒盛信息技术有限公司 一种面向多文档的敏感关键词识别与打印控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135128A (zh) * 2019-05-22 2019-08-16 北京明朝万达科技股份有限公司 一种文件处理方法及装置
CN111209723A (zh) * 2020-01-13 2020-05-29 中孚安全技术有限公司 一种解析Office二进制格式并提取文档属性文字的方法及系统
CN111488556A (zh) * 2020-04-09 2020-08-04 深信服科技股份有限公司 一种嵌套文档提取方法、装置及电子设备和存储介质
CN112788146A (zh) * 2021-01-22 2021-05-11 中信银行股份有限公司 一种敏感信息识别和自动阻断的文件传输方法及系统

Also Published As

Publication number Publication date
CN109254868B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN109254868A (zh) 一种文件检测方法及装置
KR101337874B1 (ko) 파일 유전자 지도를 이용하여 파일의 악성코드 포함 여부를 판단하는 방법 및 시스템
CN109376078B (zh) 移动应用的测试方法、终端设备及介质
US20120311709A1 (en) Automatic management system for group and mutant information of malicious codes
US9690946B2 (en) Security analysis using relational abstraction of data structures
CN107580005A (zh) 网站防护方法、装置、网站防护设备及可读存储介质
CN101986292A (zh) 根据图像处理表单的方法和系统
CN107315825A (zh) 一种索引更新系统、方法及装置
CN109960932A (zh) 文件检测方法、装置和终端设备
CN109800119A (zh) 一种产品功能测试方法及装置
CN106790727A (zh) 消息推送方法及装置
EP3541084A1 (en) Sensor opening test system, sensor opening test management terminal, sensor, sensor opening test method and program
CN104123496B (zh) 一种流氓软件的拦截方法及装置、终端
KR100867306B1 (ko) 이미지 분석기법을 이용한 홈페이지 변조점검 시스템 및 방법
CN112506798A (zh) 一种区块链平台的性能测试方法、装置、终端及存储介质
CN110008758A (zh) 一种id获取方法、装置、电子设备及存储介质
CN109976828B (zh) 一种配置文件的方法及装置
CN101127580B (zh) 节点装置、控制装置和控制方法
US10346611B1 (en) Detecting malicious software
CN108154033A (zh) 一种管理漏洞信息的方法、装置、电子设备及存储介质
CN111078773A (zh) 一种数据处理方法及装置
CN107515958A (zh) 电路布线检查方法及装置
CN102984229B (zh) 用于配置信任机的方法和系统
CN104573461A (zh) 一种用户帐号的生成方法及装置
CN103532988A (zh) 页面访问控制方法和相关装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant