CN113852602B

CN113852602B - 文件重建方法、装置，传输设备，电子设备及介质

Info

Publication number: CN113852602B
Application number: CN202110921074.9A
Authority: CN
Inventors: 刘锦锋; 柴彦东
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-12-08
Anticipated expiration: 2041-08-11
Also published as: CN113852602A

Abstract

本发明提供一种文件重建方法、装置、传输设备、电子、程序产品及介质，所述方法包括：从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件和/或图片类文件；对所述目标文件进行文件分解，得到所述目标文件的第一元数据；根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。本发明提供的方法能够实现对目标文件的全面检测，提高文件传输时的安全性。

Description

文件重建方法、装置，传输设备，电子设备及介质

技术领域

本发明涉及信息技术领域，尤其涉及一种文件重建方法、装置、传输设备、电子、程序产品及介质。

背景技术

网闸平台的业务传输过程中，应用数据有可能包含文件类数据，网闸需要对文件类数据进行安全过滤检测，合规的数据才被允许传输，不合规的数据需要进行阻断，以此保证传输数据的安全。

在现有技术中，文件内容检测时只针对特定类型文件进行内容检测，对于非内容检测类型的文件往往直接略过，使一些潜在的威胁数据随文件传输，给用户带来一定的威胁。如在Office文档中夹带恶意代码、往图片中夹带非法信息等现象，会造成威胁信息在类型检测的时候识别不到、内容识别不准确等问题，存在一定的安全隐患。

发明内容

本发明提供一种文件重建方法、装置、传输设备、电子、程序产品及介质，用以解决现有技术中内容检测不到位、传输文件存在安全隐患的技术问题，实现提高跨域数据传输时的安全性的目的。

第一方面，本发明提供一种文件重建方法，包括：

从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件和/或图片类文件；

对所述目标文件进行文件分解，得到所述目标文件的第一元数据；

根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；

在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；

根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。

进一步，根据本发明提供的文件重建方法，所述从跨域传输的数据流中获取目标文件，包括：

从跨域传输的数据流中获取文档类文件和/或图片类文件；

检测所获取的文档类文件和/或图片类文件的类型是否为预设的文件类型；

在所获取的文档类文件或图片类文件的类型是预设的文件类型的情况下，将所获取的文档类文件和/或图片类文件作为目标文件。

进一步，根据本发明提供的文件重建方法，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

在所述目标文件的类型为Office文档类文件的情况下，确定安全威胁检测条件为以下内容之一或其组合：

VBA编写的自动化任务；

“信任中心”宏的启用；

文件模板；

注释信息；

嵌入文件；

ActiveXObject对象。

进一步，根据本发明提供的文件重建方法，所述目标文件的类型为Office文档类文件；

所述在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据，包括：

根据所述第一元数据，确定所述目标文件中的元素之间的第一映射关系和第一依赖关系；

剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；

相应的，所述根据所述第二元数据进行文件重建包括：

根据被剔除的具有安全威胁的元数据，对所述第一映射关系和所述第一依赖关系进行更新，得到所述目标文件中的元素之间的第二映射关系和第二依赖关系；

根据所述第二元数据以及所述第二映射关系、第二依赖关系，对所述目标文件进行文件重建。

在所述目标文件的类型为RTF文档类文件的情况下，确定安全威胁检测条件为以下事件之一或其组合：

OLE对象；

Microsoft对象链接。

在所述目标文件的类型为PDF文档类文件的情况下，确定安全威胁检测条件为以下事件之一或其组合：

打开文档需要执行的事件；

打印文档之前需要执行的JavaScript事件；

打印文档之后需要执行的JavaScript事件；

保存文档之前需要执行的JavaScript事件；

保存文档之后需要执行的JavaScript事件；

页面打开需要执行的事件；

页面关闭需要执行的事件；

关联字段变化时需要执行的JavaScript事件；

字数字段变换时需要执行的JavaScript事件；

用户操作文本字段、组合框或修改可选列表框需要执行的JavaScript事件；

字段值更改时需要执行的JavaScript事件。

进一步，根据本发明提供的文件重建方法，所述对所述目标文件进行文件分解，得到所述目标文件的第一元数据，包括：

在所述目标文件的类型为JPEG图片类文件的情况下，对所述目标文件进行切分处理，得到元数据块；

对所述元数据块进行离散余弦变换，得到所述目标文件的第一元数据。

在所述目标文件的类型为JPEG图片类文件的情况下，确定安全威胁检测条件为以下类型的数据之一或其组合：

图片追加内容；

DCT域数据块夹带内容；

LSB域数据块夹带内容。

在所述目标文件的类型为PNG图片类文件、BMP图片类文件或TIFF图片类文件的情况下，对所述目标文件进行最低有效位变换处理，得到所述目标文件的低位数据域信息；

将所述低位数据域信息进行切块处理，得到元数据块，将所述元数据块作为所述目标文件的第一元数据。

在所述目标文件的类型为PNG图片类文件、BMP图片类文件或TIFF图片类文件的情况下，确定安全威胁检测条件为以下类型的数据之一或其组合：

图像数据块夹带的内容；

追加在图片尾部的内容；

通过添加IDAT数据块方式夹带的内容。

第二方面，本发明还提供一种文件重建装置，包括：

获取模块，用于从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件和/或图片类文件；

分解模块，用于对所述目标文件进行文件分解，得到所述目标文件的第一元数据；

检测模块，用于根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；

剔除模块，用于在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；

重建模块，用于根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。

第三方面，本发明还提供一种用于实现上述任一项所述的文件重建方法的跨域数据传输设备，包括：数据交换业务层、服务调用器和微服务层，所述服务调用器连接所述数据交换业务层和所述微服务层，其中，

所述数据交换业务层包括文件协议业务、邮件业务、数据库业务，用于实现跨域数据的交换；

所述微服务层包括类型检测服务、文件重建服务和图片重建服务，所述类型检测服务用于实现对目标文件的检测，所述文件重建服务用于实现对目标文件的重建，或所述图片重建服务用于实现对目标文件的重建。

第四方面，本发明还提供一种电子设备，包括：

处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上任一项中所述文件重建方法的步骤。

第五方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现如上任一项所述文件重建方法的步骤。

第六方面，本发明还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上所述文件重建方法的步骤。

本发明提供的一种文件重建方法、装置、传输设备、电子、程序产品及介质，所述方法通过从跨域传输的数据流中获取目标文件，对目标文件进行分解，得到第一元数据，根据目标文件的类型确定安全威胁检测条件，确定出第一元数据中存在安全威胁的元数据，并对该元数据进行剔除，得到第二元数据，根据第二元数据进行文件重建，得到目标文件重建后的文件。本发明通过对目标文件重建的方式实现对跨域传输文件的全面检测，提高文件传输的安全性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种文件重建方法的流程示意图；

图2是本发明提供的一种Office文档重建的流程示意图；

图3是本发明提供的一种RTF文档重建的流程示意图；

图4是本发明提供的一种PDF文档重建的流程示意图；

图5是本发明提供的一种JPG图片重建的流程示意图；

图6是本发明提供的一种PNG图片重建的流程示意图；

图7是本发明提供的一种文件重建的总流程示意图；

图8是本发明提供的一种文件重建装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的文件重建方法，如图1所示，本发明提供的文件重建方法，包括以下步骤：

步骤101：从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件和/或图片类文件；

步骤102：对所述目标文件进行文件分解，得到所述目标文件的第一元数据；

步骤103：根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；

步骤104：在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；

步骤105：根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。

具体地，元数据(Metadata)，又称中介数据，为描述数据的数据(data aboutdata)，主要是描述数据属性的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。其中，文件重建主要包括文档类文件重建和图片类文件重建。

在步骤101中，从基于网闸平台的跨域传输的数据流中获取目标文件，此时的目标文件中可能会存在一些威胁元素。需要说明的是，目标文件可能是文档类文件，也可能是图片类文件，具体可以根据用户的实际需要进行设定，在此不作具体限定。

在步骤102中，根据目标文件的类型选择对应的检测器，检测器对目标文件进行文件分解处理，得到构成所述目标文件的第一元数据，如目标文件的类型为PDF文档类文件，选用对应的PDF检测器对目标文件进行分解检测处理，得到第一元数据信息。需要说明的是，根据目标文件类型的不同，通过相应检测器处理后得到第一元数据的内容也不相同。

在步骤103中，根据目标文件的类型确定出安全威胁检测条件，再根据安全威胁检测条件检测出第一元数据中是否包含具有安全威胁的元数据，其中，安全威胁检测条件有多个，不同的文件类型对应不同的安全威胁检测条件。

在步骤104中，根据步骤103中确定的安全威胁检测条件，将第一元数据中存在具有安全威胁的元数据进行剔除处理，得到不存在安全威胁数据的第二元数据。

在步骤105中，将第二元数据进行文件的重建，得到目标文件的重建后文件，需要说明的是，若目标文件的文件类型不同，则将第二元数据进行重建时所采用的方式不同，如目标文件为Office文档类文件时，需要将第二元数据根更新后的映射关系和依赖关系进行重新构建，而若目标文件是JPG图片类文件时，则直接将剔除具有安全威胁数据剔除后得到的文件整理确定为重建后的文件。

在本发明实施例中，通过从跨域传输的数据流中获取目标文件，对目标文件进行检测分解处理，得到第一元数据，将第一元数据中具有安全威胁的元素进行剔除处理，得到第二元数据，根据第二元数据进行文件重建，得到重建后的文件。本发明提供的方法通过从跨域传输的数据流中得到目标文件，实现对目标文件的全面检测，保证传输文件的安全性。

在本发明的一个实施例中，如图2所示，所述从跨域传输的数据流中获取目标文件，包括：

从跨域传输的数据流中获取文档类文件和/或图片类文件；

在所获取的文档类文件和/或图片类文件的类型是预设的文件类型的情况下，将所获取的文档类文件和/或图片类文件作为目标文件。

具体地，数据流(Data Stream)是一组有序、且有起点和终点字节的数据序列，包括输入流和输出流。

在本发明实施例中，从跨域传输的数据流中获取文档类文件和/或图片类文件，检测获取的文档类文件和/或图片类文件的类型是否为预设的文件类型，若是则将获取的文档类文件和/或图片类文件作为目标文件，对该文件进行文件重建，如检测到文档类文件为office2007+，则通过查找预设的文件类型，得到该文件类型属于预设的文件类型中的office文件，确定对该文件进行文件重建操作。

其中，本发明实施例中预设的文件类型如下表1所示。需要说明的是，预设的文件类型不仅仅局限于此，可以根据用户的需要进行设定。

表1预设的文件类型

序列号	类型	注释
			1	image	图像类文件
2	Jpeg/jpg/jpm/jpx	JPG压缩图像文件
			3	Bmp/ppm/pgm/pbm	BMP位图数字图像文件
4	tiff	TIFF标签图像文件
			5	png	PNG位图图形文件
6	office	办公类文件
			7	Doc/docx	Word文档(微软/WPS)
8	Ppt/pptx	PowerPoint文档(微软/WPS)
			9	Xls/xlsx	Excel文档(微软/WPS)
10	pdf	PDF文档
			11	text	文本类文件
12	Rtf/rtx	RTF富文本文件

从上述表1中，可知，若基于网闸平台进行跨域数据传输的目标文件的文件类型属于预设的文件类型时，则对该目标文件进行文件重建操作。举例说明，如待传输的目标文件为PDF文档，属于预设的文件类型，则对该目标文件进行文件重建的操作。

在本发明的另一个实施例中，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

VBA编写的自动化任务；

“信任中心”宏的启用；

文件模板；

注释信息；

嵌入文件；

ActiveXObject对象。

具体地，VBA(Visual Basic for Applications)是Visual Basic的一种宏语言，是在其桌面应用程序中执行通用的自动化(OLE)任务的编程语言。

其中，“信任中心”宏的启用，是指将文件的信任中心界面中的所有宏打开，进入启用状态，用来检测文件的节点名称中是否存在威胁元素。

其中，ActiveXObject是指ActiveX对象，其中，ActiveX是Microsoft对于一系列策略性面向对象程序技术和工具的称呼，其中主要的技术是组件对象模型。

在本发明实施例中，当所述目标文件为Office文档类文件时，将目标文件输入对应的Office检测器中，进行检测分解处理，得到第一元数据信息，此时，第一元数据信息中可能存在非必要元数据或具有安全威胁的数据，在不影响文档预览的情况下，将满足安全威胁检测条件的元数据信息进行剔除处理，本发明实施例中对于Office文档类文件的安全威胁检测条件如下表2所示。需要说明的是，Office文档的安全威胁检测条件可以根据实际需要进行设定，在此不作具体限定。

举例说明，本发明实施例中对于VBA编写的自动化任务中，以修订模式遍历读取OLE2文档中的CLSID，结合元数据节点名称，可以确认出第一元数据信息中哪些数据块是需要剔除处理的，对具有安全威胁的元数据进行剔除处理后得到第二元数据。需要说明的是，如果目标文件中存在VBA编写的病毒植入自动化(OLE)任务。当对目标文件进行打开文件、获取操作文件内容等操作时，可能会启动已存在的自动化任务，对操作主机植入病毒，导致不必要的危害。因此，若检测到目标文件中存在威胁元数据时，对其进行剔除处理，尽可能避免威胁元素对操作主机带来不必要危害。其中，OLE2文档，又叫ActiveX文档或WindowsCompound File，是一种广泛用于Windows平台上的格式。

还有，通过检查目标文件节点名称是否为ObjectPool的方式，若检测到第一元数据信息中存在嵌入数据，也就是存在不是该目标文件中的文档内容，将其确定为具有安全威胁的数据，对该嵌入数据进行剔除处理，使得到的第二元数据信息中不含有具有安全威胁的元数据，以免给操作机带来病毒危害。

表2 Office文档类文件的安全威胁检测条件

本发明实施例中，通过对Office文档类文件的安全威胁检测条件的设定，能够全面、详细地实现对Office文档类文件的检测，提高文件传输的安全性。

在本发明的另一个实施例中，所述目标文件的类型为Office文档类文件；

相应的，所述根据所述第二元数据进行文件重建包括：

根据所述第二元数据以及第二映射关系、第二依赖关系，对所述目标文件进行文件重建。

具体地，映射关系是一种程序设计技术，用于实现面向对象编程语言里不同类型系统的数据之间的转换；依赖关系又称为逻辑关系，是指各个元素之间具有相互影响的关系，如在项目管理中，一个活动的变更将会影响到另一个活动的关系。

在本发明实施例中，当目标文件的文件类型为Office2007+文档类文件时，利用OOXML检测器对第一元数据信息进行检测分解处理；当目标文件的文件类型为Office2003文档类文件时，利用OLE2检测器对目标文件进行检测分解处理得到第一元数据信息，在将具有安全威胁的元数据剔除处理后，还需要重新更新目标文件中各个元数据之间的映射关系和依赖关系，根据得到的新的映射关系和依赖关系将第二元数据进行重新构建，得到目标文件重建后的文件。其中，OpenXML(OOXML)是微软在Office 2007中提出的一种新的文档格式，Office 2007中的Word、Excel、PowerPoint默认均采用OpenXML格式。需要说明的是，Office类型的文件存在一个依赖关系的逻辑映射表，如果删除元素，还需要修改对应的映射表，否则将引起Office文件格式损坏。

本发明实施例中，通过获取Office文档类文件的第一映射关系和第一依赖关系，在剔除具有安全威胁的元数据后，获取第二映射关系和第二依赖关系，根据第二映射关系和第二依赖关系将得到的第二元数据进行重建，得到重建后的文件，本发明提供的方法能够实现对Office类型的文件重建，得到安全性较高的数据，保证跨域传输数据的安全性。

在本发明的另一个实施例中，如图3所示，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

OLE对象；

Microsoft对象链接。

具体地，RTF(Rich Text Format)表示富文本格式，OLE(Object Linking andEmbedding)，对象连接与嵌入，OLE可以用来创建复合文档，符合文档包含了创建于不同源应用程序，有着不同类型的数据，可以把文字、声音、图像、表格、应用程序等组合在一起。

在本发明实施例中，当目标文件为RTF文档类文件时，将目标文件输入对应的RTF检测器中，进行检测分解处理，得到第一元数据信息，此时，第一元数据信息为头部信息和文档内容信息，而且第一元数据信息中可能存在非必要元数据或具有安全威胁的元数据，在不影响文档预览的情况下，将非必要元数据或存在安全威胁的元数据进行剔除处理。

当目标文件的文件类型为RTF文档类文件时，安全威胁检测条件如表3所示，用于对目标文件的内容检测，确定是否包含”\obj”字段。

表3 RTF文档类文件的安全威胁检测条件

规则	事件
		1	OLE对象
2	Microsoft对象链接

根据上述表3的内容，重点检测文档内容区的内容，检测文档内容区中是否包含恶意的OLE对象或Microsoft对象链接，若存在OLE对象或Microsoft对象链接则将其进行剔除处理。需要说明的是，OLE对象可以用于存储任何文件，包括可执行文件和脚本，如果用户双击这种对象，则嵌入的文件将会被系统打开，给操作机带来一定的威胁。

本发明实施例中，当目标文件为RTF文档类文件时，通过设定的安全威胁检测条件实现对目标文件的安全检测，能够达到对目标文件中文档内容全面检测的目的，提高跨域数据传输时文件的安全性。

在本发明的另一个实施例中，如图4所示，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

打开文档需要执行的事件；

打印文档之前需要执行的JavaScript事件；

打印文档之后需要执行的JavaScript事件；

保存文档之前需要执行的JavaScript事件；

保存文档之后需要执行的JavaScript事件；

页面打开需要执行的事件；

页面关闭需要执行的事件；

关联字段变化时需要执行的JavaScript事件；

字数字段变换时需要执行的JavaScript事件；

字段值更改时需要执行的JavaScript事件。

具体地，JavaScript是一种具有函数优先的轻量级，解释型或即时编译型的编程语言，JavaScript事件是指可以被JavaScript侦测到的一种行为。

在本发明实施例中，当目标文件为PDF文档类文件时，将目标文件输入对应的PDF检测器中，进行检测分解处理，得到第一元数据信息，此时，第一元数据信息为文件头部信息，而且第一元数据信息中可能存在非必要元数据或具有安全威胁的元数据，在不影响文档预览的情况下，将非必要元数据或存在安全威胁的元数据进行剔除处理。需要说明的是，本发明实施例中通过PDDocumentNameDictionary接口，在PDF检测器获取到JavaScriptAction时，对该元数据进行去除。PDF文档类文件的安全威胁检测条件如下表4所示。需要说明的是，PDF文档类文件的安全威胁检测条件可以根据实际需要进行设定，在此不作具体限定。

表4 PDF文档类文件的安全威胁检测条件

根据上述表4的内容，PDF检测器从对象树根部开始遍历，分别检查页面树内元素，对JavaScript脚本、外部跳转类型的对象进行去除。对于JavaScript脚本，可以按照影响范围分为以下几种：文件夹级脚本、文档级脚本、页面级脚本、域级脚本以及批处理级脚本，所有类型的脚本都是有事件驱动的，即当发生相应操作动作时，才会响应执行，也就是说，如对于“打开文档需要执行的事件”中存在JavaScript威胁脚本，当打开文件执行这个操作事件时操作机可能就会被威胁脚本攻入，产生一定的危害。

需要说明的是，PDF文档类文件由多个“对象”小模块组成，多个对象信息以偏移值+索引的形式保存在交叉引用表中，文件尾说明根对象的对象号，并且说明交叉引用表的位置，通过对交叉引用表的查询可以找到目录对象(Catalog)，该目录对象是该PDF文档的根对象，包含PDF文档的大纲(outline)和页面组对象(pages)，其中，大纲对象是指PDF文件的书签树，页面组对象(pages)包含该文件的页面数，各个页面对象(page)的对象号。

本发明实施例中，当目标文件的文件类型为PDF文档类文件时，通过设定的安全威胁检测条件对PDF文档进行检测剔除处理，得到新的PDF文档，能够实现对PDF文档的全面检测，提高跨域传输数据的安全性。

在本发明的另一个实施例中，如图5所示，所述对所述目标文件进行文件分解，得到所述目标文件的第一元数据，包括：

具体地，离散余弦变换(Discrete Cosine Transform，DCT)是与傅里叶变换相关的一种变换，用来压缩图像。

在本发明实施例中，当目标文件为JPEG图片类文件时，将目标文件输入对应的JPEG检测器中，进行切块处理，得到元数据块，然后对元数据块通过离散余弦变换进行变换处理，得到第一元数据信息，

本发明实施例中，通过离散余弦变换的方式得到第一元数据信息，能够保证图片信息的真实性，避免失真。

在上述实施例的基础上，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

图片追加内容；

DCT域数据块夹带内容；

LSB域数据块夹带内容。

具体地，LSB(Least Significant Bit)表示最低有效位，在二进制中的最低有效位。

在本发明实施例中，上述实施例中得到的第一元数据信息中可能存在非必要元数据或具有安全威胁的元数据信息，在不影响图片预览的情况下，将非必要元数据或存在安全威胁的元数据进行剔除处理。其中，JPEG图片类文件的安全威胁检测条件如下表5所示。需要说明的是，JPEG图片类文件的安全威胁检测条件可以根据实际需要进行设定，在此不作具体限定。

表5 JPEG图片类文件的安全威胁检测条件

规则	内容
		1	图片追加内容；
2	DCT域数据块夹带内容；
		3	LSB域数据块夹带内容；

对第一元数据信息进行量化统计，检测是否含有上述表5中设定的内容。当检测到图片的第一元数据信息中含有EOI后面的数据时，存在“图片追加内容”，则将其认为是非法数据，将其进行剔除。需要说明的是，JPEG文件大体可以分为两个部分：标记码和压缩数据。其中，标记码是由两个字节构成，第一个字节是固定值0xFF，后一个字节则根据不同意义有不同数值。具体表示如下表6所示。

表6 JPEG文件构成

标记值	含义	解释
			0xD8	SOI	图像开始
0xE0	APP0	应用程序保留标记
			0xE1-0xEF	APPn	应用程序保留n＝1-15
0xDB	DQT	量化表
			0xC0	SOF	数据帧的开始
0xC4	DHT	Define Huffman Table
			0xDD	DRI	Define Restart Interval
0xD9	EOI	图像结束

当对第一元数据进行DCT域转换时，通过对数据块统计分析，如超过5％的数据块异常则判定可能有夹带异常数据，即数据块中存在夹带内容，则将其夹带内容剔除，然后进行JPEG重建。

在本发明实施例中，根据预设的JPEG图片类文件的安全威胁检测条件，检测出目标文件中的具有安全威胁的元数据信息，并将其进行剔除处理，保证了文件的跨域传输时的安全性。

在本发明的另一个实施例中，如图6所示，所述对所述目标文件进行文件分解，得到所述目标文件的第一元数据，包括：

所述根据所述目标文件的类型确定安全威胁检测条件，包括：

图像数据块夹带的内容；

追加在图片尾部的内容；

通过添加IDAT数据块方式夹带的内容。

具体地，IDAT(Image Data Chunk)表示图像数据块，用于存储实际的数据，在数据流中可包含多个连续顺序的图像数据块。

在本发明实施例中，当目标文件为PNG、BMP或TIFF图片类文件时，将目标文件输入对应的PNG检测器或通用检测器(BMP和TIFF)中，检测目标文件是否需要进行压缩转换处理，对解压处理后得到的文件利用LSB变换算法进行变换处理，获取低位数据域信息，将所述低位数据域信息进行切块处理，得到元数据块，然后遍历所有的元数据块，也就是第一元数据信息，此时，第一元数据信息中可能存在具有安全威胁的元数据，在不影响图片预览的情况下，将具有安全威胁的元数据进行剔除处理。其中，PNG、BMP或TIFF图片类文件的安全威胁检测条件如下表7所示。需要说明的是，PNG、BMP或TIFF图片类文的安全威胁检测条件可以根据实际需要进行设定，在此不作具体限定。

表7 PNG、BMP或TIFF图片类文件的安全威胁检测条件

规则	内容
		1	图像数据块夹带内容；
2	通过追加在图片尾部的内容；
		3	通过添加IDAT数据块方式进行夹带的内容；

检查元数据块中是否存在不合法的数据块，其中，不合法的数据块内容可以是：图像数据库夹带内容、图片尾部追加的内容或IDAT数据块方式进行夹带的内容。若检测到图片尾部标识后还检测到数据，则判断为追加在图片尾部的内容；另外，PNG添加IDAT块长度，如果存在块长度未满的情况下，继续将数据存储于新的IDAT块。此时，新IDAT就被视为异常数据块，需要对异常块进一步检测，对第一元数据信息进行数据块统计分析，超过5％的数据块异常则判定可能有夹带异常数据，即数据块中存在夹带具有安全威胁的内容，则判定该PNG为异常图片，进行强制重建。

本发明实施例中，根据预设的多种图片类型文件的安全威胁检测条件，对目标文件进行检测处理，得到第二元数据信息，并对其进行文件重建，得到重建后的文件。本发明提供的方法能够实现对图片类文件的全面检测，保证文件传输时的安全性。

在本发明的另一个实施例中，本发明包括：数据交换业务层、服务调用器和微服务层，所述服务调用器连接所述数据交换业务层和所述微服务层，其中，

在本发明实施例中，如图7所示，文档重建服务、图片重建服务作为微服务组的子服务，需要与服务调用器RPC协议约定进行通讯：

1)服务首次启动，需要向微服务器管理器发送注册信令，告知服务类型、UUID；

2)应用层调用查询接口，发起重建查询；

3)服务调用器检查请求中是否明确了文件类型，否则先调用类型子服务，查询文件类型；

4)服务调用器判断如果类型为图片，则按LRU原则分配给空闲的图片重建服务；如果为文档类型，则按LRU原则分配给空闲的文档重建服务；如果非以上类型，则直接返回结果到查询接口；

5)图片重建服务收到请求，按具体的文件类型进行图片检测，如检测到夹带数据则进行重建，重建与否均返回结果信息；文档重建服务收到请求，按具体的文件类型进行文档检测，如检测到夹带数据则进行重建，重建与否均返回结果信息。

图8为本发明提供的一种文件重建装置，如图8所示，本发明提供的文件重建装置，包括：

获取模块801，用于从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件和/或图片类文件；

分解模块802，用于对所述目标文件进行文件分解，得到所述目标文件的第一元数据；

检测模块803，用于根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；

剔除模块804，用于在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；

重建模块805，用于根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。

本发明实施例中，获取模块用于获取目标文件，分解模块对目标文件进行分解处理，检测模块用于根据所述目标文件的类型确定安全威胁检测条件检测分解得到的第一元数据中是否包含具有安全威胁的元数据，剔除模块对具有安全威胁的元数据进行剔除处理得到第二元数据，重建模块用于根据第二元数据进行文件重建，得到重建后的文件。本发明提供的装置能够实现对目标文件的全面检测，提高文件传输的安全性。

进一步，根据本发明提供的文件重建装置，所述获取模块还用于：

从跨域传输的数据流中获取文档类文件和/或图片类文件；

在所获取的文档类文件和/或图片类文件的类型是预设的文件类型的情况下，将所获取的文档类文件或图片类文件作为目标文件。

进一步，根据本发明提供的文件重建装置，所述装置还用于：

VBA编写的自动化任务；

“信任中心”宏的启用；

文件模板；

注释信息；

嵌入文件；

ActiveXObject对象。

所述目标文件的类型为Office文档类文件；

相应的，所述根据所述第二元数据进行文件重建包括：

OLE对象；

Microsoft对象链接。

打开文档需要执行的事件；

打印文档之前需要执行的JavaScript事件；

打印文档之后需要执行的JavaScript事件；

保存文档之前需要执行的JavaScript事件；

保存文档之后需要执行的JavaScript事件；

页面打开需要执行的事件；

页面关闭需要执行的事件；

关联字段变化时需要执行的JavaScript事件；

字数字段变换时需要执行的JavaScript事件；

字段值更改时需要执行的JavaScript事件。

进一步，根据本发明提供的文件重建装置，所述分解模块还用于：

图片追加内容；

DCT域数据块夹带内容；

LSB域数据块夹带内容。

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

图9为本发明实施例提供的电子设备实体结构示意图，如图9所示，本发明提供一种电子设备，包括：处理器(processor)901、存储器(memory)902和总线903；

其中，处理器901、存储器902通过总线903完成相互间的通信；

处理器901用于调用存储器902中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件或图片类文件；对所述目标文件进行文件分解，得到所述目标文件的第一元数据；根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：从跨域传输的数据流中获取目标文件；其中，所述目标文件为文档类文件或图片类文件；对所述目标文件进行文件分解，得到所述目标文件的第一元数据；根据所述目标文件的类型确定安全威胁检测条件，根据所述安全威胁检测条件检测所述第一元数据中是否包含具有安全威胁的元数据；在所述第一元数据包含具有安全威胁的元数据的情况下，剔除所述具有安全威胁的元数据，得到目标文件的第二元数据；根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文件重建方法，其特征在于，包括：

根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件，其中，根据所述目标文件的类型确定文件重建方式，基于确定的文件重建方式与所述第二元数据进行文件重建。

2.根据权利要求1所述的文件重建方法，其特征在于，所述从跨域传输的数据流中获取目标文件，包括：

从跨域传输的数据流中获取文档类文件和/或图片类文件；

3.根据权利要求1所述的文件重建方法，其特征在于，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

VBA编写的自动化任务；

“信任中心”宏的启用；

文件模板；

注释信息；

嵌入文件；

ActiveXObject对象。

4.根据权利要求1所述的文件重建方法，其特征在于，所述目标文件的类型为Office文档类文件；

相应的，所述根据所述第二元数据进行文件重建包括：

5.根据权利要求1所述的文件重建方法，其特征在于，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

OLE对象；

Microsoft对象链接。

6.根据权利要求1所述的文件重建方法，其特征在于，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

打开文档需要执行的事件；

打印文档之前需要执行的JavaScript事件；

打印文档之后需要执行的JavaScript事件；

保存文档之前需要执行的JavaScript事件；

保存文档之后需要执行的JavaScript事件；

页面打开需要执行的事件；

页面关闭需要执行的事件；

关联字段变化时需要执行的JavaScript事件；

字数字段变换时需要执行的JavaScript事件；

字段值更改时需要执行的JavaScript事件。

7.根据权利要求1所述的文件重建方法，其特征在于，所述对所述目标文件进行文件分解，得到所述目标文件的第一元数据，包括：

8.根据权利要求1所述的文件重建方法，其特征在于，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

图片追加内容；

DCT域数据块夹带内容；

LSB域数据块夹带内容。

9.根据权利要求1所述的文件重建方法，其特征在于，所述对所述目标文件进行文件分解，得到所述目标文件的第一元数据，包括：

10.根据权利要求1所述的文件重建方法，其特征在于，所述根据所述目标文件的类型确定安全威胁检测条件，包括：

图像数据块夹带的内容；

追加在图片尾部的内容；

通过添加IDAT数据块方式夹带的内容。

11.一种文件重建装置，其特征在于，包括：

重建模块，用于根据所述第二元数据进行文件重建，得到所述目标文件的重建后文件，其中，根据所述目标文件的类型确定文件重建方式，基于确定的文件重建方式与所述第二元数据进行文件重建。

12.一种用于实现基于权利要求1-10任一项所述的文件重建方法的跨域数据传输设备，其特征在于，包括：数据交换业务层、服务调用器和微服务层，所述服务调用器连接所述数据交换业务层和所述微服务层，其中，

13.一种电子设备，其特征在于，包括：

处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至10中任一所述的方法。

14.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至10中任一所述的方法。