CN113065154B - 一种文档检测方法、装置、设备和存储介质 - Google Patents

一种文档检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113065154B
CN113065154B CN202110296204.4A CN202110296204A CN113065154B CN 113065154 B CN113065154 B CN 113065154B CN 202110296204 A CN202110296204 A CN 202110296204A CN 113065154 B CN113065154 B CN 113065154B
Authority
CN
China
Prior art keywords
document
detected
additional information
extracting
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110296204.4A
Other languages
English (en)
Other versions
CN113065154A (zh
Inventor
蔡家坡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN202110296204.4A priority Critical patent/CN113065154B/zh
Publication of CN113065154A publication Critical patent/CN113065154A/zh
Application granted granted Critical
Publication of CN113065154B publication Critical patent/CN113065154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本申请实施例公开了一种文档检测方法、装置、设备和存储介质,所述方法包括:确定待检测文档的文档类型;基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。通过对待检测文档中的内容信息和附加信息均进行提取,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测所造成的泄密问题,提高了文档的安全性。

Description

一种文档检测方法、装置、设备和存储介质
技术领域
本申请涉及信息安全技术领域,涉及但不限于一种文档检测方法、装置、设备和存储介质。
背景技术
相关技术中,大多数数据泄密防护设备针对文档的提取仅支持文档中内容信息的提取,而忽视了文档中附加信息的提取,如果泄密用户将机密信息以附加信息的形式进行泄露,则数据泄密防护设备由于并未对附加信息进行提取,从而无法分析到机密信息。
发明内容
有鉴于此,本申请实施例提供一种文档检测方法、装置、设备和存储介质。
第一方面,本申请实施例提供一种文档检测方法,所述方法包括:确定待检测文档的文档类型;基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
本申请实施例中,通过对待检测文档中的内容信息和附加信息均进行提取,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测所造成的泄密问题,提高了文档的安全性。
在一个实施例中,所述方法应用于数据泄密防护设备,所述方法还包括:获取网关设备发送的待检测文档;所述待检测文档为内网中的第一终端设备向所述网关设备发送的文档;将所述检测结果发送至所述网关设备,以供所述网关设备根据所述检测结果确定是否将所述待检测文档发送至外网中的第二终端设备。
本申请实施例中,数据泄密防护设备可以根据从网关设备处获取的待检测文档中提取的内容信息和附加信息,生成待检测文档的检测结果,将所述检测结果发送至网关设备,以供网关设备根据检测结果确定是否将待检测文档发送至外网中的第二终端设备,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测就将待检测文档发送至外网所造成的泄密问题,提高了文档的安全性。
在一个实施例中,所述方法应用于网关设备,所述方法还包括:获取内网中的第一终端设备发送的待检测文档;根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
本申请实施例中,网关设备可以根据从第一终端设备处获取的待检测文档中提取的内容信息和附加信息,生成待检测文档的检测结果,并根据检测结果确定是否将待检测文档发送至外网中的第二终端设备,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测就将待检测文档发送至外网所造成的泄密问题,提高了文档的安全性。
在一个实施例中,所述根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果,包括:在所述内容信息和/或所述附加信息中包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为敏感文档;在所述内容信息和所述附加信息中均不包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为非敏感文档。
本申请实施例中,通过根据内容信息和/或附加信息中是否包含敏感信息,确定待检测文档是否为敏感文档,从而可以更准确地对敏感文档和非敏感文档分类。
在一个实施例中,所述根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备,包括:在所述检测结果为所述待检测文档为敏感文档的情况下,拒绝将所述待检测文档发送至外网中的第二终端设备;在所述检测结果为所述待检测文档为非敏感文档的情况下,将所述待检测文档发送所述第二终端设备。
本申请实施例中,可以根据待检测文档为敏感文档还是非敏感文档,决定是否将待检测文档发送至外网中的第二终端设备,从而可以进一步提高文档的安全性。
在一个实施例中,所述待检测文档包括office文档,所述利用所述第二提取流程,从所述待检测文件中提取所述附加信息,包括:对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;将所述附加信息所在位置的文件内容提取为附加信息。
本申请实施例中,通过对office文档的压缩包进行解压缩处理,得到XML格式的文档部件目录,再根据文档类型,确定目标文档部件目录,确定目标文件,从而可以更准确地提取待检测文档的附加信息。
在一个实施例中,在所述office文档的文档类型为docx类型的情况下,所述目标文档部件目录为word目录;所述目标文件包括页眉文件和页脚文件;所述目标关键字包括<w:t>和</w:t>;在所述office文档的文档类型为xlsx类型的情况下,所述目标文档部件目录为xl目录;所述目标文件为备注信息文件;所述目标关键字包括<t>和</t>;在所述office文档的文档类型为pptx类型的情况下,所述目标文档部件目录为notesSlides目录;所述目标文件为备注信息文件;所述目标关键字包括<a:t>和</a:t>。
本申请实施例中,通过在文档类型不同的情况下,确定不同的目标文档部件目录,进一步确定目标文件,再确定目标关键字,又根据目标关键字确定附加信息的位置,从而可以使得附加信息的查找更准确。
第二方面,本申请实施例提供一种文档检测方法,所述方法包括:获取内网中的第一终端设备发送的待检测文档;将所述待检测文档发送至数据泄密防护设备,以供所述数据泄密防护设备确定所述待检测文档的文档类型;并基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程,利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;再根据所述内容信息和所述附加信息,生成所述检测文档的检测结果;接收所述数据泄密防护设备发送的检测结果;根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
本申请实施例中,网关设备通过将待检测文档发送至数据泄密防护设备,以供数据泄密防护设备对待检测文档中的内容信息和附加信息均进行提取,并将根据内容信息和附加信息生成的检测结果发送至网关设备,以供网关设备确定根据检测结果确定是否将待检测文档发送至外网,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测所造成的泄密问题,提高了文档的安全性。
第三方面,本申请实施例提供一种文档检测装置,包括:第一确定模块,用于确定待检测文档的文档类型;第二确定模块,用于基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;第一提取模块,用于利用所述第一提取流程,从所述待检测文档中提取所述内容信息;第二提取模块,用于利用所述第二提取流程,从所述待检测文档中提取所述附加信息;生成模块,用于根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
第四方面,本申请实施例提供一种文档检测装置,包括:获取模块,用于获取内网中的第一终端设备发送的待检测文档;
第一发送模块,用于将所述待检测文档发送至数据泄密防护设备,以供所述数据泄密防护设备确定所述待检测文档的文档类型;并基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程,利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;再根据所述内容信息和所述附加信息,生成所述检测文档的检测结果;接收模块,用于接收所述数据泄密防护设备发送的检测结果;第二发送模块,用于根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
第五方面,本申请实施例提供一种文档检测设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例任一所述文档检测方法中的步骤。
第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例任一所述文档检测方法中的步骤。
附图说明
图1为本申请实施例一种文档检测方法的流程示意图;
图2为本申请实施例一种待测试文档的示意图;
图3a为本申请实施例一种docx类型的文档的页眉的示意图;
图3b为本申请实施例一种docx类型的文档的页脚的示意图;
图3c为本申请实施例一种xlsx类型的文档的备注信息的示意图;
图3d为本申请实施例一种pptx类型的文档的备注信息的示意图;
图4为本申请实施例另一种文档检测方法的流程示意图;
图5a为本申请实施例一种docx类型的文档的XML格式的文档部件目录示意图;
图5b为本申请实施例一种docx类型的文档的目标文件的文件内容的示意图;
图5c为本申请实施例另一种docx类型的文档的目标文件的文件内容的示意图;
图6a为本申请实施例一种xlsx类型的文档的XML格式的文档部件目录示意图;
图6b为本申请实施例一种xlsx类型的文档的目标文件的文件内容的示意图;
图7a为本申请实施例一种pptx类型的文档的XML格式的文档部件目录示意图;
图7b为本申请实施例一种pptx类型的文档的目标文件的文件内容的示意图;
图8为本申请实施例再一种文档检测方法的流程示意图;
图9为本申请实施例一种待检测文档的附加信息提取方法的流程示意图;
图10a为本申请实施例一种docx类型的文档的附加信息提取流程示意图;
图10b为本申请实施例一种xlsx类型的文档的附加信息提取流程示意图;
图10c为本申请实施例一种pptx类型的的文档的附加信息提取流程示意图;
图11为本申请实施例一种文档检测装置的组成结构示意图;
图12为本申请实施例另一种文档检测装置的流程示意图;
图13为本申请实施例文档检测设备的一种硬件实体示意图。
具体实施方式
下面结合附图和实施例对本申请的技术方案进一步详细阐述。
图1为本申请实施例提供的文档检测方法的实现流程示意图,如图1所示,该方法可以应用于数据泄密防护设备或网关设备,该方法包括:
步骤102:确定待检测文档的文档类型;
其中,所述待检测文档可以是数据泄密(泄露)防护(Data leakage prevention,DLP)设备或网关设备截获的内网中的第一终端设备向外网中的第二终端设备外发的文档;数据泄密防护又可以称为“数据丢失防护”(Data Loss prevention,DLP)。数据泄密防护(DLP)是通过一定的技术手段,防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业的一种策略;网关(Gateway)设备又称网间连接器、协议转换器,是多个网络间提供数据转换服务的计算机系统或设备。可以说网关设备就是不同网之间的连接器,就是数据要从一个网到另外一个网时要经过“协商”的设备。
待检测文档可以是office文档,进一步地,所述office文档可以是office2003版本、office2007版本及2007以后版本等;office2003的文档类型可以包括doc(Document,文本文档)类型、xls(Electronic form,电子表格)类型和ppt(Power Point,演示文稿)类型;office2007的文档类型可以包括docx类型、xlsx类型和pptx类型。
以office2007为例进行说明,可以通过读取office2007文档中的文档内容,根据所述文档内容,识别office2007文档的文档类型;还可以通过读取office2007文档的文件名的后缀名,确定office2007文档的文档类型;再可以通过对office2007文档的压缩包进行解压缩处理,得到多个XML(Extensible Markup Language,可扩展标记语言)格式的文档部件目录,根据文档部件目录的种类确定office2007文档的文档类型。
图2为本申请实施例一种待检测文档的示意图,参见图2,所述待检测文档可以是doc类型的文档201,文档201的文档名称为“测试金额正则命中-0717”、docx类型的文档202,文档202的文档名称为“设计说明书1109”、xls类型的文档203,文档203的文档名称为“渠道业绩-3-xls”,以及xls类型的文档204,文档204的文档名称为“渠道信息-1-xls”。
可以对待检测文档的行为数据进行分析,得到分析结果,可以根据分析结果实现对待检测文档的发送进行管控;所述行为数据可以包括待检测文档的源IP(InternetProtocol,网际互连协议)、目的IP和文档内容等;参见图2,所述分析结果可以包括外发用户数和外发次数等;所述外发用户数可以是第一终端设备的个数;文档“测试金额正则命中-0717”的分析结果205可以包括外发用户9人,外发次数20次;文档“设计说明书1109”的分析结果206可以包括外发用户1人,外发次数1次;文档“渠道业绩-3-xls”的分析结果207可以包括外发用户1人,外发次数1次;文档“渠道信息-1-xls”的分析结果208可以包括外发用户1人,外发次数2次。
步骤104:基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
其中,所述内容信息可以包括待检测文档的正文和标题;所述文档附加信息可以是在待检测文档中附加的备注信息,所述附加信息可以包括所述待检测文档的页眉、页脚、批注信息和备注信息等;待检测文档的文档类型不同,对应的内容信息的第一提取流程不同,附加信息的第二提取流程也不同。
所述待检测文档为docx类型的文档时,所述附加信息可以是所述docx类型的文档的页眉和页脚,所述附加信息也可以是所述docx类型的文档的页眉、页脚和批注信息;所述待检测文档为xlsx类型的文档时,所述附加信息可以是所述xlsx类型的文档的备注信息;所述待检测文档为pptx类型的文档时,所述附加信息可以是所述pptx类型的文档的备注信息。
图3a为本申请实施例一种docx类型的文档的页眉的示意图,图3b为本申请实施例一种docx类型的文档的页脚的示意图,参见图3a和图3b,所述待检测文档为docx类型的文档(又可以称为docx文档)时,所述附加信息可以包括docx文档的某一页的页眉301a和docx文档的某一页的页脚301b;所述页眉301a可以是“XXX科技股份有限公司”,所述页脚301b可以是“机密文档”。
图3c为本申请实施例一种xlsx类型的文档的备注信息的示意图,参见图3c,所述待检测文档为xlsx类型的文档(又可以称为xlsx文档)时,所述附加信息可以包括xlsx文档的某一表格301c的备注信息302c,所述备注信息302c可以是“XXX科技股份有限公司”。
图3d为本申请实施例一种pptx类型的文档的备注信息的示意图,参见图3d,所述待检测文档为pptx类型的文档(又可以称为pptx文档)时,所述附加信息可以包括pptx文档的某一页的备注信息301d,所述备注信息301d可以是“XXX科技股份有限公司”。
步骤106:利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
步骤108:利用所述第二提取流程,从所述待检测文档中提取所述附加信息;
步骤110:根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
其中,所述检测结果可以用于表征所述待检测文档中是否包含敏感信息。
本申请实施例中,通过对待检测文档中的内容信息和附加信息均进行提取,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测所造成的泄密问题,提高了文档的安全性。
图4为本申请实施例提供的一种文档检测方法的流程示意图,参见图4,所述方法包括以下步骤:
步骤S202:数据泄密防护设备401获取网关设备402发送的待检测文档403;所述待检测文档403为内网中的第一终端设备404向所述网关设备402发送的文档;
其中,内网一般指局域网;所述数据泄密防护设备又可以称为DLP设备,所述数据泄密防护设备401和网关设备402可以独立设计,网关设备402可以在拦截到内网中的第一终端设备404向外网406中的第二终端设备发送的待检测文档403后,可以镜像所述待检测文档403,并将所述待检测文档403的镜像发送至数据泄密防护设备401。
步骤S204:所述数据泄密防护设备401确定待检测文档403的文档类型;
步骤S206:所述数据泄密防护设备401基于所述文档类型确定用于提取所述待检测文档403的内容信息的第一提取流程和用于提取所述待检测文档403的附加信息的第二提取流程;
步骤S208:所述数据泄密防护设备401利用所述第一提取流程,从所述待检测文档403中提取所述内容信息;
步骤S210:所述数据泄密防护设备401利用所述第二提取流程,从所述待检测文档403中提取所述附加信息;
步骤S212:所述数据泄密防护设备401根据所述内容信息和所述附加信息,生成所述待检测文档403的检测结果405。
其中,可以由数据泄密防护设备401对所述待检测文档403进行敏感信息的检测,生成所述待检测文档403的检测结果405;所述敏感信息可以是机密文档、设计说明书中的主要步骤、仅限内部流传、业绩和客户信息等信息。
在所述内容信息和/或所述附加信息中包含敏感信息的情况下,生成所述待检测文档403的检测结果405为所述待检测文档为敏感文档(又可以称为敏感文件);在所述内容信息和所述附加信息中均不包含敏感信息的情况下,生成所述待检测文档403的检测结果为所述待检测文档403为非敏感文档(又可以称为非敏感文件)。
步骤S214:所述数据泄密防护设备401将所述检测结果405发送至所述网关设备402;
步骤S216:所述网关设备402根据所述检测结果405确定是否将所述待检测文档403发送至外网406中的第二终端设备。
其中,外网一般指广域网;在所述检测结果405为所述待检测文档403为敏感文档的情况下,拒绝将所述待检测文档403发送至外网406中的第二终端设备;在所述检测结果405为所述待检测文档403为非敏感文档的情况下,将所述待检测文档403放行,即将所述待检测文档403发送至外网406中的第二终端设备。
本申请实施例中,数据泄密防护设备可以根据从网关设备处获取的待检测文档中提取的内容信息和附加信息,生成待检测文档的检测结果,将所述检测结果发送至网关设备,以供网关设备根据检测结果确定是否将待检测文档发送至外网中的第二终端设备,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测就将待检测文档发送至外网所造成的泄密问题,提高了文档的安全性。
本申请实施例还提供一种文档检测方法,所述方法包括以下步骤:
步骤S302:网关设备获取内网中的第一终端设备发送的待检测文档;
其中,数据泄密防护产品可以以软件形式安装于网关设备上,即数据泄密防护设备和所述网关设备可以为一体化设计;网关设备可以在拦截到内网中的第一终端设备向外网中的第二终端设备发送的待检测文档后,对所述待检测文档进行敏感信息的检测,生成所述待检测文档的用于进行保密性检测的检测结果。
步骤S304:所述网关设备确定待检测文档的文档类型;
步骤S306:所述网关设备基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
步骤S308:所述网关设备利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
步骤S310:所述网关设备利用所述第二提取流程,从所述待检测文档中提取所述附加信息;
步骤S312:所述网关设备根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
步骤S314:所述网关设备根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
本申请实施例中,网关设备可以根据从第一终端设备处获取的待检测文档中提取的内容信息和附加信息,生成待检测文档的检测结果,并根据检测结果确定是否将待检测文档发送至外网中的第二终端设备,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测就将待检测文档发送至外网所造成的泄密问题,提高了文档的安全性。
本申请实施例还提供一种文档检测方法,所述方法包括以下步骤:
步骤S402:网关设备获取内网中的第一终端设备发送的待检测文档;
步骤S404:所述网关设备确定待检测文档的文档类型;
步骤S406:所述网关设备基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
步骤S408:所述网关设备利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
步骤S410:所述网关设备利用所述第二提取流程,从所述待检测文档中提取所述附加信息;
步骤S412:所述网关设备在所述内容信息和/或所述附加信息中包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为敏感文档;
步骤S414:所述网关设备在所述内容信息和所述附加信息中均不包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为非敏感文档。
步骤S416:所述网关设备在所述检测结果为所述待检测文档为敏感文档的情况下,拒绝将所述待检测文档发送至外网中的第二终端设备;
步骤S418:所述网关设备在所述检测结果为所述待检测文档为非敏感文档的情况下,将所述待检测文档发送所述第二终端设备。
本申请实施例中,通过根据内容信息和/或附加信息中是否包含敏感信息,确定待检测文档是否为敏感文档,从而可以更准确地对敏感文档和非敏感文档分类;另外,可以根据待检测文档为敏感文档还是非敏感文档,决定是否将待检测文档发送至外网中的第二终端设备,从而可以进一步提高文档的安全性。
本申请实施例还提供一种文档检测方法,该方法可以应用于数据泄密防护设备或网关设备,所述方法包括以下步骤:
步骤S502:确定待检测文档的文档类型;
步骤S504:基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
步骤S506:利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
其中,第一提取流程可以包括:对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;根据所述office文档的文档类型,从多个所述文档部件目录中确定出第一文档部件目录;根据所述office文档的文档类型,从所述第一文档部件目录中确定出第一文件;在所述第一文件的文件内容中存在第一关键字的情况下,根据所述第一关键字的位置,确定内容信息所在位置;将所述内容信息所在位置的文件内容提取为内容信息。
同理,第二提取流程可以包括下述步骤S508至步骤S516:
步骤S508:对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
其中,office文档可以有多种不同版本,例如office2003、office2007等;针对office2007(docx/xlsx/pptx)文档的附加信息的第二提取流程,由于office2007文档格式是以ZIP压缩包进行存放,因此可以通过解析Zip压缩对象进行相应的第二提取流程。
步骤S510:根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;
其中,office文档的文档类型不同,文档部件目录的种类不同,从多个文档部件目录中确定出的目标文档部件目录也不同。第一提取流程中的第一文档部件目录和第二提取流程中的目标文档部件目录可以相同,也可以不同。
步骤S512:根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;
其中,每一所述文档部件目录中可以包括至少一个文件,office文档的文档类型不同,目标文档部件目录不同,从目标文档部件目录中选取的目标文件也不同。
步骤S514:在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;
其中,可以对目标文件的文件内容中是否存在目标关键字进行判断,并根据目标关键字的位置,推导附加信息所在位置;所述目标关键字可以是所述附加信息所在位置的前一位置的文件内容,所述目标关键字也可以是所述附加信息所在位置的后一位置的文件内容;所述目标关键字又可以是所述附加信息的前一位置和后一位置之间的文件内容。
步骤S516:将所述附加信息所在位置的文件内容提取为附加信息。
步骤S518:根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
本申请实施例中,通过对office文档的压缩包进行解压缩处理,得到XML格式的文档部件目录,再根据文档类型,确定目标文档部件目录,确定目标文件,从而可以更准确地提取待检测文档的附加信息。
本申请实施例还提供一种文档检测方法,该方法可以应用于数据泄密防护设备或网关设备,所述方法包括以下步骤:
步骤S602:确定待检测的office文档的文档类型;
步骤S604:在所述office文档的文档类型为docx类型的情况下,基于所述docx类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
步骤S606:利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
其中,图5a为本申请实施例一种docx类型的文档的XML格式的文档部件目录示意图,参见图5a,docx类型的文档的XML格式的文档部件目录可以包括[Content_Types].xml目录501a、docProps目录502a、word目录503a和rels目录504a等目录,所述word目录503a中可以包括document.xml文件5031a、fontTable.xml文件5032a、footer1.xml文件5033a、header1.xml文件5034a、settings.xml文件5035a、styles.xml文件5036a、rels文件5037a和document.xml.rels文件5038a等文件;docx类型的文档的内容信息可以存储在word目录503a下的document.xml文件5031a,因此,可以确定第一文档部件目录为word目录503a;第一文件为document.xml文件5031a。
第二提取流程可以包括下述步骤S608至步骤S616:
步骤S608:对所述docx类型的文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
步骤S610:根据所述docx类型,从多个所述文档部件目录中确定出word目录;
其中,docx类型的文档的附加信息可以存储在word目录503a下,因此,可以从多个所述文档部件目录中确定出word目录503a。
步骤S612:根据所述docx类型,从所述word目录中确定出页眉文件(headerN.xml)和页脚文件(footerN.xml);
其中,参见图5a,docx类型的文档的附加信息可以包括页眉和页脚,页眉可以存储在页眉文件5034a(header1.xml)中,页脚可以存储在页脚文件5033a(footer1.xml)中,因此,可以从word目录中确定出页眉文件和页脚文件;所述页眉文件可以包括header1.xml、header2.xml、header3.xml等,所述页脚文件可以包括footer1.xml、footer2.xml和footer3.xml等,其中,N为对应的docx的页数,每一页均有对应的页眉文件和页脚文件。
步骤S614:在所述页眉文件或页脚文件的文件内容中存在<w:t>和</w:t>的情况下,根据<w:t>和</w:t>的位置,确定页眉或页脚所在位置;
步骤S616:将所述页眉或页脚所在位置的文件内容提取为页眉和页脚。
图5b为本申请实施例一种docx类型的文档的目标文件的文件内容的示意图,参见图5b,目标文件为页眉文件,页眉文件中的目标关键字可以包括第一关键字501b和第二关键字502b,第一关键字501b可以是<w:t>,第二关键字502b可以是</w:t>;页眉文件的文件内容中存在<w:t>和</w:t>,则可以将<w:t>和</w:t>的位置之间的位置,确定为页眉所在位置;将页眉所在位置的文字503b提取为页眉,所述文字503b为“XXX科技股份有限公司”。
图5c为本申请实施例一种docx类型的文档的目标文件的文件内容的示意图,参见图5c,目标文件为页脚文件,页脚文件中的目标关键字可以包括第一关键字501c和第二关键字502c,第一关键字501c可以是<w:t>,第二关键字502c可以是</w:t>;页脚文件的文件内容中存在<w:t>和</w:t>,则可以将<w:t>和</w:t>的位置之间的位置,确定为页脚所在位置;将页脚所在位置的文字503c提取为页脚,所述文字503c为“机密文档”。
步骤S618:根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
本申请实施例中,通过在文档类型为docx类型的情况下,确定目标文档部件目录为word目录,确定目标文件为页眉文件和页脚文件,确定目标关键字包括<w:t>和</w:t>;可以根据<w:t>和</w:t>的位置确定附加信息的位置,从而可以使得附加信息的查找更准确。
本申请实施例还提供一种文档检测方法,该方法可以应用于数据泄密防护设备或网关设备,所述方法包括以下步骤:
步骤S702:确定待检测的office文档的文档类型;
步骤S704:在所述office文档的文档类型为xlsx类型的情况下,基于所述xlsx类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
步骤S706:利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
其中,图6a为本申请实施例一种xlsx类型的文档的XML格式的文档部件目录示意图,参见图6a,xlsx类型的文档的XML格式的文档部件目录可以包括[Content_Types].xml目录601a、docProps目录602a、xl目录603a等目录。所述xl目录603a中可以包括comments1.xml文件6031a、sharedStrings.xml文件6032a、styles.xml文件6033a、workbook.xml文件6034a等文件;xlsx类型的文档的内容信息可以存储在xl目录603a下的workbook.xml文件6034a,因此,可以确定第一文档部件目录为xl目录603a;第一文件为workbook.xml文件6034a。
第二提取流程可以包括下述步骤S708至步骤S716:
步骤S708:对所述xlsx类型的文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
其中,参见图6a,xlsx类型的文档的XML格式的文档部件目录可以包括[Content_Types].xml目录601a、docProps目录602a、xl目录603a等目录。
步骤S710:根据所述xlsx类型,从多个所述文档部件目录中确定出xl目录;
其中,xlsx类型的文档的附加信息可以存储在xl目录603a下,因此,可以从多个所述文档部件目录中确定出xl目录603a。
步骤S712:根据所述xlsx类型,从所述xl目录中确定出备注信息文件(commentsN.xml);
其中,参见图6a,xlsx类型的文档的附加信息可以包括备注信息,备注信息可以存储在xl目录下的备注信息文件(comments1.xml)中,因此,可以从xl目录603a中确定出备注信息文件;每一表格均可对应一个备注信息,因此,按表格数可以将存放备注信息的文件分为comments1.xml、comments2.xml、...和commentsN.xml等。
步骤S714:在所述备注信息文件的文件内容中存在<t>和</t>的情况下,根据<t>和</t>的位置,确定备注信息所在位置;
步骤S716:将所述备注信息所在位置的文件内容提取为备注信息。
图6b为本申请实施例一种xlsx类型的文档的目标文件的文件内容的示意图,参见图6b,目标文件为备注信息文件,备注信息文件中的目标关键字可以包括第一关键字601b和第二关键字602b,第一关键字601b可以是<t>,第二关键字602b可以是</t>;备注信息文件的文件内容中存在<t>和</t>,则可以将<t>和</t>的位置之间的位置,确定为备注信息所在位置;需要说明的是,“<t>”被xml:space="preserve"分割为“<t”和“>”,由于xml:space="preserve"表示保持空格,因此,可在读取到“<t”,并读取到“>”后,将“>”和</t>的位置之间的位置,确定为备注信息所在位置;将备注信息所在位置的文字603b提取为备注信息,文字603b为“XXX科技股份有限公司”。
步骤S718:根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
本申请实施例中,通过在文档类型为xlsx类型的情况下,确定目标文档部件目录为xl目录,确定目标文件为备注信息文件,确定目标关键字包括<t>和</t>;可以根据<t>和</t>的位置确定附加信息的位置,从而可以使得附加信息的查找更准确。
本申请实施例还提供一种文档检测方法,该方法可以应用于数据泄密防护设备或网关设备,所述方法包括以下步骤:
步骤S802:确定待检测的office文档的文档类型;
步骤S804:在所述office文档的文档类型为pptx类型的情况下,基于所述pptx类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
步骤S806:利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
其中,第二提取流程可以包括下述步骤S808至步骤S816:
步骤S808:对所述pptx类型的文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
其中,图7a为本申请实施例一种pptx类型的文档的XML格式的文档部件目录示意图,参见图7a,pptx类型的文档的XML格式的文档部件目录可以包括presentation.xml目录701a、notesMasters目录702a、notesSlides目录703a等目录。
步骤S810:根据所述pptx类型,从多个所述文档部件目录中确定出notesSlides目录;
其中,pptx类型的文档的附加信息可以存储在notesSlides目录703a下,因此,可以从多个所述文档部件目录中确定出notesSlides目录703a。
步骤S812:根据所述pptx类型,从所述notesSlides目录中确定出备注信息文件(commentsN.xml);
其中,参见图7a,所述notesSlides目录703a中可以包括notesSlide1.xml文件7031a、rels文件7032a和notesSlide1.xml.rels文件7033a等文件;pptx类型的文档的附加信息可以包括备注信息,备注信息又可以称为讲义备注信息,备注信息可以存储在notesSlides目录下703a的备注信息文件(notesSlide1.xm)中,因此,可以从notesSlides目录703a中确定出备注信息文件7031a;每一页均可对应一个备注信息,因此,按页数可以将存放备注信息的文件分为notesSlide1.xml、notesSlide2.xml、...和notesSlideN.xml等。
步骤S814:在所述备注信息文件的文件内容中存在<a:t>和</a:t>的情况下,根据<a:t>和</a:t>的位置,确定备注信息所在位置;
步骤S816:将所述备注信息所在位置的文件内容提取为备注信息。
图7b为本申请实施例一种pptx类型的文档的目标文件的文件内容的示意图,参见图7b,目标文件为备注信息文件,备注信息文件中的目标关键字可以包括第一关键字701b和第二关键字702b,第一关键字701b可以是<a:t>,第二关键字702b可以是</a:t>;备注信息文件的文件内容中存在<a:t>和</a:t>,则可以将<a:t>和</a:t>的位置之间的位置,确定为备注信息所在位置;因此,可将备注信息所在位置的文字703b提取为备注信息,所述文字703b为“XXX科技股份有限公司”。
步骤S818:根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
本申请实施例中,通过在文档类型为pptx类型的情况下,确定目标文档部件目录为notesSlides目录,确定目标文件为备注信息文件,确定目标关键字包括<a:t>和</a:t>;可以根据<a:t>和</a:t>的位置确定附加信息的位置,从而可以使得附加信息的查找更准确。
综上所述,在所述office文档的文档类型为docx类型的情况下,所述目标文档部件目录为word目录;所述目标文件包括页眉文件和页脚文件;所述目标关键字包括<w:t>和</w:t>;在所述office文档的文档类型为xlsx类型的情况下,所述目标文档部件目录为xl目录;所述目标文件为备注信息文件;所述目标关键字包括<t>和</t>;在所述office文档的文档类型为pptx类型的情况下,所述目标文档部件目录为notesSlides目录;所述目标文件为备注信息文件;所述目标关键字包括<a:t>和</a:t>。通过在文档类型不同的情况下,确定不同的目标文档部件目录,进一步确定目标文件,再确定目标关键字,又根据目标关键字确定附加信息的位置,从而可以使得附加信息的查找更准确。
图8为本申请实施例提供的文档检测方法的实现流程示意图,如图8所示,该方法包括:
步骤802:网关设备获取内网中的第一终端设备发送的待检测文档;
步骤804:网关设备将所述待检测文档发送至数据泄密防护设备,以供所述数据泄密防护设备确定所述待检测文档的文档类型;并基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程,利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;再根据所述内容信息和所述附加信息,生成所述检测文档的检测结果;
步骤806:网关设备接收所述数据泄密防护设备发送的检测结果;
步骤808:网关设备根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
本申请实施例中,网关设备通过将待检测文档发送至数据泄密防护设备,以供数据泄密防护设备对待检测文档中的内容信息和附加信息均进行提取,并将根据内容信息和附加信息生成的检测结果发送至网关设备,以供网关设备确定根据检测结果确定是否将待检测文档发送至外网,从而可以避免由于用户将机密信息添加至附加信息中,而在对待检测文档进行检测时未对附加信息进行提取检测所造成的泄密问题,提高了文档的安全性。
本申请实施例中针对相关技术中的DLP设备所存在的不能提取文档附加信息的问题,提供一种文档的附加信息提取方法,本申请实施例可以支持提取office2007及以后版本系列文档的附加信息,可以防止内网员工通过加密文档泄密手段导致DLP系统漏过这类文档的风险。
目前市面上大多数DLP设备针对文档的提取仅支持当前文档内容(即待检测文档的内容信息)的提取,而忽视了文档中附加信息(即待检测文档的附加信息)的提取,如果泄密用户将机密信息添加至附加信息中,即将机密信息以附加信息的形式进行泄露,则由于DLP设备仅提取内容信息,而并不提取附加信息,因此,可能会导致泄密系统无法分析到机密信息的问题。
图9为本申请实施例提供一种待检测文档的附加信息提取方法的流程示意图,参见图9,所述方法可以包括以下内容:
步骤902:DLP设备读取外发文件的内容;
步骤904:DLP设备识别外发文件的文件类型;
其中,DLP设备可以根据读取的外发文件的内容,识别外发文件的文件类型;若识别出文件类型为docx类型,则执行步骤906;若识别出文件类型为xlsx类型,则执行步骤908;若识别出文件类型为其他类型,则执行步骤910。
步骤906:DLP设备执行docx附加信息提取流程;
其中,针对office2007(docx类型/xlsx类型/pptx类型)文档的附加信息提取流程,由于office2007文档格式是以ZIP压缩包进行存放,因此可以通过解析Zip压缩对象进行相应的提取流程;其中,图10a为本申请实施例一种docx类型的文档的附加信息提取流程示意图,参见图10a,步骤906可以包括以下步骤1061至1070:
步骤1061:DLP设备对docx的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
步骤1062:DLP设备根据所述office文档的文档类型,从所述文档部件目录中确定出目标文档部件目录;
步骤1063:DLP设备根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;
步骤1064:DLP设备读取headerN.xml中的文件内容;
步骤1065:DLP设备判断所述headerN.xml中是否存在<w:t>和</w:t>,若是,则执行步骤1066;若否,则执行步骤1067;
其中,所述headerN.xml中的目标关键字可以包括<w:t>和</w:t>,可以对页眉文件header1.xml、header2.xml、...和headerN.xml进行解析,判断所述页眉文件的文件内容中是否存在<w:t>和</w:t>。
步骤1066:DLP设备从所述headerN.xml中提取页眉;
步骤1067:DLP设备读取footerN.xml中的文件内容;
步骤1068:DLP设备判断所述footerN.xml中是否存在<w:t>和</w:t>,若是,则执行步骤1069;若否,则执行步骤1070;
同理,所述footerN.xml中的目标关键字可以包括<w:t>和</w:t>,可以对页脚文件footer1.xml、footer2.xml、...和footerN.xml进行解析,判断所述页脚文件的文件内容中是否存在<w:t>和</w:t>。
步骤1069:DLP设备从所述footerN.xml中提取页脚;
步骤1070:结束。
步骤908:DLP设备执行xlsx附加信息提取流程;
其中,图10b为本申请实施例一种xlsx类型的文档的附加信息提取流程示意图,参见图10b,步骤908可以包括以下步骤1081至1087:
步骤1081:DLP设备对xlsx的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
步骤1082:DLP设备根据所述office文档的文档类型,从所述文档部件目录中确定出目标文档部件目录;
步骤1083:DLP设备根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;
步骤1084:DLP设备读取commentsN.xml中的文件内容;
步骤1085:DLP设备判断所述commentsN.xml中是否存在<t>和</t>,若是,则执行步骤1086;若否,则执行步骤1087;
其中,所述备注信息文件中的目标关键字可以包括<t>和</t>,可以对备注信息文件comments1.xml、comments2.xml、comments3.xml、...和commentsN.xml进行解析,判断所述备注信息文件的文件内容中是否存在<t>和</t>。
步骤1086:DLP设备从所述commentsN.xml中提取备注信息;
步骤1087:结束。
步骤910:DLP设备执行pptx附加信息提取流程。
其中,所述其他类型包括除docx和xlsx类型外的其他类型,所述其他类型可以是pptx类型;图10c为本申请实施例一种pptx类型的文档的附加信息提取流程示意图,参见图10c,步骤910可以包括以下步骤1101至1107:
步骤1101:DLP设备对pptx的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;
步骤1102:DLP设备根据所述office文档的文档类型,从所述文档部件目录中确定出目标文档部件目录;
步骤1103:DLP设备根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;
步骤1104:DLP设备读取notesSlideN.xml中的文件内容;
步骤1105:DLP设备判断所述notesSlideN.xml中是否存在<a:t>和</a:t>,若是,则执行步骤1106;若否,则执行步骤1107;
其中,所述notesSlideN.xml中的目标关键字可以包括<a:t>和</a:t>,可以对备注讲义信息文件notesSlide1、notesSlide2、notesSlide3、...和notesSlideN.xml进行解析,判断所述备注信息文件的文件内容中是否存在<a:t>和</a:t>。
步骤1106:DLP设备从所述notesSlideN.xml中提取备注信息;
步骤1107:结束。
需要说明的是,DLP设备执行所述待检测文档的附加信息提取方法,可以以软件形式移植在网关设备之中;即DLP设备和所述网关设备可以为一体化设计;DLP设备和所述网关设备也可以独立设计。
本申请实施例针对相关技术中的DLP产品所存在的不能提取文档附加信息的问题,提供一种文档的附加信息提取方法,本申请实施例可以提取office2007或以上版本系列文档的附加信息,防止内网员工通过加密文档泄密手段导致DLP系统漏过这类文档的风险。
基于前述的实施例,本申请实施例提供一种文档检测装置,该装置包括所包括的各模块,可以通过文档检测设备(例如网关设备或数据泄密防护设备)中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU,Central Processing Unit)、微处理器(MPU,Microprocessor Unit)、数字信号处理器(DSP,Digital Signal Processing)或现场可编程门阵列(FPGA,Field ProgrammableGate Array)等。
图11为本申请实施例文档检测装置的组成结构示意图,如图11所示,所述装置1100包括第一确定模块1101、第二确定模块1102、第一提取模块1103、第二提取模块1104和生成模块1105,其中:
第一确定模块1101,用于确定待检测文档的文档类型;
第二确定模块1102,用于基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
第一提取模块1103,用于利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
第二提取模块1104,用于利用所述第二提取流程,从所述待检测文档中提取所述附加信息;
生成模块1105,用于根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
在一个实施例中,所述装置还包括:第一获取模块,用于获取网关设备发送的待检测文档;所述待检测文档为内网中的第一终端设备向所述网关设备发送的文档;第一发送模块,用于将所述检测结果发送至所述网关设备,以供所述网关设备根据所述检测结果确定是否将所述待检测文档发送至外网中的第二终端设备。
在一个实施例中,所述装置还包括:第二获取模块,用于获取内网中的第一终端设备发送的待检测文档;第二发送模块,用于根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
在一个实施例中,所述生成模块1105,包括:第一生成子模块,用于在所述内容信息和/或所述附加信息中包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为敏感文档;第二生成子模块,用于在所述内容信息和所述附加信息中均不包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为非敏感文档。
在一个实施例中,所述第二发送模块包括:拒绝模块,用于在所述检测结果为所述待检测文档为敏感文档的情况下,拒绝将所述待检测文档发送至外网中的第二终端设备;允许模块,用于在所述检测结果为所述待检测文档为非敏感文档的情况下,将所述待检测文档发送所述第二终端设备。
在一个实施例中,所述待检测文档包括office文档,所述第二提取模块1104包括:解压缩子模块,用于对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;第一确定子模块,用于根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;第二确定子模块,用于根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;第三确定子模块,用于在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;提取子模块,用于将所述附加信息所在位置的文件内容提取为附加信息。
在一个实施例中,在所述office文档的文档类型为docx类型的情况下,所述目标文档部件目录为word目录;所述目标文件包括页眉文件和页脚文件;所述目标关键字包括<w:t>和</w:t>;在所述office文档的文档类型为xlsx类型的情况下,所述目标文档部件目录为xl目录;所述目标文件为备注信息文件;所述目标关键字包括<t>和</t>;在所述office文档的文档类型为pptx类型的情况下,所述目标文档部件目录为notesSlides目录;所述目标文件为备注信息文件;所述目标关键字包括<a:t>和</a:t>。
基于前述的实施例,本申请实施例提供一种文档检测装置,该装置包括所包括的各模块,该装置包括所包括的各模块,可以通过文档检测设备(例如网关设备)中的处理器来实现。图12为本申请实施例文档检测装置的组成结构示意图,如图12所示,所述文档检测装置1200包括获取模块1201、第一发送模块1202、接收模块1203和第二发送模块1204,其中:
获取模块1201,用于获取内网中的第一终端设备发送的待检测文档;
第一发送模块1202,用于将所述待检测文档发送至数据泄密防护设备,以供所述数据泄密防护设备确定所述待检测文档的文档类型;并基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程,利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;再根据所述内容信息和所述附加信息,生成所述检测文档的检测结果;
接收模块1203,用于接收所述数据泄密防护设备发送的检测结果;
第二发送模块1204,用于根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的文档检测方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得文档检测设备(可以数据泄密防护设备或网关设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
对应地,本申请实施例提供一种文档检测设备,图13为本申请实施例文档检测设备的一种硬件实体示意图,如图13所示,该文档检测设备1300的硬件实体包括:包括存储器1301和处理器1302,所述存储器1301存储有可在处理器1302上运行的计算机程序,所述处理器1302执行所述程序时实现上述实施例文档检测方法中的步骤。
存储器1301配置为存储由处理器1302可执行的指令和应用,还可以缓存待处理器1302以及文档检测设备1300中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(RandomAccess Memory,RAM)实现。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的文档检测方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同设备实施例相似的有益效果。对于本申请存储介质和方法实施例中未披露的技术细节,请参照本申请设备实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得文档检测设备(可以数据泄密防护设备和网关设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种文档检测方法,其特征在于,所述方法包括:
确定待检测文档的文档类型;
基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
利用所述第二提取流程,从所述待检测文档中提取所述附加信息;
根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果;
所述待检测文档包括office文档,所述利用所述第二提取流程,从所述待检测文档中提取所述附加信息,包括:
对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;将所述附加信息所在位置的文件内容提取为附加信息。
2.根据权利要求1所述的方法,其特征在于,应用于数据泄密防护设备,所述方法还包括:获取网关设备发送的待检测文档;所述待检测文档为内网中的第一终端设备向所述网关设备发送的文档;
将所述检测结果发送至所述网关设备,以供所述网关设备根据所述检测结果确定是否将所述待检测文档发送至外网中的第二终端设备。
3.根据权利要求1所述的方法,其特征在于,应用于网关设备,所述方法还包括:获取内网中的第一终端设备发送的待检测文档;
根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
4.根据权利要求3所述的方法,其特征在于,所述根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果,包括:
在所述内容信息和/或所述附加信息中包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为敏感文档;
在所述内容信息和所述附加信息中均不包含敏感信息的情况下,生成所述待检测文档的用于进行保密性检测的检测结果为所述待检测文档为非敏感文档。
5.根据权利要求4所述的方法,其特征在于,所述根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备,包括:
在所述检测结果为所述待检测文档为敏感文档的情况下,拒绝将所述待检测文档发送至外网中的第二终端设备;
在所述检测结果为所述待检测文档为非敏感文档的情况下,将所述待检测文档发送所述第二终端设备。
6.根据权利要求1所述的方法,其特征在于,
在所述office文档的文档类型为docx类型的情况下,所述目标文档部件目录为word目录;所述目标文件包括页眉文件和页脚文件;所述目标关键字包括<w:t>和</w:t>;
在所述office文档的文档类型为xlsx类型的情况下,所述目标文档部件目录为xl目录;所述目标文件为备注信息文件;所述目标关键字包括<t>和</t>;
在所述office文档的文档类型为pptx类型的情况下,所述目标文档部件目录为notesSlides目录;所述目标文件为备注信息文件;所述目标关键字包括<a:t>和</a:t>。
7.一种文档检测方法,其特征在于,应用于网关设备,所述方法包括:
获取内网中的第一终端设备发送的待检测文档;将所述待检测文档发送至数据泄密防护设备,以供所述数据泄密防护设备确定所述待检测文档的文档类型;并基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程,利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;所述待检测文档包括office文档,所述利用所述第二提取流程,从所述待检测文档中提取所述附加信息,包括:对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;将所述附加信息所在位置的文件内容提取为附加信息;
再根据所述内容信息和所述附加信息,生成所述检测文档的检测结果;
接收所述数据泄密防护设备发送的检测结果;
根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
8.一种文档检测装置,其特征在于,所述装置包括:
第一确定模块,用于确定待检测文档的文档类型;
第二确定模块,用于基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程;
第一提取模块,用于利用所述第一提取流程,从所述待检测文档中提取所述内容信息;
第二提取模块,用于利用所述第二提取流程,从所述待检测文档中提取所述附加信息;所述待检测文档包括office文档,所述利用所述第二提取流程,从所述待检测文档中提取所述附加信息,包括:对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;将所述附加信息所在位置的文件内容提取为附加信息;
生成模块,用于根据所述内容信息和所述附加信息,生成所述待检测文档的用于进行保密性检测的检测结果。
9.一种文档检测装置,其特征在于,所述文档检测装置包括:
获取模块,用于获取内网中的第一终端设备发送的待检测文档;
第一发送模块,用于将所述待检测文档发送至数据泄密防护设备,以供所述数据泄密防护设备确定所述待检测文档的文档类型;并基于所述文档类型确定用于提取所述待检测文档的内容信息的第一提取流程和用于提取所述待检测文档的附加信息的第二提取流程,利用所述第一提取流程,从所述待检测文档中提取所述内容信息;利用所述第二提取流程,从所述待检测文档中提取所述附加信息;再根据所述内容信息和所述附加信息,生成所述检测文档的检测结果;所述待检测文档包括office文档,所述利用所述第二提取流程,从所述待检测文档中提取所述附加信息,包括:对所述office文档的压缩包进行解压缩处理,得到多个可扩展标记语言XML格式的文档部件目录;根据所述office文档的文档类型,从多个所述文档部件目录中确定出目标文档部件目录;根据所述office文档的文档类型,从所述目标文档部件目录中确定出目标文件;在所述目标文件的文件内容中存在目标关键字的情况下,根据所述目标关键字的位置,确定附加信息所在位置;将所述附加信息所在位置的文件内容提取为附加信息;
接收模块,用于接收所述数据泄密防护设备发送的检测结果;
第二发送模块,用于根据所述检测结果,确定是否将所述待检测文档发送至外网中的第二终端设备。
10.一种文档检测设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述文档检测方法中的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述文档检测方法中的步骤。
CN202110296204.4A 2021-03-19 2021-03-19 一种文档检测方法、装置、设备和存储介质 Active CN113065154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110296204.4A CN113065154B (zh) 2021-03-19 2021-03-19 一种文档检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110296204.4A CN113065154B (zh) 2021-03-19 2021-03-19 一种文档检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113065154A CN113065154A (zh) 2021-07-02
CN113065154B true CN113065154B (zh) 2023-12-29

Family

ID=76562625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110296204.4A Active CN113065154B (zh) 2021-03-19 2021-03-19 一种文档检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113065154B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220309184A1 (en) * 2021-03-26 2022-09-29 Rubrik, Inc. File content analysis and data management

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
WO2006133136A2 (en) * 2005-06-03 2006-12-14 Microsoft Corporation Structuring data for word processing documents
CN105630744A (zh) * 2014-11-20 2016-06-01 珠海金山办公软件有限公司 一种基于审阅文档的阅读方法及阅读装置
CN106104572A (zh) * 2014-03-19 2016-11-09 柯法克斯公司 用于识别文档处理和业务工作流整合的系统和方法
CN106250777A (zh) * 2016-07-26 2016-12-21 合肥赛猊腾龙信息技术有限公司 数据防泄露系统中一种文档指纹提取及匹配方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN109409031A (zh) * 2018-10-22 2019-03-01 中国科学院信息工程研究所 一种pdf文档隐私泄露防御方法及系统
CN110222478A (zh) * 2019-04-19 2019-09-10 深圳法大大网络科技有限公司 一种保护文档的方法及移动终端
CN111310205A (zh) * 2020-02-11 2020-06-19 平安科技(深圳)有限公司 敏感信息的检测方法、装置、计算机设备和存储介质
CN111353170A (zh) * 2020-02-27 2020-06-30 北京北信源软件股份有限公司 文件隐私信息处理方法、装置、电子设备及存储介质
CN111488556A (zh) * 2020-04-09 2020-08-04 深信服科技股份有限公司 一种嵌套文档提取方法、装置及电子设备和存储介质
CN111488603A (zh) * 2020-03-20 2020-08-04 北京明朝万达科技股份有限公司 一种识别打印文件的敏感内容的方法及装置
CN111553318A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 敏感信息提取方法、裁判文书处理方法、装置和电子设备
CN111783138A (zh) * 2020-06-24 2020-10-16 中国平安财产保险股份有限公司 敏感数据检测方法、装置、计算机设备及存储介质
CN112258376A (zh) * 2020-10-20 2021-01-22 中国农业银行股份有限公司 一种加密文档的处理方法及系统
CN112417819A (zh) * 2020-12-04 2021-02-26 上海明略人工智能(集团)有限公司 一种Word文档信息提取方法、装置、电子设备及介质
CN112434197A (zh) * 2021-01-27 2021-03-02 博智安全科技股份有限公司 文本内容的逆向提取方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937653B2 (en) * 2005-01-10 2011-05-03 Xerox Corporation Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
WO2006133136A2 (en) * 2005-06-03 2006-12-14 Microsoft Corporation Structuring data for word processing documents
CN106104572A (zh) * 2014-03-19 2016-11-09 柯法克斯公司 用于识别文档处理和业务工作流整合的系统和方法
CN105630744A (zh) * 2014-11-20 2016-06-01 珠海金山办公软件有限公司 一种基于审阅文档的阅读方法及阅读装置
CN106250777A (zh) * 2016-07-26 2016-12-21 合肥赛猊腾龙信息技术有限公司 数据防泄露系统中一种文档指纹提取及匹配方法
CN108920656A (zh) * 2018-07-03 2018-11-30 龙马智芯(珠海横琴)科技有限公司 文档属性描述内容提取方法和装置
CN109409031A (zh) * 2018-10-22 2019-03-01 中国科学院信息工程研究所 一种pdf文档隐私泄露防御方法及系统
CN110222478A (zh) * 2019-04-19 2019-09-10 深圳法大大网络科技有限公司 一种保护文档的方法及移动终端
CN111310205A (zh) * 2020-02-11 2020-06-19 平安科技(深圳)有限公司 敏感信息的检测方法、装置、计算机设备和存储介质
CN111353170A (zh) * 2020-02-27 2020-06-30 北京北信源软件股份有限公司 文件隐私信息处理方法、装置、电子设备及存储介质
CN111488603A (zh) * 2020-03-20 2020-08-04 北京明朝万达科技股份有限公司 一种识别打印文件的敏感内容的方法及装置
CN111488556A (zh) * 2020-04-09 2020-08-04 深信服科技股份有限公司 一种嵌套文档提取方法、装置及电子设备和存储介质
CN111553318A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 敏感信息提取方法、裁判文书处理方法、装置和电子设备
CN111783138A (zh) * 2020-06-24 2020-10-16 中国平安财产保险股份有限公司 敏感数据检测方法、装置、计算机设备及存储介质
CN112258376A (zh) * 2020-10-20 2021-01-22 中国农业银行股份有限公司 一种加密文档的处理方法及系统
CN112417819A (zh) * 2020-12-04 2021-02-26 上海明略人工智能(集团)有限公司 一种Word文档信息提取方法、装置、电子设备及介质
CN112434197A (zh) * 2021-01-27 2021-03-02 博智安全科技股份有限公司 文本内容的逆向提取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
文本信息深度提取及多关键词并行匹配技术研究;王文奇;李勇;关云云;;计算机工程(12);全文 *
王文奇 ; 李勇 ; 关云云 ; .文本信息深度提取及多关键词并行匹配技术研究.计算机工程.2018,(12),全文. *

Also Published As

Publication number Publication date
CN113065154A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
KR102461355B1 (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
CN111159546B (zh) 事件推送方法、装置、计算机可读存储介质和计算机设备
CN110135888B (zh) 产品信息推送方法、装置、计算机设备和存储介质
EP2186275B1 (en) Generating a fingerprint of a bit sequence
Poisel et al. A comprehensive literature review of file carving
US20070219912A1 (en) Information distribution system, information distribution method, and program product for information distribution
US10936819B2 (en) Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
US20140115450A1 (en) Method and system of evidence preservation for digital documents
CN113392236A (zh) 一种数据分类方法、计算机设备及可读存储介质
CN113065154B (zh) 一种文档检测方法、装置、设备和存储介质
CN109583228B (zh) 一种隐私信息管理方法、装置和系统
CN104252447A (zh) 文件行为分析方法及装置
KR20010107528A (ko) 인터넷상의 음란물을 차단하는 방법 및 장치
KR101269217B1 (ko) 검색 서비스 제공 시스템 및 그의 검색 서비스 제공 방법
KR102129030B1 (ko) 전자문서의 보안정보 비식별화 방법 및 장치
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
KR20160042260A (ko) 직교 코드를 이용한 검색 시스템 및 방법
CN110888896A (zh) 数据搜寻方法及其数据搜寻系统
US20230036680A1 (en) Application security posture identifier
KR20160131730A (ko) 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체
CN112039971B (zh) 数据记录方法及装置、数据存储方法及装置
US9323857B2 (en) System and method for providing content-related information based on digital watermark and fingerprint
JP4765990B2 (ja) デジタルコンテンツデータの管理システム、管理方法及び利用装置
CN110275989B (zh) 多媒体数据处理方法、装置、计算机设备和存储介质
KR102063797B1 (ko) 텍스트 자동요약 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant