CN116126349A - Ooxml文档夹带检测方法、存储介质和电子设备 - Google Patents

Ooxml文档夹带检测方法、存储介质和电子设备 Download PDF

Info

Publication number
CN116126349A
CN116126349A CN202310409811.6A CN202310409811A CN116126349A CN 116126349 A CN116126349 A CN 116126349A CN 202310409811 A CN202310409811 A CN 202310409811A CN 116126349 A CN116126349 A CN 116126349A
Authority
CN
China
Prior art keywords
file
embedded
embedded file
files
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310409811.6A
Other languages
English (en)
Other versions
CN116126349B (zh
Inventor
田辉
鲁国峰
吕子艳
郭玉刚
张志翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei High Dimensional Data Technology Co ltd
Original Assignee
Hefei High Dimensional Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei High Dimensional Data Technology Co ltd filed Critical Hefei High Dimensional Data Technology Co ltd
Priority to CN202310409811.6A priority Critical patent/CN116126349B/zh
Publication of CN116126349A publication Critical patent/CN116126349A/zh
Application granted granted Critical
Publication of CN116126349B publication Critical patent/CN116126349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Storage Device Security (AREA)

Abstract

本发明特别涉及一种OOXML文档夹带检测方法、存储介质和电子设备,其中一种OOXML文档夹带检测方法,包括如下步骤:对文档进行解析得到多层级目录和文件;读取所有内嵌文件的OLE名称;根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;根据文档的类型以及内嵌文件的ID,从解析后的文件中提取内嵌文件的参数;根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。通过上述检测方法,一方面从多角度全方位筛查文件,制定合理的检测策略,另一方面,给人工审批人员提供线索,快速判断文件是否携带了其他可疑文件,提高人工审批效率。

Description

OOXML文档夹带检测方法、存储介质和电子设备
技术领域
本发明涉及文件安全管控技术领域,特别涉及一种OOXML文档夹带检测方法、存储介质和电子设备。
背景技术
在Office Open XML中,可以在OOXML里面插入文档、表格、图片等形式的附件,从而使得文档内容更加丰富,但是因为这些文档的插入,也使得文件夹带成为可能。现有检测文档夹带泄密的方法主要有如下几种:文档后缀篡改检测(将docx、pptx、xlsx后缀修改成xml、opj、stp等不易查看怀疑的对象)、OOXML文件包内隐藏文件检测提取、OOXML文件冗余空间隐藏文件检测提取等。这些现有的检测方法忽略了“不通过修改文件后缀及内部组件结构,使用正常手段插入附件,但是在页面呈现上动用手段使得文件不被发现,进行传播泄露秘密”的问题。产品宣传介绍PPT、产品介绍宣传材料、常规表格文件,内容丰富、页数多、图文结合场景多,是天然的夹带隐蔽文件载体,企业内部员工外发文件资料,可以轻松将各类重要文件插入到外发的文件中,躲过常规技术筛查、人工审核。
发明内容
本发明的目的在于提供一种OOXML文档夹带检测方法,能够自动的将疑似的隐藏文件检测出来。
为实现以上目的,本发明采用的技术方案为:一种OOXML文档夹带检测方法,包括如下步骤:S100、对OOXML文档进行解析得到解析后的多层级目录和文件;S200、从embeddings目录中读取所有内嵌文件的OLE名称;S300、根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;S400、根据OOXML文档的类型以及内嵌文件的ID,从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度;S500、根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。
与现有技术相比,本发明存在以下技术效果:首先通过解析得到的文件,找到内嵌文件的OLE名称,每个内嵌文件对应一个;再根据OLE名称找到对应的ID,这个ID相当于内嵌文件的标识;再根据该ID找到内嵌文件的一些参数,我们所找到的参数,都是后续用于隐藏文件判断的,隐藏文件和正常嵌入的文件在这些参数上有所区别,通过挖掘这种区别从而进行隐藏文件的判断,也避免了将所有的内嵌文件都提取出来从而造成误判;通过上述检测方法,一方面补充现有检测手段的不足,多角度全方位筛查文件,制定合理的检测策略,另一方面,给人工审批人员提供线索,通过与原文件呈现的附件做对比,即可快速判断文件是否携带了其他可疑文件,提高人工审批效率。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合图1,对本发明做进一步详细叙述。
参阅图1,本发明公开了一种OOXML文档夹带检测方法,包括如下步骤:S100、对OOXML文档进行解析得到解析后的多层级目录和文件。OOXML是由微软公司为Office 2007产品开发的技术规范,现已成为国际文档格式标准,兼容前国际标准开放文档格式和中国文档标准“标文通”(外语简称:UOF),于2006年12月成为ECMA标准。使用zip解压缩程序对OOXML文档进行解压缩,就可以得到解析后的文件。S200、从embeddings目录中读取所有内嵌文件的OLE名称,OLE即Object Linking and Embedding的缩写,即“对象链接与嵌入”,这是一种把一个文件的一部分嵌入到另一个文件之中的技术,例如把Excel图表加入到PowerPoint演示文稿或Word文档。一般来说,内嵌文件插入到文档中以后,文档的embeddings目录中就会为其对应新建一个*.bin或*.docx或*.pptx或*.xlsx的OLE名称,因此我们需要先读取这些OLE名称,从而确定所有的内嵌文件。S300、根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;嵌入文件的很多参数都是通过ID进行关联的,因此我们先根据OLE名称,提取对应的ID。
S400、根据OOXML文档的类型以及内嵌文件的ID,从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度。这些参数是判断嵌入文件是否是隐藏文件的关键参数,我们也可以根据其他的判断逻辑,去提取这些参数以外的其他参数。需要特别说明的是,此处述及的“从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度”也可以理解为:我们提取参数时,所列的几个参数如果存在,则必须提取,若不存在,则可以不用提取。比如内嵌文件所属子表编号,这个参数只有当内嵌文件是表格时才会有,因此如果内嵌文件是word文档,则可以不用提取这个参数,如果内嵌文件时excel表格,则必须提取这个参数。S500、根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。隐藏文件和正常嵌入的文件在这些参数上有所区别,通过挖掘这种区别从而进行隐藏文件的判断,也避免了将所有的内嵌文件都提取出来从而造成误判;通过上述检测方法,一方面补充现有检测手段的不足,多角度全方位筛查文件,制定合理的检测策略,另一方面,给人工审批人员提供线索,通过与原文件呈现的附件做对比,即可快速判断文件是否携带了其他可疑文件,提高人工审批效率。
以常见的文档类型为例,对“从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度”进行详细的说明。所述的步骤S400中:若OOXML文档的类型为*.docx,每个内嵌文件均包含缩略图路径和内嵌文件尺寸这两个参数,内嵌文件位置为可选参数,之所以将内嵌文件的位置作为可选参数,是因为对于隐藏在其他内嵌文件下的内嵌文件而言,其属性中没有位置信息,这一特点也可以用于内嵌文件是否为隐藏文件的判断。若OOXML文档的类型为*.xlsx,每个内嵌文件均包含内嵌文件所属子表编号、缩略图路径、内嵌文件位置、内嵌文件尺寸这四个参数。若OOXML文档的类型为*.pptx,每个内嵌文件均包含内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度这五个参数。
针对不同格式的文档,参数提取和隐藏文件的判断也有所不同,本发明中提供了三种具体的实施例供参考。
实施例一,所述的OOXML文档的类型为*.docx。步骤S300中,依据内嵌文件的OLE名称从document.xml.rels文件中提取该内嵌文件对应的ID;步骤S400中,内嵌文件参数通过如下步骤提取:根据内嵌文件ID,从document.xml文件中提取该内嵌文件对应的缩略图ID,假设某个内嵌文件的ID是rId14,提取时,假设从document.xml文件的<w:p>对象中匹配到<o:OLEObject r:id="rId14">同一层<v:shape>属性得到<v:imagedata r:id="rId5" o:title=""/>,其中的rId5即为该内嵌文件对应的缩略图ID。根据内嵌文件的缩略图ID,从document.xml.rels文件中提取该内嵌文件对应的缩略图路径,以前面的rId5为例,在document.xml.rels文件找到<Relationship Id="rId5" Type="……" Traget="media/image1.emf",其中的"media/image1.emf"即为缩略图路径。
根据内嵌文件ID,从document.xml文件中提取该内嵌文件的位置和尺寸,若无位置信息,则只提取该内嵌文件的尺寸。同样以上面的ID为例,依据Id="rId14"从document.xml文件的<w:p>对象中匹配到<o:OLEObject r:id="rId14">同一层的<v:shape>对象,其中的margin-left和margin-top属性代表的是位置信息,height和width属性代表的是尺寸信息。对于某些隐藏的内嵌文件来说,其<o:OLEObject r:id="rId14">上一层为<w:pict>对象,以上四个参数都能获取,从而也就获取了位置信息和尺寸信息;对于某些非隐藏的内嵌文件来说,其<o:OLEObject r:id="rId14">上一层为<w:object>对象,只能从<v:shape>对象中提取到height和width属性。
根据以上参数,我们可以通过如下逻辑去判断内嵌文件是否属于隐藏文件。所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:判断该内嵌文件有无位置信息,若有位置信息则认为该内嵌文件为隐藏文件,若无位置信息则进入下一步,这个在上一段已经详细述及;判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则认为该内嵌文件为正常的内嵌文件,这种对应的是操作人员通过将内嵌文件缩小到很小的尺寸,从而造成视觉上的不易察觉,因此,对于尺寸小于设定阈值的内嵌文件,我们认为其是有意为之,可认定为隐藏文件。
实施例二,所述的OOXML文档的类型为*.xlsx。步骤S300中,依据内嵌文件的OLE名称从sheet1.xml.rels、sheet2.xml.rels、…文件中提取该内嵌文件对应的ID,并将内嵌文件ID所在文件名称中sheet后的数字作为该内嵌文件的所属子表编号m;假设对于某个OLE名称“oleObject1.bin”,在sheet2.xml.rels文件中提取到其对应的ID是rId3,那么这个内嵌文件的所述子表编号就是2,即m取2,下面的步骤,所有的m都取2。
步骤S400中,内嵌文件参数通过如下步骤提取:根据内嵌文件ID,从sheetm.xml文件中提取该内嵌文件对应的缩略图ID。具体地,依据Id="rId3"从sheet2.xml文件的<oleObjects>--<mc:AlternateContent>--<mc:Choice>--对象中匹配到<o:OLEObject r:id="rId3">;再由<o:OLEObject r:id="rId3">属性<objectPr defaultSize="0" r:id="rId4">中获取缩略图id="rId4"。有了缩略图ID后,我们就可以根据内嵌文件的缩略图ID,从sheetm.xml.rels文件中提取该内嵌文件对应的缩略图路径;本实施例中,是从sheet2.xml.rels文件中根据缩略图ID提取出缩略图路径的。
根据内嵌文件ID,从sheetm.xml文件中提取该内嵌文件如下的角点信息:左上角点所处列号form_xdr_col、行号form_xdr_row,左上角点与其所处单元格左上角顶点之间的纵向偏移距离form_xdr_colOff、横向偏移距离form_xdr_rowOff;右下角点所处列号to_xdr_col、行号to_xdr_row,右下角点与其所处单元格右下角顶点之间的纵向偏移距离to_xdr_colOff、横向偏移距离to_xdr_rowOff;根据子表m中行、列的宽度将内嵌文件的角点信息转换成该内嵌文件的位置和尺寸。表格中内嵌文件的位置和尺寸信息不能直接通过某个属性直接获取,需要进行一定的换算才能得到。
根据以上参数,我们可以通过如下逻辑去判断内嵌文件是否属于隐藏文件。所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则进入下一步,这个判断逻辑与word文档中的逻辑一致,都是避免尺寸很小的内嵌文件。判断同一个子表中,所有内嵌文件之间位置上是否有交集,若任意两个内嵌文件的位置有交集,则继续判断内嵌文件的交集所在区域占其本身所在区域的比值是否大于等于90%,若是则将该内嵌文件视为隐藏文件,这个判断逻辑针对的是遮盖隐藏,在word中,遮盖的内容可以通过对象的层级进行获取,但在excel中不适合,因此我们直接根据获取到的嵌入文件的位置和尺寸信息,去计算彼此之间是否有遮盖,当遮盖的区域占比较大时,说明其很有可能是隐藏的嵌入文件。
实施例三,所述的OOXML文档的类型为*.pptx。步骤S300中,依据内嵌文件的OLE名称从slide1.xml.rels、slide2.xml.rels、…文件中提取该内嵌文件对应的ID,并将内嵌文件ID所在文件名称中slide后的数字作为该内嵌文件的所属页数编号n,这里的n与前面的m类似,分别表示不同页面或子表,pptx文档是多个页面组成的,不同页面里的嵌入文件即使处于相同位置,也不会造成遮挡,因此也要对内嵌文件所属页数进行区分。
步骤S400中,内嵌文件参数通过如下步骤提取:根据内嵌文件ID,从sliden.xml文件中提取该内嵌文件对应的spid以及透明度,比如本实施例中,是从slide1.xml文件中<a:graphic>对象中匹配到<p:oleObj spid="_x0000_s1025">,透明度信息是从<a:graphic>对象中匹配到<a:alphaModFix amt="40000"/>,其中的40000对应的即透明度60%。根据内嵌文件的spid,从vmlDrawingn.vml文件中提取该内嵌文件的位置、尺寸以及缩略图路径,本实施例中,是从vmlDrawing1.vml文件的<v:shape id="_x0000_s1025"……>中提取left和top对应的值作为内嵌文件位置信息、height和width对应的值作为尺寸信息,从<v:imagedata o:relid="rId1" o:title="ppt/media/image1.wmf">提取到缩略图路径的。
根据以上参数,我们可以通过如下逻辑去判断内嵌文件是否属于隐藏文件。所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:判断该内嵌文件的透明度是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则进入下一步,这个步骤主要是用于检测那些将透明度调节为很低甚至为0的嵌入文件,这些嵌入文件因为透明度为0,视觉上很难发现。判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则进入下一步,同样地,这个是用于检测缩小到极小尺寸的内嵌文件。判断该内嵌文件是否位于编辑域以外,若是,则认为该内嵌文件为隐藏文件,否则进入下一步,这个是pptx文档独有的,因为每个幻灯片页面都有编辑域,对于编辑域以外的内容,虽然可以编辑,但播放幻灯片或放大幻灯片时不容易察觉,为了避免有人在编辑域以外隐藏文件,我们可以加入此判断逻辑。判断同一个页数中,所有内嵌文件之间位置上是否有交集,若任意两个内嵌文件的位置有交集,则继续判断内嵌文件的交集所在区域占其本身所在区域的比值是否大于等于90%,若是则将该内嵌文件视为隐藏文件,这个是检测嵌入文件的遮挡关系,主要检测出那些利用遮挡进行隐藏的嵌入文件。
通过上述三个具体的实施例,我们可以更加清楚的看到,本发明是如何对OOXML文档进行文件夹带检测的。需要说明的是,以上具体的实施例中,是我们在实际演示时的ID、参数和路径,实际上对于不同的文档,其ID、参数和路径有所不同,只要其根据上述方法依次进行解析判断,就可以筛选出OOXML文档中隐藏的夹带文件。
本发明还公开了一种计算机可读存储介质和一种电子设备。其中一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前任一项所述的OOXML文档夹带检测方法。一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如前任一项所述的OOXML文档夹带检测方法。

Claims (10)

1.一种OOXML文档夹带检测方法,其特征在于:包括如下步骤:
S100、对OOXML文档进行解析得到解析后的多层级目录和文件;
S200、从embeddings目录中读取所有内嵌文件的OLE名称;
S300、根据内嵌文件的OLE名称,提取每个内嵌文件对应的ID;
S400、根据OOXML文档的类型以及内嵌文件的ID,从解析后的文件中提取每个内嵌文件的如下参数中所包含的参数:内嵌文件所属子表编号、内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度;
S500、根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件,根据其缩略图路径获取缩略图并识别得到隐藏文件的名称和类型。
2.如权利要求1所述的OOXML文档夹带检测方法,其特征在于:所述的步骤S400中:
若OOXML文档的类型为*.docx,每个内嵌文件均包含缩略图路径和内嵌文件尺寸这两个参数,内嵌文件位置为可选参数;
若OOXML文档的类型为*.xlsx,每个内嵌文件均包含内嵌文件所属子表编号、缩略图路径、内嵌文件位置、内嵌文件尺寸这四个参数;
若OOXML文档的类型为*.pptx,每个内嵌文件均包含内嵌文件所属页数、缩略图路径、内嵌文件位置、内嵌文件尺寸、内嵌文件透明度这五个参数。
3.如权利要求2所述的OOXML文档夹带检测方法,其特征在于:所述的OOXML文档的类型为*.docx;
步骤S300中,依据内嵌文件的OLE名称从document.xml.rels文件中提取该内嵌文件对应的ID;
步骤S400中,内嵌文件参数通过如下步骤提取:
根据内嵌文件ID,从document.xml文件中提取该内嵌文件对应的缩略图ID;
根据内嵌文件的缩略图ID,从document.xml.rels文件中提取该内嵌文件对应的缩略图路径;
根据内嵌文件ID,从document.xml文件中提取该内嵌文件的位置和尺寸,若无位置信息,则只提取该内嵌文件的尺寸。
4.如权利要求3所述的OOXML文档夹带检测方法,其特征在于:所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:
判断该内嵌文件有无位置信息,若有位置信息则认为该内嵌文件为隐藏文件,若无位置信息则进入下一步;
判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则认为该内嵌文件为正常的内嵌文件。
5.如权利要求2所述的OOXML文档夹带检测方法,其特征在于:所述的OOXML文档的类型为*.xlsx;
步骤S300中,依据内嵌文件的OLE名称从sheet1.xml.rels、sheet2.xml.rels、…文件中提取该内嵌文件对应的ID,并将内嵌文件ID所在文件名称中sheet后的数字作为该内嵌文件的所属子表编号m;
步骤S400中,内嵌文件参数通过如下步骤提取:
根据内嵌文件ID,从sheetm.xml文件中提取该内嵌文件对应的缩略图ID;
根据内嵌文件的缩略图ID,从sheetm.xml.rels文件中提取该内嵌文件对应的缩略图路径;
根据内嵌文件ID,从sheetm.xml文件中提取该内嵌文件如下的角点信息:
左上角点所处列号form_xdr_col、行号form_xdr_row,
左上角点与其所处单元格左上角顶点之间的纵向偏移距离form_xdr_colOff、横向偏移距离form_xdr_rowOff;
右下角点所处列号to_xdr_col、行号to_xdr_row,
右下角点与其所处单元格右下角顶点之间的纵向偏移距离to_xdr_colOff、横向偏移距离to_xdr_rowOff;
根据子表m中行、列的宽度将内嵌文件的角点信息转换成该内嵌文件的位置和尺寸。
6.如权利要求5所述的OOXML文档夹带检测方法,其特征在于:所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:
判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则进入下一步;
判断同一个子表中,所有内嵌文件之间位置上是否有交集,若任意两个内嵌文件的位置有交集,则继续判断内嵌文件的交集所在区域占其本身所在区域的比值是否大于等于90%,若是则将该内嵌文件视为隐藏文件。
7.如权利要求2所述的OOXML文档夹带检测方法,其特征在于:所述的OOXML文档的类型为*.pptx;
步骤S300中,依据内嵌文件的OLE名称从slide1.xml.rels、slide2.xml.rels、…文件中提取该内嵌文件对应的ID,并将内嵌文件ID所在文件名称中slide后的数字作为该内嵌文件的所属页数编号n;
步骤S400中,内嵌文件参数通过如下步骤提取:
根据内嵌文件ID,从sliden.xml文件中提取该内嵌文件对应的spid以及透明度;
根据内嵌文件的spid,从vmlDrawingn.vml文件中提取该内嵌文件的位置、尺寸以及缩略图路径。
8.如权利要求7所述的OOXML文档夹带检测方法,其特征在于:所述的步骤S500中,根据所提取的内嵌文件参数判断每个内嵌文件是否属于隐藏文件包括:
判断该内嵌文件的透明度是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则进入下一步;
判断该内嵌文件的尺寸是否小于设定阈值,若小于,则认为该内嵌文件为隐藏文件,否则进入下一步;
判断该内嵌文件是否位于编辑域以外,若是,则认为该内嵌文件为隐藏文件,否则进入下一步;
判断同一个页数中,所有内嵌文件之间位置上是否有交集,若任意两个内嵌文件的位置有交集,则继续判断内嵌文件的交集所在区域占其本身所在区域的比值是否大于等于90%,若是则将该内嵌文件视为隐藏文件。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的OOXML文档夹带检测方法。
10.一种电子设备,其特征在于:包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一项所述的OOXML文档夹带检测方法。
CN202310409811.6A 2023-04-18 2023-04-18 Ooxml文档夹带检测方法、存储介质和电子设备 Active CN116126349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310409811.6A CN116126349B (zh) 2023-04-18 2023-04-18 Ooxml文档夹带检测方法、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310409811.6A CN116126349B (zh) 2023-04-18 2023-04-18 Ooxml文档夹带检测方法、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN116126349A true CN116126349A (zh) 2023-05-16
CN116126349B CN116126349B (zh) 2023-06-27

Family

ID=86310339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310409811.6A Active CN116126349B (zh) 2023-04-18 2023-04-18 Ooxml文档夹带检测方法、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN116126349B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235716A (zh) * 2023-11-14 2023-12-15 之江实验室 一种ooxml文档模板注入攻击的未知威胁防御方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000049521A1 (en) * 1999-02-18 2000-08-24 Silanis Technology Inc. Method of hidden text detection and use in electronic document approval
US20070174766A1 (en) * 2006-01-20 2007-07-26 Microsoft Corporation Hidden document data removal
CN108268791A (zh) * 2016-12-30 2018-07-10 珠海金山办公软件有限公司 一种外发文档的制作方法及装置
US20190236273A1 (en) * 2018-01-26 2019-08-01 Sophos Limited Methods and apparatus for detection of malicious documents using machine learning
CN110737894A (zh) * 2018-12-04 2020-01-31 哈尔滨安天科技集团股份有限公司 复合文档安全检测方法、装置、电子设备及存储介质
CN111027080A (zh) * 2019-11-26 2020-04-17 中国人民解放军战略支援部队信息工程大学 基于ooxml复合文档源文件数据区位置排列次序的信息隐藏方法及系统
CN112329062A (zh) * 2020-11-06 2021-02-05 卓尔智联(武汉)研究院有限公司 一种检测隐藏数据的方法、装置及电子设备
WO2021218921A1 (en) * 2020-04-27 2021-11-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. System and method for extraction of a video thumbnail from a video file
CN114741717A (zh) * 2022-06-14 2022-07-12 合肥高维数据技术有限公司 基于ooxml文档的隐藏信息嵌入和提取方法
WO2022162379A1 (en) * 2021-01-29 2022-08-04 Glasswall (Ip) Limited Machine learning methods and systems for determining file risk using content disarm and reconstruction analysis
KR102468431B1 (ko) * 2022-05-25 2022-11-18 시큐레터 주식회사 Ms-ooxml에서 ole object 무해화를 위한 방법 및 장치
CN115730313A (zh) * 2022-12-05 2023-03-03 北京天融信网络安全技术有限公司 一种恶意文档检测方法、装置、存储介质及设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000049521A1 (en) * 1999-02-18 2000-08-24 Silanis Technology Inc. Method of hidden text detection and use in electronic document approval
US20070174766A1 (en) * 2006-01-20 2007-07-26 Microsoft Corporation Hidden document data removal
CN108268791A (zh) * 2016-12-30 2018-07-10 珠海金山办公软件有限公司 一种外发文档的制作方法及装置
US20190236273A1 (en) * 2018-01-26 2019-08-01 Sophos Limited Methods and apparatus for detection of malicious documents using machine learning
CN110737894A (zh) * 2018-12-04 2020-01-31 哈尔滨安天科技集团股份有限公司 复合文档安全检测方法、装置、电子设备及存储介质
CN111027080A (zh) * 2019-11-26 2020-04-17 中国人民解放军战略支援部队信息工程大学 基于ooxml复合文档源文件数据区位置排列次序的信息隐藏方法及系统
WO2021218921A1 (en) * 2020-04-27 2021-11-04 Guangdong Oppo Mobile Telecommunications Corp., Ltd. System and method for extraction of a video thumbnail from a video file
CN112329062A (zh) * 2020-11-06 2021-02-05 卓尔智联(武汉)研究院有限公司 一种检测隐藏数据的方法、装置及电子设备
WO2022162379A1 (en) * 2021-01-29 2022-08-04 Glasswall (Ip) Limited Machine learning methods and systems for determining file risk using content disarm and reconstruction analysis
KR102468431B1 (ko) * 2022-05-25 2022-11-18 시큐레터 주식회사 Ms-ooxml에서 ole object 무해화를 위한 방법 및 장치
CN114741717A (zh) * 2022-06-14 2022-07-12 合肥高维数据技术有限公司 基于ooxml文档的隐藏信息嵌入和提取方法
CN115730313A (zh) * 2022-12-05 2023-03-03 北京天融信网络安全技术有限公司 一种恶意文档检测方法、装置、存储介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CISMAG: "​DOCX 文档解析及隐藏信息提取算法", Retrieved from the Internet <URL:https://www.wangan.com/p/7fy747691b0cb60d> *
刘晓丽;王燕燕;罗文华;: "Microsoft Office文档数据隐藏与检测", 中国刑警学院学报, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235716A (zh) * 2023-11-14 2023-12-15 之江实验室 一种ooxml文档模板注入攻击的未知威胁防御方法及装置
CN117235716B (zh) * 2023-11-14 2024-02-13 之江实验室 一种ooxml文档模板注入攻击的未知威胁防御方法及装置

Also Published As

Publication number Publication date
CN116126349B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
JP7323584B2 (ja) モバイル向けのおよび他の表示環境をサポートするインタラクティブなサイトおよびアプリケーションの自動変換のためのシステムおよび方法
Déjean et al. A system for converting PDF documents into structured XML format
US7350142B2 (en) Method and system for creating a table version of a document
US8527864B2 (en) Method of compound document comparison
US20130073942A1 (en) Method, System, and Computer-Readable Medium To Uniformly Render Document Annotation Across Different Comuter Platforms
CN116126349B (zh) Ooxml文档夹带检测方法、存储介质和电子设备
US20070061704A1 (en) Dynamic anchoring of annotations to editable content
US7149967B2 (en) Method and system for creating a table version of a document
US7490068B2 (en) Apparatus and method for rendering digital content
US9348799B2 (en) Forming a master page for an electronic document
US20070253620A1 (en) Automated method for extracting highlighted regions in scanned source
JP2006178945A5 (zh)
US20140006922A1 (en) Comparison output of electronic documents
KR20110003490A (ko) 문서의 동시적인 협업적 검토
JP4623169B2 (ja) 画像処理装置及び画像処理プログラム
CN102881034B (zh) 一种向应用文档中插入水印的系统和方法
US7602972B1 (en) Method and apparatus for identifying white space tables within a document
Castiglione et al. New steganographic techniques for the OOXML file format
US9613089B2 (en) Form template refactoring
CN116127916B (zh) 一种动态添加水印的方法和装置
JPH11184894A (ja) 論理要素抽出方法および記録媒体
US7398465B2 (en) System and method for identifying, classifying, extracting and resolving hidden entities
CN115796133A (zh) 一种ofd文档的注释对象绘制方法、系统和存储介质
CN104517259A (zh) 彩色文本文件中数字水印的嵌入方法和装置
US20060017946A1 (en) Font and text management in documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant