CN113704184A - 一种文件分类方法、装置、介质及设备 - Google Patents

一种文件分类方法、装置、介质及设备 Download PDF

Info

Publication number
CN113704184A
CN113704184A CN202111006403.3A CN202111006403A CN113704184A CN 113704184 A CN113704184 A CN 113704184A CN 202111006403 A CN202111006403 A CN 202111006403A CN 113704184 A CN113704184 A CN 113704184A
Authority
CN
China
Prior art keywords
file
format
file format
identified
structure characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111006403.3A
Other languages
English (en)
Inventor
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202111006403.3A priority Critical patent/CN113704184A/zh
Publication of CN113704184A publication Critical patent/CN113704184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能,提供一种文件分类方法、装置、介质及设备,该方法包括:获取待识别文件的文件头、文件后缀;根据文件头和文件后缀确定待识别文件的第一文件格式和第二文件格式;判断第一文件格式与所述第二文件格式是否一致,若不一致则待识别文件为非法文件,若一致,则待识别文件的文件结构特征;根据文件结构特征确定待识别文件的第三文件格式;根据第一文件格式/所述第二文件格式、第三文件格式判断待识别文件是否是合法文件;若第一文件格式/第二文件格式与所述第三文件格式一致,则待识别文件为合法文件;反之则待识别文件为非法文件。通过上述方法可以有效识别出类型被篡改的文件,以此来保证文件的合法性和正确性。

Description

一种文件分类方法、装置、介质及设备
技术领域
本发明涉及人工智能领域,具体涉及一种文件分类方法、装置、介质及设备。
背景技术
前端上传文件,大部分检测文件方式是基于文件后缀名方式进行检测的,例如检测到jpeg,png等后缀就认为是图片,检测到后缀名txt就认为是文档。其实这样的方式是不安全的。文件后缀名本身的作用是为了方便操作系统快速查找到对应的解释程序,处理对应的文件。事实上,文件后缀名是可以串改而不影响源文件内容的。例如,对于一个只允许上传后缀名为png的图片文件功能页面,当你把一个js文件的后缀名改为png时,同样是可以上传到服务器的,但这并不影响js文件的内容。当用户浏览该内容时,浏览器就会将该后缀名为png的文件当做js进行解析执行,产生跨站脚本攻击的风险,造成用户的私密信息泄露,甚至更大的危险。因此,有必要对文件的合法性进行判断。
发明内容
本发明提供一种文件分类方法、装置、介质及设备,其主要目的在于识别文件是否被篡改,从而判断文件的合法性。
为实现上述目的,本发明提供一种文件分类方法,包括:
接收待识别文件;
获取待识别文件的文件头、文件后缀;
根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
根据所述文件结构特征确定所述待识别文件的第三文件格式;
根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
可选地,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:
解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;
在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式。
其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。
可选地,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:
在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;
其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。
可选地,所述根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;
将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;
在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;
其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。
可选地,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:
特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。
可选地,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。
可选地,若ht为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:
ft=σ(Bf+∑UfCl+∑Wf×ht-1)
gt=σ(Bg+∑UgCl+∑Wg×ht-1)
qt=σ(Bq+∑UqCl+∑Wq×ht-1)
其中,Cl为第l层的最大池化层的输出,Bf、Uf、Wf分别为遗忘门的偏置、输入权重和循环权重;Bg、Ug、Wg分别为输入门的偏置、输入权重和循环权重;Bq、Uq、Wq分别为输出门的偏置、输入权重和循环权重,σ为激活函数;
LSTM层的信息状态更新kt及输出ht如下:
kt=ft×kt-1+gtσ(B+∑UCl+∑W×ht-1),ht=σ(kt)×qt
其中,B、U、W分别为LSTM层新生成信息的偏置、输入权重和循环权重。
为实现上述目的,本发明提供一种文件分类装置,包括:
文件接收模块,用下载接收待识别文件;
第一获取模块,用于获取待识别文件的文件头、文件后缀;
第一格式识别模块,用于根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
第二获取模块,用于判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
第二格式识别模块,用于根据所述文件结构特征确定所述待识别文件的第三文件格式;
比较模块,用于根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
为实现上述目的,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述文件分类方法的步骤。
为实现上述目的,本发明提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述文件分类方法的步骤。
如上所述,本发明提供的一种文件分类方法、装置、介质及设备,具有以下有益效果:
本发明的一种文件分类方法,包括:接收待识别文件;获取待识别文件的文件头、文件后缀;根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;判断所述第一文件格式与所述第二文件格式是否一致,若不一致则认为待识别文件为非法文件。若文件的后缀后文件头被同时修改,待识别文件也会被认为是合法文件,因此,在第一文件格式与所述第二文件格式一致时,获取所述待识别文件的文件结构特征;根据所述文件结构特征确定所述待识别文件的第三文件格式;根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。本发明通过文件头、文件后缀、文件结构特征结合起来判断待识别文件是否被篡改,只有通过文件头确定的文件格式,通过文件后缀确定的文件格式、通过文件结构特征确定的文件格式三者一致时,才能最终确定待识别文件的文件格式,才能判断该文件是否被篡改。通过上述方法可以有效识别出类型被篡改的文件,以此来保证文件的合法性和正确性。
附图说明
图1为本发明一实施例中一种文件分类方法的应用环境示意图;
图2为本发明一实施例中一种文件分类方法的流程图;
图3为本发明一实施例中确定所述待识别文件的第一文件格式的流程图;
图4为本发明一实施例中确定所述待识别文件的第二文件格式的方法流程图;
图5为本发明一实施例中确定所述待识别文件的第三文件格式的方法流程图;
图6为本发明一实施例中文件格式识别模型的示意图;
图7为本发明一实施例中一种文件分类装置的模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文件分类方法,应用于一种电子装置1。参照图1所示,为本发明一实施例中文件分类方法的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、摄像装置13、网络接口14及通信总线15。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的文件分类程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文件分类程序10等。
摄像装置13既可以是所述电子装置1的一部分,也可以独立于电子装置1。在一些实施例中,所述电子装置1为智能手机、平板电脑、便携计算机等具有摄像头的终端设备,则所述摄像装置13即为所述电子装置1的摄像头。在其他实施例中,所述电子装置1可以为服务器,所述摄像装置13独立于该电子装置1、与该电子装置1通过网络连接,例如,该摄像装置13安装于特定场所,如办公场所、监控区域,对进入该特定场所的目标实时拍摄得到实时图像,通过网络将拍摄得到的实时图像传输至处理器12。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线15用于实现这些组件之间的连接通信。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在图1所示的装置实施例中,作为一种机器可读介质的存储器11中可以包括操作系统、以及文件分类程序10;处理器12执行存储器11中存储的文件分类程序10时实现如图2所示的文件分类方法的步骤:
S20接收待识别文件;
S21获取待识别文件的文件头、文件后缀;
S22根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
S23判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
S24根据所述文件结构特征确定所述待识别文件的第三文件格式;
S25根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
本发明通过文件头、文件后缀、文件结构特征结合起来判断待识别文件是否被篡改,只有通过文件头确定的文件格式,通过文件后缀确定的文件格式、通过文件结构特征确定的文件格式三者一致时,才能最终确定待识别文件的文件格式,才能判断该文件是否被篡改。通过上述方法可以有效识别出类型被篡改的文件,以此来保证文件的合法性和正确性。
下面对各步骤进行详细说明。
在步骤S20中,接收待识别文件。
其中,待识别文件的格式可以包括多种,如文本格式、图片格式、视频格式、音频格式等。
在步骤S21中,获取待识别文件的文件头、文件后缀;
其中,文件头一般位于文件开头,通常描述文件的一些重要属性。实际上,在各种格式的文件开始部分都有鲜明的特殊字段来标识,这些特殊字段称为文件格式关键字,可以用来确定文件格式。
文件后缀也称为文件扩展名,是操作系统用来标志文件格式的一种机制,通常来说,一个扩展名是跟在主文件名后面的,由一个分隔符分隔,在一个像“读我.txt””的文件名中,“读我”是主文件名,txt为扩展名。
在步骤S22中,根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式。
文件格式:又称文件格式,是指电脑为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。比如有的储存图片,有的储存程序,有的储存文字信息。每一类信息,都可以一种或多种文件格式保存在电脑存储中。每一种文件格式通常会有一种或多种后缀可以用来识别,但也可能没有后缀。后缀可以帮助应用程序识别的文件格式。
如图3所示,在一实施例中,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:
S31解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;
S32在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式;
其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。
文件头具有鲜明的特殊字段来标识,这些特殊字段称为文件格式关键字,可以用来确定文件格式。例如,JPEG(jpg),文件头:FFD8FF;PNG(png),文件头:89504E47;GIF(gif),文件头:47494638;TIFF(tif),文件头:49492A00;Windows Bitmap(bmp),文件头:424D;CAD(dwg),文件头:41433130;Adobe Photoshop(psd),文件头:38425053等等。通过解析这些特殊字段,然后与预先确定的文件的类型进行比对,若出现一致性,即可判断出该文件的类型。
在本实施例中,可以针对目前常见的文件格式,在数据库中预先建立文件格式关键字与文件格式之间的关联关系列表。
可以基于文件格式关键字,在关联关系列表中查询对应于文件格式关键字的文件格式类型,并将所查询到的文件格式类型确定为该待识别文件的文件格式。
举例说明:当确定出待识别文件的文件头中包含有关键字89504E47,则通过查询关联关系列表,确定出待识别文件的格式为PNG。
关联关系列表是可编辑的,从而当出现新的文件格式的时候,可以在关联关系列表中及时增加对应的文件格式关键字。
如图4所示,在一实施例中,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:
S41在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;
其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。
S42当识别出文件后缀时,基于第二关联关系列表确定所述待识别文件的文件格式。
需要说明的是,所述文件后缀为目前行业内规定的标准后缀,而不是占据后缀位置的随意字符,所以需要基于第二关联关系列表进行确认。还需要说明的是,在实际使用中,对于同种文件格式可能存在多种文件后缀,比如mpeg类型的文件可能存在mpg、mpeg、vob的后缀,而这并不影响我们的判定过程。
其中,文件后缀为mpg/mpeg、vob,文件格式对应为mpeg;文件后缀为rm/rmvb,文件格式对应为rm;文件后缀为tbz/bz/tar.bz/bzip,文件格式对应为bz;文件后缀为tgz/gz/tar.gz/gzip,文件格式对应为gz;文件后缀为tbz2/bz2/tar.bz2/bzip2,文件格式对应为bz2;件后缀为xz,txz,tar.xz,文件格式对应为xz;文件后缀为Z/taz/tar.Z,文件格式对应为Z;文件后缀为jpg/jpeg,文件格式对应为jpeg。
由于文件头可以表示文件的类型,因此通过修改文件头可以对文件的格式进行修改。例如,如果一原始文件为jpg格式的文件,其文件头的关键字为FFD8FF,文件后缀名为jpg。如果对该文件头进行篡改,篡改为gif文件格式对应的文件头,则篡改后的文件的文件头的关键字为47494638,文件的后缀名依然为jpg。因此,可以认为此时原始文件被篡改,属于非法文件。
在文件头中表示格式的关键字与后缀名同时被修改成相对应的关系时,则通过上述方法并不能判断待识别的文件是否被修改。比如,原始文件的文件头为FFD8FF,后缀名为:jpg;若将原始文件的文件头修改为89504E47,后缀名修改为:gif。那么通过上述方法认为修改后的文件为合法文,但实质上是依然非法文件。因此,为了对文件的合法性进行准确的判断,因此,还需要将可以根据所述文件结构特征确定所述待识别文件的第三文件格式。
文件结构特征反映了文件的数据组织特点,是在文件格式设计阶段就确定出的,一种类型的所有文件都遵从这种数据组织形式。文件结构特征包括特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表等等。
如图5所示,在一实施例中,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
S51计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;
S52目标文件结构特征;
S53在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;
其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。
结构相似度是所述待识别文件的文件结构特征与标准文件结构特征是否一致的判断指标,也即结构相似度可以是待识别文件的文件结构特征与标准文件结构特征之间的相似程度,从而可以根据相似程度判断待识别文件的文件结构特征与标准文件结构特征是否一致。
在计算待识别文件的文件结构特征与标准文件结构特征的结构相似度时,可以将待识别文件的文件结构特征的字段与标准文件结构特征的字段逐个进行匹配,根据匹配成功的字段数量以及标准文件结构特征的总字段数量计算得到结构相似度。
在计算待识别文件的文件结构特征与标准文件结构特征的结构相似度时,还可以先将待识别文件的文件结构特征转换为第一向量,将标准文件结构特征转换为对应的第二向量,根据所述第一向量与所述第二向量,计算相应的余弦相似度作为结构相似度。
在计算待识别文件的文件结构特征与标准文件结构特征的结构相似度时,还可以采用深度神经网络模型计算待识别文件的文件结构特征与标准文件结构特征的结构相似度,也即分别将待识别文件的文件结构特征与标准文件结构特征输入至神经网络模型中,从而通过神经网络模型提取到待识别文件的文件结构特征的第一特征以及标准文件结构特征的第二特征,根据第一特征以及第二特征计算结构相似度。
在一实施例中,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式。
文件结构特征包括以下至少之一:特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表等等。可以根据某种类型文件的结构特征,设计相适应的文件格式识别模型,将一种文件格式的文件结构特征输入该文件格式识别模型,从而可以确定该文件的文件格式,即第三文件格式。
具体地,对待识别文件进行特征提取,得到所述文件结构特征,并进一步得到文件结构特征的特征向量;
将所述特征向量输入至文件格式识别模型中,获取所述文件格式识别模型确定的文件格式,所述文件格式识别模型用于根据任一待识别文件的特征向量确定所述任一文件所属的文件格式。
文件格式识别模型用于根据任一待识别文件的特征向量确定所述任一文件所属的文件格式,该文件格式识别模型可以通过训练得到。
在训练过程中,先获取多个样本文件,并获取该多个样本文件中每个样本文件所属的文件格式,其中样本文件所属的文件格式可以通过人工标注确定。之后,对每个样本文件进行特征提取,得到每个样本文件的特征向量,通过特征向量可以描述对应的样本文件,并以每个样本文件的特征向量作为输入数据,以每个样本文件所属的文件格式作为输出数据,分别根据多个样本文件对应的输入数据和输出数据进行训练,得到文件格式识别模型。例如,建立一个初始文件格式识别模型,遍历多个样本文件,每次根据当前遍历到的样本文件对应的输入数据和输出数据进行训练,得到训练后的文件格式识别模型,采用训练后的分类模型对样本文件进行识别,将识别结果作为测试文件格式,根据测试类型和样本文件实际所属的文件格式之间的差异可以对该文件格式识别模型进行修正,得到修正后的文件格式识别模型,以此类推,经过多次遍历之后即可训练出准确度较高的文件格式识别模型。
以图片为例,训练文件格式识别模型的过程可以包括以下3个步骤:
收集多张样本图片,并确定每张样本图片所属的文件格式。
对于每张样本图片,对样本图片的数据结构格式、各种数据结构的对象间的关系、交叉引用表等特征进行提取,将这些特征构成样本图片的特征向量。
根据样本图片的特征向量和所属的文件格式,采用预设训练算法进行快速训练,得到训练的文件格式识别模型。并且,采用训练的文件格式识别模型确定样本图片所属的文件格式,即为测试文件格式,根据该测试文件格式与样本图片实际所属的文件格式的差异,可以对文件格式识别模型进行修正,从而得到更为准确的文件格式识别模型。
如图6所示,在一实施例中,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM(长短期记忆网络,Long Short-TermMemory,是一种时间循环神经网络)层、全连接层和分类层。
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。卷积单元如图6中虚线框所示。在图6中仅仅包括了一个卷积单元,但其具体的数量可以根据实际需要进行设定。
所述卷积层以样本文件作为输入,对样本文件进行特征提取,得到样本文件的特征向量;所述池化层对所述卷积层的输出进行池化操作,以减少网络参数,降低计算复杂度,在一定程度上防止过拟合。
在最后一个最大池化层之后,使用一层双向LSTM作为循环神经网络层。双向LSTM层沿正向和反向对输入序列进行处理,将处理结果合并在一起。使用双向LSTM层的好处在于它能够携带信息状态跨越多个时间步,具体来讲,每个LSTM层均有控制信息流动的门控单元,根据这些门控单元控制其状态的更新。在得到第l层的最大池化层的输出Cl后,Cl将作为LSTM层的输入。
若ht为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:
ft=σ(Bf+∑UfCl+∑Wf×ht-1)
gt=σ(Bg+∑UgCl+∑Wg×ht-1)
qt=σ(Bq+∑UqCl+∑Wq×ht-1)
其中,Bf、Uf、Wf分别为遗忘门的偏置、输入权重和循环权重;Bg、Ug、Wg分别为输入门的偏置、输入权重和循环权重;Bq、Uq、Wq分别为输出门的偏置、输入权重和循环权重,σ为激活函数,具体可以为ReLU函数。
因此,LSTM层的信息状态更新及输出如下:
kt=ft×kt-1+gtσ(B+∑UCl+∑W×ht-1),ht=σ(kt)×qt
其中,B、U、W分别为LSTM层新生成信息的偏置、输入权重和循环权重。
在得到双向LSTM层的输出ht后,将其输入全连接层,最后通过Sigmoid函数分类器进行分类。
Sigmoid函数如下示,其中x代表任意变量。
Figure BDA0003237361950000151
在步骤S25中,根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件,反之则为非法文件。
具体地,当所述第一文件格式/所述第二文件格式、所述第三文件格式中的任意两个不一致,则表示待识别文件的格式被篡改,此时待识别文件为非法文件;当所述第一文件格式/所述第二文件格式、所述第三文件格式表示同一格式时,所述待识别文件的格式没有被篡改,待待识别文件属于合法文件。
如图7所述,本申请实施例还提供一种文件分类装置,该装置包括:
文件接收模块71,用下载接收待识别文件;
第一获取模块72,用于获取待识别文件的文件头、文件后缀;
第一格式识别模块73,用于根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
第二获取模块74,用于判断所述第一文件格式与所述第二文件格式是否一致,若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
第二格式识别模块75,用于根据所述文件结构特征确定所述待识别文件的第三文件格式;
比较模块76,用于根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
在一实施例中,所述第一格式识别模块在根据所述文件头确定所述待识别文件的第一文件格式的过程中,执行以下步骤:
解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;
在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式;
其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。
在一实施例中,所述页面模板生成模块在计算第一待分析属性字段与标准属性字段的第一相似度时,将第一待分析属性字段与标准属性字段逐个汉字字符进行匹配,根据匹配成功的汉字字符数量以及标准属性字段的总字符数量计算得到第一相似度。
在一实施例中,所述第一格式识别模块在根据所述文件后缀确定所述待识别文件的第二文件格式的过程中,执行以下步骤:在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。
在一实施例中,所述第二格式识别模块在根据所述文件结构特征确定所述待识别文件的第三文件格式的过程中,执行以下步骤:
计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;
将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;
在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;
其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。
在一实施例中,所述第二格式识别模块在根据所述文件结构特征确定所述待识别文件的第三文件格式的过程中,执行以下步骤:将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:
特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。
具体地,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。
所述卷积层以样本文件作为输入,对样本文件进行特征提取,得到样本文件的特征向量;所述池化层对所述卷积层的输出进行池化操作,以减少网络参数,降低计算复杂度,在一定程度上防止过拟合。
在最后一个最大池化层之后,使用一层双向LSTM作为循环神经网络层。双向LSTM层沿正向和反向对输入序列进行处理,将处理结果合并在一起。使用双向LSTM层的好处在于它能够携带信息状态跨越多个时间步,具体来讲,每个LSTM层均有控制信息流动的门控单元,根据这些门控单元控制其状态的更新。在得到第l层的最大池化层的输出Cl后,Cl将作为LSTM层的输入。
若ht为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:
ft=σ(Bf+∑UfCl+∑Wf×ht-1)
gt=σ(Bg+∑UgCl+∑Wg×ht-1)
qt=σ(Bq+∑UqCl+∑Wq×ht-1)
其中,Bf、Uf、Wf分别为遗忘门的偏置、输入权重和循环权重;Bg、Ug、Wg分别为输入门的偏置、输入权重和循环权重;Bq、Uq、Wq分别为输出门的偏置、输入权重和循环权重,σ为激活函数,具体可以为ReLU函数。
因此,LSTM层的信息状态更新及输出如下:
kt=ft×kt-1+gtσ(B+∑UCl+∑W×ht-1),ht=σ(kt)×qt
其中,B、U、W分别为LSTM层新生成信息的偏置、输入权重和循环权重。
在得到双向LSTM层的输出ht后,将其输入全连接层,最后通过Sigmoid函数分类器进行分类。
Sigmoid函数如下示,其中x代表任意变量。
Figure BDA0003237361950000181
在上述实施例中,文件分类装置的实施方式与图2所示的文件分类方法的具体实施方式大体相应,此处不再赘述。
本发明通过文件头、文件后缀、文件结构特征结合起来判断待识别文件是否被篡改,只有通过文件头确定的文件格式,通过文件后缀确定的文件格式、通过文件结构特征确定的文件格式三者一致时,才能最终确定待识别文件的文件格式,才能判断该文件是否被篡改。通过上述方法可以有效识别出类型被篡改的文件,以此来保证文件的合法性和正确性。
在本申请一实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使得处理器执行如下步骤:
接收待识别文件;
获取待识别文件的文件头、文件后缀;
根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
根据所述文件结构特征确定所述待识别文件的第三文件格式;
根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
在一实施例中,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:
解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;
在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式。
其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。
在一实施例中,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:
在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;
其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。
在一实施例中,所述根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;
将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;
在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;
其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。
在一实施例中,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:
特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。
在一实施例中,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。
在一实施例中,若ht为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:
ft=σ(Bf+∑UfCl+∑Wf×ht-1)
gt=σ(Bg+∑UgCl+∑Wg×ht-1)
qt=σ(Bq+∑UqCl+∑Wq×ht-1)
其中,Cl为第l层的最大池化层的输出,Bf、Uf、Wf分别为遗忘门的偏置、输入权重和循环权重;Bg、Ug、Wg分别为输入门的偏置、输入权重和循环权重;Bq、Uq、Wq分别为输出门的偏置、输入权重和循环权重,σ为激活函数;
LSTM层的信息状态更新kt及输出ht如下:
kt=ft×kt-1+gtσ(B+∑UCl+∑W×ht-1),ht=σ(kt)×qt
其中,B、U、W分别为LSTM层新生成信息的偏置、输入权重和循环权重。
本申请实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时执行如图2所示的文件分类方法的步骤。
上述步骤与文件分类方法、装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种机器可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文件识别方法,其特征在于,包括:
接收待识别文件;
获取待识别文件的文件头、文件后缀;
根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
判断所述第一文件格式与所述第二文件格式是否一致;若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
根据所述文件结构特征确定所述待识别文件的第三文件格式;
根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
2.根据权要求1所述的文件分类方法,其特征在于,所述根据所述文件头确定所述待识别文件的第一文件格式,包括:
解析待识别文件的文件头,在所述文件头中确定出文件格式关键字;
在预先建立的第一关联关系列表中查询与文件格式关键字对应的文件格式,将查询到的文件格式作为待识别文件的第一文件格式;
其中,第一关联关系列表用于指示文件格式关键字与文件格式的映射关系。
3.根据权利要求1所述的文件分类方法,其特征在于,所述根据所述文件后缀确定所述待识别文件的第二文件格式,包括:
在预先建立的第二关联关系列表中查询与文件后缀对应的文件格式,将查询到的文件格式作为待识别文件的第二文件格式;
其中,所述第二关联关系列表用于指示文件后缀与文件格式的对应关系。
4.根据权利要求1所述的文件分类方法,其特征在于,所述根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
计算所述待识别文件的文件结构特征与标准文件结构特征之间的结构相似度;
将结构相似度大于设定的结构相似度阈值对应的标准文件结构特征作为目标文件结构特征;
在预先建立的第三关联关系列表中查询与目标文件结构特征对应的文件格式,将查询到的文件格式作为待识别文件的第三文件格式;
其中,所述第三关联关系列表用于指示标准文件结构特征与文件格式的对应关系。
5.根据权要求1所述的文件分类方法,其特征在于,根据所述文件结构特征确定所述待识别文件的第三文件格式,包括:
将所述文件结构特征输入到预先训练好的文件格式识别模型中,得到表示待识别文件格式的第三文件格式;其中,所述文件结构特征包括以下至少之一:
特征字符或字符串、数据存储时所采用的数据结构格式、各种数据结构的对象间的关系、交叉引用表。
6.根据权要求5所述的文件分类方法,其特征在于,所述文件格式识别模型为神经网络模型,所述文件格式识别模型包括:顺次连接的卷积单元、双向LSTM层、全连接层和分类层;
其中,所述卷积单元包括至少一个,所述卷积单元包括卷积层和最大池化层。
7.根据权要求6所述的文件分类方法,其特征在于,
若ht为LSTM层的输出向量,则LSTM层的遗忘门、输入门和输出门在每个时间步的更新按照以下方式进行:
ft=σ(Bf+∑UfCl+∑Wf×ht-1)
gt=σ(Bg+∑UgCl+∑Wg×ht-1)
qt=σ(Bq+∑UqCl+∑Wq×ht-1)
其中,Cl为第l层的最大池化层的输出,Bf、Uf、Wf分别为遗忘门的偏置、输入权重和循环权重;Bg、Ug、Wg分别为输入门的偏置、输入权重和循环权重;Bq、Uq、Wq分别为输出门的偏置、输入权重和循环权重,σ为激活函数;
LSTM层的信息状态更新kt及输出ht如下:
kt=ft×kt-1+gtσ(B+∑UCl+∑W×ht-1),ht=σ(kt)×qt
其中,B、U、W分别为LSTM层新生成信息的偏置、输入权重和循环权重。
8.一种文件分类装置,其特征在于,包括:
文件接收模块,用下载接收待识别文件;
第一获取模块,用于获取待识别文件的文件头、文件后缀;
第一格式识别模块,用于根据所述文件头确定所述待识别文件的第一文件格式,根据所述文件后缀确定所述待识别文件的第二文件格式;
第二获取模块,用于判断所述第一文件格式与所述第二文件格式是否一致,若不一致,则待识别文件为非法文件;若一致,则获取所述待识别文件的文件结构特征;
第二格式识别模块,用于根据所述文件结构特征确定所述待识别文件的第三文件格式;
比较模块,用于根据所述第一文件格式/所述第二文件格式、所述第三文件格式判断所述待识别文件是否是合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式一致,则所述待识别文件为合法文件;若所述第一文件格式/所述第二文件格式与所述第三文件格式不一致,则所述待识别文件为非法文件。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述文件分类方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述文件分类方法的步骤。
CN202111006403.3A 2021-08-30 2021-08-30 一种文件分类方法、装置、介质及设备 Pending CN113704184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111006403.3A CN113704184A (zh) 2021-08-30 2021-08-30 一种文件分类方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111006403.3A CN113704184A (zh) 2021-08-30 2021-08-30 一种文件分类方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN113704184A true CN113704184A (zh) 2021-11-26

Family

ID=78656988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111006403.3A Pending CN113704184A (zh) 2021-08-30 2021-08-30 一种文件分类方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN113704184A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281782A (zh) * 2021-12-08 2022-04-05 奇安信科技集团股份有限公司 文件类型的识别方法、装置及电子设备
CN114495113A (zh) * 2022-02-18 2022-05-13 北京百度网讯科技有限公司 文本分类方法和文本分类模型的训练方法、装置
CN114710482A (zh) * 2022-03-23 2022-07-05 马上消费金融股份有限公司 文件检测方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN107315955A (zh) * 2016-04-27 2017-11-03 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置
CN110807309A (zh) * 2018-08-01 2020-02-18 珠海金山办公软件有限公司 一种pdf文档的内容类型识别方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571767A (zh) * 2011-12-24 2012-07-11 成都市华为赛门铁克科技有限公司 文件类型识别方法及文件类型识别装置
CN107315955A (zh) * 2016-04-27 2017-11-03 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置
CN110807309A (zh) * 2018-08-01 2020-02-18 珠海金山办公软件有限公司 一种pdf文档的内容类型识别方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石宇: "文件类型的分析、判定与关键信息的提取", 中国优秀硕士学位论文全文数据库信息科技辑, no. 14, pages 55 - 64 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281782A (zh) * 2021-12-08 2022-04-05 奇安信科技集团股份有限公司 文件类型的识别方法、装置及电子设备
CN114495113A (zh) * 2022-02-18 2022-05-13 北京百度网讯科技有限公司 文本分类方法和文本分类模型的训练方法、装置
CN114710482A (zh) * 2022-03-23 2022-07-05 马上消费金融股份有限公司 文件检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN107038173B (zh) 应用查询方法和装置、相似应用检测方法和装置
JP2020009452A (ja) ユーザ認証方法及び手書きサインインサーバ
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
KR101912748B1 (ko) 확장성을 고려한 특징 기술자 생성 및 특징 기술자를 이용한 정합 장치 및 방법
CN112329888A (zh) 图像处理方法、装置、电子设备以及存储介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN113254687B (zh) 图像检索、图像量化模型训练方法、装置和存储介质
CN110825611A (zh) 异常程序的分析方法及装置和计算机可读存储介质
CN116089648B (zh) 基于人工智能的档案管理系统及方法
CN113704184A (zh) 一种文件分类方法、装置、介质及设备
CN110717407B (zh) 基于唇语密码的人脸识别方法、装置及存储介质
CN110765292A (zh) 图像检索方法、训练方法及相关装置
CN114461833A (zh) 图片取证方法、装置、计算机设备及存储介质
CN113190646A (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN111935487B (zh) 一种基于视频流检测的图像压缩方法及系统
CN111553191A (zh) 基于人脸识别的视频分类方法、装置及存储介质
CN109408659B (zh) 基于小世界网络的图像检索方法、装置、计算设备及介质
CN111414758B (zh) 零指代位置检测方法、装置、设备及计算机可读存储介质
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
CN112417003A (zh) 基于网络搜索的近义词挖掘方法、装置、设备及存储介质
CN111552829A (zh) 用于分析图像素材的方法和装置
CN117709317A (zh) 报表文件的处理方法、装置及电子设备
CN114328884B (zh) 一种图文去重方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination