CN112132008A - 文档文件检测方法、装置、电子设备及可读存储介质 - Google Patents

文档文件检测方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112132008A
CN112132008A CN202010998537.7A CN202010998537A CN112132008A CN 112132008 A CN112132008 A CN 112132008A CN 202010998537 A CN202010998537 A CN 202010998537A CN 112132008 A CN112132008 A CN 112132008A
Authority
CN
China
Prior art keywords
image
document file
recognized
specified type
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010998537.7A
Other languages
English (en)
Inventor
孙宇哲
王伟
陈电波
桂艳峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhizhangyi Technology Co ltd
Original Assignee
Beijing Zhizhangyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhizhangyi Technology Co ltd filed Critical Beijing Zhizhangyi Technology Co ltd
Priority to CN202010998537.7A priority Critical patent/CN112132008A/zh
Publication of CN112132008A publication Critical patent/CN112132008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种文档文件检测方法、装置、电子设备及可读存储介质,涉及计算机数据处理技术领域。方法包括:获取待识别图像;将待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;当第一检测结果表示待识别图像满足指定类型文档文件的颜色特征时,将待识别图像输入经过训练的深度学习模型,得到深度学习模型对待识别图像进行识别的第二检测结果,第二检测结果包括表示待识别图像是指定类型文档文件的结果,或者表示待识别图像不是指定类型文档文件的结果,能够提高检测的效率与准确性,降低检测误差。

Description

文档文件检测方法、装置、电子设备及可读存储介质
技术领域
本发明涉及计算机数据处理技术领域,具体而言,涉及一种文档文件检测方法、装置、电子设备及可读存储介质。
背景技术
随着移动办公使用和推广,一些纸质材料通过拍照、扫描等途径转存为电子文档,方便阅读和存储。该方式给不宜广泛传播、包含私密信息的资料或指定类型的文件带来一定的安全隐患。目前,在检测指定类型文档文件是否出现泄密时,通常由人工检测,或者预先在文件上设置水印,利用水印来检测是否出现泄密。其中,对于人工检测,由于存在人工干预,检测效率和成本较高,而且容易造成指定类型文档文件的二次泄漏。对于通过水印来实现自动检测,检测过程中对加入的水印信息进行提取和匹配。这种方式对于检测海量图像时速度较慢,另外,电子水印在二次拍摄后存在失真、变形等因素,从而存在漏检的情况。即,目前对于指定类型文档文件的检测的效率低,且存在一定误差。
发明内容
本申请提供一种文档文件检测方法、装置、电子设备及可读存储介质,能够提高指定类型文档文件检测的效率,降低误差。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种文档文件检测方法,所述方法包括:
获取待识别图像;
将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;
当所述第一检测结果表示所述待识别图像满足所述指定类型文档文件的颜色特征时,将所述待识别图像输入经过训练的深度学习模型,得到所述深度学习模型对所述待识别图像进行识别的第二检测结果,所述第二检测结果包括表示所述待识别图像是所述指定类型文档文件的结果,或者表示所述待识别图像不是所述指定类型文档文件的结果。
在上述的实施例方式中,特征检测模型可以对待识别图像的颜色特征进行检测,以判断待识别图像的颜色特征是否满足指定类型文档文件的颜色特征,从而能够对待识别图像进行初步检测与判断。然后,在待识别图像的颜色特征满足指定类型文档文件的颜色特征后,由经过训练的深度学习模型对待识别图像进行检测,从而确定待识别图像的检测结果。基于此,通过特征检测模型与深度学习模型进行结合,能够提高检测的效率与准确性,降低检测误差。
结合第一方面,在一些可选的实施方式中,在获取待识别图像之前,所述方法包括:
获取多个图像素材;
从所述多个图像素材中确定第一类图像集及第二类图像集,所述第一类图像集包括多个第一类图像,且设置有表示所述第一类图像为所述指定类型文档文件的第一标签,所述第二类图像集包括多个第二类图像,且设置有表示所述第二类图像为非所述指定类型文档文件的第二标签;
通过所述第一类图像集及所述第二类图像集,对深度学习模型进行训练,得到经过训练的用于识别图像是否为所述指定类型文档文件的深度学习模型。
结合第一方面,在一些可选的实施方式中,从获取的多个图像素材中确定第一类图像集及第二类图像集,包括:
通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材;
从去重后的图像素材中,确定所述第一类图像集及所述第二类图像集。
结合第一方面,在一些可选的实施方式中,通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材,包括:
通过图像去重算法计算所述多个图像素材中每个图像的信息摘要;
当存在信息摘要相同的两个或多个图像时,对所述两个或多个图像进行去重,得到所述去重后的图像素材。
结合第一方面,在一些可选的实施方式中,将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果,包括:
将所述待识别图像输入所述指定类型文档文件的特征检测模型,通过所述指定类型文档文件的特征检测模型将所述待识别图像转换为指定尺寸的图像;
通过所述指定类型文档文件的特征检测模型确定所述指定尺寸的图像中,表示指定颜色的像素点的数量与表示白色类的像素点的比值,所述指定颜色为所述待识别图像中的文档的头部标题的颜色;
当所述比值在设定范围内时,确定所述待识别图像满足所述指定类型文档文件的颜色特征;
当所述比值未在设定范围内时,确定所述待识别图像不满足所述指定类型文档文件的颜色特征。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
当所述第二检测结果表示所述待识别图像是指定类型文档文件时,发出报警提示。
结合第一方面,在一些可选的实施方式中,所述深度学习模型包括设置有全连接层及Dropout层的NASNET模型。
第二方面,本申请实施例还提供一种文档文件检测装置,所述装置包括:
获取单元,用于获取待识别图像;
第一检测单元,用于将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;
第二检测单元,用于当所述第一检测结果表示所述待识别图像满足所述指定类型文档文件的颜色特征时,将所述待识别图像输入经过训练的深度学习模型,得到所述深度学习模型对所述待识别图像进行识别的第二检测结果,所述第二检测结果包括表示所述待识别图像是所述指定类型文档文件的结果,或者表示所述待识别图像不是所述指定类型文档文件的结果。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的文档文件检测方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的文档文件检测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构示意图。
图2为本申请实施例提供的文档文件检测方法的流程示意图。
图3为图2中步骤S220包括的子步骤的流程示意图。
图4为本申请实施例提供的文档文件检测装置的框图。
图标:10-电子设备;11-处理模块;12-存储模块;100-文档文件检测装置;110-获取单元;120-第一检测单元;130-第二检测单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图,对本申请实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,本申请实施例提供一种电子设备10,可以用于检测文档文件是否为指定类型文档文件。其中,指定类型文档文件可以根据实际情况进行确定。指定类型文档文件通常为不宜广泛传播、包含私密信息的文件,通常具有指定格式。例如,指定类型文档文件可以是但不限于红头文件、绿头文件等。
在本实施例中,红头文件可理解为公司作为机密文件,任职文件,紧急文件的别称,该红头文件即为头部标题为红色字体的文档文件。类似地,绿头文件为头部标题为绿色字体的文档文件。
在本实施例中,电子设备10可以包括处理模块11及存储模块12。存储模块12中存储有计算机程序,当计算机程序被处理模块11执行时,可以使得电子设备10能够执行下述的文档文件检测方法中的各步骤。
当然,电子设备10还可以包括其他模块,例如,电子设备10还可以包括通信模块及文档文件检测装置100。处理模块11、存储模块12、通信模块以及文档文件检测装置100各个元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
电子设备10可以通过通信模块与其他设备(例如用户终端)建立通信连接。其中,电子设备10可以是但不限于个人电脑、服务器等设备。用户终端可以是,但不限于,智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、移动上网设备(MobileInternet Device,MID)等。
请参照图2,本申请实施例还提供一种文档文件检测方法,可以应用于上述的电子设备10中,由电子设备10执行或实现方法中的各步骤。方法可以包括以下步骤:
步骤S210,获取待识别图像;
步骤S220,将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;
步骤S230,当所述第一检测结果表示所述待识别图像满足所述指定类型文档文件的颜色特征时,将所述待识别图像输入经过训练的深度学习模型,得到所述深度学习模型对所述待识别图像进行识别的第二检测结果,所述第二检测结果包括表示所述待识别图像是所述指定类型文档文件的结果,或者表示所述待识别图像不是所述指定类型文档文件的结果。
在上述的实施例方式中,特征检测模型可以对待识别图像的颜色特征进行检测,以判断待识别图像的颜色特征是否满足指定类型文档文件的颜色特征,从而能够对待识别图像进行初步检测与判断。然后,在待识别图像的颜色特征满足指定类型文档文件的颜色特征后,由经过训练的深度学习模型对待识别图像进行检测,从而确定待识别图像的检测结果。基于此,通过特征检测模型与深度学习模型进行结合,能够提高检测的效率与准确性,降低检测误差。
下面将以指定类型文档文件为红头文件为例,对方法的各步骤进行详细阐述,如下:
在步骤S210中,当需要对待识别图像进行检测时,电子设备10可以获取到待识别图像。例如,用户终端可以将收集到的需要进行检测的图像发送至电子设备10,以使电子设备10获取到待识别图像。或者,服务器中预先存储有需要进行检测的待识别图像,电子设备10可以从服务器获取待识别图像。
可理解地,只要电子设备10能够获取到待识别图像,这里对电子设备10获取待识别图像的方式不做具体限定。其中,待识别图像通常为拍摄文档文件得到的图像,或者通过扫描纸质文档得到的图像。
在步骤S220中,特征检测模型可以用于对待识别图像进行颜色特征的检测处理,用于判断带识别图像的颜色特征是否满足指定类型文档文件的颜色特征。
例如,对于红头文件,红头文件通常具有特定的格式,文档文件的头部标题为红色的大号字体。在拍摄红头文件得到的图像中,图像中的红色类的像素点的数量与白色像素点的数量的比值通常在一设定范围中。
若特征检测模型确定待识别图像的红色像素点与白色像素点的数量的比值在该设定范围中时,便确定待识别图像满足红头文件的颜色特征;若该比值未在设定范围中,便确定待识别图像不满足红头文件的颜色特征。其中,该设定范围可以根据实际情况进行确定。基于此,便可以初步判断待识别图像中的文档是否为指定类型文档文件,过滤不满足红头文件的颜色特征的待识别图像,从而让有利于减少深度学习模型需要识别检测的图像的数量,提高检测的准确度。
在步骤S230中,经过训练的深度学习模型可以用于检测待识别图像是否为指定类型文档文件。输入至深度学习模型的待识别图像即为满足指定类型文档文件的颜色特征的图像。深度学习模型通过对待识别图像进行卷积等运算处理后,便可以得到待识别图像是否为指定类型文档文件的第二检测结果。
在本实施例中,深度学习模型中的训练模型可以根据实际情况进行选择。例如,深度学习模型的训练模型可以是但不限于ResNeXt-101、PolyNet、SENet等模型。其中,ResNeXt-101、PolyNet、SENet为本领域技术人员所熟知,这里不再赘述。
当然,深度学习还可以为其他模型,比如,深度学习模型包括设置有全连接层及Dropout层的NASNet(Neural Architecture Search Net,神经网络架构搜索网络)模型。可理解地,全连接层在深度学习模型中,可以起到分类器的作用,用于提高模型的学习能力,在全连接层加Dropout层,可以防止模型过拟合,提高模型检测的准确性。
作为一种可选的实施方式,在步骤S210之前,方法还可以包括对分类模型进行训练的步骤。例如,方法还可以包括:
获取多个图像素材;
从所述多个图像素材中确定第一类图像集及第二类图像集,所述第一类图像集包括多个第一类图像,且设置有表示所述第一类图像为所述指定类型文档文件的第一标签,所述第二类图像集包括多个第二类图像,且设置有表示所述第二类图像为非所述指定类型文档文件的第二标签;
通过所述第一类图像集及所述第二类图像集,对深度学习模型进行训练,得到经过训练的用于识别图像是否为所述指定类型文档文件的深度学习模型。
在本实施例中,电子设备10可以通过网络爬虫获取相应的图像素材。其中,图像素材中,需要包括存在指定类型文档文件的图像,以及不是指定类型文档文件的图像。图像素材的数量通常较大,图像素材包括的图像的数量可以为1万张、10万张等数量,这里对图像素材的数量不做具体限定。
在得到大量的图像素材后,图像素材中的每个图像可以预先设置有相应的标签。
该标签用于表示该图像为指定类型文档文件,或者用于表示该图像不是指定类型文档文件,可以由人工进行设置。电子设备10可以根据图像素材中的标签,来确定第一类图像集合第二类图像集。第一标签用于表示图像中的文档为指定类型文档文件,第二标签用于表示图像中的文档为非指定指定类型文档文件,第一标签与第二标签可以根据实际情况进行确定,这里不做具体限定。
在得到第一类图像集和第二类图像集后,可以通过第一类图像集、第二类图像集及对应的标签,对深度学习模型进行训练,然后对训练后的模型进行测试校验,以得到经过训练后的深度学习模型。其中,利用第一类图像集和第二类图像集对深度学习模型进行训练及测试的过程,为本领域技术人员所熟知,这里不做具体限定。
深度学习模型在完成训练与测试后,所得到的深度学习模型即为经过训练的深度学习模型,可以用于识别检测图像中是否存在文档,以及在存在文档时,判断图像中的文档是否为指定类型文档文件。
作为一种可选的实施方式,从获取的多个图像素材中确定第一类图像集及第二类图像集的步骤,可以包括:
通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材;
从去重后的图像素材中,确定所述第一类图像集及所述第二类图像集。
在本实施例中,电子设备10所获取的大量图像素材中,可能存在重复图像的情况。此时,电子设备10可以对图像素材中的重复图像进行去重处理,以提高图像素材的有效性,避免重复图像影响模型训练的效果。其中,去重算法可以根据实际情况进行选择,这里不做具体限定。
在对多个图像素材进行去重后,再从去重后的图像素材中确定第一类图像集及第二类图像集。
作为一种可选的实施方式,通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材,包括:
通过图像去重算法计算所述多个图像素材中每个图像的信息摘要;
当存在信息摘要相同的两个或多个图像时,对所述两个或多个图像进行去重,得到所述去重后的图像素材。
在本实施例中,图像去重算法可以是MD5(Message-Digest Algorithm 5,信息-摘要算法5)。可理解地,可以用于计算每个图像的信息摘要,该信息摘要可以为图像的哈希值。对于完全相同的图像文件,尽管命名不同,在采用MD5计算得到信息摘要时,计算得到的信息摘要的字符串会完全相同。如此,可以通过每个图像的信息摘要,判断图像素材中是否存在相同的图像。若存在相同的图像,便对相同的两个或多个图像进行去重处理。即,在每组相同的多个图像中,保留其中一个图像,删除其他图像,从而得到得到去重后的图像素材。
请参照图3,作为一种可选的实施方式,步骤S220可以包括以下子步骤:
子步骤S221,将所述待识别图像输入所述指定类型文档文件的特征检测模型,通过所述指定类型文档文件的特征检测模型将所述待识别图像转换为指定尺寸的图像;
子步骤S222,通过所述指定类型文档文件的特征检测模型确定所述指定尺寸的图像中,表示指定颜色的像素点的数量与表示白色类的像素点的比值,所述指定颜色为所述待识别图像中的文档的头部标题的颜色;
子步骤S223,当所述比值在设定范围内时,确定所述待识别图像满足所述指定类型文档文件的颜色特征;
子步骤S224,当所述比值未在设定范围内时,确定所述待识别图像不满足所述指定类型文档文件的颜色特征。
在本实施例中,特征检测模型可以将待识别图像的尺寸转换为指定尺寸,以便于对颜色特征进行提取。指定尺寸可以根据实际情况进行确定,例如,指定尺寸可以为32*32像素。
当指定类型文档为红头文件时,指定颜色即为红色。由于图像中,因图像亮度或其他原因,红色不一定为纯红色。即,指定颜色与纯红色的色差在指定范围内的颜色即为红色。颜色特征可以用RGB值来表示。指定范围可以根据实际情况进行确定。其中,纯红色的RGB值为(255,0,0)。
示例性地,电子设备10在识别像素点的颜色是否为红色时,可以根据HSV(HueSaturation Value,色调饱和度值)色彩空间,将亮度从色彩中分解出来。红、绿、蓝的纯度可以用S来表示。S为一比例值,取值范围为0到1,用于表示成所选像素点颜色的纯度和该颜色最大的纯度之间的比率。当S=0时,只有灰度。如此,可以计算红色的纯度,来判断所选的像素点的颜色是否为红色,若所选像素点的红色纯度大于或等于设定阈值,则认为像素点的颜色为红色。基于此,对像素点的颜色进行判断,避免因色差而出现漏检。其中,设定阈值可以根据实际情况进行确定,这里不做具体限定。
同样地,白色可以不限于纯白色。纯白色的RGB值为(255,255,255)。像素点的颜色与纯白色的色差在设定阈值范围内,便确定像素点的颜色为白色。确定像素点的颜色是否为白色的方式与确定像素点的颜色是否为红色的方式相类似,这里不再赘述。
对于红头文件而言,红色像素点与白色像素点的比值通常在一个设定范围中,该设定范围可以根据实际情况进行确定,例如,设定范围可以为0.1%至0.5%。电子设备10可以在指定尺寸的待处理图像中,通过特征检测模型计算红色的像素点的数量与白色像素点数量的比值,然后判断比值是否在设定范围中。若比值在设定范围中,则认为待识别图像满足红头文件的颜色特征;若比值未在指定范围中,则确定待识别图像不满足红头文件的颜色特征,此时,通常意味着待识别图像中的文档不是红头文件,无需再通过深度学习模型进行检测。
基于上述设计,通过对待识别图像进行初步的检测,可以过滤部分不是指定类型文档文件的待识别图像。对于初步判断认为是指定类型文档文件的待识别图像,需要输入深度学习模型进行进一步检测,如此,有利于提高文档文件检测的准确性、可靠性及效率。例如,通过上述的方法,对红头文件检测的准确率可以达到95%以上,对于待识别图像的像素尺寸为4000*3000的图片,可实现20张每秒的检测速度。
作为一种可选的实施方式,在步骤S230之后,方法还可以包括:当所述第二检测结果表示所述待识别图像是指定类型文档文件时,发出报警提示。
在本实施例中,当电子设备10的检测结果表示待识别图像为指定类型文档文件时,通过发出报警提示,有利于操作人员及时发现可疑的图像。即,发出报警提示对应的待识别图像可能为被泄露的文档图像。比如,电子设备10识别出待识别图像为红头文件时,便发出报警提示信息。基于此,有利于快速对可疑图像进行检测,以便于在出现秘密文件泄漏时,能够及时采取补救措施以降低损失。
请参照图4,本申请实施例还提供一种文档文件检测装置100,可以应用于上述的电子设备10中,用于执行或实现方法的各步骤。文档文件检测装置100包括至少一个可以软件或固件(Firmware)的形式存储于存储模块12中或固化在电子设备10操作系统(Operating System,OS)中的软件功能模块。处理模块11用于执行存储模块12中存储的可执行模块,例如文档文件检测装置100所包括的软件功能模块及计算机程序等。
在本实施例中,文档文件检测装置100可以包括获取单元110、第一检测单元及第二检测单元130,所执行的操作内容可以如下:
获取单元110,用于获取待识别图像;
第一检测单元,用于将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;
第二检测单元130,用于当所述第一检测结果表示所述待识别图像满足所述指定类型文档文件的颜色特征时,将所述待识别图像输入经过训练的深度学习模型,得到所述深度学习模型对所述待识别图像进行识别的第二检测结果,所述第二检测结果包括表示所述待识别图像是所述指定类型文档文件的结果,或者表示所述待识别图像不是所述指定类型文档文件的结果。
可选地,文档文件检测装置100还可以包括训练图像确定单元及训练单元。在获取单元110执行步骤S210之前,获取单元110还可以用于获取多个图像素材;训练图像确定单元,用于从所述多个图像素材中确定第一类图像集及第二类图像集,所述第一类图像集包括多个第一类图像,且设置有表示所述第一类图像为所述指定类型文档文件的第一标签,所述第二类图像集包括多个第二类图像,且设置有表示所述第二类图像为非所述指定类型文档文件的第二标签;训练单元,用于通过所述第一类图像集及所述第二类图像集,对深度学习模型进行训练,得到经过训练的用于识别图像是否为所述指定类型文档文件的深度学习模型。
可选地,训练图像确定单元还可以用于:
通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材;
从去重后的图像素材中,确定所述第一类图像集及所述第二类图像集。
可选地,训练图像确定单元还可以用于:
通过图像去重算法计算所述多个图像素材中每个图像的信息摘要;
当存在信息摘要相同的两个或多个图像时,对所述两个或多个图像进行去重,得到所述去重后的图像素材。
可选地,第一检测单元还可以用于:
将所述待识别图像输入所述指定类型文档文件的特征检测模型,通过所述指定类型文档文件的特征检测模型将所述待识别图像转换为指定尺寸的图像;
通过所述指定类型文档文件的特征检测模型确定所述指定尺寸的图像中,表示指定颜色的像素点的数量与表示白色类的像素点的比值,所述指定颜色为所述待识别图像中的文档的头部标题的颜色;
当所述比值在设定范围内时,确定所述待识别图像满足所述指定类型文档文件的颜色特征;
当所述比值未在设定范围内时,确定所述待识别图像不满足所述指定类型文档文件的颜色特征。
可选地,文档文件检测装置100还可以包括提示单元,用于当所述第二检测结果表示所述待识别图像是指定类型文档文件时,发出报警提示。
在本实施例中,处理模块11可以是一种集成电路芯片,具有信号的处理能力。上述处理模块11可以是通用处理器。例如,该处理器可以是中央处理器(Central ProcessingUnit,CPU)、图形处理器(Graphics Processing Unit,GPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块12可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块12可以用于存储待识别图像、深度学习模型、特征检测模型等。当然,存储模块12还可以用于存储程序,处理模块11在接收到执行指令后,执行该程序。
通信模块用于通过网络建立电子设备10与其他设备(例如用户终端)的通信连接,并通过网络收发数据。
可以理解的是,图1所示的结构仅为电子设备10的一种结构示意图,电子设备10还可以包括比图1所示更多的组件。图1中所示的各组件可以采用硬件、软件或其组合实现。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备10、文档文件检测装置100的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的文档文件检测方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
综上所述,本申请提供一种文档文件检测方法、装置、电子设备及可读存储介质。方法包括:获取待识别图像;将待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;当第一检测结果表示待识别图像满足指定类型文档文件的颜色特征时,将待识别图像输入经过训练的深度学习模型,得到深度学习模型对待识别图像进行识别的第二检测结果,第二检测结果包括表示待识别图像是指定类型文档文件的结果,或者表示待识别图像不是指定类型文档文件的结果。在本方案中,特征检测模型可以对待识别图像的颜色特征进行检测,以判断待识别图像的颜色特征是否满足指定类型文档文件的颜色特征,从而能够对待识别图像进行初步检测与判断。然后,在待识别图像的颜色特征满足指定类型文档文件的颜色特征后,由经过训练的深度学习模型对待识别图像进行检测,从而确定待识别图像的检测结果。基于此,通过特征检测模型与深度学习模型进行结合,能够提高检测的效率与准确性,降低检测误差。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文档文件检测方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;
当所述第一检测结果表示所述待识别图像满足所述指定类型文档文件的颜色特征时,将所述待识别图像输入经过训练的深度学习模型,得到所述深度学习模型对所述待识别图像进行识别的第二检测结果,所述第二检测结果包括表示所述待识别图像是所述指定类型文档文件的结果,或者表示所述待识别图像不是所述指定类型文档文件的结果。
2.根据权利要求1所述的方法,其特征在于,在获取待识别图像之前,所述方法包括:
获取多个图像素材;
从所述多个图像素材中确定第一类图像集及第二类图像集,所述第一类图像集包括多个第一类图像,且设置有表示所述第一类图像为所述指定类型文档文件的第一标签,所述第二类图像集包括多个第二类图像,且设置有表示所述第二类图像为非所述指定类型文档文件的第二标签;
通过所述第一类图像集及所述第二类图像集,对深度学习模型进行训练,得到经过训练的用于识别图像是否为所述指定类型文档文件的深度学习模型。
3.根据权利要求2所述的方法,其特征在于,从获取的多个图像素材中确定第一类图像集及第二类图像集,包括:
通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材;
从去重后的图像素材中,确定所述第一类图像集及所述第二类图像集。
4.根据权利要求3所述的方法,其特征在于,通过图像去重算法,对所述多个图像素材进行去重处理,得到去重后的图像素材,包括:
通过图像去重算法计算所述多个图像素材中每个图像的信息摘要;
当存在信息摘要相同的两个或多个图像时,对所述两个或多个图像进行去重,得到所述去重后的图像素材。
5.根据权利要求1所述的方法,其特征在于,将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果,包括:
将所述待识别图像输入所述指定类型文档文件的特征检测模型,通过所述指定类型文档文件的特征检测模型将所述待识别图像转换为指定尺寸的图像;
通过所述指定类型文档文件的特征检测模型确定所述指定尺寸的图像中,表示指定颜色的像素点的数量与表示白色类的像素点的比值,所述指定颜色为所述待识别图像中的文档的头部标题的颜色;
当所述比值在设定范围内时,确定所述待识别图像满足所述指定类型文档文件的颜色特征;
当所述比值未在设定范围内时,确定所述待识别图像不满足所述指定类型文档文件的颜色特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第二检测结果表示所述待识别图像是指定类型文档文件时,发出报警提示。
7.根据权利要求1所述的方法,其特征在于,所述深度学习模型包括设置有全连接层及Dropout层的NASNET模型。
8.一种文档文件检测装置,其特征在于,所述装置包括:
获取单元,用于获取待识别图像;
第一检测单元,用于将所述待识别图像输入指定类型文档文件的特征检测模型,得到第一检测结果;
第二检测单元,用于当所述第一检测结果表示所述待识别图像满足所述指定类型文档文件的颜色特征时,将所述待识别图像输入经过训练的深度学习模型,得到所述深度学习模型对所述待识别图像进行识别的第二检测结果,所述第二检测结果包括表示所述待识别图像是所述指定类型文档文件的结果,或者表示所述待识别图像不是所述指定类型文档文件的结果。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的存储器、处理器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-7所述的文档文件检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-7所述的文档文件检测方法。
CN202010998537.7A 2020-09-21 2020-09-21 文档文件检测方法、装置、电子设备及可读存储介质 Pending CN112132008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010998537.7A CN112132008A (zh) 2020-09-21 2020-09-21 文档文件检测方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010998537.7A CN112132008A (zh) 2020-09-21 2020-09-21 文档文件检测方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112132008A true CN112132008A (zh) 2020-12-25

Family

ID=73842185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010998537.7A Pending CN112132008A (zh) 2020-09-21 2020-09-21 文档文件检测方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112132008A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766246A (zh) * 2021-04-09 2021-05-07 上海旻浦科技有限公司 基于深度学习的文档标题识别方法、系统、终端及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766246A (zh) * 2021-04-09 2021-05-07 上海旻浦科技有限公司 基于深度学习的文档标题识别方法、系统、终端及介质

Similar Documents

Publication Publication Date Title
US7925082B2 (en) Information processing apparatus, information processing method, computer readable medium, and computer data signal
US8009908B2 (en) Area testing method for image processing
US7133559B2 (en) Image processing device, image processing method, image processing program, and computer readable recording medium on which image processing program is recorded
US7936897B2 (en) Image forming apparatus
CN108764352B (zh) 重复页面内容检测方法和装置
JP2003228712A (ja) イメージからテキスト状のピクセルを識別する方法
US20150010233A1 (en) Method Of Improving Contrast For Text Extraction And Recognition Applications
US11935314B2 (en) Apparatus for generating a binary image into a white pixel, storage medium, and method
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
JP4423333B2 (ja) 背景領域特定方法、背景領域特定システム、背景色決定方法、制御プログラム、および、記録媒体
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
CN112132008A (zh) 文档文件检测方法、装置、电子设备及可读存储介质
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
US8977044B2 (en) Image processing apparatus for area separation of images, image processing method, and computer readable medium
US8284459B2 (en) Image processing apparatus and image processing method
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
EP2166467B1 (en) Information processing apparatus, control method thereof, computer program, and storage medium
CN115393748A (zh) 一种基于Logo识别的侵权商标检测方法
JP4710672B2 (ja) 文字色判別装置、文字色判別方法、およびコンピュータプログラム
JP2003087562A (ja) 画像処理装置および画像処理方法
US7995869B2 (en) Information processing apparatus, information processing method, and information storing medium
CN110674091A (zh) 基于人工智能的文件上传方法、系统及存储介质
JP2014206836A (ja) バーコード位置検出装置
CN113034337B (zh) 图像检测方法及相关装置
CN116600105B (zh) 一种视频素材的色彩标签提取方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination