CN115909449A - 文件处理方法、装置、电子设备、存储介质及程序产品 - Google Patents

文件处理方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN115909449A
CN115909449A CN202211427100.3A CN202211427100A CN115909449A CN 115909449 A CN115909449 A CN 115909449A CN 202211427100 A CN202211427100 A CN 202211427100A CN 115909449 A CN115909449 A CN 115909449A
Authority
CN
China
Prior art keywords
processed
file
image
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211427100.3A
Other languages
English (en)
Inventor
孙立绕
于晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Taoyoutianxia Technology Co ltd
Original Assignee
Beijing Taoyoutianxia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Taoyoutianxia Technology Co ltd filed Critical Beijing Taoyoutianxia Technology Co ltd
Priority to CN202211427100.3A priority Critical patent/CN115909449A/zh
Publication of CN115909449A publication Critical patent/CN115909449A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本申请实施例提供了一种文件处理方法、装置、电子设备、存储介质及程序产品,涉及文件处理领域。该方法包括:从指定格式的待处理文件中获取待处理图像;对待处理图像进行人脸轮廓识别和文字识别,确定待处理图像中需要进行模糊化处理的敏感信息;确定敏感信息所在的目标区域;对目标区域进行模糊化处理,得到处理后的目标图片。本申请提供的文件处理方法从待处理文件中获取图像,通过人脸轮廓识别和文字识别,较为准确地确定敏感信息以及所在区域,对敏感信息进行模糊化处理,提高了文件模糊化处理的精确度。

Description

文件处理方法、装置、电子设备、存储介质及程序产品
技术领域
本申请涉及文件处理领域,具体而言,本申请涉及一种文件处理方法、装置、电子设备、存储介质及计算机程序产品。
背景技术
随着电子文件在日常生活中的应用越来越多,对文件中的敏感信息进行处理的需求日益增加,在某些场景下,文件中的某些信息特定信息需要进行模糊化。
目前对于文件的敏感信息进行处理的过程中,通常存在模糊化处理的区域不够准确的问题,导致遗漏一些敏感信息没有模糊化处理,或者一些不应该模糊化处理的信息被模糊化了。
发明内容
本申请实施例旨在解决文件处理过程中无法准确识别出敏感信息,模糊化处理的精确率不高的问题。所述技术方案如下:
第一方面,本申请提供了一种文件处理方法,包括:
从指定格式的待处理文件中获取待处理图像;
对所述待处理图像进行人脸轮廓识别和文字识别,确定所述待处理图像中需要进行模糊化处理的敏感信息;
确定所述敏感信息所在的目标区域;
对所述目标区域进行模糊化处理,得到处理后的目标图片。
在第一方面的可选实施例中,所述从指定格式的待处理文件中获取待处理图像,包括:
获取初始文件,将所述初始文件转化为所述指定格式的待处理文件;
将所述待处理文件切分为至少一个待处理图像;
所述方法还包括:
将所述至少一个待处理图像分别对应的目标图像合并,得到处理后的目标文件。
在第一方面的可选实施例中,所述将所述待处理文件切分为至少一个待处理图像,包括:
根据所述待处理文件的页码对所述待处理文件进行切分,获得至少一个待处理图像。
在第一方面的可选实施例中,所述将所述待处理文件切分为至少一个待处理图像,包括:
获取所述初始文件中的区域划分信息;
基于所述区域划分信息对所述待处理文件进行切分,得到至少一个待处理图像。
在第一方面的可选实施例中,所述敏感信息包括敏感文字信息;
所述确定所述待处理图像中需要进行模糊化处理的敏感信息,包括:
将识别出来的文字信息与预设敏感文字进行匹配,将与所述预设敏感文字相匹配的目标文字信息作为所确定的所述敏感文字信息;
或,将识别出来的文字信息与预设规则表达式进行匹配,将与所述预设规则表达式相匹配的目标文字信息作为所确定的所述敏感文字信息。
在第一方面的可选实施例中,所述对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
基于预设颜色对所述目标区域进行颜色填充,得到处理后的目标图片。
在第一方面的可选实施例中,所述对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
获取用于覆盖所述目标区域的预设形状的模糊化图像;
调整所述模糊化图像的尺寸,以使所述模糊化图像完全覆盖所述目标区域且所述模糊化图像的尺寸最小,得到处理后的目标图片。
第二方面,提供了一种文件处理装置,该装置包括:
获取模块,用于从指定格式的待处理文件中获取待处理图像;
识别模块,用于对所述待处理图像进行人脸轮廓识别和文字识别,确定所述待处理图像中需要进行模糊化处理的敏感信息;
确定模块,用于确定所述敏感信息所在的目标区域;
处理模块,用于对所述目标区域进行模糊化处理,得到处理后的目标图片。
第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述的文件处理方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的文件处理方法的步骤。
第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的文件处理方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
本申请提供的文件处理方法,通过对待处理文件中的待处理图像进行人脸轮廓识别和文字识别,确定待处理图像中需要进行模糊化处理的敏感信息,从而确定敏感信息所在的目标区域,可以精确的对目标区域进行模糊化处理,提高模糊化处理的准确度。
此外,将待处理文件转化成指定格式,可以避免一些格式不能够准确进行识别而导致不能准确的进行模糊化处理,从而进一步提高图像处理的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文件处理方法的应用场景示意图;
图2为本申请实施例提供的一种文件处理方法的流程示意图;
图3为本申请实施例提供的一种文件处理方法的一种示例的流程示意图;
图4为本申请实施例提供的一种文件处理方法的一种前期准备环境的示例的示意图。
图5为本申请实施例提供的一种文件处理装置的结构示意图;
图6为本申请实施例提供的一种文件处理方法适用的电子设备的结构示意图
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作和组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目前的文件模糊化处理方案是对文件中的敏感信息直接进行识别与模糊化处理,文件内容解析不完全,模糊化处理时可能会有遗漏或者误认,也可能会对非敏感信息进行处理,因此对于文件的模糊化处理准确率不高,效率较低。
本申请提供的文件处理方法、装置、电子设备、存储介质及程序产品,旨在解决现有技术的如上技术问题。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1为本申请实施例提供的文件处理方法的应用场景示意图,其中,应用环境可以包括用于进行文件处理的终端。具体的,终端对文件101进行处理,得到文件102。其中,文件101是指定格式的待处理文件,文件102是处理后的目标图片。终端从指定格式的待处理文件101中获取待处理图像,对待处理图像进行人脸轮廓识别和文字识别,确定需要进行模糊化处理的敏感信息和所在的目标区域,对目标区域进行模糊化处理,得到处理后的目标图片,将处理后的目标图片进行合并,获得目标文件102。
上述的应用场景只是一个示例,并不对本申请文件处理方法的应用场景进行限制。在其他应用场景中,可以是服务器对待处理文件进行处理。
本技术领域技术人员可以理解,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。
终端(也可以称为用户终端或用户设备)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例的文件处理方法,可以应用于服务器,也可以应用于终端。
在一些可能的实施方式中,本申请实施例提供了一种文件处理方法,以应用于终端为例,如图2所示,可以包括如下步骤:
S201,从指定格式的待处理文件中获取待处理图像。
其中,指定格式的待处理文件可以为:PDF(Portable Document Format,便携文档格式)文件、文档文件和PPT(PowerPoint,演示文稿)文件等文件。
其中,待处理文件的内容可以包括:重要业务文件、申请表文件、简历文件和个人信息文件等需要进行模糊化处理的文件。
具体的,终端可以将待处理文件进行裁剪、分割,得到至少一个待处理图像,或者从待处理文件中提取至少一个待处理图像。例如,待处理文件是PDF文件,文件中因为本来的排版问题留有大量空白,则从待处理文件划分出待处理图像的时候可以使用截图的方式,获取大量空白中若干文字和图像;若待处理文件本来就是由若干张图片组成的,则只需要从该待处理文件中提取出待处理图像。
S202,对所述待处理图像进行人脸轮廓识别和文字识别,确定所述待处理图像中需要进行模糊化处理的敏感信息。
其中,所述敏感信息可以包括:敏感文字信息、敏感图像信息和敏感符号信息等等。
例如,敏感文字信息可以包括用户的隐私信息,例如,当在招聘场景中,敏感文字信息可以为用户简历中的身份证号、住址和手机号等个人隐私信息。
在具体实施过程中,在待处理图像中识别每一张待处理图像中是否存在人脸轮廓,若是存在人脸轮廓,该人脸轮廓即为敏感信息。例如,在招聘场景中,简历文件中可能会有用户的照片,当识别到照片上的人脸轮廓的时候,就把该人脸轮廓认为是敏感信息。
针对敏感信息中的文字信息,可以预先设置敏感文字,将待处理图像中识别出的文字信息跟预先设置的敏感文字匹配,若相似度大于或等于预设阈值,则可以判定识别出的进行匹配的文字为敏感信息。识别每一张待处理图像的文字信息,与预设的敏感信息文字进行匹配,匹配上的文字即为敏感信息。例如,设置相似度阈值为百分之五十,当识别出的文字信息与预设的敏感文字信息相比,相似的字数占所有字数的百分之五十或者以上,就认定该识别出的文字为敏感文字,该敏感文字即为敏感信息。
在具体实施过程中,若指定格式的待处理文件为PDF文件,则可以使用PDFMiner(PDF解析器)进行文字的提取,可以获取某一页中文本的准确位置和一些诸如字体、行数的信息。
在具体实施过程中,对待处理图像进行文字识别可以包括:通过采用OCR(opticalcharacter recognition,光学字符识别)的技术进行图片中的文字提取,使用若干台GPU(graphics processing unit,图形处理器)进行资源部署,从而进行并发的图片文字提取。其中,上述GPU的数量可以是提前设置好的,也可以是根据实际的图片文字提取数量进行调整的,例如,当图片文字提取的任务为一千个,可以使用一台图形处理器,当任务量达到一万个,可以使用两台图形处理器。
S203,确定所述敏感信息所在的目标区域。
其中,目标区域可以包括敏感信息的位置信息和坐标信息等。
具体的,当在待处理图像中已经识别到人脸轮廓,则该人脸轮廓的位置认为是敏感信息所在位置,所在位置即为目标区域的位置,可以根据人像的形状和尺寸确定目标区域的形状和尺寸。
以敏感信息为文字信息为例,若识别到敏感文字,则可以根据文字排版中行的属性数据,确定目标区域,例如根据文字的字号大小、文字的行间距、字与字之间的距离等,确定目标区域。
S204,对所述目标区域进行模糊化处理,得到处理后的目标图片。
具体的,根据目标区域的形状和尺寸,创建相同形状和尺寸的区域框,可以使用填充颜色工具将该区域框都变成预设的颜色,也可以使用画笔工具,在该区域框中进行涂画直至该区域框完全被图画的痕迹填满。例如,可以使用黑色的画笔工具进行不规则的涂抹,直至上述区域框完全被黑色填满,就完成了该目标区域的模糊化处理。
具体的,根据确定的目标区域的形状和大小,创建一张一模一样的覆盖图片,对该覆盖图片进行调整并贴在目标区域上进行覆盖;其中,该图片中可以是规则纹路的图片,不规则颜色的图片或是预设的固定照片等等;例如,在待处理图片中,该目标区域的其他地方的底色是规则的格子图案,则使用同样规则图案的覆盖图片对目标区域进行模糊化处理。
在具体实施过程中,可以使用PIL库(Python Imaging Library,图像处理库)进行模糊化处理,经过重新绘制,获得目标图片。
上述实施例中,通过对待处理文件中的待处理图像进行人脸轮廓识别和文字识别,确定待处理图像中需要进行模糊化处理的敏感信息,从而确定敏感信息所在的目标区域,可以精确的对目标区域进行模糊化处理,提高模糊化处理的准确度。
此外,将待处理文件转化成指定格式,可以避免一些格式不能够准确进行识别而导致不能准确的进行模糊化处理,从而进一步提高图像处理的精度。
在一些可能的实施方式中,上述步骤S201的从指定格式的待处理文件中获取待处理图像,包括:
(1)获取初始文件,将所述初始文件转化为所述指定格式的待处理文件;
(2)将所述待处理文件切分为至少一个待处理图像;
所述方法还包括:
(3)将所述至少一个待处理图像分别对应的目标图像合并,得到处理后的目标文件。
其中,初始文件可以包括:内容为个人信息、重要信息和包含有其他需要模糊化处理的信息的文件;初始文件的类型可以包括:文档文件、图像文件、便携式文档文件和演示文档文件等;指定格式的待处理文件可以为便携式文档文件、文档文件和图片文件等等需要进行模糊化处理的文件;例如,在招聘场景下,初始文件可以为word文本文档类型的简历信息文件,指定格式可以为PDF文件格式。
具体的,将待处理文件切分为至少一个待处理图像包括:根据待处理文件的页码信息将待处理文件按页码切分,一个页码就是一个待处理图像,或,将待处理文件按文本框和图像框进行切分,将文本框的内容划分为待处理图像,将图像框也划分为待处理图像。
具体的,在完成待处理图像的模糊化处理之后,将至少一个待处理图像进行合并,获取模糊化处理后的目标文件;可以直接将处理过后的目标图像例如,当对待处理文件进行切分时的依据是页码,则根据页码将处理后的目标图像合并获得目标文件;当对待处理文件进行切分时的依据是区域划分信息,则根据区域划分信息将处理后的目标图像合并获得目标文件。
在一些可能的实施方式中,上述步骤(2)中将所述待处理文件切分为至少一个待处理图像,包括:
A1,根据所述待处理文件的页码对所述待处理文件进行切分,获得至少一个待处理图像。
具体的,当待处理文件是一页时,则可以不用对该待处理文件进行切分,直接获得一个待处理图像;当待处理文件是两页及以上时,则对该待处理文件按照页码进行切分,获取至少一个待处理图像。
具体的,根据待处理文件的页码进行切分,可以是根据预设的划分页码数量进行图像的划分;例如,可以是一个页码为一个待处理图像,在一些不可分割的情况下也可以是将几个页码作为一个待处理图像。
在一些可能的实施方式中,上述步骤(2)中将所述待处理文件切分为至少一个待处理图像,包括:
B1,获取所述初始文件中的区域划分信息;
B2,基于所述区域划分信息对所述待处理文件进行切分,得到至少一个待处理图像。
其中,区域划分信息与初始文件的指定格式和文件内容有关。区域划分信息可以包括:文本框、图像框、分割线和标题等。
具体的,区域划分信息可以包括文字区域和图像区域,经过区域切分后得到的至少一个待处理图像可以是:只包含文字、只包含图像和包含文字与图像的图像。
在具体实施过程中,当待处理文件为word文本文档格式,可以根据表格标识、图片标识和标题信息来切分出待处理图像,例如,一个标题下的内容可以划分为一个区域;或,当待处理文件为PPT演示文档格式,可以根据文本框、图片框和分割线等区域划分工具来切分出待处理图像,例如,一个文本框可以划分为一个区域。
在一些可能的实施方式中,敏感信息包括敏感文字信息,上述步骤S202中的确定所述待处理图像中需要进行模糊化处理的敏感信息,包括:
(1)将识别出来的文字信息与预设敏感文字进行匹配,将与所述预设敏感文字相匹配的目标文字信息作为所确定的所述敏感文字信息;
或,
(2)将识别出来的文字信息与预设规则表达式进行匹配,将与所述预设规则表达式相匹配的目标文字信息作为所确定的所述敏感文字信息。
具体的,在识别出的文字信息中寻找与预设敏感文字相匹配的文字信息,将识别出的文字信息中能够匹配的目标文字信息作为敏感文字信息;例如,设置姓名为敏感文字,在识别出的文字信息中寻找提到姓名的文字信息作为敏感文字信息。
其中,预设规则表达式可以为正则表达式。
具体的,可以根据正则表达式在识别出的文字信息中寻找能够匹配的文字信息,若是存在能够匹配的目标文字信息,则作为敏感文字信息;例如,正则表达式设置前三个字符是数字,后三个字符是字母的字符串为敏感信息,若在识别出的文字信息中匹配到符合该正则表达式的目标文字信息,作为敏感文字信息。
在一些可能的实施方式中,上述步骤S204中对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
(1)基于预设颜色对所述目标区域进行颜色填充,得到处理后的目标图片。
其中,颜色填充可以包括预设形状的颜色填充和区域颜色填充。
具体的,颜色填充可以包括:根据预设颜色直接使用颜色填充目标区域;或,根据目标区域的尺寸,获得合适尺寸的预设形状的色块,使用有颜色的画笔工具填充目标区域。
在具体实施过程中,还可以对填充区域的颜色进行对比度或者明度等等属性的设置。
在一些可能的实施方式中,上述步骤S204中对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
(1)获取用于覆盖所述目标区域的预设形状的模糊化图像;
(2)调整所述模糊化图像的尺寸,以使所述模糊化图像完全覆盖所述目标区域且所述模糊化图像的尺寸最小,得到处理后的目标图片。
其中,预设形状可以包括正方形、圆形等常见形状和不规则形状。模糊化图像可以是不含敏感信息的图像。
具体的,当预设形状的模糊化图像的尺寸与目标区域的尺寸不匹配,则根据目标区域调整模糊化图像的尺寸,使得该模糊化图像能够完全覆盖目标区域而且该图像的尺寸最小,使得目标区域外的文字或者图像信息不被覆盖,之后用调整过后的模糊化图像对目标区域进行覆盖。
在具体实施过程中,上述对目标区域进行颜色填充和使用预设形状的模糊化图像进行覆盖可以合并使用。
上述实施例中,通过对待处理文件中的待处理图像进行人脸轮廓识别和文字识别,确定待处理图像中需要进行模糊化处理的敏感信息,从而确定敏感信息所在的目标区域,可以精确的对目标区域进行模糊化处理,提高模糊化处理的准确度。
此外,将待处理文件转化成指定格式,可以避免一些格式不能够准确进行识别而导致不能准确的进行模糊化处理,从而进一步提高图像处理的精度。
为更清楚地理解本申请实施例描述的文件处理方法,以下将结合示例进行进一步详细阐述。
在一个示例中,本申请的文件处理方法如图3所示,包括:
获取不同类型的初始文件(即图中所示的输入不同类型的文件),将所述初始文件转化为所述指定格式的待处理文件,此示例制定格式为PDF格式(即图中所示的统一转成PDF文件);按文件页码将所述待处理文件切分,并获得至少一个待处理图像(即图中所示的PDF每页都转成图片);对所有待处理图像都进行人脸轮廓识别和文字识别(即图中所示的人脸识别和OCR图片文字提取,并返回相应的文本及标签),确定每一张待处理图像中需要进行模糊化处理的敏感信息(即图中所示的敏感信息匹配);根据敏感信息的所在位置和坐标确定所述敏感信息所在的目标区域;对所述目标区域进行模糊化处理(即图中所示的捕获的坐标区域打码(打马赛克)),得到处理后的目标图片;将至少一个待处理图像分别对应的处理过后的目标图像合并,得到处理后的目标文件,此处的目标文件格式预设为PDF格式(即将所有的图片合成一份新的PDF文件进行输出)。
上述过程通过将不同类型的文件都转换成预设的类型的文件,对文件按照页码进行切分获得至少一张图像,再对所有的图像进行人脸的识别和文字的提取并由此确定图像中的敏感信息,根据敏感信息所在的区域选择使用打马赛克的方式来进行模糊化处理,最后再把所有经过模糊化处理过的图片进行合并,得到所需要的预设类型的图片。
通过对待处理文件中的待处理图像进行人脸轮廓识别和文字识别,确定待处理图像中需要进行模糊化处理的敏感信息,从而确定敏感信息所在的目标区域,可以精确的对目标区域进行模糊化处理,提高模糊化处理的准确度。
此外,将待处理文件转化成指定格式,可以避免一些格式不能够准确进行识别而导致不能准确的进行模糊化处理,从而进一步提高图像处理的精度。
为更清楚地理解本申请实施例描述的文件处理方法,以下将结合示例阐述本申请的前期准备环境。
在一个示例中,本申请的文件处理方法如图4所示,采用Docker(应用容器引擎)容器作为环境架构,包括:
定制libreoffice(办公套件衍生版)库Docker镜像(即副本),用于将待处理文件转换成指定格式的待处理文件。
将OCR的Docker环境部署在若干图形处理器GPU上,采用OCR技术,进行并发的图片文字提取。
定制OpenCV(跨平台计算机视觉库)的镜像,用于待处理图片中的人脸轮廓的识别。
将人脸识别OpenCV的环境、若干文字识别GPU以及libreoffice的Docker,一同部署在Docker环境中。
具体的,在进行图片文字提取时,可以使用Paddle Ocr(深度学习平台)的镜像,修改相应的代码兼容环境,能够快速部署启动多台Docker容器,快速扩容上线。
上述环境采用Docker(应用容器引擎)容器部署,能够快速部署并启动libreoffice的Docker容器,快速扩容和上线,也能够快速对系统进行拓展,满足对未来的扩容需求,在此环境的基础上,使用上述文件处理方法可以克服文件处理时无法准确识别出敏感信息,模糊化处理的精确率不高的问题,提高文件模糊化处理的精确度。
本申请实施例提供了一种文件处理装置,如图5所示,该装置50可以包括:获取模块501、识别模块502,确定模块503和处理模块504,其中,
获取模块501,用于从指定格式的待处理文件中获取待处理图像;
识别模块502,用于对所述待处理图像进行人脸轮廓识别和文字识别,确定所述待处理图像中需要进行模糊化处理的敏感信息;
确定模块503,用于确定所述敏感信息所在的目标区域;
处理模块504,用于对所述目标区域进行模糊化处理,得到处理后的目标图片。
在一些可能的实施方式中,获取模块501还用于,从指定格式的待处理文件中获取待处理图像,包括:
获取初始文件,将所述初始文件转化为所述指定格式的待处理文件;
将所述待处理文件切分为至少一个待处理图像;
所述方法还包括:
将所述至少一个待处理图像分别对应的目标图像合并,得到处理后的目标文件。
在一些可能的实施方式中,获取模块501还用于,将所述待处理文件切分为至少一个待处理图像,包括:
根据所述待处理文件的页码对所述待处理文件进行切分,获得至少一个待处理图像。
在一些可能的实施方式中,获取模块501还用于,将所述待处理文件切分为至少一个待处理图像,包括:
获取所述初始文件中的区域划分信息;
基于所述区域划分信息对所述待处理文件进行切分,得到至少一个待处理图像。
在一些可能的实施方式中,敏感信息包括敏感文字信息,识别模块502还用于,确定所述待处理图像中需要进行模糊化处理的敏感信息,包括:
将识别出来的文字信息与预设敏感文字进行匹配,将与所述预设敏感文字相匹配的目标文字信息作为所确定的所述敏感文字信息;
或,将识别出来的文字信息与预设规则表达式进行匹配,将与所述预设规则表达式相匹配的目标文字信息作为所确定的所述敏感文字信息。
在一些可能的实施方式中,处理模块504还用于,对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
基于预设颜色对所述目标区域进行颜色填充,得到处理后的目标图片。
在一些可能的实施方式中,处理模块504还用于,对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
获取用于覆盖所述目标区域的预设形状的模糊化图像;
调整所述模糊化图像的尺寸,以使所述模糊化图像完全覆盖所述目标区域且所述模糊化图像的尺寸最小,得到处理后的目标图片。
本申请提供的文件处理装置中,通过对待处理文件中的待处理图像进行人脸轮廓识别和文字识别,确定待处理图像中需要进行模糊化处理的敏感信息,从而确定敏感信息所在的目标区域,可以精确的对目标区域进行模糊化处理,提高模糊化处理的准确度。
此外,将待处理文件转化成指定格式,可以避免一些格式不能够准确进行识别而导致不能准确的进行模糊化处理,从而进一步提高图像处理的精度。
本申请实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现文件处理方法的步骤,与相关技术相比可实现:准确地对敏感信息进行模糊化处理,有效提高文件模糊化处理的精确度。
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备6000包括:处理器6001和存储器6003。其中,处理器6001和存储器6003相连,如通过总线6002相连。可选地,电子设备6000还可以包括收发器6004,收发器6004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器6004不限于一个,该电子设备6000的结构并不构成对本申请实施例的限定。
处理器6001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器6001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线6002可包括一通路,在上述组件之间传送信息。总线6002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器6003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器6003用于存储执行本申请实施例的计算机程序,并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:手机和电脑等支持上述文件处理方法的设备。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (11)

1.一种文件处理方法,其特征在于,包括:
从指定格式的待处理文件中获取待处理图像;
对所述待处理图像进行人脸轮廓识别和文字识别,确定所述待处理图像中需要进行模糊化处理的敏感信息;
确定所述敏感信息所在的目标区域;
对所述目标区域进行模糊化处理,得到处理后的目标图片。
2.根据权利要求1所述的文件处理方法,其特征在于,所述从指定格式的待处理文件中获取待处理图像,包括:
获取初始文件,将所述初始文件转化为所述指定格式的待处理文件;
将所述待处理文件切分为至少一个待处理图像;
所述方法还包括:
将所述至少一个待处理图像分别对应的目标图像合并,得到处理后的目标文件。
3.根据权利要求2所述的文件处理方法,其特征在于,所述将所述待处理文件切分为至少一个待处理图像,包括:
根据所述待处理文件的页码对所述待处理文件进行切分,获得至少一个待处理图像。
4.根据权利要求2所述的文件处理方法,其特征在于,所述将所述待处理文件切分为至少一个待处理图像,包括:
获取所述初始文件中的区域划分信息;
基于所述区域划分信息对所述待处理文件进行切分,得到至少一个待处理图像。
5.根据权利要求1所述的文件处理方法,其特征在于,所述敏感信息包括敏感文字信息;
所述确定所述待处理图像中需要进行模糊化处理的敏感信息,包括:
将识别出来的文字信息与预设敏感文字进行匹配,将与所述预设敏感文字相匹配的目标文字信息作为所确定的所述敏感文字信息;
或,将识别出来的文字信息与预设规则表达式进行匹配,将与所述预设规则表达式相匹配的目标文字信息作为所确定的所述敏感文字信息。
6.根据权利要求1所述的文件处理方法,其特征在于,所述对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
基于预设颜色对所述目标区域进行颜色填充,得到处理后的目标图片。
7.根据权利要求1所述的文件处理方法,其特征在于,所述对所述目标区域进行模糊化处理,得到处理后的目标图片,包括:
获取用于覆盖所述目标区域的预设形状的模糊化图像;
调整所述模糊化图像的尺寸,以使所述模糊化图像完全覆盖所述目标区域且所述模糊化图像的尺寸最小,得到处理后的目标图片。
8.一种文件处理装置,其特征在于,包括:
获取模块,用于获取待处理图像;
识别模块,用于对所述待处理图像进行人脸轮廓识别和文字识别,确定所述待处理图像中需要进行模糊化处理的敏感信息;
确定模块,用于确定所述敏感信息所在的目标区域;
处理模块,用于对所述目标区域进行模糊化处理,得到处理后的目标图片。
9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文件处理方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202211427100.3A 2022-11-14 2022-11-14 文件处理方法、装置、电子设备、存储介质及程序产品 Pending CN115909449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211427100.3A CN115909449A (zh) 2022-11-14 2022-11-14 文件处理方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211427100.3A CN115909449A (zh) 2022-11-14 2022-11-14 文件处理方法、装置、电子设备、存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN115909449A true CN115909449A (zh) 2023-04-04

Family

ID=86480849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211427100.3A Pending CN115909449A (zh) 2022-11-14 2022-11-14 文件处理方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN115909449A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116798099A (zh) * 2023-07-07 2023-09-22 广州广旭科技有限公司 一种劳务人员身份智能识别、管理方法以及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116798099A (zh) * 2023-07-07 2023-09-22 广州广旭科技有限公司 一种劳务人员身份智能识别、管理方法以及系统
CN116798099B (zh) * 2023-07-07 2024-01-12 广州广旭科技有限公司 一种劳务人员身份智能识别、管理方法以及系统

Similar Documents

Publication Publication Date Title
US8634644B2 (en) System and method for identifying pictures in documents
CN108229470B (zh) 文字图像处理方法、装置、设备及存储介质
US8892990B2 (en) Automatic creation of a table and query tools
EP3200091A1 (en) Apparatus and method for handling bulleted lists
CN110942061A (zh) 文字识别方法、装置、设备和计算机可读介质
EP3881234A1 (en) Automatically predicting text in images
KR20150091948A (ko) 폰트를 인식하고 폰트정보를 제공하는 시스템 및 그 방법
CN113033269A (zh) 一种数据处理方法及装置
CN115909449A (zh) 文件处理方法、装置、电子设备、存储介质及程序产品
CN110209759B (zh) 自动识别书页的方法及装置
CN106611148B (zh) 基于图像的离线公式识别方法和装置
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN113591827A (zh) 文本图像的处理方法、装置、电子设备及可读存储介质
CN115376137B (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
US20220301285A1 (en) Processing picture-text data
CN107943760B (zh) Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN115034177A (zh) 演示文稿转换方法、装置、设备及存储介质
CN115270711A (zh) 电子签名方法、电子签名装置、电子设备、存储介质
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN114339208A (zh) 视频测试方法、装置、电子设备及计算机存储介质
CN114758340A (zh) 物流地址智能识别方法、装置、设备及存储介质
CN113343663A (zh) 一种票据结构化方法及装置
CN113627124A (zh) 一种针对字体迁移模型的处理方法、装置、电子设备
CN111950542A (zh) 基于ocr识别算法的学习扫描笔
CN113536169B (zh) 一种网页的文字排版方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination