CN111291410B - 电子文档的脱敏处理方法及其装置 - Google Patents

电子文档的脱敏处理方法及其装置 Download PDF

Info

Publication number
CN111291410B
CN111291410B CN202010090547.0A CN202010090547A CN111291410B CN 111291410 B CN111291410 B CN 111291410B CN 202010090547 A CN202010090547 A CN 202010090547A CN 111291410 B CN111291410 B CN 111291410B
Authority
CN
China
Prior art keywords
information
electronic document
electronic
desensitization
desensitization processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010090547.0A
Other languages
English (en)
Other versions
CN111291410A (zh
Inventor
杨潇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010090547.0A priority Critical patent/CN111291410B/zh
Publication of CN111291410A publication Critical patent/CN111291410A/zh
Application granted granted Critical
Publication of CN111291410B publication Critical patent/CN111291410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本说明书公开了一种电子文档的脱敏处理方法及其装置,该方法包括:获取待脱敏处理的电子文档,电子文档的页面中具有不同类型的电子信息。将电子文档转化为超文本标记语言文件,超文本标记语言文件中包括不同类型的电子信息,以及电子文档的页面结构信息。对电子信息进行脱敏处理,根据脱敏处理后的电子信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。由此,实现了将电子文档转化为超文本标记语言文件的形式后,对电子文档的页面中具有的电子信息进行脱敏处理,再根据电子文档的页面结构信息,生成脱敏处理后的电子文档,使得脱敏处理后的电子文档中电子信息的位置保持不变,以便于浏览者快速获取所需信息,同时保护了用户隐私。

Description

电子文档的脱敏处理方法及其装置
【技术领域】
本说明书涉及数据处理技术领域,尤其涉及一种电子文档的脱敏处理方法及其装置。
【背景技术】
随着信息化时代的到来,电子信息成为了日常生活和工作中各种信息的主要存储形式,而将不同类型的电子信息封装在一个特殊的整合文件中,就形成了电子文档。
在一些特殊的场景下,电子文档中的电子信息涉及个人隐私,比如在保险业务中,业务人员需要使用调查报告来记录被调查人的相关信息,其中就包括被调查人的身份证正反面照片等隐私信息。为了防止电子文档中的个人隐私信息发生泄露,需要在将电子文档发送给指定浏览者之前,对电子文档进行脱敏处理。因此,亟需一种能够对电子文档进行脱敏处理的技术方案。
【发明内容】
本说明书实施例旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本说明书实施例的第一个目的在于提出一种电子文档的脱敏处理方法,将电子文档转化为超文本标记语言文件的形式后,对电子文档的页面中具有的电子信息进行脱敏处理,再根据电子文档的页面结构信息,生成脱敏处理后的电子文档。
本说明书实施例的第二个目的在于提出一种电子文档的脱敏处理装置。
本说明书实施例的第三个目的在于提出一种计算机设备。
本说明书实施例的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本说明书实施例第一方面实施例提出了一种电子文档的脱敏处理方法,包括:获取待脱敏处理的电子文档;其中,所述电子文档的页面中具有不同类型的电子信息;将所述电子文档转化为超文本标记语言文件;其中,所述超文本标记语言文件中包括所述不同类型的电子信息,以及所述电子文档的页面结构信息;对所述电子信息进行脱敏处理;以及根据脱敏处理后的所述电子信息,和所述电子文档的页面结构信息,生成脱敏处理后的所述电子文档。
和现有技术相比,本说明书实施例将电子文档转化为超文本标记语言文件的形式后,对电子文档的页面中具有的电子信息进行脱敏处理,再根据电子文档的页面结构信息,生成脱敏处理后的电子文档,使得脱敏处理后的电子文档中电子信息的位置保持不变,以便于浏览者快速获取所需信息。
另外,本说明书实施例的电子文档的脱敏处理方法,还具有如下附加的技术特征:
可选地,所述电子信息包括文本信息和图像信息中的至少一种。
可选地,所述对所述电子信息进行脱敏处理,包括:根据所述电子文档的页面结构信息,将预设位置的所述文本信息作为隐私内容;使用预设符号替换所述隐私内容。
可选地,所述对所述电子信息进行脱敏处理,包括:通过图像识别算法检测所述图像信息是否包括隐私信息;根据检测结果,对所述隐私信息进行模糊化处理。
可选地,所述电子文档为保险调查报告,所述电子信息包括姓名,身份信息,家庭住址中的至少一种。
本说明书实施例第二方面实施例提出了一种电子文档的脱敏处理装置,包括:获取模块,用于获取待脱敏处理的电子文档;其中,所述电子文档的页面中具有不同类型的电子信息;转化模块,用于将所述电子文档转化为超文本标记语言文件;其中,所述超文本标记语言文件中包括所述不同类型的电子信息,以及所述电子文档的页面结构信息;处理模块,用于对所述电子信息进行脱敏处理;以及生成模块,用于根据脱敏处理后的所述电子信息,和所述电子文档的页面结构信息,生成脱敏处理后的所述电子文档。
另外,本说明书实施例的电子文档的脱敏处理装置,还具有如下附加的技术特征:
可选地,所述电子信息包括文本信息和图像信息中的至少一种。
可选地,所述处理模块,包括:设置子模块,用于根据所述电子文档的页面结构信息,将预设位置的所述文本信息作为隐私内容;替换子模块,用于使用预设符号替换所述隐私内容。
可选地,所述处理模块,包括:检测子模块,用于通过图像识别算法检测所述图像信息是否包括隐私信息;处理子模块,用于根据检测结果,对所述隐私信息进行模糊化处理。
可选地,电子文档为保险调查报告,所述电子信息包括姓名,身份信息,家庭住址中的至少一种。
本说明书实施例第三方面实施例提出了一种计算机设备,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如前述方法实施例所述的电子文档的脱敏处理方法。
本说明书实施例第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的电子文档的脱敏处理方法。
本说明书实施例附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本说明书实施例的实践了解到。
【附图说明】
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书实施例所提出的一种电子文档的脱敏处理方法的流程示意图;
图2为本说明书实施例所提出的另一种电子文档的脱敏处理方法的流程示意图;
图3为本说明书实施例所提出的又一种电子文档的脱敏处理方法的流程示意图;
图4为本说明书实施例所提出的电子文档的脱敏处理方法的一个示例的流程图;
图5为本说明书实施例所提出的一种电子文档的脱敏处理装置的结构示意图;
图6为本说明书实施例所提出的另一种电子文档的脱敏处理装置的结构示意图;以及
图7为本说明书实施例所提出的又一种电子文档的脱敏处理装置的结构示意图。
【具体实施方式】
下面详细描述本说明书的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本说明书实施例,而不能理解为对本说明书实施例的限制。
下面参考附图描述本说明书实施例的电子文档的脱敏处理方法及其装置。
基于上述现有技术的描述可以知道,电子文档能够将不同类型的电子信息封装在一个特殊的整合文件,比如说PDF(Portable Document Format,便携式文档格式)文件,其中包括文本信息、图像信息、超文本链接、音频信息、视频信息等。
相关技术中,将电子文档转化为文本文档(比如TXT格式的文本文件)的形式,再通过文本匹配的方式从文本文档中确定隐私信息,并对隐私信息进行脱敏处理,将文本文档发送给指定浏览者进行浏览。但是,由于不同的文本文档没有统一的结构,使得浏览者在浏览文本文档时,无法快速获取所需信息,效率低下。
针对这一问题,本说明书实施例提出了一种电子文档的脱敏处理方法,将电子文档转化为超文本标记语言文件的形式后,对电子文档的页面中具有的电子信息进行脱敏处理,再根据电子文档的页面结构信息,生成脱敏处理后的电子文档,使得脱敏处理后的电子文档中电子信息的位置保持不变,以便于浏览者快速获取所需信息。
图1为本说明书实施例所提出的一种电子文档的脱敏处理方法的流程示意图。如图1所示,该方法包括以下步骤:
步骤S101,获取待脱敏处理的电子文档。
其中,电子文档的页面中具有不同类型的电子信息。
步骤S103,将电子文档转化为超文本标记语言文件。
其中,超文本标记语言文件中包括不同类型的电子信息,以及电子文档的页面结构信息。
电子文档的页面结构信息是指不同类型的电子信息在电子文档的页面中的位置信息。
需要说明的是,超文本标记语言文件是通过HTML(Hypertext Marked Language,超文本标记语言)组成的文件,HTML是一种标识性的语言,包括一系列的标签,这些标签能够将不同类型的电子信息整合为一个逻辑整体,HTML命令可以用来说明文字,图形、动画、声音、表格、链接等。
举例来说,将前述的PDF文件转化为超文本标记语言文件后,会生成一个以.html为后缀的文件和一个资源文件夹,资源文件夹中包括不同类型的电子信息对应的文件,比如图像信息对应于一个以.jpg为后缀的文件,还包括一个以.css为后缀的文件,来记录PDF文件的页面结构信息。
步骤S105,对电子信息进行脱敏处理。
可以理解,在步骤S104,将电子文档转化为超文本标记语言文件后,电子文档的页面中具有的不同类型的电子信息转化为不同类型的文件,对电子文档中的电子信息进行脱敏处理,就是对转化后的不同类型的文件进行脱敏处理。
由于文件的类型不同,需要采用不同的脱敏处理方法。
步骤S107,根据脱敏处理后的电子信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。
可以理解,由于电子文档的页面结构信息记录了不同类型的文件对应的电子信息在电子文档中的位置信息,因此在完成脱敏处理后,只需根据电子文档的页面结构信息,对不同类型的电子信息进行排布,即可生成脱敏处理后的电子文档,并且不改变电子文档的页面结构。
综上所述,本说明书实施例所提出的电子文档的脱敏处理方法,获取待脱敏处理的电子文档,电子文档的页面中具有不同类型的电子信息。将电子文档转化为超文本标记语言文件,超文本标记语言文件中包括不同类型的电子信息,以及电子文档的页面结构信息。对电子信息进行脱敏处理,根据脱敏处理后的电子信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。由此,实现了将电子文档转化为超文本标记语言文件的形式后,对电子文档的页面中具有的电子信息进行脱敏处理,再根据电子文档的页面结构信息,生成脱敏处理后的电子文档,使得脱敏处理后的电子文档中电子信息的位置保持不变,以便于浏览者快速获取所需信息。
基于前述说明,可以知道,电子文档的页面中可以具有文本信息、图像信息、超文本链接、音频信息、视频信息等,而其中最为常见的就是文本信息和图像信息,因此需要重点针对文本信息和图像信息进行脱敏处理。基于此,本说明书实施例还提出了另一种电子文档的脱敏处理方法,图2为本说明书实施例所提出的另一种电子文档的脱敏处理方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤S201,获取待脱敏处理的电子文档。
其中,电子文档的页面中具有文本信息和图像信息中的至少一种。
步骤S203,将电子文档转化为超文本标记语言文件。
其中,超文本标记语言文件中包括文本信息和图像信息中的至少一种,以及电子文档的页面结构信息。
步骤S205,根据电子文档的页面结构信息,将预设位置的文本信息作为隐私内容。
需要说明的是,本说明书实施例中的电子文档具有统一的页面结构,即相同的文本信息位于相同的位置。因此,可以根据页面结构,预先在页面中人工选定属于隐私内容的位置,将预设位置的文本信息作为隐私内容。
步骤S207,使用预设符号替换隐私内容。
应当理解,如果直接对隐私内容进行删除,可能会影响整个页面的结构,因此本说明书实施例可以使用预设符号“*”来替换隐私内容,以使整个页面的结构保持不变。
步骤S209,通过图像识别算法检测图像信息是否包括隐私信息。
步骤S211,根据检测结果,对隐私信息进行模糊化处理。
对于图像信息来说,可能存在部分区域属于隐私信息,其他区域属于浏览者所需信息的情况,因此不能对整个图像信息进行模糊化处理。
具体地,可以通过已有的图像识别算法寻找隐私信息,再对隐私信息进行模糊化处理。其中,图像识别算法包括卷积神经网络,长短期记忆网络和CTC损失函数。图像识别算法与本说明书实施例的主要发明构思相关度不大,不做详细说明。
步骤S213,根据脱敏处理后的文本信息和图像信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。
需要说明的是,对前述实施例中步骤S101-步骤S107的解释说明,也适用于本说明书实施例中的步骤S201-步骤S213,此处不再赘述。
从而,实现了对电子文档中的文本信息和图像信息采用不同的脱敏处理方法,来生成脱敏处理后的电子文档。
随着互联网保险业务的发展,保险风控业务中所使用的调查报告中包含了被调查人的隐私信息,为了保护被调查人的隐私,需要对调查报告进行脱敏处理,而调查报告通常是便携式文档格式,即pdf(Portable Document Format)格式的电子文档。因此,本说明书实施例所提出的电子文档的脱敏处理方法也可以用于对前述调查报告的脱敏处理。也是就是说,前述实施例中的电子文档为保险调查报告,前述实施例中的电子信息包括姓名,身份信息,家庭住址中的至少一种。需要特别说明的是,电子信息中的姓名和家庭住址通常是文本形式,属于文本信息,而身份信息通常是指身份证正反面照片,属于图像信息。
为了将本说明书实施例提出的电子文档的脱敏处理方法用于对前述调查报告的脱敏处理,图3为本说明书实施例所提出的又一种电子文档的脱敏处理方法的流程示意图。如图3所示,该方法包括以下步骤:
步骤S301,获取待脱敏处理的保险调查报告。
其中,保险调查报告的页面中具有姓名,身份信息,家庭住址中的至少一种。
步骤S303,将保险调查报告转化为超文本标记语言文件。
其中,超文本标记语言文件中包括姓名,身份信息,家庭住址中的至少一种,以及保险调查报告的页面结构信息。
步骤S305,根据保险调查报告的页面结构信息,将姓名和家庭住址作为隐私内容。
步骤S307,使用预设符号替换隐私内容。
步骤S309,通过图像识别算法检测身份信息是否包括隐私信息。
步骤S311,根据检测结果,对隐私信息进行模糊化处理。
步骤S313,根据脱敏处理后的姓名,身份信息,家庭住址,和电子文档的页面结构信息,生成脱敏处理后的电子文档。
需要说明的是,对前述实施例中步骤S201-步骤S213的解释说明,也适用于本说明书实施例中的步骤S301-步骤S313,此处不再赘述。
从而,实现了将本说明书实施例所提出的电子文档的脱敏处理方法用于保险调查报告的脱敏处理。
为了更加清楚地说明本说明书实施例所提出的一种电子文档的脱敏处理方法,下面进行举例说明。
图4为本说明书实施例所提出的电子文档的脱敏处理方法的一个示例的流程图。如图4所示,待脱敏处理的保险调查报告中包括被调查人的姓名,身份信息和家庭住址。其中,姓名和家庭住址属于文本信息,身份信息属于图像信息。
将PDF格式的保险调查报告转化为超文本标记语言文件,生成一个以.html为后缀的文件和一个资源文件夹,其中,以.html为后缀的文件记录了保险调查报告的页面,资源文件夹中包括一个以.css为后缀的文件,记录了保险调查报告的页面结构信息和被调查人的姓名和家庭住址,还包括一个以.jpg为后缀的文件,是被调查人身份证照片。
将以.css为后缀的文件中被调查人的姓名和家庭住址替换为“*”号,且保持字符数不变,使用图像识别算法对以.jpg为后缀的文件进行图像识别,并对身份证号码所在区域进行马赛克处理。再将超文本标记语言文件转化为PDF格式,即可得到脱敏后的保险调查报告。
为了实现上述实施例,本说明书实施例还提出了一种电子文档的脱敏处理装置,图5为本说明书实施例所提出的一种电子文档的脱敏处理装置的结构示意图。如图5所示,该装置包括:获取模块410,转化模块420,处理模块430,生成模块440。
获取模块410,用于获取待脱敏处理的电子文档。
其中,电子文档的页面中具有不同类型的电子信息。
转化模块420,用于将电子文档转化为超文本标记语言文件。
其中,超文本标记语言文件中包括不同类型的电子信息,以及电子文档的页面结构信息。
处理模块430,用于对电子信息进行脱敏处理。
生成模块440,用于根据脱敏处理后的电子信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。
需要说明的是,对前述电子文档的脱敏处理方法实施例的解释说明,也适用于本说明书实施例中的电子文档的脱敏处理装置,此处不再赘述。
综上所述,本说明书实施例所提出的电子文档的脱敏处理装置,在对电子文档进行脱敏处理时,获取待脱敏处理的电子文档,电子文档的页面中具有不同类型的电子信息。将电子文档转化为超文本标记语言文件,超文本标记语言文件中包括不同类型的电子信息,以及电子文档的页面结构信息。对电子信息进行脱敏处理,根据脱敏处理后的电子信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。由此,实现了将电子文档转化为超文本标记语言文件的形式后,对电子文档的页面中具有的电子信息进行脱敏处理,再根据电子文档的页面结构信息,生成脱敏处理后的电子文档,使得脱敏处理后的电子文档中电子信息的位置保持不变,以便于浏览者快速获取所需信息。
为了实现上述实施例,本说明书实施例还提出了另一种电子文档的脱敏处理装置,图6为本说明书实施例所提出的另一种电子文档的脱敏处理装置的结构示意图。如图6所示,该装置包括:获取模块510,转化模块520,处理模块530,生成模块540。
获取模块510,用于获取待脱敏处理的电子文档。
其中,电子文档的页面中具有不同类型的电子信息。
转化模块520,用于将电子文档转化为超文本标记语言文件。
其中,超文本标记语言文件中包括不同类型的电子信息,以及电子文档的页面结构信息。
处理模块530,用于对电子信息进行脱敏处理。
生成模块540,用于根据脱敏处理后的电子信息,和电子文档的页面结构信息,生成脱敏处理后的电子文档。
其中,电子信息包括文本信息和图像信息中的至少一种。
处理模块530,包括:设置子模块531,用于根据电子文档的页面结构信息,将预设位置的文本信息作为隐私内容。替换子模块532,用于使用预设符号替换隐私内容。
处理模块530,包括:检测子模块533,用于通过图像识别算法检测图像信息是否包括隐私信息。处理子模块534,用于根据检测结果,对隐私信息进行模糊化处理。
需要说明的是,对前述电子文档的脱敏处理方法实施例的解释说明,也适用于本说明书实施例中的电子文档的脱敏处理装置,此处不再赘述。
从而,实现了对电子文档中的文本信息和图像信息采用不同的脱敏处理方法,来生成脱敏处理后的电子文档。
为了实现上述实施例,本说明书实施例还提出了又一种电子文档的脱敏处理装置,图7为本说明书实施例所提出的又一种电子文档的脱敏处理装置的结构示意图。如图7所示,该装置包括:获取模块610,转化模块620,处理模块630,生成模块640。
获取模块610,用于获取待脱敏处理的保险调查报告。
其中,保险调查报告的页面中具有姓名,身份信息,家庭住址中的至少一种。
转化模块620,用于将保险调查报告转化为超文本标记语言文件。
其中,超文本标记语言文件中包括姓名,身份信息,家庭住址中的至少一种,以及保险调查报告的页面结构信息。
处理模块630,用于对姓名,身份信息,家庭住址进行脱敏处理。
生成模块640,用于根据脱敏处理后的姓名,身份信息,家庭住址,和保险调查报告的页面结构信息,生成脱敏处理后的保险调查报告。
其中,处理模块630,包括:设置子模块631,用于根据保险调查报告的页面结构信息,将姓名和家庭住址作为隐私内容。替换子模块632,用于使用预设符号替换隐私内容。
处理模块630,包括:检测子模块633,用于通过图像识别算法检测身份信息是否包括隐私信息。处理子模块634,用于根据检测结果,对隐私信息进行模糊化处理。
需要说明的是,对前述电子文档的脱敏处理方法实施例的解释说明,也适用于本说明书实施例中的电子文档的脱敏处理装置,此处不再赘述。
从而,实现了将本说明书实施例所提出的电子文档的脱敏处理方法用于保险调查报告的脱敏处理。
为了实现上述实施例,本说明书实施例还提出一种计算机设备,包括存储器和处理器;存储器上存储有可由处理器运行的计算机程序;当处理器运行计算机程序时,执行如前述方法实施例的电子文档的脱敏处理方法。
为了实现上述实施例,实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述方法实施例的电子文档的脱敏处理方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书实施例中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本说明书实施例中的具体含义。
在本说明书实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种电子文档的脱敏处理方法,包括:
获取待脱敏处理的电子文档;其中,所述电子文档的页面中具有不同类型的电子信息;所述电子信息至少包括文本信息;
将所述电子文档转化为超文本标记语言文件;其中,所述超文本标记语言文件中包括所述不同类型的电子信息,以及所述电子文档的页面结构信息;
根据所述电子文档的页面结构信息,将预设位置的所述文本信息作为隐私内容;使用预设符号替换所述隐私内容;以及
根据脱敏处理后的所述电子信息,和所述电子文档的页面结构信息,生成脱敏处理后的所述电子文档。
2.如权利要求1所述的脱敏处理方法,其中,所述电子信息还包括图像信息。
3.如权利要求2所述的脱敏处理方法,还包括:
通过图像识别算法检测所述图像信息是否包括隐私信息;
根据检测结果,对所述隐私信息进行模糊化处理。
4.如权利要求1-3中任一项所述的脱敏处理方法,其中,所述电子文档为保险调查报告,所述电子信息包括姓名,身份信息,家庭住址中的至少一种。
5.一种电子文档的脱敏处理装置,包括:
获取模块,用于获取待脱敏处理的电子文档;其中,所述电子文档的页面中具有不同类型的电子信息;所述电子信息至少包括文本信息;
转化模块,用于将所述电子文档转化为超文本标记语言文件;其中,所述超文本标记语言文件中包括所述不同类型的电子信息,以及所述电子文档的页面结构信息;
处理模块,用于根据所述电子文档的页面结构信息,将预设位置的所述文本信息作为隐私内容;使用预设符号替换所述隐私内容;以及
生成模块,用于根据脱敏处理后的所述电子信息,和所述电子文档的页面结构信息,生成脱敏处理后的所述电子文档。
6.如权利要求5所述的脱敏处理装置,其中,所述电子信息还包括图像信息。
7.如权利要求6所述的脱敏处理装置,其中,所述处理模块,包括:
检测子模块,用于通过图像识别算法检测所述图像信息是否包括隐私信息;
处理子模块,用于根据检测结果,对所述隐私信息进行模糊化处理。
8.如权利要求5-7中任一项所述的脱敏处理装置,其中,所述电子文档为保险调查报告,所述电子信息包括姓名,身份信息,家庭住址中的至少一种。
9.一种计算机设备,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1-4中任一项所述的电子文档的脱敏处理方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的电子文档的脱敏处理方法。
CN202010090547.0A 2020-02-13 2020-02-13 电子文档的脱敏处理方法及其装置 Active CN111291410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010090547.0A CN111291410B (zh) 2020-02-13 2020-02-13 电子文档的脱敏处理方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010090547.0A CN111291410B (zh) 2020-02-13 2020-02-13 电子文档的脱敏处理方法及其装置

Publications (2)

Publication Number Publication Date
CN111291410A CN111291410A (zh) 2020-06-16
CN111291410B true CN111291410B (zh) 2021-09-07

Family

ID=71025625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010090547.0A Active CN111291410B (zh) 2020-02-13 2020-02-13 电子文档的脱敏处理方法及其装置

Country Status (1)

Country Link
CN (1) CN111291410B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380566A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN112768036A (zh) * 2021-01-14 2021-05-07 武汉联影医疗科技有限公司 Dicom文件信息脱敏方法、装置、服务器和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853697A (zh) * 2012-12-07 2014-06-11 比亚迪股份有限公司 一种移动终端及其应用数据的备份方法
CN107180200A (zh) * 2017-04-20 2017-09-19 北京同余科技有限公司 数据文件可定制化脱敏方法和系统
CN109145260A (zh) * 2018-08-24 2019-01-04 北京科技大学 一种文本信息自动提取方法
CN109872284A (zh) * 2019-01-18 2019-06-11 平安普惠企业管理有限公司 图像信息脱敏方法、装置、计算机设备及存储介质
CN110443058A (zh) * 2018-05-02 2019-11-12 中兴通讯股份有限公司 一种xml文档脱敏的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020026384A1 (en) * 2000-03-31 2002-02-28 Matsushita Electric Industrial Co., Ltd. Data storage, management, and delivery method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853697A (zh) * 2012-12-07 2014-06-11 比亚迪股份有限公司 一种移动终端及其应用数据的备份方法
CN107180200A (zh) * 2017-04-20 2017-09-19 北京同余科技有限公司 数据文件可定制化脱敏方法和系统
CN110443058A (zh) * 2018-05-02 2019-11-12 中兴通讯股份有限公司 一种xml文档脱敏的方法及装置
CN109145260A (zh) * 2018-08-24 2019-01-04 北京科技大学 一种文本信息自动提取方法
CN109872284A (zh) * 2019-01-18 2019-06-11 平安普惠企业管理有限公司 图像信息脱敏方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111291410A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CA2593555C (en) Method and apparatus for adding signature information to electronic documents
US7715625B2 (en) Image processing device, image processing method, and storage medium storing program therefor
US11061991B2 (en) Secure document sharing
CN111291410B (zh) 电子文档的脱敏处理方法及其装置
US9591169B2 (en) Image processing apparatus and program
US20080162603A1 (en) Document archiving system
US20040049571A1 (en) Tracking document usage
EP1958119A2 (en) System and method for appending security information to search engine results
JP2009163743A (ja) 画像処理装置および画像処理方法
US8411956B2 (en) Associating optical character recognition text data with source images
JP4631792B2 (ja) 印刷記録管理装置、プログラム及び方法
US9459913B2 (en) System and method for providing print ready content to a printing device
CN108646988B (zh) 文档打印方法和系统
US20120143842A1 (en) Image element searching
JP2009200699A (ja) 画像処理装置および画像処理方法
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
CN113810375B (zh) webshell检测方法、装置、设备及可读存储介质
US20140078545A1 (en) Image processing apparatus and program
US7275206B1 (en) Method and computer program product for identifying hypertext links in document printouts
CN111310088B (zh) 一种页面渲染方法及装置
US20160188612A1 (en) Objectification with deep searchability
US20220291886A1 (en) Methods and systems for directly printing multiple documents stored over multiple/different cloud locations
US10353649B1 (en) Systems and methods for printing a document and related referenced content
JP4804591B2 (ja) データ変換方法、装置及びプログラム
CN110795046B (zh) 一种文档打印的方法、装置、计算机存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40029451

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant