CN113806806A - 一种用于网页截图的脱敏、还原方法和系统 - Google Patents

一种用于网页截图的脱敏、还原方法和系统 Download PDF

Info

Publication number
CN113806806A
CN113806806A CN202111101389.5A CN202111101389A CN113806806A CN 113806806 A CN113806806 A CN 113806806A CN 202111101389 A CN202111101389 A CN 202111101389A CN 113806806 A CN113806806 A CN 113806806A
Authority
CN
China
Prior art keywords
picture
desensitization
text
information
information set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111101389.5A
Other languages
English (en)
Other versions
CN113806806B (zh
Inventor
陈生坚
范志建
李昌华
李仁杰
江文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lop Xiamen System Integration Co ltd
Ropt Technology Group Co ltd
Original Assignee
Lop Xiamen System Integration Co ltd
Ropt Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lop Xiamen System Integration Co ltd, Ropt Technology Group Co ltd filed Critical Lop Xiamen System Integration Co ltd
Priority to CN202111101389.5A priority Critical patent/CN113806806B/zh
Publication of CN113806806A publication Critical patent/CN113806806A/zh
Application granted granted Critical
Publication of CN113806806B publication Critical patent/CN113806806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Storage Device Security (AREA)

Abstract

公开了一种用于网页截图的脱敏、还原方法和系统,包括递归遍历网页中所有元素,获取文本信息集合;利用正则表达式对元素文本信息进行敏感信息匹配,获取敏感信息集合;对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,构建文本图片替换信息集合;分别对脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至替换信息集合中;利用随机生成的密钥生成二维码图片替换初始脱敏图片的一边角像素,输出最终脱敏图片,利用密钥对替换信息集合进行加密生成的数据加密文件。该发明可以避免截图泄露敏感信息并能够在特定处理下还原。

Description

一种用于网页截图的脱敏、还原方法和系统
技术领域
本发明涉及信息安全的技术领域,尤其涉及一种用于网页截图的脱敏、还原方法和系统。
背景技术
随着人脸检测识别、车辆检测识别、ocr识别等相关技术发展,在各种场景下应用也越来越广泛,在各种应用系统上展示也是越来越丰富的个人身份信息、手机信息、人脸信息、车辆信息等,同时,国家对个人隐私也是越来越重视,如何加强隐私保护,防范一些系统截图包含隐私信息流传问题亟需解决。
现如今各种应用系统展示和截图时无法支持自动隐藏人员姓名、身份证、手机、人脸图片、车辆图片、一些字典敏感文字信息,难免会造成截图泄露敏感信息;若对截图上的敏感文字信息进行人工脱敏,对于特定条件下需要对数据内容和数据来源信息进行还原则难以实现。
发明内容
为了解决现有技术中无法自动实现对网页截图的自动脱敏处理并在特定条件下的还原问题,本发明提出了一种用于网页截图的脱敏、还原方法和系统,用以解决上述技术问题。
根据本发明的第一方面,提出了一种用于网页截图的脱敏方法,包括:
S1:递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合;
S2:利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对元素文本信息进行敏感信息匹配,获取敏感信息集合;
S3:对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合;
S4:对原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至替换信息集合中;
S5:利用随机生成的密钥生成二维码图片替换初始脱敏图片的一边角像素,输出最终脱敏图片,并利用密钥对替换信息集合进行加密生成与脱敏图片对应的数据加密文件。
在一些具体的实施例中,步骤S3具体包括:
根据敏感信息集合的坐标信息对原始图片将对应位置区域像素使用R、G、B值均为255的白值填充,生成中间图片;
对中间图片进行OCR识别,获取包括文本信息和坐标信息的OCR识别集合;
利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对OCR识别集合进行敏感信息匹配,并更新补充至敏感信息集合中。凭借该步骤可以进一步利用OCR识别敏感文本,避免遗漏。
在一些具体的实施例中,步骤S3中脱敏文本图片的获取具体包括以下步骤:
根据敏感信息集合的坐标信息对原始图片进行遍历,获取集合中每一个对应坐标位置的像素区域,并提取像素区域的背景;
利用与敏感信息集合的文本长度信息生成替代内容文本,替代内容文本将敏感信息集合的文本替换为其他文本标识;
结合内容文本和背景填充至对应的敏感信息的像素区域内。
在一些具体的实施例中,步骤S5具体包括生成随机128位密钥,并将128位密钥生成100*100的二维码图片,利用二维码图片替换初始脱敏图片的右下角像素,生成最终脱敏图片,并将被替换下的右下角像素内容加入替换信息集合中。凭借该步骤可以再脱敏图片中形成用于解密的二维码密钥信息,便于在特定情况下进行脱敏图片的还原。
根据权利要求1的用于网页截图的脱敏方法,还包括对最终脱敏图片进行SHA256提取图片摘要信息,利用密钥对替换信息集合、生成时间、客户端IP、MAC地址和图片摘要信息进行加密生成数据加密文件。
根据本发明的第二方面,提出了一种用于网页截图的脱敏还原方法,包括输入如上述脱敏方法中生成的最终脱敏图片和数据加密文件,还包括:
识别最终脱敏图片上的二维码获得密钥,利用密钥对数据加密文件进行解密获得替换信息集合和图片摘要信息;
对最终脱敏图片进行SHA256提取摘要信息,响应与摘要信息与解密获得的图片摘要信息一致,遍历替换信息集合的每个替换数据填充最终脱敏图片上对应位置区域,还原图片信息。
根据本发明的第三方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第四方面,提出了一种用于网页截图的脱敏系统,包括
文本信息获取单元:配置用于递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合;
敏感信息集合获取单元:配置用于利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对元素文本信息进行敏感信息匹配,获取敏感信息集合;
文本脱敏单元:配置用于对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合;
人脸和车辆脱敏单元:配置用于对原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至替换信息集合中;
最终脱敏图片生成单元:配置用于利用随机生成的密钥生成二维码图片替换初始脱敏图片的一边角像素,输出最终脱敏图片,并利用密钥对替换信息集合进行加密生成与脱敏图片对应的数据加密文件。
在一些具体的实施例中,敏感信息集合获取单元还配置包括根据敏感信息集合的坐标信息对原始图片将对应位置区域像素使用R、G、B值均为255的白值填充,生成中间图片;对中间图片进行OCR识别,获取包括文本信息和坐标信息的OCR识别集合;利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对OCR识别集合进行敏感信息匹配,并更新补充至敏感信息集合中。
根据本发明的第五方面,提出了一种用于网页截图的脱敏还原系统,包括如上述脱敏系统中生成的最终脱敏图片和数据加密文件,还包括:
解析单元:配置用于识别最终脱敏图片上的二维码获得密钥,利用密钥对数据加密文件进行解密获得替换信息集合和图片摘要信息;
脱敏图片还原单元:配置用于对最终脱敏图片进行SHA256提取摘要信息,响应与摘要信息与解密获得的图片摘要信息一致,遍历替换信息集合的每个替换数据填充最终脱敏图片上对应位置区域,还原图片信息。
本发明提出了一种用于网页截图的脱敏方法,利用正则匹配敏感信息,通过OCR进一步识别文本敏感信息实现对网页截图中文本的全面识别,避免敏感信息泄露,再通过人脸识别和车辆车牌识别对截图中的相关人脸和车牌进行马赛克处理,避免敏感信息泄露,利用图片像素替换的方式在脱敏图片中植入包含随机生成密钥的二维码,并将被植入区域进一步加入至替换集合中,在特殊情况需还原时,可以借助二维码对数据加密文件进行解密并对应将替换数据替换至相应位置的图片上最终实现脱敏图片的还原。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的一个实施例的用于网页截图的脱敏方法流程图;
图2是根据本申请的一个具体的实施例的用于网页截图的脱敏方法流程图;
图3是根据本申请的一个实施例的用于网页截图的脱敏还原方法流程图;
图4是根据本申请的一个具体的实施例的用于网页截图的脱敏还原方法流程图;
图5是根据本申请的一个实施例的用于网页截图的脱敏系统的框架图;
图6是根据本申请的一个实施例的用于网页截图的脱敏还原系统的框架图;
图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图;
图8是根据本申请的一个具体的实施例的应用界面图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的基于图像的眼动追踪方法,图1示出了根据本申请的一个实施例的用于网页截图的脱敏方法流程图。如图1所示,该方法包括:
S101:递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合。利用JQuery递归遍历网页中所有元素,JQuery选择器基于元素的id、类、类型、属性、属性值等查找(或选择)HTML元素,JQuery选择器允许对HTML元素组或单个元素进行操作。
S102:利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对元素文本信息进行敏感信息匹配,获取敏感信息集合。
S103:对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合。
在具体的实施例中,还包括利用OCR识别对敏感信息集合进行补充,具体采用以下步骤:
根据敏感信息集合的坐标信息对原始图片将对应位置区域像素使用RGB(255,255,255)的白值填充,生成中间图片;
对中间图片进行OCR识别,获取包括文本信息和坐标信息的OCR识别集合;
利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对OCR识别集合进行敏感信息匹配,并更新补充至敏感信息集合中。
通过OCR识别对图片中的敏感信息进行识别补充,能够避免步骤S101中无法识别到的敏感信息,例如存在于图片中的文字信息等,避免该类敏感信息泄露。
在具体的实施例中,对敏感文本替换具体可以采用以下方式:
根据敏感信息集合的坐标信息对原始图片进行遍历,获取集合中每一个对应坐标位置的像素区域,并提取像素区域的背景;
利用与敏感信息集合的文本长度信息生成替代内容文本,替代内容文本将敏感信息集合的文本替换为其他文本标识,例如替换为文本长度相当的XXX;
结合内容文本和背景填充至对应的敏感信息的像素区域内。
S104:对原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至替换信息集合中。通过对人脸和车辆的识别,将截图中的人脸和车辆车牌作马赛克处理,避免泄露个人信息。
S105:利用随机生成的密钥生成二维码图片替换初始脱敏图片的一边角像素,输出最终脱敏图片,并利用密钥对替换信息集合进行加密生成与脱敏图片对应的数据加密文件。该步骤中通过二维码图片的植入替换生成最终的脱敏图片,数据加密文件中存在替换信息集合可用于在特定情况下对最终脱敏图片进行还原。
在具体的实施例中,生成随机128位密钥,并将128位密钥生成100*100的二维码图片,利用二维码图片替换初始脱敏图片的右下角像素,生成最终脱敏图片,并将被替换下的右下角像素内容加入替换信息集合中。对最终脱敏图片进行SHA256提取图片摘要信息,利用密钥对替换信息集合、生成时间、客户端IP、MAC地址和图片摘要信息进行加密生成数据加密文件。
继续参考图2,图2示出了根据本申请的一个具体的实施例的用于网页截图的脱敏方法流程图,如图2所示,该方法包括:
步骤201:带敏感信息网页页面。输入带敏感信息网页页面。
步骤202:使用Jquery递归遍历所有元素。获取元素文本信息【T】、坐标位置【X】、坐标位置【Y】、元素宽【W】、元素高【H】;得到文本信息集合【TS】。
步骤203:对文本【T】使用正则表达式匹配(身份证、姓名、手机号、住址、特殊文字等)是否敏感信息匹配。若匹配则进入步骤204,否则结束。
步骤204:记录敏感信息元素的文本信息【T】、坐标位置【X】、坐标位置【Y】、元素宽【W】、元素高【H】;得到敏感信息集合【MS】。
步骤205:使用html2canvas插件对当前页面进行截图得原始图片【RI】。
步骤206:根据敏感信息集合[MS],对图片[RI]把对应位置区域像素使用RGB(255,255,255)填充,生成中间图片【RI2】。
步骤207:对图片【RI2】进行OCR识别,识别得到文本信息【T】、坐标位置【X】、坐标位置【Y】、元素宽【W】、元素高【H】,记录得到集合OCR识别集合【OCRS】。
步骤208:判断对【OCRS】集合每个文本【T】使用正则表达式匹配(身份证、姓名、手机号、住址、特殊文字等)是否敏感信息匹配。若匹配则进入步骤209,若不匹配则结束。
步骤209:补充到敏感信息集合【MS】。将OCR识别到的敏感信息补充更新至敏感信息集合【MS】中避免图片中敏感信息的遗漏处理。
步骤210:对图片【RI】进行人脸识别检测,识别出人脸位置【X】,位置【Y】,宽【W】,高【H】;得到人脸信息集合【FS】。
步骤211:对图片【RI】进行车辆识别检测,识别出车牌位置【X】,位置【Y】,宽【W】,高【H】;得到车辆信息集合【CS】。
步骤212:根据敏感信息集合【MS】,对图片【RI】进行遍历集合信息每一个对应坐标位置【X】、位置【Y】、元素宽【W】、元素高【H】的像素区域进行背景提取【BI】,使用文本【T】长度进行生成(XXX)内容文本【MT】,再对【BI】和文本【MT】进行合成然后填充到敏感信息位置【X】、【Y】、【W】、【H】,遍历结束得到脱敏感文本图片【MTI】,同时构建文本图片替换信息集合【RIS】内容(坐标【X】、坐标【Y】、宽【W】、高【H】、像素数组【PS】)。
步骤213:根据人脸信息集合【FS】,对图片【MTI】进行遍历集合每一个人脸对应坐标位置【X】、位置【Y】、元素宽【W】、元素高【H】的像素区进行马赛克处理,遍历结束得到人脸处理图片【MFI】,同时,将人脸图片替换信息补充到集合【RIS】内容(坐标【X】、坐标【Y】、宽【W】、高【H】、像素数组【PS】)。
步骤214:根据车牌信息集合【CS】,对图片【MFI】进行遍历集合每一个车牌对应坐标位置【X】、位置【Y】、元素宽【W】、元素高【H】的像素区进行马赛克处理,遍历结束得到车牌处理图片【MCI】,同时,将车牌图片替换信息补充到集合【RIS】内容(坐标【X】、坐标【Y】、宽【W】、高【H】、像素数组【PS】)。
步骤215:生成随机128位密钥【K】,将K生成100*100的二维码图片【QI】,将【QI】替换图片【MCI】的右下脚像素,生成最终脱敏图片【MOI】,同时,将右下加替换图片信息内容(坐标【X】、坐标【Y】、宽【W】、高【H】、像素数组【PS】)加入到集合【RIS】。
步骤216:对图片【MOI】进行SHA256提取摘要【SHA】。
步骤217:使用密钥【K】对集合【RIS】、生成时间【TS】、生成客户端【IP】、生成客户端【MAC】、图片摘要信息【SHA】进行加密生成数据加密文件【MDF】。
步骤218:输出返回脱敏截图图片【MOI】和数据加密文件【MDF】。
通过上述脱敏方法可以实现各种应用系统展示和截图时自动隐藏人员姓名、身份证、手机、人脸图片、车辆图片、一些字典敏感文字信息,避免截图泄露敏感信息。
继续参考图3,图3示出了根据本申请的一个实施例的用于网页截图的脱敏还原方法流程图,如图3所示,在如图1的脱敏方法所生成的脱敏图片和数据加密文件的基础上,该脱敏还原方法包括以下步骤:
S301:识别最终脱敏图片上的二维码获得密钥,利用密钥对数据加密文件进行解密获得替换信息集合和图片摘要信息。
S302:对最终脱敏图片进行SHA256提取摘要信息,响应与摘要信息与解密获得的图片摘要信息一致,遍历替换信息集合的每个替换数据填充最终脱敏图片上对应位置区域,还原图片信息。在保证摘要信息一致的前提下提取替换信息集合中的替换数据对脱敏图片进行还原,保证还原结果的准确有效。
图4示出了根据本申请的一个具体的实施例的用于网页截图的脱敏还原方法流程如,如图4所示,对图2的脱敏方法获得的脱敏截图图片【MOI】和数据加密文件【MDF】进行脱敏还原,包括以下步骤:
步骤401:输入脱敏截图图片【MOI】和数据加密文件【MDF】。
步骤402:识别图片【MOI】右下脚二维码,得到密钥【K】。
步骤403:使用密钥【K】对加密文件【MDF】进行解密,得到解密内容图片替换集合【RIS】、生成时间【TS】、生成客户端【IP】、生成客户端【MAC】、图片摘要信息【SHA】。
步骤404:对图片【MOI】进行SHA256提取摘要【SHA2】。
步骤405:比较【SHA】和【SHA2】是否一致。
步骤406:对图片【MOI】使用图片替换集合【RIS】遍历每一个替换数据消息(坐标【X】、坐标【Y】、宽【W】、高【H】、像素数组【PS】)去填充覆盖【MOI】对应位置,得到还原图片信息【RI】。
上述脱敏还原方法针对上文中的脱敏方法进行脱敏图片的还原,在特定条件下,如相关单位需要取证时可以对于该类脱敏图片进行还原,通过对图片上的二维码进行识别获取相应的密钥,并利用特定的解密算法对数据加密文件进行解密,获得替换集合、生成时间、客户端IP、客户端MAC地址和图片摘要信息,利用图片摘要信息作为进一步验证的条件,若一致则利用替换集合中的替换数据对脱敏图片进行填充覆盖进而还原获得图片原始信息。
继续参考图5,图5示出了根据本申请的一个实施例的用于网页截图的脱敏系统的框架图。该系统具体包括文本信息获取单元501、敏感信息集合获取单元502、文本脱敏单元503、人脸和车辆脱敏单元504以及最终脱敏图片生成单元。其中,文本信息获取单元501配置用于递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合;敏感信息集合获取单元502配置用于利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对元素文本信息进行敏感信息匹配,获取敏感信息集合;文本脱敏单元503配置用于对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合;人脸和车辆脱敏单元504配置用于对原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至替换信息集合中;最终脱敏图片生成单元505配置用于利用随机生成的密钥生成二维码图片替换初始脱敏图片的一边角像素,输出最终脱敏图片,并利用密钥对替换信息集合进行加密生成与脱敏图片对应的数据加密文件。
在具体的实施例中,敏感信息集合获取单元502还配置包括根据敏感信息集合的坐标信息对原始图片将对应位置区域像素使用R、G、B值均为255的白值填充,生成中间图片;对中间图片进行OCR识别,获取包括文本信息和坐标信息的OCR识别集合;利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对OCR识别集合进行敏感信息匹配,并更新补充至敏感信息集合中。
图6示出了根据本申请的一个实施例的用于网页截图的脱敏还原系统的框架图,该系统包括,解析单元601和脱敏图片还原单元602,其中,解析单元601配置用于识别如图5中的脱敏系统生成的最终脱敏图片上的二维码获得密钥,利用密钥对数据加密文件进行解密获得替换信息集合和图片摘要信息;脱敏图片还原单元602配置用于对最终脱敏图片进行SHA256提取摘要信息,响应与摘要信息与解密获得的图片摘要信息一致,遍历替换信息集合的每个替换数据填充最终脱敏图片上对应位置区域,还原图片信息。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合;利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对元素文本信息进行敏感信息匹配,获取敏感信息集合;对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合;对原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至替换信息集合中;利用随机生成的密钥生成二维码图片替换初始脱敏图片的一边角像素,输出最终脱敏图片,并利用密钥对替换信息集合进行加密生成与脱敏图片对应的数据加密文件。
图8示出了根据本申请的一个具体的实施例的应用界面图,如图8所示,录入脱敏网页地址后,点击执行脱敏就可以在下方界面生成原始网页展示内容和脱敏图片展示内容,使用者可以直接下载脱敏图片和脱敏数据加密文件,在特定条件下,相关人员可以借助脱敏数据加密文件对脱敏图片进行还原,同时也能够追溯数据来源。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于网页截图的脱敏方法,其特征在于,包括:
S1:递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合;
S2:利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对所述元素文本信息进行敏感信息匹配,获取敏感信息集合;
S3:对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合;
S4:对所述原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对所述脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至所述替换信息集合中;
S5:利用随机生成的密钥生成二维码图片替换所述初始脱敏图片的一边角像素,输出最终脱敏图片,并利用所述密钥对替换信息集合进行加密生成与所述脱敏图片对应的数据加密文件。
2.根据权利要求1所述的用于网页截图的脱敏方法,其特征在于,所述步骤S3具体包括:
根据所述敏感信息集合的坐标信息对所述原始图片将对应位置区域像素使用R、G、B值均为255的白值填充,生成中间图片;
对所述中间图片进行OCR识别,获取包括文本信息和坐标信息的OCR识别集合;
利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对所述OCR识别集合进行敏感信息匹配,并更新补充至所述敏感信息集合中。
3.根据权利要求2所述的用于网页截图的脱敏方法,其特征在于,所述步骤S3中脱敏文本图片的获取具体包括以下步骤:
根据所述敏感信息集合的坐标信息对所述原始图片进行遍历,获取集合中每一个对应坐标位置的像素区域,并提取所述像素区域的背景;
利用与所述敏感信息集合的文本长度信息生成替代内容文本,所述替代内容文本将所述敏感信息集合的文本替换为其他文本标识;
结合所述内容文本和所述背景填充至对应的敏感信息的像素区域内。
4.根据权利要求1所述的用于网页截图的脱敏方法,其特征在于,所述步骤S5具体包括生成随机128位密钥,并将所述128位密钥生成100*100的二维码图片,利用所述二维码图片替换所述初始脱敏图片的的右下角像素,生成最终脱敏图片,并将被替换下的所述右下角像素内容加入所述替换信息集合中。
5.根据权利要求1所述的用于网页截图的脱敏方法,其特征在于,还包括对所述最终脱敏图片进行SHA256提取图片摘要信息,利用所述密钥对所述替换信息集合、生成时间、客户端IP、MAC地址和所述图片摘要信息进行加密生成数据加密文件。
6.一种用于网页截图的脱敏还原方法,包括输入如权利要求1-5中任一项所述的脱敏方法中生成的所述最终脱敏图片和所述数据加密文件,其特征在于,还包括:
识别所述最终脱敏图片上的二维码获得密钥,利用所述密钥对所述数据加密文件进行解密获得替换信息集合和图片摘要信息;
对所述最终脱敏图片进行SHA256提取摘要信息,响应与所述摘要信息与所述解密获得的图片摘要信息一致,遍历所述替换信息集合的每个替换数据填充所述最终脱敏图片上对应位置区域,还原图片信息。
7.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至6中任一项所述的方法。
8.一种用于网页截图的脱敏系统,其特征在于,包括
文本信息获取单元:配置用于递归遍历网页中所有元素,获取包括元素文本信息和坐标信息的文本信息集合;
敏感信息集合获取单元:配置用于利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对所述元素文本信息进行敏感信息匹配,获取敏感信息集合;
文本脱敏单元:配置用于对当前网页截图获取原始图片,根据敏感信息集合生成文本替代图片将对应坐标位置区域的敏感文本替换,获取脱敏文本图片,并构建文本图片替换信息集合;
人脸和车辆脱敏单元:配置用于对所述原始图片进行人脸和车辆识别检测,分别得到包括人脸位置坐标的人脸信息集合和车牌位置坐标车辆信息集合,并分别对所述脱敏文本图片中的人脸图片和车牌图片进行马赛克处理,获取初始脱敏图片,将人脸图片和车牌图片补充至所述替换信息集合中;
最终脱敏图片生成单元:配置用于利用随机生成的密钥生成二维码图片替换所述初始脱敏图片的一边角像素,输出最终脱敏图片,并利用所述密钥对替换信息集合进行加密生成与所述脱敏图片对应的数据加密文件。
9.根据权利要求8所述的用于网页截图的脱敏系统,其特征在于,所述敏感信息集合获取单元还配置包括根据所述敏感信息集合的坐标信息对所述原始图片将对应位置区域像素使用R、G、B值均为255的白值填充,生成中间图片;对所述中间图片进行OCR识别,获取包括文本信息和坐标信息的OCR识别集合;利用包括身份证、姓名、手机号、住址和特殊文字的正则表达式对所述OCR识别集合进行敏感信息匹配,并更新补充至所述敏感信息集合中。
10.一种用于网页截图的脱敏还原系统,其特征在于,包括如权利要求8-9中任一项所述的脱敏系统中生成的所述最终脱敏图片和所述数据加密文件,还包括:
解析单元:配置用于识别所述最终脱敏图片上的二维码获得密钥,利用所述密钥对所述数据加密文件进行解密获得替换信息集合和图片摘要信息;
脱敏图片还原单元:配置用于对所述最终脱敏图片进行SHA256提取摘要信息,响应与所述摘要信息与所述解密获得的图片摘要信息一致,遍历所述替换信息集合的每个替换数据填充所述最终脱敏图片上对应位置区域,还原图片信息。
CN202111101389.5A 2021-09-18 2021-09-18 一种用于网页截图的脱敏、还原方法和系统 Active CN113806806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111101389.5A CN113806806B (zh) 2021-09-18 2021-09-18 一种用于网页截图的脱敏、还原方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111101389.5A CN113806806B (zh) 2021-09-18 2021-09-18 一种用于网页截图的脱敏、还原方法和系统

Publications (2)

Publication Number Publication Date
CN113806806A true CN113806806A (zh) 2021-12-17
CN113806806B CN113806806B (zh) 2024-02-27

Family

ID=78939979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111101389.5A Active CN113806806B (zh) 2021-09-18 2021-09-18 一种用于网页截图的脱敏、还原方法和系统

Country Status (1)

Country Link
CN (1) CN113806806B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363474A (zh) * 2022-03-17 2022-04-15 深圳市利诺威科技有限公司 一种影像传输方法及系统
CN114500104A (zh) * 2022-03-31 2022-05-13 北京盈泽世纪科技发展有限公司 数据脱敏方法、系统、计算机设备和存储介质
CN115659078A (zh) * 2022-10-12 2023-01-31 湖北盈隆腾辉科技有限公司 基于人工智能的网络信息安全监控方法及系统
CN115795538A (zh) * 2022-11-30 2023-03-14 湖南长银五八消费金融股份有限公司 脱敏文档的反脱敏方法、装置、计算机设备和存储介质
CN116842560A (zh) * 2023-06-19 2023-10-03 北京泰镝科技股份有限公司 敏感信息脱敏显示方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872284A (zh) * 2019-01-18 2019-06-11 平安普惠企业管理有限公司 图像信息脱敏方法、装置、计算机设备及存储介质
CN110969563A (zh) * 2018-09-28 2020-04-07 浙江大学 水印嵌入和水印提取方法、装置及设备及数据处理方法
CN111984987A (zh) * 2020-09-01 2020-11-24 上海梅斯医药科技有限公司 一种用于电子病历脱敏及还原的方法、装置、系统和介质
CN112434327A (zh) * 2019-08-26 2021-03-02 腾讯科技(深圳)有限公司 信息保护方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969563A (zh) * 2018-09-28 2020-04-07 浙江大学 水印嵌入和水印提取方法、装置及设备及数据处理方法
CN109872284A (zh) * 2019-01-18 2019-06-11 平安普惠企业管理有限公司 图像信息脱敏方法、装置、计算机设备及存储介质
CN112434327A (zh) * 2019-08-26 2021-03-02 腾讯科技(深圳)有限公司 信息保护方法、装置及电子设备
CN111984987A (zh) * 2020-09-01 2020-11-24 上海梅斯医药科技有限公司 一种用于电子病历脱敏及还原的方法、装置、系统和介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114363474A (zh) * 2022-03-17 2022-04-15 深圳市利诺威科技有限公司 一种影像传输方法及系统
CN114500104A (zh) * 2022-03-31 2022-05-13 北京盈泽世纪科技发展有限公司 数据脱敏方法、系统、计算机设备和存储介质
CN115659078A (zh) * 2022-10-12 2023-01-31 湖北盈隆腾辉科技有限公司 基于人工智能的网络信息安全监控方法及系统
CN115795538A (zh) * 2022-11-30 2023-03-14 湖南长银五八消费金融股份有限公司 脱敏文档的反脱敏方法、装置、计算机设备和存储介质
CN115795538B (zh) * 2022-11-30 2023-08-18 湖南长银五八消费金融股份有限公司 脱敏文档的反脱敏方法、装置、计算机设备和存储介质
CN116842560A (zh) * 2023-06-19 2023-10-03 北京泰镝科技股份有限公司 敏感信息脱敏显示方法、装置及存储介质

Also Published As

Publication number Publication date
CN113806806B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN113806806B (zh) 一种用于网页截图的脱敏、还原方法和系统
CN105577684B (zh) 防爬虫抓取的方法、服务端、客户端和系统
CN109829317A (zh) 一种基于手写签名图片生成电子合同的方法、装置及系统
US11494783B2 (en) Display and shelf space audit system
CN111860727A (zh) 二维码生成方法、验证方法、设备及计算机可读存储介质
US11829499B2 (en) Securing PIN information using obfuscation by applying extra security layer
CN116662941A (zh) 信息加密方法、装置、计算机设备和存储介质
CN109886047B (zh) 文件加密处理方法和装置
CN114626079A (zh) 基于用户权限的文件查看方法、装置、设备及存储介质
CN107729345B (zh) 网站数据处理方法、装置、网站数据处理平台及存储介质
CN116776911A (zh) 基于二维码的业务页面访问方法、装置、设备及存储介质
CN114357524B (zh) 电子文档的处理方法及装置
CN115378609A (zh) 电子证件展示方法、核验方法、终端及服务器
CN114845115A (zh) 一种信息传输方法、装置、设备及存储介质
US20210240956A1 (en) Systems and methods for encoding executable code in barcodes
CN113948164A (zh) 临床药品管理方法、装置、设备及计算机可读存储介质
CN110740112B (zh) 认证方法、装置和计算机可读存储介质
CN111860726A (zh) 二维码显示方法、验证方法、设备及计算机可读存储介质
CN113051497A (zh) 标牌信息查看方法、装置、计算机设备和存储介质
CN113645239B (zh) 一种应用登录方法、装置、用户终端及存储介质
CN112434327A (zh) 信息保护方法、装置及电子设备
CN109766703B (zh) 信息处理系统、方法和装置
CN114121049B (zh) 一种数据处理方法、装置以及存储介质
CN109614788B (zh) 一种审计信息处理方法及审计系统
CN116108502B (zh) 一种安全电子文件的生成及解密方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant