CN111488603A - 一种识别打印文件的敏感内容的方法及装置 - Google Patents

一种识别打印文件的敏感内容的方法及装置 Download PDF

Info

Publication number
CN111488603A
CN111488603A CN202010198450.1A CN202010198450A CN111488603A CN 111488603 A CN111488603 A CN 111488603A CN 202010198450 A CN202010198450 A CN 202010198450A CN 111488603 A CN111488603 A CN 111488603A
Authority
CN
China
Prior art keywords
document
content
printing
file
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010198450.1A
Other languages
English (en)
Inventor
秦凯
喻波
王志海
安鹏
王志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202010198450.1A priority Critical patent/CN111488603A/zh
Publication of CN111488603A publication Critical patent/CN111488603A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/82Protecting input, output or interconnection devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)

Abstract

本发明提供一种识别打印文件的敏感内容的方法及装置,所述方法包括:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;将符合预定类型的中间文件转换为可识别的图片格式的文件;对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容,与敏感规则比较判断是否有敏感信息,根据预制策略,对所述文档打印任务进行打印管控。根据本发明的方案,利用本地打印作业特性,可以防泄漏、管控打印文件,能够在不改变用户使用习惯的情况下,对操作进行有效管控。

Description

一种识别打印文件的敏感内容的方法及装置
技术领域
本发明涉及数据安全领域,尤其涉及一种识别打印文件的敏感内容的方法及装置。
背景技术
随着互联网技术的飞速发展,企业大多步入了信息化办公时代,在办公终端中存放的信息量越来越大。随之而来的,信息泄露的风险也在不断递增。
办公场景中的常见场景是,信息从计算机终端输出到打印机,再从打印机输出到纸质文件。在此过程中存在着很大的信息安全泄露的隐患。一旦监管不当,将可能给企业带来不可预期的损失。例如,设计图纸、客户资料等打印文件,可能涉及国家利益、企业利益和个人利益,一旦在打印过程中造成信息泄露,将会造成难以追踪其外带源头、以及相关责任人的情况。
现有的对待打印文件的监控方法是,通过虚拟打印驱动和后台打印监控与审计系统结合,识别待打印文件的内容,基于获取到的待打印文件的内容,利用后台打印监控及审计系统对待打印文件进行监控。但这类方法首先要限制终端上打印驱动的使用,并且,在后台需要兼容多款打印驱动。部署及具体应用较为复杂,造成打印结果状态无法及时获取;同时,管控方式不灵活。
发明内容
为解决上述技术问题,本发明提出了一种识别打印文件的敏感内容的方法及装置,所述方法及装置,用以解决现有技术中需要在后台兼容多款打印驱动,使得部署及具体应用较为复杂,造成打印结果状态无法及时获取、以及管控方式不灵活的技术问题。
根据本发明的第一方面,提供一种识别打印文件的敏感内容的方法,所述方法包括以下步骤:
步骤S101:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
步骤S102:判断该文档的中间文件的类型是否符合预设类型,若是,进入步骤S103;若否,进入步骤S106;
步骤S103:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
步骤S104:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
步骤S105:判断该文档中是否包含敏感信息,若是,进入步骤S106,否则,进入步骤S108;
步骤S106:根据预制策略,对所述文档打印任务进行打印管控;
根据预制策略,对所述文档打印任务进行打印管控,包括:根据预制策略,进行对应的管控操作,所述管控操作包括阻断、审批和审计;
如果为阻断,则进入步骤S107;
如果为审批,则触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批,审批结果为同意,进入步骤S108;若审批结果为拒绝,进入步骤S107;
如果为审计,则将打印任务的任务信息和文档中的敏感信息上报到审计日志平台,审计通过的,进入步骤S108;审计不通过的,进入步骤S107;
步骤S107:中断文档打印任务,方法结束;
步骤S108:打印文档,方法结束。
进一步地,所述步骤S101之前,在用户启动了文档打印任务后,即点击文档打印按钮后,检测所述文档的打印权限,若没有打印权限,则直接阻断文档打印任务;若有打印权限,则文档打印任务继续执行。
进一步地,所述预设类型包括PS、EPS、PCL、PXL、XPS、PRN、SPL、EMF。
进一步地,利用开源的tesseract-ocr图像内容识别库。
根据本发明第二方面,提供一种识别打印文件的敏感内容的装置,所述装置包括:
信息获取模块:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
第一判断模块:判断该文档的中间文件的类型是否符合预设类型;
转换模块:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
比较模块:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
第二判断模块:判断该文档中是否包含敏感信息;
打印管控模块:根据预制策略,对所述文档打印任务进行打印管控;
所述打印管控模块包括:
阻断子模块:进行阻断操作;
审批子模块:触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批;
审计子模块:将打印任务的任务信息和文档中的敏感信息上报到审计日志平台;
中断打印模块:中断文档打印任务;
打印模块:打印文档。
进一步地,还包括打印权限判断模块,用于在用户启动了文档打印任务后,即点击文档打印按钮后,检测所述文档的打印权限,若没有打印权限,则直接阻断文档打印任务;若有打印权限,则文档打印任务继续执行
进一步地,所述预设类型包括PS、EPS、PCL、PXL、XPS、PRN、SPL、EMF。
进一步地,利用开源的tesseract-ocr图像内容识别库。
根据本发明第三方面,提供一种识别打印文件的敏感内容的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的识别打印文件的敏感内容的方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的识别打印文件的敏感内容的方法。
根据本发明的上述方案,根据打印技术的特点,利用本地打印作业特性,获取打印文件的中间文件,进而识别待打印文件的内容,判断打印文件中是否有敏感信息,可以防泄漏、管控打印文件,对操作进行有效管控;还能够在不改变用户使用习惯的情况下,实现对终端打印文件的敏感内容识别,一旦发现敏感内容被打印,及时进行阻断管控,减少敏感信息的泄露。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1为本发明一个实施方式的识别打印文件的敏感内容的方法流程图;
图2为本发明一个实施方式的识别打印文件的敏感内容的交互方式图;
图3为本发明一个应用本发明方案的实现样例图;
图4为本发明一个实施方式的识别打印文件的敏感内容的装置结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先结合图1说明为本发明一个实施方式的识别打印文件的敏感内容的方法流程图。如图1所示,所述方法包括以下步骤:
步骤S101:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
步骤S102:判断该文档的中间文件的类型是否符合预设类型,若是,进入步骤S103;若否,进入步骤S106;
步骤S103:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
步骤S104:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
步骤S105:判断该文档中是否包含敏感信息,若是,进入步骤S106,否则,进入步骤S108;
步骤S106:根据预制策略,对所述文档打印任务进行打印管控;
根据预制策略,对所述文档打印任务进行打印管控,包括:根据预制策略,进行对应的管控操作,所述管控操作包括阻断、审批和审计;
如果为阻断,则进入步骤S107;
如果为审批,则触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批,审批结果为同意,进入步骤S108;若审批结果为拒绝,进入步骤S107;
如果为审计,则将打印任务的任务信息和文档中的敏感信息上报到审计日志平台,审计通过的,进入步骤S108;审计不通过的,进入步骤S107;
步骤S107:中断文档打印任务,方法结束;
步骤S108:打印文档,方法结束。
所述步骤S101:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
本实施例中,在用户启动了文档打印任务后,即点击文档打印按钮后,检测所述文档的打印权限,若没有打印权限,则直接阻断文档打印任务;若有打印权限,则文档打印任务继续执行。利用windows系统打印任务接口,拦截文档打印任务,获取并解析当前打印任务的任务信息,所述任务信息包括打印机信息、打印页数等,再获取待打印文档的中间文件。该打印任务接口为微软官方开放的稳定接口,多用于各类应用程序对打印任务的访问操作。
所述步骤S102:判断该文档的中间文件的类型是否符合预设类型,若是,进入步骤S103;若否,进入步骤S106;
预设类型的文件不能被直接读取打印内容,所述预设类型包括PS、EPS、PCL(PCL3/4/5,PCL5e,PCL5c)、PXL(PCL6,PCL-XL)、XPS、PRN、SPL、EMF。
所述步骤S103:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
本实施例中,不同类型的中间文件的提取文档内容信息的方法各不相同,基于提取到的文档内容信息,将中间文件进行转换,转换后的图片格式的文件为打印文档的图片形式,图片格式的文件的内容为本次打印任务的文档内容。
所述步骤S104:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
本实施例中,利用开源的tesseract-ocr图像内容识别库,解析图片,将图片内容转换为文字形式的内容,再交由内容识别引擎检索,内容识别引擎基于boost库对所述文字形式的内容进行关键字和正则表达式处理,获取该文档的关键内容,并将该关键内容与敏感规则比较。
所述步骤S105:判断该文档中是否包含敏感信息,若是,进入步骤S106,否则,进入步骤S108;
将关键内容与敏感规则比较的目的是判断打印任务对应的原始文档是否包含敏感信息。
所述步骤S106:根据预制策略,对所述文档打印任务进行打印管控;
所述根据预制策略,对所述文档打印任务进行打印管控,包括:根据预制策略,进行对应的管控操作,所述管控操作包括阻断、审批和审计;
如果为阻断,则进入步骤S107;
如果为审批,则触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批,审批结果为同意,进入步骤S108;若审批结果为拒绝,进入步骤S107;
如果为审计,则将打印任务的任务信息和文档中的敏感信息上报到审计日志平台,审计通过的,进入步骤S108;审计不通过的,进入步骤S107;可以方便系统管理员进行事后追溯。
系统管理员可以对全公司的打印文件申请、审批、打印任务等进行操作,便于统一查看管控信息及事后追溯。
步骤S107:中断文档打印任务,方法结束;
步骤S108:打印文档,方法结束。
图2为本发明一个实施方式的识别打印文件的敏感内容的交互方式图,如图2所示:
终端用户打印文件时,打印任务被拦截,在完成打印文件转换后进行内容识别,根据识别检测结果进行不同方式的管控。如果为审批管控,则由部门主管或相关领导审批后方可继续打印。如果为阻断,则中断此次打印任务。同时打印任务和打印内容敏感信息发送到审计平台。该方法沿用用户现有的打印习惯,打印发起后即可快速获悉文档中是否包含敏感信息,是否要以打印外发。
图3为本发明一个应用本发明方案的实现样例图。结合图3说明本发明在某银行的打印管控的具体应用,该银行采用了单机部署。
本实施例中,银行内各部门对敏感数据的定义均有所不同,对应管控方式亦不同。本发明方案部署时不需要对打印机进行调整。
各部门打印文件时,根据各自设置的敏感数据规则,对待打印文档进行内容识别,并根据各自设置的管控方式进行控制。如:财务部门进行财务报表文件进行处理时,如果需要打印输出,打印过程中将对待打印的文档内容进行转换,识别,如果发现有部门设置的规则,如具体金额数据,合同编号,发票编号等正则表达式和关键字,并且超过规则阈值10条上限,则发起打印申请,交由部门经理和银行信息安全部门主管进行审批,两级主管领导审核查看后确认是否可以继续打印。如研发部门进行设计文档打印时,如果需要打印输出,打印文档经过转换后进行内容识别,如果无发现“内部秘密”,“禁止打印”等关键字信息,则文档可继续打印,如果有则阻断打印。上述两个部门的打印任务信息均被记录到日志审计平台,方便系统管理员审计。
本发明实施例进一步给出一种识别打印文件的敏感内容的装置,如图4所示,所述装置包括:
信息获取模块:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
第一判断模块:判断该文档的中间文件的类型是否符合预设类型;
转换模块:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
比较模块:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
第二判断模块:判断该文档中是否包含敏感信息;
打印管控模块:根据预制策略,对所述文档打印任务进行打印管控;
所述打印管控模块包括:
阻断子模块:进行阻断操作;
审批子模块:触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批;
审计子模块:将打印任务的任务信息和文档中的敏感信息上报到审计日志平台;
中断打印模块:中断文档打印任务;
打印模块:打印文档。
本发明实施例进一步给出一种识别打印文件的敏感内容的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的识别打印文件的敏感内容的方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的识别打印文件的敏感内容的方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种识别打印文件的敏感内容的方法,其特征在于,包括以下步骤:
步骤S101:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
步骤S102:判断该文档的中间文件的类型是否符合预设类型,若是,进入步骤S103;若否,进入步骤S106;
步骤S103:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
步骤S104:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
步骤S105:判断该文档中是否包含敏感信息,若是,进入步骤S106,否则,进入步骤S108;
步骤S106:根据预制策略,对所述文档打印任务进行打印管控;
根据预制策略,对所述文档打印任务进行打印管控,包括:根据预制策略,进行对应的管控操作,所述管控操作包括阻断、审批和审计;
如果为阻断,则进入步骤S107;
如果为审批,则触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批,审批结果为同意,进入步骤S108;若审批结果为拒绝,进入步骤S107;
如果为审计,则将打印任务的任务信息和文档中的敏感信息上报到审计日志平台,审计通过的,进入步骤S108;审计不通过的,进入步骤S107;
步骤S107:中断文档打印任务,方法结束;
步骤S108:打印文档,方法结束。
2.如权利要求1所述的识别打印文件的敏感内容的方法,其特征在于,所述步骤S101之前,在用户启动了文档打印任务后,即点击文档打印按钮后,检测所述文档的打印权限,若没有打印权限,则直接阻断文档打印任务;若有打印权限,则文档打印任务继续执行。
3.如权利要求1所述的识别打印文件的敏感内容的方法,其特征在于,所述预设类型包括PS、EPS、PCL、PXL、XPS、PRN、SPL、EMF。
4.如权利要求1所述的识别打印文件的敏感内容的方法,其特征在于,利用开源的tesseract-ocr图像内容识别库。
5.一种识别打印文件的敏感内容的装置,其特征在于,所述装置包括:
信息获取模块:获取并解析文档打印任务的任务信息,得到打印机信息、打印页数,获取该文档的中间文件;
第一判断模块:判断该文档的中间文件的类型是否符合预设类型;
转换模块:提取文档内容信息,将中间文件转换为可识别的图片格式的文件;
比较模块:对所述图片格式的文件进行ocr内容识别,并将识别出的内容通过内容识别引擎进行内容检测,获取该文档的关键内容;获取敏感规则,所述敏感规则包括预先配置的正则表达式、关键字组合规则;基于敏感规则,对所述文档的关键内容进行比较;
第二判断模块:判断该文档中是否包含敏感信息;
打印管控模块:根据预制策略,对所述文档打印任务进行打印管控;
所述打印管控模块包括:
阻断子模块:进行阻断操作;
审批子模块:触发敏感内容打印申请,部门上级主管或者系统管理员收到申请后进行审批;
审计子模块:将打印任务的任务信息和文档中的敏感信息上报到审计日志平台;
中断打印模块:中断文档打印任务;
打印模块:打印文档。
6.如权利要求5所述的识别打印文件的敏感内容的装置,其特征在于,还包括打印权限判断模块,用于在用户启动了文档打印任务后,即点击文档打印按钮后,检测所述文档的打印权限,若没有打印权限,则直接阻断文档打印任务;若有打印权限,则文档打印任务继续执行。
7.如权利要求5所述的识别打印文件的敏感内容的装置,其特征在于,所述预设类型包括PS、EPS、PCL、PXL、XPS、PRN、SPL、EMF。
8.如权利要求5所述的识别打印文件的敏感内容的装置,其特征在于,利用开源的tesseract-ocr图像内容识别库。
9.一种识别打印文件的敏感内容的系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-4之任一项所述的识别打印文件的敏感内容的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-4之任一项所述的识别打印文件的敏感内容的方法。
CN202010198450.1A 2020-03-20 2020-03-20 一种识别打印文件的敏感内容的方法及装置 Pending CN111488603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010198450.1A CN111488603A (zh) 2020-03-20 2020-03-20 一种识别打印文件的敏感内容的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010198450.1A CN111488603A (zh) 2020-03-20 2020-03-20 一种识别打印文件的敏感内容的方法及装置

Publications (1)

Publication Number Publication Date
CN111488603A true CN111488603A (zh) 2020-08-04

Family

ID=71810828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010198450.1A Pending CN111488603A (zh) 2020-03-20 2020-03-20 一种识别打印文件的敏感内容的方法及装置

Country Status (1)

Country Link
CN (1) CN111488603A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000301A (zh) * 2020-08-25 2020-11-27 深圳市安络科技有限公司 一种对打印文件进行监控的方法及装置
CN113065154A (zh) * 2021-03-19 2021-07-02 深信服科技股份有限公司 一种文档检测方法、装置、设备和存储介质
CN113347167A (zh) * 2021-05-24 2021-09-03 福建博思软件股份有限公司 一种信息传输方法与终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080273224A1 (en) * 2007-05-01 2008-11-06 Preo Software Inc. System and method of print management
CN108255439A (zh) * 2017-12-29 2018-07-06 佛山市幻云科技有限公司 一种保密打印方法、装置、系统及保密打印机
CN109074496A (zh) * 2016-06-28 2018-12-21 惠普发展公司,有限责任合伙企业 隐藏敏感数据
US20190056897A1 (en) * 2016-06-21 2019-02-21 Hewlett-Packard Development Company, L.P. Document operation compliance
US20190303056A1 (en) * 2018-03-27 2019-10-03 KYOCERA Document Solutions Development America, Inc. Methods and systems for detecting and formatting sensitive information in a multi-function printer
CN110471632A (zh) * 2019-08-16 2019-11-19 北京明朝万达科技股份有限公司 文件打印、查看方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080273224A1 (en) * 2007-05-01 2008-11-06 Preo Software Inc. System and method of print management
US20190056897A1 (en) * 2016-06-21 2019-02-21 Hewlett-Packard Development Company, L.P. Document operation compliance
CN109074496A (zh) * 2016-06-28 2018-12-21 惠普发展公司,有限责任合伙企业 隐藏敏感数据
CN108255439A (zh) * 2017-12-29 2018-07-06 佛山市幻云科技有限公司 一种保密打印方法、装置、系统及保密打印机
US20190303056A1 (en) * 2018-03-27 2019-10-03 KYOCERA Document Solutions Development America, Inc. Methods and systems for detecting and formatting sensitive information in a multi-function printer
CN110471632A (zh) * 2019-08-16 2019-11-19 北京明朝万达科技股份有限公司 文件打印、查看方法、装置、电子设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000301A (zh) * 2020-08-25 2020-11-27 深圳市安络科技有限公司 一种对打印文件进行监控的方法及装置
CN113065154A (zh) * 2021-03-19 2021-07-02 深信服科技股份有限公司 一种文档检测方法、装置、设备和存储介质
CN113065154B (zh) * 2021-03-19 2023-12-29 深信服科技股份有限公司 一种文档检测方法、装置、设备和存储介质
CN113347167A (zh) * 2021-05-24 2021-09-03 福建博思软件股份有限公司 一种信息传输方法与终端

Similar Documents

Publication Publication Date Title
US9177261B2 (en) User interface and workflow for performing machine learning
US9691027B1 (en) Confidence level threshold selection assistance for a data loss prevention system using machine learning
US8862522B1 (en) Incremental machine learning for data loss prevention
JP5927809B2 (ja) タスク値付け技術
JP5845728B2 (ja) コンテンツ・プライバシー保護のためのマイクロタスクを生成する技術
CN111488603A (zh) 一种识别打印文件的敏感内容的方法及装置
US9064097B2 (en) System and method of automatically detecting outliers in usage patterns
US20090089663A1 (en) Document management workflow for redacted documents
US9141658B1 (en) Data classification and management for risk mitigation
JP2001184264A (ja) アクセス制御システム、アクセス制御方法、記憶媒体、及びプログラム伝送装置
KR20140129712A (ko) 클라우드 컴퓨팅 환경에서 인쇄 문서상의 기밀정보 보안 시스템 및 그 방법
CN109858021B (zh) 业务问题统计方法、装置、计算机设备及其存储介质
CN113687800B (zh) 文件打印处理方法、装置、计算机设备和存储介质
JP5352279B2 (ja) 印刷物管理システム
US20210286767A1 (en) Architecture, method and apparatus for enforcing collection and display of computer file metadata
US8620911B2 (en) Document registry system
RU2759210C1 (ru) Система и способ защиты электронных документов, содержащих конфиденциальную информацию, от несанкционированного доступа
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
CN111881471A (zh) 一种无侵入日志数据脱敏方法、装置及系统
CN112698797A (zh) 一种文件打印控制方法、系统、电子设备及存储介质
CN117032634A (zh) 组件处理方法及系统
CN115617612A (zh) 一种日志上报方法、装置、计算机设备和存储介质
CN111737090B (zh) 日志仿真方法、装置、计算机设备和存储介质
US20240211945A1 (en) Systems and methods for real-time classification and verification of data using hierarchal state machines
JP7127421B2 (ja) 機密文書監視装置、機密文書監視プログラム、及び機密文書監視システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804