CN105573686A - 一种面向多文档的敏感关键词识别与打印控制方法 - Google Patents

一种面向多文档的敏感关键词识别与打印控制方法 Download PDF

Info

Publication number
CN105573686A
CN105573686A CN201511027996.6A CN201511027996A CN105573686A CN 105573686 A CN105573686 A CN 105573686A CN 201511027996 A CN201511027996 A CN 201511027996A CN 105573686 A CN105573686 A CN 105573686A
Authority
CN
China
Prior art keywords
sensitive keys
document
printed
sensitive
keys word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511027996.6A
Other languages
English (en)
Inventor
袁洪钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Hensun Information Technology Co Ltd
Original Assignee
Suzhou Hensun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Hensun Information Technology Co Ltd filed Critical Suzhou Hensun Information Technology Co Ltd
Priority to CN201511027996.6A priority Critical patent/CN105573686A/zh
Publication of CN105573686A publication Critical patent/CN105573686A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1202Dedicated interfaces to print systems specifically adapted to achieve a particular effect
    • G06F3/1222Increasing security of the print job
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1223Dedicated interfaces to print systems specifically adapted to use a particular technique
    • G06F3/1237Print job management
    • G06F3/1238Secure printing, e.g. user identification, user rights for device usage, unallowed content, blanking portions or fields of a page, releasing held jobs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/12Digital output to print unit, e.g. line printer, chain printer
    • G06F3/1201Dedicated interfaces to print systems
    • G06F3/1278Dedicated interfaces to print systems specifically adapted to adopt a particular infrastructure
    • G06F3/1285Remote printer device, e.g. being remote from client or server
    • G06F3/1288Remote printer device, e.g. being remote from client or server in client-server-printer device configuration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种面向多文档的敏感关键词识别与打印控制方法,客户端将待打印文档提交至打印服务器上;生打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词,若是,则打印服务器将获取的敏感关键词的相关信息写入敏感关键词检测结果表中,以丰富敏感关键词库;若否,则打印服务器将待打印文档加入打印列队,并确认打印输出;打印服务器通过打印机执行打印并记录打印过程的审计信息;其中审计信息包括用户名、文档名称、打印时间、页数、份数。本发明能够有效降低打印成本、消除泄密安全隐患问题。

Description

一种面向多文档的敏感关键词识别与打印控制方法
技术领域
本发明属于计算机打印控制领域,尤其涉及一种面向多文档的敏感关键词识别与打印控制方法。
背景技术
随着办公电子化时代到来,政府部门、企事业单位、科研院所等机构核心数据的打印泄密、无序管理、存储灾难成为管理的挑战,各种敏感数据文档,包括设计文档、研发数据、医药配方、设计图纸、源代码、营销方案、财务报表及其他各种涉及国家机密和商业秘密的文档,一旦外泄将对机构运行、盈利甚至生存带来严重风险。
目前,打印业务流程中缺乏敏感信息审核功能,打印用户存在无意识或有意识地忽略对文档中敏感信息的检查,机构管理者在打印文档数量剧增的情况下,无法对打印的各类文件进行有效审核。因此会造成核心信息泄露、打印文档失控、事故追责困难等问题。
发明内容
针对现有技术的不足,本发明的目的旨在于提供一种用于降低打印成本、消除泄密安全隐患问题的面向多文档的敏感关键词识别与打印控制方法。
为实现上述目的,本发明采用如下技术方案:
一种面向多文档的敏感关键词识别与打印控制方法,包括如下步骤,
步骤1、客户端将待打印文档提交至打印服务器上;
步骤2、打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词,若是,则执行步骤3,若否,则执行步骤4;
步骤3、打印服务器将获取的敏感关键词的相关信息写入敏感关键词检测结果表中,以丰富敏感关键词库;
步骤4、打印服务器将待打印文档加入打印列队,并确认打印输出。
进一步的,所述步骤4后还包括以下步骤,
步骤5、打印服务器通过打印机执行打印并记录打印过程的审计信息;
其中审计信息包括用户名、文档名称、打印时间、页数、份数,以及保存打印输出文档图像备份作为追踪标识、文档回收、举证鉴真的永久数据。
进一步的,所述步骤2中的敏感关键词库具体通过基于文档样本学习和用户自定义方法动态生成。
更进一步的,所述敏感关键词库采用关系型数据库进行数据存储,并采用字典树存储结构。
更进一步的,所述步骤2中的打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词具体包括以下步骤,
步骤21、启动敏感关键词检测系统,加载敏感关键词库到内存;
步骤22、通过目录文件读写子模块读取待打印文档;
步骤23、对待打印文档进行预处理;
步骤24、通过扫描指针依次读取待检测文本中的每个字符,并使用哈希散列函数将每个字符映射到字典树中进行敏感关键词检测,直到扫描指针指向文本结尾;
更进一步的,步骤3中的敏感关键词的相关信息包括标记扫描指针的位置信息、获取敏感关键词的上下文作为该敏感关键词的摘要内容以及获取敏感关键词检测系统的当前时间。
更进一步的,步骤4具体还包括以下步骤,
步骤41、调用打印文档命令,以使待打印文档加入打印列队;
步骤42、在虚拟打印机缓冲区中生成SHD打印缓冲文件和SPL打印缓冲文件;
步骤43、通过Web办公系统或刷卡登陆确认打印输出。
本发明的有益效果如下:本发明针对企事业机构打印机密信息管理需求,采用面向多文档的敏感关键词识别、标定与打印权限控制技术,从而提供了一种集成打印服务管理、关键词标定、内容审核与授权、打印记录统计等功能的分布式打印服务系统,以降低打印成本、消除泄密安全隐患。本发明通过对网络中的多个异构打印设备和打印用户进行管理,建立网络打印环境中用户标识信息,对用户的打印行为进行授权和监控,为打印文档内容审核提供基于关键词库的快速识别与标定算法,辅助管理者进行打印自动审核与授权,可用于对各种国家和商业秘密文档进行打印信息输出保护。
附图说明
图1为本发明一种面向多文档的敏感关键词识别与打印控制方法的流程图。
具体实施方式
下面将结合附图以及具体实施方式,对本发明做进一步描述:
本发明运行于网络化打印环境(两节点以上)内,该网络化打印环境由打印服务器、打印客户端以及打印机等逻辑节点构成。
本发明采用虚拟打印技术为打印客户端设计一台虚拟打印机,屏蔽非授权打印许可,强制用户必须使用虚拟打印机进行所有的打印操作,用户所有待打印文档必须通过Web办公管理系统提交管理者审核,经授权打印服务器将待打印文档加入打印机任务队列,用户在Web办公系统或刷卡登录确认打印后,输出待打印文档。
具体请参见图1,本发明涉及一种面向多文档的敏感关键词识别与打印控制方法,其较佳实施方式包括如下步骤,
步骤S1、客户端将待打印文档提交至打印服务器上。
步骤S2、打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词,若是,则执行步骤S3,若否,则执行步骤S4。此处即为基于敏感关键词快速匹配识别算法的打印内容审核,其中敏感关键词快速匹配识别算法主要完成对待打印文档的敏感关键词检测。
步骤S3、打印服务器将获取的敏感关键词的相关信息写入敏感关键词检测结果表中,以丰富敏感关键词库。
步骤S4、打印服务器将待打印文档加入打印列队,并确认打印输出。
步骤S5、打印服务器通过打印机执行打印并记录打印过程的审计信息;
其中审计信息包括用户名、文档名称、打印时间、页数、份数,以及保存打印输出文档图像备份作为追踪标识、文档回收、举证鉴真的永久数据。
其中,步骤S2中具体通过基于文档样本学习和用户自定义方法动态生成敏感关键词库,用户可以根据自身保密要求定义核心数据保护的业务规范,为控制打印输出提供依据。具体的,敏感关键词库构建的过程中,初始词库的建立可由用户根据机构自身业务,定义敏感信息关键词,并通过敏感关键词库维护人机接口进行动态添加。进一步的,初始词库建立完成后还需要不断的更新,本发明依据关键词库内现有关键词(最初为用户定义)作为敏感信息本体,采用包含敏感信息的文档作为专门样本,或日常提交打印文档样本,同时采用Bayes多样本机器学习算法,自动抽取敏感关键词以不断丰富敏感关键词库。敏感关键词库采用关系型数据库进行数据存储,为了提升算法加载效率采用字典树存储结构。Bayes多样本机器学习算法是一种机器学习算法,即使用原来的敏感关键词加上已确认的含有敏感关键词的文档样本,来丰富敏感关键词库,提高敏感关键文档的识别正确率。
更进一步的,所述步骤S2中的打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词具体包括以下步骤,
步骤S21、启动敏感关键词检测系统,加载敏感关键词库到内存。
步骤S22、通过目录文件读写子模块读取待打印文档。
步骤S23、对待打印文档进行预处理。
步骤S24、通过扫描指针依次读取待检测文本中的每个字符,并使用哈希散列函数将每个字符映射到字典树中进行敏感关键词检测,直到扫描指针指向文本结尾。
更进一步的,步骤S3中的敏感关键词的相关信息包括标记扫描指针的位置信息、获取敏感关键词的上下文作为该敏感关键词的摘要内容以及获取敏感关键词检测系统的当前时间。
更进一步的,步骤S4具体还包括以下步骤,
步骤S41、调用打印文档命令,以使待打印文档加入打印列队。
步骤S42、在虚拟打印机缓冲区中生成SHD打印缓冲文件和SPL打印缓冲文件。其中打印文档命令启动后,Window打印进程spoolsv待将打印文档生成打印机驱动程序可解析的SHD打印缓冲文件和SPL打印缓冲文件,等待打印处理器接受命令后,启动打印机依据SHD打印缓冲文件包含的打印数据信息和SPL打印缓冲文件包含的打印控制信息执行打印作业
步骤S43、通过Web办公系统或刷卡登陆确认打印输出。
本发明建立了符合企事业机构管理流程的核心数据打印控制机制,采取文档样本学习和用户自定义方法构建用于核心数据保护的敏感关键词库,开发了能适用于常见多类型文档的敏感关键词快速识别匹配算法,辅助用户便捷地对打印文档进行内容审核和授权机制,并对打印输出文档进行记录,从而为核心数据保护提供了有效的支撑。
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

Claims (7)

1.一种面向多文档的敏感关键词识别与打印控制方法,其特征在于,包括如下步骤,
步骤1、客户端将待打印文档提交至打印服务器上;
步骤2、打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词,若是,则执行步骤3,若否,则执行步骤4;
步骤3、打印服务器将获取的敏感关键词的相关信息写入敏感关键词检测结果表中,以丰富敏感关键词库;
步骤4、打印服务器将待打印文档加入打印列队,并确认打印输出。
2.如权利要求1所述的面向多文档的敏感关键词识别与打印控制方法,其特征在于,所述步骤4后还包括以下步骤,
步骤5、打印服务器通过打印机执行打印并记录打印过程的审计信息;
其中审计信息包括用户名、文档名称、打印时间、页数、份数,以及保存打印输出文档图像备份作为追踪标识、文档回收、举证鉴真的永久数据。
3.如权利要求1所述的面向多文档的敏感关键词识别与打印控制方法,其特征在于,所述步骤2中的敏感关键词库具体通过基于文档样本学习和用户自定义方法动态生成。
4.如权利要求3所述的面向多文档的敏感关键词识别与打印控制方法,其特征在于,所述敏感关键词库采用关系型数据库进行数据存储,并采用字典树存储结构。
5.如权利要求4所述的面向多文档的敏感关键词识别与打印控制方法,其特征在于,所述步骤2中的打印服务器检测待打印文档中是否包含敏感关键词库中的敏感关键词具体包括以下步骤,
步骤21、启动敏感关键词检测系统,加载敏感关键词库到内存;
步骤22、通过目录文件读写子模块读取待打印文档;
步骤23、对待打印文档进行预处理;
步骤24、通过扫描指针依次读取待检测文本中的每个字符,并使用哈希散列函数将每个字符映射到字典树中进行敏感关键词检测,直到扫描指针指向文本结尾。
6.如权利要求5所述的面向多文档的敏感关键词识别与打印控制方法,其特征在于,所述步骤3中的敏感关键词的相关信息包括标记扫描指针的位置信息、获取敏感关键词的上下文作为该敏感关键词的摘要内容以及获取敏感关键词检测系统的当前时间。
7.如权利要求6所述的面向多文档的敏感关键词识别与打印控制方法,其特征在于,步骤4具体还包括以下步骤,
步骤41、调用打印文档命令,以使待打印文档加入打印列队;
步骤42、在虚拟打印机缓冲区中生成SHD打印缓冲文件和SPL打印缓冲文件;
步骤43、通过Web办公系统或刷卡登陆确认打印输出。
CN201511027996.6A 2015-12-31 2015-12-31 一种面向多文档的敏感关键词识别与打印控制方法 Pending CN105573686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511027996.6A CN105573686A (zh) 2015-12-31 2015-12-31 一种面向多文档的敏感关键词识别与打印控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511027996.6A CN105573686A (zh) 2015-12-31 2015-12-31 一种面向多文档的敏感关键词识别与打印控制方法

Publications (1)

Publication Number Publication Date
CN105573686A true CN105573686A (zh) 2016-05-11

Family

ID=55883880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511027996.6A Pending CN105573686A (zh) 2015-12-31 2015-12-31 一种面向多文档的敏感关键词识别与打印控制方法

Country Status (1)

Country Link
CN (1) CN105573686A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908378A (zh) * 2017-12-20 2018-04-13 北京明朝万达科技股份有限公司 一种打印控制方法及装置
CN109254868A (zh) * 2018-08-29 2019-01-22 新华三信息安全技术有限公司 一种文件检测方法及装置
CN110471634A (zh) * 2019-08-22 2019-11-19 晓印(北京)科技有限公司 打印方法、装置及可读存储介质
CN111144943A (zh) * 2019-12-26 2020-05-12 北京数衍科技有限公司 获取消费数据的方法、装置和服务器
CN114826789A (zh) * 2022-06-29 2022-07-29 北京辰光融信技术有限公司 一种确保数据安全传输的打印控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6914689B2 (en) * 2001-02-14 2005-07-05 Hewlett-Packard Development Company, L.P. Printer document viewer
CN102523255A (zh) * 2011-11-30 2012-06-27 北京京航计算通讯研究所 基于虚拟打印技术的打印安全监控与审计系统
CN103218186A (zh) * 2011-11-25 2013-07-24 柯尼卡美能达商用科技株式会社 信息处理装置、打印服务器、印刷控制系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6914689B2 (en) * 2001-02-14 2005-07-05 Hewlett-Packard Development Company, L.P. Printer document viewer
CN103218186A (zh) * 2011-11-25 2013-07-24 柯尼卡美能达商用科技株式会社 信息处理装置、打印服务器、印刷控制系统和方法
CN102523255A (zh) * 2011-11-30 2012-06-27 北京京航计算通讯研究所 基于虚拟打印技术的打印安全监控与审计系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908378A (zh) * 2017-12-20 2018-04-13 北京明朝万达科技股份有限公司 一种打印控制方法及装置
CN109254868A (zh) * 2018-08-29 2019-01-22 新华三信息安全技术有限公司 一种文件检测方法及装置
CN109254868B (zh) * 2018-08-29 2022-06-21 新华三信息安全技术有限公司 一种文件检测方法及装置
CN110471634A (zh) * 2019-08-22 2019-11-19 晓印(北京)科技有限公司 打印方法、装置及可读存储介质
CN111144943A (zh) * 2019-12-26 2020-05-12 北京数衍科技有限公司 获取消费数据的方法、装置和服务器
CN114826789A (zh) * 2022-06-29 2022-07-29 北京辰光融信技术有限公司 一种确保数据安全传输的打印控制方法及系统

Similar Documents

Publication Publication Date Title
CN105573686A (zh) 一种面向多文档的敏感关键词识别与打印控制方法
US8259322B2 (en) Printing system, printing program, information collection method, information search method and information search system
US20100046015A1 (en) Methods and systems for controlled printing of documents including sensitive information
CA3149615C (en) Systems and methods for creating enhanced documents for perfect automated parsing
US11188707B1 (en) Systems and methods for creating enhanced documents for perfect automated parsing
US11893136B2 (en) Token-based data security systems and methods with cross-referencing tokens in freeform text within structured document
US9904497B2 (en) Copyright infringement prevention
CN112132710B (zh) 法律要素处理方法、装置、电子设备及存储介质
US8264707B2 (en) Enforcing reproduction rights for hard copies of documents
US11537737B2 (en) De-tokenization patterns and solutions
CN117235790A (zh) 打印信息脱敏方法、装置、电子设备及存储介质
JP2010049520A (ja) 機密情報プリント安全管理システム
US9088735B2 (en) Computer-based system and method for adding variable security data in printing operations
Tornés et al. Receipt Dataset for Document Forgery Detection
GB2411330A (en) A means for document security tracking
CN110069903B (zh) 一种确定查阅文本数据的用户的方法及装置
TW201520944A (zh) 銀行報表管理系統
NZ785670A (en) Systems and Methods for Creating Enhanced Documents for Perfect Automated Parsing
Enami Information commons: Concept of disclosing public information in an era of personal privacy and information protection
Davies et al. Ensuring the integrity of electronic laboratory notebook records: a properly designed, implemented, and deployed electronic laboratory notebook system can ensure data integrity and allow the records to stand up in court

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215000 Suzhou Industrial Park, Jiangsu, if waterway No. 99

Applicant after: Jiangsu Hengsheng Information Technology Co. Ltd.

Address before: 215000, Suzhou Jiangsu Industrial Park, Star Road, 199 technical transformation zone, supporting services center, public building 1, B2, B3

Applicant before: SUZHOU HENSUN INFORMATION TECHNOLOGY CO., LTD.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160511