CN107016320B - 一种基于中文词库提高图片密级识别准确率的方法 - Google Patents

一种基于中文词库提高图片密级识别准确率的方法 Download PDF

Info

Publication number
CN107016320B
CN107016320B CN201610054848.1A CN201610054848A CN107016320B CN 107016320 B CN107016320 B CN 107016320B CN 201610054848 A CN201610054848 A CN 201610054848A CN 107016320 B CN107016320 B CN 107016320B
Authority
CN
China
Prior art keywords
picture
chinese
word
security level
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610054848.1A
Other languages
English (en)
Other versions
CN107016320A (zh
Inventor
梁效宁
甘元军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xly Salvationdata Technology Inc
Original Assignee
Xly Salvationdata Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xly Salvationdata Technology Inc filed Critical Xly Salvationdata Technology Inc
Priority to CN201610054848.1A priority Critical patent/CN107016320B/zh
Publication of CN107016320A publication Critical patent/CN107016320A/zh
Application granted granted Critical
Publication of CN107016320B publication Critical patent/CN107016320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于中文词库提高图片密级识别准确率的方法,包括下面步骤:S1:收集密级词语,生成中文词库;S2:使用OCR软件对图片进行识别,获取图片中的文字信息;S3:判断获取的文本结果中是否包含单字密级;S4:密级过滤;S5:输出是否为密级文档的结果。本发明的有益效果如下:不需要对已有的OCR识别技术进行调整。而是对已有OCR技术获取的文本进行语义上的过滤和判断,达到提高准确率的目的。采用汉语中的现有词库作为本专利的过滤词库,不需要为本技术定制特殊词库,从而大大节约实现成本。

Description

一种基于中文词库提高图片密级识别准确率的方法
技术领域
本发明涉及信息安全技术领域,特别涉及一种基于中文词库提高图片密级识别准确率的方法。
背景技术
目前市面上图片密级识别程序不多,而且又都主要依赖商业OCR软件(如微软的MODI、GOOGLE的开源OCR、汉王等),但直接将商业OCR软件应用于图片密级识别大都有如下问题:
很多待识别图像都是直接的纸质翻拍图片,易出现模糊、像素低、倾斜等情况,而OCR在识别这类图片时识别率较低,容易出现识别不到或识别成其他文字的情况。为了改进这种情况,很多厂商都会对图像进行一些专门的预处理。虽然这种预处理可以提高秘密、机密、绝密等文字的识别率,但对于其他文字通常会出现更高的误报率。例如:将正常的其他文字识别成秘密、机密等字样,造成本是无密级的图片被识别成有密级图片,从而大大降低了图片密级识别的准确率。
本发明涉及到的专业术语:
词库:词库是词语资料的集合,存贮于数据库中以备特定的程序检索调用。
中文词库:中文词语的集合。
文档密级标识:为防止电子文件泄密,对不同秘密程度的电子文件进行分类,如无密级、秘密、机密和绝密,然后在电子文件上做上标记,使得电子文件得到相应程度的安全保护。这个过程就是密级标识过程,电子文件上关于秘密程度的标记就是密级标识。国家有关部门对密级标识作出了明确的要求,即:电子文件一旦标识了密级,密级不得随意改动;密级标识与电子文件不得分离。
图片密级识别:对图片类电子文档,利用OCR技术将图片内容转换成文字内容,并对文字内容进行分析获取其文档密级标识的过程。识别的主要方法是判断文字中是否包含秘密、机密、绝密等字样,如不包含这些字样则可确认为无秘。
OCR:(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
发明内容
本发明针对现有技术的缺陷,提供了一种基于中文词库提高图片密级识别准确率的方法,能有效的解决上述现有技术存在的问题。
一种基于中文词库提高图片密级识别准确率的方法,包括下面步骤:
S1:收集非密级词语,生成中文词库;
S2:使用OCR软件对图片进行识别,获取图片中的文字信息;
S3:判断获取的文本结果中是否包含单字密级;
S4:密级过滤,通过判断单字构成的词是否在生成的中文词库中,如果单字组成的词在中文词库中,则此图片不是密级文档;如果单字组成的词不在中文词库中,则此图片为密级文档;
S5:输出是否为密级文档的结果。
作为优选,所述S3的详细步骤如下:
S301:如果结果中包含完整的密级词语字样,则可直接确定图片的密级标识为找到的密级字样,不需要再进入后面步骤,结束;
S302:如果结果中包含单字密级标识,则进入S4步进行密级过滤。
与现有技术相比本发明的优点在于:不需要对已有的OCR识别技术进行调整。而是对已有OCR技术获取的文本进行语义上的过滤和判断,达到提高准确率的目的。
采用汉语中的现有词库作为本专利的过滤词库,不需要为本技术定制特殊词库,从而大大节约实现成本。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下举实施例,对本发明做进一步详细说明。
一种基于中文词库提高图片密级识别准确率的方法,包括以下步骤:
S1:收集非密级词语,生成中文词库;
非密级词语包括:
所有含有“机”字的词语,不能包含“机密”,如:机器、机关等;
所有含有“绝”字的词语,不能包含“绝密”,如:绝对、灭绝等;
所有含有“秘”字的词语,不能包含“秘密”,如:私密、隐秘等;
所有含有“密”字的词语,不能包含“机密”、“绝密”、“秘密”;如:密码、密云等。
S2:使用OCR软件(如汉王、MODI等)对图片进行识别,获取图片中的文字信息;
S3:判断获取的文本结果中是否包含单字密级。
S301:如果结果中包含完整的密级词语如“机密”、“秘密”、“绝密”等字样,则可直接确定图片的密级标识为找到的密级字样,不需要再进入后面步骤,结束;
S302:如果结果中包含“机”、“秘”、“绝”、“密”等单字密级标识,则进入S4步进行密级过滤。
S4:密级过滤。如果只在步骤S2结果中找到“机”、“秘”、“绝”、“密”等单字密级标识,则说明OCR取得文本有误或未提取完整。通过单一字样并不能确定图片的密级,如:只包含“机”字,我们不能确定它就是机密文档,它也可能是“机器”、“机会”等字样,本步骤主要通过判断单字构成的词是否在生成的中文词库中,来确定图片的密级,达到提高准确率的目的。如果单字组成的词在中文词库中,则此图片不是密级文档;如果单字组成的词不在中文词库中,则此图片可推断为密级文档。
S5:输出是否为密级文档的结果。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (1)

1.一种基于中文词库提高图片密级识别准确率的方法,包括下面步骤:
S1:收集非密级词语,生成中文词库;
S2:使用OCR软件对图片进行识别,获取图片中的文字信息;
S3:判断获取的文本结果中是否包含单字密级,所述S3的详细步骤如下:
S301:如果结果中包含完整的密级词语字样,则可直接确定图片的密级标识为找到的密级字样,不需要再进入后面步骤,结束;
S302:如果结果中包含单字密级标识,则进入S4步进行密级过滤;
S4:密级过滤,通过判断单字构成的词是否在生成的中文词库中,如果单字组成的词在中文词库中,则此图片不是密级文档;如果单字组成的词不在中文词库中,则此图片为密级文档;
S5:输出是否为密级文档的结果。
CN201610054848.1A 2016-01-27 2016-01-27 一种基于中文词库提高图片密级识别准确率的方法 Active CN107016320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610054848.1A CN107016320B (zh) 2016-01-27 2016-01-27 一种基于中文词库提高图片密级识别准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610054848.1A CN107016320B (zh) 2016-01-27 2016-01-27 一种基于中文词库提高图片密级识别准确率的方法

Publications (2)

Publication Number Publication Date
CN107016320A CN107016320A (zh) 2017-08-04
CN107016320B true CN107016320B (zh) 2021-08-03

Family

ID=59438925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610054848.1A Active CN107016320B (zh) 2016-01-27 2016-01-27 一种基于中文词库提高图片密级识别准确率的方法

Country Status (1)

Country Link
CN (1) CN107016320B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329057A (zh) * 2020-11-03 2021-02-05 平安信托有限责任公司 文档管理方法、装置、设备及计算机可读存储介质
CN116089910B (zh) * 2023-02-16 2023-10-20 北京计算机技术及应用研究所 一种支持多种格式电子文档的密级检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510268A (zh) * 2009-03-20 2009-08-19 南京航空航天大学 一种涉密图纸的自动鉴别方法
CN102171702A (zh) * 2008-10-03 2011-08-31 起元技术有限责任公司 机密信息的检测
CN102819604A (zh) * 2012-08-20 2012-12-12 徐亮 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102171702A (zh) * 2008-10-03 2011-08-31 起元技术有限责任公司 机密信息的检测
CN101510268A (zh) * 2009-03-20 2009-08-19 南京航空航天大学 一种涉密图纸的自动鉴别方法
CN102819604A (zh) * 2012-08-20 2012-12-12 徐亮 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《内联网密级文件安全检测系统的研究与设计》;熊国华;《中国优秀硕士学位论文全文数据库信息科技辑》;20090915;第I139-89页 *
《基于OCR技术的涉密文档监控系统设计与实现》;徐建文;《万方中国学位论文全文数据库》;20150701;第1-75页; *
《基于百科资源的多策略中文同义词自动抽取研究》;陆勇;《中国图书馆学报》;20100131;第36卷(第185期);第56-62页 *

Also Published As

Publication number Publication date
CN107016320A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
KR101585029B1 (ko) 문서 인식 분류 시스템
JP7080308B2 (ja) 顔ロック解除方法、その情報登録方法及び装置、機器並びに媒体
EP3511868A1 (en) Document authenticity determination
KR102503880B1 (ko) 머신 판독 가능 보안 마크 및 이를 생성하는 프로세스
CN112085643B (zh) 图像脱敏处理方法、验证方法及装置、设备及介质
Abramova et al. Detecting copy–move forgeries in scanned text documents
RU2656573C2 (ru) Методы обнаружения введенных пользователем контрольных меток
CN111160860A (zh) 一种文件的打印及盖章方法
US7596270B2 (en) Method of shuffling text in an Asian document image
CN107016320B (zh) 一种基于中文词库提高图片密级识别准确率的方法
CN110321881B (zh) 识别包含身份证明证件的图像的系统和方法
Bulatov et al. Towards a unified framework for identity documents analysis and recognition
US9818028B2 (en) Information processing apparatus for obtaining a degree of similarity between elements
Eskenazi et al. When document security brings new challenges to document analysis
JP7338135B2 (ja) 認識処理装置及びプログラム
CN111683202A (zh) 一种票据盖章方法、装置、设备及存储介质
JP2012049860A (ja) 画像処理装置、画像処理方法およびプログラム
KR101877609B1 (ko) 특정 문자열의 표시 제어가 가능한 화상처리장치
RU2431192C1 (ru) Способ внедрения скрытого цифрового сообщения в печатаемые документы и извлечения сообщения
CN112100630A (zh) 一种针对保密文件的识别方法
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
IES61092B2 (en) Automated forms processing
RU2790938C1 (ru) Способ и система защиты информации от утечки при печати документов с помощью внедрения цифровых меток
KR102523598B1 (ko) 출입자 신원 무인 인증시스템
JP7367411B2 (ja) 画像照会装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant