CN106991391A - 文档处理装置以及文档处理和识别系统 - Google Patents

文档处理装置以及文档处理和识别系统 Download PDF

Info

Publication number
CN106991391A
CN106991391A CN201710203265.5A CN201710203265A CN106991391A CN 106991391 A CN106991391 A CN 106991391A CN 201710203265 A CN201710203265 A CN 201710203265A CN 106991391 A CN106991391 A CN 106991391A
Authority
CN
China
Prior art keywords
document
document processing
source
information
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710203265.5A
Other languages
English (en)
Inventor
曹永刚
王晓珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Image Technology (shanghai) Co Ltd
Ricoh Imaging Technology Shanghai Co Ltd
Original Assignee
Ricoh Image Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Image Technology (shanghai) Co Ltd filed Critical Ricoh Image Technology (shanghai) Co Ltd
Priority to CN201710203265.5A priority Critical patent/CN106991391A/zh
Publication of CN106991391A publication Critical patent/CN106991391A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

本发明提供了一种文档处理装置,以及含有该文档处理装置的文档处理和识别系统。本发明的一种文档处理装置,用于将文档来源信息添加到文档中,其特征在于,包括:画面存储部;显示输入部;来源信息转化部;扫描框设定部;特定区域计数部;处理侧区域分组部;以及文档处理部。所以,在输出的文档中就添加了肉眼不可见的来源信息,正因为该来源信息是肉眼不可见的,输出或是打印后就无法通过图像处理将这些来源信息进行破坏和移除,保证了来源信息的稳定性,提高了破坏的难度。本发明提供的文档处理和识别系统,能够将文档中添加的识别信息进行识别和解析,然后输出对应的来源信息。

Description

文档处理装置以及文档处理和识别系统
技术领域
本发明涉及一种文档处理装置和含有该文档处理装置的处理和识别系统。
技术背景
在公司、行政机关、科研机构等单位经常需要对纸质的印刷文档,比如商业合同、法律文书、行政文件等进行来源标识,即通过在印刷文档上添加表示该文件是由谁制作、由谁保管、制作打印时间、文件系列号等标记来标识来对文件后续的分发、传递过程中出现的泄漏进行追溯和管理。
比如,在政府机关中,如果要对某一份限量分发的机密文档进行标识,通常的做法是在该文件上添加表示文档制作者、文档保管者、文档编号的字符或是编码有这些信息的图形码,如将以上字符或是图形码(条形码、二维码等)直接添加在页眉或页脚处,或者直接在文件上添加图像水印。一旦某份文件被拍照、复印或是传真而泄漏出去,就可以通过识别泄露出去的文件上的标识来进一步追踪该被泄露的文件的源头。
然而,无论是使用可以直接辨识的文字字符或是需要进行解析的图形码或是直接添加在整个印刷文档页面上的水印,都是肉眼可见的,很容易通过后续的技术操作将这些字符、图形水印或是图形码移除,从而使得上述的方法无法对泄密的印刷文档进行追根溯源,无法起到预定的文档追溯的目的。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种能够将来源信息添加到文档中,使得肉眼不可见而又能够通过反向的处理解析来得到添加的来源信息的文档处理装置,以及含有该文档处理装置的文档处理和识别系统。
本发明为了实现上述目的,采用了以下结构:
<结构一>
本发明提供一种文档处理装置,用于将文档来源信息添加到文档中,其特征在于,包括:画面存储部,至少存储有来源信息输入提示画面、扫描框设定画面;显示输入部,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值;来源信息转化部,将来源信息根据编码规则转化成对应的长度为N位二进制数码;扫描框设定部,接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件;特定区域计数部,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目M;处理侧区域分组部,将M个特定区域分成N组;以及文档处理部,将N位二进制数码与N组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。
<结构二>
进一步地,本发明还提供一种文档处理和识别系统,其特征在于,包括:文档预处理装置,用于对文档像素进行黑白二值化转化,得到黑白像素的二值化文档;文档处理装置,用于将文档来源信息添加到二值化文档中;以及文档识别装置,用于从添加了来源信息的二值化文档中识别出来源信息,其中,文档处理装置为具有上述特征的文档处理装置,文档识别装置具有:特定区域计数部,采用扫描条件对二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目S;区域分组部,将S个特定区域分成N组;图像变换部,对N组中的特定区域进行图像变换;高频分量计算部,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例;判定部,当高频分量超过1.0所占的比例大于或等于判定阈值T时,判定该组特定区域所对应的二进制数码为1,否则判定为0;二进制数码输出部,依次排列判定部的判定结果,得到N位长度的二进制数码;来源信息解析输出部,对得到的N位长度的二进制数码依照编码规则进行转换后输出,得到来源信息,判定阈值T满足50%≤T≤100%。。
发明的作用与效果
根据本发明涉及的文档处理装置,因为显示输入部能够显示预先存储在画面存储部中的来源信息输入提示画面和扫描框设定画面,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值,来源信息转化部能够将来源信息根据编码规则转化成对应的长度为N位的二进制数码,扫描框设定部能够接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件,处理侧特定区域计数部能够采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目M,处理侧区域分组部能够将M个特定区域分成N组,文档处理部能够将N位二进制数码与N组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。
所以,在输出的文档中就添加了肉眼不可见的来源信息,正因为该来源信息是肉眼不可见的,输出或是打印后就无法通过图像处理将这些来源信息进行破坏和移除,保证了来源信息的稳定性,提高了破坏的难度。
又由于,本发明提供的文档识别装置,能够通过图像变换部、高频分量计算部以及识别部根据文档处理装置在处理时所采用的属性条件、图像变换方法以及判定阈值和编码规则将文档中添加的识别信息进行识别和解析,然后输出对应的来源信息。
所以,通过对添加有来源信息的文档进行识别,通过识别出的来源信息就可以对文档进行追溯和管理。
附图说明
图1为本发明的实施例中文档处理和识别系统的框图;
图2为本发明的实施例文档处理装置的框图;
图3为为本发明的实施例中的画面存储部存储的来源信息输入提示画面示意图;
图4为为本发明的实施例中的画面存储部存储的扫描框设定画面示意图;
图5为本实施例中以全部为白像素点的4×4像素点扫描框按照预定规则翻转后的示意图;
图6为本发明的实施例中文档处理装置的动作流程图;
图7为本实施例的文档处理装置在对文档中的文字处理前后的对比示意图,图7(a)为5号字在未处理时的示意图,图7(b)为5号字在处理后的示意图,图7(c)为5号字在处理后放大2倍的示意图,图7(d)为5号字在处理后放大10倍的示意图;
图8为本实施例的文档处理装置在对一页文档处理前后的对比示意图,图8(a)为5号字的一页A4文档在未处理时的示意图,图8(b)为5号字的一页A4文档在处理后的局部10倍放大示意图;
图9为本发明的实施例中文档识别装置的框图;以及
图10为本发明的实施例中文档识别装置的动作流程图。
具体实施方式
以下结合附图对本发明涉及的文档处理和识别系统的实施形态进行详细地说明。
在本发明的第一种实施形态中,提供一种文档处理装置,用于将文档来源信息添加到文档中,其特征在于,包括:画面存储部,至少存储有来源信息输入提示画面、扫描框设定画面;显示输入部,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值;来源信息转化部,将来源信息根据编码规则转化成对应的长度为N位二进制数码;扫描框设定部,接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件;特定区域计数部,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目M;处理侧区域分组部,将M个特定区域分成N组;以及文档处理部,将N位二进制数码与N组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。
在该实施形态的文档处理装置中,还可以具有这样的特征:其中,属性值包括扫描框的像素点尺寸、扫描框中的邻接的黑像素点的数值。
另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,扫描框为矩形,其尺寸为长X个像素点,宽为Y个像素点,X≥Y,扫描框中的邻接的黑像素点的个数值P满足X≤P≤XY,X、Y、P均为不小于2的整数。
另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,预定规则为对对该组中的所有的特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转。
另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,间隔的黑白像素点对调翻转的间隔为1到Y-1的整数。
另外,在该实施形态的文档处理装置中,还可以具有:提示信息生成部、判断部,当第一判断部判断特定区域的个数M小于二进制数码的位数N时,提示信息生成部就生成提示信息,显示输入部就根据提示信息显示扫描框设定画面,让用户再次输入扫描框的属性值。
另外,在该实施形态的文档处理装置中,还可以具有这样的特征:其中,编码规则为ascii、unicode、utf8、big5、gb2312、gbk、gb18030中的任意一种。
另外,在该实施形态的文档处理置中,还可以具有这样的特征:其中,来源信息包括文档的权利人的身份信息、文档的形成时间以及文档的编号。
在本发明的第二种实施形态中,提供一种文档处理和识别系统,其特征在于,包括:文档预处理装置,用于对文档像素进行黑白二值化转化,得到黑白像素的二值化文档;文档处理装置,用于将文档来源信息添加到二值化文档中;以及文档识别装置,用于从添加了来源信息的二值化文档中识别出来源信息,其中,文档处理装置为权利要求1-9中任意一项的文档处理装置,文档识别装置具有:特定区域计数部,采用扫描条件对二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目S;区域分组部,将S个特定区域分成N组;图像变换部,对N组中的特定区域进行图像变换;高频分量计算部,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例;判定部,当高频分量超过1.0所占的比例大于或等于判定阈值T时,判定该组特定区域所对应的二进制数码为1,否则判定为0;二进制数码输出部,依次排列判定部的判定结果,得到N位长度的二进制数码;来源信息解析输出部,对得到的N位长度的二进制数码依照编码规则进行转换后输出,得到来源信息,判定阈值T满足50%≤T≤100%。
实施例一
图1为本发明的实施例中文档处理和识别系统的框图。
如图1所示,文档处理和识别系统10包括文档处理装置20、文档识别装置30和文档预处理装置40。
在本实施例中,文档处理装置20和文档识别装置30、文档预处理装置40是通信连接的,具体来说是通过导线物理连接在一起的。文档预处理装置40用于对文档像素进行黑白二值化转化,得到黑白像素的二值化文档,所以本实施例中的文档处理装置20、文档识别装置30所进行处理的都是经过二值化转化的二值化文档。
图2为本发明的实施例中文档处理装置的框图。
如图2所示,文档处理装置20具有画面存储部201、显示输入部202、来源信息转化部203、扫描框设定部204、处理侧特定区域计数部205、判断部206、提示信息生成部207、处理侧区域分组部208、文档处理部209以及处理侧控制部210。
画面存储部201存储有来源信息输入提示画面2011、扫描框设定画面2012。
图3为为本发明的实施例中的画面存储部存储的来源信息输入提示画面示意图。
显示输入部202在处理侧控制部210的控制下显示对应的画面并让用户进行输入操作。处理侧控制部208控制显示输入部202显示来源信息输入提示画面2011。
如图3所示,来源信息输入提示画面2011具有来源信息输入区域2011a、最多字符输入数目提示区域2011b以及确定按键2011c,本实施例中最多字符输入数目为50个英文字符和标点。用户在对应的来源信息输入区域2011a输入对应的字符后,点击确定按键2011c完成输入过程。
来源信息转化部203在处理侧控制部210的控制下,将用户输入的来源信息根据编码规则在转化为长度为420位的二进制数码。编码规则为ascii、unicode、utf8、big5、gb2312、gbk、gb18030中的任意一种,可以根据来源信息的字符类别进行选择编码规则。将来源信息的a个字符串(如英文子母,标点符号)编码为连续的二进制数码,本实施例使用ascii编码规则,将a个字符串顺序编码为8a位二进制数码,N位中空白的部分用二进制数码0补齐。本实施例中二进制数码的位数为420位,最多可以编码50个英文字符和标点,剩余20个作为空白,不编码任何字符。
处理侧控制部210控制输入显示部202显示扫描框设定画面2012。扫描框的扫描条件具体为:扫描框为矩形,其长属性值为X个像素点,宽属性值为Y个像素点且X≥Y,扫描框中的邻接的黑像素点的个数值P满足X≤P≤XY,X、Y、P均为大于2的整数。本实施例中为矩形扫描框,长X为4个像素,宽X也为4个像素,扫描框中的邻接的黑像素点的个数值P为4到12,即下限值为4,上限值为12。
图4为为本发明的实施例中的画面存储部存储的扫描框设定画面示意图。
如图所示,扫描框设定画面2012包括像素点长度输入区域2012a、像素点宽度输入区域2012b、扫描框中的邻接的黑像素点的个数下限值输入区域2012c和上限值输入区域2012d以及确定按键2012e。用户分别在对应的区域中进行输入。用户在对应的像素点长度输入区域2012a、像素点宽度输入区域2012b、扫描框中的邻接的黑像素点的个数下限值输入区域2012c和上限值输入区域2012d输入对应的属性值后,点击确确定按键2012e完成输入过程。
扫描框设定部204在处理侧控制部210的控制下,接收用户输入的扫描框的各种属性值来设定对文档进行扫描的扫描条件。
处理侧特定区域计数部205在处理侧控制部210的控制下,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目M。
判断部206对特定区域的个数M是否小于二进制数码的位数420进行判断。
当判断部206判断特定区域的个数M小于二进制数码的位数N时,提示信息生成部207就生成提示信息,显示输入部202就根据提示信息显示扫描框设定画面2012,让用户再次输入扫描框的属性值。
当判断结果为是时,再次输入提示信息生成部207就生成提示信息,显示输入部202就根据提示信息显示扫描框设定画面2012,提示用户再次输入扫描框的属性值:长属性值、宽属性值以及邻接的黑像素点的个数的下限值和上限值。
当判断结果为否时,处理侧区域分组部208将M个特定区域分成N组。
文档处理部209在处理侧控制部210的控制下,将N位二进制数码与N组特定区域进行一一对应。当与该组对应的二进制数码为1时,对该组中的所有的特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转。当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。本实施例中,选用的是长X为4个像素,宽X也为4个像素,扫描框中的邻接的黑像素点的个数值P为4到12,即下限值为4,上限值为12。间隔数确定为1,即从第一个开始,第一个对调翻转,第二个不翻转,第三个对调翻转,第四个不翻转……如此循环。
图5为本实施例中以全部为白像素点的4×4像素点扫描框按照预定规则翻转后的示意图。
如图5所示,对全部为白像素点的4×4像素点扫描框进行翻转后得到的处理结果,处理过程是从第一行开始,从左到右,第一个由白翻转为黑,第二个不翻转保持白像素点不变,第三个由白翻转为黑,第四个不翻转保持白像素点不变,然后从第二行开始,从右到左,第五个由白翻转为黑,第六不翻转保持白像素点不变,第七个由白翻转为黑,第八个不翻转保持白像素点不变……,如此循环操作,就得到了图4的示意图。
文档的所有特定区域按照上述的预定规则处理后就得到了添加了对应了来源信息的420位二进制数码的文档。
图6为本发明的实施例中文档处理装置的动作流程图。
如图6所示,本实施例中的文档处理装置20的动作流程包括以下步骤:
步骤S1-1:文档处理装置20中的显示输入部202显示来源信息输入提示画面让用户输入来源信息,进入步骤S1-2。
步骤S1-2:文档处理装置20中的显示输入部202显示扫描框设定画面让用户输入扫描框的属性值,进入步骤S1-3。
步骤S1-3:来源信息转化部203将用户输入的来源信息根据编码规则在转化为长度为N位的二进制数码,进入步骤S1-4。
步骤S1-4:扫描框设定部204在处理侧控制部210的控制下,接收用户输入的扫描框的各种属性值来设定对文档进行扫描的扫描条件,进入步骤S1-5。
步骤S1-5:处理侧特定区域计数部205在处理侧控制部210的控制下,采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目M,进入步骤S1-6。
步骤S1-6:判断部206对特定区域的个数M是否小于二进制数码的位数N进行判断,当判断部判断特定区域的个数M小于二进制数码的位数N时,提示信息生成部就生成提示信息,并进入步骤S1-2,否则进入步骤S1-7。
步骤S1-7:处理侧区域分组部208将M个特定区域分成N组,进入步骤S1-8。
步骤S1-8:文档处理部209在处理侧控制部210的控制下,将N位二进制数码与N组特定区域进行一一对应。
步骤S1-9:判断与该组对应的二进制数码是否为1,当结果为是时,进入步骤S1-10,否则保持不变。
步骤S1-10:当结果为是时,对该组中的所有的特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转,进入步骤S1-11。
步骤S1-11:判断N位二进制数码是否处理完毕,完毕后结束并输出处理后的文档,否则进入步骤S1-8。
图7为本实施例的文档处理装置在对文档中的文字处理前后的对比示意图,图7(a)为5号字在未处理时的示意图,图7(b)为5号字在处理后的示意图,图7(c)为5号字在处理后放大2倍的示意图,图7(d)为5号字在处理后放大10倍的示意图。
图8为本实施例的文档处理装置在对一页文档处理前后的对比示意图,图8(a)为5号字的一页A4文档在未处理时的示意图,图8(b)为5号字的一页A4文档在处理后的局部10倍放大示意图。
由以上图7、图8的对比可知,经过本实施例的文档处理装置的处理,文字在原样大小甚至是放大2倍后,肉眼依然无法分辨出处理前后的区别,只有在放大5倍甚至10倍后,文字才会出现明显的毛刺。
图9为本发明的实施例中文档识别装置的框图。
如图9所示,文档处理装置30具有识别侧特定区域计数部301、识别侧区域分组部302、图像变换部303、高频分量计算部304、判定部305、二进制数码输出部306、来源信息解析输出部307以及识别侧侧控制部308。
识别侧特定区域计数部301在识别侧控制部308的控制下,采用和文档处理装置20相同的扫描条件对由文档预处理装置40输出的二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目S。由于纸质的印刷文档在流通过程中可能出现损毁以及涂抹,在扫描过程中,很有可能得到的特定区域的数目S会比当初处理时的数目M要少,本实施例直接以输出得到的新的文档进行扫描,得到的数目S是和数目M相等的。
识别侧区域分组部302在识别侧控制部308的控制下将S个特定区域分成N组。
图像变换部303在识别侧控制部308的控制下,对N组中的特定区域进行图像变换,本实施例使用离散余弦变换DCT方法进行图像变换。
高频分量计算部304在识别侧控制部308的控制下,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例。
判定部305,当高频分量超过1.0所占的比例大于或等于判定阈值T时,判定该组特定区域所对应的二进制数码为1,否则判定为0。判定阈值T满足50%≤T≤100%都是可行的,本实施例中使用的判定阈值T为70%。
二进制数码输出部306在识别侧控制部308的控制下,依次排列判定部305的判定结果,得到420位长度的二进制数码。
来源信息解析输出部307在识别侧控制部308的控制下,对得到的N位长度的二进制数码依和文档处理装置20相同的扫照编码规则进行转换后输出,得到来源信息。
图10为本发明的实施例中文档识别装置的动作流程图。
如图10所示,本实施例中的文档识别装置30的动作流程包括以下步骤:
步骤S2-1:文档识别装置30从文档处理装置中获取二值化文档,识别侧特定区域计数部301采用扫描条件对从文档处理装置中获取的二值化文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目S,并进入步骤S2-2。
步骤S2-2:识别侧区域分组部302,将S个特定区域分成N组,并进入步骤S2-3。
步骤S2-3:图像变换部303,对N组中的特定区域进行图像变换,并进入步骤S2-4。
步骤S2-4:高频分量计算部304,计算经过图像变换后的每一组特定区域内的高频分量超过1.0所占的比例,并进入步骤S2-5。
步骤S2-5:判定部305判断高频分量超过1.0所占的比例是否大于或等于判定阈值T。
步骤S2-6:当判断结果为是时,判定该组特定区域所对应的二进制数码为1,并进入步骤S2-8。
步骤S2-7:当判断结果为否时,判定该组特定区域所对应的二进制数码为0,并进入步骤S2-8。
步骤S2-8:判断N组特定区域是否判定完毕,完毕后进入S2-9,否则进入步骤S2-3。
步骤S2-9:当N组特定区域判定完毕后,二进制数码输出部306依次排列判定部的判定结果,得到N位长度的二进制数码,进入步骤S2-10。
步骤S2-10:来源信息解析输出部对得到的N位长度的二进制数码依照编码规则进行转换,得到来源信息后输出。
实施例的作用与效果
根据本实施例涉及的文档处理装置,因为显示输入部能够显示预先存储在画面存储部中的来源信息输入提示画面和扫描框设定画面,显示来源信息输入提示画面和扫描框设定画面,让用户输入来源信息和扫描框的属性值,来源信息转化部能够将来源信息根据编码规则转化成对应的长度为N位的二进制数码,扫描框设定部能够接收用户输入的扫描框的各种属性值来设定用于对文档进行扫描的扫描条件,处理侧特定区域计数部能够采用扫描条件对文档进行扫描,对符合扫描条件的特定区域进行计数,得到特定区域的数目M,处理侧区域分组部能够将M个特定区域分成N组,文档处理部能够将N位二进制数码与N组特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的特定区域中的黑白像素点不变。所以,在输出的文档中就添加了肉眼不可见的来源信息,正因为该来源信息是肉眼不可见的,输出或是打印后就无法通过图像处理将这些来源信息进行破坏和移除,保证了来源信息的稳定性,提高了破坏的难度。
另外,由于来源信息包括文档的权利人的身份信息、文档的形成时间以及文档的编号,这样在识别后,就可以通过这些信息对泄漏的源头进行追溯。
另外,上述实施例中,在进行编码时,N位中空白的部分用二进制数码0补齐,补入的数码可以放置在尾部,也可以放置在头部或中间的位置。
又由于,本发明提供的文档识别装置,能够通过图像变换部、高频分量计算部以及识别部根据文档处理装置在处理时所采用的属性条件、图像变换方法以及判定阈值和编码规则将文档中添加的识别信息进行识别和解析,然后输出对应的来源信息。所以,通过对添加有来源信息的文档进行识别,通过识别出的来源信息就可以对文档进行追溯和管理。
另外,判断部能够判断特定区域的个数M是否小于二进制数码的位数N,当判断结果为是时,提示信息生成部就生成提示信息,显示输入部就根据提示信息显示扫描框设定画面,让用户再次输入扫描框的属性值,使得当特定区域的个数M不够时,可以再次输入属性值来生成新的扫描条件,这样能够使得再次扫描后得到的个数M能满足要求。
另外,由于具有文档预处理装置,能够对文档像素进行黑白二值化转化来得到黑白像素的二值化文档,这样特定区域计数部在后续的扫描和计数过程中,处理速度更快,也更准确。而识别装置,用于识别的也是黑白像素的图像,识别的也更准确,出错的可能性也更小。

Claims (9)

1.一种文档处理装置,用于将文档来源信息添加到文档中,其特征在于,包括:
画面存储部,至少存储有来源信息输入提示画面、扫描框设定画面;
显示输入部,显示所述来源信息输入提示画面和扫描框设定画面,让所述用户输入所述来源信息和扫描框的属性值;
来源信息转化部,将所述来源信息根据编码规则转化成对应的长度为N位二进制数码;
扫描框设定部,接收所述用户输入的扫描框的各种所述属性值来设定对所述文档进行扫描的扫描条件;
特定区域计数部,采用所述扫描条件对所述文档进行扫描,对符合所述扫描条件的特定区域进行计数,得到所述特定区域的数目M;
处理侧区域分组部,将M个所述特定区域分成N组;以及
文档处理部,将N位所述二进制数码与N组所述特定区域进行一一对应,当与该组对应的二进制数码为1时,根据预定规则对对该组中的所有的所述特定区域中的黑白像素点进行处理,当与该组对应的二进制数码为0时,保持该组中的所有的所述特定区域中的黑白像素点不变。
2.根据权利要求1所述的文档处理装置,其特征在于:
其中,所述属性值包括所述扫描框的像素点尺寸、所述扫描框中的邻接的黑像素点的数值。
3.根据权利要求2所述的文档处理装置,其特征在于:
其中,所述扫描框为矩形,其尺寸为长X个像素点,宽为Y个像素点,X≥Y,
所述扫描框中的邻接的黑像素点的个数值P满足X≤P≤XY,
X、Y、P均为不小于2的整数。
4.根据权利要求3所述的文档处理装置,其特征在于:
其中,所述预定规则为对该组中的所有的所述特定区域内的黑白像素点依次进行间隔的黑白像素点对调翻转。
5.根据权利要求4所述的文档处理装置,其特征在于:
其中,所述间隔的黑白像素点对调翻转的间隔为1到Y-1的整数。
6.根据权利要求1所述的文档处理装置,其特征在于,还包括:
提示信息生成部、判断部,
当判断部判断所述特定区域的个数M小于所述二进制数码的位数N时,所述提示信息生成部就生成提示信息,
所述显示输入部就根据所述提示信息显示所述扫描框设定画面,让所述用户再次输入扫描框的所述属性值。
7.根据权利要求1所述的文档处理装置,其特征在于:
其中,所述编码规则为ascii、unicode、utf8、big5、gb2312、gbk、gb18030中的任意一种。
8.根据权利要求1所述的文档处理装置,其特征在于:
其中,所述来源信息包括所述文档的权利人的身份信息、所述文档的形成时间以及所述文档的编号。
9.一种文档处理和识别系统,其特征在于,包括:
文档预处理装置,用于对所述文档像素进行黑白二值化转化,得到黑白像素的二值化文档;
文档处理装置,用于将所述文档来源信息添加到所述二值化文档中;以及
文档识别装置,用于从添加了所述来源信息的所述二值化文档中识别出所述来源信息,
其中,所述文档处理装置为权利要求1-9中任意一项所述的文档处理装置,
所述文档识别装置具有:
特定区域计数部,采用所述扫描条件对所述二值化文档进行扫描,对符合所述扫描条件的特定区域进行计数,得到所述特定区域的数目S;
区域分组部,将S个所述特定区域分成N组;
图像变换部,对N组中的所述特定区域进行图像变换;
高频分量计算部,计算经过所述图像变换后的每一组所述特定区域内的高频分量超过1.0所占的比例;
判定部,当所述高频分量超过1.0所占的比例大于或等于判定阈值T时,判定该组所述特定区域所对应的二进制数码为1,否则判定为0;
二进制数码输出部,依次排列所述判定部的判定结果,得到N位长度的所述二进制数码;
来源信息解析输出部,对得到的N位长度的所述二进制数码依照所述编码规则进行转换后输出,得到所述来源信息,
所述判定阈值T满足50%≤T≤100%。
CN201710203265.5A 2017-03-30 2017-03-30 文档处理装置以及文档处理和识别系统 Pending CN106991391A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710203265.5A CN106991391A (zh) 2017-03-30 2017-03-30 文档处理装置以及文档处理和识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710203265.5A CN106991391A (zh) 2017-03-30 2017-03-30 文档处理装置以及文档处理和识别系统

Publications (1)

Publication Number Publication Date
CN106991391A true CN106991391A (zh) 2017-07-28

Family

ID=59411883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710203265.5A Pending CN106991391A (zh) 2017-03-30 2017-03-30 文档处理装置以及文档处理和识别系统

Country Status (1)

Country Link
CN (1) CN106991391A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976428A (zh) * 2010-07-30 2011-02-16 南开大学 基于拓扑结构的二进制图像脆弱水印嵌入与提取方法
CN103444178A (zh) * 2011-03-08 2013-12-11 高通股份有限公司 用于视频译码的变换系数的译码
CN103581691A (zh) * 2013-11-14 2014-02-12 北京航空航天大学 一种面向稀疏系数的高效可并行图像编码方法
CN103718554A (zh) * 2011-08-05 2014-04-09 高通股份有限公司 用于视频译码的变换系数的译码
CN104270641A (zh) * 2014-09-30 2015-01-07 杭州华为数字技术有限公司 变换系数的处理方法和装置
CN104350753A (zh) * 2012-06-01 2015-02-11 夏普株式会社 算术解码装置、图像解码装置、算术编码装置以及图像编码装置
CN104637026A (zh) * 2015-02-10 2015-05-20 西安电子科技大学 一种基于连续多页文本图像水印嵌入与提取方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976428A (zh) * 2010-07-30 2011-02-16 南开大学 基于拓扑结构的二进制图像脆弱水印嵌入与提取方法
CN103444178A (zh) * 2011-03-08 2013-12-11 高通股份有限公司 用于视频译码的变换系数的译码
CN103718554A (zh) * 2011-08-05 2014-04-09 高通股份有限公司 用于视频译码的变换系数的译码
CN104350753A (zh) * 2012-06-01 2015-02-11 夏普株式会社 算术解码装置、图像解码装置、算术编码装置以及图像编码装置
CN103581691A (zh) * 2013-11-14 2014-02-12 北京航空航天大学 一种面向稀疏系数的高效可并行图像编码方法
CN104270641A (zh) * 2014-09-30 2015-01-07 杭州华为数字技术有限公司 变换系数的处理方法和装置
CN104637026A (zh) * 2015-02-10 2015-05-20 西安电子科技大学 一种基于连续多页文本图像水印嵌入与提取方法

Similar Documents

Publication Publication Date Title
CN101540823B (zh) 图像处理装置、图像处理系统和图像处理方法
EP1605395B1 (en) Information input/output method using dot pattern
CN101682682A (zh) 图像加密装置、图像解密装置、方法以及程序
CN107944527A (zh) 一种防伪二维码的加密和解码方法
Phan Ho et al. Document authentication using graphical codes: Reliable performance analysis and channel optimization
CN108416223B (zh) 一种基于混沌理论的信息标签加密方法及其系统
KR101535534B1 (ko) 프린터 스테가노그래피 기법을 이용한 위조방지수단이 구비된 문서의 생성 방법 및 그 문서에 대한 위변조 확인 방법
CN109361654A (zh) 一种基于区块链协商加密管理商业秘密的方法和系统
CN102340402B (zh) 基于视觉密码的身份认证方法
CN113887689A (zh) 用于印刷取证编码的2d条形码的方法和系统
Lee et al. Insight into collusion attacks in random-grid-based visual secret sharing
US20230134627A1 (en) Two-dimensional barcodes for greater storage capacity
CN111881444B (zh) 一种基于加密标签算法的身份验证系统及其工作方法
Gao et al. Emerging-image motion captchas: Vulnerabilities of existing designs, and countermeasures
CN111030810B (zh) 基于图像局部随机变换技术的防伪加密方法
CN106991391A (zh) 文档处理装置以及文档处理和识别系统
CN111259365A (zh) 一种动态验证码生成方法
US20150220521A1 (en) Generating a regressive fnformation object
CN110070163A (zh) 二维码图片加密方法及装置
US20040123099A1 (en) Certificate, certificate issuing method and system and certificate verifying method and device
KR100409270B1 (ko) 물리적으로 표현된 코드이미지를 이용한 인증 서비스 방법및 그 장치
Sruthi CRASH—Cued recall authentication resistant to shoulder surfing attack
CN105847232B (zh) 互联网网页登录系统中设置随机对照验证码的实现方法
Goel et al. A Secure and Optimal QR Code
CN110956568B (zh) 一种半色调图像的分享图像中独立秘密信息隐藏方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170728