CN1123929A - 计算机文字的码书及文字符号的写读方法 - Google Patents

计算机文字的码书及文字符号的写读方法 Download PDF

Info

Publication number
CN1123929A
CN1123929A CN 94117505 CN94117505A CN1123929A CN 1123929 A CN1123929 A CN 1123929A CN 94117505 CN94117505 CN 94117505 CN 94117505 A CN94117505 A CN 94117505A CN 1123929 A CN1123929 A CN 1123929A
Authority
CN
China
Prior art keywords
text
code word
symbol
computword
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 94117505
Other languages
English (en)
Inventor
俞斌
申岸伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN 94117505 priority Critical patent/CN1123929A/zh
Publication of CN1123929A publication Critical patent/CN1123929A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

一种易于用计算机写读的二值图像在平凡介质上表示任意数据的方法。用于与现有的排版印刷系统集成,产生在版面的某一部位,表示版面上的信息。本发明包括:用于产生计算机文字的码书、计算机文字符号的产生和输出的方法及计算机文字符号的识读方法。该码书由256个汉明距离不小于3的(15,4)码组成,用以表示256个不同的数据。所产生的计算机文字符号由包含编码数据的正文区、文本头和终止条组成。为计算机提供了一种信息密度大、可通过视觉系统快速、正确阅读的文字符号。

Description

计算机文字的码书及文字符号的写读方法
本发明涉及一种易于用计算机写读的二值图象在平凡介质上表示任意数据的方法。用于与现有的排版印刷系统集成,产生在版面的某一部位,表示版面上的信息。还可用于货物流通管理、仓储管理、产品的防伪等领域。
目前,在平凡介质,如普通纸和印刷品上表示信息的最常用方法,一种是自然文字,这种方法对计算机来说,存在着两个主要问题是难读和信息密度小。另一种方法是一维条形码,其同样存在着信息密度小的问题。一维条形码往往还需要配以一个预先定义了的数据库,其中的内容限制在一个有限的集合内,限制了它的使用范围。
本发明的目的就是为计算机设计一种信息密度大、能象人类一样可以通过视觉系统快速、正确地阅读的文字符号及其读写方法。这种文字可以与人类的文字一起产生在同一种媒体上。除了能表示一般人类的文字信息以外,计算机文字还可以表示图表、图象以及其它可数字化的信息。
本发明的技术方案包括:用于产生计算机文字的码书、计算机文字符号的产生和输出的方法及计算机文字符号的识读方法三部分。计算机文字是一种根据计算机的视觉特点,专为计算机设计的文字体系。这种文字以一种便于计算机正确识别的二值图形符号表示。每一符号由文本头,正文区和终止条(或起始条)组成。文本头为计算机阅读提供时钟信息。正文区包含编码文字,按RS纠错编码方法排列。
1计算机文字符号的码书,由256个码字组成。每个码字15个位,其中分别为4组连续的1和4组连续的0,称为(15,4)码,任意两码字间汉明距离不小于3,全部256个码字可与相应的256个8bit表示的计算机数据一一对应。
2计算机文字符号的产生方法:
2.1运用RS纠错编码方法,对信源数据进行纠错编码;
2.2码字替换
用码书中相应的码字表示编码数据,并以码字为单位排列成矩形正文区;
2.3加文本头
在正文区上或下,加两行码字组成文本头,每个码字的15个位由连续的8位1开始,并由连续的7位0结束;
2.4加终止条(或起始条)
在上述正文区和文本头的最右边(或最左边),从第一行至最后一行,分别加一个1位(或0位),形成终止条(或起始条);
2.5印刷输出
把正文区,文本头和终止条(或起始条)转换成图形符号,印刷输出。
3计算机文字符号的识读方法:
3.1用图象输入的方法,将印有计算机文字符号的文本或卡片等印刷品输入计算机,成为灰度图象;
3.2运用图象处理的方法进行版面切割,将计算机文字符号从灰度图象中分割出来,对得到的文字符号作二值化处理,即将灰度图象转换为二值图象,并确定正文区的位置和方向;
3.3通过读取和处理文本头,自动获取计算机文字符号的模块尺寸;
3.4依据每个模块中心象素及其四邻域逻辑平均值,得到每个位的真值,每15位组成一个码字;
3.5运用(15,4)码的规则判断所说码字的有效性,逐位修正无效的码字;
3.6将不在码书中的码字,代之以与所说的码书中汉明距离最小的码字;
3.7对照所说的码书进行译码;
3.8通过RS纠错解码的方法得到信宿数据。
本发明和背景技术相比所具有的有益效果:
该方法产生的文字符号能与自然文字同时印刷在同一介质上、信息密度大、计算机识读快速、正确、信息贮存或传递所使用的介质成本低。
与常规大小的自然文字(如5号汉字)相比,计算机文字的信息密度提高20多倍。也就是说,在原来表示一千个5号字的区域内,可以记载表示两万个汉字信息的计算机文字符号;在普通纸上印刷的计算机文字密度可达5bit/mm2,一页A4纸可表示多于40K字节的信息,阅读系统可在数秒钟内将这些信息全部准确的识读出来。另一方面,计算机文字的识读技术和方法比光学字符识别(OCR)更简单更可靠,且代价更低,尤其是在表示图表图象信息方面,这一优点更为明显。
与一维条形码相比,计算机文字的信息密度和信息容量都要大得多,且计算机文字只规定了一种编码协议,无须定义数据库,对其中的内容没有任何限制和规定,因此可以应用于更多的方面。
图1一个(15,4)码的位表示及其图形示例
图2码字位值及其模块图形
图3计算机文字符号
图4计算机文字符号产生流程图
图5计算机文字符号识读流程图
结合附图对本发明作进一步说明:
一、计算机文字符号产生流程图(图4)说明:
1.开始
2.在计算机上输入待编码信息或经压缩后的信源数据;输入印刷参数:
输入将产生的文字符号的矩形比(由用户决定)或某一维的物理尺寸;
输入印刷质量要求或直接输入计算机文字符号的最小单元-模块(图2)的尺寸。
由信源数据的个数和纠错码字个数可决定整个码长,根据文字符号的几何尺寸和模块尺寸可算得码字的行列个数。
3.纠错编码
运用纠错编码理论中的RS纠错编码方法,对信源数据进行纠错编码。
4.码字替换
每个码字有15个位,其中分别为4组连续的1和4组连续的0,起始为1,终止为0,称为(15,4)码。图1为一个(15,4)码的位表示及其图形。
在输出的符号中,码字中的每个1位的图形为深色模块,每个0位为浅色模块,每个模块为一正方形(图2)。全部256个码字与相应的256个8bit表示的计算机数据一一对应,构成计算机文字符号编码码书。
用相应的码字表示编码数据。将替换后的码字依照上面算得的列数和行数顺序,以码字为单位排列,形成正文区。
5.加文本头
在正文区上面(也可以在下面),加两行码字组成文本头,每个码字由连续的8位1开始并由连续的7位0结束。文本头的作用是用来指示一行码字的个数,并为计算机识读提供时钟信息。
6.加一个终止条(或起始条)
在上述正文区和文本头的最右边从第一行至最后一行分别加一个1位,形成终止条。它的作用是结束最右边的码字。(印刷时,也可将1位印成浅色模块,0位印成深色模块。此时,应将终止条改为由0组成的起始条,并加在最左边)。
7.将该陈列中的位1映射成深色模块图形,将0映射成浅色模块图形,通过印制设备(激光打印机、喷墨打印机、某种排板印刷系统的输出设备、条码印制机等),把整个计算机文字符号在纸或其他介质上记录下来。
8.结束。
图3为计算机文字符号,它由包含编码数据的正文区B、文本头A和终止条C组成。
二、计算机文字符号识读运行流程图(图5)说明:
1.开始
2.图象输入
将印有待识文字符号的文本或卡片等印刷品,通过图象输入设备输入到微型计算机,成为灰度图象。不同的用途和使用场合可选用不同的输入设备,如手持扫描仪、平板扫描仪、工业摄像机或专用名片扫描仪等。识读系统软件已安装在硬盘上,操作员通过键盘和鼠标操作系统,并将其结果显示在显示器上。一些专用场合可将硬件系统集成为专门的识读设备。
3.版面切割
利用输入的并数字化的计算机文字符号图象的周边特性及其纹理特性对数字图象进行版面切割,得到只含有计算机文字符号的图象。
4.二值化
对得到的图象作二值化处理,即将灰度图象转换为(0,1)二值图象,深色为1,浅色为0。
5.符号定位和确定方向
通过寻找符号中的文本头和终止条(或起始条),可以确定符号正文区的位置和方向。
6.读文本头,定模块尺寸
通过读取文本头的信息,获取一行的码字数,并由整个符号的宽度得到一个码字的宽度,最终算得每个模块以象素表示的尺寸。
7.求模块中心象素及其四邻域逻辑平均值
通过逐个比较正文区中每个模块的中心及其四邻域象素(共5个象素)的逻辑值的平均值(在0到1之间),以0.5为二值化门限,求得相应模块的真值。每个模块表示一个位,每连续的15位组成一个码字。
8.构成有效码字吗?
运用(15,4)码的规则,判断依次得到的相邻的15位是否构成一个有效的(15,4)码。若不是,则在位修正中依据前面求出的逻辑值的平均值,修正某一位的真值。依次将平均值最接近0.5的位的上述二值化结果求反,直到构成一个有效的(15,4)码为止。若这15位都修改后仍不能构成一个有效的(15,4)码(如该码字部分或全部被污损),则将其定义为无效码字,并以任一(15,4)码代之。
9.在码书中?
判断该码字是否在码书中,若不在,代之以码书中与之汉明距离最小的码字。
10.译码
基于码书进行译码。每个(15,4)码字对应一个单字节数据。
11.纠错解码
对以上得到的码字串作RS纠错解码处理,由此可以纠正错译的码字和无效码字,并得到整个文本的信宿数据。
本发明中所发明的计算机文字可以对256个扩展ASCII码进行编码,因此可以表示任何计算机信息。
例如要表示的信源数据是由4000个字节组成。加上1%的纠错码字,整个文本为N=4040个字节。所产生的文字符号的长宽比为r=4/3,模块尺寸为X=0.254。因此每个码字的大小为15X×Xmm2。若设将产生的计算机文字符号正文区和文本头共有m列和n行,则(15Xm+X)/(Xn+2X)=r和mn>N或取m为0.252(Nr)1/2的整数部分,n为不小于N/m的最小整数。本例中m=18,n=225,50个纠错码字,整个符号的尺寸为68.8×57.7mm2。然后对以字节表示的信源数据进行RS纠错编码,并用码书中的(15,4)码字表示相应的编码数据。每行排列m=18个码字,排列225行,并加上文本头和终止条后即可产生文字符号。最后生成点阵图象,并打印输出。
在数据接收端,首先将文本扫描输入计算机并得到数字化图象。对该图象进行版面切割处理后得到计算机文字组成的文字符号的灰度图象。然后对该符号图象作二值化处理并求得符号正文区的位置和方向参数。通过读取符号的文本头得到所读符号每行的码字个数和模块尺寸。由此可读取符号正文区中每个模块的真值并组成码字。最后是纠错解码和译码,并得到4000个字节的信宿数据。

Claims (3)

1.一种用于产生计算机文字的码书,其特征是:该码书由256个码字组成;每个码字有15个位,其中分别为4组连续的1和4组连续的0,称为(15,4)码,任意两码字间汉明距离不小于3。
2.一种易于计算机识读的计算机文字符号产生方法,其特征在于采用以下步骤:
(1)运用RS纠错编码方法,对信源数据进行纠错编码;
(2)码字替换
用码书中相应的码字表示编码数据,并以码字为单位排列成矩形正文区;
(3)加文本头
在正文区上或下,加两行码字组成文本头,每个码字由连续的8位1和连续的7位0组成;
(4)加终止条(或起始条)
在上述正文区和文本头的最右边(或最左边),从第一行至最后一行分别加一个1位(或0位),形成终止条(或起始条);
(5)印刷输出
把正文区,文本头和终止条(或起始条)转换成整个图形符号,印刷输出。
3.一种利用计算机图象处理技术识读计算机文字符号的方法,其特征在于采用以下步骤:
(1)用图象输入的方法将印有所说的计算机文字符号的文本或卡片等印刷品输入计算机,成为灰度图象;
(2)运用图象处理的方法进行版面切割,将所说的计算机文字符号从灰度图象中分割出来,对得到的文字符号作二值化处理,即将灰度图象转换为二值图象,确定正文区的位置和方向;
(3)通过读取和处理文本头,自动获取计算机文字符号的模块尺寸;
(4)依据正文区中每个模块中心象素及其四邻域逻辑平均值,得到每个位的真值,每15位组成一个码字;
(5)运用(15,4)码的规则判断所说码字的有效性,逐位修正无效的码字;
(6)将不在码书中的码字,代之以码书中汉明距离最小的码字;
(7)对照所说的码书进行译码;
(8)通过RS纠错解码的方法得到信宿数据。
CN 94117505 1994-10-24 1994-10-24 计算机文字的码书及文字符号的写读方法 Pending CN1123929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 94117505 CN1123929A (zh) 1994-10-24 1994-10-24 计算机文字的码书及文字符号的写读方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 94117505 CN1123929A (zh) 1994-10-24 1994-10-24 计算机文字的码书及文字符号的写读方法

Publications (1)

Publication Number Publication Date
CN1123929A true CN1123929A (zh) 1996-06-05

Family

ID=5038393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 94117505 Pending CN1123929A (zh) 1994-10-24 1994-10-24 计算机文字的码书及文字符号的写读方法

Country Status (1)

Country Link
CN (1) CN1123929A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899612A (zh) * 2015-06-26 2015-09-09 信码互通(北京)科技有限公司 具有纠错功能的字符编码方法、字符解码方法及其产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899612A (zh) * 2015-06-26 2015-09-09 信码互通(北京)科技有限公司 具有纠错功能的字符编码方法、字符解码方法及其产品
WO2016206446A1 (zh) * 2015-06-26 2016-12-29 信码互通(北京)科技有限公司 具有纠错功能的字符编码方法、字符解码方法及其产品

Similar Documents

Publication Publication Date Title
JP4975109B2 (ja) 2次元コード及びそのデコード方法、その2次元コードを適用する印刷出版物
CN1200385C (zh) 编码和解码机器可读码的方法和设备
CA1341134C (en) Dynamically variable machine readable binary code and method for reading and producing thereof
CN101477638B (zh) 一种二维码、应用该二维码的印刷出版物及解码方法
CN1396538A (zh) 文字图表等一般载体上的信息电子化的方法及其系统
CN1294525C (zh) 用于产生位置编码图案的打印输出方法、系统、打印机装置和打印机
DE19736202A1 (de) Strichcode-Symbolisierung mit der Fähigkeit, 16-Bit-Zeichen zu codieren, und Verfahren und Apparat zum Drucken und zum Lesen derselben
Witten et al. Textual image compression: Two-stage lossy/lossless encoding of textual images
CN1976512A (zh) 一种带有手机二维码的产品防伪方法
US8208726B2 (en) Method and system for optical character recognition using image clustering
CN1955981A (zh) 字符识别装置、字符识别方法、以及字符数据
US7878414B2 (en) Code and a method for coding and encoding information
CN1588351A (zh) 对电子公文或文档进行加密及鉴别真伪的方法
KR20130139225A (ko) 광학 펜을 이용한 절대 위치와 기타 정보용 도트 코드 패턴, 도트 코드 프린팅 방법, 및 도트 코드 읽는 방법
CN101546387B (zh) 多媒体资料索引信息的存储方法及用该方法的印刷出版物
CN1123929A (zh) 计算机文字的码书及文字符号的写读方法
US8649055B2 (en) Image processing apparatus and computer readable medium
US6088039A (en) Compression of grey scale images of text
US7889925B2 (en) Method, system and computer program for encoding and decoding a pixelized target graphic symbol
CN1086824C (zh) 二维条码产生装置
CN2563645Y (zh) 便于信息电子化的读物及生成该读物的装置
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
CN106959940A (zh) 一种便于文档自动化录入的文档格式及转换和识别方法
CN1244855C (zh) 中文信息处理汉字数字化规范编码输入技术
Huang et al. Cryptogram decoding for OCR using numerization strings

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication