CN106959940A - 一种便于文档自动化录入的文档格式及转换和识别方法 - Google Patents

一种便于文档自动化录入的文档格式及转换和识别方法 Download PDF

Info

Publication number
CN106959940A
CN106959940A CN201710202760.4A CN201710202760A CN106959940A CN 106959940 A CN106959940 A CN 106959940A CN 201710202760 A CN201710202760 A CN 201710202760A CN 106959940 A CN106959940 A CN 106959940A
Authority
CN
China
Prior art keywords
document
content
format
dimensional encoded
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710202760.4A
Other languages
English (en)
Inventor
程梦梦
陈晨
陈佳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710202760.4A priority Critical patent/CN106959940A/zh
Publication of CN106959940A publication Critical patent/CN106959940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种方便文档自动化录入的文档格式及转换和识别方法。在这种格式下可以同时提供正常阅读和机器识别功能。这种文档格式包括:在内容中,分两部分,其中一部分为正常文档,属于正常可以阅读的格式;另一部分为将文档的内容,转换为二维编码的形式(包括不限于二维码,条形码等),一起打印在打印介质上。机器通过识别二维编码,即可知道文档的内容。应用本发明所提供的方案,可以方便的通过机器快速识别打印介质上的打印内容,大大减少人工录入的时间和成本,有效提高生产力。本发明的优势在于内容是通过二维编码数字化打印在介质上,仅仅识别二维编码即可准确无误识别打印内容,从而区别和减少其他识别文档内容文字的方式所造成的误差。

Description

一种便于文档自动化录入的文档格式及转换和识别方法
技术领域
本发明涉及文档打印及计算机信息化文档处理领域,一种适合信息化自动录入的文档格式及文档转换和识别处理方法。
背景技术
当前大多数的文档是将文字打印在介质上(例如:纸上),供人们阅读。这种打印格式,可以通过扫描或拍照,比对字形字体来识别打印内容。但是这样的识别,是有误差和错误的,并不能准确无误的识别打印内容,需要人工确认和复核识别结果是否正确,并且识别效率较低,不利于计算机快速无误处理文档内容的识别和录入,纠错率较低,有较大局限性。
而本发明所描述的内容,可以有效提高生产力,无需复杂的识别每一个打印出来的文字,而是将打印内容通过信息化数字编码方式,额外打印在页面, 占用一部分打印介质,而识别却无需识别文字内容,仅需识别二维编码即可准确无误知道打印内容。
发明内容
本发明提供了一种方便文档自动化录入的印刷格式及转换和识别方法,提供了文档的具体格式及其转换方法,通过本文档格式能够很方便的通过机器识别打印出的文档内容,同时也可以直接阅读文档内容,节省了资源,提高工作效率。
所述技术方案如下:
一方面,本发明实施例提供了一种文档格式,所述方法包括:
将文档内容以信息编码形式和内容对应打印或展示在一份打印介质上;
其特征在于在一份介质上,包含两部分内容,一部分为文档内容,另一部分为文档内容的二维编码(包括不限于二维码,条形码等);
其中二维编码为文档的主要或全部内容,或按一定方式进行压缩编码;这种格式或样式不限于印刷打印出来的形式,同时包括在显示屏或图片中展示出的样式。
一方面,本发明实施例提供了一种文档格式的转换方法,所述方法包括:
将普通电子文档处理成本发明所述文档格式或反向处理;
其主要特征为可以将普通电子文档处理成本发明所述文档内容格式,或将本发明所述格式转换为普通电子文档;
通过将原文档进行二维编码,然后进行和原文档对应排版,得出一份新的同时包含原文档和原文档对应二位编码的文档;
或者通过删除本发明所述文档格式的二位编码部分再进行排版,将本发明所述的文档转换为普通的可阅读的文档。
另一方面,本发明实施例提供了一种文档的自动识别方法,所述方法包括:
通过机器自动识别打印出来的本发明所述格式文档内容的方法(本方法限于识别本发明所述文档格式时),其主要特征为通过机器识别本发明所述格式文档上面的二维编码内容,从而得知文档的内容。
附图说明
图1是本发明文档格式可能实施的一个示意图;
图2是本发明文档格式可能实施的一个示意图;
图3展示的是将普通文档转换为本发明文档格式的转换方法;
图4展示的是将本文档格式转换为普通文档的转换方法;
图5 展示的是机器自动识别按照本文档格式所打印或印刷的内容的方法。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例 对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例,仅仅用于解释本发明,而非对本发明的限定。
本发明所阐述的是一种文档格式及其转换方法和机器自动识别方法。
包括具有本发明所述文档格式的一个具体例子显示于图1。具体的,图1显示按照本发明可能的实施例的显示图。其中11为文档格式中打印的可供阅读的文档内容,12为11的二维编码打印内容,13为印刷或打印介质(诸如纸张,显示屏等,下同)。
包括具有本发明所述文档格式的另一个具体例子显示于图2。具体的,图2显示按照本发明可能的实施例的显示图。其中21为打印介质,22为文档格式中打印的可供阅读的文档内容, 23为印刷或打印介质(诸如纸张,显示屏等),24为22的二维编码打印内容,其中21和23可能为一张纸的两面,或一份文档的两个页面(打印在两张纸上)。
具有本发明所述的文档格式,需要一种转换方法,这种方法的一个具体例子显示于图3。图3显示按照本发明所述方法转换成本发明所述文档格式的可能的实施例的显示图。其中31为普通文档,32为普通文档31的一部分或全部内容,33为32对应的二维编码,34为32和33合并成一份文档后排版的文档,其中可根据32的内容多少和编码所占区域多少来实际打印一页或多页。
具有本发明所述的文档格式的文档,转换为普通文档,需要一种方法,这种方法的一个具体例子显示于图4。图4显示按照本发明所述方法将本发明所述文档格式转换成普通文档的可能的实施例的显示图。其中41为本发明所述文档格式的文档,42为本文档所含的可阅读的内容部分,43为本文档所含的42对应的二维编码部分,44为去掉二维编码部分后的文档,也就是实际转换后的普通文档。
具有本发明所述文档格式打印出来的文档,在机器识别时,需要识别或转换为普通文档的时候,需要一种识别方法,这种方法的一个具体例子显示于图5。图5显示按照本发明所述文档格式打印出来的文档,无需人工录入,机器快速识别的可能的实施例的显示图。其中51为打印出来的本发明所述的文档格式的纸质文档,52为机器通过读取二维码识别二维码,53为识别结果(通过52的方法获得51里面的可阅读部分的文档内容)。
在实际操作中,可能的实例如下:通过图3所示的方法编辑普通文档为图1所示的文档格式,通过打印出图1的文档,而后机器通过图5的方法识别打印内容,无需人工录入文档的内容,从而加快数据录入速度和准确度。例如在录入报名表,成绩单,检测报告,检测单,技术参数,保险单等内容时,可通过机器快速识别录入,而无需一项一项录入,减少人为错误同时提高效率。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以通过如上所述的方法或格式实施。可选地,本发明实施例可以用计算机装置可执行的程序来实现,从而可以将它们存储在存储装置中由处理器来执行,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器, 磁盘或光盘等;或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上仅是针对本发明的优选实施例及其技术原理所做的说明,而并非对本发明的技术内容所进行的限制,任何熟悉本技术领域的技术人员在本发明所公开的技术范围内,所容易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (3)

1.一种文档格式或展示样式:将文档内容以信息编码形式和内容对应打印或展示,其特征在于:在一份介质上,包含两部分内容,一部分为文档内容,另一部分为文档内容的二维编码(包括不限于二维码,条形码等);其中二维编码为文档的主要或全部内容,或按一定方式进行压缩编码;这种格式或样式不限于印刷打印出来的形式,同时包括在显示屏或图片中展示出的样式。
2.一种文档处理方式,将普通电子文档处理成权利1所述格式或反向处理;其主要特征为:可以将普通电子文档处理成权利1所述文档内容格式,或将权利1所述格式转换为普通电子文档。
3.权利1所述文档的自动识别方法:通过机器自动识别打印出来的文档(符合权利1所述文档格式的文档)的方法(本方法限于识别权利1所述文档格式时),其主要特征为通过机器识别权利1所述格式文档上面的二维编码内容,从而得知权利1所述文档的内容。
CN201710202760.4A 2017-03-30 2017-03-30 一种便于文档自动化录入的文档格式及转换和识别方法 Pending CN106959940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710202760.4A CN106959940A (zh) 2017-03-30 2017-03-30 一种便于文档自动化录入的文档格式及转换和识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710202760.4A CN106959940A (zh) 2017-03-30 2017-03-30 一种便于文档自动化录入的文档格式及转换和识别方法

Publications (1)

Publication Number Publication Date
CN106959940A true CN106959940A (zh) 2017-07-18

Family

ID=59471547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710202760.4A Pending CN106959940A (zh) 2017-03-30 2017-03-30 一种便于文档自动化录入的文档格式及转换和识别方法

Country Status (1)

Country Link
CN (1) CN106959940A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915322A (zh) * 2019-05-09 2020-11-10 美光科技公司 扫描物理对象上的编码图像以确定用于制造过程的参数

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075316A (zh) * 2007-06-25 2007-11-21 陆航程 一种电子票证交易认证管理方法、载体结构、系统、终端
US20100157318A1 (en) * 2008-12-18 2010-06-24 Konica Minolta Systems Laboratory, Inc. Creation and placement of two-dimensional barcode stamps on printed documents for storing authentication information
CN105786207A (zh) * 2016-02-25 2016-07-20 百度在线网络技术(北京)有限公司 信息输入方法和装置
CN105893861A (zh) * 2014-09-28 2016-08-24 伊姆西公司 用于生成二维码的方法和系统
US9798925B2 (en) * 2013-03-19 2017-10-24 Fujian Foxit Software Development Joint Stock Co., Ltd. Method for identifying PDF document

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075316A (zh) * 2007-06-25 2007-11-21 陆航程 一种电子票证交易认证管理方法、载体结构、系统、终端
US20100157318A1 (en) * 2008-12-18 2010-06-24 Konica Minolta Systems Laboratory, Inc. Creation and placement of two-dimensional barcode stamps on printed documents for storing authentication information
US9798925B2 (en) * 2013-03-19 2017-10-24 Fujian Foxit Software Development Joint Stock Co., Ltd. Method for identifying PDF document
CN105893861A (zh) * 2014-09-28 2016-08-24 伊姆西公司 用于生成二维码的方法和系统
CN105786207A (zh) * 2016-02-25 2016-07-20 百度在线网络技术(北京)有限公司 信息输入方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915322A (zh) * 2019-05-09 2020-11-10 美光科技公司 扫描物理对象上的编码图像以确定用于制造过程的参数

Similar Documents

Publication Publication Date Title
CN101443790B (zh) 数字图像中的非回流内容的有效处理
US8565474B2 (en) Paragraph recognition in an optical character recognition (OCR) process
US8340425B2 (en) Optical character recognition with two-pass zoning
EA004418B1 (ru) Автоматическое создание штрихового кода для передачи и поиска данных
US10410080B2 (en) NC-program conversion device
JP2006155439A (ja) 文書管理装置及びその方法
CN112463080A (zh) 打印文件防遗忘方法、系统、电子设备及存储介质
CN106959940A (zh) 一种便于文档自动化录入的文档格式及转换和识别方法
CN111198664B (zh) 一种文档打印的方法、装置、计算机存储介质及终端
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
US8649055B2 (en) Image processing apparatus and computer readable medium
CN110941947A (zh) 一种文档编辑的方法、装置、计算机存储介质及终端
JP2001052110A (ja) 文書処理方法、文書処理プログラムを記録した記録媒体及び文書処理装置
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
US20060023236A1 (en) Method and arrangement for copying documents
US7995869B2 (en) Information processing apparatus, information processing method, and information storing medium
JP2008193580A (ja) 情報処理装置
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
CN104463153A (zh) 一种提高版式文档中字符识别率的方法和系统
US20100134849A1 (en) Image processing apparatus, image processing method and computer readable medium
JP2000331117A (ja) 文書読取システム
JPH04293185A (ja) ファイリング装置
CN111210455A (zh) 图像中预印信息的提取方法及装置、介质及电子设备
CN118262359A (zh) 一种提升ocr识别速度的方法
CN110929481A (zh) 一种文档编辑的方法、装置、计算机存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718