CN1383516A - 采用一对一比较的汉字校对系统 - Google Patents

采用一对一比较的汉字校对系统 Download PDF

Info

Publication number
CN1383516A
CN1383516A CN01801889A CN01801889A CN1383516A CN 1383516 A CN1383516 A CN 1383516A CN 01801889 A CN01801889 A CN 01801889A CN 01801889 A CN01801889 A CN 01801889A CN 1383516 A CN1383516 A CN 1383516A
Authority
CN
China
Prior art keywords
mentioned
character
text
input
bitmap images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01801889A
Other languages
English (en)
Inventor
全政桓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PALMAN SYSTEM Ltd
Original Assignee
PALMAN SYSTEM Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PALMAN SYSTEM Ltd filed Critical PALMAN SYSTEM Ltd
Publication of CN1383516A publication Critical patent/CN1383516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种采用一对一比较的校对系统。按照本发明可以完成快速和简单的汉字文献校对,不用检查整个中文文献,只需要执行以下步骤:扫描准备输入的原始中文文献并且产生原始文献的原始图像;通过将原始图像自动分割成汉字图像而产生分割的位图;采用光学字符识别(OCR)或一对一输入的方法根据原始文献输入对应着各个位图图像的汉字;在用户选择了一对一比较菜单时产生具有相同代码的输入汉字的索引文件,显示按相同的汉字输入的位图图像,并且点击和标记与相应的输入字符不同的位图图像;以及在仅仅收集带标记的位图图像之后校正错误输入的字符和与其相对应的字符文本。

Description

采用一对一比较的汉字校对系统
技术领域
本发明涉及一种采用一对一比较的校对系统,具体涉及一种采用一对一比较的汉字校对系统,借助于这一系统,即使是不懂汉字的人也能快速和简单地校对中文文献,不需要检查中文文献全文。在采用一对一比较的这种汉字校对系统中,利用扫描仪扫描中文的原始拷贝并且转换成图像;由用户按照原始拷贝输入汉字,并且选择一个一对一比较菜单;在屏幕上显示原始拷贝中与用户输入的相同的汉字相对应汉字的位图图像;对包括不同于位图图像的汉字的文本做标记,然后,用户可以仅仅再次输入带标记的文本。
技术背景
一般来说,由于汉字是一种象形文字,输入汉字是很困难的。另外,如果用户不知道准确的字根和比划数,用户就不可能输入汉字。即使用户知道汉字的字根和比划数,也会频繁地出现因排字错误或人为错误造成的汉字输入错误。因此,一种实用的校对程序有必要执行用来校正汉字输入错误的步骤,这一点是公认的。
然而,如上所述,常规的汉字输入方法从输入汉字的处理能力上来看过于复杂并且还有缺陷,因为用户仅仅是看着汉字的形状来输入汉字,往往会输入与用户想要输入的汉字不同的汉字。
因此,用户就有必要校对输入汉字所获得的文献。然而,除非校对者能认识所有的汉字,否则就无法校对中文文献。在外国,由于很少有人能阅读所有中文文献,他们需要从头到尾逐个检查汉字来校对中文文献,这样造成的问题是校对文献需要很长的时间,并且不能完整地执行校对,即使是多次重复执行校对也几乎不能缩短校对所需的时间。
进而,在混合使用水平和垂直书写的条件下,要在比较两个句子的同时校对文献是很困难的,并且校对是很麻烦的,因为文献需要分开打印。
发明概述
因此,为了解决上述问题,本发明的目的是提供一种采用一对一比较的汉字校对系统,借助于这一系统,即使是不懂汉字的人也能快速和简单地校对中文文献,不需要检查中文文献全文;在这种系统中利用扫描仪扫描中文的原始拷贝并且转换成图像,将图像分割成各个汉字图像而产生分割的位图,由用户按照原始拷贝输入汉字,并且选择一个一对一比较菜单,在屏幕上显示原始拷贝中与用户输入的相同的汉字相对应汉字的位图图像,对包括不同于位图图像的汉字的文本做标记,然后,用户可以仅仅再次输入带标记的文本。
按照本发明,用来实现上述目的的采用一对一比较的汉字校对系统包括以下步骤:产生并存储从扫描仪扫描的原始拷贝转换而来的原始图像;通过一个分割执行程序将原始图像分割成对应着原始图像中的汉字的各个图像,然后通过一个位图产生程序产生分割的位图;由用户输入汉字并且选择一个一对一比较菜单,根据这些位图,通过一个索引文件产生程序产生在输入的字符当中具有相同代码的中文文献的索引文件,然后检查分割的位图图像;在完成检查之后,同时在屏幕的左边显示输入的字符文本并在其右边显示对应着输入字符文本的分割的位图图像,以便通过一个比较程序在输入字符文本和分割的位图图像之间进行观察比较;确认在右边的原始位图图像当中是否包括任何与左边的字符文本不同的位图图像,并且点击和标记不同的位图图像;收集标记的位图图像和与其相对应的字符文本,并且显示标记的位图图像和字符文本,使用户能够再次输入正确的汉字文本;并且执行整体的校对,使再次输入的正确文本在原先输入的原始文本中能够得到自动反映和校正。
附图简介
图1为表示按照本发明一个实施例的总体构造的示意图。
图2为表示本发明的一个操作过程的流程图。
图3到6为表示用于本发明的操作流程的屏幕显示的示意图。
实施本发明的最佳方式
以下要具体参照附图来解释本发明的一个最佳实施例。
图1示意性表示了本发明实施例的构造。
按照这一构造,用户用扫描仪2输入汉字原始拷贝,由能够识别扫描的微处理器1将扫描的文献转换成一个图像,然后产生要存储在存储器3中的一个原始图像。
微处理器1通过一个分割执行程序4和一个位图产生程序5自动分割原始图像,从而产生分割的位图。
用户利用光学字符识别(OCR)输入各个汉字,或者是根据原始拷贝一对一地输入,然后存储在存储器3中。
如果用户选择了一对一比较菜单,识别到这一选择的微处理器1就通过一个索引文件产生程序6根据原始图像的分割的位图为具有相同代码的汉字产生各自的索引文件,然后指令屏幕8显示同一个文本的输入文本和位图图像,从而通过一个比较程序7来确定它们彼此间是否有任何不同。
仅仅收集显示文本当中带标记的汉字,并且再次显示在屏幕8上。根据原始图像,在该文本中再次输入正确的汉字,从而校正与原始图像不同的输入文本。这样就能快速执行校对。
按照本发明,如此构成的采用一对一比较的校对系统是借助一种汉字输入法输入汉字来执行校对,例如有OCR,一对一输入等等方法,并且将输入的文本与原始图像相比较。
首先,用户用扫描仪2输入需要输入的汉字原始拷贝(步骤11)。然后由能够识别扫描的微处理器1将扫描的文献转换成一个图像,产生一个原始图像(步骤12),并且将原始图像存储在存储器3中(步骤13)。
接着,微处理器1通过分割执行程序4将原始图像中的各个汉字分割成各自的图像(步骤14),并且通过位图产生程序产生分割的位图(步骤15)。
然后,用户利用诸如OCR或一对一输入等汉字输入法完整地输入原始拷贝中的汉字(步骤16)。然后,如果用户选择了一对一比较菜单(步骤17),识别到这一选择的微处理器1就通过索引文件产生程序6根据位图为输入的汉字当中具有相同代码的汉字产生各自的索引文件,并且检查分割的位图图像(步骤18)。
在完成检查之后,如图3所示,微处理器1指令屏幕8在其左边显示输入的文本并在其右边显示对应着输入的相同汉字那些汉字的位图图像,以便用户能够在它们之间进行观察比较(步骤19)。
因此,在检查显示在屏幕8左边的输入文本和右边的位图图像的同时,用户要确认在屏幕右边的位图图像是否与输入的汉字不同(步骤20)。点击不同于输入汉字的位图图像,如图4所示给位图图像做标记(步骤21)。
如果包括按上述方法输入的相同汉字的输入文本有许多(步骤22),就收集由用户输入的包括相同汉字的那些文本的位图图像,并且显示在单个屏幕上(步骤23)。如图5所示,由用户确认输入的汉字是否与其位图图像相同,并且仅仅通过点击给不同于输入字符的位图图像做标记(步骤24)。
然后,如果用户在完成比较之后想要校正这些文本(步骤25),就可以仅仅收集带标记的位图图像和与其相对应的输入文本(步骤26)并且如图6所示再次显示在单个屏幕上(步骤27),这样,用户就能再次输入正确的汉字(步骤28)。
再次输入的汉字被自动反映在先前输入的原始文本上并且完成校正。这样就能完成整个文本从头到尾的校对(步骤29)。
工业实用性
按照本发明的采用一对一比较的校对系统能够快速和简单地校对中文文献,不用检查整个中文文献,只需要执行以下步骤:扫描准备输入的原始中文文献并且产生原始文献的原始图像;通过将原始图像自动分割成汉字图像而产生分割的位图;采用光学字符识别(OCR)或一对一输入的方法根据原始文献输入对应着各个位图图像的汉字;在用户选择了一对一比较菜单时产生具有相同代码的输入汉字的索引文件,显示按相同的汉字输入的位图图像,并且点击和标记与相应的输入字符不同的位图图像;以及在仅仅收集带标记的位图图像之后校正错误输入的字符和与其相对应的字符文本。

Claims (2)

1.一种采用一对一比较的汉字校对系统,包括以下步骤:
产生并存储从扫描仪扫描的原始拷贝转换而来的原始图像;
通过一个分割执行程序将原始图像分割成对应着原始图像中的汉字的各个图像,然后通过一个位图产生程序产生分割的位图;
由用户输入汉字并且选择一个一对一比较菜单,根据上述位图,通过一个索引文件产生程序产生在上述输入字符当中具有相同代码的汉字的索引文件,然后检查分割的位图图像;
在完成检查之后,同时在屏幕的左边显示输入的字符文本并在其右边显示对应着输入字符文本的分割的位图图像,以便通过一个比较程序在上述输入字符文本和上述分割的位图图像之间进行观察比较;
确认在上述右边的原始位图图像当中是否包括任何与上述左边的字符文本不同的位图图像,并且点击和标记不同的位图图像;
收集带标记的位图图像和与其相对应的字符文本,并且显示上述带标记的位图图像和字符文本,使上述用户能够再次输入正确的汉字文本;并且
执行整体的校对,使再次输入的正确文本在上述原先输入的原始文本中能够得到自动反映和校正。
2.按照权利要求1的采用一对一比较的汉字校对系统,其特征是,如果上述输入文本有许多,就在单个屏幕上显示上述位图图像和按照相同的字符输入的上述字符文本,由上述用户为不同于上述输入字符文本的上述位图图像做标记,并且,如果上述用户想要对文本进行校正,上述用户就可以通过收集并显示上述带标记的位图图像和与其相对应的上述输入文本而再次输入正确的汉字。
CN01801889A 2000-07-05 2001-04-11 采用一对一比较的汉字校对系统 Pending CN1383516A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020000038276A KR100351584B1 (ko) 2000-07-05 2000-07-05 한자의 일자대조에 의한 교정 시스템
KR200038276 2000-07-05

Publications (1)

Publication Number Publication Date
CN1383516A true CN1383516A (zh) 2002-12-04

Family

ID=19676339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01801889A Pending CN1383516A (zh) 2000-07-05 2001-04-11 采用一对一比较的汉字校对系统

Country Status (4)

Country Link
JP (1) JP2004502258A (zh)
KR (1) KR100351584B1 (zh)
CN (1) CN1383516A (zh)
WO (1) WO2002003240A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685499A (zh) * 2008-09-22 2010-03-31 因特伟特公司 用于纠正字符识别错误的技术
CN101980133A (zh) * 2010-10-29 2011-02-23 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统
CN103902532A (zh) * 2012-12-24 2014-07-02 北京大学 用于字库的查库方法和装置
CN104021134A (zh) * 2013-02-28 2014-09-03 首尔系统有限公司 字体文件修改转换方法及其系统
CN109214362A (zh) * 2018-10-23 2019-01-15 金蝶软件(中国)有限公司 单据处理方法及相关设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010088700A (ko) * 2001-08-22 2001-09-28 길호명 인터넷 상의 성명학 이름풀이 제공방법
KR20030018519A (ko) * 2001-08-30 2003-03-06 서치캐스트 주식회사 이미지검색 기반 편리한 한자 입력교정 방법
KR100655916B1 (ko) * 2004-07-19 2006-12-08 한국과학기술원 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
ITMI20050118A1 (it) 2005-01-28 2006-07-29 De Longhi Spa Macchina da ceff' ad incasso e relativo procedimento di attivazione

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63249259A (ja) * 1987-04-03 1988-10-17 Fujitsu Ltd 文章校正支援装置
JPS63249260A (ja) * 1987-04-03 1988-10-17 Fujitsu Ltd 文章校正支援装置
JPH01255987A (ja) * 1988-04-06 1989-10-12 Hitachi Ltd 特定文字列の照合方法
JPH0282348A (ja) * 1988-09-20 1990-03-22 Fujitsu Ltd 文書校正支援装置
JP2641768B2 (ja) * 1989-07-31 1997-08-20 シャープ株式会社 文章処理装置
JPH0546659A (ja) * 1991-08-19 1993-02-26 Ricoh Co Ltd デジタル翻訳複写装置
JPH05234628A (ja) * 1992-02-19 1993-09-10 Murata Mfg Co Ltd 同軸コネクタのケーブル接続構造
JPH06119391A (ja) * 1992-10-09 1994-04-28 Nec Software Ltd 漢字文字列抽出方式
JPH0619443A (ja) * 1993-03-19 1994-01-28 Toshiba Corp 情報処理装置
JPH07114558A (ja) * 1993-10-19 1995-05-02 Fujitsu Ltd 漢字変換訂正処理方式
JPH07182441A (ja) * 1993-11-09 1995-07-21 Matsushita Electric Ind Co Ltd 文字認識装置
JPH0991371A (ja) * 1995-09-21 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 文字表示装置
JPH09218918A (ja) * 1996-02-14 1997-08-19 Canon Inc 文字認識装置及びその制御方法
JPH1021326A (ja) * 1996-06-28 1998-01-23 Ricoh Co Ltd 認識結果表示方法および文字認識システムおよび情報記録媒体
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
JPH11213087A (ja) * 1998-01-23 1999-08-06 Ricoh Co Ltd 文字認識装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685499A (zh) * 2008-09-22 2010-03-31 因特伟特公司 用于纠正字符识别错误的技术
CN101685499B (zh) * 2008-09-22 2016-10-12 因特伟特公司 用于纠正字符识别错误的技术
CN101980133A (zh) * 2010-10-29 2011-02-23 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统
CN101980133B (zh) * 2010-10-29 2012-07-04 方正国际软件有限公司 双层电子文件文本选择区域偏差的检测方法和系统
CN103902532A (zh) * 2012-12-24 2014-07-02 北京大学 用于字库的查库方法和装置
CN104021134A (zh) * 2013-02-28 2014-09-03 首尔系统有限公司 字体文件修改转换方法及其系统
CN109214362A (zh) * 2018-10-23 2019-01-15 金蝶软件(中国)有限公司 单据处理方法及相关设备

Also Published As

Publication number Publication date
WO2002003240A1 (en) 2002-01-10
KR100351584B1 (ko) 2002-09-05
KR20010015963A (ko) 2001-03-05
JP2004502258A (ja) 2004-01-22

Similar Documents

Publication Publication Date Title
US5455875A (en) System and method for correction of optical character recognition with display of image segments according to character data
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
US6466694B2 (en) Document image processing device and method thereof
US7805022B2 (en) Image processing apparatus, image processing method and computer program
EP0435349A2 (en) Document revising system for use with document reading and translating system
CN110705534B (zh) 一种适用于电子助视器的错题本生成方法
US8208737B1 (en) Methods and systems for identifying captions in media material
US20110280481A1 (en) User correction of errors arising in a textual document undergoing optical character recognition (ocr) process
US20030042319A1 (en) Automatic and semi-automatic index generation for raster documents
US20150187219A1 (en) Systems and methods for computer-assisted grading of printed tests
JPH0668298A (ja) 文書書式の文字認識及びデータ修復処理のためのデータ処理システム及び方法
US20080235263A1 (en) Automating Creation of Digital Test Materials
CN1383516A (zh) 采用一对一比较的汉字校对系统
CN113610068A (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
CN1426017A (zh) 一种校对多个电子文件的方法及其系统
JPH02255964A (ja) 文書変更部分の自動識別装置
WO1997004409A1 (fr) Dispositif de recherche de fichiers
CN112818647A (zh) 基于图像识别对照和人工智能自动对比的系统审稿方法
JPH10134141A (ja) 文書照合装置および方法
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置
JP2000011192A (ja) 画像間位置合わせ方法
Suda et al. How can document analysis help in capturing five million pages?
CN112990022A (zh) 一种ocr文字识别提取方法
US20150261740A1 (en) Text reading aid
JPH09214648A (ja) 画像処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication