JP2011150436A - Method for substituting character data - Google Patents

Method for substituting character data Download PDF

Info

Publication number
JP2011150436A
JP2011150436A JP2010009554A JP2010009554A JP2011150436A JP 2011150436 A JP2011150436 A JP 2011150436A JP 2010009554 A JP2010009554 A JP 2010009554A JP 2010009554 A JP2010009554 A JP 2010009554A JP 2011150436 A JP2011150436 A JP 2011150436A
Authority
JP
Japan
Prior art keywords
data
character
replacement
word
replaced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010009554A
Other languages
Japanese (ja)
Inventor
Koji Yoshikawa
幸次 吉川
Hidemi Oshima
秀実 大島
Kazuyuki Shintani
和之 新谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Printing Bureau
Original Assignee
National Printing Bureau
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Printing Bureau filed Critical National Printing Bureau
Priority to JP2010009554A priority Critical patent/JP2011150436A/en
Publication of JP2011150436A publication Critical patent/JP2011150436A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To substitute characters which may be erroneously read with correct characters. <P>SOLUTION: In a method for substituting character data, document data which is carried out character recognition by an OCR (optical character reader) is made to collate with the character data registered in a first substitution table and a second substitution table, and the similar word contained in the document is automatically substituted by a correct word or a mark identifiable from a similar character and output as data for editing. History for converting the similar characters and identifiable marks into the correct words can be accumulated in a history table of a data accumulation part, and can automatically registered as similar word data of the first substitution table. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、OCR(光学式文字読取装置)にて文字認識された文字データを加工する作業において、誤読取される可能性のある文字(誤読取される可能性のある文字とはカタカナの「カ」と漢字の「力(ちから)」や、カタカナの「ロ」と漢字の「口(くち)」等がそれに相当する。)を正字に置換する方法に関する。   The present invention relates to a character that may be erroneously read in an operation of processing character data recognized by an OCR (optical character reader). It relates to a method of replacing ka and kanji “power”, katakana “ro” and kanji “mouth” and the like.

デジタル情報技術が普及した現在であるが、紙原稿は情報伝達の媒体として広く使われている。紙原稿にて入手した情報を簡易にデータ化する方法として、OCR(光学式文字読取装置)で文字データを認識し、データ化する方法が一般的である。OCR(光学式文字読取装置)の読取解像度の向上や画像解析技術の発達により、高い認識精度を得られるようになっているが、誤読取される可能性のある文字(誤読取される可能性のある文字とはカタカナの「カ」と漢字の「力(ちから)」や、カタカナの「ロ」と漢字の「口(くち)」等がそれに相当する。)の識別に至っては、依然誤りが多く、人手を介しての修正に頼らざるを得ない。誤って読み取られた文字の修正のため、一時的に「誤読取される可能性のある文字と認識できるマーク」に変換させた後、事前に用意した類似単語リストを参照し、手入力で正字に差し替える作業を行ってきた。   Although digital information technology is now widespread, paper manuscripts are widely used as an information transmission medium. As a method for easily converting information obtained from a paper document into data, a method of recognizing character data with an OCR (optical character reader) and converting it into data is common. High recognition accuracy can be obtained by improving the reading resolution of OCR (optical character reader) and the development of image analysis technology. However, there is a possibility of erroneous reading (possibility of erroneous reading). Is still an error in identifying katakana “K” and kanji “power”, katakana “ro” and kanji “mouth”, etc.) Many people have to rely on manual modifications. In order to correct misread characters, temporarily convert them to “marks that can be recognized as misreadable characters”, then refer to the similar word list prepared in advance and manually enter the correct characters. I have been working on replacing it.

OCR(光学式文字読取装置)での認識後の文書データに対して高精度の修正を施し、後の手作業修正の負荷を軽減する方法として、OCR(光学式文字読取装置)の認識結果に形態素解析を適用し、該当文書の属するカテゴリを推定し、その推定されたカテゴリに係る辞書を優先的に用いて、文書中の用語誤りの修正を行う手法(特許文献1参照)がある。   As a method of performing high-precision correction on document data after recognition by an OCR (optical character reader) and reducing the burden of subsequent manual correction, the recognition result of the OCR (optical character reader) is used. There is a method of applying a morphological analysis, estimating a category to which a corresponding document belongs, and correcting a term error in the document by using a dictionary related to the estimated category preferentially (see Patent Document 1).

類似した文字の置換としては、日本語漢字かな混じりの文章の形態素解析を行い、分析に必要な単位で分割し、類似文字に相当する「ー(音引き)」や「−(マイナス)」、「-(ハイフン)」を置換する文字置換装置(特許文献2参照)がある。   To replace similar characters, perform a morphological analysis of Japanese kana-kana mixed text, divide it into units required for analysis, and use “-(sound drawing)”, “-(minus)”, “ There is a character replacement device (see Patent Document 2) that replaces “-(hyphen)”.

特開2008―225695号公報JP 2008-225695 A 特許第3407293号Japanese Patent No. 3407293

書籍や冊子あるいは新聞といった紙媒体を使って世の中に提供される文字情報は、その文字情報が法的な効力を持つ場合や文字情報を読む時、読者に混乱を招いてはならない場合がある。それらの場合は、文字情報に高い正確性が求められ、誤植を含んだままの状態で提供されるようなことがあってはならない。そのため、編集する側で文字データを作成する作業では、誤植箇所数を可能な限り無くす努力をしなければならない。一方、紙媒体による原稿の文字情報から編集用データへ加工及び作成するといった編集工程においては、多大な時間を要する手入力による編集作業の省力化を目的に、OCR(光学式文字読取装置)を利用し、紙媒体の文字情報を読み取って文字データに加工することが多い。従来、OCR(光学式文字読取装置)によって紙原稿から文字データに処理した際に、紙原稿内の文字とは違う文字に誤って処理してしまう場合があるため、OCR(光学式文字読取装置)によって取得された文字データに対しては編集画面上において目視による全文校正を行っている。誤って処理されてしまったとみられる文字が発見された場合は、手入力により正字に差し替えていた。これら編集する工程を経た後、作成された編集データと原稿との整合性を確認するため、編集データとして出力された紙媒体と原稿同士とを突き合わせて目視比較する作業を行うが、この作業の中では、文章を読んで文字或いは単語の意味を考えながら文字を見比べるのではなく、一文字一文字の字形の差だけを比較する作業であり、正字と似たような字形の誤字が含まれている状態の文章であると、編集工程における誤植箇所や見落とし箇所が発見し難く、確認作業に要する時間も多大に掛かってしまう。
本発明が解決すべき課題は、人手を介して行われているこれら編集と校正に要する時間及び作業に対する負荷を軽減させ、誤っていない箇所を修正してしまうことや誤り箇所を見落としてしまうなどのヒューマンエラーを防止することにある。このためには、プログラミング技術を活用したシステムによって編集データ上の誤読取された文字を判断し、誤読取された文字を正字へ自動で置き換える処理を行うなどの、安全で迅速に、且つ確実な方法が望まれる。
Character information provided to the world using a paper medium such as a book, booklet, or newspaper may not be confusing to the reader when the character information has legal effect or when reading the character information. In those cases, the text information must be highly accurate and should not be provided with typographical errors. Therefore, in the work of creating character data on the editing side, efforts must be made to eliminate as many typographical locations as possible. On the other hand, in an editing process such as processing and creation from character information of a manuscript on a paper medium to editing data, an OCR (optical character reader) is installed for the purpose of labor saving in manual editing that requires a lot of time. It is often used to read character information on a paper medium and process it into character data. Conventionally, when character data is processed from a paper document by an OCR (optical character reader), it may be erroneously processed to a character different from the character in the paper document. The text data obtained in step (3) is visually proofread on the editing screen. When a character that seemed to have been processed by mistake was found, it was replaced with a normal character by manual input. After these editing steps, in order to check the consistency between the created edit data and the original, the paper medium output as the edit data and the original are compared and visually compared. In the work, it is not a matter of comparing characters while reading the sentence and considering the meaning of the character or word, but only comparing the difference in character shape of each character, and includes typographical errors similar to the normal character. If the sentence is in a state, it is difficult to find a typographical place or an overlooked part in the editing process, and it takes a lot of time for the confirmation work.
The problem to be solved by the present invention is to reduce the time and work required for editing and proofreading that are performed manually, to correct a part that is not erroneous, or to overlook an erroneous part, etc. Is to prevent human error. For this purpose, a system that utilizes programming technology determines a misread character on the editing data, and automatically replaces the misread character with a correct character, for example. A method is desired.

特許文献1では、使用するカテゴリ(分類・分野)分け及びカテゴリに係る辞書を作成者の恣意的な分類に基づいて生成可能であるとしている。すなわち、扱う情報によってカテゴリ及びカテゴリに係る辞書は果てしなく存在するということである。特殊な業務用途の文書を精度良く校正するために使用するのであれば、その分野に適合した特殊辞書を定義することで利用価値は上がるが、一般的(新聞、一般書籍等)に使用する場合、そのデータのメンテナンスには莫大な時間と労力が必要であり、その整備や保守に大きな問題がある。   In Patent Literature 1, it is assumed that a category (classification / field) classification to be used and a dictionary related to the category can be generated based on an arbitrary classification of the creator. That is, the category and the dictionary related to the category are endless depending on the information to be handled. If it is used for proofreading a document for special business use with high accuracy, the utility value is increased by defining a special dictionary suitable for the field, but it is used for general purposes (newspapers, general books, etc.). The maintenance of the data requires an enormous amount of time and effort, and there are major problems in its maintenance and maintenance.

特許文献2において、効率良くその正確性が保てる条件として、数式、住所、電話番号、かな標記の単語及び外国語の単語等を少なくとも有している特定の規則を持つ文章に限られている。一般的に紙原稿で入稿する文書はこの限りではなく、類似した文字を含む単語の精度を保つための汎用性は低いと考えられる。   In Japanese Patent Laid-Open No. 2004-260260, the conditions for efficiently maintaining the accuracy are limited to sentences having specific rules having at least a mathematical expression, an address, a telephone number, a kana word, a foreign language word, and the like. In general, a document submitted as a paper manuscript is not limited to this, and it is considered that the versatility for maintaining the accuracy of words including similar characters is low.

本発明は、上記課題の解決を目的とするものであり、OCR(光学式文字読取装置)によって読み取られた紙原稿の文字データを編集用データに加工する作業において、誤読取される可能性のある文字を正字に置換する方法を提供することにある。   SUMMARY OF THE INVENTION The present invention aims to solve the above-described problems, and there is a possibility of erroneous reading in an operation of processing character data of a paper document read by an OCR (optical character reading device) into editing data. It is to provide a method for replacing a certain character with a normal character.

データ記憶部及びデータ生成部を備える文字データ置換システムによって文字データを置換する方法において、前記データ記憶部は、第1置換テーブルと第2置換テーブル及び履歴テーブルとを備えており、前記データ生成部は、文字が記載された画像データを取得するデータ取得手段と、前記データ取得手段により取得した文字データを読み取る光学式文字読取手段と、前記光学式文字読取手段により読み取られたデータに誤読取される可能性のある文字を含んだ単語が存在しているか否かを検索し、存在した場合に前記第1置換テーブルに登録された単語に置換する第1置換手段と、前記第1置換手段において置換されなかった誤読取される可能性のある文字を検索し、前記第2置換処理テーブルの類似文字リストと照合し誤読取される可能性のある文字と認識できるマークに置換する第2置換手段と、前記マークに置換された文字を含むデータを正単語に置換し、前記置換処理されたデータを前記履歴テーブルに格納するとともに、編集用データとして生成する編集用データ生成手段にて文字データを置換する方法である。   In a method for replacing character data by a character data replacement system including a data storage unit and a data generation unit, the data storage unit includes a first replacement table, a second replacement table, and a history table, and the data generation unit Is erroneously read into the data read by the optical character reading means, the optical character reading means for reading the character data acquired by the data acquisition means, the data acquisition means for acquiring the image data describing the characters In the first replacement means, a first replacement means for searching whether or not there is a word including a character that can be detected and replacing it with a word registered in the first replacement table if it exists, A character that may not be replaced is searched for a character that may be erroneously read, and is compared with a similar character list in the second replacement processing table to be erroneously read. Second replacement means for replacing with a mark that can be recognized as a possible character, replacing the data including the character replaced with the mark with a correct word, and storing the replaced data in the history table; In this method, character data is replaced by an editing data generation unit that generates the editing data.

誤読取される可能性のある文字を検出し、プログラム処理によって一時的に誤読取される可能性のある文字と認識できるマークに変換した後、当該箇所を手入力によって差し替えを行った場合の時間と、本願発明による文字データ置換方法を用いた場合、編集作業の効率化による時間短縮が可能となる。また、誰もが扱えるように利便性を考慮したことにより、編集工程におけるヒューマンエラーを未然に防ぐこととなり、これまでよりも信頼及び精度の高い編集データが得られる。   Time when a character that may be misread is detected and converted to a mark that can be recognized as a character that may be temporarily misread by program processing, and then the part is manually replaced When the character data replacement method according to the present invention is used, the time can be shortened by improving the efficiency of the editing work. Further, by considering convenience so that anyone can handle it, human errors in the editing process are prevented in advance, and edit data with higher reliability and accuracy than before can be obtained.

修正作業に必要な類似単語リストの作成及びメンテナンスには、既存データ及び新たに発生した誤読取される可能性のある文字を含む文字列パターンの単語を各々管理し、新たに発生した単語の発生頻度及び発生パターンを把握する必要がある。しかし、人間が発生頻度及び発生パターンを把握し集計するには、ある程度の時間が必要であることから、タイムリーにデータの更新を行い、その精度を保ち続けることは難しかった。しかし、新たに発生した誤読取される可能性のある文字を含む文字列パターンの単語を履歴テーブルに都度、蓄積させてデータ管理を行っていくことにより、任意の期間及びタイミングで集計及び加工が可能になり、リストの精度が保てることにより、文字データの置換処理の精度も更に向上していく。   For the creation and maintenance of similar word lists required for correction work, existing data and newly generated words of character string patterns including characters that may be misread are managed to generate newly generated words. It is necessary to grasp the frequency and occurrence pattern. However, since it takes a certain amount of time for a human to grasp and count the occurrence frequency and occurrence pattern, it has been difficult to update the data in a timely manner and maintain its accuracy. However, it is possible to count and process data at any time and timing by accumulating words in the string pattern including newly generated characters that may be misread and storing them in the history table each time. This makes it possible to maintain the accuracy of the list, thereby further improving the accuracy of the character data replacement processing.

本発明の文字データ置換システムを示すブロック図である。It is a block diagram which shows the character data replacement system of this invention. 文字データ置換方法のフローチャート図である。It is a flowchart figure of the character data replacement method. 本発明実施形態の流れを示すフローチャート図である。It is a flowchart figure which shows the flow of embodiment of this invention. 第1置換テーブルの類似単語リストを示す図である。It is a figure which shows the similar word list | wrist of a 1st replacement table. 第1置換テーブルに登録されている単語が読み取られた場合の置換例を示す図である。It is a figure which shows the example of replacement when the word registered into the 1st replacement table is read. 第1置換テーブルデータ(1)の作成方法を示す図である。It is a figure which shows the preparation method of 1st replacement table data (1). 第1置換テーブルのデータ(2)の作成方法を示す図である。It is a figure which shows the preparation method of the data (2) of a 1st replacement table. 類似文字リストを示す図である。It is a figure which shows a similar character list. 第1置換テーブルに登録されていない単語が読み取られた場合の置換例を示す図である。It is a figure which shows the example of replacement when the word which is not registered into the 1st replacement table is read.

本発明の実施形態について図面を用いて説明する。しかしながら、本発明は、以下に述べる形態に限定されるものではなく、特許請求の範囲記載における技術的思想の範囲内であれば、その他色々な形態が実施可能である。   Embodiments of the present invention will be described with reference to the drawings. However, the present invention is not limited to the embodiments described below, and various other embodiments can be implemented within the scope of the technical idea described in the claims.

本発明の文字データ置換システム1のブロック図を図1に示す。図1に示すように文字データ置換システム1は、データ生成部2と、データ記憶部3とを備えてなる。さらに、文字データ置換システム1は、図1の一点鎖線内に示すように更新データ生成部を備えていてもよい。   A block diagram of the character data replacement system 1 of the present invention is shown in FIG. As shown in FIG. 1, the character data replacement system 1 includes a data generation unit 2 and a data storage unit 3. Furthermore, the character data replacement system 1 may include an update data generation unit as shown in a dashed line in FIG.

図1に示すようにデータ生成部2はデータ取得手段101、光学式文字読取手段102、第1置換手段103、第2置換手段104及び編集データ生成手段105を備えてなる。データ取得手段101は紙原稿からスキャナ、デジタルカメラ等によって画像データ301を取得する。社外より入手した電子画像データであっても問題はない。画像データ301の保存形式は特に限定されることなく、一般的な画像ファイルの保存形式であるJPEG、BMP、TIFF等に代表される形式である。また、画像データ301は、社内内部又は社外からネットワークを介して取得してもよい。   As shown in FIG. 1, the data generation unit 2 includes a data acquisition unit 101, an optical character reading unit 102, a first replacement unit 103, a second replacement unit 104, and an edit data generation unit 105. The data acquisition unit 101 acquires image data 301 from a paper document using a scanner, a digital camera, or the like. There is no problem with electronic image data obtained from outside the company. The storage format of the image data 301 is not particularly limited, and is a format typified by JPEG, BMP, TIFF and the like, which are general image file storage formats. The image data 301 may be acquired from inside or outside the company via a network.

データ生成部2の光学式文字読取手段102は、データ取得手段101によって取得された画像データ301を文書データ302に変換する。光学式文字読取手段102は、一般的な光学式文字読取ソフトウェア(OCRソフト)であれば、特に限定されることない。データ取得手段101によって取得された画像データ301は文字情報以外の不要な画像情報を取り除くための処理を行うことが好ましい。   The optical character reading unit 102 of the data generation unit 2 converts the image data 301 acquired by the data acquisition unit 101 into document data 302. The optical character reader 102 is not particularly limited as long as it is general optical character reader software (OCR software). The image data 301 acquired by the data acquisition unit 101 is preferably subjected to processing for removing unnecessary image information other than character information.

データ生成部2の第1置換手段103は、光学式文字読取手段に102より読み取られた文書データ302に誤読取される可能性のある文字を含んだ単語が存在しているか否かを検索し、誤読取される可能性のある文字を含んだ単語が存在している場合、第1置換テーブル201に登録された類似単語データに置換する。図5に誤読取される可能性のある文字を含む単語が第1置換テーブルに登録されている場合の処理例を示す。
「人口密度」という単語には誤読取される可能性のある文字「口(くち)」が含まれている。第1置換テーブルに「人口密度(じんこうみつど)」と「人ロ密度(じんろみつど)」の2つの単語が登録されており、このいずれかの単語が読み取られた場合、正しい単語である「人口密度(じんこうみつど)」に自動変換される。図6にて第1置換テーブルで使用される類似単語データの作成方法について説明する。
予め類似単語を登録する方法として、類似文字前後における文字種の並びなどの特徴から類似単語として想定できることに着目することで、多くの類似単語リストが作成できる方法がある。その方法として、
(a)漢字と漢字の間にカタカナの入る単語はない。例えば、「重力加速度」のように、漢字の「力(ちから)」がカタカナの「カ」であるような単語を指す。
(b)カタカナとカタカナの間に漢字の入る単語はない。例えば「デジタル」の「タ」が漢字の「夕(ゆう)」であるような単語を指す。
(c)漢字の次の文字がカタカナの「ン」で始まる単語はない。例えば、「タンパク」のように「タ」が漢字の「夕(ゆう)」であるような単語を指す。
(d) 漢字の次の文字が促音「っ」、拗音「ゃ・ゅ・ょ」や音引き「ー」で始まる単語はない。例えば、「ニュー」の「ニ」が漢字の「二(に)」であったり、「ローマ」の「ロ」が漢字の「口(くち)」であるような単語を指す。
(e)一般的に使用される単語に類似文字が含まれる単語はない。例えば、「症候群」の「候」が「侯」であるような単語を指す。
以上のように、誤読取される可能性のある文字を含む単語の文字列パターンを予測することにより類似単語データを充実させることが可能である。
もう1つの例として、例えば、「オペレータ」という単語の場合、カタカナの「ペ」には、ひらながの「ぺ」、カタカナの「ベ」、ひらがなの「べ」の3つの形の似た文字(以下、「へ・ぺ・べ」、「ナ・メ」、「ン・ソ」等のOCR(光学式文字読取装置)にて読み違えやすい文字を類型文字と記載する)があり、音引き「ー」の場合マイナスに類型しており、カタカナの「タ」は漢字の「夕(ゆう)」に類似していることから、「オペレータ」という単語の類型文字パターンは、全部で15パターンあることを整理することにより類似文字リストの更なる充実を図ることが可能である。
The first replacement unit 103 of the data generation unit 2 searches the optical character reading unit for whether there is a word including a character that may be erroneously read in the document data 302 read by the 102. If there is a word including a character that may be erroneously read, the word is replaced with similar word data registered in the first replacement table 201. FIG. 5 shows a processing example when a word including a character that may be erroneously read is registered in the first replacement table.
The word “population density” includes a letter “mouth” that may be misread. Two words of “population density” and “human density” are registered in the first replacement table, and if one of these words is read, the correct word It is automatically converted to "population density". A method of creating similar word data used in the first replacement table will be described with reference to FIG.
As a method of registering similar words in advance, there is a method in which many similar word lists can be created by paying attention to the fact that similar words can be assumed based on characteristics such as the arrangement of character types before and after similar characters. As a method,
(a) There are no words with katakana between kanji. For example, a word such as “gravity acceleration” in which the kanji “force” is “k” in katakana.
(b) There are no words with kanji between katakana and katakana. For example, the word “ta” in “digital” refers to the word “yu” in Chinese characters.
(c) There is no word that begins with the letter “n” after the kanji. For example, a word such as “protein” where “Ta” is the Chinese character “Yu”.
(d) There is no word that starts with the sound “tsu”, the roar “nya-yu-yo” or the sound-drawing “-” after the kanji. For example, the word “ni” in “new” is a word “ni”, or the word “ro” in “roma” is “mouth”.
(e) There are no words that contain similar characters in commonly used words. For example, the word “symptom” of “syndrome” is “症候群”.
As described above, it is possible to enrich similar word data by predicting a character string pattern of a word including a character that may be misread.
As another example, for example, in the case of the word “operator”, the katakana “pe” has three similar shapes: hiragana “pe”, katakana “be”, and hiragana “be”. There are characters (hereinafter referred to as “typical characters”) that are easy to read with OCR (optical character reader) such as “he-pe-be”, “na-me”, “n-so”. In the case of “-”, it is negatively categorized, and the katakana “ta” is similar to the kanji “Yu”, so there are a total of 15 types of character patterns for the word “operator”. By organizing the above, it is possible to further enhance the similar character list.

データ生成部2の第2置換手段104は、第1置換手段103で置換されなかった誤読取される可能性のある文字を検索し、第2置換処理テーブル202の類似文字リストと照合し誤読取される可能性のある文字と認識できるマークに置換する。発明を実施するための形態では、誤読取される可能性のある文字と認識できるマークに「〓(ゲタマーク)」を使用した例を示す。図9では、第1置換手段で置換されなかった誤読取される可能性のある文字の、第2置換手段での処理例を示す。「人口統計」という第1置換テーブル103に登録されていない単語が読み取られた場合、誤読取される可能性のある文字「ロ」または「口」は、それと認識できるマーク「〓」に一時的に置換される。「〓」マークに置換された文字を含む単語は、辞書テーブルから正しい単語「人口統計」を選択し置換することが可能である。さらに、第2置換手段104において作成されたデータはデータ記憶部3の履歴テーブル204に格納される。「〓」マークに置換された文字を含む単語は手入力にて正しい単語に変換することも可能である。   The second replacement unit 104 of the data generation unit 2 searches for a character that may be erroneously read that has not been replaced by the first replacement unit 103, and collates it with a similar character list in the second replacement processing table 202, thereby causing erroneous reading. It is replaced with a mark that can be recognized as a character that may be used. In the embodiment for carrying out the invention, an example is shown in which “ゲ (getter mark)” is used as a mark that can be recognized as a character that may be misread. FIG. 9 shows an example of processing by the second replacement unit for characters that may not be replaced by the first replacement unit and may be misread. When a word that is not registered in the first replacement table 103 called “demographics” is read, the character “B” or “mouth” that may be erroneously read is temporarily displayed in the mark “〓” that can be recognized as it. Is replaced by The word including the character replaced with the “〓” mark can be replaced by selecting the correct word “population” from the dictionary table. Further, the data created in the second replacement means 104 is stored in the history table 204 of the data storage unit 3. A word including a character replaced with the “〓” mark can be converted into a correct word by manual input.

データ生成部2の編集用データ生成手段105では、第1置換手段103及び第2置換手段104に置換処理されたデータ303から編集用テキストデータ304を生成する。生成された編集データ304は市販のソフトウェア等でスペルチェックを行い出力することが好ましい。   The editing data generation unit 105 of the data generation unit 2 generates editing text data 304 from the data 303 subjected to the replacement processing by the first replacement unit 103 and the second replacement unit 104. The generated editing data 304 is preferably output after a spell check with commercially available software or the like.

図1に示すようにデータ記憶部3は、第1置換テーブル201、第2置換テーブル202及び履歴テーブル203からなる。第1置換テーブル201、第2置換テーブル202及び履歴テーブル203は一般的なコンピュータのハードディスク等に格納される。   As shown in FIG. 1, the data storage unit 3 includes a first replacement table 201, a second replacement table 202, and a history table 203. The first replacement table 201, the second replacement table 202, and the history table 203 are stored in a general computer hard disk or the like.

データ記憶部3の第1置換テーブル201は類似単語データを保持しており、任意の期間及びタイミングで、履歴テーブル203に蓄積されたデータを流用し類似単語データを更新することが可能である。   The first replacement table 201 of the data storage unit 3 holds similar word data, and the similar word data can be updated using the data accumulated in the history table 203 at an arbitrary period and timing.

データ記憶部3の第2置換テーブル202は、誤読取される可能性のある文字を登録した類似文字リストと辞書テーブル205を保持している。この実施例では、第2置換テーブル202に、辞書テーブル205が付随している例を示すが、それに限定されることはない。   The second replacement table 202 of the data storage unit 3 holds a similar character list and a dictionary table 205 in which characters that may be misread are registered. In this embodiment, an example in which the dictionary table 205 is attached to the second replacement table 202 is shown, but the present invention is not limited to this.

データ記憶部3の履歴テーブル204は、置換処理を行ったデータを格納することが可能である。   The history table 204 of the data storage unit 3 can store data subjected to replacement processing.

図1に示すように更新データ生成部4は、更新データ作成手段106と置換テーブル更新手段107からなる。   As shown in FIG. 1, the update data generation unit 4 includes an update data creation unit 106 and a replacement table update unit 107.

更新データ生成部4の更新データ作成手段106は履歴テーブル204に格納されたデータをテキストデータに変換しデータの更新及び加工を行う。   The update data creation means 106 of the update data generation unit 4 converts the data stored in the history table 204 into text data, and updates and processes the data.

更新データ生成部4の置換テーブル更新手段107は、更新データ作成手段106で生成されたデータを使用し、第1置換テーブルに保持された類似単語データの更新処理を行う。   The replacement table update unit 107 of the update data generation unit 4 uses the data generated by the update data generation unit 106 to update the similar word data held in the first replacement table.

文字データ置換方法のフローチャートについては図2に示す。   A flowchart of the character data replacement method is shown in FIG.

第1の工程であるデータ取得手段F101によって、文字が記載された画像データを取得する。   Image data in which characters are described is acquired by the data acquisition means F101 which is the first step.

第2の工程は、第1の工程で得られた画像データを光学式文字読取手段F102によって文字認識された文書データ(テキストデータ)に変換する。   In the second step, the image data obtained in the first step is converted into document data (text data) recognized by the optical character reading means F102.

第3の工程は、第1置換手段F103であり、光学式文字読取手段F102によって読み取られたデータに誤読取される可能性のある文字を含む単語が存在しているか検索し、誤読取される可能性のある文字を含む単語が存在している場合、第1置換テーブルに登録された単語を読み出し、登録された正しい単語に置換し文字データを生成する。   The third step is the first replacement unit F103, which searches for data containing characters that may be misread in the data read by the optical character reading unit F102, and is misread. If there is a word including a possible character, the word registered in the first replacement table is read and replaced with the registered correct word to generate character data.

第4の工程は、第2置換手段F104であり、記憶手段に保存された光学式文字読取手段によって誤読取される可能性のある文字が登録された第2置換テーブル類似文字リストから誤読取される可能性のある文字を読み出し、第3の工程で得られた正しい単語に変換された単語データ以外の第1置換文字データに対して、誤読取される可能性のある文字が存在するか否かを検索し、存在した場合に任意の誤読取される可能性のある文字と認識できるマークに置換する第2置換文字データを生成する。   The fourth step is the second replacement means F104, in which characters that may be erroneously read by the optical character reading means stored in the storage means are erroneously read from the registered second replacement table similar character list. Whether there is a character that may be misread for the first replacement character data other than the word data converted into the correct word obtained in the third step. The second replacement character data to be replaced with a mark that can be recognized as an arbitrary character that may be misread when it exists is generated.

第5の工程は、第4の工程で生成された第2置換文字データを編集用データ生成手段F105によって、編集用データとして生成する。編集用データ生成手段F105は、あらかじめ記憶部に登録されている辞書テーブルを読み出し、任意の誤読取される可能性のある文字と認識できるマークを含む単語を、正しい単語に置換して編集用データとして生成する。   In the fifth step, the second replacement character data generated in the fourth step is generated as editing data by the editing data generation unit F105. The editing data generation unit F105 reads a dictionary table registered in the storage unit in advance, replaces a word including a mark that can be recognized as an arbitrary misread character with a correct word, and edit data Generate as

第1置換テーブルF103は、データ蓄積手段F106によって、第1置換テーブルF103に登録されていない誤読取される可能性のある文字を含む単語で、編集用データ生成手段F105にて、任意の誤読取される可能性のある文字と認識できるマークを、正しい単語に置換した単語と、正しい単語に置換される前の単語を履歴テーブルに蓄積し、蓄積された更新データを第1置換テーブルF103に更新することができる。   The first replacement table F103 is a word including characters that are not registered in the first replacement table F103 and may be misread by the data storage unit F106, and the editing data generation unit F105 performs arbitrary misreading. The mark that can be recognized as a character that can be recognized is replaced with the correct word and the word before being replaced with the correct word are accumulated in the history table, and the accumulated update data is updated in the first replacement table F103. can do.

上記に示した文字データ置換方法をコンピュータによって実行可能なプログラムが記録された記録媒体とすることができる。   The character data replacement method described above can be a recording medium on which a program that can be executed by a computer is recorded.

101 データ取得手段
102 光学式文字読取手段
103 第1置換手段
104 第2置換手段
105 編集データ生成手段
106 更新データ生成手段
107 置換テーブル更新手段
201 第1置換テーブル
202 第2置換テーブル
203 履歴テーブル
301 画像データ
302 文書データ
303 置換済データ
304 編集データ
305 更新データ
306 CSVデータ
S101 紙原稿デジタル変換
S102 OCR読取
S103 文字存在チェック
S104 登録済単語か?
S105 正単語へ自動変換
S106 スペルチェック
S107 編集用テキストデータへ変換
S108 最終文字チェック
S109 編集用データ出力
S201 文字認識「〓」マークへ変換
S202 正単語に修正
S203 置換処理データを履歴テーブルに蓄積
S204 更新用テキストデータ作成
S205 更新ファイルの作成
S206 第1置換テーブルデータ更新
S111 第1置換テーブル
S112 第2置換テーブル
S113 データ記憶部履歴テーブル
S114 類似単語データ追加/修正
S115 類似文字リスト
S116 辞書テーブル
DESCRIPTION OF SYMBOLS 101 Data acquisition means 102 Optical character reading means 103 1st replacement means 104 2nd replacement means 105 Edit data generation means 106 Update data generation means 107 Replacement table update means 201 1st replacement table 202 2nd replacement table 203 History table 301 Image Data 302 Document data 303 Replaced data 304 Edited data 305 Update data 306 CSV data S101 Paper document digital conversion S102 OCR reading S103 Character existence check S104 Registered word?
S105 Automatic conversion to a correct word S106 Spell check S107 Conversion to text data for editing S108 Final character check S109 Data output for editing S201 Conversion to character recognition “〓” mark S202 Correction to a correct word S203 Replacement data stored in history table S204 Update Text data creation S205 Creation of update file S206 First replacement table data update S111 First replacement table S112 Second replacement table S113 Data storage history table S114 Similar word data addition / correction S115 Similar character list S116 Dictionary table

Claims (1)

データ記憶部及びデータ生成部を備える文字データ置換システムによって文字データを置換する方法において、
前記データ記憶部は、
第1置換テーブルと第2置換テーブル及び履歴テーブルとを備えており、
前記データ生成部は、
文字が記載された画像データを取得するデータ取得手段と、
前記データ取得手段により取得した文字データを読み取る光学式文字読取手段と、
前記光学式文字読取手段により読み取られたデータに誤読取される可能性のある文字を含んだ単語が存在しているか否かを検索し、存在した場合に前記第1置換テーブルに登録された単語に置換する第1置換手段と、
前記第1置換手段において置換されなかった誤読取される可能性のある文字を検索し、 前記第2置換処理テーブルの類似文字リストと照合し誤読取される可能性のある文字と 認識できるマークに置換する第2置換手段と、
前記マークに置換された文字を含むデータを正単語に置換し、前記置換処理されたデータを前記履歴テーブルに格納するとともに、編集用データとして生成する編集用データ生成手段にて文字データを置換する方法。
In a method for replacing character data by a character data replacement system comprising a data storage unit and a data generation unit,
The data storage unit
A first replacement table, a second replacement table, and a history table;
The data generator is
Data acquisition means for acquiring image data in which characters are described;
Optical character reading means for reading character data acquired by the data acquisition means;
The data read by the optical character reading means is searched for whether or not there is a word containing a character that may be erroneously read, and if it exists, the word registered in the first replacement table First replacement means for replacing with,
A mark that can be recognized as a character that may be erroneously read by searching for a character that may not be replaced by the first replacement means and collating with a similar character list in the second replacement processing table. A second replacement means for replacing;
The data including the character replaced with the mark is replaced with a correct word, the replaced data is stored in the history table, and the character data is replaced with an editing data generating unit that generates the editing data. Method.
JP2010009554A 2010-01-20 2010-01-20 Method for substituting character data Pending JP2011150436A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010009554A JP2011150436A (en) 2010-01-20 2010-01-20 Method for substituting character data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010009554A JP2011150436A (en) 2010-01-20 2010-01-20 Method for substituting character data

Publications (1)

Publication Number Publication Date
JP2011150436A true JP2011150436A (en) 2011-08-04

Family

ID=44537369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010009554A Pending JP2011150436A (en) 2010-01-20 2010-01-20 Method for substituting character data

Country Status (1)

Country Link
JP (1) JP2011150436A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385424A (en) * 2018-12-25 2020-07-07 佳能株式会社 Image processing system and image processing method
JP2021056750A (en) * 2019-09-30 2021-04-08 キヤノン株式会社 Data input support device, data input support method and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385424A (en) * 2018-12-25 2020-07-07 佳能株式会社 Image processing system and image processing method
US11216695B2 (en) 2018-12-25 2022-01-04 Canon Kabushiki Kaisha Image processing system and image processing method
JP2021056750A (en) * 2019-09-30 2021-04-08 キヤノン株式会社 Data input support device, data input support method and program
JP7387363B2 (en) 2019-09-30 2023-11-28 キヤノン株式会社 Data input support device, data input support method and program

Similar Documents

Publication Publication Date Title
KR101435265B1 (en) Method for disambiguating multiple readings in language conversion
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
Slimane et al. A new arabic printed text image database and evaluation protocols
US7756871B2 (en) Article extraction
US9286526B1 (en) Cohort-based learning from user edits
US8208726B2 (en) Method and system for optical character recognition using image clustering
CN110866116A (en) Policy document processing method and device, storage medium and electronic equipment
CN108197119A (en) The archives of paper quality digitizing solution of knowledge based collection of illustrative plates
WO2017106610A1 (en) Method and system for providing automated localized feedback for an extracted component of an lectronic document file
US7929772B2 (en) Method for generating typographical line
JP2008059157A (en) Document confirmation support system, document confirmation support device and program
CN112084748A (en) Text comparison method
JP5107556B2 (en) Improved Chinese-English translation tool
CN110008807A (en) A kind of training method, device and the equipment of treaty content identification model
CN111046627A (en) Chinese character display method and system
JP5291351B2 (en) Evaluation expression extraction method, evaluation expression extraction device, and evaluation expression extraction program
JP2011150436A (en) Method for substituting character data
CN111310473A (en) Text error correction method and model training method and device thereof
Hocking et al. Optical character recognition for South African languages
CN110543641A (en) chinese and foreign language information comparison method and device
CN1426017A (en) Method and its system for checking multiple electronic files
JP2007011683A (en) Document management support device
CN112417819A (en) Word document information extraction method and device, electronic equipment and medium
CN112632908A (en) Method for correcting fixed format of scientific and technological journal by using computer technology
JP2010003000A (en) Item determination system and item determination program