JP2006031129A - Document processing method and document processor - Google Patents

Document processing method and document processor Download PDF

Info

Publication number
JP2006031129A
JP2006031129A JP2004205361A JP2004205361A JP2006031129A JP 2006031129 A JP2006031129 A JP 2006031129A JP 2004205361 A JP2004205361 A JP 2004205361A JP 2004205361 A JP2004205361 A JP 2004205361A JP 2006031129 A JP2006031129 A JP 2006031129A
Authority
JP
Japan
Prior art keywords
character string
document
character
recognition
string block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004205361A
Other languages
Japanese (ja)
Other versions
JP4466241B2 (en
Inventor
Takeshi Eisaki
健 永崎
Mariko Yamamoto
真理子 山本
Katsumi Marukawa
勝美 丸川
Hiroyuki Kuriyama
裕之 栗山
Shigeyuki Fujiwara
茂之 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004205361A priority Critical patent/JP4466241B2/en
Publication of JP2006031129A publication Critical patent/JP2006031129A/en
Application granted granted Critical
Publication of JP4466241B2 publication Critical patent/JP4466241B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the problem that it is difficult to take countermeasures to the increase of a processing time due to the reading of a document image on a whole surface, or the error of the character line extraction of an OCR due to the mixture of a document/graphic plate/ruled line or the deterioration of reading precision due to the difficulty of the arrangement of general-purpose notation knowledge suitable for a document image since a paper document group or a document image group used to be collectively converted into a text in batch processing by using an OCR device, and a document processing task used to be operated to this in a conventional manner. <P>SOLUTION: A character string block is extracted from a document image being an object to be processed, and the two-dimensional arrangement structure is analyzed so that the described contents category of the character string block can be estimated. When a reading object region is designated by the interactive operation of a user, a recognition processing is performed only for a character string block group in the neighborhood of the region, so that it is possible to reduce a processing time. Also, character string recognition is performed by using notation knowledge corresponding to the described contents of the character string block so that it is possible to improve the recognition precision. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文字認識を用いた対話的文書処理手法及び文書処理プログラムを記録した記録媒体に関する。   The present invention relates to an interactive document processing technique using character recognition and a recording medium on which a document processing program is recorded.

コンピュータによるデジタル情報技術が普及した現在でも、紙文書は情報伝達の媒体として広く使われている。このため多量の紙文書を対象とした文書処理を効率良く行いたいという要求は社会的に根強いが、紙文書はデジタル文書に比べて参照・検索・改変の処理に時間を要するという問題がある。特に、許認可や点検に関する文書処理業務においては、申請書の記載内容に関する業務ノウハウを素早く検索できることや、必要な情報だけを手早くデジタルデータ化することが、業務効率を上げる意味で重要である。これらの問題を解決するために、紙文書処理のための様々な手法が提案されている。   Even today, with the spread of digital information technology using computers, paper documents are still widely used as a medium for information transmission. For this reason, there is a strong social demand for efficient document processing for a large number of paper documents, but paper documents have a problem in that they require more time for reference / search / modification processing than digital documents. In particular, in document processing work related to authorization and inspection, it is important to be able to quickly search for business know-how related to the contents of application forms and to quickly convert only necessary information into digital data in terms of improving work efficiency. In order to solve these problems, various methods for paper document processing have been proposed.

デジタル文書と同等の文書処理を紙文書で実現するための手段としては、OCR(光学的読取装置)を用いて紙文書を認識し、紙文書の記載内容をすべてデジタルデータ化するというバッチ的業務処理が一般的である。あらかじめOCRによって紙文書を全てデジタルデータ(テキスト)に変換しておけば、以降の処理ではテキストを使って関連業務ノウハウを検索する、またはテキストをコード化することで、上述した文書処理業務が効率良く遂行できる。しかし、一般にOCRで変換されたテキストには誤りが含まれるため、単純なバッチ的読取処理だけでは対処できないケースが生じる。   As a means for realizing document processing equivalent to a digital document with a paper document, a batch operation of recognizing a paper document using an OCR (optical reading device) and converting all the written contents of the paper document into digital data Processing is common. If all paper documents are converted to digital data (text) by OCR in advance, the subsequent processing can be performed efficiently by searching for related business know-how using text or by encoding text. Can perform well. However, since the text converted by OCR generally includes an error, there may be a case that cannot be dealt with only by a simple batch reading process.

上記課題の対応策の一つは認識精度の向上、特に文字列の表記知識を用いた精度向上がある。一般に、文字列認識における文字切出及び文字認識の不確定さを補い、文字列画像を文字列テキストに変換するために、文字列表記解析処理は広く利用されている。そのアルゴリズムとしては形態素解析を用いたものや、RTN照合(再帰遷移ネットワーク照合)、上昇型構文解析アルゴリズムを用いたものが一般的である。   One of the countermeasures for the above problem is improvement of recognition accuracy, particularly improvement of accuracy using notation knowledge of character strings. In general, character string notation analysis processing is widely used to compensate for character cutout and character recognition uncertainty in character string recognition and to convert a character string image into character string text. As the algorithm, those using morphological analysis, those using RTN matching (recursive transition network matching), and ascending parsing algorithm are generally used.

例えば、特開平05−108891号公報(特許文献1)では、OCRの読取精度を向上する手段としてOCRの認識結果に形態素解析を適用する手法が記されている。形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。更には、形態素解析という幅広い表記知識を対象とするため、表記知識の解析に時間が掛ったり、また表記解析において膨大な記憶容量を必要とするという問題がある。   For example, Japanese Patent Laying-Open No. 05-108891 (Patent Document 1) describes a method of applying morphological analysis to an OCR recognition result as means for improving OCR reading accuracy. Although it is possible to correct misreading by performing knowledge processing such as morphological analysis, the dictionary used in normal morphological analysis is intended for general sentences such as newspapers, and proofreads documents for special business use with high accuracy. To do this, it is necessary to define additional special dictionaries suitable for the field. Therefore, problems remain in terms of maintainability and computational complexity. Furthermore, since a wide range of notation knowledge called morphological analysis is targeted, it takes time to analyze notation knowledge, and there is a problem that enormous storage capacity is required for notation analysis.

また、特開2002−117374号公報(特許文献2)では、手書き数字列に対して上昇型構文解析を使った文字列表記解析処理が提案されている。一般に上昇型構文解析は下降型構文解析に比べて計算量が削減できるとされており、数字列等の表記が単純な規則で表現できるものに対して多く適用されている。しかし、文字列認識において起こり得る文字の誤不読、ノイズ混入等の問題に対してのロバスト性には、そのアルゴリズムが最適性を保証するものではないため、限界がある。また、OCRによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。たとえ人手による修正を省いたとしても、数百万もの紙文書をOCRによってテキスト化することは、処理時間やシステム構築コストが膨大に掛る処理である。   Japanese Patent Laid-Open No. 2002-117374 (Patent Document 2) proposes a character string notation analysis process using ascending syntax analysis for a handwritten digit string. In general, it is said that ascending parsing can reduce the amount of calculation compared to descending parsing, and it is often applied to what can be expressed by a simple rule such as a numeric string. However, there is a limit to the robustness against problems such as misreading of characters and noise mixing that can occur in character string recognition because the algorithm does not guarantee optimality. It is also possible to manually correct a text code converted by OCR and perform a search on the correction result. However, it is difficult to say that correction with human intervention is practical in terms of processing speed and cost. Even if manual correction is omitted, converting millions of paper documents into texts by OCR is a process that requires enormous processing time and system construction costs.

一方、文字認識を対話的に行う文書処理では、文書処理システムの利用者が認識したい対象である文字列を、部分的に指定してテキスト化するため処理時間の軽減を図ることができる。そのため大規模なシステム構築が不要となる。本発明で提案する手法は、対話的に文字認識を行う処理に基づく文書処理手法であり、かつ文書に記された文字列の配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、これに合致する表記知識を用いて文字列を読み取ることで認識精度の向上を図る。   On the other hand, in document processing in which character recognition is performed interactively, a character string that is a target to be recognized by a user of the document processing system is partially specified and converted into text, thereby reducing processing time. Therefore, it is not necessary to construct a large-scale system. The technique proposed in the present invention is a document processing technique based on a process of performing character recognition interactively, and by analyzing the arrangement structure of the character strings described in the document, the character strings designated as recognition targets are analyzed. The category of description contents (date, date, monetary number, business word, etc.) is estimated, and the recognition accuracy is improved by reading the character string using notation knowledge that matches this category.

特開平05−108891号公報Japanese Patent Laid-Open No. 05-108891

特開2002−117374号公報JP 2002-117374 A 特開平09−319824号公報Japanese Patent Application Laid-Open No. 09-319824 特開2000−251012号公報Japanese Patent Laid-Open No. 2000-251012 特開2001−014311号公報JP 2001-014411 A

本発明の目的は、文書画像を画面上に表示して処理を行う文書処理装置において、利用者の対話的な操作を元に文字認識を行い、その結果を元に業務データベース中から関連する項目を検索して表示する文書処理システム、または当該文書のデータ化を行う文書処理システム、その装置及び文書処理プログラムを記録した記録媒体を提供することにある。   It is an object of the present invention to perform character recognition based on a user's interactive operation in a document processing apparatus that displays and processes a document image on a screen, and related items from a business database based on the result. Is to provide a document processing system that retrieves and displays the document, a document processing system that converts the document into data, a device thereof, and a recording medium on which the document processing program is recorded.

従来の手法では、OCR装置を用いてバッチ処理で文書画像群を一括してテキストに変換し、これに対して文書処理業務を行っていたが、文書画像を全面で読み取ることによる処理時間の増大や、文書−図版−罫線混在に起因するOCRの文字行抽出誤りや、該文書画像に適した汎用的な表記知識を整備することの難しさによる読取精度低下に対処することが困難であった。本発明の目的は、OCR読取に起因する処理時間増大、及びOCR読取誤りが文書処理業務に与える悪影響を回避する方法を提案することである。   In the conventional method, a batch processing using an OCR device converts a document image group into text and performs document processing for this. However, the processing time is increased by reading the entire document image. It was difficult to cope with a reading accuracy drop due to an error in extracting a character line of OCR due to a mixed document-illustration-ruled line, or difficulty in preparing general-purpose notation knowledge suitable for the document image. . An object of the present invention is to propose a method for avoiding an increase in processing time due to OCR reading and an adverse effect of OCR reading errors on a document processing operation.

上記の目的を達成するため、本発明は、文書表示・操作装置において利用者の対話的な操作に応じて、文字認識処理を要求のあった時点で起動し、必要な部分のみを即時に認識し、当該認識結果を用いた業務データベースからの情報検索及び処理対象文書の部分的なデータ化を行うシステムを提供する。また、処理対象である文書画像から、文字列ブロックを抽出し、その二次元的配置構造を解析することで、当該文字列ブロックの記載内容カテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、利用者の対話的操作によって、認識対象である文字列ブロックを選択し、推定された当該文字列ブロックの記載内容カテゴリに応じて、表記知識を切り替えて文字列を読取ることで、読取精度を向上する機構を提供する。   In order to achieve the above object, the present invention starts character recognition processing at the time of request in response to a user's interactive operation in a document display / operation device, and immediately recognizes only necessary portions. In addition, a system is provided that performs information retrieval from a business database using the recognition result and partial data conversion of a processing target document. Also, by extracting a character string block from the document image to be processed and analyzing its two-dimensional arrangement structure, the description content category (year / month / day, monetary number, business word, etc.) of the character string block is analyzed. , Etc.), a character string block to be recognized is selected by a user's interactive operation, and the character string is read by switching the notation knowledge according to the description content category of the estimated character string block. Thus, a mechanism for improving the reading accuracy is provided.

従来の手法では、OCR装置を用いたバッチ処理により紙文書群及び文書画像群を一括してテキストに変換し、これに対して文書処理業務を行っていたが、文書画像を全面で読み取ることによる処理時間の増大や、文書−図版−罫線混在に起因するOCRの文字行抽出の誤りや、該文書画像に適した汎用的な表記知識を整備することの困難さによる読取精度低下に対処することが困難であった。一方、本発明によれば、文書処理業務において文字認識処理を対話的に起動し、文書処理において必要となる部分のみに限定してテキスト化するため処理時間の軽減を図ることができる。また、文書に記された文字列の二次元的な配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、これに合致する表記知識を用いて文字列認識を行うことで認識精度向上を図ることが可能となる。   In the conventional technique, the paper document group and the document image group are collectively converted into text by batch processing using an OCR device, and the document processing work is performed on this, but by reading the document image over the entire surface. To cope with a decrease in reading accuracy due to an increase in processing time, an OCR character line extraction error due to mixed document-illustration-ruled lines, and difficulty in preparing general-purpose notation knowledge suitable for the document image It was difficult. On the other hand, according to the present invention, the character recognition process is interactively started in the document processing operation, and the text is limited to only the part necessary for the document process, so that the processing time can be reduced. In addition, by analyzing the two-dimensional arrangement structure of the character string described in the document, the category of the description content of the character string designated as the recognition target (year, month, monetary number, business word, etc.) ) And the character string recognition using notation knowledge that matches this is possible to improve the recognition accuracy.

始めに、図1をもとにクリック認識を用いた文書処理のフローの概説する。本発明の実施例である文書処理装置では、OCR装置、スキャナ装置、文書カメラ等を用いて紙文書を撮像して、これを電子画像データに変換した文書画像を扱う。まず始めに、処理対象とする文書画像を外部記憶装置や通信線を通して外部装置からデータを読み込む(0101)。次に、文書画像データから罫線抽出、枠構造解析、読取対象枠の位置推定等の文書構造解析を行う(0102)。このとき使う認識処理には公知技術(特開平09−319824号公報(特許文献3)、特開2000−251012号公報(特許文献4)等)を利用する。一般に文書構造解析を行うためには、対象とする文書の枠配置情報などを記憶した文書構造辞書を使用する(0108)。この文書構造辞書は一般に外部記憶装置に記憶されている。文書構造解析では、メモリ若しくは外部記憶装置に記録された、文書画像データ及び文書構造辞書を入力とし、罫線の位置情報と、枠の配置情報と、推定された枠の属性情報とを組にして、メモリ若しくは外部記憶装置へと出力する。   First, an outline of a document processing flow using click recognition will be described with reference to FIG. In a document processing apparatus according to an embodiment of the present invention, a paper document is imaged using an OCR apparatus, a scanner apparatus, a document camera, and the like, and a document image converted into electronic image data is handled. First, data of a document image to be processed is read from an external device through an external storage device or a communication line (0101). Next, document structure analysis such as ruled line extraction from the document image data, frame structure analysis, and position estimation of the reading target frame is performed (0102). For the recognition processing used at this time, known techniques (Japanese Patent Laid-Open No. 09-319824 (Patent Document 3), Japanese Patent Laid-Open No. 2000-2521012 (Patent Document 4), etc.) are used. In general, in order to perform document structure analysis, a document structure dictionary storing frame layout information of a target document is used (0108). This document structure dictionary is generally stored in an external storage device. In document structure analysis, document image data and a document structure dictionary recorded in a memory or an external storage device are input, and ruled line position information, frame layout information, and estimated frame attribute information are paired. , Output to memory or external storage device.

次に、文書構造解析の結果を受けて、認識対象候補である文字列ブロックを抽出する(0103)。一般に文字列ブロックとは、空白などの切れ目が無く、意味的に同一のまとまりを表すと思われる文字の塊を意味し、例えば単語の塊が文字列ブロックに該当する。文字列ブロックが複数集まって文字行が構成される。次に、抽出した文字列ブロック情報から、その二次元的な配置構造を解析することで、当該文字列ブロックがどのような属性を持つかを推定する。二次元的な配置構造とは、文字列ブロックの文書画像中における位置、サイズ、上下左右に存在する罫線の情報、及び文字列ブロック相互間の配置関係情報などである。これを配置構造解析と称し(0104)、文字列ブロックの属性のことを記載内容カテゴリとも称する。この記載内容カテゴリには、例えば、年月日文字列、金額文字列、ID数字文字列、一般単語文字列等の分類がある。一般に配置構造解析では、外部記憶装置に蓄えられた配置構造定義情報を使う(0109)。配置構造定義情報には、文書種別ごとに、二次元的な配置構造の情報と、その配置構造をもつ文字列ブロックの記載内容カテゴリとが対応付けられて記憶されている。配置構造情報には、例えば座標情報、サイズ情報、属性情報、上下や左右などの隣接関係を表す情報、記載内容カテゴリ情報などの情報が少なくとも含まれる。
ここまでで説明した処理は、以下の手順においてユーザが選択する領域・認識モードなどに基づく認識処理のいわば前処理であり、ユーザが選択する可能性のある領域全体に対して非選択的に行われる。
Next, in response to the result of the document structure analysis, a character string block that is a recognition target candidate is extracted (0103). In general, a character string block means a block of characters that has no breaks such as white space and is considered to represent the same unit in meaning. For example, a block of words corresponds to a character block. A character line is composed of a plurality of character string blocks. Next, by analyzing the two-dimensional arrangement structure from the extracted character string block information, it is estimated what attributes the character string block has. The two-dimensional arrangement structure includes the position and size of character string blocks in the document image, information on ruled lines existing in the upper, lower, left, and right directions, and information on the arrangement relation between character string blocks. This is referred to as arrangement structure analysis (0104), and the attribute of the character string block is also referred to as a description content category. This description content category includes, for example, a classification such as a date character string, an amount character string, an ID numeric character string, and a general word character string. Generally, in the arrangement structure analysis, arrangement structure definition information stored in an external storage device is used (0109). In the arrangement structure definition information, for each document type, information on a two-dimensional arrangement structure and a description content category of a character string block having the arrangement structure are stored in association with each other. The arrangement structure information includes at least information such as coordinate information, size information, attribute information, information representing adjacent relationships such as up and down, left and right, and description content category information.
The processing described so far is a so-called pre-processing of the recognition processing based on the region / recognition mode selected by the user in the following procedure, and is performed non-selectively on the entire region that the user may select. Is called.

以上述べた、文書構造解析、文字列ブロック抽出、配置構造解析が終了した後に、当該文書画像を表示装置(0110)を通じて文書処理システムのユーザに表示する。ユーザは、キーボード(0111)、マウス(0112)、電子ペン(0113)、あるいはタッチパッド(0110)などの情報入力装置を通して、当該文書に対する業務処理(検索、点検、データ登録)を行う。人間との対話的な処理を行い、文書処理や文字認識処理との仲介をするのが文書表示・操作制御部(0105)である。文書表示・操作制御部では、マウスクリック、ペンドラッグ、カーソル移動などのイベント(ユーザアクション)に応じて、当該文書の必要な箇所の文字認識(0106)、並びに業務データベース検索と結果表示などの文書処理(0107)を行う。文字認識部(0106)については図2に、文書処理部(0107)については図3で説明する。   After the document structure analysis, character string block extraction, and arrangement structure analysis described above are completed, the document image is displayed to the user of the document processing system through the display device (0110). The user performs business processing (search, inspection, data registration) on the document through an information input device such as a keyboard (0111), a mouse (0112), an electronic pen (0113), or a touch pad (0110). The document display / operation control unit (0105) performs interactive processing with humans and mediates between document processing and character recognition processing. In the document display / operation control unit, in accordance with an event (user action) such as mouse click, pen drag, cursor movement, etc., a character recognition of a necessary part of the document (0106), a document such as business database search and result display, etc. Processing (0107) is performed. The character recognition unit (0106) will be described with reference to FIG. 2, and the document processing unit (0107) will be described with reference to FIG.

図2は文字認識部の内部フローを示した図である。文字認識部の上位には文書表示・操作制御部(0105)があり、ここから文書画像、配置構造情報、認識要求情報が出力される。認識要求情報とは、認識をどのようなモードで行うか等を記したデータである。次に、これらの入力データを元に画像領域選択部で、認識対象となる領域(文字列ブロック群)を確定する(0201)。次に確定した認識領域内の文字行について、文字切出を行う(0202)。更に、切り出された各文字パタンについて識別を行う(0203)。この結果、図8、図9で後述するような候補文字ネットワークが得られる。候補文字ネットワークとは、認識対象となる文字行画像を、文字パタン及びその識別結果をエッジとし、文字パタンの切断点をノードとする有向グラフとして表したものである。文字識別部では一般に外部記憶装置またはメモリ上に蓄えられた文字識別辞書(0206)を用いて、文字パタンの識別を行う。次に、文字切出部(0202)と文字識別部(0203)の処理の結果として得られた候補文字ネットワークについて表記解析を行う(0204)。表記解析では一般に、外部記憶装置またはメモリ上に蓄えられた表記知識辞書(0207)を用いて、当該文字列がどのような単語で構成されるか、単語の並びはどうかなどを確かめて、候補文字ネットワークからテキストである文字列を確定する。   FIG. 2 is a diagram showing an internal flow of the character recognition unit. A document display / operation control unit (0105) is provided above the character recognition unit, from which a document image, arrangement structure information, and recognition request information are output. The recognition request information is data describing in what mode the recognition is performed. Next, an area (character string block group) to be recognized is determined by the image area selection unit based on these input data (0201). Next, character extraction is performed on the character line in the recognized recognition area (0202). Further, each extracted character pattern is identified (0203). As a result, a candidate character network as described later with reference to FIGS. 8 and 9 is obtained. The candidate character network represents a character line image to be recognized as a directed graph having a character pattern and its identification result as an edge and a cut point of the character pattern as a node. The character identification unit generally identifies character patterns using a character identification dictionary (0206) stored in an external storage device or memory. Next, a notation analysis is performed on the candidate character network obtained as a result of the processing of the character cutout unit (0202) and the character identification unit (0203) (0204). In notation analysis, in general, a notation knowledge dictionary (0207) stored in an external storage device or memory is used to check what word the character string is composed of, whether the word is arranged, and the like. Determine a text string from the character network.

このとき上位の文書表示・操作制御部(0105)から入力された配置構造情報に含まれる、認識対象となった文字列ブロックの記載内容カテゴリ情報を用いて、表記知識辞書(0207)の切り替えを行う。表記知識辞書は、それぞれの記載内容カテゴリに対応して用意されるものとする。これにより、当該文字列ブロックの文字列認識精度を向上する。記載内容カテゴリには複数のカテゴリ候補がある場合もあり、その場合は、各記載内容カテゴリの候補に対応した表記知識辞書を用いて文字列認識を行い、その結果を尤度順に複数出力することになる。最後に、文字識別の結果得られたテキストコード、及び配置構造情報を用いて認識結果統合部の処理で、得られた認識結果群を確定する(0205)。以上が文字認識部のフローとなり、その処理結果は読取結果として上位の処理(0105)に戻される。   At this time, the notation knowledge dictionary (0207) is switched using the description content category information of the character string block to be recognized, which is included in the arrangement structure information input from the upper document display / operation control unit (0105). Do. The notation knowledge dictionary is prepared corresponding to each description content category. Thereby, the character string recognition accuracy of the character string block is improved. There may be multiple category candidates in the description content category. In that case, character string recognition is performed using the notation knowledge dictionary corresponding to each description content category candidate, and multiple results are output in order of likelihood. become. Finally, the recognition result group obtained by the processing of the recognition result integration unit is determined by using the text code obtained as a result of the character identification and the arrangement structure information (0205). The above is the flow of the character recognition unit, and the processing result is returned to the upper processing (0105) as the reading result.

図3は、文書処理部の内部フローを示した図である。文書処理部の上位には文書表示・操作制御部(0105)がある。文書表示・操作制御部は文書画像を表示装置を通じてユーザに表示し、制御入力装置を通して当該文書の処理、画像データのコード化、文書検索、業務データ閲覧などを行う。その中で、文字認識が必要となる場合は、文字認識部(0106、詳細は0201〜0205に記述)に、認識するべき領域に関する情報を出力して、認識結果の入力を受け取る。更に、この認識結果を受けて検索や業務データ閲覧などの文書処理を行う場合は、文書処理部(0107)に必要なデータを入力して処理を任せる。文書処理部では上位より、文書画像、配置構造情報、認識結果、文書処理要求情報が入力される。文書画像は画像そのままのデータでなくとも、画像を一意的に特定するID番号でも良い。また文書処理要求情報とは、認識結果を用いて、どのような文書処理を行いたいのか、ユーザの要求を特定するために必要十分な情報を含んでいる。以上の入力を受けて、業務関連処理制御部が稼動する(0301)。   FIG. 3 is a diagram showing an internal flow of the document processing unit. A document display / operation control unit (0105) is provided above the document processing unit. The document display / operation control unit displays a document image to a user through a display device, and performs processing of the document, encoding of image data, document search, business data browsing, and the like through a control input device. Among them, when character recognition is required, information on the region to be recognized is output to the character recognition unit (0106, details are described in 0201 to 0205), and input of recognition results is received. Further, when document processing such as search or business data browsing is performed in response to the recognition result, necessary data is input to the document processing unit (0107) and processing is entrusted. In the document processing unit, the document image, the arrangement structure information, the recognition result, and the document processing request information are input from the upper level. The document image may be an ID number that uniquely identifies the image, instead of the data as it is. Further, the document processing request information includes information necessary and sufficient to specify what kind of document processing is desired to be performed using the recognition result and the user's request. In response to the above input, the business-related process control unit operates (0301).

文書処理制御部は、ユーザの要求に応じて、文書データベースからの検索や業務データベースの検索などを行う。例えば認識した単語を含む文書を検索したいという場合、まず認識結果の不確定性・不安定性を吸収する曖昧性対応処理(0302)を行い、次に文書データベース(0304)の中に蓄えられたデータの中から、要求された文書検索を行う(0303)。また、認識した単語について付随するデータを検索したい場合(例えば医療関連文献であれば、同時に併用してはいけない薬品名などを知りたい場合)、先程と同様に認識結果の不確定性・不安定性を吸収する曖昧性対応処理(0305)を行った後に、認識したキーワードを元に業務データベース(0307)の中から必要な情報の検索を行う(0306)。以上の、文書検索、情報検索の結果は上位の文書処理制御部に戻され、ここから更に上位の文書表示・操作制御部(0105)へと、文書検索結果または情報検索結果として戻される。   The document processing control unit performs a search from a document database, a search of a business database, or the like according to a user request. For example, when it is desired to search for a document including a recognized word, first, an ambiguity handling process (0302) that absorbs uncertainty and instability of the recognition result is performed, and then data stored in the document database (0304). The requested document is searched from the list (0303). In addition, if you want to search the data that accompanies the recognized word (for example, if you want to know the names of drugs that should not be used at the same time in the case of medical literature), the recognition results are uncertain or unstable as before. After performing the ambiguity handling process (0305) to absorb the necessary information, the necessary information is searched from the business database (0307) based on the recognized keyword (0306). The above document search and information search results are returned to the higher-level document processing control unit, and from there to the higher-level document display / operation control unit (0105) as a document search result or information search result.

図4は上述した文書処理装置の具体的な構成例を示したものである。図4上段の文書表示装置では、画像入力装置(0401)により紙文書を電子データに変換し、それを外部記憶装置(0404)及びメモリ(0405)に蓄えて、中央演算装置(0406)により読取を行う。中央演算装置(0406)では、図1から3に示す処理のうち、0101から0109までの処理、及び0201から0207までの処理、及び0301から0307までの処理を行う。図4に示すように文書処理装置が外部に存在する場合は、中央演算装置(0406)が、0101から0105までの文書画像関連処理を行う、または0105の表示・操作関連処理のみを行い、その他の処理を外部文書処理装置で分担することで、高速な文書処理機能を提供することが可能である。文書形式の定義などは外部記憶装置(0404)に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置(0402)を通して人間が操作可能であり、処理結果等は表示端末装置(0403)を通して表示される。   FIG. 4 shows a specific configuration example of the document processing apparatus described above. 4, the paper document is converted into electronic data by the image input device (0401), stored in the external storage device (0404) and the memory (0405), and read by the central processing unit (0406). I do. The central processing unit (0406) performs the processes from 0101 to 0109, the processes from 0201 to 0207, and the processes from 0301 to 0307 among the processes shown in FIGS. As shown in FIG. 4, when the document processing apparatus exists outside, the central processing unit (0406) performs document image related processing from 0101 to 0105, or performs only display / operation related processing of 0105, and the others. It is possible to provide a high-speed document processing function by sharing the above process by the external document processing apparatus. The definition of the document format is stored in the external storage device (0404), and the stored definition is referred to for the document structure analysis. These processes can be operated by a human through the operation terminal device (0402), and the processing results and the like are displayed through the display terminal device (0403).

処理結果や認識起動などのイベント情報は、必要に応じて外部記憶装置に蓄積または通信装置(0407)を通して外部装置にデータが送られる。ユーザは表示端末装置(0403)及び操作端末装置(0402)を通して、文書画像の閲覧及び業務処理を行う。業務処理の際に文字認識結果が必要となる場合は、当該箇所をマウスのクリックなどにより指定することで、文字認識プログラムが起動する。文字認識プログラムは外部記憶装置(0404)若しくはメモリ(0405)上に蓄えられており、ユーザの対話的な入力アクションによって動作する。これによりバッチ処理で必要となる大量の計算時間を削減し、小規模のシステム構成で文字認識機能を利用した文書画像処理が実現できる。上記装置群は内部バス(0408)によってつながれている。   Event information such as processing results and recognition activation is stored in an external storage device as needed, or data is sent to an external device through a communication device (0407). The user browses the document image and performs business processing through the display terminal device (0403) and the operation terminal device (0402). When a character recognition result is required during business processing, the character recognition program is activated by designating the corresponding part by clicking the mouse. The character recognition program is stored in the external storage device (0404) or the memory (0405), and is operated by a user's interactive input action. As a result, a large amount of calculation time required for batch processing can be reduced, and document image processing using the character recognition function can be realized with a small system configuration. The above devices are connected by an internal bus (0408).

図4下段の業務処理装置は、上記文書表示装置から出力された認識結果を用いて文書検索・業務データベース検索を行うものである。この業務処理装置は、通信装置(0413)及び外部記憶装置(0410)より認識結果を受け取り、これをメモリ(0411)にロードして、中央演算装置(0412)により文書の検索や、業務処置に必要なデータを検索し、その結果を文書表示装置に通信装置(0413)及び外部通信線(0409)を通して通知する。中央演算装置(0412)で行う処理は、図1から3に示す処理のうち、例えば0201から0207までの処理、及び0301から0307までの処理が該当する。また、中央演算装置(0406)が0105の表示・操作関連処理のみを専念的に行う場合は、上記に加えて0101から0104、および0106から0109の処理を中央演算装置(0412)が行う。これらの装置は内部バス(0414)によってつながれている。尚、この例では対話的な操作を行う文書表示装置と、業務データベースの検索を行う業務処理装置を分離して記しているが、これらが一体となった装置でも良い。   The business processing apparatus in the lower part of FIG. 4 performs document retrieval / business database retrieval using the recognition result output from the document display apparatus. The business processing device receives the recognition result from the communication device (0413) and the external storage device (0410), loads the result into the memory (0411), and searches the document or performs business processing by the central processing unit (0412). The necessary data is retrieved, and the result is notified to the document display device through the communication device (0413) and the external communication line (0409). The processing performed by the central processing unit (0412) corresponds to the processing from 0201 to 0207 and the processing from 0301 to 0307 among the processing shown in FIGS. When the central processing unit (0406) exclusively performs the display / operation related processing of 0105, the central processing unit (0412) performs the processing of 0101 to 0104 and 0106 to 0109 in addition to the above. These devices are connected by an internal bus (0414). In this example, the document display device that performs interactive operations and the business processing device that searches the business database are described separately, but a device in which these are integrated may be used.

図5は、クリック認識のコンセプトを述べた図である。まず文書画像(a、0501)がある。ここでは医療関連文献を例とする。まず、この文書画像から文字列ブロックの抽出を行う(b)。0502は抽出された罫線、0503は文字列ブロックを表す外接矩形である。次に、この文字列ブロックの配置情報を使って、配置構造解析を行う(c)。この医療関連文献では、配置構造解析によって大きく4つのカテゴリに分類されている。0504はその中の1つのカテゴリを表している。この解析は一般に配置構造定義を用いて行う。ユーザクションで特定箇所をマウスなどでクリックした場合(0505)、配置構造解析情報を使って、クリックされた付近の文字列ブロックを、そのカテゴリに合わせた表記知識を使って認識するのがクリック認識である。配置構造解析が利用できない場合は、文字列ブロックを用いて認識するべき文字列を特定し、これに対して、汎用的な表記知識を用いた、または表記知識を用いない文字列認識を行うことになる。一般に、配置構造解析を利用すると、業務カテゴリに限定した表記知識を使えるため、文字列認識の誤不読を低減することが可能となる。   FIG. 5 is a diagram describing the concept of click recognition. First, there is a document image (a, 0501). Here, medical-related literature is taken as an example. First, a character string block is extracted from this document image (b). 0502 is an extracted ruled line, and 0503 is a circumscribed rectangle representing a character string block. Next, the arrangement structure analysis is performed using the arrangement information of the character string block (c). This medical literature is roughly classified into four categories by arrangement structure analysis. Reference numeral 0504 represents one of the categories. This analysis is generally performed using the arrangement structure definition. When the user clicks a specific location with the mouse (0505) in the user action, it is click recognition that uses the layout structure analysis information to recognize the text block near the click using the notation knowledge that matches the category. It is. If layout structure analysis cannot be used, identify the character string to be recognized using the character string block, and perform character string recognition using general notation knowledge or not using notation knowledge. become. In general, when the arrangement structure analysis is used, notation knowledge limited to a business category can be used, so that it is possible to reduce misreading of character string recognition.

図6は、認識を起動するためのユーザの様々なアクション(ユーザインタフェース)を示した図である。認識指定インタフェース1(a)では、0601で示す箇所でのマウスのクリック、または電子ペンのタップ動作により認識を行うことを示す。認識指定インタフェース2(b)では、マウスを横方向(0602に示すの方向)にドラッグまたは移動、または電子ペンを横方向にスライドすることにより、その横方向への移動量で指定された幅分の文字列(文字列ブロック)を認識する動作を示す。その際、動作のフィードバックとして、GUI上に0603で示すような指定範囲を示す下線を表示する。認識指定インタフェース3(c)では、同様にマウスまたは電子ペンを下方向にドラッグ・移動・スライドすることにより、指定した上下範囲内の行に属する文字列(または文字列ブロック)を認識する処理を示している。   FIG. 6 is a diagram showing various actions (user interface) of the user for activating recognition. The recognition designation interface 1 (a) indicates that recognition is performed by clicking a mouse at a location indicated by 0601 or a tap operation of an electronic pen. In the recognition designation interface 2 (b), by dragging or moving the mouse in the horizontal direction (direction shown by 0602) or sliding the electronic pen in the horizontal direction, the width specified by the amount of movement in the horizontal direction is set. The operation | movement which recognizes the character string (character string block) of is shown. At that time, as an operation feedback, an underline indicating a designated range as indicated by 0603 is displayed on the GUI. In the recognition designation interface 3 (c), similarly, a process of recognizing a character string (or character string block) belonging to a line within a designated vertical range by dragging, moving, and sliding the mouse or the electronic pen downward. Show.

認識指定インタフェース4(d)は、マウスまたは電子ペンを斜め方向にドラッグ・スライドすることにより、矩形状に領域を括り、その中の文字列・文字列ブロックを認識する処理である。0605には、括った矩形領域をGUIで表示している。認識指定インタフェース5(e)は、マウスまたは電子ペンで丸囲みで領域を指定することにより、当該領域内または当該領域にほぼ重なる文字列ブロックを認識する処理を示している。0606は、括った領域をGUIで表示する場合の表示線を表している。認識指定インタフェース6(f)は、ジェスチャにより認識領域を指定する方法を示している。例えば0607に示すようなチェックマークで、当該マークが書かれた縦方向のすべての文字列ブロックを認識するとした場合、0608に示すような領域内が全て認識対象となる。これは、帳票認識において特定欄を全て認識するような場合に使うことができ、領域すべてを囲うための手間を省くことができる。これは配置情報を事前に解析されていることにより可能となるインタフェースである。   The recognition designation interface 4 (d) is processing for recognizing a character string / character string block in a rectangular area by dragging and sliding a mouse or an electronic pen in an oblique direction. In 0605, the enclosed rectangular area is displayed with a GUI. The recognition designation interface 5 (e) shows processing for recognizing a character string block in or near the area by designating the area with a mouse or an electronic pen in a circle. Reference numeral 0606 denotes a display line when the enclosed area is displayed using a GUI. The recognition designation interface 6 (f) shows a method for designating a recognition area by a gesture. For example, when a check mark as shown in 0607 recognizes all the character string blocks in the vertical direction in which the mark is written, the entire area as shown in 0608 is a recognition target. This can be used in the case of recognizing all the specific fields in the form recognition, and can save time and effort for enclosing the entire area. This is an interface that is made possible by analyzing the arrangement information in advance.

上記インタフェースによって指定された対象の認識結果は、その場でポップアップウィンドウで表示する、または業務データベースから検索した関連情報を表示するなどの手段により、文書処理システムのユーザにフィードバックされる。認識結果が複数ある場合は、例えばマウスや電子ペンの停留(停止)状態によって、時間毎に認識結果を違えて表示し、その中から正しい認識結果を選択する入力をしてもらう、あるいは業務データベースから検索した関連情報を複数の認識結果について並べて表示するなどのフィードバック方法が考えられる。   The recognition result of the object specified by the interface is fed back to the user of the document processing system by means such as displaying it in a pop-up window on the spot or displaying related information retrieved from the business database. If there are multiple recognition results, for example, depending on whether the mouse or electronic pen is stopped (stopped), the recognition results are displayed differently at different times, and the correct recognition results are selected from among them, or the business database A feedback method such as displaying related information retrieved from a plurality of recognition results side by side is conceivable.

図7は、配置構造情報を利用して、同じアクションが認識モードの違いによって、異なる認識結果につながることを示した図である。ここでは配置構造情報(a)として、0701に示す4種類があるとする。配置構造解析が既に済んだ画像に対して、クリック認識による領域指定を行った場合(b)、認識モードの指定を替えることによって、認識結果が変わる。例えば領域選択1(b1)では、0707に示すように認識モードとして「Get(Column(x)、Row(x))」と指定されている。この指定文の中のxとはクリックされた当該箇所(0706の場所)を表す。また、Columnとは当該箇所の列、Rowは当該箇所の行を表し、Getにより引数に指定した箇所を取得・認識せよという指令文を構成している。この場合、図中の網がけ部分が選択され、認識に掛けられる。   FIG. 7 is a diagram showing that the same action leads to different recognition results depending on the recognition mode using the arrangement structure information. Here, it is assumed that there are four types shown as 0701 as the arrangement structure information (a). When region designation by click recognition is performed on an image that has already undergone arrangement structure analysis (b), the recognition result changes by changing the recognition mode designation. For example, in area selection 1 (b1), “Get (Column (x), Row (x))” is designated as the recognition mode as indicated by 0707. X in this specification sentence indicates the clicked location (location 0706). Column is a column of the location, Row is a row of the location, and constitutes a command statement for acquiring and recognizing the location specified as an argument by Get. In this case, the shaded portion in the figure is selected and subjected to recognition.

また、領域選択2(b2)では、0708に示すように、認識モードが「Get(ABCD、Row(x))」と指定されている。これは列としてカテゴリA、B、C、Dを選択し、行としてクリックされた当該箇所の行を選択するという指定である。カテゴリA、B、C、Dは0701にある配置構造情報であり、各々が0702、0703、0704、0705に示される縦の系列が相当する。従って(b2)では、網がけに示す領域が選択され、各々のブロック毎に認識が行われる。   In the area selection 2 (b2), as indicated by 0708, the recognition mode is designated as “Get (ABCD, Row (x))”. This is a designation of selecting categories A, B, C, and D as columns, and selecting the row at the clicked location as a row. Categories A, B, C, and D are arrangement structure information in 0701, and correspond to vertical series shown in 0702, 0703, 0704, and 0705, respectively. Therefore, in (b2), the area shown by shading is selected, and recognition is performed for each block.

また、領域選択3(b3)では、0709に示すように、認識モードとして、クリック箇所の列と、全ての行が選択されている。従って、この場合、網がけに示すBの系列(0703の部分)がすべて選択され、これらが認識対象となることを示している。同様に、クリックによる領域指定だけでなく、ドラッグ・スライドなどによる領域指定でも同じ動作が起こる(c)。0710ではライン指定で2つのブロックを指定している。認識モードが0711に示すような場合は、指定した当該行群、当該列群が認識対象領域として選択されることを示している(c1)。このような認識モードは、文書処理の業務形態に応じて、予め選択することができる。例えば、特定項目の縦計を行いたい場合は、認識モードとして0709を選んでおけば、簡単な操作で、ユーザの所望する項目の縦方向の認識が一括して行えることになる。
文字列表記解析処理と文字列仮説については、図8及び図9に概要がある。図8は文字列仮説と表記知識を使った文字列認識の流れを説明した図である。また、図9は、文字列仮説の概念とデータの詳細を示した図である。
In area selection 3 (b3), as shown in 0709, the column of the clicked part and all the rows are selected as the recognition mode. Therefore, in this case, all of the B series (the portion 0703) shown in the halftone screen is selected, indicating that these are to be recognized. Similarly, the same operation occurs not only by specifying an area by clicking but also by specifying an area by dragging and sliding (c). In 0710, two blocks are designated by line designation. When the recognition mode is as shown in 0711, it indicates that the designated row group and column group are selected as the recognition target area (c1). Such a recognition mode can be selected in advance according to the business mode of document processing. For example, if the vertical measurement of a specific item is desired, if 0709 is selected as the recognition mode, the vertical direction of items desired by the user can be collectively recognized with a simple operation.
The character string notation analysis process and the character string hypothesis are outlined in FIGS. FIG. 8 is a diagram for explaining the flow of character string recognition using the character string hypothesis and notation knowledge. FIG. 9 is a diagram showing the concept of the character string hypothesis and details of the data.

図8を説明する。読取対象文字行(a)から、文字パタンと推定される部分を様々に切出して文字パタン候補を作り、各文字パタン候補を文字識別したものが、文字列仮説(b)である。文字列仮説は、文字パタン候補、文字識別の結果得られた順位付けされた識別文字コード群、文字列仮説中での文字パタン候補間の接続関係の情報、を最低限持つものとする。このように文字列仮説はグラフ形式による表現で表され、それ故に候補文字ネットワークとも称される。次に文字列表記知識(c)を使って、文字列仮説(候補文字ネットワーク)から文字列パス(d)を計算する。文字列パスとは、一意的に確定した文字コード列(テキスト)と、各文字コードに対応する文字パタンの並びを意味する。この例では文字列表記知識をOR記号(|)で単語を並べて表現している。すなわち、記号|の間に挟まれた単語群が表記知識として指定されたことを意味する。文字列表記知識を表現するとしては、この表現以外にもトライ、文脈自由文法などを使った方法がある(特開2001−014311号公報(特許文献5)等に記載)。   FIG. 8 will be described. A character string hypothesis (b) is a character pattern hypothesis (b) in which a portion estimated to be a character pattern is cut out from a character line (a) to be read to create a character pattern candidate and each character pattern candidate is identified. It is assumed that the character string hypothesis has at least character pattern candidates, ranked identification character code groups obtained as a result of character identification, and information on connection relations between character pattern candidates in the character string hypothesis. In this way, the character string hypothesis is represented by a representation in a graph format, and is therefore also referred to as a candidate character network. Next, the character string path knowledge (c) is used to calculate the character string path (d) from the character string hypothesis (candidate character network). The character string path means a character code string (text) uniquely determined and a character pattern corresponding to each character code. In this example, knowledge of character string notation is expressed by arranging words with an OR symbol (|). That is, it means that a word group sandwiched between symbols | is designated as notation knowledge. In addition to this expression, there is a method using a try, a context free grammar, etc. (described in Japanese Patent Application Laid-Open No. 2001-014411 (Patent Document 5)).

文字列仮説(候補文字ネットワーク)の詳細は図9にある。文字列仮説は、文字パタンの候補をアーク(0901)とし、文字パタンの境界をノード(0902)とする有向グラフとして表現される。各文字パタンには、左右(縦書きであれば上下)のノード(パタン境界)を表す境界ID番号と、文字識別候補(0903)及び識別類似度(0904)の情報が含まれる。知識処理は、この文字列仮説と文字列表記知識を入力として、文字列仮説に含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、図3(b)の文字列仮説中に、丸で示される文字コード及び文字パタン(0905)を辿ることで見つけることができる。当該欄に書かれる文字列の表記が事前に定まっている場合、本処理を行うことで文字列コードが確定する。   Details of the character string hypothesis (candidate character network) are shown in FIG. The character string hypothesis is expressed as a directed graph in which a character pattern candidate is an arc (0901) and a character pattern boundary is a node (0902). Each character pattern includes boundary ID numbers representing left and right (upper and lower if vertical writing) (pattern boundaries), information on character identification candidates (0903), and identification similarity (0904). Knowledge processing is processing for finding words and pattern strings that can be included in the character string hypothesis using the character string hypothesis and knowledge of character string notation as inputs. For example, the word “blood chemistry test” in the character string notation knowledge can be found by following the character code and character pattern (0905) indicated by a circle in the character string hypothesis of FIG. When the notation of the character string written in the field is determined in advance, the character string code is determined by performing this process.

以上に述べた処理により、文書処理業務において文字認識処理を対話的に起動し、文書処理において必要となる部分のみに限定してテキスト化するため処理時間の軽減を図ることができる。また、文書に記された文字列の二次元的な配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、これに合致する表記知識を用いて文字列認識を行うことで認識精度向上を図ることが可能となる。   By the processing described above, the character recognition processing is interactively activated in the document processing operation, and the text is limited to only the portion necessary for the document processing, so that the processing time can be reduced. In addition, by analyzing the two-dimensional arrangement structure of the character string described in the document, the category of the description content of the character string designated as the recognition target (year, month, monetary number, business word, etc.) ) And the character string recognition using notation knowledge that matches this is possible to improve the recognition accuracy.

クリック認識を用いた文書処理フロー図。The document processing flowchart using click recognition. 文字認識部の処理フロー図。The processing flow figure of a character recognition part. 文書処理部の処理フロー図。The processing flow figure of a document processing part. 文書表示装置と文書処理装置の構成例。2 is a configuration example of a document display device and a document processing device. 配置構造解析を用いたクリック認識の概念図。The conceptual diagram of the click recognition using arrangement | positioning structure analysis. クリック認識のインタフェース。Click recognition interface. クリック認識範囲のモード指定。Click recognition range mode specification. 文字列仮説を使った表記知識処理の概念図。The conceptual diagram of the notation knowledge process using a character string hypothesis. 文字列仮説の概念図。The conceptual diagram of a character string hypothesis.

符号の説明Explanation of symbols

0101…画像入力部、0102…文書構造解析部、0103…文字行・文字ブロック抽出部、0104…配置構造解析部、0105…文書表示・操作制御部、0106…文字認識部、0107…文書処理部、0108…文書構造辞書、0109…配置構造定義、0110…表示装置、0111…キーボード、0112…マウス、0113…電子ペン、
0201…認識対象領域(文字列ブロック群)選択部、0202…文字切出部、0203…文字識別部、0204…表記解析部、0205…認識結果統合部、0206…文字識別辞書、0207…表記知識辞書、
0301…業務関連処理制御部、0302…曖昧性対応部、0303…文書検索部、0304…文書データベース、0305…曖昧性対応部、0306…情報検索部、0307…業務データベース、
0401…文書表示装置における画像入力装置、0402…文書表示装置における操作端末装置、0403…文書表示装置における表示端末装置、0404…文書表示装置における外部記憶装置、0405…文書表示装置におけるメモリ、0406…文書表示装置における中央演算装置、0407…文書表示装置における通信装置、0408…文書表示装置における内部バス、0409…データ通信線、0410…業務処理装置における外部記憶装置、0411…業務処理装置におけるメモリ、0412…業務処理装置における中央演算装置、0413…業務処理装置における通信装置、0414…業務処理装置における内部バス、
0501…処理対象とする文書画像の例、0502…文書画像から抽出された罫線、0503…文書画像から抽出された文字列ブロック、0504…配置構造解析の結果タグが付けられた文字列ブロック、0505…マウス・電子ペン等のカーソル、0506…クリック認識の結果、
0601…マウス・電子ペン等のカーソル、0602…カーソルの動きを表す矢印、0603…選択領域をGUIで表示した横線、0604…選択領域をGUIで表示した縦線、0605…選択領域をGUIで外接矩形として表示した囲み線、0606…選択領域をGUIで丸として表示した囲み線、0607…ジェスチャを行った場合の動線、0608…ジェスチャの結果選択された領域を示す囲み線、
0701…配置構造情報、0702…配置構造情報のAカテゴリ、0703…配置構造情報のBカテゴリ、0704…配置構造情報のCカテゴリ、0705…配置構造情報のDカテゴリ、0706…カーソルの動き(当該場所でクリック)、0707…認識モード指定とカーソルのクリック位置による領域選択1、0708…認識モード指定とカーソルのクリック位置による領域選択2、0709…認識モード指定とカーソルのクリック位置による領域選択3、0710…カーソルの動き(当該場所でのドラッグ・ライン)、0711…認識モード指定とカーソルのドラッグ・ライン位置による領域選択、
0901…切り出された文字パタン及び識別候補(グラフアーク)、0902…文字切出の境界(グラフノード)、0903…文字識別候補群、0904…文字識別候補に対応する識別類似度群、0905…知識処理の結果選択された文字識別候補。
0101: Image input unit, 0102 ... Document structure analysis unit, 0103 ... Character line / character block extraction unit, 0104 ... Arrangement structure analysis unit, 0105 ... Document display / operation control unit, 0106 ... Character recognition unit, 0107 ... Document processing unit , 0108 ... Document structure dictionary, 0109 ... Arrangement structure definition, 0110 ... Display device, 0111 ... Keyboard, 0112 ... Mouse, 0113 ... Electronic pen,
0201 ... Recognition target area (character string block group) selection unit, 0202 ... Character extraction unit, 0203 ... Character identification unit, 0204 ... Notation analysis unit, 0205 ... Recognition result integration unit, 0206 ... Character identification dictionary, 0207 ... Notation knowledge dictionary,
0301 ... Business related processing control unit, 0302 ... Ambiguity correspondence unit, 0303 ... Document search unit, 0304 ... Document database, 0305 ... Ambiguity correspondence unit, 0306 ... Information search unit, 0307 ... Business database,
0401: Image input device in document display device, 0402: Operation terminal device in document display device, 0403 ... Display terminal device in document display device, 0404 ... External storage device in document display device, 0405 ... Memory in document display device, 0406 ... Central processing unit in document display device, 0407 ... Communication device in document display device, 0408 ... Internal bus in document display device, 0409 ... Data communication line, 0410 ... External storage device in business processing device, 0411 ... Memory in business processing device, 0412 ... Central processing unit in the business processing device, 0413 ... Communication device in the business processing device, 0414 ... Internal bus in the business processing device,
0501 ... Example of document image to be processed, 0502 ... Ruled lines extracted from document image, 0503 ... Character string block extracted from document image, 0504 ... Character string block with tag as a result of arrangement structure analysis, 0505 ... Cursor such as mouse and electronic pen, 0506 ... Click recognition result,
0601: Cursor such as mouse / electronic pen, 0602: Arrow representing cursor movement, 0603: Horizontal line displaying selection area with GUI, 0604 ... Vertical line displaying selection area with GUI, 0605 ... circumscribing selection area with GUI Enclosed line displayed as a rectangle, 0606... Enclosed line with a selection area displayed as a circle in the GUI, 0607... Movement line when a gesture is performed, 0608... Enclosed line indicating an area selected as a result of the gesture.
0701 ... Arrangement structure information, 0702 ... A category of arrangement structure information, 0703 ... B category of arrangement structure information, 0704 ... C category of arrangement structure information, 0705 ... D category of arrangement structure information, 0706 ... Movement of the cursor (corresponding location) , 0707... Region selection 1 by recognition mode designation and cursor click position 1, 0708 ... region selection by recognition mode designation and cursor click position 2, 0709 ... region selection by recognition mode designation and cursor click position 3, 0710 ... Cursor movement (drag line at the location), 0711 ... Selection of region by specifying recognition mode and cursor drag line position,
0901: Cutout character pattern and identification candidate (graph arc), 0902: Character cutout boundary (graph node), 0903 ... Character identification candidate group, 0904 ... Identification similarity group corresponding to character identification candidate, 0905 ... Knowledge Character identification candidates selected as a result of processing.

Claims (5)

文字が記載された文書画像の入力を受付ける画像入力装置と、中央演算装置と、配置構造定義および記載内容カテゴリに対応して用意される表記知識を保持する記憶装置と、表示デバイスとユーザ入力デバイスとを有する操作端末装置と、通信装置とを備えた対話型の文書処理装置であって、上記中央演算装置では、入力された文書画像から複数の文字列ブロックを抽出し、各文字列ブロックの文書上における二次元的な配置構造を解析して該配置構造をもとに上記配置構造定義を参照することで該文字列ブロックの記載内容を表す記載内容カテゴリを推定し、更に上記操作端末装置の入力部において上記対話型文書処理装置の利用者から認識処理の起動を指示する操作の入力を受けた場合に、指定対象である文字列ブロックを選択し、該文字列ブロックより文字の切出候補を抽出し、さらに上記文字切出候補を文字識別し、該文字識別結果および該文字切出候補に対して、上記に選択した該文字列ブロックに対応する記載内容カテゴリに関連する表記知識を参照して該文字列ブロックの認識を行うことを特徴とする文書処理装置。   An image input device that accepts input of a document image in which characters are written, a central processing unit, a storage device that holds notation knowledge prepared in correspondence with an arrangement structure definition and a description content category, a display device, and a user input device An interactive document processing device comprising an operation terminal device having a communication device and a communication device, wherein the central processing unit extracts a plurality of character string blocks from an input document image, By analyzing a two-dimensional arrangement structure on a document and referring to the arrangement structure definition based on the arrangement structure, a description content category representing the description contents of the character string block is estimated, and the operation terminal device When the input unit receives an input of an operation for instructing activation of recognition processing from a user of the interactive document processing apparatus, the character string block to be specified is selected and the sentence is selected. A character extraction candidate is extracted from the column block, the character extraction candidate is further identified, and the character identification result and the description corresponding to the character string block selected above for the character extraction candidate A document processing apparatus that recognizes the character string block with reference to notation knowledge related to a category. 上記中央演算装置ではさらに、マウス、電子ペン、及びタッチパッドなどのユーザ入力デバイスと、および、ブラウン管ディスプレイ、液晶ディスプレイ、携帯表示端末などの表示デバイスから成る上記表示操作端末装置を通して、カーソル移動、クリック、ドラッグ、ジェスチャ等のイベントを認識処理の起動指示として受理し、更に上記記憶装置に記憶された認識モードの指定状況によって、認識対象とする文字列ブロックの選択方法の切り替えを行い、選択された該文字列ブロックに対応する表記知識を該文字列ブロックの記載内容カテゴリに応じて切り替えて文字列の認識を行い、上記表示デバイスによる読取結果の出力形式を上記認識モードに応じて切り替えることを特徴とする請求項1記載の文書処理装置。   In the central processing unit, a cursor is moved and clicked through a user input device such as a mouse, an electronic pen, and a touch pad, and a display operation terminal device including a display device such as a cathode ray tube display, a liquid crystal display, and a portable display terminal. Event such as drag, gesture, etc. is accepted as an instruction to start recognition processing, and the selection method of the character string block to be recognized is switched according to the recognition mode designation status stored in the storage device. The notation knowledge corresponding to the character string block is switched according to the description content category of the character string block to recognize the character string, and the output format of the reading result by the display device is switched according to the recognition mode. The document processing apparatus according to claim 1. 上記中央演算装置ではさらに、上記文字列ブロックの記載内容の推定により記載内容カテゴリの候補を複数列挙し、該記載内容カテゴリの尤度を計算し、上記文字切出候補を抽出し、上記文字識別により文字識別結果及び当該識別結果の類似度の計算を行い、推定された該文字列ブロックの該記載内容カテゴリの尤度、および該文字識別結果の類似度、及び該記載内容カテゴリに対応する表記知識を適用することにより得られた文字列ブロックの読取結果であるテキストを併せて文字列ブロックの読取結果とし、該文字列ブロックの該読取結果を尤度の順に整列し、複数の読取結果として上記記憶装置に記憶する、もしくは上記通信装置を通して別の文書処理装置に読取結果をデータ送付することを特徴とする請求項1記載の文書処理装置。   The central processing unit further lists a plurality of description content category candidates by estimating the description content of the character string block, calculates the likelihood of the description content category, extracts the character extraction candidates, and determines the character identification Is used to calculate the character identification result and the similarity of the identification result, the likelihood of the description content category of the estimated character string block, the similarity of the character identification result, and the notation corresponding to the description content category The text that is the reading result of the character string block obtained by applying the knowledge is also used as the reading result of the character string block, the reading results of the character string block are arranged in order of likelihood, and a plurality of reading results are obtained. The document processing apparatus according to claim 1, wherein the document processing apparatus stores the reading result in a data storage device or sends the read result to another document processing device through the communication device. 操作端末装置、記憶装置、中央演算装置、および通信装置の各装置を備えた請求項1記載の文書処理装置と、中央演算装置、記憶装置、および通信装置の各装置を備えた業務処理装置から構成される文書処理システムであって、上記対話的文書処理装置の中央演算装置は認識対象として指示された文字列ブロック群の読取結果を上記通信装置を通して上記業務処理装置へと送信し、該読取結果に関連する情報を上記業務処理装置の同中央演算装置が同記憶装置に蓄えられた業務データベースから検索し、該業務データベースから得られた情報を上記業務処理装置の同通信装置から送信し、上記対話型文書処理装置で情報を受信し、該受信情報を、認識対象として指示された該文字列ブロックに関連するデータとして、表示操作端末装置を通して利用者に提示し、対話的文書処理を行うことを特徴とする文書処理システム。   2. The document processing apparatus according to claim 1, comprising an operation terminal device, a storage device, a central processing unit, and a communication device, and a business processing device including the central processing unit, the storage device, and the communication device. The central processing unit of the interactive document processing device transmits a reading result of a character string block group designated as a recognition target to the business processing device through the communication device, and the reading processing system is configured. The central processing unit of the business processing device retrieves information related to the result from the business database stored in the storage device, and transmits information obtained from the business database from the communication device of the business processing device, Information is received by the interactive document processing apparatus, and the received information is transmitted as data related to the character string block designated as a recognition target through the display operation terminal apparatus. Document processing system is presented to the user, and performs an interactive document processing. 操作端末装置と、記憶装置と、中央演算装置とを備えたコンピュータで実行されるプログラムであって、上記中央演算装置において、文字が記載された画像の入力を受付けるステップと、上記画像から文字列ブロックを抽出するステップと、上記記憶装置に記憶される配置構造定義を参照して上記文字列ブロックの二次元的配置構造から当該文字列ブロックの記載内容を表す記載内容カテゴリを推定するステップと、上記画像を上記操作端末装置の表示画面上に表示して該操作端末装置の入力部から利用者の操作処理入力を受けるステップと、利用者の操作により認識起動を判断するステップと、認識起動を受けて上記画像から認識対象である文字列ブロックを選択し、該文字列ブロックから文字切出候補を抽出するステップと、上記文字切出候補を文字識別するステップと、上記文字識別の結果、上記文字列ブロックに対応する記載内容カテゴリおよび上記文字切出候補を含むデータから、上記記憶装置に保持される、該記載内容カテゴリに合致する表記知識を用いて文字列認識を行うステップと、該読取結果を受けて業務データベース中から関連情報を検索するステップと、該関連情報を表示端末上に表示するステップとを実行させることを特徴とするプログラム。   A program executed by a computer including an operation terminal device, a storage device, and a central processing unit, the step of receiving input of an image in which characters are described in the central processing unit, and a character string from the image Extracting a block; estimating a description content category representing a description content of the character string block from a two-dimensional arrangement structure of the character string block with reference to an arrangement structure definition stored in the storage device; A step of displaying the image on a display screen of the operation terminal device and receiving a user operation input from an input unit of the operation terminal device; a step of determining a recognition start by a user operation; and a recognition start Receiving a character string block to be recognized from the image and extracting a character extraction candidate from the character string block; and The candidate is character-identified, and as a result of the character identification, the description content category corresponding to the character string block and the data including the character extraction candidate match the description content category held in the storage device. A step of performing character string recognition using notation knowledge, a step of retrieving related information from a business database in response to the reading result, and a step of displaying the related information on a display terminal Program to do.
JP2004205361A 2004-07-13 2004-07-13 Document processing method and document processing apparatus Expired - Fee Related JP4466241B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004205361A JP4466241B2 (en) 2004-07-13 2004-07-13 Document processing method and document processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004205361A JP4466241B2 (en) 2004-07-13 2004-07-13 Document processing method and document processing apparatus

Publications (2)

Publication Number Publication Date
JP2006031129A true JP2006031129A (en) 2006-02-02
JP4466241B2 JP4466241B2 (en) 2010-05-26

Family

ID=35897440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004205361A Expired - Fee Related JP4466241B2 (en) 2004-07-13 2004-07-13 Document processing method and document processing apparatus

Country Status (1)

Country Link
JP (1) JP4466241B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181198A (en) * 2015-03-25 2016-10-13 株式会社リクルートホールディングス Computer program, information search system, and control method of the same
WO2021176281A1 (en) * 2020-03-06 2021-09-10 International Business Machines Corporation Digital image processing
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181198A (en) * 2015-03-25 2016-10-13 株式会社リクルートホールディングス Computer program, information search system, and control method of the same
WO2021176281A1 (en) * 2020-03-06 2021-09-10 International Business Machines Corporation Digital image processing
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11495038B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
GB2608750A (en) * 2020-03-06 2023-01-11 Ibm Digital image processing
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation

Also Published As

Publication number Publication date
JP4466241B2 (en) 2010-05-26

Similar Documents

Publication Publication Date Title
US11775744B2 (en) Systems and methods for on-image navigation and direct image-to-data storage table data capture
US20070098263A1 (en) Data entry apparatus and program therefor
US5850490A (en) Analyzing an image of a document using alternative positionings of a class of segments
US9317484B1 (en) Page-independent multi-field validation in document capture
KR102473543B1 (en) Systems and methods for digital ink interaction
US8224090B2 (en) Apparatus and method for analyzing and determining correlation of information in a document
RU2613846C2 (en) Method and system for extracting data from images of semistructured documents
KR20180077152A (en) Systems and methods for guiding handwriting input
CN105631393A (en) Information recognition method and device
CN112434691A (en) HS code matching and displaying method and system based on intelligent analysis and identification and storage medium
JP2005135041A (en) Document search/browse method and document search/browse system
US10699112B1 (en) Identification of key segments in document images
KR20210037637A (en) Translation method, apparatus and electronic equipment
US20220222292A1 (en) Method and system for ideogram character analysis
JP2021043478A (en) Information processing device, control method thereof and program
US20110013806A1 (en) Methods of object search and recognition
JP4466241B2 (en) Document processing method and document processing apparatus
RU2398276C2 (en) Analysis alternatives in scope trees
JP2022035594A (en) Table structure recognition device and table structure recognition method
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
CN116225956A (en) Automated testing method, apparatus, computer device and storage medium
WO2014068770A1 (en) Data extraction method, data extraction device, and program thereof
Alzuru et al. Cooperative human-machine data extraction from biological collections
Wu et al. Automatic semantic knowledge extraction from electronic forms
US20220198127A1 (en) Enhancement aware text transition

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees