JPH09167246A - Method for processing picture and its device - Google Patents

Method for processing picture and its device

Info

Publication number
JPH09167246A
JPH09167246A JP7325633A JP32563395A JPH09167246A JP H09167246 A JPH09167246 A JP H09167246A JP 7325633 A JP7325633 A JP 7325633A JP 32563395 A JP32563395 A JP 32563395A JP H09167246 A JPH09167246 A JP H09167246A
Authority
JP
Japan
Prior art keywords
image
image information
information
line
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7325633A
Other languages
Japanese (ja)
Other versions
JP3814320B2 (en
Inventor
Nobuhiko Tezuka
信彦 手塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP32563395A priority Critical patent/JP3814320B2/en
Priority to US08/760,211 priority patent/US6275608B1/en
Priority to TW085115012A priority patent/TW419628B/en
Priority to EP96308875A priority patent/EP0779593B1/en
Priority to DE69624663T priority patent/DE69624663T2/en
Priority to CN96119794A priority patent/CN1099800C/en
Priority to KR1019960065050A priority patent/KR100268367B1/en
Publication of JPH09167246A publication Critical patent/JPH09167246A/en
Application granted granted Critical
Publication of JP3814320B2 publication Critical patent/JP3814320B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Abstract

PROBLEM TO BE SOLVED: To automatically execute judgement without designating a table attribute such as whether a manually inputted table picture has a table with a horizontal ruled line or not by judging the attribute of picture information in accordance with the characteristic of a row picture which is picked-up from picture information and storing the judged attribute in accordance with picture information. SOLUTION: The attribute of picture information is judged in accordance with the characteristic of the row picture which is picked-up from picture information and the judged attribute is stored in accordance with picture information. That is, in a picture processing device, picture information is inputted from an input part 101, the area of the input picture is divided by an area dividing part 106 and a picture data area such as sentence, separator, figure and table, etc. Information of the respective picked-up picture data areas is stored in a storage part 103. When the table picture is added in the input picture in the result of area division, a processing for automatically discriminating the table picture is executed. In judgement result, the table processing of the table without the horizontal ruled line is executed when the table picture is the table without the horizontal ruled line and the table processing of the table with the horizontal ruled line is executed at the time of the horizontal ruled line.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、OCR(光学的文
字認識)装置、複写機、ファクシミリ等の画像処理装置
において、特に表画像を含む入力画像から文字を適正に
抽出することのできる画像処理方法及び装置に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image processing apparatus such as an OCR (optical character recognition) apparatus, a copying machine, a facsimile machine, etc., which is capable of properly extracting characters from an input image including a front image. The present invention relates to a method and an apparatus.

【0002】本発明は、入力した表画像から文字画像を
抽出する際に、入力した表の形式を判断して適正に文字
画像を抽出することのできる画像処理方法及び装置に関
するものである。
The present invention relates to an image processing method and apparatus capable of appropriately extracting a character image by judging the format of the input table when extracting the character image from the input table image.

【0003】本発明は、入力した画像に含まれている表
画像の属性をユーザの手操作により指定することなく、
自動的に判断することのできる画像処理方法及び装置に
関するものである。
According to the present invention, the user does not manually specify the attributes of the front image included in the input image.
The present invention relates to an image processing method and apparatus which can be automatically judged.

【0004】[0004]

【従来の技術】自動領域分割機能を有するOCR装置で
は、罫線で囲まれている画像を表画像であると自動判別
し、表の罫線で囲まれたセルを一つの文字領域として抽
出する処理を行っている。
2. Description of the Related Art In an OCR device having an automatic area dividing function, an image surrounded by ruled lines is automatically discriminated as a table image, and a cell surrounded by the ruled lines of the table is extracted as one character area. Is going.

【0005】また、文字認識の後に、一つの文字領域か
ら得られる認識結果の文字列間にタブコードを挿入し、
行間にはリターンコードを挿入することによって、表画
像から抽出されるセルの情報を文字認識後の文書データ
に反映させ、表計算ソフト等へデータの流し込みを容易
にするようにしていた。
After the character recognition, a tab code is inserted between the character strings of the recognition result obtained from one character area,
By inserting a return code between lines, the cell information extracted from the table image is reflected in the document data after character recognition so that the data can be easily poured into the spreadsheet software or the like.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上記従
来の技術では、文字認識の対象となっている表画像が横
罫線のない表である場合、図7に示すように、縦に並ぶ
複数の項目が一つの文字領域として判断されるため、入
力した表の形態とは異なる文書が得られてしまい、その
形態を入力した表の形態に整える作業をオペレータに強
いることとなり、オペレータの負担を大きくしていた。
However, in the above-mentioned conventional technique, when the table image to be character-recognized is a table without horizontal ruled lines, as shown in FIG. Since it is judged as one character area, a document different from the input table form will be obtained, which will force the operator to arrange the form into the input table form, increasing the burden on the operator. Was there.

【0007】[0007]

【課題を解決するための手段】上記課題を解決するため
に、本発明は、画像情報から行画像を抽出し、前記抽出
した行画像の特性に従って前記画像情報の属性を判定
し、前記判定された属性を前記画像情報と対応付けて記
憶する。
In order to solve the above-mentioned problems, the present invention extracts a line image from image information, determines the attribute of the image information according to the characteristics of the extracted line image, and makes the determination. The attribute is stored in association with the image information.

【0008】上記課題を解決するために、本発明は、前
記画像情報は、罫線で囲まれた画像情報とする。
In order to solve the above-mentioned problems, the image information according to the present invention is image information surrounded by ruled lines.

【0009】上記課題を解決するために、本発明は、前
記画像情報は、光学的に読取った画像情報とする。
In order to solve the above problems, in the present invention, the image information is optically read image information.

【0010】上記課題を解決するために、本発明は、前
記行画像を文字認識し、前記文字認識の結果とともに行
区切りコードを出力する。
In order to solve the above problems, the present invention character-recognizes the line image, and outputs a line delimiter code together with a result of the character recognition.

【0011】上記課題を解決するために、本発明は、前
記出力される情報に従って文書を表示する。
In order to solve the above problems, the present invention displays a document according to the output information.

【0012】上記課題を解決するために、本発明は、入
力した画像情報を罫線で囲まれる小画像領域に分割し、
前記分割された小画像領域の画像情報から行画像を抽出
し、前記入力した画像情報に含まれる前記行画像を、該
行画像が位置する小画像領域の位置関係と、小画像領域
内での位置に従って順序付けする。
In order to solve the above problems, the present invention divides input image information into small image regions surrounded by ruled lines,
A row image is extracted from the image information of the divided small image area, and the row image included in the input image information is compared with the positional relationship of the small image area in which the row image is located, and in the small image area. Order by position.

【0013】上記課題を解決するために、本発明は、前
記入力する画像情報は、光学的に読取った画像情報とす
る。
In order to solve the above problems, in the present invention, the input image information is optically read image information.

【0014】上記課題を解決するために、本発明は、前
記行画像を文字認識し、前記文字認識の結果とともに行
区切りコードを出力する。
In order to solve the above problems, the present invention character-recognizes the line image, and outputs a line delimiter code together with the result of the character recognition.

【0015】上記課題を解決するために、本発明は、前
記画像情報の属性を判定し、前記属性判定手段の判定に
従って前記行画像の抽出を実行するか否か決定する。
In order to solve the above problems, the present invention determines the attribute of the image information, and determines whether to extract the line image according to the determination of the attribute determining means.

【0016】上記課題を解決するために、本発明は、前
記出力される情報に従って文書を表示する。
In order to solve the above problems, the present invention displays a document according to the output information.

【0017】[0017]

【発明の実施の形態】図1は、本発明の画像処理装置の
一例の機能構成ブロック図である。101は入力部であ
って、文字認識の対象となる画像情報の入力、及びオペ
レータによりなされる各種指示を入力する。また、文書
の編集等を行うためのキーボードを備える。ここで画像
情報の入力は、原稿を光学的に読み込むスキャナや、或
は既に光学的に読み込まれた画像情報を記憶装置や通信
手段を介して入力するものであっても良い。102は後
述するフローチャートの制御プログラムに従って、装置
の制御や各処理部の演算・制御を行う演算処理部(CP
U)であり、103は後述するフローチャートを演算処
理部102が実行するための制御プログラムや、各種処
理に用いるデータ或は各種処理途中で生ずるデータを記
憶する記憶部である。104は演算処理結果や画像処理
結果、及び画像データを出力する出力部であって、CR
Tや液晶表示器等の表示手段や、或は他の端末や外部記
憶手段に出力するための出力端末を含む。105は画像
情報に含まれている文章の段落、見出しに順序を付ける
順序付け部、106は画像情報の領域分割処理を行う領
域分割部、107は画像情報に含まれている表画像の属
性を、表画像の特性を検出し、分析することにより自動
判定する表属性自動判定部、108は画像情報に含まれ
る表画像から表の形態を抽出し、文書化するための処理
を行う表処理部、109は画像情報から文字画像を抽出
し、更にその抽出された文字画像を認識する文字認識部
である。
1 is a block diagram showing the functional arrangement of an example of an image processing apparatus according to the present invention. An input unit 101 is for inputting image information to be a target of character recognition and various instructions given by an operator. It also has a keyboard for editing documents. Here, the image information may be input by a scanner that optically reads a document, or by inputting image information that has already been optically read through a storage device or communication means. Reference numeral 102 denotes an arithmetic processing unit (CP) that controls the device and performs arithmetic / control of each processing unit according to a control program of a flowchart described later.
U is a U), and 103 is a storage unit that stores a control program for the arithmetic processing unit 102 to execute a flowchart described later, data used for various processes, or data generated during various processes. An output unit 104 outputs a calculation processing result, an image processing result, and image data.
It includes a display means such as T or a liquid crystal display, or an output terminal for outputting to another terminal or external storage means. Reference numeral 105 denotes a paragraph of a sentence included in the image information, an ordering unit that orders headings, 106 is a region dividing unit that performs a region dividing process of the image information, and 107 is a table image attribute included in the image information. A table attribute automatic judging unit for automatically judging by detecting and analyzing the characteristics of the table image, a table processing unit 108 for extracting the form of the table from the table image included in the image information, and performing a process for documenting it. A character recognition unit 109 extracts a character image from the image information and further recognizes the extracted character image.

【0018】図2は画像を入力部101より入力してか
ら文字認識して文書データとして出力部104より出力
するまでの全体的な処理の流れを表わすフローチャート
であり、制御プログラムは記憶部103に記憶され、演
算処理部102の制御により実行される。
FIG. 2 is a flow chart showing the overall processing flow from inputting an image from the input unit 101 to character recognition and outputting as document data from the output unit 104. The control program is stored in the storage unit 103. It is stored and executed under the control of the arithmetic processing unit 102.

【0019】入力部101より画像情報を入力する(S
201)。この入力された画像情報は、出力部104に
含まれる表示手段により表示してオペレータに確認させ
ても良い。次に、領域分割部106により入力画像の領
域分割を行って、文章、セパレータ、図、表等の画像デ
ータ領域を抽出する(S202)。抽出された各画像デ
ータ領域の情報は、記憶部103に格納される。領域分
割の詳細な方法については、特願平4−243252号
に開示されている技術等がある。領域分割の結果、入力
画像に表画像が含まれている場合は(S203YE
S)、S204に進んでその表画像の属性を自動判別す
る処理を行う(S204)。このS204の表画像の属
性の自動判別処理については、図3のフローチャートに
詳細な処理を示し、後に詳細に説明する。S204の表
属性の判別の結果、その表画像が横罫線なしの表である
場合は(S205YES)、S206に進んで横罫線な
し表の表処理を行う。S206の横罫線なし表の表処理
は、横罫線なしの表画像の表形態を保持して文書化する
ための、文字単位(セルに相当)の抽出及びその抽出さ
れた文字単位の順序付けの処理であるが、図4のフロー
チャートに従って後に詳細に説明する。S204の表属
性の判別の結果、その表画像が横罫線ありの表である場
合は(S205NO)、S209に進んで横罫線あり表
の表処理を行う。このS209の横罫線ありの表の表処
理は、表形態を保持して文書化するための、セルの抽出
と、その抽出されたセルに順序を付ける処理であって、
左から右へ、そして上から下へ順に番号を付与するもの
である。その順は、後述する図4のフローチャートのS
402における順序と同じである。
Image information is input from the input unit 101 (S
201). The input image information may be displayed by the display unit included in the output unit 104 to be confirmed by the operator. Next, the area dividing unit 106 divides the input image into areas, and extracts image data areas such as sentences, separators, figures, and tables (S202). Information on each of the extracted image data areas is stored in the storage unit 103. For a detailed method of area division, there is a technique disclosed in Japanese Patent Application No. 4-243252. As a result of the area division, if the input image includes the front image (S203YE
In S204, the process proceeds to S204 in which the attribute of the front image is automatically determined (S204). The automatic determination process of the attribute of the front image in S204 is shown in detail in the flowchart of FIG. 3, and will be described in detail later. As a result of the determination of the table attribute in S204, if the table image is a table without horizontal ruled lines (YES in S205), the process proceeds to S206 to perform table processing of the table without horizontal ruled lines. The table processing of the table without horizontal ruled lines in S206 is a process of extracting character units (corresponding to cells) and ordering the extracted character units so as to document the table form of the table image without horizontal ruled lines. However, it will be described later in detail according to the flowchart of FIG. As a result of the determination of the table attribute in S204, if the table image is a table with horizontal ruled lines (NO in S205), the process proceeds to S209 to perform table processing of the table with horizontal ruled lines. The table process of the table with horizontal ruled lines in S209 is a process of extracting cells for ordering and documenting the table form and ordering the extracted cells.
The numbers are given from left to right and from top to bottom. The order is S in the flowchart of FIG. 4 described later.
It is the same as the order in 402.

【0020】S203で表なしと判断された場合、及び
S206或はS209の処理が終了したら、S207に
進み、順序付け部105により入力画像の表画像を除い
た文章部分からなる見出し、本文段落に順序を付ける。
この順序付けは、例えば、文章が縦書きの場合は右から
左方向に順序を付け、同様に上下方向に関しては上から
下方向に順序を付ければ良い。
When it is determined in S203 that there is no table, and when the processing of S206 or S209 is completed, the process proceeds to S207, where the ordering unit 105 orders headings and text paragraphs consisting of sentence parts excluding the table image of the input image. Attach.
This ordering may be performed from right to left when the text is written vertically, and similarly from top to bottom in the vertical direction.

【0021】S208では、文字認識処理部109によ
り、文字認識処理を行い、S206、S209、S20
7で付けられた順序に従って文字列を出力し、入力画像
の文書化を完了する。ただし、表画像に含まれる文字の
出力については、セルとセルの間にセル区切りを表わす
コードであるタブコードを挿入し、行と行の間には行区
切りを表わすコードであるリターンコードを挿入する。
In S208, the character recognition processing unit 109 performs character recognition processing, and S206, S209, and S20.
The character string is output according to the order given in 7, and the documenting of the input image is completed. However, regarding the output of the characters included in the table image, insert a tab code that is a code that indicates a cell delimiter between cells and insert a return code that is a code that indicates a line delimiter between lines. To do.

【0022】以上、図2のフローチャートに示す処理を
行うことで、入力画像に横罫線なしの表が含まれている
場合にも、オペレータの手操作によりその旨指定するこ
となく、自動的に横罫線なし表を判別してその表につい
ても表形態を保持して文書化することができる。
As described above, by performing the processing shown in the flow chart of FIG. 2, even when the input image includes a table without horizontal ruled lines, the operator does not manually specify that and the horizontal direction is automatically specified. A table without ruled lines can be discriminated and the table form can be retained and documented for the table.

【0023】以下、S204において表属性自動判定部
107が実行する表属性の自動判定処理について、図3
のフローチャートに従って説明する。この処理において
対象となっているのはS202の領域分割処理によって
表画像であると判定された領域の画像であり、図5に例
示したようなものである。
The table attribute automatic determination processing executed by the table attribute automatic determination unit 107 in S204 will be described below with reference to FIG.
This will be described according to the flowchart of FIG. The target of this processing is the image of the area determined to be the front image by the area dividing processing in S202, as illustrated in FIG.

【0024】まず、表画像50の罫線で囲まれたセルを
抽出し(セル1〜セル4)、各セルの中の文字行の行数
をカウントする(S301)。例えばセル1〜セル3は
6行、セル4は2行である。次のS302及びS303
の判断処理は、S301で抽出された全セルについて行
う。S302の処理はS301でカウントされた行数が
3以上であるか否かの判断であり、S303の処理はそ
のセルに含まれている文字画像の高さaと文字画像の垂
直字方向の間隔bとの関係を判断するものであって、b
>3aであるか否かを判断する。S302或はS303
においてYESと判断されるセルがある場合には、その
表画像を横罫線なし表と判断して、記憶部103に記憶
されているその表画像の領域情報に加えて横罫線なし表
の属性を記憶する(S304)。対象となっている表画
像の全てのセルGS302とS303で共にNOと判断
された場合は、その表画像は横罫線あり表と判断して、
記憶部103に記憶されている表画像の領域情報に加え
て横罫線あり表の属性を記憶する。図5に例示した表画
像は、セル1〜セル3が行数が3以上とS302で判断
され、かつ、セル4は2行の間隔が大きく、b>3aと
判断されるので、S304において横罫線なし表の属性
が記憶部103に記憶される。
First, cells surrounded by ruled lines of the table image 50 are extracted (cell 1 to cell 4), and the number of character lines in each cell is counted (S301). For example, cells 1 to 3 have 6 rows and cell 4 has 2 rows. Next S302 and S303
The determination process of is performed for all the cells extracted in S301. The process of S302 is a judgment as to whether or not the number of lines counted in S301 is three or more, and the process of S303 is the height a of the character image included in the cell and the interval between the character images in the vertical character direction. for determining the relationship with b,
It is determined whether or not> 3a. S302 or S303
If there is a cell that is determined to be YES, the table image is determined to be a table without horizontal ruled lines, and the attribute of the table without horizontal ruled lines is added to the area information of the table image stored in the storage unit 103. It is stored (S304). If NO is determined in all the cells GS302 and S303 of the target table image, it is determined that the table image has a horizontal ruled line,
In addition to the area information of the table image stored in the storage unit 103, the attributes of the table with horizontal ruled lines are stored. In the table image illustrated in FIG. 5, cells 1 to 3 are determined to have three or more rows in S302, and cell 4 is determined to have a large gap between two rows and b> 3a. The attributes of the ruled table are stored in the storage unit 103.

【0025】この図3のフローチャートの処理により、
入力画像に含まれる表画像が横罫線のあるものなのかな
いものなのかの判断を、オペレータの手操作により指定
することなく自動判定することができる。
By the processing of the flow chart of FIG. 3,
It is possible to automatically determine whether the front image included in the input image has horizontal ruled lines or not, without designating manually by an operator.

【0026】以下、S206において表処理部108が
実行する横罫線なし表処理について、図4のフローチャ
ートに従って説明する。この処理において対象となって
いるのはS202の領域分割処理によって表画像である
と判定された領域の画像であり、図6に例示した表画像
60のようなものである。
The horizontal ruled line-less table processing executed by the table processing unit 108 in S206 will be described below with reference to the flowchart of FIG. The target of this processing is the image of the area determined to be the table image by the area dividing processing in S202, such as the table image 60 illustrated in FIG.

【0027】まず、表画像60から抽出されたセル1〜
セル3各々を、行単位ブロックに分割する(S40
2)。セル1は5つの行ブロックに分割される。セル2
及びセル3も同様に5つの行ブロックに分割される。S
401で抽出された各ブロックに順序付けを行う(S4
02)。順序付けは、左から右方向へ、更に上から下方
向に付けられるので、セル1の一番上のブロックが順序
として一番目の、セル2の一番上のブロックが、セ
ル3の一番上のブロックが、横方向はセル3で終わり
なので、下方向へ移動してセル1の上から2番目が、
セル2の上から2番目がというように順序付けを行
う。この順序情報はブロック情報と共に記憶部103に
記憶する。
First, cells 1 to 1 extracted from the front image 60
Each cell 3 is divided into row unit blocks (S40).
2). Cell 1 is divided into 5 row blocks. Cell 2
And cell 3 is similarly divided into 5 row blocks. S
The blocks extracted in 401 are ordered (S4).
02). Since the ordering is from left to right and from top to bottom, the top block of cell 1 is the first block in the order, and the top block of cell 2 is the top block of cell 3. The block of No. ends in cell 3 in the horizontal direction, so move downward and the second from the top of cell 1,
The cell 2 is ordered from the second from the top. This order information is stored in the storage unit 103 together with the block information.

【0028】このように、一つのセル内の複数項目を行
単位のブロックを抽出することにより分割し、順序付け
も行うので、横罫線なし表も横罫線あり表と同様にセル
毎の文字列の抽出と順序付け、更にはその順序に従って
文書化するので、表の形態を保持することができる。
As described above, since a plurality of items in one cell are divided by extracting blocks in row units and ordering is also performed, a table without horizontal ruled lines has the same character string for each cell as the table with horizontal ruled lines. Extraction and ordering, and further documenting according to that order, preserves table morphology.

【0029】[0029]

【発明の効果】以上説明したように、本発明によれば、
画像情報から行画像を抽出し、前記抽出した行画像の特
性に従って前記画像情報の属性を判定し、前記判定され
た属性を前記画像情報と対応付けて記憶することによ
り、オペレータの手操作により入力した表画像が横罫線
のある表なのかない表なのかといった表属性を指定する
必要なく、自動的に判定することができ、操作性を向上
させることができる。
As described above, according to the present invention,
A line image is extracted from image information, the attribute of the image information is determined according to the characteristics of the extracted line image, and the determined attribute is stored in association with the image information, so that the operator manually inputs it. It is possible to automatically determine the table image without specifying a table attribute such as whether the table image is a table with horizontal ruled lines or not, and it is possible to improve operability.

【0030】以上説明したように、本発明によれば、前
記画像情報は、罫線で囲まれた画像情報とすることによ
り、罫線で囲まれた一つのセルに含まれる複数項目を自
動判定することが出来る。
As described above, according to the present invention, the image information is image information surrounded by ruled lines so that a plurality of items included in one cell surrounded by the ruled lines can be automatically determined. Can be done.

【0031】以上説明したように、本発明によれば、前
記画像情報は、光学的に読取った画像情報とすることに
より、光学的に読取った画像をキー等の操作をすること
なく自動的に処理することができる。
As described above, according to the present invention, the image information is optically read image information, so that the optically read image is automatically read without operating a key or the like. Can be processed.

【0032】以上説明したように、本発明によれば、前
記行画像を文字認識し、前記文字認識の結果とともに行
区切りコードを出力することにより、文字認識しての文
書化の後でも、表の形態を保つことができる。
As described above, according to the present invention, the line image is character-recognized, and the line-separation code is output together with the result of the character recognition, so that the document can be displayed even after the character-recognition and documentation. The shape of can be maintained.

【0033】以上説明したように、本発明によれば、前
記出力される情報に従って文書を表示することにより、
入力画像の文字認識結果および表の形態を表示画面上で
確認することができる。
As described above, according to the present invention, by displaying a document according to the output information,
The result of character recognition of the input image and the form of the table can be confirmed on the display screen.

【0034】以上説明したように、本発明によれば、入
力した画像情報を罫線で囲まれる小画像領域に分割し、
前記分割された小画像領域の画像情報から行画像を抽出
し、前記入力した画像情報に含まれる前記行画像を、該
行画像が位置する小画像領域の位置関係と、小画像領域
内での位置に従って順序付けすることにより、横罫線の
ない特殊な表の形態を適正に判定することができる。
As described above, according to the present invention, input image information is divided into small image areas surrounded by ruled lines,
A row image is extracted from the image information of the divided small image area, and the row image included in the input image information is compared with the positional relationship of the small image area in which the row image is located, and in the small image area. By ordering according to position, it is possible to properly determine the shape of a special table without horizontal ruled lines.

【0035】以上説明したように、本発明によれば、前
記画像情報の属性を判定し、前記属性判定手段の判定に
従って前記行画像の抽出を実行するか否か決定すること
により、適正な場合にのみ適正な処理を行うので、文字
認識しての文書化の後でも表の形態を保つことができ
る。
As described above, according to the present invention, the attribute of the image information is determined, and whether or not the line image is extracted is determined according to the determination of the attribute determination means, so that it is appropriate. Since the proper processing is performed only on the table, the form of the table can be maintained even after the document is recognized and recognized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】画像処理装置の機能構成ブロック図FIG. 1 is a functional configuration block diagram of an image processing apparatus.

【図2】全体処理のフローチャート[Fig. 2] Flow chart of overall processing

【図3】表属性判定処理のフローチャートFIG. 3 is a flowchart of table attribute determination processing.

【図4】横罫線なし表処理のフローチャートFIG. 4 is a flowchart of table processing without horizontal ruled lines.

【図5】表属性判定処理を行う表画像例示図FIG. 5 is an exemplary diagram of a table image for performing table attribute determination processing.

【図6】横罫線なし表処理の説明図FIG. 6 is an explanatory diagram of table processing without horizontal ruled lines.

【図7】従来の表画像処理の説明図FIG. 7 is an explanatory diagram of conventional front image processing.

Claims (20)

【特許請求の範囲】[Claims] 【請求項1】 画像情報から行画像を抽出する行画像抽
出手段と、 前記抽出した行画像の特性に従って前記画像情報の属性
を判定する属性判定手段と、 前記判定された属性を前記画像情報と対応付けて記憶す
る記憶手段とを有することを特徴とする画像処理装置。
1. A line image extracting means for extracting a line image from image information, an attribute determining means for determining an attribute of the image information according to a characteristic of the extracted line image, and the determined attribute as the image information. An image processing device comprising: a storage unit that stores the data in association with each other.
【請求項2】 前記画像情報は、罫線で囲まれた画像情
報とすることを特徴とする請求項1に記載の画像処理装
置。
2. The image processing apparatus according to claim 1, wherein the image information is image information surrounded by ruled lines.
【請求項3】 前記画像情報は、光学的に読取った画像
情報とすることを特徴とする請求項1に記載の画像処理
装置。
3. The image processing apparatus according to claim 1, wherein the image information is optically read image information.
【請求項4】 前記行画像を文字認識する文字認識手段
と、 前記文字認識手段による文字認識の結果とともに行区切
りコードを出力する出力手段とを有することを特徴とす
る請求項1に記載の画像処理装置。
4. The image according to claim 1, further comprising: a character recognition unit for recognizing the line image as a character, and an output unit for outputting a line delimiter code together with a result of character recognition by the character recognition unit. Processing equipment.
【請求項5】 前記出力手段より出力される情報に従っ
て文書を表示する表示手段を有することを特徴とする請
求項4に記載の画像処理装置。
5. The image processing apparatus according to claim 4, further comprising display means for displaying a document in accordance with the information output by the output means.
【請求項6】 画像情報を入力する画像情報入力手段
と、 前記入力した画像情報を罫線で囲まれる小画像領域に分
割する画像分割手段と、 前記分割された小画像領域の画像情報から行画像を抽出
する行画像抽出手段と、 前記入力した画像情報に含まれる前記行画像を、該行画
像が位置する小画像領域の位置関係と、小画像領域内で
の位置に従って順序付けする順序付け手段とを有するこ
とを特徴とする画像処理装置。
6. An image information input means for inputting image information, an image dividing means for dividing the input image information into small image areas surrounded by ruled lines, and a line image based on the image information of the divided small image areas. A row image extracting means for extracting the row image, and a sequence means for ordering the row images included in the input image information according to the positional relationship of the small image area in which the row image is located and the position in the small image area. An image processing apparatus having.
【請求項7】 前記画像情報入力手段により入力する画
像情報は、光学的に読取った画像情報とすることを特徴
とする請求項6に記載の画像処理装置。
7. The image processing apparatus according to claim 6, wherein the image information input by the image information input means is optically read image information.
【請求項8】 前記行画像を文字認識する文字認識手段
と、 前記文字認識手段による文字認識の結果とともに行区切
りコードを出力する出力手段とを有することを特徴とす
る請求項6に記載の画像処理装置。
8. The image according to claim 6, further comprising: a character recognizing unit that character-recognizes the line image, and an output unit that outputs a line delimiter code together with a result of character recognition by the character recognizing unit. Processing equipment.
【請求項9】 前記画像情報の属性を判定する属性判定
手段を有し、 前記行画像抽出手段は、前記属性判定手段の判定に従っ
て行画像の抽出を実行するか否か決定することを特徴と
する請求項6に記載の画像処理装置。
9. An attribute determining unit for determining an attribute of the image information, wherein the line image extracting unit determines whether to extract a line image according to the determination of the attribute determining unit. The image processing device according to claim 6.
【請求項10】 前記出力手段より出力される情報に従
って文書を表示する表示手段を有することを特徴とする
請求項9に記載の画像処理装置。
10. The image processing apparatus according to claim 9, further comprising display means for displaying a document in accordance with the information output from the output means.
【請求項11】 画像情報から行画像を抽出し、 前記抽出した行画像の特性に従って前記画像情報の属性
を判定し、 前記判定された属性を前記画像情報と対応付けて記憶す
ることを特徴とする画像処理方法。
11. A line image is extracted from image information, an attribute of the image information is determined according to a characteristic of the extracted line image, and the determined attribute is stored in association with the image information. Image processing method.
【請求項12】 前記画像情報は、罫線で囲まれた画像
情報とすることを特徴とする請求項11に記載の画像処
理方法。
12. The image processing method according to claim 11, wherein the image information is image information surrounded by ruled lines.
【請求項13】 前記画像情報は、光学的に読取った画
像情報とすることを特徴とする請求項11に記載の画像
処理方法。
13. The image processing method according to claim 11, wherein the image information is optically read image information.
【請求項14】 前記行画像を文字認識し、 前記文字認識の結果とともに行区切りコードを出力する
ことを特徴とする請求項11に記載の画像処理方法。
14. The image processing method according to claim 11, wherein character recognition is performed on the line image, and a line delimiter code is output together with a result of the character recognition.
【請求項15】 前記出力される情報に従って文書を表
示することを特徴とする請求項14に記載の画像処理方
法。
15. The image processing method according to claim 14, wherein the document is displayed according to the output information.
【請求項16】 入力した画像情報を罫線で囲まれる小
画像領域に分割し、 前記分割された小画像領域の画像情報から行画像を抽出
し、 前記入力した画像情報に含まれる前記行画像を、該行画
像が位置する小画像領域の位置関係と、小画像領域内で
の位置に従って順序付けすることを特徴とする画像処理
方法。
16. The input image information is divided into small image regions surrounded by ruled lines, a line image is extracted from the image information of the divided small image regions, and the line images included in the input image information are extracted. An image processing method characterized in that the row images are ordered in accordance with the positional relationship between the small image areas and the positions in the small image areas.
【請求項17】 前記入力する画像情報は、光学的に読
取った画像情報とすることを特徴とする請求項16に記
載の画像処理方法。
17. The image processing method according to claim 16, wherein the input image information is image information optically read.
【請求項18】 前記行画像を文字認識し、 前記文字認識の結果とともに行区切りコードを出力する
ことを特徴とする請求項16に記載の画像処理方法。
18. The image processing method according to claim 16, wherein character recognition is performed on the line image, and a line delimiter code is output together with a result of the character recognition.
【請求項19】 前記画像情報の属性を判定し、 前記属性判定手段の判定に従って前記行画像の抽出を実
行するか否か決定することを特徴とする請求項16に記
載の画像処理方法。
19. The image processing method according to claim 16, wherein the attribute of the image information is determined, and whether to extract the line image is determined according to the determination of the attribute determining unit.
【請求項20】 前記出力される情報に従って文書を表
示することを特徴とする請求項19に記載の画像処理方
法。
20. The image processing method according to claim 19, wherein a document is displayed according to the output information.
JP32563395A 1995-12-14 1995-12-14 Image processing method and apparatus Expired - Fee Related JP3814320B2 (en)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP32563395A JP3814320B2 (en) 1995-12-14 1995-12-14 Image processing method and apparatus
US08/760,211 US6275608B1 (en) 1995-12-14 1996-12-04 Image processing method and apparatus and memory medium
TW085115012A TW419628B (en) 1995-12-14 1996-12-05 Image processing method and apparatus and memory meidum
DE69624663T DE69624663T2 (en) 1995-12-14 1996-12-06 Process and device for image processing and storage medium
EP96308875A EP0779593B1 (en) 1995-12-14 1996-12-06 Image processing method and apparatus and memory medium
CN96119794A CN1099800C (en) 1995-12-14 1996-12-13 Image processing method and apparatus and memory medium
KR1019960065050A KR100268367B1 (en) 1995-12-14 1996-12-13 Image processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32563395A JP3814320B2 (en) 1995-12-14 1995-12-14 Image processing method and apparatus

Publications (2)

Publication Number Publication Date
JPH09167246A true JPH09167246A (en) 1997-06-24
JP3814320B2 JP3814320B2 (en) 2006-08-30

Family

ID=18179032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32563395A Expired - Fee Related JP3814320B2 (en) 1995-12-14 1995-12-14 Image processing method and apparatus

Country Status (7)

Country Link
US (1) US6275608B1 (en)
EP (1) EP0779593B1 (en)
JP (1) JP3814320B2 (en)
KR (1) KR100268367B1 (en)
CN (1) CN1099800C (en)
DE (1) DE69624663T2 (en)
TW (1) TW419628B (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161268A (en) * 2012-02-06 2013-08-19 Fuji Xerox Co Ltd Image processing device and program
JP2014099182A (en) * 2013-12-10 2014-05-29 Toshiba Corp Electronic apparatus and handwritten document processing method
US9025879B2 (en) 2012-10-26 2015-05-05 Kabushiki Kaisha Toshiba Electronic apparatus and handwritten document processing method
JP2017091379A (en) * 2015-11-13 2017-05-25 キヤノンマーケティングジャパン株式会社 Information processing device, and processing method and program thereof
JP2019071134A (en) * 2019-02-06 2019-05-09 キヤノンマーケティングジャパン株式会社 Information processing device, and processing method and program thereof
JP2021504787A (en) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Methods, computer programs and systems for digitizing cognitive document images

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001150745A (en) * 1999-11-30 2001-06-05 Canon Inc Image processing apparatus and method thereof
US7054871B2 (en) * 2000-12-11 2006-05-30 Lucent Technologies Inc. Method for identifying and using table structures
JP4242796B2 (en) * 2004-03-12 2009-03-25 パナソニック株式会社 Image recognition method and image recognition apparatus
JP4645498B2 (en) * 2006-03-27 2011-03-09 ソニー株式会社 Information processing apparatus and method, and program
JP4491488B2 (en) * 2008-03-03 2010-06-30 シャープ株式会社 Image processing apparatus, image reading apparatus, image data output processing apparatus, and image processing method
US8887038B2 (en) 2010-10-08 2014-11-11 Business Objects Software Limited Extrapolating tabular structure in a freeform document
US9990347B2 (en) 2012-01-23 2018-06-05 Microsoft Technology Licensing, Llc Borderless table detection engine
EP2807604A1 (en) 2012-01-23 2014-12-03 Microsoft Corporation Vector graphics classification engine
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
CN104156683A (en) * 2014-06-30 2014-11-19 黄志康 Automatic input system of police exit-entry form
US20170220858A1 (en) * 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Optical recognition of tables
CN113408323B (en) * 2020-03-17 2023-03-03 华为技术有限公司 Extraction method, device and equipment of table information and storage medium

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4998285A (en) * 1988-03-11 1991-03-05 Kabushiki Kaisha Toshiba Character recognition apparatus
JP2812982B2 (en) * 1989-04-05 1998-10-22 株式会社リコー Table recognition method
JP2940936B2 (en) * 1989-06-06 1999-08-25 株式会社リコー Tablespace identification method
JP2930612B2 (en) * 1989-10-05 1999-08-03 株式会社リコー Image forming device
JP2713622B2 (en) * 1989-11-20 1998-02-16 富士通株式会社 Tabular document reader
JPH03290774A (en) * 1990-04-06 1991-12-20 Fuji Facom Corp Sentence area extracting device for document picture
JPH04243252A (en) 1991-01-18 1992-08-31 Fuji Photo Film Co Ltd Development processing method for sliver halide photosensitive material
JPH05188919A (en) * 1992-01-14 1993-07-30 Hitachi Ltd Document visualization processing method
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
EP0587450B1 (en) * 1992-09-11 2004-11-17 Canon Kabushiki Kaisha Image processing method and apparatus
JPH0696275A (en) 1992-09-11 1994-04-08 Canon Inc Image processor
US5590224A (en) * 1992-10-19 1996-12-31 Fast; Bruce B. OCR image preprocessing method for image enhancement of scanned documents by correction of registration
JP2789971B2 (en) * 1992-10-27 1998-08-27 富士ゼロックス株式会社 Table recognition device
JP3302147B2 (en) * 1993-05-12 2002-07-15 株式会社リコー Document image processing method
US5737442A (en) * 1995-10-20 1998-04-07 Bcl Computers Processor based method for extracting tables from printed documents

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013161268A (en) * 2012-02-06 2013-08-19 Fuji Xerox Co Ltd Image processing device and program
US9025879B2 (en) 2012-10-26 2015-05-05 Kabushiki Kaisha Toshiba Electronic apparatus and handwritten document processing method
JP2014099182A (en) * 2013-12-10 2014-05-29 Toshiba Corp Electronic apparatus and handwritten document processing method
JP2017091379A (en) * 2015-11-13 2017-05-25 キヤノンマーケティングジャパン株式会社 Information processing device, and processing method and program thereof
JP2021504787A (en) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Methods, computer programs and systems for digitizing cognitive document images
JP2019071134A (en) * 2019-02-06 2019-05-09 キヤノンマーケティングジャパン株式会社 Information processing device, and processing method and program thereof

Also Published As

Publication number Publication date
EP0779593A3 (en) 1998-02-11
JP3814320B2 (en) 2006-08-30
DE69624663T2 (en) 2003-07-03
KR100268367B1 (en) 2000-10-16
KR970049402A (en) 1997-07-29
CN1158044A (en) 1997-08-27
TW419628B (en) 2001-01-21
DE69624663D1 (en) 2002-12-12
US6275608B1 (en) 2001-08-14
CN1099800C (en) 2003-01-22
EP0779593A2 (en) 1997-06-18
EP0779593B1 (en) 2002-11-06

Similar Documents

Publication Publication Date Title
JPH09167246A (en) Method for processing picture and its device
JPH10240220A (en) Information processing equipment having annotation display function
EA000271B1 (en) Method and apparatus for processing a table
JP4443194B2 (en) Processing object selection method in portable terminal character recognition and portable terminal
US6003048A (en) System and method for converting a coordinate based document to a markup language (ML) based document
EP0750271A2 (en) Image processing method and apparatus
JP2009031937A (en) Form image processing apparatus and form image processing program
JPH11110479A (en) Method and device for processing characters and storage medium
CN110390323B (en) Information processing apparatus and computer readable medium
JP2018098705A (en) Image processing device and control method therefor, and program
JP4501731B2 (en) Image processing device
JP3548234B2 (en) Character recognition method and device
JP4109738B2 (en) Image processing method and apparatus and storage medium therefor
JPH08202856A (en) Picture processing method
JP2000293624A (en) Method and device for image processing and storage medium
JPH08202859A (en) Electronic filing device and its method
JP2011003022A (en) Image processing apparatus and program
JPH09269970A (en) Method for recognizing character and its device
JPH1166232A (en) Document-defining method
JPH09231228A (en) File retrieval device
JPH07193710A (en) Text picture processor
JP2008250817A (en) Business form automatically discriminating device
EP0637811A2 (en) Method for defining a plurality of form definition data sets
JPS62154073A (en) Optical character reader
JP2005208978A (en) Document filing device and document filing method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060605

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090609

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110609

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120609

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130609

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees