JP2001331764A - Method for recognizing character - Google Patents

Method for recognizing character

Info

Publication number
JP2001331764A
JP2001331764A JP2001064972A JP2001064972A JP2001331764A JP 2001331764 A JP2001331764 A JP 2001331764A JP 2001064972 A JP2001064972 A JP 2001064972A JP 2001064972 A JP2001064972 A JP 2001064972A JP 2001331764 A JP2001331764 A JP 2001331764A
Authority
JP
Japan
Prior art keywords
character recognition
cells
cell
row
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001064972A
Other languages
Japanese (ja)
Inventor
Junji Kashioka
潤二 柏岡
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001064972A priority Critical patent/JP2001331764A/en
Publication of JP2001331764A publication Critical patent/JP2001331764A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the convenience of the result of character recognition by recognizing the characters of cells in areas in a fixed relation within the same row as one character string. SOLUTION: The table structure of a tabular document is recognized to extract ruled lines and when a ruled line dividing adjacent cells in a row is a dot line, the adjacent cells are integrated to perform the character recognition of them as one cell. It is possible that after integrating the adjacent cells, the dot line dividing the adjacent cells is deleted to character-recognize the integrate cells. It is also possible that after integrating the adjacent cells, the adjacent cells are character-recognized individually to combine the results of the character recognition. When the respective sizes of the adjacent cells are smaller than a fixed threshold and their shapes are similar to each other, the cells can be integrated. Furthermore, it is possible to perform character recognition by integrating plural cells held between the right and left ruled lines of the item area by each row concerning cells in a row lower than the item area of the tabular document.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】近年、入力周辺機器として文
字認識処理の需要が増加している。本発明は、この文字
認識処理において、表形式文書のセルに対する文字認識
結果を、より利便性の高いものとすることができる文字
認識方法に関する。
BACKGROUND OF THE INVENTION In recent years, the demand for character recognition processing as input peripheral devices has been increasing. The present invention relates to a character recognition method capable of making the character recognition result for a cell of a table format document more convenient in the character recognition processing.

【0002】[0002]

【従来の技術】従来、図9、図10に示すような表形式
文書のセルを認識するには、表の罫線を抽出し、罫線に
より区切られたセル毎に文字認識を行い、その文字認識
結果を個別に保持していた。
2. Description of the Related Art Conventionally, in order to recognize cells of a table format document as shown in FIGS. 9 and 10, a ruled line of a table is extracted, and character recognition is performed for each cell separated by the ruled line. The results were kept separately.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、図9及
び図10中の点線で囲んだ領域Aのように同一行内で一
定の関係にある複数のセルの文字群は互いに結びついて
いる。例えば、図9における領域Aにおける”1234
56”は、個々の数字”1”,”2”,…,”6”を単
に並べたものではなく、12万3千456を意味してい
る。すなわち、個々の数字を互いに結び付け複数桁の数
字として認識することにより、初めて文字列として意味
のあるものとなる。従来の認識方法は、罫線により区切
られたセル毎に文字認識を行い、その文字認識結果を個
別に保持していたため、文字認識結果を上記のような意
味のある文字列として取得できなかった。このため、従
来の方法で認識した結果を、例えば表計算ソフトで処理
する場合には、セル毎に認識した結果を互いに結びつ
け、一つの意味のある数字列(文字列)に変換する必要
があった。本発明は上記事情に鑑みなされたものであっ
て、上記のような同一行内で一定の関係にある領域のセ
ルの文字を一つの文字列として自動的に認識することに
より、表計算等にそのまま適用できるようにする等、文
字認識結果をより利便性の高いものとすることを目的と
する。
However, the character groups of a plurality of cells having a fixed relationship in the same row, such as an area A surrounded by a dotted line in FIGS. 9 and 10, are connected to each other. For example, “1234” in the area A in FIG.
56 "is not simply an arrangement of the individual numbers" 1 "," 2 ",...," 6 "but means 123,456. Recognition as a number makes it meaningful as a character string for the first time.In the conventional recognition method, character recognition is performed for each cell separated by ruled lines, and the character recognition result is stored separately, Since the recognition result could not be obtained as a meaningful character string as described above, when the result recognized by the conventional method is processed by, for example, spreadsheet software, the result recognized for each cell is linked to each other. The present invention has been made in view of the above circumstances, and has been made in view of the above circumstances, and has been described above. One sentence of letters By automatically recognized as a column, etc. to be able to directly applied to spreadsheets, an object to a character recognition result and more convenient.

【0004】[0004]

【課題を解決するための手段】図1は本発明の概要を説
明する図である。図1に示すように本発明においては、
以下のようにて前記課題を解決する。 (1)図1(a)に示すように、表形式文書の表構造を
認識し罫線を抽出する。そして、罫線の抽出結果を基
に、行中の隣接するセルを区切る罫線を調べ、行中の隣
接するセルを区切る罫線が点線の場合に、隣接するセル
を統合して、一つのセルとし文字認識を行う。上記文字
認識をする際、隣接するセルを統合したのち、隣接した
セルを区切る点線を画像から削除して、該統合したセル
を文字認識したり、また、隣接するセルを統合したの
ち、隣接したセルを個別に文字認識して、文字認識結果
を結合した文字列を得ることもできる。 (2)図1(b)に示すように、表形式文書の表構造を
認識し罫線を抽出する。そして、行中の隣接するセルの
それぞれの大きさが一定の閾値より小さく、かつ形状が
相似な場合に該セルを統合して、一つのセルとして文字
認識を行う。上記文字認識をする際、隣接するセルを統
合したのち、隣接したセルを区切る罫線を画像から削除
して、該統合したセルを文字認識したり、また、隣接す
るセルを統合したのち、隣接したセルを個別に文字認識
して、文字認識結果を結合した文字列を得ることもでき
る。 (3)図1(c)に示すように、表形式文書の表構造を
認識し罫線を抽出する。そして、項目領域(例えば図1
中の「金額」)を抽出し、項目領域の文字認識結果が、
予め登録されている文字列に一致する場合に、項目領域
より下の行のセルについて、項目領域の左右の罫線間に
挟まれる複数のセルを行毎に統合して文字認識を行な
う。 以上のように文字認識を行うことにより、表形式文書の
隣接するセルの文字群を一つの意味のある文字列として
取得することができる。
FIG. 1 is a diagram for explaining the outline of the present invention. As shown in FIG. 1, in the present invention,
The above problem is solved as follows. (1) As shown in FIG. 1A, the table structure of a tabular document is recognized and ruled lines are extracted. Then, based on the ruled line extraction result, the ruled line that separates adjacent cells in the row is checked. If the ruled line that separates adjacent cells in the row is a dotted line, the adjacent cells are integrated into one Perform recognition. When performing the above-described character recognition, after integrating adjacent cells, a dotted line that separates adjacent cells is deleted from the image, and the integrated cells are subjected to character recognition. It is also possible to perform character recognition on cells individually and obtain a character string obtained by combining the character recognition results. (2) As shown in FIG. 1B, the table structure of the tabular document is recognized and ruled lines are extracted. Then, when the size of each adjacent cell in the row is smaller than a certain threshold value and the shapes are similar, the cells are integrated and character recognition is performed as one cell. When performing the above-described character recognition, after integrating adjacent cells, a ruled line that separates adjacent cells is deleted from the image, and the integrated cells are subjected to character recognition.Also, after integrating adjacent cells, adjacent cells are integrated. It is also possible to perform character recognition on cells individually and obtain a character string obtained by combining the character recognition results. (3) As shown in FIG. 1C, the table structure of the tabular document is recognized and ruled lines are extracted. Then, the item area (for example, FIG. 1)
"Money" in the item area, and the character recognition result in the item area is
If the character string matches a character string registered in advance, character recognition is performed on cells in a row below the item area by integrating a plurality of cells sandwiched between left and right ruled lines in the item area for each row. By performing the character recognition as described above, it is possible to acquire a character group of an adjacent cell of the tabular document as one meaningful character string.

【0005】[0005]

【発明の実施の形態】図2に本発明の第1の実施例の処
理ブロック図を示す。なお、本発明は、CPU、メモ
リ、外部記憶装置、入出力装置、画像読み取りを行うス
キャナ、記録媒体読み取り装置、通信インタフェース等
を備えた通常の計算機システムにより実現することがで
き、上記外部記憶装置等に本発明の文字認識処理を行う
プログラムが格納され、実行時、上記プログラムがメモ
リに読み込まれ、スキャナ等で読み取った画像につい
て、本発明の文字認識処理による文字認識が行われ、文
字認識結果が上記入出力装置から出力される。
FIG. 2 is a processing block diagram of a first embodiment of the present invention. Note that the present invention can be realized by a normal computer system including a CPU, a memory, an external storage device, an input / output device, a scanner for reading an image, a recording medium reading device, a communication interface, and the like. The program for performing the character recognition process of the present invention is stored in the memory. When the program is executed, the program is read into a memory, and the image read by the scanner or the like is subjected to character recognition by the character recognition process of the present invention. Is output from the input / output device.

【0006】次に図2により本発明の第1の実施例につ
いて説明する。本実施例は例えば、前記図9の領域Aの
ように、文字が縦点線の罫線で区切られている領域の文
字認識に適用される。本実施例においては、図2に示す
ように、まず、表構造認識部11で、入力画像に対して
罫線抽出を行ない、罫線に関する長さ、位置、点線・実
線等の属性、などの情報を取得するとともに表の構造を
認識する。罫線抽出方法としては、例えば特開平9−5
0527号公報記載の公知の方法を用いることができ
る。なお、罫線の抽出、表構造の認識方法は、罫線につ
いては、位置、点線・実線等の属性、表については含ま
れるセル、行などの構造、各セルを構成する罫線の情報
が得られものであれば、その方法は問わない。
Next, a first embodiment of the present invention will be described with reference to FIG. This embodiment is applied, for example, to character recognition in an area in which characters are separated by vertical dotted lines, such as the area A in FIG. In the present embodiment, as shown in FIG. 2, first, the table structure recognizing unit 11 extracts a ruled line from an input image, and extracts information such as the length and position of the ruled line, attributes such as a dotted line and a solid line, and the like. Acquire and recognize the structure of the table. As a ruled line extraction method, for example, Japanese Unexamined Patent Application Publication No. 9-5
A known method described in JP-A-0527 can be used. The method of extracting ruled lines and recognizing the table structure is as follows. For ruled lines, attributes such as position, dotted line, solid line, etc., for tables, included cells, rows, etc., information on ruled lines constituting each cell are obtained. Any method can be used.

【0007】次に、セル統合処理部12で、表形式文書
の中で縦点線で区切られた領域(例えば図9では領域
A)のセル統合処理を行う。セルの統合処理は、後述す
る図4のフローチャートに示すように表のセルのうち、
行毎に処理を行い、隣接するセルを区切る罫線が点線で
あるかを調べ、隣接するセルを区切る縦罫線が点線の場
合にはセルを統合する。この処理を行内の全てのセルに
ついて行いセルを統合する。次いで、区切り点線削除部
13で、隣接するセル間の縦点線を削除し、文字認識部
14で、統合されたセルを一括して文字認識する。これ
により、統合したセル内の文字認識結果を文字列として
取得することができる。なお、文字認識方法としては、
従来から提案されている種々の方法を用いることができ
る。
Next, the cell integration processing unit 12 performs a cell integration process on an area (for example, area A in FIG. 9) separated by a vertical dotted line in the tabular document. As shown in the flowchart of FIG. 4 described later, the cell integration process
Processing is performed for each row, and it is checked whether the ruled line separating adjacent cells is a dotted line. If the vertical ruled line separating adjacent cells is a dotted line, cells are integrated. This process is performed for all cells in a row to integrate the cells. Next, the vertical dotted line between adjacent cells is deleted by the dividing dotted line removing unit 13, and the integrated cells are collectively recognized by the character recognizing unit 14. Thereby, the character recognition result in the integrated cell can be obtained as a character string. In addition, as a character recognition method,
Various methods conventionally proposed can be used.

【0008】図2では、区切り点線削除部13におい
て、隣接するセル間の縦点線を画像上から削除している
が、文字認識結果結合部を設け、セル毎に文字認識を行
った後に、認識した文字列をつなぎ合わせて文字列を取
得してもよい。すなわち、図3に示すように表構造認識
部11で、上記のように罫線に関する長さ、位置、点
線、実線等の属性、などの情報を取得するとともに表の
構造を認識し、セル統合処理部12でセルの統合処理を
行う。ついで、文字認識部14で統合したセルの個々の
セルについて文字認識をし、文字認識結果結合部15
で、統合したセルの個々の文字認識結果の文字をつなぎ
あわせて、統合したセルについての文字列を取得する。
In FIG. 2, the vertical dotted line between adjacent cells is deleted from the image in the separating dotted line deleting unit 13. However, a character recognition result combining unit is provided, and after performing character recognition for each cell, the recognition is performed. The obtained character strings may be joined to obtain a character string. That is, as shown in FIG. 3, the table structure recognizing unit 11 acquires information such as lengths, positions, dotted lines, solid lines, and other attributes related to ruled lines, recognizes the table structure, and performs cell integration processing. The unit 12 performs a cell integration process. Next, character recognition is performed for each of the cells integrated by the character recognition unit 14, and a character recognition result combining unit 15 is performed.
Then, the characters of the individual character recognition results of the integrated cell are joined to obtain a character string for the integrated cell.

【0009】次に図4に示すフローチャートにより本実
施例のセル統合処理について説明する。まず、行中に存
在するセルを左から順にソートする。すなわち、i=1
として(ステップS1)、i≦〔行数〕であるかを調べ
(ステップS2)、i≦〔行数〕でなければ処理を終了
する。またi≦〔行数〕の場合にはi行のセルを左から
順にソートする(ステップS3)。次にセルを順に取り
出し、次のセル(隣接するセル)とを区切る罫線が点線
であるか否かを調べる。すなわち、j=1として(ステ
ップS4)、j<〔i行のセル数〕であるかを調べ(ス
テップS5)、j<〔i行のセル数〕でなければ、i=
i+1として(ステップS6)ステップS2に戻る。ま
た、j<〔i行のセル数〕の場合には、k=j+1とし
て(ステップS7)、k≦〔i行のセル数〕であるかを
調べる(ステップS8)。k≦〔i行のセル数〕でない
場合には、ステップS6に行き、上記のようにi=i+
1として(ステップS6)ステップS2に戻る。
Next, the cell integration processing of the present embodiment will be described with reference to the flowchart shown in FIG. First, cells existing in a row are sorted in order from the left. That is, i = 1
(Step S1), it is checked whether i ≦ [number of lines] (step S2). If i ≦ [number of lines], the process ends. If i ≦ [number of rows], the cells in the i-th row are sorted in order from the left (step S3). Next, the cells are sequentially taken out, and it is checked whether or not the ruled line separating the next cell (adjacent cell) is a dotted line. That is, assuming that j = 1 (step S4), it is checked whether j <[the number of cells in the i-th row] (step S5).
Return to step S2 as i + 1 (step S6). If j <[the number of cells in the i-th row], k = j + 1 (step S7), and it is checked whether k ≦ [the number of cells in the i-th row] (step S8). If k ≦ [the number of cells in the i-th row] is not satisfied, the process proceeds to step S6, where i = i +
As 1 (step S6), the process returns to step S2.

【0010】k≦〔i行のセル数〕の場合には、ステッ
プS9に行き、j番目のセルに統合された最右端のセル
とk番目のセルが隣接し、両者を区切る罫線が縦点線で
あるかを調べる。この条件を満たす場合には、ステップ
S11において、これらのセル(j番目のセルとk番目
のセル)を統合し、k=k+1として(ステップS1
2)、ステップS8に戻る。また、上記条件を満たさな
い場合には、j=kとして(ステップS10)、ステッ
プS5に戻る。以上のようにセルを統合する処理を行内
全てのセルについて繰り返し、行内のセルの統合を全て
の行について繰り返す。
If k.ltoreq. [The number of cells in the i-th row], the process goes to step S9, where the rightmost cell integrated with the j-th cell and the k-th cell are adjacent to each other, and the ruled line that separates them is a vertical dotted line. Find out if If this condition is satisfied, in step S11, these cells (the j-th cell and the k-th cell) are integrated, and k = k + 1 (step S1).
2) Return to step S8. If the above condition is not satisfied, j = k (step S10), and the process returns to step S5. The process of integrating cells as described above is repeated for all cells in a row, and the integration of cells in a row is repeated for all rows.

【0011】次に本発明に第2の実施例について説明す
る。図5に本発明の第2の実施例の処理ブロック図を示
す。本実施例は前記図10の領域Aのように、文字間が
縦罫線で区切られ、文字のサイズが閾値以下の大きさ
で、かつ、文字が相似の形状の領域の文字認識に適用さ
れる。本実施例では、図5に示すように、まず、表構造
認識部21で、入力画像に対して罫線抽出を行ない、罫
線に関する長さ、位置、点線・実線等の属性、などの情
報を取得するとともに表の構造を認識する。罫線抽出方
法としては、前記したように例えば特開平9−5052
7号公報記載の公知の方法を用いることができる。な
お、罫線の抽出、表構造の認識方法は、罫線について
は、位置、点線・実線等の属性、表については含まれる
セル、行などの構造、各セルを構成する罫線の情報が得
られものであれば、第1の実施例と同様、その方法は問
わない。
Next, a second embodiment of the present invention will be described. FIG. 5 shows a processing block diagram of the second embodiment of the present invention. This embodiment is applied to character recognition of an area in which characters are separated by a vertical ruled line, the character size is equal to or smaller than a threshold value, and the characters have similar shapes, as in the area A in FIG. . In the present embodiment, as shown in FIG. 5, first, the table structure recognizing unit 21 extracts a ruled line from an input image and obtains information such as the length and position of the ruled line, attributes such as a dotted line and a solid line, and the like. And recognize the structure of the table. As a ruled line extracting method, as described above, for example, Japanese Patent Laid-Open No. 9-5052
A known method described in Japanese Patent Publication No. 7 can be used. The method of extracting ruled lines and recognizing the table structure is as follows. For ruled lines, attributes such as position, dotted line, solid line, etc., for tables, included cells, rows, etc., information on ruled lines constituting each cell are obtained. Then, as in the first embodiment, the method does not matter.

【0012】次に、セル統合処理部22で、セルの統合
処理を行う。セルの統合処理は、後述する図7のフロー
チャートに示すように、行毎に処理を行う。すなわち、
行毎に、セルを順に取り出し、取り出したセル(セル
1)が閾値以下のサイズの場合、次のセル(セル2)を
取り出し、セル2が閾値以下の大きさで、且つセル1と
相似の形状の場合に両セルを統合する。ここでセルの形
状が同一か否かは、例えば、同一行にあるセルは高さは
同じであることから、横方向の長さを比較して、長さが
一定の差の範囲であれば相似とすることができる。次い
で、区切り罫線削除部23で、隣接するセル間の縦罫線
を削除し、文字認識部24で、統合されたセルを一括し
て文字認識する。これにより、統合したセル内の文字認
識結果を文字列として取得することができる。
Next, the cell integration processing unit 22 performs cell integration processing. The cell integration processing is performed for each row as shown in a flowchart of FIG. 7 described later. That is,
For each row, cells are sequentially taken out, and if the taken out cell (cell 1) is smaller than the threshold, the next cell (cell 2) is taken out, and cell 2 is smaller than the threshold, and is similar to cell 1 In the case of a shape, both cells are integrated. Here, whether or not the cells have the same shape is determined, for example, because the cells in the same row have the same height. Can be similar. Next, a vertical ruled line between adjacent cells is deleted by a dividing ruled line deleting unit 23, and a character recognizing unit 24 collectively recognizes characters of the integrated cells. Thereby, the character recognition result in the integrated cell can be obtained as a character string.

【0013】図5では、区切り罫線削除部23におい
て、隣接するセル間の縦罫線を画像上から削除している
が、前記第1の実施例と同様、文字認識結果結合部を設
け、セル毎に文字認識を行った後に、認識した文字列を
つなぎ合わせて文字列を取得してもよい。すなわち、図
6に示すように表構造認識部21で、上記のように罫線
に関する長さ、位置、点線・実線等の属性、などの情報
を取得するとともに表の構造を認識し、セル統合処理部
22でセルの統合処理を行う。ついで、文字認識部24
で統合したセルの個々のセルについて文字認識をし、文
字認識結果結合部25で、統合したセルの個々の文字認
識結果の文字をつなぎあわせて、統合したセルについて
の文字列を取得する。
In FIG. 5, a vertical ruled line between adjacent cells is deleted from the image in the delimiter ruled line deleter 23. However, as in the first embodiment, a character recognition result combining unit is provided and each cell is deleted. After character recognition is performed, the recognized character strings may be joined to obtain a character string. That is, as shown in FIG. 6, the table structure recognizing unit 21 obtains information such as the length and position of the ruled line, the attributes such as the dotted line and the solid line, and recognizes the table structure as described above. The unit 22 performs cell integration processing. Then, the character recognition unit 24
The character recognition is performed on the individual cells of the integrated cells in step (1), and the character recognition result combining unit 25 connects the characters of the individual character recognition results of the integrated cells to obtain a character string for the integrated cells.

【0014】次に図7に示すフローチャートにより本実
施例のセル統合処理について説明する。まず、行中に存
在するセルを左から順にソートする。すなわち、i=1
として(ステップS1)、i≦〔行数〕であるかを調べ
(ステップS2)、i≦〔行数〕でなければ処理を終了
する。またi≦〔行数〕の場合にはi行のセルを左から
順にソートする(ステップS3)。次にセルを順に取り
出し、次にセルを順に取り出す(セル1)。取り出した
セル1が閾値以下のサイズの場合、次のセル(隣接する
セル:セル2)を取り出し、セル2が閾値以下の大きさ
で、且つセル1と相似の形状の場合に両セルを統合す
る。すなわち、j=1として(ステップS4)、j<
〔i行のセル数〕であるかを調べ(ステップS5)、j
<〔i行のセル数〕でなければ、i=i+1として(ス
テップS6)ステップS2に戻る。また、j<〔i行の
セル数〕の場合には、j番目のセルが閾値以下のサイズ
であるかを調べ(ステップS7)、閾値以下のサイズの
場合には、k=j+1として(ステップS8)、k≦
〔i行のセル数〕であるかを調べる(ステップS9)。
また、k≦〔i行のセル数〕でない場合には、ステップ
S5からステップS6に行き、上記のようにi=i+1
として(ステップS6)ステップS2に戻る。また、ス
テップS7において、j番目のセルが閾値以下のサイズ
である場合には、ステップS10に行き、j=j+1と
してステップS5に戻る。
Next, the cell integration processing of the present embodiment will be described with reference to the flowchart shown in FIG. First, cells existing in a row are sorted in order from the left. That is, i = 1
(Step S1), it is checked whether i ≦ [number of lines] (step S2). If i ≦ [number of lines], the process ends. If i ≦ [number of rows], the cells in the i-th row are sorted in order from the left (step S3). Next, cells are sequentially taken out, and then cells are taken out sequentially (cell 1). When the extracted cell 1 is smaller than the threshold, the next cell (adjacent cell: cell 2) is extracted, and when the cell 2 is smaller than the threshold and has a similar shape to the cell 1, the two cells are integrated. I do. That is, j = 1 (step S4), j <
It is checked whether it is [the number of cells in the i-th row] (step S5), j
If not [the number of cells in the i-th row], i = i + 1 is set (step S6), and the process returns to step S2. If j <[the number of cells in the i-th row], it is checked whether or not the j-th cell has a size equal to or smaller than the threshold (step S7). S8), k ≦
It is checked whether it is [the number of cells in the i-th row] (step S9).
If k ≦ [the number of cells in the i-th row] is not satisfied, the process goes from step S5 to step S6, where i = i + 1 as described above.
(Step S6) and return to Step S2. If the j-th cell has a size equal to or smaller than the threshold value in step S7, the process proceeds to step S10, and returns to step S5 with j = j + 1.

【0015】ステップS9において、k≦〔i行のセル
数〕の場合には、ステップS11に行き、k番目のセル
が閾値以下のサイズでありかつ、j番目の最右端のセル
と隣接し、形状が相似であるかを調べる。この条件を満
たす場合には、ステップS13において、これらのセル
(j番目のセルとk番目のセル)を統合し、k=k+1
として(ステップS14)、ステップS9に戻る。ま
た、上記条件を満たさない場合には、j=kとして(ス
テップS12)、ステップS5に戻る。以上のようにセ
ルを統合する処理を行中のセル全てについて繰り返し、
表の全ての行について処理を行なう。次いで統合したセ
ルを取り出し、個々の文字認識を行う。
In step S9, if k ≦ [the number of cells in the i-th row], the process goes to step S11, where the k-th cell is smaller than the threshold value and is adjacent to the j-th rightmost cell; Check if the shapes are similar. If this condition is satisfied, in step S13, these cells (the j-th cell and the k-th cell) are integrated, and k = k + 1
(Step S14), and returns to Step S9. If the above condition is not satisfied, j = k is set (step S12), and the process returns to step S5. The process of integrating cells as described above is repeated for all cells in a row,
Process all rows in the table. Next, the integrated cells are taken out and individual character recognition is performed.

【0016】次に本発明の第3の実施例について説明す
る。図8に本発明の第3の実施例の処理ブロック図を示
す。本実施例は、例えば前記図9のB1,B2,B3の
領域のように表の先頭行に以下の行のセルの属性をしめ
す文字列が記入された表形式文書の文字認識に適用され
る。本実施例では、図7に示すように、まず表構造認識
部31で入力画像に対して表構造の認識を行い、表のセ
ル情報および罫線の情報を取得する。表構造認識方法と
しては、前記第1、第2の実施例と同様、例えば特開平
9−50527記載の公知の方法を用いることができ
る。なお、罫線の抽出、表構造の認識方法は、罫線につ
いての位置、長さ等の情報、表については含まれるセ
ル、行などの構造、各セルを構成する罫線の情報が得ら
れるものであれば、その方法は問わない。
Next, a third embodiment of the present invention will be described. FIG. 8 shows a processing block diagram of the third embodiment of the present invention. This embodiment is applied to character recognition of a tabular document in which a character string indicating the attribute of a cell in the following row is written in the first row of the table, for example, in the areas B1, B2, and B3 in FIG. . In this embodiment, as shown in FIG. 7, the table structure recognition unit 31 first recognizes the table structure of the input image, and acquires cell information and ruled line information of the table. As the table structure recognition method, for example, a known method described in JP-A-9-50527 can be used as in the first and second embodiments. The method of extracting ruled lines and recognizing the table structure is such that information such as the position and length of the ruled lines, the structure of the cells and rows included in the table, and the information of the ruled lines constituting each cell can be obtained. Any method can be used.

【0017】次に、項目領域抽出部32で表の項目領域
を抽出する。ここで項目領域とは例えば図9中のB1,
B2,B3の領域のように、表の先頭行にあるセルで、
表の2行目以下のセルの属性を示す文字列が記入された
セルである。例えば、図9では、領域B3の「金額」と
いう文字列がその下に続くセルが金額を意味する数字が
記入されていることを示している。なお、項目領域は表
の先頭行のセルには限らず、あらかじめ設定されている
条件により抽出されるセルで、その他の関係あるセルの
グループの属性を示す文字列が記入されたセルであれば
よい。次に、項目領域文字認識部33で、抽出した項目
領域の文字認識を行ない、項目領域文字認識結果照合部
34で予め登録されている文字列との照合を行なう。例
えば、図9の場合、項目領域の「金額」という文字が認
識された場合には、この文字と予め登録されている文字
列とを照合する。
Next, an item area of the table is extracted by the item area extracting unit 32. Here, the item area is, for example, B1,
Cells in the first row of the table, like the areas B2 and B3,
This is a cell in which a character string indicating the attribute of the cell in the second and lower rows of the table is written. For example, in FIG. 9, a cell following the character string “money” in the area B3 indicates that a number meaning the money is entered. Note that the item area is not limited to the cell in the first row of the table, but may be any cell that is extracted according to preset conditions and is a cell in which a character string indicating the attribute of another related cell group is entered. Good. Next, the item region character recognition unit 33 performs character recognition of the extracted item region, and the item region character recognition result comparison unit 34 performs comparison with a character string registered in advance. For example, in the case of FIG. 9, when the character "money" in the item area is recognized, the character is collated with a character string registered in advance.

【0018】照合結果が一致する場合には、セル統合部
35で、項目領域より下の行で、項目領域の左右の縦罫
線に挟まれた複数のセルを統合する。これにより、図9
においては、「金額」の項目の下の行の例えば数字列”
1”,”2”,…,”6”が統合され”123456”
となる。上記のようにセルが統合されると、文字認識部
36で統合したセルの文字認識を行なう。この文字認識
では、前記図2、図4に示したように統合したセルの個
々のセルを区切る縦線を画像上から削除して、統合した
セルを一括して文字認識すれば、統合したセル内の文字
認識結果を文字列として取得できる。また、前記図3、
図5に示したように統合したセルを個々のセル毎に文字
認識して、文字認識結果を結合して文字列を取得するこ
ともできる。なお、上記第1〜第3の実施例に示した文
字認識方法は、文字認識の対象となる表形式文書に対し
て単独で使用してもよいし、また、第1〜第3の実施例
に示した文字認識方法を組み合わせて使用してもよい。
If the collation results match, the cell integrating unit 35 integrates a plurality of cells sandwiched between the left and right vertical ruled lines of the item area in a row below the item area. As a result, FIG.
In the line below the item "Amount", for example, a numeric string "
1 ”,“ 2 ”,...,“ 6 ”are integrated and“ 123456 ”
Becomes When the cells are integrated as described above, the character recognition unit 36 performs character recognition of the integrated cells. In this character recognition, as shown in FIGS. 2 and 4, the vertical lines separating the individual cells of the integrated cells are deleted from the image, and the integrated cells are collectively subjected to character recognition. The character recognition result in can be obtained as a character string. In addition, FIG.
As shown in FIG. 5, the integrated cells can be subjected to character recognition for each cell, and the character recognition results can be combined to obtain a character string. Note that the character recognition methods shown in the first to third embodiments may be used alone for a tabular document to be subjected to character recognition, or may be used in the first to third embodiments. May be used in combination.

【0019】[0019]

【発明の効果】以上説明したように本発明によれば、
同一行に存在する点線で区切られたセルの個々の文字を
自動的に意味のある文字列として取得したり、同一行
に存在する閾値より小さいセルで相似な形状の隣接する
セルの個々の文字を自動的に意味のある文字列として取
得したり、項目領域の文字列が予め登録された文字列
と一致する場合に、項目領域の下の行にある複数のセル
の文字を行毎に自動的に意味のある文字列として取得す
ることができる。このため、文字認識結果を例えば表計
算ソフトウェアで使用する場合等において、複数セルを
統合する処理を行う必要がなく、文字認識結果をより利
便性の高いものとすることができる。
As described above, according to the present invention,
Individual characters in cells separated by a dotted line in the same row are automatically obtained as a meaningful character string, or individual characters in adjacent cells in the same row that are smaller than the threshold and have similar shapes Is automatically obtained as a meaningful character string, or when the character string in the item area matches the character string registered in advance, the characters of a plurality of cells in the row below the item area are automatically It can be obtained as a meaningful character string. Therefore, for example, when the character recognition result is used by spreadsheet software, it is not necessary to perform a process of integrating a plurality of cells, and the character recognition result can be made more convenient.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の概要を説明する図である。FIG. 1 is a diagram illustrating an outline of the present invention.

【図2】本発明の第1の実施例を示す処理ブロック図で
ある。
FIG. 2 is a processing block diagram showing a first embodiment of the present invention.

【図3】第1の実施例の文字列認識方法を、統合したセ
ルの個々のセルを個別に文字認識して認識した文字を結
合する方法に置き換えた場合の処理ブロック図である。
FIG. 3 is a processing block diagram in a case where the character string recognition method of the first embodiment is replaced with a method of individually recognizing individual cells of integrated cells and combining the recognized characters.

【図4】本発明の第1の実施例のセル統合処理のフロー
チャートである。
FIG. 4 is a flowchart of a cell integration process according to the first embodiment of the present invention.

【図5】本発明の第2の実施例を示す処理ブロック図で
ある。
FIG. 5 is a processing block diagram showing a second embodiment of the present invention.

【図6】第2の実施例の文字認識方法を、統合したセル
の個々のセルを個別に文字認識して、認識した文字を結
合する方法に置き換えた場合の処理ブロック図である。
FIG. 6 is a processing block diagram in the case where the character recognition method of the second embodiment is replaced with a method of individually character-recognizing individual cells of integrated cells and combining the recognized characters.

【図7】本発明の第2の実施例のセル統合処理のフロー
チャートである。
FIG. 7 is a flowchart of a cell integration process according to a second embodiment of the present invention.

【図8】本発明の第3の実施例を示す処理ブロック図で
ある。
FIG. 8 is a processing block diagram showing a third embodiment of the present invention.

【図9】本発明が認識する対象とする表形式文書の一例
を示す図(1)である。
FIG. 9 is a diagram (1) illustrating an example of a tabular document to be recognized by the present invention;

【図10】本発明が認識する対象とする表形式文書の一
例を示す図(2)である。
FIG. 10 is a diagram (2) illustrating an example of a tabular document to be recognized by the present invention;

【符号の説明】[Explanation of symbols]

11,21,31 表構造認識部 12,22 セル統合処理部 13 区切り点線削除部 14,24,36 文字認識部 15,25 文字認識結果結合部 23 区切り罫線削除部 32 項目領域抽出部 33 項目領域文字認識部 34 項目領域文字認識結果照合部 35 セル統合部 11, 21, 31 Table structure recognition unit 12, 22 Cell integration processing unit 13 Separation dotted line deletion unit 14, 24, 36 Character recognition unit 15, 25 Character recognition result combining unit 23 Separator ruled line deletion unit 32 Item area extraction unit 33 Item area Character recognition unit 34 Item area character recognition result collation unit 35 Cell integration unit

───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B029 AA01 BB02 CC18 CC27 CC30 EE12 5B064 AA01 AB09 AB13 BA01 CA08 ──────────────────────────────────────────────────続 き Continued on the front page F-term (reference) 5B029 AA01 BB02 CC18 CC27 CC30 EE12 5B064 AA01 AB09 AB13 BA01 CA08

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識方法であって、 上記表形式文書の行中の隣接するセルを区切る罫線が点
線の場合に、該隣接するセルを統合して一つのセルとし
て文字認識することを特徴とする文字認識方法。
1. A character recognition method for performing character recognition on cells in a tabular document separated by ruled lines, wherein a ruled line separating adjacent cells in a row of the tabular document is a dotted line. A character recognition method, comprising: integrating adjacent cells to perform character recognition as one cell.
【請求項2】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識方法であって、 上記表形式文書の行中の隣接するセルの大きさが一定の
閾値より小さく、かつ、形状が相以な場合に該セルを統
合して一つのセルとして文字認識することを特徴とする
文字認識方法。
2. A character recognition method for performing character recognition on cells in a tabular document separated by ruled lines, wherein a size of an adjacent cell in a row of the tabular document is smaller than a certain threshold value. And a character recognition method wherein, when shapes are similar, the cells are integrated to perform character recognition as one cell.
【請求項3】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識方法であって、 上記表形式文書の表構造の認識を行い、表構造認識結果
から表の項目領域を抽出し、 上記項目領域の文字認識結果が、予め登録されている文
字列に一致する場合に、項目領域より下の行について、
項目領域の左右の罫線間に挟まれる複数のセルを行毎に
統合して一つのセルとして文字認識することを特徴とす
る文字認識方法。
3. A character recognition method for performing character recognition on cells in a table format document delimited by ruled lines, comprising recognizing the table structure of the table format document, and retrieving table items from the table structure recognition result. Extract the area, and if the character recognition result of the item area matches a pre-registered character string, for the line below the item area,
A character recognition method characterized in that a plurality of cells sandwiched between left and right ruled lines of an item area are integrated for each row and character recognition is performed as one cell.
【請求項4】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識プログラムであっ
て、 上記文字認識プログラムは、上記表形式文書の行中の隣
接するセルを区切る罫線が点線の場合に、該隣接するセ
ル群を一つのセルとして文字認識する処理をコンピュー
タに実行させることを特徴とする文字認識プログラム。
4. A character recognition program for performing character recognition on cells in a table format document delimited by ruled lines, the character recognition program comprising: a ruled line separating adjacent cells in a row of the table format document. A character recognition program for causing a computer to execute a process of character recognition of the adjacent cell group as one cell when is a dotted line.
【請求項5】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識プログラムであって
上記文字認識プログラムは、上記表形式文書の行中の隣
接するセルの大きさが一定の閾値より小さく、かつ、形
状が相以な場合に該セルを統合して一つのセルとして文
字認識する処理をコンピュータに実行させることを特徴
とする文字認識プログラム。
5. A character recognition program for performing character recognition on cells in a table-format document delimited by ruled lines, wherein the character recognition program determines the size of an adjacent cell in a row of the table-format document. A character recognition program for causing a computer to execute a process of integrating characters and recognizing characters as one cell when the shapes are smaller than a certain threshold value and the shapes are similar.
【請求項6】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識プログラムであっ
て、 上記文字認識プログラムは、上記表形式文書の表構造の
認識を行い、表構造認識結果から表の項目領域を抽出
し、 上記項目領域の文字認識結果が、予め登録されている文
字列に一致する場合に、項目領域より下の行について、
項目領域の左右の罫線間に挟まれる複数のセルを行毎に
統合して一つのセルとして文字認識する処理をコンピュ
ータに実行させることを特徴とする文字認識プログラ
ム。
6. A character recognition program for performing character recognition on cells in a table format document delimited by ruled lines, wherein the character recognition program recognizes a table structure of the table format document, and Extracting the item area of the table from the recognition result, and if the character recognition result of the item area matches a pre-registered character string, for a row below the item area,
A character recognition program for causing a computer to execute a process of integrating a plurality of cells sandwiched between left and right ruled lines of an item area for each row and performing character recognition as one cell.
【請求項7】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識プログラムを記録し
た記録媒体であって、 上記文字認識プログラムは、上記表形式文書の行中の隣
接するセルを区切る罫線が点線の場合に、該隣接するセ
ル群を一つのセルとして文字認識することを特徴とする
文字認識プログラムを記録した記録媒体。
7. A recording medium storing a character recognition program for performing character recognition on cells in a table format document delimited by ruled lines, wherein the character recognition program includes an adjacent line in a row of the table format document. A character recognition program for recognizing a character as a single cell when the ruled line that separates a cell is a dotted line.
【請求項8】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識プログラムを記録し
た記録媒体であって、 上記文字認識プログラムは、上記表形式文書の行中の隣
接するセルの大きさが一定の閾値より小さく、かつ、形
状が相以な場合に該セルを統合して一つのセルとして文
字認識することを特徴とする文字認識プログラムを記録
した記録媒体。
8. A recording medium for recording a character recognition program for performing character recognition on cells in a table format document delimited by ruled lines, wherein the character recognition program includes an adjacent line in a row of the table format document. A recording medium storing a character recognition program characterized in that, when the size of a cell to be processed is smaller than a predetermined threshold value and the shapes are similar, the cells are integrated and the character is recognized as one cell.
【請求項9】 罫線により区切られた表形式文書中のセ
ルに対して文字認識を行う文字認識プログラムを記録し
た記録媒体であって、 上記文字認識プログラムは、上記表形式文書の表構造の
認識を行い、表構造認識結果から表の項目領域を抽出
し、 上記項目領域の文字認識結果が、予め登録されている文
字列に一致する場合に、項目領域より下の行について、
項目領域の左右の罫線間に挟まれる複数のセルを行毎に
統合して一つのセルとして文字認識することを特徴とす
る文字認識プログラムを記録した記録媒体。
9. A recording medium recording a character recognition program for performing character recognition on cells in a table format document delimited by ruled lines, wherein the character recognition program recognizes a table structure of the table format document. Is performed, and an item area of the table is extracted from the table structure recognition result. If the character recognition result of the item area matches a character string registered in advance, for a row below the item area,
A recording medium on which a character recognition program is recorded, wherein a plurality of cells sandwiched between ruled lines on the left and right of an item area are integrated for each row to perform character recognition as one cell.
JP2001064972A 2000-03-13 2001-03-08 Method for recognizing character Pending JP2001331764A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001064972A JP2001331764A (en) 2000-03-13 2001-03-08 Method for recognizing character

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000068258 2000-03-13
JP2000-68258 2000-03-13
JP2001064972A JP2001331764A (en) 2000-03-13 2001-03-08 Method for recognizing character

Publications (1)

Publication Number Publication Date
JP2001331764A true JP2001331764A (en) 2001-11-30

Family

ID=26587285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001064972A Pending JP2001331764A (en) 2000-03-13 2001-03-08 Method for recognizing character

Country Status (1)

Country Link
JP (1) JP2001331764A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267408A (en) * 2004-03-19 2005-09-29 Canon Inc Business form recognition apparatus, its control method, and program
JP2010097263A (en) * 2008-10-14 2010-04-30 Keyence Corp Database creation device, database creation method, and computer program
JP2011150466A (en) * 2010-01-20 2011-08-04 Fujitsu Ltd Device, program and method for recognizing character string
JP2012141670A (en) * 2010-12-28 2012-07-26 Fujitsu Frontech Ltd Apparatus, method and program for recognizing form
JP2012190434A (en) * 2011-02-24 2012-10-04 Ricoh Co Ltd Form defining device, form defining method, program and recording medium
JP2015219620A (en) * 2014-05-15 2015-12-07 富士ゼロックス株式会社 Information processor and information processing program
CN112528703A (en) * 2019-09-17 2021-03-19 珠海金山办公软件有限公司 Method and device for identifying table structure and electronic equipment

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267408A (en) * 2004-03-19 2005-09-29 Canon Inc Business form recognition apparatus, its control method, and program
JP2010097263A (en) * 2008-10-14 2010-04-30 Keyence Corp Database creation device, database creation method, and computer program
JP2011150466A (en) * 2010-01-20 2011-08-04 Fujitsu Ltd Device, program and method for recognizing character string
JP2012141670A (en) * 2010-12-28 2012-07-26 Fujitsu Frontech Ltd Apparatus, method and program for recognizing form
JP2012190434A (en) * 2011-02-24 2012-10-04 Ricoh Co Ltd Form defining device, form defining method, program and recording medium
JP2015219620A (en) * 2014-05-15 2015-12-07 富士ゼロックス株式会社 Information processor and information processing program
CN112528703A (en) * 2019-09-17 2021-03-19 珠海金山办公软件有限公司 Method and device for identifying table structure and electronic equipment
CN112528703B (en) * 2019-09-17 2023-11-03 珠海金山办公软件有限公司 Method and device for identifying table structure and electronic equipment

Similar Documents

Publication Publication Date Title
US6169999B1 (en) Dictionary and index creating system and document retrieval system
US7797622B2 (en) Versatile page number detector
US9224041B2 (en) Table of contents extraction based on textual similarity and formal aspects
US7046847B2 (en) Document processing method, system and medium
KR102373884B1 (en) Image data processing method for searching images by text
JP4991407B2 (en) Information processing apparatus, control program thereof, computer-readable recording medium storing the control program, and control method
JPH0314184A (en) Document image rearrangement filing device
JP2001331764A (en) Method for recognizing character
CN111291535A (en) Script processing method and device, electronic equipment and computer readable storage medium
JPH08320914A (en) Table recognition method and device
CN110765767A (en) Extraction method, device, server and storage medium of local optimization keywords
JP3904397B2 (en) Table recognition method
JP3081093B2 (en) Index creation method and apparatus and document search apparatus
WO1999041681A1 (en) Document image structure analyzing method
JP3870672B2 (en) Document filing device
JPH024033B2 (en)
JP4255766B2 (en) Image processing system and image processing apparatus
JPS6154569A (en) Document poicture processing system
JP2000200323A (en) Online handwriting kanji recognizing device
JP2985243B2 (en) Character recognition method
JP2002056357A (en) Character recognizing device, its method, and recording medium
JP3897409B2 (en) Information processing apparatus and method, and storage medium storing program
JPH03268065A (en) Article extracting system
JP2931485B2 (en) Character extraction device and method
JP2969751B2 (en) Character recognition processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206