JP7417116B2 - Information processing system, information processing method, program - Google Patents
Information processing system, information processing method, program Download PDFInfo
- Publication number
- JP7417116B2 JP7417116B2 JP2021090955A JP2021090955A JP7417116B2 JP 7417116 B2 JP7417116 B2 JP 7417116B2 JP 2021090955 A JP2021090955 A JP 2021090955A JP 2021090955 A JP2021090955 A JP 2021090955A JP 7417116 B2 JP7417116 B2 JP 7417116B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- specifying
- information processing
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 16
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000012545 processing Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 28
- 238000010586 diagram Methods 0.000 description 21
- 238000001514 detection method Methods 0.000 description 18
- 238000012015 optical character recognition Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000013145 classification model Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000032823 cell division Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
本発明は、情報処理システム、情報処理方法、プログラムに関する。 The present invention relates to an information processing system, an information processing method, and a program.
印刷された帳票から情報を読み取ってシステムに入力する業務を補助するものとしてOCR(光学文字認識)が存在する。OCRでは文字を認識する前に、帳票内に文字が印刷された領域を検出する文字検出という処理が存在する。 OCR (optical character recognition) exists as a tool that assists in the task of reading information from printed forms and inputting it into a system. In OCR, before recognizing characters, there is a process called character detection that detects areas in which characters are printed within a form.
OCRで読み取り対象とされる文書は刊行物、ビジネス文書など多岐にわたり、用途によってOCRに対する要求にも差がある。この中でも、帳票をOCRする際の文字検出においては、「短い文字列でも見落とさないこと」、「文字間隔が開いた見出しを1つの文字列として認識できること」、「互いに無関係な文字列同士が結合されないこと」といった点が要求される。 There are a wide variety of documents that can be read by OCR, such as publications and business documents, and the requirements for OCR differ depending on the purpose. Among these, when detecting characters when performing OCR on documents, it is important to ensure that even short character strings are not overlooked, that headings with wide spacing between characters can be recognized as one character string, and that unrelated character strings are combined. It is required that such things be avoided.
非特許文献1において、雑誌や新聞、論文などの段組みの文章に対するOCR技術について記載されている。 Non-Patent Document 1 describes an OCR technique for text in columns such as magazines, newspapers, and papers.
これに対して、請求書や領収書といった帳票は、段組みの文章として扱いOCR処理を実行してしまうと、互いに関係ない近接文字列同士を1つの段落として結合してしまうという課題が生じてしまう。 On the other hand, if documents such as invoices and receipts are treated as text in columns and OCR processing is performed, a problem arises in that adjacent character strings that are unrelated to each other are combined into one paragraph. Put it away.
非特許文献1以外でも、機械学習による物体検出手法を応用した文字検出手法が提案されているが、物体検出ベースの手法は帳票中の見出しや値のような単一行の短い文字列(ただし帳票内では重要な意味を持つ文字列)を見逃す傾向があり、前述の帳票OCRに対する要求を満たさない。 In addition to Non-Patent Document 1, character detection methods that apply object detection methods using machine learning have been proposed, but object detection-based methods are There is a tendency for character strings with important meanings to be overlooked (character strings with important meanings), and the above-mentioned requirements for form OCR are not met.
そこで本発明は、より適切な文字認識結果が得られる技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique that can obtain more appropriate character recognition results.
本発明の情報処理システムは、文字認識の対象の画像から、連続して存在する画素を取得する連続画素取得手段と、前記連続画素取得手段により取得された画素に基づき、文字領域を推定する推定手段と、前記推定手段により推定された文字領域の単位で文字認識処理を実行する文字認識手段と、を備えることを特徴とする。 The information processing system of the present invention includes a continuous pixel acquisition unit that acquires consecutive pixels from an image that is a target of character recognition, and an estimation that estimates a character area based on the pixels acquired by the continuous pixel acquisition unit. and a character recognition means that executes character recognition processing in units of character areas estimated by the estimation means.
本発明によれば、より適切な文字認識結果を得ることが可能となる。 According to the present invention, it is possible to obtain more appropriate character recognition results.
以下、図面を参照して、本発明の実施形態を詳細に説明する。 Embodiments of the present invention will be described in detail below with reference to the drawings.
図1は、本発明の実施形態における文字認識システムのシステム構成の一例を示す図である。 FIG. 1 is a diagram showing an example of the system configuration of a character recognition system according to an embodiment of the present invention.
文字認識の主要な処理を行うためのクライアントPC101および、帳票をスキャンして画像ファイル化するスキャナ102が通信経路100を介して接続される構成となっている。
A client PC 101 for performing main processing of character recognition and a scanner 102 for scanning a form and converting it into an image file are connected via a
通信経路100はスキャナ102の有する物理インターフェースに応じて、有線LAN,無線LAN,USBなどの形態をとることができる。
The
通信経路100上にはファイルサーバー103を置いてもよい。スキャナ102でスキャンした画像をクライアントPC101に取り込む方法として、スキャナ102からクライアントPC101に直接画像を送信する方法、スキャナ102で取り込んだ画像ファイルをいったんファイルサーバー103に保管し、クライアントPC101がファイルサーバー103から画像ファイルを取り出す方法などがあるが、いずれの方法であっても良い。
A file server 103 may be placed on the
図2は、本発明のクライアントPC101、スキャナ102、ファイルサーバー103に適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。 FIG. 2 is a block diagram showing an example of the hardware configuration of an information processing apparatus applicable to the client PC 101, scanner 102, and file server 103 of the present invention.
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
As shown in FIG. 2, the information processing device includes a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, a
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
The
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
The
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
The
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
The input controller 205 controls input from input devices such as a
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。 Further, the touch panel may be a touch panel capable of detecting positions touched by multiple fingers, such as a multi-touch screen.
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
Note that the
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
The communication I/
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
Note that the
図3は、クライアントPC101の機能構成の一例を示す図である。 FIG. 3 is a diagram showing an example of the functional configuration of the client PC 101.
入力受付部251は、スキャナ102やファイルサーバー103を介して画像の入力を受け付ける。
The
画像前処理部252は、入力受付部251で受け付けた入力画像のノイズ除去や二値化処理を行う。
The
連続画素検出部253は、画像前処理部252による処理で得られた二値化画像の中から連続した画素(隣り合った画素)を検出し、画像片として切り出す。なお、完全に隣り合っておらず、数画素離れている程度で、かすれに起因するものであると判断できる部分は同一の画像片として切り出してもよい。すなわち、連続画素検出部253は、ひと続き(一連)の繋がった線であると判定(評価)される部分を1つの画像片として切り出す。
The continuous
画像片分類部254は、連続画素検出部253により切り出された画像片が、文字由来のものかそれ以外のものかを判定し分類する機能を持つ。分類の際には、分類モデル255に格納されたパラメータを用いる。
The image
文字領域推定部256は、画像片分類部254によって文字由来と分類された画像片の領域情報から、帳票上の文字列の塊の領域を推定する。
The character
セル分割部257は、帳票上の表やセルの座標情報が与えられている場合に、セルの座標情報を用いて文字列領域を分割する。
The
活字手書き判定部260は、文字領域内に書かれている文字が活字(第1種別の文字)であるか手書き文字(第2種別の文字)であるかを分類(特定)する機能を持つ。分類の際には、分類モデル261に格納されたパラメータを用いる。
The printed and handwritten
文字認識部258は、文字領域推定部256により推定された各文字領域に対して、OCR処理(文字認識処理)を行い、当該領域に書かれた文字を認識する。
The
結果出力部259は、検出された文字領域とそこに書かれた文字をセットにしてファイルとして出力する。
The
図4は、画像前処理部252による処理の一例を示す図である。
FIG. 4 is a diagram showing an example of processing by the
入力画像401は、スキャナ102などを通して取り込まれた画像である。
An
画像前処理部252は入力画像401を二値化、白黒反転したのち、ノイズ除去の処理を行い、前処理画像402を生成する。
The
図5は、連続画素検出部253の検出結果の一例を示す図である。
FIG. 5 is a diagram showing an example of the detection results of the continuous
連続画素検出部253は、前処理画像402から、白い画素が連続した領域を検出し、画像片として切り出す。画像片は文字の偏、旁、ロゴ、罫線、印鑑の断片などからなる。後述の分類器の精度向上のため、画像片は連続画素の周辺領域をある程度含めて切り出すようにする。
The continuous
画像片501-506は連続画素検出部253によって切り出された画像片の例である。
図6は、画像片分類部254による処理結果の一例を示す図である。
FIG. 6 is a diagram illustrating an example of a processing result by the image
画像片501-506はその由来が文字であるか否かによって、文字と非文字に分類される。図6の例では、501、502、505が文字に分類され、503、504、506が非文字に分類されている。非文字として分類されたものは、ロゴや印鑑や罫線などである。 Image pieces 501-506 are classified into text and non-text depending on whether or not their origin is text. In the example of FIG. 6, 501, 502, and 505 are classified as characters, and 503, 504, and 506 are classified as non-characters. Items classified as non-text include logos, seals, and ruled lines.
文字、非文字の分類の手がかりとしては、分類モデル255が使われる。分類モデル255は機械学習によって文字、非文字の特徴を記憶した学習モデルである。機械学習による画像の分類モデルとしてはVGG、ResNet等が知られている。
A
図7は、文字領域推定部256の処理の流れを示すフローチャートである。
FIG. 7 is a flowchart showing the process flow of the character
ステップS701では、文字領域の推定に使用するワーク画像801を生成する。ワーク画像801は前処理画像402と同サイズで画像全体が黒で塗りつぶされている画像である。
In step S701, a
ステップS702-S705では連続画素検出部253によって検出され、画像片分類部254によって分類された各画像片に対して処理を行う。
In steps S702 to S705, each image piece detected by the continuous
ステップS703では、処理対象の画像片が文字として分類されているかどうかを参照し、文字と分類されていた場合は、処理をステップS704に移行する。 In step S703, it is checked whether the image piece to be processed is classified as a character. If it is classified as a character, the process moves to step S704.
文字として分類されていない場合は、次の画像片に対する処理に移行する。 If it is not classified as a character, the processing moves on to the next image fragment.
ステップS704では、ワーク画像801に、処理対象の画像片が検出された領域を描画する。
In step S704, an area where an image piece to be processed is detected is drawn on the
図8は、ステップS704で描画された画像片が検出された領域(矩形で示した領域)の一例である。前処理画像402から検出された連続画素のうち文字と分類されたもののバウンディングボックス(矩形領域)をワーク画像801上に白い領域(矩形)として描画している。描画された矩形の集合は矩形群802となる。ここでは文字以外の要素(下線、罫線など)に対応する矩形は描画されず、これにより帳票内から文字が書かれた領域だけを抽出するという目的を実現する。
FIG. 8 is an example of an area (area indicated by a rectangle) in which the image piece drawn in step S704 is detected. Bounding boxes (rectangular areas) of continuous pixels detected from the preprocessed
ステップS706では、ステップS704で描画されたそれぞれの矩形の領域を拡張する。具体的には、ワーク画像801内の白い画素領域を拡張し矩形間の隙間を埋めて結合することにより、編や旁などに分割された文字内の要素を文字列のレベルまでまとめていく。
In step S706, each rectangular area drawn in step S704 is expanded. Specifically, by expanding the white pixel area in the
矩形領域を拡張について、具体的には、例えば、あらかじめ決まった画素数分だけ各矩形を広げるという方法や、矩形のサイズに応じた割合(20%など)で広げるといった方法がある。どちらの場合も、上下の行の文字列と結合されてしまうことを低減させるため、主に横方向に広げ、縦方向には少しだけ広げるのが望ましい。 Specifically, for expanding a rectangular area, for example, there is a method of expanding each rectangle by a predetermined number of pixels, or a method of expanding each rectangle by a proportion (such as 20%) depending on the size of the rectangle. In either case, in order to reduce the possibility of being combined with character strings in the upper and lower rows, it is desirable to spread it mainly in the horizontal direction and only slightly in the vertical direction.
ステップS707では、拡張された矩形群に対して再度連続画素のまとまりを抽出する。 In step S707, a group of continuous pixels is extracted again from the expanded rectangular group.
ステップS708では、ステップS707で抽出したまとまりを内包するバウンディングボックスでワーク画像801を塗りつぶす。
In step S708, the
ステップS709では、ワーク画像内の孤立した矩形を連結する。 In step S709, isolated rectangles in the workpiece image are connected.
ステップS710では、ステップS709で連結した矩形を内包するバウンディングボックスでワーク画像801を塗りつぶす。
In step S710, the
以上のように、文字の部品単位や文字単位で検出された領域を拡張し結合していくことで、文字列単位の領域を特定することが可能となる。 As described above, by expanding and combining areas detected in character parts or character units, it is possible to specify areas in character string units.
図9は、ステップS706、S707、S708によって文字のまとまりを推定する処理の一例を示す図である。 FIG. 9 is a diagram illustrating an example of a process for estimating a group of characters in steps S706, S707, and S708.
矩形で示した各領域を拡張することにより領域群901が得られ、領域群901内の各領域のバウンディングボックスを塗りつぶすことで文字列候補群902を得る。
A
ステップS709、S710では、ワーク画像801中の孤立した矩形を他の矩形に連結して1つの文字列としてまとめる。
In steps S709 and S710, isolated rectangles in the
帳票中の見出しの中には文字間が大きく開いたものがあり、そうした見出しの中にはステップS706では結合できずに見出し中の1文字が孤立してしまう場合が多い。ここではそうした孤立文字同士を連結して本来の文字列のまとまりに統合することが可能となる。 Some headings in a form have large spaces between characters, and in many cases such headings cannot be combined in step S706, resulting in one character in the heading becoming isolated. Here, it is possible to concatenate such isolated characters and integrate them into the original string.
図10は、ステップS709、S710による孤立文字の結合処理の一例を示す図である。ここで、ワーク画像801には、孤立した文字列候補1010、1011、1012が存在しているものとする。これらは図4の入力画像401上では本来「納品書01」という1つの文字列を形成しているものである。
FIG. 10 is a diagram showing an example of the process of combining isolated characters in steps S709 and S710. Here, it is assumed that isolated
ステップS709では、各文字列候補領域に対して、矩形のアスペクト比が所定の閾値よりも1に近い(すなわち、1文字だけ孤立していると推定される)、水平方向の一定以内の距離に同じ高さの文字列候補領域が存在している、という2つの条件を満たす領域を直線で結び、連続画素となるよう加工する。矩形のアスペクト比が所定の閾値よりも1に近いとは、具体的には例えば以下のような条件のいずれかとなる。
・Th1>(矩形の横サイズ/縦サイズ)>Th2(Th1>1、Th2<1)という条件。
・(矩形の長辺サイズ/短辺サイズ)<Th3(>1)という条件。
・(矩形の短辺サイズ/長辺サイズ)>Th4(<1)という条件。
In step S709, for each character string candidate region, the aspect ratio of the rectangle is closer to 1 than a predetermined threshold (that is, it is estimated that only one character is isolated), and the rectangle is within a certain distance in the horizontal direction. Areas that satisfy the two conditions that character string candidate areas of the same height exist are connected with a straight line and processed to form continuous pixels. Specifically, the aspect ratio of the rectangle is closer to 1 than the predetermined threshold value, for example, under any of the following conditions.
- Condition: Th1>(horizontal size/vertical size of rectangle)>Th2 (Th1>1, Th2<1).
・(Long side size of rectangle/short side size) <Th3 (>1) condition.
・(Short side size of rectangle/long side size)> Th4 (<1) condition.
図10では、文字候補矩形1010から同1011、同1011から1010、同1011から同1012の組み合わせが上記の条件に該当する。これらの文字候補矩形を直線で連結すると連続画素領域1013が得られる。文字候補矩形1010と1011の一つ下にある2行目先頭の矩形は、アスペクト比が所定の閾値よりも1に近いという条件は満たすが、水平方向に一定以内の距離に同じ高さの文字列候補が存在するという条件を満たさないため、非連結対象となっている。
In FIG. 10, the combinations of
ステップS710では、この状態のワーク画像801に対してステップS708と同様に連続画素領域のバウンディングボックスを抽出して塗りつぶす。これにより文字列領域群1001が得られる。
In step S710, a bounding box of a continuous pixel area is extracted and filled in for the
ステップS711では、ステップS710で抽出されたバウンディングボックスに対応する位置にある文字列画像を入力画像から取得する。 In step S711, a character string image located at a position corresponding to the bounding box extracted in step S710 is acquired from the input image.
図11は、文字検出処理の出力結果の一例を示す図である。 FIG. 11 is a diagram showing an example of the output result of the character detection process.
この例は入力画像401に対して文字列領域群1001を当てはめたものである。入力画像401からバウンディングボックスに対応する領域をそれぞれ切り出すことで、文字列画像1101-1106を取得する。
In this example, a character
ステップS712では、ステップS711で取得された文字列画像に係る文字が活字(第1種別の文字)であるか手書き文字(第2種別の文字)であるかを分類する。分類にあたっては、活字手書き分類モデル261に格納されたパラメータを用いて行う。活字手書き分類モデル261としては、活字と手書き文字とを学習(機械学習)させることで生成された学習済みモデルが好適な例である。すなわち、ステップS712では、ステップS711で取得された文字列画像のそれぞれについて、手書きと活字のいずれであるかを判定する。あるいは、活字であるか否かまたは手書きであるか否かを判定する。そして判定結果に基づいて分類を行う。
In step S712, it is classified whether the characters related to the character string image acquired in step S711 are printed characters (characters of the first type) or handwritten characters (characters of the second type). The classification is performed using parameters stored in the printed and
図14は、活字手書き分類部260が文字列画像を活字と手書き文字とに分類した様子を示す図である。
FIG. 14 is a diagram showing how the printed and handwritten
文字列画像1401-1406のうち、1402、1403、1404が活字に分類され、1401、1405、1406が手書きに分類されている様子を示している。
Among character string images 1401-1406,
そして、文字認識部258によって、分類された各文字列画像に対して文字認識処理を行う。文字認識処理においては、ステップS712の分類結果に応じて、活字と分類された文字列については活字に適した文字認識エンジンを用いて文字認識を行い、手書き文字と分類された文字列については、手書き文字に適した文字認識エンジンを用いて文字認識を行うといったように、文字認識エンジンを使い分けることで、より適切な文字認識結果を得ることが可能となる。
Then, the
また、活字として分類された文字列については文字認識処理を行わず、手書き文字として分類された文字列について文字認識処理を行うようにすることで、手書きされる前の帳票(活字文字列が記載された帳票)を予め登録しなくても手書き後の帳票から手書き文字列を抽出することが可能となる。この場合、ステップS712では、活字であるか否かの判定、分類は行わず、手書き文字であるか否かの判定に応じて、手書き文字であると判定された文字列画像に対して文字認識処理を行い、手書き文字であると判定されなかた文字列画像には文字認識処理を行わないようにすればよい。 In addition, character recognition processing is not performed on character strings classified as printed characters, but character recognition processing is performed on character strings classified as handwritten characters. It becomes possible to extract a handwritten character string from a handwritten form without registering the written form in advance. In this case, in step S712, character string images determined to be handwritten characters are recognized based on the determination as to whether or not they are handwritten characters, without determining whether or not they are printed characters or classifying them. The character recognition process may not be performed on character string images that are not determined to be handwritten characters.
図12は、結果出力部259による出力結果の一例を示す図である。本実施例では出力結果1201はJSON形式のテキストファイルとして文字領域のID、矩形座標、読み取ったテキスト内容を含んでいる。
FIG. 12 is a diagram showing an example of an output result by the
セル分割部257は、帳票内の表に関して、表領域とセル領域の情報が外部から与えられている場合に、セルの情報を用いて文字検出結果を分割する処理を行う。
The
文字領域推定部256は画像片分類部254によって文字と分類された領域のみを対象にして処理を行うため、この時点で罫線の情報が失われており、文字領域推定部256の出力結果は複数のセル内の文字列が結合されている場合がある。この結果を補正するため、セル矩形の情報を用いて複数のセルにまたがった文字列領域を分割する。
Since the character
図13は、セル分割部の処理の一例を示す図である。 FIG. 13 is a diagram illustrating an example of processing by the cell division section.
入力画像1301を入力として本手法で文字検出を行った場合、文字列画像1311-1313が得られるが、このうち文字列画像1312は右詰と左詰のテキストのセルが隣接しているため、文字列がセルをまたいで結合されている。
When character detection is performed using this method using
表、セルの情報が外部から表1320、セル1321-1324としてそれぞれの矩形情報が与えられた場合、その情報を用いて文字列画像1312を文字列画像1314と1315に分割する。
When rectangular information is given from the outside as table 1320 and cells 1321-1324,
このように、表形式の領域については、複数のセルに記載された文字を一つの領域と特定することなく、それぞれのセル毎に文字列領域を特定し、OCR処理を実行することが可能となる。 In this way, for a tabular area, it is possible to specify the character string area for each cell and perform OCR processing without identifying characters written in multiple cells as one area. Become.
以上説明した通り、本願発明では、OCRの対象の画像から、連続して存在する画素を取得し、取得した画素に基づき、文字領域を推定する。そして、推定された文字領域の単位でOCR処理を実行する。このように、画素片から文字を検出することで、予め文字が存在する領域を限定してから検出する方法に比べ、文字の見落としを防ぐことが可能となる。 As described above, in the present invention, consecutive pixels are acquired from an image to be subjected to OCR, and a character area is estimated based on the acquired pixels. Then, OCR processing is performed for each estimated character area. By detecting characters from pixel pieces in this way, it is possible to prevent characters from being overlooked, compared to a method in which the area where characters exist is limited in advance and then detected.
また、推定された文字領域を結合することで、一つの文字を2文字と判定してしまう(例えば偏と旁を別々の文字と認識してしまう)ことを低減させることが可能とある。 Furthermore, by combining the estimated character regions, it is possible to reduce the possibility that one character is determined to be two characters (for example, ``bia'' and 旁 are recognized as separate characters).
また、推定された文字領域同士を結合することで、帳票のタイトル等でよく見られる文字と文字の間隔が広い文字列についても、1つの文字列として認識することが可能となる。 Furthermore, by combining the estimated character areas, it becomes possible to recognize character strings with wide spacing between characters, such as those often seen in the title of a form, as a single character string.
また、本実施例のように、文字領域の結合や分割処理を実施したあとに、活字と手書き文字とを分類することで、一つの文字であるにもかかわらず、偏は手書き文字、旁は活字と分類してしまうことを低減させることが可能となる。 In addition, as in this example, by classifying printed characters and handwritten characters after combining and dividing character regions, even though they are one character, it is possible to distinguish between handwritten characters and handwritten characters. It is possible to reduce the possibility of classification as printed text.
また、表領域の情報(表領域の位置やセルの形状・位置など)の情報に基づき推定された文字領域を分割することで、複数のセルに記入された文字列を一つの文字列として認識してしまうことを低減させることが可能となる。 In addition, by dividing the estimated character area based on table area information (table area position, cell shape/position, etc.), character strings written in multiple cells are recognized as one character string. This makes it possible to reduce the number of things that happen.
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 The present invention can be implemented as, for example, a system, an apparatus, a method, a program, a recording medium, or the like. Specifically, the present invention may be applied to a system consisting of a plurality of devices, or may be applied to a device consisting of a single device.
また、本発明におけるプログラムは、図7に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図7の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図7の各装置の処理方法ごとのプログラムであってもよい。 Further, the program according to the present invention is a program that allows a computer to execute the processing method shown in the flowchart shown in FIG. 7, and the storage medium of the present invention stores a program that allows a computer to execute the processing method shown in FIG. Note that the program in the present invention may be a program for each processing method of each device shown in FIG.
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。 As described above, a recording medium recording a program that implements the functions of the embodiments described above is supplied to a system or device, and the computer (or CPU or MPU) of the system or device reads the program stored in the recording medium. It goes without saying that the object of the present invention can also be achieved by reading and executing.
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。 In this case, the program itself read from the recording medium will realize the novel function of the present invention, and the recording medium on which the program is recorded constitutes the present invention.
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。 Examples of recording media for supplying programs include flexible disks, hard disks, optical disks, magneto-optical disks, CD-ROMs, CD-Rs, DVD-ROMs, magnetic tapes, non-volatile memory cards, ROMs, EEPROMs, and silicon A disk or the like can be used.
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 In addition, by executing a program read by a computer, not only the functions of the above-described embodiments are realized, but also the OS (operating system) etc. running on the computer are realized based on the instructions of the program. It goes without saying that this also includes a case where part or all of the processing is performed and the functions of the embodiments described above are realized by the processing.
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 Furthermore, after the program read from the recording medium is written to the memory of the function expansion board inserted into the computer or the function expansion unit connected to the computer, the function expansion board It goes without saying that this also includes a case where a CPU or the like provided in a function expansion unit or the like performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。 Moreover, the present invention may be applied to a system made up of a plurality of devices, or to a device made up of one device. It goes without saying that the present invention can also be applied to cases where the present invention is achieved by supplying a program to a system or device. In this case, by reading a recording medium storing a program for achieving the present invention into the system or device, the system or device can enjoy the effects of the present invention.
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。 Further, by downloading and reading a program for achieving the present invention from a server, database, etc. on a network using a communication program, the system or device can enjoy the effects of the present invention. Note that all configurations that are combinations of the above-described embodiments and their modifications are also included in the present invention.
100 LAN
101 クライアントPC
102 スキャナ
103 ファイルサーバー
100 LAN
101 Client PC
102 Scanner 103 File server
Claims (4)
前記連続画素取得手段により取得された複数の画素片のそれぞれについて、当該画素片が取得された領域を含む矩形領域を特定する第1の特定手段と、
前記第1の特定手段により特定された矩形領域を拡張して他の矩形領域と結合させることで、1文字ごとの領域を示す文字領域を特定する第2の特定手段と、
前記第2の特定手段により特定された文字領域のうち、文字領域のアスペクト比が所定の閾値よりも1に近い特定文字領域について、水平方向に一定の距離以内であり同じ高さにある位置関係にある他の特定文字領域と結合することで、複数の文字を含む複数文字領域を特定する第3の特定手段と、
前記第3の特定手段により特定された複数文字領域ごとに、当該複数文字領域に含まれる文字の認識処理を実行する文字認識手段と、
を備えることを特徴とする情報処理システム。 continuous pixel acquisition means for acquiring a plurality of pixel pieces formed by consecutive pixels of the same pixel value in a binarized image that is a target of character recognition;
a first specifying means for specifying, for each of the plurality of pixel pieces acquired by the continuous pixel acquisition means, a rectangular area including the area where the pixel piece is acquired;
a second specifying means for specifying a character area indicating an area for each character by extending the rectangular area specified by the first specifying means and combining it with another rectangular area;
Among the character areas specified by the second specifying means, a positional relationship in which the aspect ratio of the character area is closer to 1 than a predetermined threshold is within a certain distance in the horizontal direction and at the same height. a third specifying means for specifying a multi-character area including a plurality of characters by combining it with other specific character areas in the area;
Character recognition means that executes, for each of the plurality of character regions specified by the third identification means, recognition processing of characters included in the plurality of character regions ;
An information processing system comprising:
前記文字認識手段は、前記分割手段により複数文字領域が分割された場合、当該分割された領域ごとに、前記認識処理を実行することを特徴とする請求項1に記載の情報処理システム。 When the multiple character area exists across multiple cells in the table area, further comprising dividing means for dividing the multiple character area at the boundaries of the multiple cells ,
2. The information processing system according to claim 1 , wherein, when a plurality of character regions are divided by the dividing means, the character recognition means executes the recognition process for each divided region.
前記情報処理システムの第1の特定手段が、前記連続画素取得工程により取得された複数の画素片のそれぞれについて、当該画素片が取得された領域を含む矩形領域を特定する第1の特定工程と、
前記情報処理システムの第2の特定手段が、前記第1の特定工程により特定された矩形領域を拡張して他の矩形領域と結合させることで、1文字ごとの領域を示す文字領域を特定する第2の特定工程と、
前記情報処理システムの第3の特定手段が、前記第2の特定工程により特定された文字領域のうち、文字領域のアスペクト比が所定の閾値よりも1に近い特定文字領域について、水平方向に一定の距離以内であり同じ高さにある位置関係にある他の特定文字領域と結合することで、複数の文字を含む複数文字領域を特定する第3の特定工程と、
前記情報処理システムの文字認識手段が、前記第3の特定工程により特定された複数文字領域ごとに、当該複数文字領域に含まれる文字の認識処理を実行する文字認識工程と、
を備えることを特徴とする情報処理方法。 A continuous pixel acquisition step in which the continuous pixel acquisition means of the information processing system acquires a plurality of pixel pieces formed by consecutive pixels of the same pixel value in a binarized image that is a target of character recognition. and,
a first identifying step in which the first identifying means of the information processing system identifies, for each of the plurality of pixel pieces acquired in the continuous pixel acquiring step, a rectangular area including the area where the pixel piece is acquired; ,
A second specifying means of the information processing system specifies a character area indicating an area for each character by expanding the rectangular area specified in the first specifying step and combining it with another rectangular area. a second identification step;
The third specifying means of the information processing system is configured to determine, among the character areas specified in the second specifying step, a specific character area whose aspect ratio is closer to 1 than a predetermined threshold in a horizontal direction. a third specifying step of specifying a multi-character area containing a plurality of characters by combining it with another specific character area within a distance of and having the same height positional relationship;
a character recognition step in which the character recognition means of the information processing system executes, for each multiple character region specified in the third specifying step , a recognition process for characters included in the multiple character region ;
An information processing method comprising:
A program for causing a computer to function as each means according to claim 1 or 2 .
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020218455 | 2020-12-28 | ||
JP2020218455 | 2020-12-28 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022104498A JP2022104498A (en) | 2022-07-08 |
JP2022104498A5 JP2022104498A5 (en) | 2022-07-15 |
JP7417116B2 true JP7417116B2 (en) | 2024-01-18 |
Family
ID=82279629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021090955A Active JP7417116B2 (en) | 2020-12-28 | 2021-05-31 | Information processing system, information processing method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7417116B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006172284A (en) | 2004-12-17 | 2006-06-29 | Canon Inc | Image processor, image processing method, computer program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3425834B2 (en) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | Title extraction apparatus and method from document image |
JP2007026470A (en) * | 1996-09-27 | 2007-02-01 | Fujitsu Ltd | Pattern recognition device |
JP2001034763A (en) * | 1999-03-01 | 2001-02-09 | Matsushita Electric Ind Co Ltd | Document image processor, method for extracting its document title and method for attaching document tag information |
JP2006092345A (en) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | Equipment, method, and program for character recognition |
-
2021
- 2021-05-31 JP JP2021090955A patent/JP7417116B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006172284A (en) | 2004-12-17 | 2006-06-29 | Canon Inc | Image processor, image processing method, computer program |
Non-Patent Citations (1)
Title |
---|
広瀬 克昌 Katsumasa HIROSE,文書画像中の連結成分の模擬的拡大による各構成単位の切出し,電子情報通信学会1999年総合大会講演論文集 情報・システム2 PROCEEDINGS OF THE 1999 IEICE GENERAL CONFERENCE,日本,社団法人電子情報通信学会,1999年03月08日 |
Also Published As
Publication number | Publication date |
---|---|
JP2022104498A (en) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8645819B2 (en) | Detection and extraction of elements constituting images in unstructured document files | |
US20150095769A1 (en) | Layout Analysis Method And System | |
JP6838209B1 (en) | Document image analyzer, document image analysis method and program | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
US7796817B2 (en) | Character recognition method, character recognition device, and computer product | |
JP2007317022A (en) | Handwritten character processor and method for processing handwritten character | |
JP4785655B2 (en) | Document processing apparatus and document processing method | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
US9519404B2 (en) | Image segmentation for data verification | |
JP2019016350A (en) | Identification of emphasized text in electronic documents | |
US6947596B2 (en) | Character recognition method, program and recording medium | |
US20150139547A1 (en) | Feature calculation device and method and computer program product | |
JP2024038417A (en) | Information processor, information processing method, and program | |
JP2007310501A (en) | Information processor, its control method, and program | |
JP7417116B2 (en) | Information processing system, information processing method, program | |
JP2021140831A (en) | Document image processing system, document image processing method, and document image processing program | |
JP4347675B2 (en) | Form OCR program, method and apparatus | |
JP2009140478A (en) | Image processing apparatus and image processing method | |
JP2001034763A (en) | Document image processor, method for extracting its document title and method for attaching document tag information | |
JP5169648B2 (en) | Original image search device and original image search program | |
JP2002170079A (en) | Device and method of discriminating document form | |
JP4136257B2 (en) | Character recognition device, character recognition method, and storage medium | |
JP4731748B2 (en) | Image processing apparatus, method, program, and storage medium | |
JP2013182459A (en) | Information processing apparatus, information processing method, and program | |
JP4328511B2 (en) | Pattern recognition apparatus, pattern recognition method, program, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220707 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231218 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7417116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |