JP2021157375A - 情報処理装置及びプログラム - Google Patents
情報処理装置及びプログラム Download PDFInfo
- Publication number
- JP2021157375A JP2021157375A JP2020055528A JP2020055528A JP2021157375A JP 2021157375 A JP2021157375 A JP 2021157375A JP 2020055528 A JP2020055528 A JP 2020055528A JP 2020055528 A JP2020055528 A JP 2020055528A JP 2021157375 A JP2021157375 A JP 2021157375A
- Authority
- JP
- Japan
- Prior art keywords
- imprint
- document image
- imprints
- document
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 26
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 24
- 230000002093 peripheral effect Effects 0.000 abstract description 28
- 238000000034 method Methods 0.000 description 30
- 238000012937 correction Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
【課題】特定種別の印影の位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出する。【解決手段】情報処理装置は、プロセッサを備え、プロセッサは、文書を示す文書画像20を取得し、この文書画像20に含まれる特定種別の印影24、25の位置を基準とした領域(例えば周辺範囲28、29)から対象文字列(例えば文字列31、33)に対する対象情報(例えば文字列32、34)を抽出する。【選択図】図2
Description
本発明は、情報処理装置及びプログラムに関する。
文書を示す文書画像から所望の情報を抽出する技術が知られている。例えば特許文献1には、文書の文字フィールドを形態素解析し、文書属性の構造を形態素レベルで表現した文書属性品詞パタンと形態素解析結果とを照合し、一致する文字フィールドのうち、文書における出現位置が所定の範囲にある文字フィールドを文書属性として抽出することが記載されている。
契約書等の文書から契約者名などの情報を抽出したい場合がある。しかし、例えば文書中に契約者名以外にも会社名等の名称が記載されている場合には、文を解析して対象情報を判別する方法では、契約者名以外の名称が抽出される虞がある。
本発明は、特定種別の印影の位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出することを目的とする。
本発明は、特定種別の印影の位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出することを目的とする。
請求項1に係る発明は、プロセッサを備え、前記プロセッサは、文書を示す文書画像を取得し、前記文書画像に含まれる特定種別の印影の位置を基準とした領域から対象文字列に対する対象情報を抽出することを特徴とする情報処理装置である。
請求項2に係る発明は、請求項1に記載の情報処理装置において、前記プロセッサは、前記文書画像に含まれる複数の印影のうち第1種別の印影と第2種別の印影以外の印影を前記特定種別の印影として用いることを特徴とする。
請求項3に係る発明は、請求項2に記載の情報処理装置において、前記第1種別の印影は、前記文書画像において定められた位置に間隔を空けて設けられていることを特徴とする。
請求項4に係る発明は、請求項3に記載の情報処理装置において、前記定められた位置は、前記文書画像が前記文書に含まれる単一のページを示す場合には、前記文書画像の端部であることを特徴とする。
請求項5に係る発明は、請求項3に記載の情報処理装置において、前記定められた位置は、前記文書画像が前記文書に含まれる複数のページを示す場合には、前記文書画像における前記複数のページの境界部であることを特徴とする。
請求項6に係る発明は、請求項2に記載の情報処理装置において、前記第2種別の印影は、前記文書画像に含まれる取り消し線が付された文字に対応する位置に設けられていることを特徴とする。
請求項7に係る発明は、請求項1又は2に記載の情報処理装置において、前記特定種別の印影は、前記文書画像に含まれる他の印影より大きいことを特徴とする。
請求項8に係る発明は、請求項7に記載の情報処理装置において、前記特定種別の印影は、前記文書画像に含まれる他の印影より周囲にある空白の量が多いことを特徴とする。
請求項9に係る発明は、請求項1に記載の情報処理装置において、前記プロセッサは、前記対象文字列に対する複数の対象情報が前記領域に含まれる場合には、前記複数の対象情報のうち前記位置に最も近い対象情報を抽出することを特徴とする。
請求項10に係る発明は、請求項1に記載の情報処理装置において、前記プロセッサは、前記文書画像から前記特定種別の印影を含む少なくとも一の印影を検出し、前記少なくとも一の印影を検出した後に前記文書画像に対して文字認識を施し、前記対象情報は、前記文字認識の結果であることを特徴とする。
請求項11に係る発明は、請求項10に記載の情報処理装置において、前記プロセッサは、前記文書画像から前記検出された特定種別の印影を除去し、前記特定種別の印影が除去された前記文書画像に対して前記文字認識を施すことを特徴とする。
請求項12に係る発明は、コンピュータに、文書を示す文書画像を取得するステップと、前記文書画像に含まれる特定種別の印影の位置を基準とした領域から対象文字列に対する対象情報を抽出するステップとを実行させるためのプログラムである。
請求項1に係る発明によれば、特定種別の印影の位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出できる。
請求項2に係る発明によれば、文書画像に第1種別の印影又は第2種別の印影が含まれる場合に、対象文字列に対する対象情報を抽出する精度が低下するのを防ぐことができる。
請求項3に係る発明によれば、文書画像における印影の位置及び間隔に関係なく第1種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項4に係る発明によれば、文書画像が文書に含まれる単一のページを示す場合において、文書画像の端部の位置に関係なく第1種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項5に係る発明によれば、文書画像が文書に含まれる複数のページを示す場合において、これらのページの境界部の位置に関係なく第1種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項6に係る発明によれば、文書画像における取り消し線が付された文字に対応する位置に関係なく第2種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項7に係る発明によれば、印影の大きさに関係なく特定種別の印影と他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項8に係る発明によれば、印影の周囲にある空白の量に関係なく特定種別の印影と他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項9に係る発明によれば、特定種別の印影に対する位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出できる。
請求項10に係る発明によれば、印影を検出する前に文字認識を行う場合に比べて、文字認識の精度が向上する。
請求項11に係る発明によれば、印影を除去する前に文字認識を行う場合に比べて、文字認識の精度が向上する。
請求項12に係る発明によれば、特定種別の印影の位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出できる。
請求項2に係る発明によれば、文書画像に第1種別の印影又は第2種別の印影が含まれる場合に、対象文字列に対する対象情報を抽出する精度が低下するのを防ぐことができる。
請求項3に係る発明によれば、文書画像における印影の位置及び間隔に関係なく第1種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項4に係る発明によれば、文書画像が文書に含まれる単一のページを示す場合において、文書画像の端部の位置に関係なく第1種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項5に係る発明によれば、文書画像が文書に含まれる複数のページを示す場合において、これらのページの境界部の位置に関係なく第1種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項6に係る発明によれば、文書画像における取り消し線が付された文字に対応する位置に関係なく第2種別の印影と特定種別の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項7に係る発明によれば、印影の大きさに関係なく特定種別の印影と他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項8に係る発明によれば、印影の周囲にある空白の量に関係なく特定種別の印影と他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
請求項9に係る発明によれば、特定種別の印影に対する位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出できる。
請求項10に係る発明によれば、印影を検出する前に文字認識を行う場合に比べて、文字認識の精度が向上する。
請求項11に係る発明によれば、印影を除去する前に文字認識を行う場合に比べて、文字認識の精度が向上する。
請求項12に係る発明によれば、特定種別の印影の位置に関係なく対象文字列に対する対象情報の抽出を行う場合に比べて、対象情報を精度よく抽出できる。
1.構成
図1は、本実施形態に係る画像処理装置10の構成の一例を示す図である。画像処理装置10は、本発明に係る情報処理装置の一例である。画像処理装置10は、スキャン機能し、契約書等の文書を読み取って文書画像を取得する。また、画像処理装置10は、文字認識機能を有し、文書画像に含まれるキーに基づいてバリューを抽出する。このキーは、バリューの目印となる文字列である。このキーには、文字、数字、記号、及び画像のうち少なくともいずれかが含まれる。キーは、本発明に係る「対象文字列」の一例である。バリューは、利用者が所望する情報である。バリューには、文字、数字、記号、及び画像のうち少なくともいずれかが含まれる。バリューは、本発明に係る「対象情報」の一例である。なお、ここでいう「文字列」には、文字だけでなく、数字や記号も含み得るものとする。文書画像から抽出されたバリューは、様々な処理に用いられる。例えば文書画像から抽出されたバリューが文書画像のファイル名やフォルダ名に用いられたり、バリューに対して定められた宛先に送信されたりしてもよい。
図1は、本実施形態に係る画像処理装置10の構成の一例を示す図である。画像処理装置10は、本発明に係る情報処理装置の一例である。画像処理装置10は、スキャン機能し、契約書等の文書を読み取って文書画像を取得する。また、画像処理装置10は、文字認識機能を有し、文書画像に含まれるキーに基づいてバリューを抽出する。このキーは、バリューの目印となる文字列である。このキーには、文字、数字、記号、及び画像のうち少なくともいずれかが含まれる。キーは、本発明に係る「対象文字列」の一例である。バリューは、利用者が所望する情報である。バリューには、文字、数字、記号、及び画像のうち少なくともいずれかが含まれる。バリューは、本発明に係る「対象情報」の一例である。なお、ここでいう「文字列」には、文字だけでなく、数字や記号も含み得るものとする。文書画像から抽出されたバリューは、様々な処理に用いられる。例えば文書画像から抽出されたバリューが文書画像のファイル名やフォルダ名に用いられたり、バリューに対して定められた宛先に送信されたりしてもよい。
画像処理装置10は、プロセッサ11と、メモリ12と、画像読取部13と、記憶部14と、操作部15と、表示部16とを備える。これらのハードウェア要素は、バス17を介して接続されている。プロセッサ11は、プログラムを実行することにより、画像処理装置10の各部を制御して、文書画像からキーに対応するバリューを抽出する処理を行う。プロセッサ11には、例えばCPU(Central Processing Unit)が用いられる。メモリ12には、プロセッサ11に上述した処理を実行させるためのプログラムが記憶されている。メモリ12には、例えばROM(Read Only Memory)及びRAM(Random Access Memory)が用いられる。画像読取部13は、文書を読み取って文書画像を生成する。画像読取部13には、例えばイメージスキャナが用いられる。記憶部14は、画像読取部13により生成された文書画像を記憶する。記憶部14には、例えばハードディスクドライブ又はSSD(Solid State Drive)が用いられる。操作部15は、利用者による画像処理装置10の操作に用いられる。操作部15には、例えばタッチパネルとボタンとが用いられる。表示部16は、利用者の操作に用いられる各種の画面を表示する。表示部16には、例えば液晶ディスプレイが用いられる。
図2は、文書画像20の一例を示す図である。なお、図2に示すx軸方向とy軸方向とは、互いに直交する方向を示す。また、−x軸方向、−y軸方向は、それぞれx軸方向とy軸方向と反対の方向を示す。図2に示す文書画像20は、契約書を示す画像である。契約書には複数のページが含まれていてもよい。ここでは、バリューが契約者を示す情報であるものとする。図2に示す例では、キーが「会社名」となり、バリューが契約者甲の会社名及び契約者乙の会社名となる。
契約書の末尾の署名欄には、「会社名」という文字列31及び契約者甲の会社名を示す「株式会社A」という文字列32と、「会社名」という文字列33及び契約者乙の会社名を示す「株式会社B」とい文字列34とが、それぞれ並べて記載されている。一般に、契約者が会社である場合には、会社名の最後の文字に重なる位置に社印が押される。社印とは、会社で使われる印をいう。一般に、社印は四角い形状をしており、社印の印影は他の印の印影より大きい。また、一般に、社印が押される契約書の末尾の署名欄は、契約書の他の部分よりも空白が多い。図2に示す例では、「株式会社A」という文字列32の最後の文字に重なる位置に甲の社印が押されている。従って、文書画像20には、「株式会社A」という文字列32の最後の文字に重なる位置に甲の社印の印影24が設けられている。同様に、「株式会社B」という文字列34の最後の文字に重なる位置に乙の社印が押されている。従って、文書画像20には、「株式会社B」という文字列34の最後の文字に重なる位置に乙の社印の印影25が設けられている。印影24及び25は、本発明に係る特定種別の印影の一例である。
また、契約書には、社印の他に、割印や訂正印が押されている場合がある。割印とは、契約書が2枚以上ある場合に、複数の書面の関連性を示すために2枚の書面にまたがるように押される印をいう。一般に、割印は、文書の定められた位置に間隔を空けて押される。例えば左右2ページからなる見開きページにおいては、割印が押される位置は左右のページの境界部である中央部である。一方、見開きページではない単一のページにおいては、割印が押される位置はページの側端部である。なお、割印が押される間隔は等間隔であってもよい。図2に示す例では、契約書は単一のページであるため、−x軸方向の端部に間隔を空けて2つの割印が押されている。従って、文書画像20の−x軸方向の端部には、2つの割印の印影21及び22が間隔を空けて設けられている。割印の印影21及び22は、本発明に係る第1種別の印影の一例である。
訂正印とは、文書の一部を訂正するときに誰によって訂正されたかを明確にするために押される印をいう。一般的に、文字の誤りを訂正する場合には、訂正部分に取り消し線を付し、訂正部分に対応する位置に訂正印が押される。この取り消し線は、一重線であってもよいし二重線であってもよい。図2に示す例では、文書画像20には、契約書に記載された「あいう」という文字に取り消し線27が付され、この文字の近傍に訂正印が押されている。従って、文書画像20には、取り消し線27が付された文字の近傍に訂正印の印影23が設けられている。訂正印の印影23は、本発明に係る第2種別の印影の一例である。
2.動作
以下の説明において、プロセッサ11を処理の主体として記載する場合、これは、メモリ12に記憶されたプログラムと、このプログラムを実行するプロセッサ11との協働により、プロセッサ11が演算を行い又は他のハードウェア要素の動作を制御することにより、処理が行われることを意味する。
以下の説明において、プロセッサ11を処理の主体として記載する場合、これは、メモリ12に記憶されたプログラムと、このプログラムを実行するプロセッサ11との協働により、プロセッサ11が演算を行い又は他のハードウェア要素の動作を制御することにより、処理が行われることを意味する。
図3は、文書画像からキーに対応するバリューを抽出する処理の一例を示すフローチャートである。この処理は、例えば利用者が画像処理装置10に文書をセットし、操作部15を用いて読み取りの開始を指示する操作を行ったことに応じて開始される。また、このとき、利用者は、操作部15を用いて抽出対象となるバリューの数を指定する操作を行う。図2に示す例では、契約者は二者であり、契約者を示す情報は甲の会社名と乙の会社名であるため、抽出対象となるバリューの数は2になる。
ステップS11において、プロセッサ11は、利用者の操作に応じて、画像読取部13に文書を読み取らせる。これにより、文書を示す文書画像が取得される。図2に示す例では、契約書が読み取られ、この契約書を示す文書画像20が取得される。
ステップS12において、プロセッサ11は、文書画像から印影を検出する。印影の検出は、例えば既知の印影検出技術を用いて行われる。例えば文書画像において印影らしい大きさの朱色の部分が印影として検出されてもよい。図2に示す例では、文書画像20から印影21〜25とノイズ画像26とが検出される。ノイズ画像26は実際には印影ではないが、印影らしい大きさの朱色の部分であるため、印影として検出される。
ステップS13において、プロセッサ11は、社印判定処理を行う。図2に示されるように、文書画像20には、社印の印影24及び25以外にも、割印の印影21及び22、訂正印の印影23、ノイズ画像26が含まれる。そのため、ステップS12において検出された印影の中から社印の印影24及び25を判定するために、社印判定処が行われる。
図4は、社印判定処理の一例を示すフローチャートである。ステップS21において、プロセッサ11は、割印判定処理を行う。割印判定処理は、ステップS12において検出された各印影について行われる。割印判定処理では、対象の印影が割印の印影とそれ以外の印影とに区別される。割印の印影については、社印の印影の候補から外れる。
図5は、割印判定処理の一例を示すフローチャートである。ステップS31において、プロセッサ11は、文書画像が見開きページを示すか否かを判定する。この判定は、例えば原稿画像の縦横比によって行われる。図2に示す例では、文書画像20の縦横比が縦長を示すため、文書画像が見開きページを示さないと判定される(ステップS31の判定がNO)。この場合、ステップS32の処理に進む。
ステップS32において、プロセッサ11は、文書画像の側端部に印影が間隔を空けて設けられているか否かを判定する。図2に示す例では、文書画像20の−x軸方向の端部に、印影21及び22が間隔を空けて設けられている(ステップS32の判定がYES)。この場合、ステップS34において、プロセッサ11は、印影21及び22を割印の印影と判定する。一方、図2に示す例では、文書画像20に含まれる印影23〜25及びノイズ画像26については、文書画像20の側端部に間隔を空けて設けられていない(ステップS32の判定がNO)。この場合、ステップS35において、プロセッサ11は、印影23〜25及びノイズ画像26を割印の印影ではないその他の印影と判定する。
図6は、別の文書画像40の一例を示す図である。この文書画像40の縦横比は横長を示すため、上述したステップS31において文書画像が見開きページを示すと判定される(ステップS31の判定がYES)。この場合、ステップS33に進む。
ステップS33において、プロセッサ11は、文書画像の中央部に印影が間隔を空けて設けられているか否かを判定する。図6に示す例では、文書画像40の中央部に、印影41及び42が間隔を空けて設けられている(ステップS33の判定がYES)。この場合、ステップS34において、プロセッサ11は、印影41及び42を割印の印影と判定する。一方、図6に示す例では、文書画像40に含まれる印影24及び25については、文書画像20の中央部に間隔を空けて設けられていない(ステップS33の判定がNO)。この場合、ステップS35において、プロセッサ11は、印影24及び25を割印の印影ではないその他の印影と判定する。
図4に戻り、ステップS22において、プロセッサ11は、訂正印判定処理を行う。訂正印判定処理は、ステップS12において検出された印影のうちステップS21において割印の印影と判定された印影以外の各印影について行われる。訂正印判定処理では、対象の印影が訂正印の印影とそれ以外の印影とに区別される。訂正印の印影については、社印の印影の候補から外れる。
図7は、訂正印判定処理の一例を示すフローチャートである。ステップS41において、プロセッサ11は、印影の近傍の文字列に取り消し線が付されているか否かを判定する。この近傍は、例えば印影の位置を中心とした定められた距離以内の範囲を示す。図2に示す例では、印影23の近傍に「あいう」という文字が記載されており、この文字には取り消し線27が付されている(ステップS41の判定がYES)。この場合、ステップS42において、プロセッサ11は、印影23を訂正印の印影であると判定する。一方、図2に示す例では、文書画像20に含まれる印影24及び25及びノイズ画像26については、近傍に文字列がなく又は近傍の文字列に取り消し線が付されていない(ステップS41の判定がNO)。この場合、ステップS43において、プロセッサ11は、印影24及び25とノイズ画像26とを訂正印の印影ではないその他の印影と判定する。その他の印影は、文書画像から検出された印影のうち、割印の印影と訂正印の印影以外の印影であるため、社印の印影の候補となる。
図4に戻り、ステップS23において、プロセッサ11は、社印の印影の候補となる印影に大きさによる優先順位を付ける。優先順位は、印影が大きい程高くなる。大きさが同じ場合には、先に検出された方が優先順位が高くなる。ここでは、原稿画像において−y軸方向にある方が、先に検出されるものとする。図2に示す例では、印影24及び25は、ノイズ画像26より大きい。従って、ノイズ画像26の優先順位は3になる。また、印影24及び25は概ね同じ大きさであるが、文書画像20において印影24は印影25の−y軸方向に位置する。従って、印影24の優先順位は1になり、印影25の優先順位は2になる。
ステップS24において、プロセッサ11は、社印の印影の候補となる印影にレイアウトによる優先順位を付ける。まず、印影の周囲における空白の量が計数される。この空白の量には、例えば背景と同じ色の画素数が用いられる。この周囲は、例えば印影を中心とした定められた距離以内の範囲を示す。優先順位は、周囲の空白の量が多い程高くなる。周囲の空白の量が同じ場合には、先に検出された方が優先順位が高くなる。ここでは、原稿画像において−y軸方向にある方が、先に検出されるものとする。図2に示す例では、印影24及び25は、契約書の末尾の署名欄に設けられている。この署名欄は、契約書の他の部分よりも空白が多い。一方、ノイズ画像26は、契約書の本文中に設けられている。契約書の本文は空白が少ない。そのため、印影24及び25の周囲の空白の量は、ノイズ画像26の周囲の空白の量より多い。従って、ノイズ画像26の優先順位は3になる。また、印影24及び25の周囲の空白の量は概ね同じであるが、文書画像20において印影24は印影25の−y軸方向に位置する。従って、印影24の優先順位は1になり、印影25の優先順位は2になる。
ステップS25において、プロセッサ11は、優先順位に従って社印の印影を判定する。例えば抽出対象となるバリューの数は2である場合には、優先順位が高い上位2個の印影が社印の印影と判定される。図2に示す例では、印影24の優先順位は1、印影25の優先順位は2、ノイズ画像26の優先順位は3になる。従って印影24と印影25が社印の印影と判定される。
図3に戻り、ステップS14において、プロセッサ11は、ステップS11において取得された文書画像に含まれる文字を認識する。この文字認識には、例えばOCR(Optical character recognition)が用いられる。
ステップS15において、プロセッサ11は、文書画像においてステップS25において社印の印影として判定された印影の周辺範囲からキーに対するバリューを抽出する。周辺範囲とは、印影の位置を基準として定められた領域をいう。図2に示す例では、印影24、25の位置を基準に周辺範囲28、29が定められる。この周辺範囲28、29は、それぞれ、例えば印影24、25の位置から−x方向に第1距離以内、y方向及び−y方向にそれぞれ第2距離以内の範囲である。ここでは、「会社名」というキーが予め定められているものとする。
この場合、まず周辺範囲28において「会社名」というキーが検索される。ここで、図2に示す例では、周辺範囲28には、「会社名」という文字列31と「会社名」という文字列33とが含まれるため、検索の結果、これらの文字列31及び33がキーとして検出される。この場合、印影24の位置に最も近い文字列31が用いられ、文字列33は用いられない。そして、文字列31の近傍範囲からバリューが抽出される。近傍範囲とは、文字列31の位置を基準として定められた領域をいう。近傍範囲は、例えば周辺範囲より小さい。ここでは、近傍範囲は、文字列31の位置からx軸方向に定められた距離以内の範囲である。なお、バリューの形式が予め定められている場合には、近傍範囲に含まれる情報のうち予め定められた形式の情報がバリューとして抽出される。図2に示す例では、文字列31の近傍範囲にある「株式会社A」という文字列32が文字列31に対するバリューとして抽出される。文字列31及び32は、いずれも文字認識の結果である。なお、ここでは、文字列33の近傍範囲にある「株式会社B」という文字列34は抽出されない。すなわち、印影24の位置に最も近いバリューだけが抽出される。
続いて、周辺範囲29において「会社名」というキーが検索される。図2に示す例では、周辺範囲29には、「会社名」という文字列33だけが含まれるため、検索の結果、この文字列33が検出される。そして、文字列33の近傍範囲にある「株式会社B」という文字列34が文字列33に対するバリューとして抽出される。文字列33及び34は、いずれも文字認識の結果である。
ステップS15において抽出されたバリューは、例えば対応するキーと組にして記憶部14に記憶される。図2に示す例では、「会社名」という文字列31と「株式会社A」という文字列32との組、「会社名」という文字列33と「株式会社B」という文字列34との組が記憶部14に記憶される。また、これらのキーとバリューの組は、属性情報として文書画像20に付加されてもよい。
以上説明した実施形態によれば、社印の印影の周辺範囲から契約者を示す情報が抽出されるため、社印の印影の位置に関係なく契約者を示す情報の抽出を行う場合に比べて、契約者を示す情報を精度よく抽出できる。また、社印の印影の周辺範囲内でバリューの抽出が行われるため、文書画像全体を対象にバリューの抽出を行う場合に比べて、バリューを抽出する処理の負荷が軽減される。さらに、文書画像に含まれる割印の印影及び訂正印の印影は社印の印影の候補から外されるため、文書画像に割印の印影及び訂正印の印影が含まれる場合に、これらの印影が社印の印影として用いられ、誤った情報がバリューとして抽出されるのを防ぐことができる。すなわち、文書画像に割印の印影及び訂正印の印影が含まれる場合に、契約者の情報を抽出する精度が低下するのを防ぐことができる。
さらに、文書画像における印影の位置及び間隔によって割印の印影が判定されるため、文書画像における印影の位置及び間隔に関係なく割印の印影とその他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。さらに、文書画像が単一ページを示す場合には、文書画像の端部に設けられている印影が割印の印影と判定されるため、この場合において文書画像の端部の位置に関係なく割印の印影とその他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。さらに、文書画像が見開きページを示す場合には、これらのページの境界部に設けられている印影が割印の印影と判定されるため、この場合においてこれらのページの境界部の位置に関係なく割印の印影とその他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。
さらに、文書画像において取り消し線が付された文字に対応する位置にある印影が訂正印の印影と判定されるため、文書画像における取り消し線が付された文字に対応する位置に関係なく訂正印の印影とその他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。さらに、印影の大きさに応じて付された優先順位に従って社印の印影が判定されるため、印影の大きさに関係なく社印の印影とその他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。さらに、印影の周囲にある空白の量に応じて付された優先順位に従って社印の印影が判定されるため、印影の周囲にある空白の量に関係なく社印の印影と他の印影とを区別する場合に比べて、これらの印影を精度よく区別することができる。さらに、社印の印影の周辺範囲に複数の契約者を示す情報が含まれる場合には、社印の印影の位置に最も近い契約者を示す情報だけが抽出されるため、社印の印影に対する位置に関係なく契約者を示す情報の抽出を行う場合に比べて、契約者を示す情報を精度よく抽出できる。
3.変形例
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。また、上述した実施形態が以下の例のように変形して実施されてもよい。このとき、以下の2以上の変形例が組み合わせて用いられてもよい。
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。また、上述した実施形態が以下の例のように変形して実施されてもよい。このとき、以下の2以上の変形例が組み合わせて用いられてもよい。
上述した実施形態において、プロセッサ11は、印影が検出された後、文書画像から印影を除去し、印影が除去された文書画像に対して文字認識を施してもよい。この印影の除去は、既知の技術を用いて行われてもよい。例えば印影の色である朱色の部分が文書画像から除去されてもよい。図2に示す例では、社印の印影24、25が、それぞれ「株式会社A」、「株式会社B」という文字列32、34の最後の文字と重なっている。社印の印影24及び25を除去してから文字認識を行うことにより、これらの文字列32、34をより正確に認識できるようになる。この変形例によれば、印影を除去する前に文字認識を行う場合に比べて、文字認識の精度が向上する。
上述した実施形態において、プロセッサ11は、社印の印影の周辺範囲を変更してもよい。例えば文書の種別によって社印の印影の周辺範囲が変更されてもよい。これは、文書の種別によって社印の印影とキー及びバリューとの位置関係が異なる場合があるためである。例えば文書の種別が第1種別の場合には、周辺範囲が横長の形状になるように、周辺範囲の縦方向又は横方向の長さが変更されてもよい。一方、文書の種別が第2種別の場合には、周辺範囲が縦長の形状になるように、周辺範囲の縦方向又は横方向の長さが変更されてもよい。他の例において、バリューの種別によって社印の印影の周辺範囲が変更されてもよい。これは、バリューの種別によって社印の印影とキー及びバリューとの位置関係が異なる場合があるためである。例えばバリューが会社名である場合と個人名である場合とで、周辺範囲の大きさ又は形状が変更されてもよい。他の例において、社印の印影の位置によって社印の印影の周辺範囲が変更されてもよい。図2に示す例において、例えば周辺範囲28の下端及び周辺範囲29の上端が社印の印影24と社印の印影25との間、例えば中間に位置するように、周辺範囲28及び29が変更されてもよい。或いは、図2に示す例において、甲の署名欄と乙の署名欄との間には空白行が設けられている。従って、周辺範囲28の下端及び周辺範囲29の上端がこの空白行に位置するように、周辺範囲28及び29が変更されてもよい。これにより、一の周辺範囲29から複数のバリューが抽出されるのが防止される。
上述した実施形態において、文書画像が見開きページを示すか否かを判定する方法は、縦横比を用いた方法に限定されない。例えば利用者が見開きページであるか否かを指定する操作を行う場合には、この操作に応じて文書画像が見開きページを示すか否かが判定されてもよい。他の例において、見開きページの中央部に線又は破線が設けられる場合があるため、このような線の有無によって文書画像が見開きページを示すか否かが判定されてもよい。他の例において、文書によっては最初のページ及び最後のページは表紙及び裏表紙となるため単一のページであり、それ以外のページは見開きページである場合があるため、最初のページ又は最後のページであるかによって文書画像が見開きページを示すか否かが判定されてもよい。
上述した実施形態において、優先順位を付けた後に、割印判定処理及び訂正印判定処理が行われてもよい。この場合、割印の印影及び訂正印の印影にも優先順位が付けられる。また、大きさが閾値未満の印影は社印の印影の候補から外され、大きさが閾値以上の印影について、レイアウトによる優先順位が付けられてもよい。
上述した実施形態において、大きさによる優先順位とレイアウトによる優先順位が異なる場合には、レイアウトによる優先順位によって大きさによる優先順位が変更されてもよい。例えば大きさによる優先順位は2であるが、レイアウトによる優先順位が3である場合には、優先順位は3に下げられてもよい。また、大きさによる優先順位とレイアウトによる優先順位に基づいて、スコアが算出され、スコアに応じて総合の優先順位が算出されてもよい。例えば大きさによる優先順位が1であり、レイアウトによる優先順位が1である場合には、スコアは1+1=2になる。大きさによる優先順位が2であり、レイアウトによる優先順位が2である場合には、スコアは2+2=4になる。大きさによる優先順位が3であり、レイアウトによる優先順位が3である場合には、スコアは3+3=6になる。この場合、スコアが小さい順に、総合の優先順位が高くなる。
上述した実施形態において、必ずしも優先順位の付与は行われなくてもよい。例えば文書画像から社印の印影と割印の印影と訂正印の印影しか検出されない場合には、優先順位の付与は行われなくてもよい。この場合、文書画像から検出された印影のうち割印の印影と訂正印の印影以外の印影が社印の印影となる。
上述した実施形態において、必ずしも割印判定処理及び訂正印判定処理は行われなくてもよい。一般に、社印の印影は割印の印影や訂正印の印影等の他の印影よりも大きいため、社印の印影の方が他の印影よりも大きさによる優先順位が高くなる。従って、大きさによる優先順位により社印の印影が判定されてもよい。また、一般に、社印の印影は他の印影よりも周囲の空白が多いため、仮に社印の印影の大きさ以上の他の印影があったとしても、社印の印影の方が他の印影よりレイアウトによる優先順位が高くなる。従って、大きさによる優先順位に加えてレイアウトによる優先順位により社印の印影が判定されてもよい。
上述した実施形態において、社印の印影がキーとして用いられてもよい。この場合、キーの近傍範囲からバリューが抽出されてもよい。近傍範囲とは、社印の印影の位置を基準として定められた領域という。図2に示す例では、社印の印影24、25の位置から−x軸方向に定められた距離以内の範囲に契約者甲の会社名、契約者乙の会社名が記載されている。この場合、近傍範囲は、社印の印影24、25の位置から−x軸方向に定められた距離以内の範囲であってもよい。この場合、「会社名」という文字列はキーとして定められていなくてもよい。このような方法であっても、バリューを抽出することができる。
上述した実施形態において、文字認識は必ずしも文書画像全体に施されなくてもよい。例えば社印の印影の周辺範囲だけに文字認識が施されてもよい。
上述した実施形態において、特定種別の印影は社印の印影に限定されない。例えば契約者が個人の場合には、契約者名に対して個人の認印が押される場合がある。この場合には、特定種別の印影は、個人の認印の印影となる。個人の認印の印影は、大きさによる優先順位は低くなるが、レイアウトによる優先順位は高くなるため、特定種別の印影として判定され得る。
上述した実施形態において、文書画像により示される文書は契約書に限定されない。この文書は、例えば領収書、請求書等、印影の近傍にバリューが記載された文書であればどのような文書であってもよい。また、バリューも契約者を示す情報に限定されない。例えばバリューは、領収書や請求書の発行者等、印影の近傍に記載される情報であればどのような情報であってもよい。
上述した実施形態において、画像処理装置10の機能の一部を外部装置が備えていてもよい。例えば画像処理装置10と通信回線を介して接続されたサーバ装置が、画像処理装置10から文書画像を取得し、この文書画像からバリューを抽出する処理を行ってもよい。この例では、サーバ装置が本発明に係る情報処理装置となる。
上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また上記実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
本発明は、画像処理装置10において実行されるプログラムとして提供されてもよい。画像処理装置10は、本発明に係るコンピュータの一例である。このプログラムは、インターネットなどの通信回線を介してダウンロードされてもよいし、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。
10:画像処理装置、11:プロセッサ、12:メモリ、13:画像読取部、14:記憶部、15:操作部、16:表示部
Claims (12)
- プロセッサを備え、
前記プロセッサは、
文書を示す文書画像を取得し、
前記文書画像に含まれる特定種別の印影の位置を基準とした領域から対象文字列に対する対象情報を抽出する
ことを特徴とする情報処理装置。 - 前記プロセッサは、前記文書画像に含まれる複数の印影のうち第1種別の印影と第2種別の印影以外の印影を前記特定種別の印影として用いる
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第1種別の印影は、前記文書画像において定められた位置に間隔を空けて設けられている
ことを特徴とする請求項2に記載の情報処理装置。 - 前記定められた位置は、前記文書画像が前記文書に含まれる単一のページを示す場合には、前記文書画像の端部である
ことを特徴とする請求項3に記載の情報処理装置。 - 前記定められた位置は、前記文書画像が前記文書に含まれる複数のページを示す場合には、前記文書画像における前記複数のページの境界部である
ことを特徴とする請求項3に記載の情報処理装置。 - 前記第2種別の印影は、前記文書画像に含まれる取り消し線が付された文字に対応する位置に設けられている
ことを特徴とする請求項2に記載の情報処理装置。 - 前記特定種別の印影は、前記文書画像に含まれる他の印影より大きい
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記特定種別の印影は、前記文書画像に含まれる他の印影より周囲にある空白の量が多い
ことを特徴とする請求項7に記載の情報処理装置。 - 前記プロセッサは、前記対象文字列に対する複数の対象情報が前記領域に含まれる場合には、前記複数の対象情報のうち前記位置に最も近い対象情報を抽出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記プロセッサは、
前記文書画像から前記特定種別の印影を含む少なくとも一の印影を検出し、
前記少なくとも一の印影を検出した後に前記文書画像に対して文字認識を施し、
前記対象情報は、前記文字認識の結果である
ことを特徴とする請求項1に記載の情報処理装置。 - 前記プロセッサは、
前記文書画像から前記検出された特定種別の印影を除去し、
前記特定種別の印影が除去された前記文書画像に対して前記文字認識を施す
ことを特徴とする請求項10に記載の情報処理装置。 - コンピュータに、
文書を示す文書画像を取得するステップと、
前記文書画像に含まれる特定種別の印影の位置を基準とした領域から対象文字列に対する対象情報を抽出するステップと
を実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020055528A JP2021157375A (ja) | 2020-03-26 | 2020-03-26 | 情報処理装置及びプログラム |
US16/931,357 US20210303842A1 (en) | 2020-03-26 | 2020-07-16 | Information processing device and non-transitory computer readable medium |
CN202010910999.9A CN113449576A (zh) | 2020-03-26 | 2020-09-02 | 信息处理装置以及记录介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020055528A JP2021157375A (ja) | 2020-03-26 | 2020-03-26 | 情報処理装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021157375A true JP2021157375A (ja) | 2021-10-07 |
Family
ID=77808534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020055528A Pending JP2021157375A (ja) | 2020-03-26 | 2020-03-26 | 情報処理装置及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210303842A1 (ja) |
JP (1) | JP2021157375A (ja) |
CN (1) | CN113449576A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022150273A (ja) * | 2021-03-26 | 2022-10-07 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置、情報処理システム、情報処理プログラム及び情報処理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010157107A (ja) * | 2008-12-26 | 2010-07-15 | Hitachi Software Eng Co Ltd | 業務文書処理装置 |
-
2020
- 2020-03-26 JP JP2020055528A patent/JP2021157375A/ja active Pending
- 2020-07-16 US US16/931,357 patent/US20210303842A1/en not_active Abandoned
- 2020-09-02 CN CN202010910999.9A patent/CN113449576A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210303842A1 (en) | 2021-09-30 |
CN113449576A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5500480B2 (ja) | 帳票認識装置及び帳票認識方法 | |
US8213717B2 (en) | Document processing apparatus, document processing method, recording medium and data signal | |
EP3940589B1 (en) | Layout analysis method, electronic device and computer program product | |
US7796817B2 (en) | Character recognition method, character recognition device, and computer product | |
JP2005173730A (ja) | 帳票ocrプログラム、方法及び装置 | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
US20170249526A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN110909740A (zh) | 信息处理装置以及存储介质 | |
JP2021043775A (ja) | 情報処理装置及びプログラム | |
EP3151159A1 (en) | Information processing apparatus, information processing method and program | |
JP2021157375A (ja) | 情報処理装置及びプログラム | |
JP2008108114A (ja) | 文書処理装置および文書処理方法 | |
JP2018055256A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2008282094A (ja) | 文字認識処理装置 | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP6156740B2 (ja) | 情報表示装置及び入力情報補正プログラム並びに入力情報補正方法 | |
JP6711203B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2009223612A (ja) | 画像認識装置及びプログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
JP2021152696A (ja) | 情報処理装置及びプログラム | |
JP2021111157A (ja) | 情報処理装置、及び情報処理プログラム | |
JP4158696B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記録媒体 | |
US10659654B2 (en) | Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document | |
JP7532124B2 (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240702 |