JP2021105911A - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP2021105911A
JP2021105911A JP2019237726A JP2019237726A JP2021105911A JP 2021105911 A JP2021105911 A JP 2021105911A JP 2019237726 A JP2019237726 A JP 2019237726A JP 2019237726 A JP2019237726 A JP 2019237726A JP 2021105911 A JP2021105911 A JP 2021105911A
Authority
JP
Japan
Prior art keywords
character string
information processing
acquired
key
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019237726A
Other languages
English (en)
Inventor
橋本 紘
Hiroshi Hashimoto
紘 橋本
佑輔 神原
Yusuke Kanbara
佑輔 神原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2019237726A priority Critical patent/JP2021105911A/ja
Publication of JP2021105911A publication Critical patent/JP2021105911A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】分類対象の特徴を容易に特定することが可能な仕組みを提供する。【解決手段】帳票を非定型帳票用のOCRをかけることにより全ワードと位置情報を取得し、Key−Value形式で取得されたワードのうち、Value形式のワードと、表テーブルを構成するワードと、を全ワードから削除することで、残されたワードから帳票の特徴語を定める。【選択図】図4

Description

本発明は、解析対象の種別の特定に係る技術に関する。
主に金融や保険業界において、複数の手書き帳票を効率よく処理するために、自動文字認識システムが利用される。
このような文字認識認識システムでは、OCR技術が利用されているが、OCRでは、帳票のうち読み取り対象項目の座標や文字種別の情報を予め定義しておき(読み取り対象定義情報)、入力帳票画像から対象領域を切出して文字認識処理にかけるということが一般的に行われる。
通常、業務において扱う帳票の種類は複数種類あり、この場合、読み取り対象定義情報は帳票の種類によってそれぞれ登録しておく。
この場合、文字認識処理の前段として、入力帳票画像がどの種類の帳票であるかを精度良く認識し、適用する読み取り対象定義情報を決定することが重要となる。
帳票認識手法としては、帳票画像の罫線特徴によるマッチングや、予め帳票を特定づけるバーコードやIDを所定位置に印字しておくなど様々な手法が一般的に利用されている。
また、帳票認識手法として、帳票の画像特徴量による識別する手法があり、なかでも、ニューラルネットワークを用いた画像の類似度による帳票識別の手法がある。
このような機械学習手法においては学習によって精度を高めることができ、分類精度の低かった画像を優先的に抽出して追加学習することで効率的に分類性能を高める手法が提案されている(例えば、特許文献1参照)。
特開2017−224184号公報
しかしながら、特許文献1に記載の発明では、所定の形式を備えた画像データであれば学習することによって分類精度を高めることができるものの、帳票によっては、作成者が独自に作成する非定型の帳票も存在する。
したがって、このような帳票を学習したとしても類似の定型帳票なども存在し、非定型の帳票がどのような特徴をもって分類することが難しいという問題もある。
よって、本願発明では、解析対象の特徴を容易に特定することが可能な仕組みを提供することを目的とする。
上記課題を解決するための本発明は、解析対象の特徴を求める情報処理装置であって、解析対象を解析することにより文字列を取得する取得手段と、前記取得手段により取得した文字列から所定条件を満たす文字列を削除する削除手段と、を備えたことを特徴とする。
そこで、本願発明では、解析対象の特徴を容易に特定することができる、という効果を奏する。
情報処理システムの概略構成を示す構成図である。 クライアント装置及び情報処理装置のハードウェアの概略構成を示す構成図である。 特徴語を抽出する処理を示すフローチャートである。 特徴語を抽出する詳細な処理を示すフローチャートである。 不要語を除去する処理を示すフローチャートである。 帳票の一例を示す模式図である。 全取得ワードテーブルの構成を示す構成図である。 Key−Valueテーブルの構成を示す構成図である。 表テーブルの構成を示す構成図である。 全取得ワードテーブルの構成を示す構成図である。 除外条件設定テーブルの構成を示す構成図である。 除外キーテーブルの構成を示す構成図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する
図1には、本発明の実施形態に係る情報処理システムの概略の構成図が示されている。尚、各装置の機能については、後述するフローチャートを用いて合わせて説明を行う。
情報処理システム100は、紙媒体等を読み取ることによりデータを生成するスキャナ装置102、スキャナ装置102において得られたデータに対する学習の指示を行い、学習結果を表示するクライアント装置104、及び入力されたデータを用いて学習を行う情報処理装置106を備えている。
スキャナ装置102は、スキャン画像送信部108を備え、スキャン画像送信部108は、紙媒体等のスキャンにより得られた画像データをクライアント装置104へ送信する。
クライアント装置104は、スキャン画像受信部110、操作受付部112、及び入力画像送信部114を備えている。
スキャン画像受信部110は、スキャナ装置102から送信された画像データを受信し、操作受付部112は、スキャナ装置102や情報処理装置106に対して、表示されている画面を利用する等して、ユーザからの操作指示を受付け、入力画像送信部114は、解析対象となる画像ファイル等を情報処理装置106へ送信する。
情報処理装置106は、入力画像受信部116、画像種別判定部118、記憶部120を備えている。
入力画像受信部116は、クライアント装置104から送信される画像ファイル等を受信し、画像種別判定部118は、解析対象となる画像をOCR処理により得られた情報を用いて帳票の種別を識別し、記憶部120は、それぞれの処理で用いられるデータを記憶する。
次に、図2では、情報処理装置106に適用可能な情報処理装置のハードウェア構成の一例について説明する。
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、CRTディスプレイ(CRT)210等の表示器への表示を制御する。
なお、図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。
207はメモリコントローラで、ブートプログラム、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HD)や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
208は通信I/Fコントローラで、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。
また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。
さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
次に、図3を用いて、スキャナ装置102で帳票をスキャンすることにより得られた画像データをクライアント装置104で選定し、選定された画像データをOCRすることにより帳票における特徴語を抽出する処理を説明する。
ステップS100では、画像種別判定部118は、入力画像受信部116により受信した帳票の画像データに対して、非定型の対象をOCR処理するためのモジュールを適用し、処理結果を記憶部120の全取得ワードテーブル(図7)、Key−Valueテーブル(図8)、表テーブル(図9)に記憶する。
帳票の例として、図6に示すような形式の請求書があり、この請求書は、定型のフォーマットにより作成されておらず、非定型のフォームからなるものであるため、非定型のフォームをOCR処理可能なモジュールを適用して文字列等の情報を取得する。
図7には、全取得ワードテーブルの構成が示されており、このテーブルには、OCR処理を行って得られた全ての文字列等の情報を記憶している。
全取得ワードテーブルは、帳票から取得したデータを示す取得データとその帳票における取得データの位置座標とからなる。
この位置座標は、帳票の左上端の点を原点として、横の位置、縦の位置に関する情報を示しており、取得ワードの左上端の位置の情報を示している(以下、位置情報については同様である)。
図8には、Key−Valueテーブルの構成が示されており、このテーブルには、帳票に対してOCR処理を行い、Key−Value形式で取得した結果を記憶している。
Key−Valueテーブルは、Key−Value形式で取得したKeyにあたる文字列を示すKeyと、Key−Value形式で取得したValueにあたる文字列を示すValueと、Key−Value形式で取得したKeyの位置情報を示すKey−位置情報と、Key−Value形式で取得したValueの位置情報を示すVlue−位置情報とを含んで構成されている。
図9には、表テーブルの構成が示されており、このテーブルには、帳票に対してOCR処理を行い、帳票に表構造を備えた項目が存在する場合、Tableデータ形式で取得した結果を記憶している。
表テーブルは、Tableデータに存在する文字列数分作成し、複数の文字列がある場合は、複数列作成し(Colum1、Colum2、Colum3、Colum4・・・)、各文字列の位置座標も複数列作成する(Colum1位置座標、Colum2位置座標、Colum3位置座標、Colum4位置座標・・・)。
ステップS102では、画像種別判定部118は、ステップS100においてOCR処理して得られた文字列等から帳票に対する特徴語を抽出する(詳細は、図4を用いて後述する)。
ステップS104では、画像種別判定部118は、ステップS102において抽出した特徴語を帳票に対する特徴語として決定する。
次に、図4に示すフローチャートを用いて、帳票から特徴語を抽出する詳細な処理について説明を行う。
ステップS200では、画像種別判定部118は、記憶部120の除外条件設定テーブル(図11)から設定値「Tableデータからカラム名以外を除外する」に対する値を取得する。
図11には、除外条件設定テーブルの構成が示されており、特定の文字列を除外する条件を有効とするか無効とするかにかかる情報を記憶している。
除外条件設定テーブルは、特定文字列の除外条件を示す設定値と除外条件を有効とみなす場合にTRUE、無効とみなす場合にFALSEが設定される値とを含んだ構成を備えている。
ステップS202では、画像種別判定部118は、ステップS200において取得した設定値に対する値が、TRUEかFALSEかを判定し、TRUEである場合は、ステップS204に処理を進め、FALSEである場合は、ステップS210へ処理を進める。
ステップS204では、画像種別判定部118は、表テーブルに記憶されているデータのうち取得していないレコードが存在するか否かを判定し、存在すると判定した場合は、ステップS206へ処理を進め、存在すると判定しない場合は、ステップS210へ処理を進める。
ステップS206では、画像種別判定部118は、表テーブルから取得していないレコードを1レコード取得する。
ステップS208では、画像種別判定部118は、全取得ワードテーブルからステップS206において取得したレコードのColumnX(Xは数値)及びColumnX位置情報(Xは数値)に該当する取得テータ及び位置情報のレコードを削除し、ステップS204へ処理を進める。
ステップS210では、画像種別判定部118は、記憶部120の除外条件設定テーブル(図11)から設定値「Key−Valueデータから特定キーを除外する」に対する値を取得する。
ステップS212では、画像種別判定部118は、ステップS210において取得した設定値に対する値が、TRUEかFALSEかを判定し、TRUEである場合は、ステップS204に処理を進め、FALSEである場合は、ステップS210へ処理を進める。
ステップS214では、画像種別判定部118は、記憶部120の除外キーテーブル(図12参照)に記憶されているデータのうち取得していないレコードが存在するか否かを判定し、存在すると判定した場合は、ステップS216へ処理を進め、存在すると判定しない場合は、本処理を終了する。
図12には、除外キーテーブルの構成が示されており、このテーブルには、特徴語の抽出にあたり除外する文字列に関する情報を記憶している。
除外キーテーブルは、除外する文字列を示すキーと、当該文字列が帳票の文字列と部分一致するか完全一致するかにより除外対象とする条件を示す一致条件を含んで構成されている。
ステップS216では、画像種別判定部118は、除外キーテーブルから取得していないレコードを1レコード取得する。
ステップS218では、画像種別判定部118は、ステップS216において取得したレコードの一致条件が完全一致するの場合、ステップS220へ処理を進め、部分一致するの場合、ステップS222へ処理を進める。
ステップS220では、画像種別判定部118は、ステップS216において取得したレコードのキーとKey−ValueテーブルのKeyが完全一致する文字列が全取得ワードテーブルに存在するかチェックする。
ステップS222では、画像種別判定部118は、ステップS216において取得したレコードのキーとKey−ValueテーブルのKeyとが部分一致する文字列が全取得ワードテーブルに存在するかチェックする。
ステップS224では、画像種別判定部118は、不要語の除去処理(詳細は、図5を用いて後述する。)を行い、ステップS214へ処理を進める。
次に、図5に示すフローチャートを用いて、不要語の除去処理について説明を行う。
ステップS300では、画像種別判定部118は、ステップS220あるいはステップS222において存在した場合は、ステップS302へ処理を進め、存在すると判定しない場合は、本処理を終了する。
ステップS302では、画像種別判定部118は、存在すると判定したKeyのValueデータとValue―位置情報が同じ文字列を全取得ワードテーブルから削除する。
このような一連の処理を行うことで、結果的には、図10に示すように特徴語のなかから不要な語を取り除いたデータが全取得ワードテーブルに残されることになる。
これにより、帳票の特徴語を決定することが可能となり、このデータに対して帳票の種別を特定するようなタグ付けを行って学習し、学習したデータを用いて、入力された帳票の種別を推定することが可能となる。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスクなどを用いることが出来る。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、コンピュータは、1または複数のプロセッサーまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサーまたは回路のネットワークを含みうる。
プロセッサーまたは回路は、中央演算処理装置(CPU)、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートウェイ(FPGA)を含みうる。また、プロセッサーまたは回路は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)を含みうる。
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置(例えば、画像処理装置等)に適用しても良い。
100 情報処理システム
102 スキャナ装置
104 クライアント装置
106 情報処理装置

Claims (4)

  1. 解析対象の特徴を求める情報処理装置であって、
    解析対象を解析することにより文字列を取得する取得手段と、
    前記取得手段により取得した文字列から所定条件を満たす文字列を削除する削除手段と、
    を備えたことを特徴とする情報処理装置。
  2. 前記削除手段により削除されていない文字列を学習する学習部を備えたことを特徴とする請求項1に記載の情報処理装置。
  3. 解析対象の特徴を求める情報処理装置の制御方法であって、
    前記情報処理装置は、
    解析対象を解析することにより文字列を取得する取得ステップと、
    前記取得ステップにより取得した文字列から所定条件を満たす文字列を削除する削除ステップと、
    を実行することを特徴とする情報処理装置の制御方法。
  4. コンピュータを、
    解析対象を解析することにより文字列を取得する取得手段と、
    前記取得手段により取得した文字列から所定条件を満たす文字列を削除する削除手段と、
    して機能させるためのプログラム。
JP2019237726A 2019-12-27 2019-12-27 情報処理装置、制御方法、及びプログラム Pending JP2021105911A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019237726A JP2021105911A (ja) 2019-12-27 2019-12-27 情報処理装置、制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019237726A JP2021105911A (ja) 2019-12-27 2019-12-27 情報処理装置、制御方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2021105911A true JP2021105911A (ja) 2021-07-26

Family

ID=76918854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019237726A Pending JP2021105911A (ja) 2019-12-27 2019-12-27 情報処理装置、制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2021105911A (ja)

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US20200167558A1 (en) Semantic page segmentation of vector graphics documents
CN107832662B (zh) 一种获取图片标注数据的方法和系统
US20040267734A1 (en) Document search method and apparatus
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US20190294912A1 (en) Image processing device, image processing method, and image processing program
JP2016048444A (ja) 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
JP6529254B2 (ja) 情報処理装置、情報処理方法、プログラムおよび記憶媒体
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR20220005243A (ko) 수기로 작성된 스캔본 전자파일의 인식과 공유 방법 및 그 장치
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备
JP2020154962A (ja) 情報処理装置及びプログラム
JP2021105911A (ja) 情報処理装置、制御方法、及びプログラム
CN110941947A (zh) 一种文档编辑的方法、装置、计算机存储介质及终端
US20210303782A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2007066286A6 (ja) 画像検索装置、画像処理装置、及びそれらの方法
JP2007066286A (ja) 画像検索装置、画像処理装置、及びそれらの方法
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP5005633B2 (ja) 画像検索装置、画像検索方法、情報処理プログラム及び記録媒体
JP2009181225A (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2019101647A (ja) 情報処理装置、その制御方法とプログラム