JP2022128202A - 情報処理装置、情報処理システム、及び情報処理プログラム - Google Patents

情報処理装置、情報処理システム、及び情報処理プログラム Download PDF

Info

Publication number
JP2022128202A
JP2022128202A JP2021026598A JP2021026598A JP2022128202A JP 2022128202 A JP2022128202 A JP 2022128202A JP 2021026598 A JP2021026598 A JP 2021026598A JP 2021026598 A JP2021026598 A JP 2021026598A JP 2022128202 A JP2022128202 A JP 2022128202A
Authority
JP
Japan
Prior art keywords
document
processing
preprocessing
image conversion
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021026598A
Other languages
English (en)
Inventor
周作 久保
Shusaku Kubo
邦彦 小林
Kunihiko Kobayashi
茂 岡田
Shigeru Okada
史 小坂
Chikashi Kosaka
惇 安藤
Andojun
公則 吉塚
Kiminori Yoshizuka
裕介 鈴木
Yusuke Suzuki
政幸 山口
Masayuki Yamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Priority to JP2021026598A priority Critical patent/JP2022128202A/ja
Priority to US17/400,625 priority patent/US20220269898A1/en
Publication of JP2022128202A publication Critical patent/JP2022128202A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】文字認識の前処理として文書全体に一律に単一の画像変換処理を実行する場合に比べて、処理速度と文字認識精度の両立が可能な情報処理装置、情報処理システム、及び情報処理プログラムを提供することを目的とする。【解決手段】前処理手順決定部56が、文書の種類に応じて予め定めた取得すべき属性、文書内の属性を取得する際の前処理、及び処理の手順についての情報を取得して、前処理の手順を決定する。また、前処理部58が、前処理手順決定部56の決定結果に従って、文書情報に対して前処理を実行する。【選択図】図5

Description

本発明は、情報処理装置、情報処理システム、及び情報処理プログラムに関する。
特許文献1には、対象画像から文字情報を抽出する画像分析装置が提案されている。当該画像分析装置は、特定のフォントの文字に学習用画像変換を施して学習用画像を生成する学習用画像生成器と、認識済み文字を含む第1画像とその認識済み文字を特定のフォントで表した第2画像との組を用いて第2画像を第1画像へ変換する学習用画像変換を学習用画像生成器に学習させる学習用画像生成学習部と、学習用画像生成器が生成した学習用画像とその学習用画像に対応する文字との組を用いて画像から文字の抽出を学習させる文字認識学習部と、を備えたOCRエンジン学習装置によって学習したOCRエンジンと、当該OCRエンジンを用いて対象画像から文字情報を抽出するOCR部と、を有する。
特許文献2には、外部装置の提供するアプリケーションを利用する場合に、適切な前処理を行う画像形成装置が提案されている。詳細には、画像形成装置は、外部アプリに応じた前処理を決定し、決定した前処理をメモリーに登録しておく。そして、外部アプリを利用する画像処理が指示されるとメモリーに当該外部アプリに対応すると登録された前処理を行なったデータを外部アプリに渡す。また、前処理を決定する際には、画像形成装置は、第1の画像データに第1の画像処理を行なって第2の画像データを生成して外部アプリに渡し、外部アプリから処理後のデータを受け付ける。そして、画像形成装置は、第2の画像データと処理後のデータとに基づいて、第1の画像処理を当該外部アプリに対応する前処理とするか否かを決定する。
特開2019-82814号公報 特許第6237369号公報
本発明は、文字認識の前処理として文書全体に一律に単一の画像変換処理を実行する場合に比べて、処理速度と文字認識精度の両立が可能な情報処理装置、情報処理システム、及び情報処理プログラムを提供することを目的とする。
上記目的を達成するために、第1態様に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文字認識の前処理として、前記文字認識の対象の文書に対して、前記文書内の属性毎、または前記文書の種類に応じて予め定めた前記文書内の領域毎に、予め定めた画像変換処理を実行し、前記画像変換処理が行われた前記文書に対して文字認識を行って結果を出力する処理を行う。
また、第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記画像変換処理は、文字以外を除去する第1画像変換処理、及び前記第1画像変換処理よりも文字認識精度が低下するが文字以外を除去する処理速度が速い第2画像変換処理を含む。
また、第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記第1画像変換処理は、機械学習により予め学習した人工知能を用いた画像変換処理である。
また、第4態様に係る情報処理装置は、第3態様に係る情報処理装置において、前記第1画像変換処理は、文字以外の除去する対象毎にそれぞれ異なる複数種類の画像変換処理を含む。
また、第5態様に係る情報処理装置は、第1態様~第4態様の何れか1の態様に係る情報処理装置において、前記プロセッサは、画像変換処理毎に処理するようにページ順を入れ替えて前記画像変換処理を実行する。
また、第6態様に係る情報処理装置は、第5態様に係る情報処理装置において、前記プロセッサは、前記文書の種類毎に予め定めたページ順に入れ替えて前記画像変換処理を実行する。
また、第7態様に係る情報処理システムは、第1態様~第6態様の何れか1の態様に記載の情報処理装置と、前記文書を読み取った読取結果を前記情報処理装置に送信して文字認識を依頼する依頼装置と、を含む。
また、第8態様に係る情報処理プログラムは、コンピュータに、文字認識の前処理として、前記文字認識の対象の文書に対して、前記文書内の属性毎、または前記文書の種類に応じて予め定めた前記文書内の領域毎に予め定めた画像変換処理を実行し、前記画像変換処理が行われた前記文書に対して文字認識を行って結果を出力する処理を実行させる。
第1態様によれば、文字認識の前処理として文書全体に一律に単一の画像変換処理を実行する場合に比べて、処理速度と文字認識精度の両立が可能な情報処理装置を提供できる。
第2態様によれば、複数種類の画像変換処理を用いることで、処理速度と文字認識精度の両立を図ることが可能となる。
第3態様によれば、他の画像変換処理を第1画像変換処理として用いる場合に比べて文字認識精度を向上することが可能となる。
第4態様によれば、文字以外の除去する対象に合わせた画像変換処理を行うことが可能となる。
第5態様によれば、ページ順を入れ替えない場合に比べて、画像変換処理を効率的に行うことが可能となる。
第6態様によれば、ページ毎に対応する画像変換処理を決定してページ順を入れ替えるよりもページ順の入れ替えが容易となる。
第7態様によれば、文字認識の前処理として文書全体に一律に単一の画像変換処理を実行する場合に比べて、処理速度と文字認識精度の両立が可能な情報処理システムを提供できる。
第8態様によれば、文字認識の前処理として文書全体に一律に単一の画像変換処理を実行する場合に比べて、処理速度と文字認識精度の両立が可能な情報処理プログラムを提供できる。
本実施形態に係る情報処理システムの概略構成を示す図である。 本実施形態に係る情報処理システムにおける画像形成装置の電気系の要部構成を示すブロック図である。 本実施形態に係る情報処理システムにおける、サーバ、携帯端末、及びクライアント端末の電気系の要部構成を示すブロック図である。 文字認識された文書内の属性の抽出を説明するための図である。 本実施形態に係る情報処理システムにおけるサーバの機能構成を示す機能ブロック図である。 文書の種類毎に取得する重要語と前処理の処理内容とその処理位置とを予め定めたリストの一例を示す。 本実施形態に係る情報処理システムのサーバで行われる処理の流れの一例を示すフローチャートである。 文書の種類毎に取得する重要語と前処理の処理内容と処理順とを予め定めたリストの一例を示す。 処理順を入れ替えて前処理を実行する例を説明するための図である。 本実施形態に係る情報処理システムのサーバにおいて、契約書のページ順を入れ替えて前処理を行う場合の処理の流れの一例を示すフローチャートである。
以下、図面を参照して本発明の実施形態の一例を詳細に説明する。図1は、本実施形態に係る情報処理システムの概略構成を示す図である。
本実施形態に係る情報処理システム10は、図1に示すように、画像形成装置12、スキャナ装置13、情報処理装置としてのサーバ14、携帯端末15、及びクライアント端末16を備えている。なお、本実施形態では、画像形成装置12、スキャナ装置13、サーバ14、携帯端末15、及びクライアント端末16を1つのみ示すがそれぞれ複数備えてもよい。また、画像形成装置12、スキャナ装置13、携帯端末15、及びクライアント端末16は依頼装置の一例に対応し、少なくとも1つ以上を残して他を省略した形態としてもよい。また、クライアント端末16としては、例えば、パーソナルコンピュータが一例として適用され、携帯端末15としては、タブレット端末やスマートフォン等の携帯端末が適用される。
画像形成装置12、スキャナ装置13、サーバ14、携帯端末15、及びクライアント端末16は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、イントラネット等の通信回線18を介して各々接続されている。そして、画像形成装置12、スキャナ装置13、サーバ14、携帯端末15、及びクライアント端末16の各々は、通信回線18を介して各種データの送受信を相互に行うことが可能とされている。
図2は、本実施形態に係る情報処理システム10における画像形成装置12の電気系の要部構成を示すブロック図である。
本実施形態に係る画像形成装置12は、図2に示すように、CPU(Central Processing Unit)20A、ROM(Read Only Memory)20B、及びRAM(Random Access Memory)20Cを含むコントロール・ユニット20を備えている。CPU20Aは、画像形成装置12の全体の動作を司る。RAM20Cは、CPU20Aによる各種プログラムの実行時のワークエリア等として用いられる。ROM20Bは、各種制御プログラムや各種パラメータ等が予め記憶される。そして、画像形成装置12は、コントロール・ユニット20の各部がシステムバス42によって電気的に接続されている。
一方、本実施形態に係る画像形成装置12は、各種のデータやアプリケーション・プログラム等を記憶するHDD(hard disk drive)26を備えている。また、画像形成装置12は、ユーザインタフェース22に接続され、ユーザインタフェース22のディスプレイへの各種の操作画面等の表示を制御する表示制御部28を備えている。また、画像形成装置12は、ユーザインタフェース22に接続され、ユーザインタフェース22を介して入力される操作指示を検出する操作入力検出部30を備えている。そして、画像形成装置12では、HDD26、表示制御部28、及び操作入力検出部30がシステムバス42に電気的に接続されている。なお、本実施の形態に係る画像形成装置12では、HDD26を備える例を説明するが、これに限らず、フラッシュメモリ等の不揮発性の記憶部を備えてもよい。
また、本実施形態に係る画像形成装置12は、原稿読取部46による光学的な画像の読み取り動作、及び原稿搬送部による原稿送り動作を制御する読取制御部32と、画像形成部24による画像形成処理、及び搬送部25による画像形成部24への用紙の搬送を制御する画像形成制御部34と、を備えている。また、画像形成装置12は、通信回線18に接続され、当該通信回線18に接続されたサーバ14等の他の外部装置と通信データの送受信を行う通信回線インタフェース(通信回線I/F)部36、及び各種画像処理を行う画像処理部44を備えている。また、画像形成装置12は、図示しない電話回線に接続され、当該電話回線に接続されているファクシミリ装置とファクシミリデータの送受信を行うファクシミリインタフェース(ファクシミリI/F)部38を備えている。また、画像形成装置12は、ファクシミリインタフェース部38を介したファクシミリデータの送受信を制御する送受信制御部40を備えている。そして、画像形成装置12では、送受信制御部40、読取制御部32、画像形成制御部34、通信回線インタフェース部36、ファクシミリインタフェース部38、及び画像処理部44がシステムバス42に電気的に接続されている。
以上の構成により、本実施形態に係る画像形成装置12は、CPU20Aにより、RAM20C、ROM20B、及びHDD26へのアクセスを各々実行する。また、画像形成装置12は、CPU20Aにより、表示制御部28を介したユーザインタフェース22のディスプレイへの操作画面、各種のメッセージ等の情報の表示の制御を実行する。また、画像形成装置12は、CPU20Aにより、読取制御部32を介した原稿読取部46及び原稿搬送部の作動の制御を実行する。また、画像形成装置12は、CPU20Aにより、画像形成制御部34を介した画像形成部24及び搬送部25の作動の制御と、通信回線インタフェース部36を介した通信データの送受信の制御と、を各々実行する。また、画像形成装置12は、CPU20Aにより、送受信制御部40によるファクシミリインタフェース部38を介したファクシミリデータの送受信の制御を実行する。さらに、画像形成装置12は、CPU20Aにより、操作入力検出部30によって検出された操作情報に基づくユーザインタフェース22における操作内容の把握が行われ、この操作内容に基づく各種の制御を実行する。
なお、スキャナ装置13は、画像形成装置12のコントロール・ユニット20、読取制御部32、及び原稿読取部46の構成と同様の構成を含み、基本的な構成は類似するため詳細な説明を省略する。
続いて、本実施形態に係るサーバ14、携帯端末15、及びクライアント端末16の電気系の要部構成について説明する。図3は、本実施形態に係る情報処理システム10における、サーバ14、携帯端末15、及びクライアント端末16の電気系の要部構成を示すブロック図である。なお、サーバ14、携帯端末15、及びクライアント端末16は基本的には一般的なコンピュータの構成とされているので、サーバ14を代表して説明し、携帯端末15及びクライアント端末16については対応する符号のみ付して詳細な説明は省略する。
本実施の形態に係るサーバ14は、図3に示すように、CPU14A、ROM14B、RAM14C、HDD14D、キーボード14E、ディスプレイ14F、及び通信回線インタフェース(I/F)部14Gを備えている。CPU14Aは、サーバ14の全体の動作を司る。ROM14Bは、各種制御プログラムや各種パラメータ等が予め記憶される。RAM14Cは、CPU14Aによる各種プログラムの実行時のワークエリア等として用いられる。HDD14Dは、各種のデータやアプリケーション・プログラム等が記憶される。キーボード14Eは各種の情報を入力するために用いられる。ディスプレイ14Fは、各種の情報を表示するために用いられる。通信回線インタフェース部14Gは、通信回線18に接続され、当該通信回線18に接続された他の装置と各種データの送受信を行う。以上のサーバ14の各部はシステムバス14Hにより電気的に相互に接続されている。なお、本実施形態に係るサーバ14では、HDD14Dを備える例を説明するが、これに限らず、フラッシュメモリ等の他の不揮発性の記憶部を備えてもよい。
以上の構成により、本実施の形態に係るサーバ14は、CPU14Aにより、ROM14B、RAM14C、及びHDD14Dに対するアクセス、キーボード14Eを介した各種データの取得、ディスプレイ14Fに対する各種情報の表示を各々実行する。また、サーバ14は、CPU14Aにより、通信回線インタフェース部14Gを介した通信データの送受信の制御を実行する。
ところで、企業における文書管理について、一般的に、文書の種類、企業名、契約日や見積日などで分類し、ファイリングなどをして管理することが多い。文書内容を一元的に管理する場合、別途、表計算ソフトウエアなどに文書名、企業名、主要なサービス名、日付等を転記して、一覧で見られるようにして管理することが多い。しかしながら、このような一覧管理を実施するには、ファイルを持ってきて、対象となるファイルを開き、該当内容が記載されている場所を探して、それらを見ながら転記するという作業が必要となる。
そこで、文書を読み取って光学的文字認識(所謂OCR:Optical character recognition)処理を実施して必要な情報を取り出すために、上述のように構成された本実施形態に係る情報処理システム10では、サーバ14が、各種文書の文字を認識する文字認識処理を行って文書内の属性を抽出する処理を行う。例えば、図4に示すように、文字認識された文書から、タイトル、契約者、契約締結日、ユーザ指定項目等の項目を文書内の属性として抽出する。タイトルは、契約書等の単語をキーとしてタイトルをバリューとして抽出する。契約者は、甲、乙、丙となっている契約者名をバリューとして抽出する。契約締結日は、パターンマッチング等により契約締結日を抽出する。ユーザ指定項目は、ユーザが予め指定した文字列をキーとしてその右側の文字列をバリューとして抽出する。
しかしながら、取得する文書のキーとなる文字列について背景などの状況に応じて文字認識がし難いことがある。例えば、契約書や、見積書、請求書などの文書では、印影と文字が重なることにより文字列が認識し難くなることがある。また、見積書や請求書などの文書では、表内の網点により文字列が認識し難くなることがある。また、証明書では、地紋により文字列が認識し難くなることがある。また、ファクシミリでは、解像度が低いため文字列が認識し難いことがある。これらの処理の中で近年では、機械学習により予め学習した人工知能を用いたAI(Artificial Intelligence)処理による画像変換処理を前処理として行うことで、文字以外の画像を除去して文字認識し易い画像を生成する処理が行われることがあるが、この処理は非常に重たい処理となるため、ユーザに待ち時間を強いてしまう。
そこで、本実施形態では、サーバ14が、文字認識の前処理として、文字認識の対象の文書に対して、文書内の属性毎、または文書の種類に応じて予め定めた文書内の領域毎に、予め定めた画像変換処理を実行し、画像変換処理が行われた文書に対して文字認識を行って結果を出力する処理を行うようになっている。なお、以下では、文書内の属性毎に予め定めた画像変換処理を実行する例として、ページ単位で画像変換処理を切り替えて実行する例を説明する。
ここで、サーバ14のCPU14AがROM14Bに記憶されたプログラムを実行することにより実現される機能構成について説明する。図5は、本実施形態に係る情報処理システム10におけるサーバ14の機能構成を示す機能ブロック図である。
本実施形態に係るサーバ14は、図5に示すように、文書情報取得部50、基本前処理部52、文書種判定部54、前処理手順決定部56、前処理部58、文字認識処理部60、属性抽出部62、及び結果出力部64の機能を有する。
文書情報取得部50は、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16から文書情報を取得する。紙文書の場合は、画像形成装置12またはスキャナ装置13によって紙文書を読み取ることによって生成された文書情報を取得する。
基本前処理部52は、文書の天地の検出、傾き補正、及び文書の特定等を基本前処理として行う。文書の特定としては、例えば、文書情報の最初のページに対して簡易的に文字認識を行ってタイトル等を検出することにより文書の種類を特定してもよいし、文書の種類をユーザに入力させて入力された文書の種類を受け付けてもよい。
文書種判定部54は、基本前処理部52により簡易的に文字認識を行って文書の特定を行う場合は、基本前処理部52によって特定された文書から文書の種類を判定する。また、文書の種類をユーザに入力させる場合には、文書情報取得部50が文書情報の取得と共に、入力された情報を受け付けて、受け付けた情報から文書の種類を判定する。
前処理手順決定部56は、文書の種類に応じて予め定めた取得すべき属性、文書内の属性を取得する際の前処理、及び処理の手順についての情報を取得して、前処理の手順を決定する。前処理手順決定部56は、例えば、文書の種類毎に取得すべき項目等の属性、文書内の属性を取得する際の前処理、及び処理位置を定めたリストを用いて前処理の手順を決定する。具体的には、図6に示すリストのように、文書名毎に取得する属性としての重要語、前処理の処理内容、及び処理位置を予め定めておき、文書の種類に応じて対応する内容を決定する。図6は、文書の種類毎に取得する重要語と前処理の処理内容とその処理位置とを予め定めたリストの一例を示す。図6の例では、契約書のタイトルは印影を除去するAI処理で最初のページとされ、契約書の契約者名は印影を除去するAI処理で最後のページとされ、契約書の契約締結日はドロップアウトカラー処理で間のページとされている。また、見積書のタイトルは印影を除去するAI処理で最初のページとされ、見積書の見積元、見積金額、見積有効期限、及び提出先はドロップアウトカラー処理で最初以外のページとされている。また、請求書のタイトル及び請求元企業名は印影を除去するAI処理で最初のページとされ、請求書の請求金額及び請求費目はドロップアウトカラー処理で最初以外のページとされている。
前処理部58は、前処理手順決定部56の決定結果に従って、文書情報に対して前処理を実行する。本実施形態では、複数種類の前処理の中から前処理手順決定部56で決定された前処理を行う。複数種類の前処理の一例としては、第1画像変換処理の一例としての複数種類のAI処理、第2画像変換処理の一例としてのドロップアウトカラー、画面画像濃度処理、シャープネス調整等の画像変換処理を行う。なお、AI処理は、予め機械学習した人工知能モデルを用いた人工知能処理により画像に合わせた画像変換を行うことにより文字以外の画像を除去する処理である。AI処理は、文字以外の除去する対象毎に学習した複数種類とされている。ドロップアウトカラーは、AI処理よりも文字認識精度が低下するが処理速度が速い処理であって、各色について2値化して予め定めた閾値を用いて所望の色の画像を除去する処理である。画面画像濃度処理は、画像の濃度を調整する処理である。シャープネス調整は、画像の輪郭の強調度合いを調整する処理である。
文字認識処理部60は、前処理部58による画像変換処理後の文書情報から文字を認識して文字情報を生成する。文字認識処理は周知の技術によって文字認識を行う。
属性抽出部62は、文字認識処理によって生成された文字情報に基づいて、文書内の項目等の属性を抽出する。
結果出力部64は、属性抽出部62の抽出結果を要求元の装置へ出力する。例えば、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16へ出力する。
続いて、上述のように構成された本実施形態に係る情報処理システム10のサーバ14で行われる具体的な処理について説明する。図7は、本実施形態に係る情報処理システム10のサーバ14で行われる処理の流れの一例を示すフローチャートである。なお、図7の処理は、例えば、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16等によって文字認識処理の実施が指示された場合に開始する。
ステップ100では、CPU14Aが、文書情報を取得してステップ102へ移行する。すなわち、文書情報取得部50が、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16から文書情報を取得する。紙文書の場合は、画像形成装置12またはスキャナ装置13によって紙文書を読み取ることによって生成された文書情報を取得する。
ステップ102では、CPU14Aが、取得した文書情報に対して基本前処理を実施してステップ104へ移行する。すなわち、基本前処理部52が、文書の天地の検出、傾き補正、及び文書の特定等を基本前処理として行う。
ステップ104では、CPU14Aが、文書の種類を判別してステップ106へ移行する。すなわち、文書種判定部54が、基本前処理部52により簡易的に文字認識を行って文書の特定を行う場合は、基本前処理部52によって特定された文書から文書の種類を判定する。また、文書の種類をユーザに入力させる場合には、文書情報取得部50が文書情報の取得と共に入力された情報を受け付けて、受け付けた情報から文書の種類を判定する。
ステップ106では、CPU14Aが、処理手順決定処理を行ってステップ108へ移行する。処理手順決定処理は、前処理手順決定部56が、取得する重要語、前処理の処理内容、及び前処理の処理位置を文書の種類毎に予め定めたリストに基づいて、前処理手順を決定する。例えば、図6に示すリストに基づいて、文書の種類に応じて処理手順を決定する。具体的には、文書の種類が契約書の場合、タイトルがある最初のページをAI処理とし、契約者名がある最後のページをAI処理とし、契約締結日がある間のページをドロップアウトカラー処理とする。
ステップ108では、CPU14Aが、ページ毎に前処理を実施してステップ110へ移行する。すなわち、前処理部58が、前処理手順決定部56の決定結果に従って、1ページに着目して、文書情報に対して前処理を実行する。本実施形態では、複数種類の前処理の中から前処理手順決定部56で決定された前処理を行う。例えば、文書が契約書の場合、タイトルがある最初のページと、契約者名がある最後のページは、印影を除去するためにAI処理による前処理を行い、契約締結日等がある最初と最後の間のページはドロップアウトカラー処理による前処理を行う。
ステップ110では、CPU14Aが、前処理が行われたページに対して、文字認識処理を行ってステップ112へ移行する。すなわち、文字認識処理部60が、前処理部58による前処理後の文書情報から文字を認識して文字情報を生成する。
ステップ112では、CPU14Aが、文字認識処理によって生成された文字情報から属性を抽出してステップ114へ移行する。すなわち、属性抽出部62が、文字認識処理によって生成された文字情報に基づいて、文書内の項目等の属性を抽出する。
ステップ114では、CPU14Aが、属性取得を完了したか否かを判定する。該判定は、前処理及び文字認識処理を行う残りのページがあるか否かを判定する。該判定が否定された場合にはステップ108へ移行して、残りのページに対して上述の処理を繰り返し、判定が肯定されたところでステップ116へ移行する。
ステップ116では、CPU14Aが、属性抽出した結果を出力して一連の処理を終了する。すなわち、結果出力部64が、属性抽出部62の抽出結果を要求元の装置へ出力する。例えば、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16へ出力する。
このように、本実施形態では、例えば、契約書のタイトルや契約者名等の属性のように、印影が文字に重なる可能性が高いページはAI処理による画像変換処理を前処理として行う。一方、他のページはAI処理よりも処理負荷が低く、処理速度が速いドロップアウトカラー処理による画像変換処理を前処理として行う。すなわち、文書内の属性毎に予め定めた前処理の画像変換処理を行うことにより、単一の画像変換処理を前処理として実行する場合に比べて、処理速度と文字認識精度とが両立される。
なお、上記の実施形態では、ページを入れ替えることなく順番に前処理を実施する例を説明したが、処理するページ順を入れ替えて前処理を実行してもよい。
ここで、ページ順を入れ替えて前処理を実施する場合を変形例として説明する。この場合は、図6のリストに対して、図8に示すように、処理順を予め定めたリストを用いる。図8は、文書の種類毎に取得する重要語と前処理の処理内容と処理順とを予め定めたリストの一例を示す。図8の例では、契約書のタイトルは印影を除去するAI処理とされ、契約書の契約者名は印影を除去するAI処理とされ、契約書の契約締結日はドロップアウトカラー処理とされ、その他(個別設定属性)は前処理なしとされている。そして、処理順が、最初、最後、最初から2ページ目、最後から2ページ目、最初から3ページ目・・・の順とされている。また、見積書のタイトルは印影を除去するAI処理とされ、見積書の見積元、見積金額、見積有効期限、及び提出先はドロップアウトカラー処理とされ、その他(個別設定属性)は前処理なしとされている。そして、処理順が、最初のページから順次実施とされている。また、請求書のタイトル及び請求元企業名は印影を除去するAI処理とされ、請求書の請求金額、請求費目、入金先、及び入金期日はドロップアウトカラー処理とされ、請求書の宛先はAI処理とされ、請求書の表中情報抽出は網点を除去するAI処理とされ、請求書のその他(個別設定属性)は前処理なしとされている。そして、処理順が、最初、最後、最初から2ページ目、最後から2ページ目、最初から3ページ目・・・とされている。
例えば、文書が契約書の場合は、図9に示すように、処理順を入れ替えて前処理を実行することにより、同じ前処理をまとめて実行する。図9の例では、印影が文字と重なる可能性がある第一条の最初のページ、第十条の最後のページ、第二条のページ、第九条のページ、第三条のページ、第八条のページ、第四条のページ、第七条のページ、第五条のページ、第六条のページの順に前処理を行う。
続いて、契約書のページ順を入れ替えて前処理を行う場合に、情報処理システム10のサーバ14で行われる具体的な処理について説明する。図10は、本実施形態に係る情報処理システム10のサーバ14において、契約書のページ順を入れ替えて前処理を行う場合の処理の流れの一例を示すフローチャートである。なお、図10の処理は、例えば、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16等によって文字認識処理の実施が指示された場合に開始する。
ステップ200では、CPU14Aが、契約書の文書情報を取得してステップ202へ移行する。すなわち、文書情報取得部50が、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16から契約書の文書情報を取得する。紙文書の場合は、画像形成装置12またはスキャナ装置13によって紙文書の契約書を読み取ることによって生成された契約書の文書情報を取得する。
ステップ202では、CPU14Aが、取得した契約書の文書情報に対して基本前処理を実施してステップ204へ移行する。すなわち、基本前処理部52が、文書の天地の検出、傾き補正、及び文書の特定等を基本前処理として行う。
ステップ204では、CPU14Aが、文書の種類を契約書と判定してステップ206へ移行する。すなわち、文書種判定部54が、基本前処理部52により簡易的に文字認識を行って文書の特定を行う場合は、基本前処理部52によって特定された文書から文書の種類が契約書であると判定する。また、文書の種類をユーザに入力させる場合には、文書情報取得部50が文書情報の取得と共に入力された情報を受け付けて、受け付けた情報から文書の種類が契約書であると判定する。
ステップ206では、CPU14Aが、処理手順決定処理を行ってステップ208へ移行する。処理手順決定処理は、前処理手順決定部56が、取得する重要語、前処理の処理内容、及び前処理の処理順を文書の種類毎に予め定めたリストに基づいて、前処理手順を決定する。例えば、図8に示すリストに基づいて、文書の種類に応じて処理手順を決定する。具体的には、文書の種類が契約書の場合、タイトル及び契約者名があるページをAI処理とし、契約締結日があるページをドロップアウトカラー処理とし、その他(個別設定属性)があるページは前処理なしとして、処理順を最初、最後、最初から2ページ目、最後から2ページ目、最初から3ページ目・・・の処理順とする。
ステップ208では、CPU14Aが、前処理としてAI処理を実施してステップ210へ移行する。すなわち、前処理部58が、前処理手順決定部56の決定結果に従って、ページ毎にAI処理を実施する。ここで、タイトルの最初のページと契約者名の最後のページに対してAI処理を実施する。
ステップ210では、CPU14Aが、前処理が行われたページに対して、文字認識処理を行ってステップ212へ移行する。すなわち、文字認識処理部60が、前処理部58による前処理後の最初と最後のページについて、文書情報から文字を認識して文字情報を生成する。
ステップ212では、CPU14Aが、文字認識処理によって生成された文字情報から属性を抽出してステップ214へ移行する。すなわち、属性抽出部62が、文字認識処理によって生成された文字情報に基づいて、文書内の項目等の属性としてタイトルと契約者名とを順番に抽出する。
ステップ214では、CPU14Aが、タイトルと契約者名を取得したか否かを判定する。該判定は、最初のページからタイトルを抽出した後に、最後の契約者名を抽出したか否かを判定する。タイトルのみ抽出して契約者名が未抽出の場合は判定が否定されてステップ208に戻って次のページに対して上述の処理を繰り返し、判定が肯定された場合にステップ216へ移行する。
ステップ216では、CPU14Aが、前処理としてドロップアウトカラー処理を実施してステップ218へ移行する。すなわち、前処理部58が、前処理手順決定部56の決定結果に従って、ページ毎にドロップアウトカラー処理を実施する。ここでは、最初から2ページ目、最後から2ページ目、最初から3ページ目・・・に対してドロップアウトカラー処理を実施する。
ステップ218では、CPU14Aが、前処理が行われたページに対して、文字認識処理を行ってステップ220へ移行する。すなわち、文字認識処理部60が、前処理部58による前処理後の文書情報から文字を認識して文字情報を生成する。ここでは、ドロップアウトカラー処理が行われた文書情報に対して文字認識処理を実行して、文字情報を生成する。
ステップ220では、CPU14Aが、文字認識処理によって生成された文字情報から属性を抽出してステップ222へ移行する。すなわち、属性抽出部62が、文字認識処理によって生成された文字情報に基づいて、文書内の項目等の属性として契約締結日等を抽出する。
ステップ222では、CPU14Aが、属性取得完了したか否かを判定する。該判定が否定された場合にはステップ216に戻って上述の処理を繰り返し、判定が肯定された場合にはステップ224へ移行する。
ステップ224では、CPU14Aが、属性抽出した結果を出力して一連の処理を終了する。すなわち、結果出力部64が、属性抽出部62の抽出結果を要求元の装置へ出力する。例えば、画像形成装置12、スキャナ装置13、携帯端末15、またはクライアント端末16へ出力する。
なお、上記の実施形態では、文書内の属性毎に予め定めた画像変換処理を前処理としてページ単位で行う例を説明したが、ページ単位に限るものではない。例えば、契約書のタイトル等の属性が、ページのどの位置に存在するかが決まっている場合は、ページ単位ではなく、ページ内の領域単位で前処理の画像変換処理を切り替えてもよい。例えば、請求書のタイトルの領域はページ内の上側の領域に存在する場合、最初のページの上側の予め定めた領域をAI処理として、最初のページの他の領域はAI処理以外の他の画像変換処理(例えば、ドロップアウトカラー処理等)としてもよい。
また、上記の実施形態では、AI処理を第1画像変換処理の一例とし、ドロップアウトカラー処理を第2画像変換処理の一例として説明したが、これに限るものではなく、文字認識精度と処理速度に応じて第1画像変換処理及び第2画像変換処理を定めればよい。また、AI処理の中でも文字認識精度と処理速度が異なる場合には、AI処理の中で第1画像変換処理と第2画像変換処理を定めてもよい。また、AI処理よりも処理速度が遅くなるが文字認識精度が高い画像変換処理を第1画像変換処理とし、他のAI処理を第2画像変換処理としてもよい。
また、上記の実施形態において、CPUをプロセッサの一例として説明したが、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また、上記の実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
また、上記の実施形態に係るサーバ14で行われる処理は、ソフトウエアで行われる処理としてもよいし、ハードウエアで行われる処理としてもよいし、双方を組み合わせた処理としてもよい。また、サーバ14で行われる処理は、プログラムとして記憶媒体に記憶して流通させるようにしてもよい。
また、本発明は、上記に限定されるものでなく、上記以外にも、その主旨を逸脱しない範囲内において種々変形して実施可能であることは勿論である。
10 情報処理システム
12 画像形成装置
13 スキャナ装置
14 サーバ
14A CPU
15 携帯端末
16 クライアント端末
50 文書情報取得部
52 基本前処理部
54 文書種判定部
56 前処理手順決定部
58 前処理部
60 文字認識処理部
62 属性抽出部
64 結果出力部

Claims (8)

  1. プロセッサを備え、前記プロセッサは、
    文字認識の前処理として、前記文字認識の対象の文書に対して、前記文書内の属性毎、または前記文書の種類に応じて予め定めた前記文書内の領域毎に、予め定めた画像変換処理を実行し、
    前記画像変換処理が行われた前記文書に対して文字認識を行って結果を出力する処理を行う情報処理装置。
  2. 前記画像変換処理は、文字以外を除去する第1画像変換処理、及び前記第1画像変換処理よりも文字認識精度が低下するが文字以外を除去する処理速度が速い第2画像変換処理を含む請求項1に記載の情報処理装置。
  3. 前記第1画像変換処理は、機械学習により予め学習した人工知能を用いた画像変換処理である請求項2に記載の情報処理装置。
  4. 前記第1画像変換処理は、文字以外の除去する対象毎にそれぞれ異なる複数種類の画像変換処理を含む請求項3に記載の情報処理装置。
  5. 前記プロセッサは、画像変換処理毎に処理するようにページ順を入れ替えて前記画像変換処理を実行する請求項1~4の何れか1項に記載の情報処理装置。
  6. 前記プロセッサは、前記文書の種類毎に予め定めたページ順に入れ替えて前記画像変換処理を実行する請求項5に記載の情報処理装置。
  7. 請求項1~6の何れか1項に記載の情報処理装置と、
    前記文書を読み取った読取結果を前記情報処理装置に送信して文字認識を依頼する依頼装置と、
    を含む情報処理システム。
  8. コンピュータに、
    文字認識の前処理として、前記文字認識の対象の文書に対して、前記文書内の属性毎、または前記文書の種類に応じて予め定めた前記文書内の領域毎に予め定めた画像変換処理を実行し、
    前記画像変換処理が行われた前記文書に対して文字認識を行って結果を出力する処理を実行させるための情報処理プログラム。



JP2021026598A 2021-02-22 2021-02-22 情報処理装置、情報処理システム、及び情報処理プログラム Pending JP2022128202A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021026598A JP2022128202A (ja) 2021-02-22 2021-02-22 情報処理装置、情報処理システム、及び情報処理プログラム
US17/400,625 US20220269898A1 (en) 2021-02-22 2021-08-12 Information processing device, information processing system, information processing method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021026598A JP2022128202A (ja) 2021-02-22 2021-02-22 情報処理装置、情報処理システム、及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2022128202A true JP2022128202A (ja) 2022-09-01

Family

ID=82899692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021026598A Pending JP2022128202A (ja) 2021-02-22 2021-02-22 情報処理装置、情報処理システム、及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20220269898A1 (ja)
JP (1) JP2022128202A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11947634B2 (en) * 2021-09-01 2024-04-02 FootPrintKu Inc. Image object classification method, system and computer readable medium
US20230063213A1 (en) * 2021-09-01 2023-03-02 FootPrintKu Inc. Image object labeling method, system and computer readable medium

Also Published As

Publication number Publication date
US20220269898A1 (en) 2022-08-25

Similar Documents

Publication Publication Date Title
US8726178B2 (en) Device, method, and computer program product for information retrieval
US8112706B2 (en) Information processing apparatus and method
JP5223284B2 (ja) 情報検索装置、方法およびプログラム
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US8412705B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
WO2022057707A1 (zh) 文本识别方法、图像识别分类方法、文档识别处理方法
US20120011429A1 (en) Image processing apparatus and image processing method
US20140019851A1 (en) Automatically tagging variable data documents
JP2022128202A (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
US20220319215A1 (en) Image processing method, device, electronic apparatus, and storage medium
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP4859054B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
US20210097272A1 (en) Information processing apparatus and non-transitory computer readable medium
US7751087B2 (en) Automatic colorization of monochromatic printed documents
CN110633457B (zh) 一种内容替换方法、装置、电子设备及可读存储介质
JP2007043662A (ja) 画像形成装置及び画像処理装置
JP2019153919A (ja) 画像処理装置、その制御方法、及びプログラム
JP2021114225A (ja) ファイル検索システム、ファイル検索方法及びプログラム
Satav et al. Data extraction from invoices using computer vision
JP2021114224A (ja) ファイル検索システム、ファイル検索方法及びプログラム
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质
US10606928B2 (en) Assistive technology for the impaired
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP2019160213A (ja) 情報処理システム、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240122