JP7243409B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7243409B2
JP7243409B2 JP2019078853A JP2019078853A JP7243409B2 JP 7243409 B2 JP7243409 B2 JP 7243409B2 JP 2019078853 A JP2019078853 A JP 2019078853A JP 2019078853 A JP2019078853 A JP 2019078853A JP 7243409 B2 JP7243409 B2 JP 7243409B2
Authority
JP
Japan
Prior art keywords
version
mode
recognition
recognition result
confirmation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019078853A
Other languages
English (en)
Other versions
JP2020177426A (ja
Inventor
晋太郎 西岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019078853A priority Critical patent/JP7243409B2/ja
Priority to US16/596,838 priority patent/US11200450B2/en
Publication of JP2020177426A publication Critical patent/JP2020177426A/ja
Application granted granted Critical
Publication of JP7243409B2 publication Critical patent/JP7243409B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1914Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19167Active pattern learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
例えば、特許文献1には、文字認識対象を人手で入力する場合の工数を削減可能な情報処理装置が記載されている。この情報処理装置は、文字認識対象を3種類のいずれかに分類する分類手段と、分類手段によって第1の種類に分類された場合に、文字認識対象の文字認識結果を抽出する抽出手段と、を備える。また、この情報処理装置は、分類手段によって第2の種類に分類された場合に、文字認識対象の文字認識結果を抽出し、文字認識対象を人手で入力させるように制御する第1の制御手段と、分類手段によって第3の種類に分類された場合に、文字認識対象を複数人の人手で入力させるように制御する第2の制御手段と、を備える。
また、特許文献2には、学習対象の文字が記入されたサンプル文書を読み取ることで、当該対象の学習文字パターンを認識辞書に登録する光学的文字読取装置が記載されている。この光学的文字読取装置は、文書のイメージを検出するスキャナ部と、標準文字パターンが文字コードに対応して予め登録された認識辞書を記憶する辞書記憶部と、スキャナ部によって検出された文書のイメージから文字パターンを切り出し、認識辞書と照合して認識結果を出力する認識部と、を有する。また、この光学的文字読取装置は、サンプル文書に対し学習対象の文字毎に正解文字コードを与えた正解情報を入力操作に基づいて記憶する正解情報記憶部と、スキャナ部及び認識部を制御してサンプル文書に対する認識結果を得た後、正解情報を基に学習文字パターンを認識辞書に登録する制御部と、を有する。
また、特許文献3には、文字の認識データを文字認識辞書に追加する文字認識辞書追加方法が記載されている。この文字認識辞書追加方法は、文字を読み取り、読み取った文字画像の文字をその特徴により認識する情報よりなる認識辞書に基づいて文字認識を行い、この認識結果を表示し、この表示された認識文字を訂正されたときには、訂正された文字とその文字の文字画像とを対応づけて格納し、この格納された文字画像の特徴を抽出して文字認識辞書に追加する。
特開2016-212812号公報 特開平8-287191号公報 特開平9-91385号公報
ところで、文書の認識結果を得るために認識用辞書を用いる方法があるが、この認識用辞書は、認識精度を向上させるために、一定の間隔毎に、蓄積した学習用データを用いて、最新バージョンに更新される。しかしながら、例えば、学習用データに特定の偏り(例えば、記入者の文字の書き癖、かすれ等)が多く発生していると、この最新バージョンは特定の偏りを持つ認識用辞書となる。この最新バージョンを用いた場合、似たような偏りを持つ文書には認識精度の向上が期待できるが、そうでない場合には、認識精度の向上が期待できない可能性がある。この場合、最新バージョン以前の別のバージョンの認識用辞書を用いたほうが認識精度の向上が期待できる場合がある。
本発明は、認識用辞書を用いて文書を認識する場合に、最新バージョンを適用するモード、又は、複数のバージョンの中から適切なバージョンの認識用辞書を適用するモードを選択することができる情報処理装置及びプログラムを提供することを目的とする。
上記目的を達成するために、第1態様に係る情報処理装置は、対象文書を認識する場合に、認識用辞書の最新バージョンを適用する第1モード、又は、前記最新バージョンとは異なる複数のバージョンのうち、複数の記入済み文書の各々における認識結果及び確認訂正結果から得られる正答率が最も高い認識用辞書のバージョンを適用する第2モードを選択する選択部、を備えている。
第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記第1モードを用いた前記認識結果に対して確認訂正がなされていない場合、前記認識結果を正解として学習し、前記第1モードを用いた前記認識結果に対して確認訂正がなされた場合、前記認識結果を不正解として学習する学習部を更に備え、前記選択部が、正解として学習された割合が閾値以上である場合に、前記第1モードを選択し、正解として学習された割合が閾値未満である場合に、前記第2モードを選択する。
第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記学習部が、前記複数のバージョンのいずれかのバージョンを用いた前記認識結果に対して確認訂正がなされていない場合、前記認識結果を正解として学習し、前記複数のバージョンのいずれかのバージョンを用いた前記認識結果に対して確認訂正がなされた場合、前記確認訂正により訂正された結果を正解データとし、前記記入済み文書の認識結果として前記正解データを出力する別のバージョンを正解として学習し、前記選択部が、前記第2モードを選択する場合、前記複数のバージョンのうち正解として学習された回数が最も多いバージョンを、前記第2モードのバージョンとする。
第4態様に係る情報処理装置は、第1態様~第3態様のいずれか1の態様に係る情報処理装置において、前記選択部が、前記記入済み文書の記入者が特定されている場合、前記第1モードを選択し、前記記入済み文書の記入者が特定されていない場合、前記第2モードを選択する。
第5態様に係る情報処理装置は、第1態様~第4態様のいずれか1の態様に係る情報処理装置において、未記入の前記対象文書を認識対象として定義するための定義画面を表示させ、前記定義画面から前記第1モード又は前記第2モードのいずれかのバージョンの指定を受け付ける受付部と、前記第1モードが指定されており、かつ、前記最新バージョン以外の過去のバージョンのうち正答率が前記最新バージョンの正答率よりも高いバージョンが存在する場合に、前記バージョンが存在することを、前記定義画面を介してユーザに通知する通知部と、を更に備えている。
更に、上記目的を達成するために、第6態様に係るプログラムは、コンピュータを、第1態様~第5態様のいずれか1の態様に係る情報処理装置が備える各部として機能させる。
第1態様及び第6態様によれば、認識用辞書を用いて文書を認識する場合に、最新バージョンを適用するモード、又は、複数のバージョンの中から適切なバージョンの認識用辞書を適用するモードを選択することができる、という効果を有する。
第2態様によれば、最新バージョンを適用したときの認識結果及び確認訂正結果を用いて学習した学習結果を考慮しない場合と比較して、適切なバージョンの認識用辞書を適用することができる、という効果を有する。
第3態様によれば、複数のバージョンのうち正解として学習された回数が最も多いバージョンを考慮しない場合と比較して、より正答率の高いバージョンの認識用辞書を適用することができる、という効果を有する。
第4態様によれば、記入者が特定されているか否かを考慮しない場合と比較して、適切なバージョンの認識用辞書を適用することができる、という効果を有する。
第5態様によれば、正答率が最新バージョンの正答率よりも高いバージョンが存在することを通知しない場合と比較して、より適切なバージョンの存在を把握することができる、という効果を有する。
実施形態に係る情報処理システムの構成の一例を示す図である。 実施形態に係るサーバ装置の電気的な構成の一例を示すブロック図である。 実施形態に係るサーバ装置の機能的な構成の一例を示すブロック図である。 実施形態に係る認識用辞書とバージョンとの関係の説明に供する図である。 実施形態に係るモードとバージョンとの関係の説明に供する図である。 実施形態に係るサーバ装置の具体的な構成の一例を示すブロック図である。 実施形態に係る帳票定義画面の一例を示す正面図である。 実施形態に係る帳票定義画面の他の例を示す正面図である。 実施形態に係る帳票定義画面の他の例を示す正面図である。 実施形態に係る確認処理プログラムによるバージョン通知処理の流れの一例を示すフローチャートである。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
図1は、本実施形態に係る情報処理システム90の構成の一例を示す図である。
図1に示すように、本実施形態に係る情報処理システム90は、サーバ装置10と、確認者用端末装置40A、40B、・・・と、画像読取装置50と、管理者用端末装置60と、を備えている。なお、サーバ装置10は、情報処理装置の一例である。
サーバ装置10は、ネットワークNを介して、確認者用端末装置40A、40B、・・・、画像読取装置50、及び管理者用端末装置60の各々と通信可能に接続されている。このサーバ装置10には、一例として、サーバコンピュータや、パーソナルコンピュータ(PC:Personal Computer)等の汎用的なコンピュータが適用される。また、このネットワークNには、一例として、インターネットや、LAN(Local Area Network)、WAN(Wide Area Network)等が適用される。
画像読取装置50は、紙媒体の帳票等を光学的に読み取って画像を取得し、取得した画像(以下、「帳票画像」という。)をサーバ装置10に送信する機能を備えている。なお、ここでいう帳票としては、例えば、住所欄や氏名欄等の複数の項目を含む各種の帳票が用いられる。この帳票には、これら複数の項目の各々について手書き文字や、印刷文字等が記入されている。この帳票は、文書の一例である。サーバ装置10は、具体的には後述するように、画像読取装置50から受信した帳票画像に対して、光学的文字認識処理の一例であるOCR(Optical Character Recognition)処理を行い、複数の項目の各々に対応する画像についての認識結果を取得する。なお、この認識結果には、一例として、1文字以上の文字の連なりを示す文字列等が含まれる。また、帳票では、項目に対応する記載が記入されうる領域が枠等で定められており、記載が記入されうる領域が認識対象の領域として定義されている。定義された領域(以下、「定義領域」という。)を対象にOCR処理を行い、複数の項目の各々に対応する画像についての文字列を取得する。
確認者用端末装置40Aは、確認作業を行う確認者(ユーザ)U1が操作する端末装置であり、確認者用端末装置40Bは、確認作業を行う確認者U2が操作する端末装置である。これら複数の確認者用端末装置40A、40B、・・・を区別して説明する必要がない場合には、確認者用端末装置40A、40B、・・・を総称して確認者用端末装置40ともいう。また、これら複数の確認者U1、U2、・・・を区別して説明する必要がない場合には、確認者U1、U2、・・・を総称して確認者Uともいう。この確認者用端末装置40には、一例として、パーソナルコンピュータ(PC)等の汎用的なコンピュータや、スマートフォン、タブレット端末等の携帯可能な端末装置等が適用される。なお、確認者用端末装置40には、確認者Uが確認作業を行うための確認作業アプリケーション・プログラム(以下、「確認作業アプリ」ともいう。)がインストールされており、確認作業用のUI(User Interface)画面を生成して表示する。なお、ここでいう確認作業とは、帳票画像内に含まれる文字等の認識結果を確認したり訂正したりする作業を意味する。
管理者用端末装置60は、システム管理者SEが操作する端末装置であり、システム管理者SEにより後述する帳票定義画面を介して帳票定義データが設定される。この管理者用端末装置60には、一例として、パーソナルコンピュータ(PC)等の汎用的なコンピュータや、スマートフォン、タブレット端末等の携帯可能な端末装置等が適用される。
サーバ装置10は、帳票画像に含まれる各項目の画像(以下、「項目画像」という。)とOCR処理により得られた文字列とを対応付けて、確認者用端末装置40のUI画面に表示させる制御を行う。確認者Uは、当該項目画像を見ながら、当該項目画像に対応する文字列が正しいか否かを確認する。確認者Uは、確認の結果、正しい場合はそのまま、正しくない場合は正しい文字列をUI画面に入力する。確認者用端末装置40は、UI画面を介して入力を受け付けた文字列を確認結果としてサーバ装置10に送信する。サーバ装置10は、確認者用端末装置40からの確認結果に基づいて、最終的な認識結果を出力し、確認者用端末装置40のUI画面に表示させる制御を行う。
図2は、本実施形態に係るサーバ装置10の電気的な構成の一例を示すブロック図である。
図2に示すように、本実施形態に係るサーバ装置10は、制御部12と、記憶部14と、表示部16と、操作部18と、通信部20と、を備えている。
制御部12は、CPU(Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、及び入出力インターフェース(I/O)12Dを備えており、これら各部がバスを介して各々接続されている。
I/O12Dには、記憶部14と、表示部16と、操作部18と、通信部20と、を含む各機能部が接続されている。これらの各機能部は、I/O12Dを介して、CPU12Aと相互に通信可能とされる。
制御部12は、サーバ装置10の一部の動作を制御するサブ制御部として構成されてもよいし、サーバ装置10の全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部12の各ブロックの一部又は全部には、例えば、LSI(Large Scale Integration)等の集積回路又はIC(Integrated Circuit)チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部12の集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
記憶部14としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が用いられる。記憶部14には、本実施形態に係る帳票確認処理を行うための確認処理プログラム14Aが記憶される。なお、この確認処理プログラム14Aは、ROM12Bに記憶されていてもよい。
確認処理プログラム14Aは、例えば、サーバ装置10に予めインストールされていてもよい。確認処理プログラム14Aは、不揮発性の記憶媒体に記憶して、又はネットワークNを介して配布して、サーバ装置10に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
表示部16には、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等が用いられる。表示部16は、タッチパネルを一体的に有していてもよい。操作部18には、例えば、キーボードやマウス等の操作入力用のデバイスが設けられている。表示部16及び操作部18は、サーバ装置10のユーザから各種の指示を受け付ける。表示部16は、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報を表示する。
通信部20は、インターネットや、LAN、WAN等のネットワークNに接続されており、画像読取装置50、確認者用端末装置40、及び管理者用端末装置60の各々との間でネットワークNを介して通信が可能とされる。
ところで、上述したように、認識用辞書の最新バージョンを適用した場合に、最新バージョンの学習用データに特定の偏りが発生していると、認識精度の向上が期待できない可能性がある。この場合、最新バージョン以前の別のバージョンの認識用辞書を用いたほうが認識精度の向上が期待できる場合がある。
このため、本実施形態に係るサーバ装置10のCPU12Aは、記憶部14に記憶されている確認処理プログラム14AをRAM12Cに書き込んで実行することにより、図3に示す各部として機能する。
図3は、本実施形態に係るサーバ装置10の機能的な構成の一例を示すブロック図である。
図3に示すように、本実施形態に係るサーバ装置10のCPU12Aは、確認制御部30として機能する。なお、確認制御部30は、選択部、学習部、受付部、及び通知部の各々の一例である。また、本実施形態では、文書の一例として帳票を適用した場合について説明する。
本実施形態に係る記憶部14には、帳票定義データを記憶する帳票定義データ記憶部14Bと、統計データを記憶する統計データ記憶部14Cと、が設けられている。
本実施形態に係る確認制御部30は、対象帳票を認識する場合に、認識用辞書の最新バージョンを適用する第1モード、又は、最新バージョンとは異なる複数のバージョンのうち、正答率が最も高い認識用辞書のバージョン(以下、「推奨バージョン」という。)を適用する第2モードを選択する。なお、ここでいう最新バージョンとは、更新日時が最も新しいバージョンのことを意味する。また、正答率は、複数の記入済み帳票の各々における認識結果及び確認訂正結果から導出される。具体的に、正答率は、全認識結果に対する、確認訂正がなされなかった認識結果の割合として表される。これらの認識結果及び確認訂正結果は、統計データとして統計データ記憶部14Cに記憶されている。また、本実施形態では、対象帳票の定義領域(項目)単位で認識処理を行う場合について説明するが、帳票単位で認識処理を行う形態としてもよい。
また、確認制御部30は、最新バージョン及び推奨バージョン以外で、ユーザが個別に指定するバージョン(以下、「個別バージョン」という。)を適用する第3モードを選択するようにしてもよい。この個別バージョンとしては、例えば、ユーザの経験上、高い正答率が期待されるバージョンや、ある項目では高い正答率が期待されるバージョン等が指定される。本実施形態では、第1モード、第2モード、及び第3モードを含む形態について説明するが、第3モードを含まない形態としてもよい。
図4は、本実施形態に係る認識用辞書とバージョンとの関係の説明に供する図である。
図4に示す認識用辞書には、n個のバージョンが存在し、n個のバージョンの認識用辞書が記憶部14に記憶されている。
図4に示す例では、バージョンVが最も古く、バージョンVが最も新しい。認識用辞書は、一定の間隔(例えば2週間)毎に、蓄積した学習用データを用いて機械学習されて、バージョンアップが行われる。
図5は、本実施形態に係るモードとバージョンとの関係の説明に供する図である。
図5に示す第1モードには最新バージョンが対応付けられ、第2モードには推奨バージョンが対応付けられ、第3モードには個別バージョンが対応付けられている。
具体的に、図5に示す最新バージョンは、図4に示すバージョンVである。推奨バージョンは、バージョンVn-1~バージョンVの中で正答率が最も高いバージョンである。個別バージョンは、最新バージョン及び推奨バージョン以外で、ユーザが指定するバージョンである。
本実施形態に係る確認制御部30は、上述の統計データを機械学習することにより、対象帳票の項目毎に適用すべき認識用辞書のバージョンを選択する。この機械学習には、一例として、ニューラルネットワーク(Neural Network)等が適用される。具体的に、第1モードを用いた認識結果に対して確認訂正がなされていない場合、認識結果を正解として学習し、第1モードを用いた認識結果に対して確認訂正がなされた場合、認識結果を不正解として学習する。そして、正解として学習された割合が閾値以上である場合に、第1モードを選択し、正解として学習された割合が閾値未満である場合に、第2モードを選択する。
一方、確認制御部30は、最新バージョンとは異なる複数のバージョンのいずれかのバージョンを用いた認識結果に対して確認訂正がなされていない場合、認識結果を正解として学習し、複数のバージョンのいずれかのバージョンを用いた認識結果に対して確認訂正がなされた場合、確認訂正により訂正された結果を正解データとし、記入済み帳票の認識結果として当該正解データを出力する別のバージョンを正解として学習する。そして、第2モードを選択する場合、複数のバージョンのうち正解として学習された回数が最も多いバージョンを、第2モードの推奨バージョンとする。
確認制御部30は、上記で選択した認識用辞書のバージョンを帳票定義データの一部として帳票定義データ記憶部14Bに記憶する。
ここで、確認制御部30は、記入済み帳票の記入者が特定されている場合、第1モードを選択し、記入済み帳票の記入者が特定されていない場合、第2モードを選択するようにしてもよい。なお、記入済み帳票の記入者が特定されているとは、一例として、ある企業で使用される各種申請書を対象として当該各種申請書の記入者が社員である場合等が想定される。この場合、記入者の書き癖等に応じた学習結果が適用されることが望ましい。このため最新バージョンを選択することで、正答率の向上が期待される。また、記入済み帳票の記入者が特定されていないとは、一例として、ある製品のアンケート用紙を対象として当該アンケート用紙の記入者が不特定多数である場合や、市役所や区役所等の公的機関で使用される各種申請書を対象として当該各種申請書の記入者が市民や区民等である場合等が想定される。この場合、記入者の書き癖等に左右されず正答率の高い学習結果が適用されることが望ましい。このため推奨バージョンを選択することで、正答率の向上が期待される。
次に、図6を参照して、本実施形態に係るサーバ装置10の具体的な構成について説明する。
図6は、本実施形態に係るサーバ装置10の具体的な構成の一例を示すブロック図である。
図6に示すように、本実施形態に係るサーバ装置10は、認識設定部210、認識処理部220、確認処理実施判定部230、確認処理部240、最終確認処理部250、認識結果出力部260、及び認識用辞書予測処理部270を備えている。これらの各部は、図3に示す確認制御部30を具体的に示したものである。
本実施形態に係る認識設定部210は、未記入帳票の帳票画像を入力として、認識設定を行う。認識設定部210は、一例として、図7に示す帳票定義画面62を、管理者用端末装置60に表示させて、帳票定義データの入力を受け付ける。
図7は、本実施形態に係る帳票定義画面62の一例を示す正面図である。
図7に示す帳票定義画面62は、管理者用端末装置60に表示され、システム管理者SEにより帳票定義データの入力を受け付けるための画面である。なお、帳票定義画面62は、定義画面の一例である。
図7に示す帳票定義画面62は、未記入帳票のプレビュー画像62Aと、帳票定義データを表す認識枠情報62Bと、を含んでいる。この認識枠情報62Bには、一例として、枠の種類、枠の名前、枠の座標、学習済みモデル、モデルバージョン、文字種、確信度の閾値、確認訂正、及びエントリー方式を含み、各々の設定内容は帳票定義データ記憶部14Bに記憶される。なお、学習済みモデルは認識用辞書を表し、モデルバージョンは認識用辞書のバージョンを表す。図7に示す例では、「受給者氏名」に関する情報が表示されている。なお、確信度とは、認識結果の確からしさを示す指標であり、確信度の値が高いほど、項目画像とその認識結果とが一致する確率が高いことを示している。この確信度の導出方法としては、例えば、特開2016-212812号公報(特許文献1)等に記載の公知の技術を用いればよい。なお、文字列を構成する各文字に対する確信度を用いる場合には、文字毎の確信度を文字列の確信度に変換する手法が用いられる。具体的には、下記に示す様々な手法の中から適切なものを選択すればよい。
・文字列内の各文字についての確信度の最大値を文字列の確信度とする。
・文字列内の各文字についての確信度の最小値を文字列の確信度とする。
・文字列内の各文字についての確信度の平均値(最頻値、中央値等)を文字列の確信度とする。
また、確認訂正とは、確認作業を行うか否かを設定するもので、一例として、「必須」又は「不要」が設定される。「必須」が設定された場合、毎回確認作業が実施され、「不要」が設定された場合、確認作業は実施されない。
また、エントリー方式とは、確認作業を行う方式を設定するもので、一例として、「ダブルエントリ」、「シングルエントリ」、「不要」、及び「なし」のいずれかが設定される。「ダブルエントリ」は、複数人の確認者で確認作業を行う方式であり、「シングルエントリ」は、1人の確認者で確認作業を行う方式である。なお、「不要」は、確認作業を不要とする方式である。「なし」は、確信度とその閾値(図7の例では「0.7」。)とを比較した結果に基づいて、「不要」、「シングルエントリ」、及び「ダブルエントリ」のいずれかが選択される方式である。この「なし」では、一例として、確信度が閾値未満である場合に、「シングルエントリ」又は「ダブルエントリ」が選択され、確信度が閾値以上である場合に、「不要」が選択される。
また、学習済みモデルとは、項目毎に認識用辞書を設定するもので、図7の例では、「氏名」に関する認識用辞書が設定される。モデルバージョンとは、認識用辞書のバージョンを設定するもので、図7の例では、「推奨」が設定される。このモデルバージョンでは、選択されている状態のバージョンがハイライト表示される。図7の例では、「推奨」、「最新」、「個別」、・・・のうち「推奨」のバージョンが選択されている。また、これらのモデルバージョンは、ドロップダウンリストで選択可能に表示され、選択されたモデルバージョンが認識処理に適用されるバージョンとして指定される。また、モデルバージョンのデフォルトは、ユーザの設定により切り替え可能とされている。
次に、本実施形態に係る認識処理部220は、記入済み帳票の帳票画像を入力として、項目毎に、帳票定義データ記憶部14Bに記憶されている帳票定義データの設定内容に従って、OCR処理を実行する。認識処理部220は、項目毎に、項目画像、認識結果、及びその確信度を対応付けて出力する。
本実施形態に係る確認処理実施判定部230は、認識処理部220から出力された、項目毎の項目画像、認識結果、及びその確信度に基づいて、項目毎にエントリー方式を判定する。例えば、エントリー方式として、「シングルエントリ」又は「ダブルエントリ」が設定されている項目は、確信度による閾値判定を行わない。また、エントリー方式として、「なし」が設定されている項目は、確信度による閾値判定を行い、上述のように、エントリー方式を判定する。確認処理実施判定部230は、判定結果を確認処理部240に出力する。
本実施形態に係る確認処理部240は、確認処理実施判定部230から受け付けた判定結果に基づいて、項目毎にエントリー方式を切り替え、確認者Uに項目画像及び認識結果をフィードバックし、確認者Uに確認作業を行わせる。具体的に、確認処理部240は、認識結果のエントリー方式がシングルエントリと判定された場合、確認作業を行うための確認画面を、1台の確認者用端末装置40に表示させ、確認作業を行わせる。また、認識結果のエントリー方式がダブルエントリと判定された場合、確認作業を行うための確認画面を、複数台の確認者用端末装置40に表示させ、確認作業を行わせる。確認処理部240は、項目画像、認識結果、及び確認者Uによる確認結果を最終確認処理部250に出力する。
本実施形態に係る最終確認処理部250は、確認処理部240から受け付けた項目画像、認識結果、及び確認者Uによる確認結果に基づいて、確認者Uとは別の確認者Uに最終的な確認作業を行わせる。具体的に、最終確認処理部250は、最終的な確認作業を行うための確認画面を、別の確認者Uが使用する確認者用端末装置40に表示させ、別の確認者Uから最終確認結果を得る。最終確認処理部250は、別の確認者Uからの最終確認結果に基づいて、確認者Uの確認結果に誤りがある場合には、確認処理部240に差し戻し、入力された記入済み帳票に不備(一例として、ページ不足等)がある場合には、認識処理部220に差し戻す。そして、最終確認処理部250は、最終的な認識結果を認識結果出力部260に出力する。
本実施形態に係る認識結果出力部260は、最終確認処理部250から受け付けた最終的な認識結果を出力する。最終的な認識結果の出力先は、特に限定されるものではないが、表示部16、確認者用端末装置40、及び管理者用端末装置60の少なくとも1つを出力先としてもよい。
ここで、確認処理部240による確認結果、及び最終確認処理部250による最終的な確認結果は、統計データ記憶部14Cに記憶される。つまり、記入済み帳票の各々における認識結果及び確認訂正結果が統計データとして統計データ記憶部14Cに記憶される。
本実施形態に係る認識用辞書予測処理部270は、上述したように、統計データ記憶部14Cに記憶されている統計データを機械学習することにより、対象帳票の項目毎に適用すべき認識用辞書のバージョンを選択する。具体的に、最新バージョンを用いた認識結果に対して確認訂正がなされていない場合、認識結果を正解として学習し、最新バージョンを用いた認識結果に対して確認訂正がなされた場合、認識結果を不正解として学習する。そして、正解として学習された割合が閾値以上である場合に、最新バージョンを選択し、正解として学習された割合が閾値未満である場合に、推奨バージョンを選択する。
一方、認識用辞書予測処理部270は、最新バージョンとは異なる複数のバージョンのいずれかのバージョンを用いた認識結果に対して確認訂正がなされていない場合、認識結果を正解として学習し、複数のバージョンのいずれかのバージョンを用いた認識結果に対して確認訂正がなされた場合、確認訂正により訂正された結果を正解データとし、記入済み帳票の認識結果として当該正解データを出力する別のバージョンを正解として学習する。そして、複数のバージョンのうち正解として学習された回数が最も多いバージョンを、推奨バージョンとする。
また、認識用辞書予測処理部270は、最新バージョンが指定されており、かつ、最新バージョン以外の過去のバージョンのうち正答率が最新バージョンの正答率よりも高いバージョンが存在する場合に、当該バージョンが存在することを、一例として、図8に示す帳票定義画面62を介してユーザに通知する。
図8は、本実施形態に係る帳票定義画面62の他の例を示す正面図である。
図8に示す帳票定義画面62は、上述の図7と同様に、管理者用端末装置60に表示され、システム管理者SEにより帳票定義データの入力を受け付けるための画面である。
図8に示す帳票定義画面62は、未記入帳票のプレビュー画像62Aと、認識枠情報62Cとを含んでいる。図8に示す例では、「氏名フリガナ」に関する認識枠情報62Cが表示されている。このモデルバージョンには、「最新」が指定されている。この場合、記入済み帳票の全体件数(例えば10000件)のうちの一部(例えば1000件)を対象として、最新バージョンを用いて認識処理を行い、正答率が導出される。このとき、バックグラウンドで、最新バージョン以外の過去のバージョンの正答率についても導出される。そして、過去のバージョンのうち正答率が最新バージョンの正答率よりも高いバージョンが存在する場合に、当該バージョンが存在することを、一例として、プレビュー画像62Aにおける対象項目の認識枠の色及び認識枠情報62Cにおける対象項目の色を変化させてユーザに通知する。
図9は、本実施形態に係る帳票定義画面62の他の例を示す正面図である。
図9に示す帳票定義画面62は、上述の図7と同様に、管理者用端末装置60に表示され、システム管理者SEにより帳票定義データの入力を受け付けるための画面である。
図9に示す帳票定義画面62は、未記入帳票のプレビュー画像62Aと、認識枠情報62Dとを含んでいる。図9に示す例では、「生年月日」に関する認識枠情報62Dが表示されている。このモデルバージョンには、「推奨」が指定されている。この場合、最新バージョン以外の複数のバージョンのうち正答率が最も高い推奨バージョンが常に適用される。この推奨バージョンが常に適用されていることを、一例として、プレビュー画像62Aにおける対象項目の認識枠の色及び認識枠情報62Dにおける対象項目の色を変化させてユーザに通知する。
次に、図10を参照して、本実施形態に係るサーバ装置10の作用を説明する。
図10は、本実施形態に係る確認処理プログラム14Aによるバージョン通知処理の流れの一例を示すフローチャートである。
まず、サーバ装置10に対して、帳票定義画面の表示が指示されると、確認処理プログラム14Aが起動され、以下の各ステップを実行する。なお、ここでは、個別バージョンを含まない場合について説明する。
図10のステップ100では、認識用辞書予測処理部270が、管理者用端末装置60に対して、一例として、上述の図8に示す帳票定義画面62を表示させる。
ステップ102では、認識用辞書予測処理部270が、一例として、上述の図8に示す帳票定義画面62に含まれる複数の項目の中から1つの項目を特定する。
ステップ104では、認識用辞書予測処理部270が、ステップ102で特定した項目について、最新バージョンが指定されているか否かを判定する。最新バージョンが指定されていると判定した場合(肯定判定の場合)、ステップ106に移行し、最新バージョンが指定されていないと判定した場合(否定判定の場合)、ステップ114に移行する。
ステップ106では、認識用辞書予測処理部270が、正答率が最新バージョンよりも高い推奨バージョンが存在するか否かを判定する。正答率が最新バージョンよりも高い推奨バージョンが存在すると判定した場合(肯定判定の場合)、ステップ108に移行し、正答率が最新バージョンよりも高い推奨バージョンが存在しないと判定した場合(否定判定の場合)、ステップ116に移行する。
ステップ108では、認識用辞書予測処理部270が、一例として、上述の図8に示す帳票定義画面62において、プレビュー画像62Aにおける対象項目の認識枠の色及び認識枠情報62Cにおける対象項目の色を変化させて、正答率の高い推奨バージョンがあることを通知する。
ステップ110では、認識用辞書予測処理部270が、推奨バージョンへの変更が指示されたか否かを判定する。推奨バージョンへの変更が指示されたと判定した場合(肯定判定の場合)、ステップ112に移行し、推奨バージョンへの変更が指示されないと判定した場合(否定判定の場合)、ステップ116に移行する。
ステップ112では、認識用辞書予測処理部270が、最新バージョンに代えて、推奨バージョンを指定し、ステップ116に移行する。
一方、ステップ114では、認識用辞書予測処理部270が、一例として、上述の図9に示す帳票定義画面62において、プレビュー画像62Aにおける対象項目の認識枠の色及び認識枠情報62Dにおける対象項目の色を変化させて、常に推奨バージョンが適用されることを通知し、ステップ116に移行する。
ステップ116では、認識用辞書予測処理部270が、バージョンの通知を行う最後の項目か否かを判定する。最後の項目ではないと判定した場合(否定判定の場合)、ステップ102に移行し、最後の項目であると判定した場合(肯定判定の場合)、本確認処理プログラム14Aによるバージョン通知処理を終了する。
このように本実施形態によれば、認識用辞書を用いて帳票を認識する場合に、認識用辞書の最新バージョンを適用するモード、又は、最新バージョンとは異なる複数のバージョンの中で最も正答率の高い、認識用辞書の推奨バージョンを適用するモードを選択することができる。このため、最新バージョンの学習用データに特定の偏りが発生した場合であっても、推奨バージョンを適用することで認識精度の向上が期待される。
以上、実施形態に係る情報処理装置の一例としてサーバ装置を例示して説明した。実施形態は、サーバ装置が備える各部の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、これらのプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明したサーバ装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 サーバ装置
12 制御部
12A CPU
12B ROM
12C RAM
12D I/O
14 記憶部
14A 確認処理プログラム
14B 帳票定義データ記憶部
14C 統計データ記憶部
16 表示部
18 操作部
20 通信部
30 確認制御部
40、40A、40B 確認者用端末装置
50 画像読取装置
60 管理者用端末装置
90 情報処理システム
210 認識設定部
220 認識処理部
230 確認処理実施判定部
240 確認処理部
250 最終確認処理部
260 認識結果出力部
270 認識用辞書予測処理部

Claims (6)

  1. 対象文書を認識する場合に、認識用辞書の最新バージョンを適用する第1モード、又は、前記最新バージョンとは異なる複数のバージョンのうち、複数の記入済み文書の各々における認識結果及び確認訂正結果から得られる正答率が最も高い認識用辞書のバージョンを適用する第2モードを選択する選択部、
    を備えた情報処理装置。
  2. 前記第1モードを用いた前記認識結果に対して確認訂正がなされていない場合、前記認識結果を正解として学習し、前記第1モードを用いた前記認識結果に対して確認訂正がなされた場合、前記認識結果を不正解として学習する学習部を更に備え、
    前記選択部は、正解として学習された割合が閾値以上である場合に、前記第1モードを選択し、正解として学習された割合が閾値未満である場合に、前記第2モードを選択する請求項1に記載の情報処理装置。
  3. 前記学習部は、前記複数のバージョンのいずれかのバージョンを用いた前記認識結果に対して確認訂正がなされていない場合、前記認識結果を正解として学習し、
    前記複数のバージョンのいずれかのバージョンを用いた前記認識結果に対して確認訂正がなされた場合、前記確認訂正により訂正された結果を正解データとし、前記記入済み文書の認識結果として前記正解データを出力する別のバージョンを正解として学習し、
    前記選択部は、前記第2モードを選択する場合、前記複数のバージョンのうち正解として学習された回数が最も多いバージョンを、前記第2モードのバージョンとする請求項2に記載の情報処理装置。
  4. 前記選択部は、前記記入済み文書の記入者が特定されている場合、前記第1モードを選択し、
    前記記入済み文書の記入者が特定されていない場合、前記第2モードを選択する請求項1~3のいずれか1項に記載の情報処理装置。
  5. 未記入の前記対象文書を認識対象として定義するための定義画面を表示させ、前記定義画面から前記第1モード又は前記第2モードのいずれかのバージョンの指定を受け付ける受付部と、
    前記第1モードが指定されており、かつ、前記最新バージョン以外の過去のバージョンのうち正答率が前記最新バージョンの正答率よりも高いバージョンが存在する場合に、前記バージョンが存在することを、前記定義画面を介してユーザに通知する通知部と、
    を更に備えた請求項1~4のいずれか1項に記載の情報処理装置。
  6. コンピュータを、請求項1~5のいずれか1項に記載の情報処理装置が備える各部として機能させるためのプログラム。
JP2019078853A 2019-04-17 2019-04-17 情報処理装置及びプログラム Active JP7243409B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019078853A JP7243409B2 (ja) 2019-04-17 2019-04-17 情報処理装置及びプログラム
US16/596,838 US11200450B2 (en) 2019-04-17 2019-10-09 Information processing apparatus and non-transitory computer readable medium for selecting a proper version of a recognition dictionary that is not necessarily a latest version

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019078853A JP7243409B2 (ja) 2019-04-17 2019-04-17 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020177426A JP2020177426A (ja) 2020-10-29
JP7243409B2 true JP7243409B2 (ja) 2023-03-22

Family

ID=72832560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019078853A Active JP7243409B2 (ja) 2019-04-17 2019-04-17 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US11200450B2 (ja)
JP (1) JP7243409B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7243409B2 (ja) * 2019-04-17 2023-03-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2022097138A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP2023176050A (ja) * 2022-05-31 2023-12-13 常雄 竹内 空間に文字を書くように器具を動かすことで、動きの軌跡を取得し、文字認識の後文字入力する方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343797A (ja) 2005-06-07 2006-12-21 Seiko Epson Corp 文字認識装置、文字認識方法およびコンピュータプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287191A (ja) 1995-04-10 1996-11-01 Toshiba Corp 光学的文字読取装置
JPH0991385A (ja) 1995-09-21 1997-04-04 Matsushita Graphic Commun Syst Inc 文字認識辞書追加方法及びこれを用いた端末ocr装置
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
US9152883B2 (en) * 2009-11-02 2015-10-06 Harry Urbschat System and method for increasing the accuracy of optical character recognition (OCR)
JP6119952B2 (ja) * 2012-05-15 2017-04-26 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6575132B2 (ja) 2015-05-14 2019-09-18 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP6903966B2 (ja) * 2017-03-16 2021-07-14 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
JP7225548B2 (ja) * 2018-03-22 2023-02-21 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム
JP7263721B2 (ja) * 2018-09-25 2023-04-25 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7243409B2 (ja) * 2019-04-17 2023-03-22 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343797A (ja) 2005-06-07 2006-12-21 Seiko Epson Corp 文字認識装置、文字認識方法およびコンピュータプログラム

Also Published As

Publication number Publication date
US20200334500A1 (en) 2020-10-22
JP2020177426A (ja) 2020-10-29
US11200450B2 (en) 2021-12-14

Similar Documents

Publication Publication Date Title
JP7243409B2 (ja) 情報処理装置及びプログラム
CN110390009A (zh) 生成文本内容的基于主题的概要
US20190294912A1 (en) Image processing device, image processing method, and image processing program
US10929448B2 (en) Determining a category of a request by word vector representation of a natural language text string with a similarity value
JP2020173808A (ja) ページ記述言語ジョブの解析によるニューラルネットワーク用光学式文字認識トレーニングデータの生成
JP7038988B2 (ja) 画像処理方法及び画像処理システム
US10025976B1 (en) Data normalization for handwriting recognition
WO2021055096A1 (en) Machine learning system for summarizing tax documents with non-structured portions
JP2008241736A (ja) 学習端末およびその制御方法、正誤判定サーバおよびその制御方法、学習システム、学習端末制御プログラム、正誤判定サーバ制御プログラム、並びに、該プログラムを記録した記録媒体
CN110942075A (zh) 信息处理装置、存储介质及信息处理方法
JP2020087112A (ja) 帳票処理装置および帳票処理方法
JP7021496B2 (ja) 情報処理装置及びプログラム
US20220138259A1 (en) Automated document intake system
CN110942068B (zh) 信息处理装置、存储介质及信息处理方法
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
US11972208B2 (en) Information processing device and information processing method
CN111476090B (zh) 水印识别方法和装置
JP7226136B2 (ja) 情報処理装置及びプログラム
JP7338265B2 (ja) 情報処理装置及びプログラム
US20210064815A1 (en) Information processing apparatus and non-transitory computer readable medium
JP7050605B2 (ja) アプリケーション生成装置、アプリケーション生成方法、及びアプリケーション生成プログラム
US20210064867A1 (en) Information processing apparatus and non-transitory computer readable medium
JP7268311B2 (ja) 情報処理装置及びプログラム
JP7243097B2 (ja) 情報処理装置及びプログラム
JP2024020728A (ja) 学習モデル学習装置、文字列画像位置予測装置、文字位置推定装置とその方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230220

R150 Certificate of patent or registration of utility model

Ref document number: 7243409

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150