JP7268311B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7268311B2
JP7268311B2 JP2018166649A JP2018166649A JP7268311B2 JP 7268311 B2 JP7268311 B2 JP 7268311B2 JP 2018166649 A JP2018166649 A JP 2018166649A JP 2018166649 A JP2018166649 A JP 2018166649A JP 7268311 B2 JP7268311 B2 JP 7268311B2
Authority
JP
Japan
Prior art keywords
recognition result
confirmation
information processing
index value
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018166649A
Other languages
English (en)
Other versions
JP2020042316A (ja
Inventor
啓太 浅井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018166649A priority Critical patent/JP7268311B2/ja
Publication of JP2020042316A publication Critical patent/JP2020042316A/ja
Application granted granted Critical
Publication of JP7268311B2 publication Critical patent/JP7268311B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
例えば、特許文献1には、人手によるベリファイを必要とする文字認識方法が記載されている。この文字認識方法は、文字が記載されている帳票上の画像を入力する第1のステップと、第1のステップにより入力された入力画像に対し文字認識を行ない、その文字認識結果としての類似度を得る第2のステップと、第2のステップにより得られた類似度と、あらかじめ登録された文字認識に要求する確信度とを比較する第3のステップと、を含む。また、この文字認識方法は、第3のステップによる比較の結果に基づき、文字認識結果に対し人手によるベリファイ処理を必要としない出力、文字認識結果に対し文字認識候補の選択肢を提示して人手によるベリファイ処理を促す出力、あるいは、文字認識結果に対し人手による新規入力および確定を提示して手入力処理を促す出力のいずれかを行なう第4のステップを含む。
また、特許文献2には、入力された未知の文字について認識結果を得るとともに、その認識結果の確からしさである確信度を決定できる文字認識装置が記載されている。この文字認識装置は、決定された確信度を閾値と比較して認識結果の誤りを検出する検出手段と、この検出手段の検出の際に、閾値を所定の条件に応じて随時変更させる閾値変更手段と、検出手段の検出した認識結果の誤りを、認識結果とともに出力する出力手段と、を備える。
特開2003-346080号公報 特開平9-62773号公報
ところで、文書の認識結果の確認作業においては、確認作業の工数を低減することと、認識結果の正誤の判定精度を向上させることとを両立させることは難しい。このため、文書の領域毎の重要性を考慮して、確認作業を行うことが望ましい。
本発明は、文書の領域毎の重要性を考慮しない場合と比較して、文書の認識結果についての確認作業の工数の低減を図りつつ、認識結果の正誤の判定精度を向上させることができる情報処理装置及びプログラムを提供することを目的とする。
上記目的を達成するために、請求項1に記載の情報処理装置は、認識の対象とする文書に含まれる複数の領域の各々に対応する画像の認識結果の確からしさを示す確信度、及び、前記複数の領域の各々に応じて予め設定された重み値に基づいて、前記認識結果の確認作業を行うか否かを判定する制御を行う制御部、を備えている。
また、請求項2に記載の情報処理装置は、請求項1に記載の発明において、前記重み値が、前記認識結果が不正解である場合に前記認識結果を確認しない場合のリスクを表す第1指標値、及び、前記認識結果が正解である場合に前記認識結果を確認する手間を表す第2指標値の少なくとも一方を含んでいる。
また、請求項3に記載の情報処理装置は、請求項2に記載の発明において、前記制御部が、前記画像に対応する領域についての前記第1指標値及び前記第2指標値の入力を受け付けるための入力画面を表示させる制御を更に行う。
また、請求項4に記載の情報処理装置は、請求項3に記載の発明において、前記入力画面が、前記第1指標値及び前記第2指標値の各々の大きさに対応して予め定められた複数のレベルが選択可能とされている。
また、請求項5に記載の情報処理装置は、請求項2に記載の発明において、前記複数の領域の各々に対応付けて、前記第1指標値及び前記第2指標値を登録した重み値テーブルを更に備え、前記制御部が、前記画像に対応する領域についての前記第1指標値及び前記第2指標値を、前記重み値テーブルから読み出す制御を更に行う。
また、請求項6に記載の情報処理装置は、請求項5に記載の発明において、前記第1指標値が、前記認識結果を確認しないことで発生するリスクが大きい領域ほど、大きな値が設定されている。
また、請求項7に記載の情報処理装置は、請求項6に記載の発明において、前記認識結果を確認しないことで発生するリスクの大きさを示すリスク情報を領域毎に記憶する記憶部を更に備え、前記制御部が、前記記憶部に記憶されているリスク情報に基づいて、前記第1指標値を導出する制御を更に行う。
また、請求項8に記載の情報処理装置は、請求項5に記載の発明において、前記第2指標値が、前記認識結果の確認の操作に要する操作時間が長い領域ほど、大きな値が設定されている。
また、請求項9に記載の情報処理装置は、請求項8に記載の発明において、前記認識結果の確認の操作に要した操作時間を領域毎に記憶する記憶部を更に備え、前記制御部が、前記記憶部に記憶されている操作時間に基づいて、前記第2指標値を導出する制御を更に行う。
また、請求項10に記載の情報処理装置は、請求項1~9のいずれか1項に記載の発明において、前記制御部が、前記確信度の閾値を、前記重み値から導出する制御を行い、前記確信度が前記閾値未満である場合に、前記認識結果を不正解とし、前記認識結果の確認作業を行うと判定し、前記確信度が前記閾値以上である場合に、前記認識結果を正解とし、前記認識結果の確認作業を行わないと判定する制御を更に行う。
また、請求項11に記載の情報処理装置は、請求項10に記載の発明において、前記制御部が、前記認識結果の確認作業を行うと判定した場合、前記確認作業を行うための確認画面を、確認者が使用する端末装置に表示させ、前記確認画面において、前記確認作業の対象とする、前記文書の領域を強調して表示させる制御を更に行う。
また、請求項12に記載の情報処理装置は、請求項11に記載の発明において、前記制御部が、前記確認画面において、前記確信度と前記閾値との差が大きい順に、前記文書の領域を順番に強調して表示させる制御を更に行う。
また、請求項13に記載の情報処理装置は、請求項11又は12に記載の発明において、前記制御部が、前記確認画面を介して前記確認者により、前記認識結果が訂正されなかった場合に、前記認識結果を不正解から正解に変更する制御を更に行う。
更に、上記目的を達成するために、請求項14に記載のプログラムは、コンピュータを、請求項1~13のいずれか1項に記載の情報処理装置が備える制御部として機能させる。
請求項1及び請求項14に係る発明によれば、文書の領域毎の重要性を考慮しない場合と比較して、文書の認識結果についての確認作業の工数の低減を図りつつ、認識結果の正誤の判定精度を向上させることができる。
請求項2に係る発明によれば、重み値として2つの指標値を用いない場合と比較して、文書の領域毎の重要性を適切に考慮することができる。
請求項3に係る発明によれば、入力画面を介して2つの指標値を受け付けない場合と比較して、2つの指標値を容易に設定することができる。
請求項4に係る発明によれば、2つの指標値を数値で入力する場合と比較して、2つの指標値を容易に設定することができる。
請求項5に係る発明によれば、重み値テーブルを用いない場合と比較して、自装置の処理負荷を軽減することができる。
請求項6に係る発明によれば、指標値としてリスクの大きさを考慮しない場合と比較して、文書の領域毎の重要性を適切に考慮することができる。
請求項7に係る発明によれば、指標値の導出にリスク情報を用いない場合と比較して、文書の領域毎の重要性を適切に考慮することができる。
請求項8に係る発明によれば、指標値として操作時間の長さを考慮しない場合と比較して、文書の領域毎の重要性を適切に考慮することができる。
請求項9に係る発明によれば、指標値の導出に操作時間を用いない場合と比較して、文書の領域毎の重要性を適切に考慮することができる。
請求項10に係る発明によれば、確信度の閾値を重み値から導出しない場合と比較して、確認作業の工数の低減を図りつつ、認識結果の正誤の判定精度を向上させることができる。
請求項11に係る発明によれば、文書の領域を強調して表示しない場合と比較して、確認作業の工数の低減を図ることができる。
請求項12に係る発明によれば、確信度と閾値との差を考慮しない場合と比較して、確認作業の工数の低減を図ることができる。
請求項13に係る発明によれば、認識結果を変更しない場合と比較して、認識結果の正誤の判定精度を向上させることができる。
実施形態に係る情報処理システムの構成の一例を示す図である。 実施形態に係るサーバ装置の電気的な構成の一例を示すブロック図である。 実施形態に係る確信度の閾値を設定する方法の説明に供する図である。 実施形態に係るサーバ装置の機能的な構成の一例を示すブロック図である。 実施形態に係るサーバ装置の具体的な構成の一例を示すブロック図である。 実施形態に係る帳票定義画面の一例を示す正面図である。 実施形態に係る帳票定義画面の他の例を示す正面図である。 実施形態に係る重み値テーブルの一例を示す図である。 実施形態に係る帳票定義画面の一部を示す図である。 実施形態に係る認識正誤データの一例を示す図である。 実施形態に係る確認処理プログラムによる確認判定処理の流れの一例を示すフローチャートである。 実施形態に係る確認者による確認作業の説明に供する図である。 実施形態に係る確認処理プログラムによる認識設定処理の流れの一例を示すフローチャートである。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
図1は、本実施形態に係る情報処理システム90の構成の一例を示す図である。
図1に示すように、本実施形態に係る情報処理システム90は、サーバ装置10と、確認者用端末装置40A、40B、・・・と、画像読取装置50と、管理者用端末装置60と、を備えている。なお、サーバ装置10は、情報処理装置の一例である。
サーバ装置10は、ネットワークNを介して、確認者用端末装置40A、40B、・・・、画像読取装置50、及び管理者用端末装置60の各々と通信可能に接続されている。このサーバ装置10には、一例として、サーバコンピュータや、パーソナルコンピュータ(PC:Personal Computer)等の汎用的なコンピュータが適用される。また、このネットワークNには、一例として、インターネットや、LAN(Local Area Network)、WAN(Wide Area Network)等が適用される。
画像読取装置50は、紙媒体の帳票等を光学的に読み取って画像を取得し、取得した画像(以下、「帳票画像」という。)をサーバ装置10に送信する機能を備えている。なお、ここでいう帳票としては、例えば、住所欄や氏名欄等の複数の項目を含む各種の帳票が用いられる。この帳票には、これら複数の項目の各々について手書き文字や、印刷文字等が記入される。なお、帳票は、文書の一例であり、項目は、領域の一例である。サーバ装置10は、具体的には後述するように、画像読取装置50から受信した帳票画像に対して、光学的文字認識処理の一例であるOCR(Optical Character Recognition)処理を行い、複数の項目の各々に対応する画像についての認識結果を取得する。なお、この認識結果には、一例として、1文字以上の文字の連なりを示す文字列等が含まれる。
確認者用端末装置40Aは、確認作業を行う確認者(ユーザ)U1が操作する端末装置であり、確認者用端末装置40Bは、確認作業を行う確認者U2が操作する端末装置である。これら複数の確認者用端末装置40A、40B、・・・を区別して説明する必要がない場合には、確認者用端末装置40A、40B、・・・を総称して確認者用端末装置40ともいう。また、これら複数の確認者U1、U2、・・・を区別して説明する必要がない場合には、確認者U1、U2、・・・を総称して確認者Uともいう。この確認者用端末装置40には、一例として、パーソナルコンピュータ(PC)等の汎用的なコンピュータや、スマートフォン、タブレット端末等の携帯可能な端末装置等が適用される。なお、確認者用端末装置40には、確認者Uが確認作業を行うための確認作業アプリケーション・プログラム(以下、「確認作業アプリ」ともいう。)がインストールされており、確認作業用のUI(User Interface)画面を生成して表示する。
管理者用端末装置60は、システム管理者SEが操作する端末装置であり、システム管理者SEにより後述する重み値等が入力される。この管理者用端末装置60には、一例として、パーソナルコンピュータ(PC)等の汎用的なコンピュータや、スマートフォン、タブレット端末等の携帯可能な端末装置等が適用される。
図2は、本実施形態に係るサーバ装置10の電気的な構成の一例を示すブロック図である。
図2に示すように、本実施形態に係るサーバ装置10は、制御部12と、記憶部14と、表示部16と、操作部18と、通信部20と、を備えている。
制御部12は、CPU(Central Processing Unit)12A、ROM(Read Only Memory)12B、RAM(Random Access Memory)12C、及び入出力インターフェース(I/O)12Dを備えており、これら各部がバスを介して各々接続されている。
I/O12Dには、記憶部14と、表示部16と、操作部18と、通信部20と、を含む各機能部が接続されている。これらの各機能部は、I/O12Dを介して、CPU12Aと相互に通信可能とされる。
制御部12は、サーバ装置10の一部の動作を制御するサブ制御部として構成されてもよいし、サーバ装置10の全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部12の各ブロックの一部又は全部には、例えば、LSI(Large Scale Integration)等の集積回路又はIC(Integrated Circuit)チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部12の集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
記憶部14としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が用いられる。記憶部14には、本実施形態に係る確認処理を行うための確認処理プログラム14Aが記憶される。なお、この確認処理プログラム14Aは、ROM12Bに記憶されていてもよい。また、記憶部14には、確認処理に用いる重み値テーブル14B及び認識正誤データ14Cが記憶されている。
確認処理プログラム14Aは、例えば、サーバ装置10に予めインストールされていてもよい。確認処理プログラム14Aは、不揮発性の記憶媒体に記憶して、又はネットワークNを介して配布して、サーバ装置10に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
表示部16には、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等が用いられる。表示部16は、タッチパネルを一体的に有していてもよい。操作部18には、例えば、キーボードやマウス等の操作入力用のデバイスが設けられている。表示部16及び操作部18は、サーバ装置10のユーザから各種の指示を受け付ける。表示部16は、ユーザから受け付けた指示に応じて実行された処理の結果や、処理に対する通知等の各種の情報を表示する。
通信部20は、インターネットや、LAN、WAN等のネットワークNに接続されており、画像読取装置50や、確認者用端末装置40、管理者用端末装置60との間でネットワークNを介して通信が可能とされる。
ところで、上述の帳票の各項目に対応する画像についての認識結果の確信度を用いて、認識結果の正誤を判定する場合がある。ここでいう確信度とは、認識結果の確からしさを示す指標である。この認識結果の正誤の判定は、確信度と閾値とを比較することにより行われる。以下、図3を参照して、確信度の閾値を設定する方法について説明する。
図3は、本実施形態に係る確信度の閾値を設定する方法の説明に供する図である。
図3において、縦軸は確信度(0以上1以下)を示し、横軸は複数の帳票(本例では100枚)を表す帳票番号を示す。また、白丸は帳票番号に対応して認識結果が正解とされる確信度をプロットした点を示し、黒丸は帳票番号に対応して認識結果が不正解とされる確信度をプロットした点を示す。
図3の上図に示すように、正解とされる確信度の分布と、不正解とされる確信度の分布とがある値を境として明確に分かれている場合、閾値Thは、境界となる値を基準として設定すればよい。
一方、図3の下図に示すように、正解とされる確信度の分布の幅と、不正解とされる確信度の分布の幅とが共に広い場合、大きい側の閾値Th1を設定すると、不正解が増加し、確認作業が多くなる。また、小さい側の閾値Th3を設定すると、正解が増加し、不正解のチェック漏れが多くなる。この場合、閾値Th1と閾値Th3との間で適切な閾値Th2を設定することが望ましいが、各項目の画像についての認識結果に対してどの程度の判定精度が求められるかは、各項目の重要性によって異なる。従って、帳票の項目毎の重要性を考慮して、確認作業を行うことが望ましい。
このため、本実施形態に係るサーバ装置10のCPU12Aは、記憶部14に記憶されている確認処理プログラム14AをRAM12Cに書き込んで実行することにより、図4に示す確認制御部30として機能する。
図4は、本実施形態に係るサーバ装置10の機能的な構成の一例を示すブロック図である。
図4に示すように、本実施形態に係るサーバ装置10のCPU12Aは、確認制御部30として機能する。なお、確認制御部30は、制御部の一例である。また、本実施形態では、文書の一例として帳票を適用し、更に、文書の領域の一例として帳票の項目を適用した場合について説明する。
本実施形態に係る確認制御部30は、認識の対象とする帳票に含まれる複数の項目の各々に対応する画像(以下、「認識対象画像」という。)の認識結果の確信度、及び、複数の項目の各々に応じて予め設定されている重み値に基づいて、認識結果の確認作業を行うか否かを判定する制御を行う。なお、この認識結果には、認識対象画像をOCR処理して得られた文字列等が含まれる。また、重み値は、一例として、重み値テーブル14Bから取得される。この重み値は、第1指標値及び第2指標値の少なくとも一方を含む。第1指標値とは、認識結果が不正解である場合に認識結果を確認しない場合のリスクを表す指標値であり、「リスク指数」ともいう。第2指標値とは、認識結果が正解である場合に認識結果を確認する手間を表す指標値であり、「チェック手間指数」ともいう。
次に、図5を参照して、本実施形態に係るサーバ装置10の具体的な構成について説明する。
図5は、本実施形態に係るサーバ装置10の具体的な構成の一例を示すブロック図である。
図5に示すように、本実施形態に係るサーバ装置10は、認識設定部210、認識処理部220、確認処理実施判定部230、確認処理部240、及び認識結果出力部250を備えている。これらの各部は、図4に示す確認制御部30を具体的に示したものである。
本実施形態に係る認識設定部210は、未記入帳票の帳票画像を入力として、認識設定を行う。認識設定部210は、例えば、図6に示す帳票定義画面62を、管理者用端末装置60に表示させて、確信度の閾値設定を行う。
図6は、本実施形態に係る帳票定義画面62の一例を示す正面図である。
図6に示す帳票定義画面62は、管理者用端末装置60に表示され、システム管理者SEにより確信度の閾値の入力を受け付けるための画面である。
図6に示す帳票定義画面62は、未記入帳票のプレビュー画像62Aと、認識枠情報62Bとを含んでいる。この認識枠情報62Bは、一例として、枠の種類、枠の名前、枠の座標、文字種、及び確信度の閾値を含んでいる。図6に示す例では、「氏名」に関する認識枠情報62Bが表示されている。
また、本実施形態に係る認識設定部210は、未記入帳票の帳票画像を入力として、例えば、図7に示す帳票定義画面62を、管理者用端末装置60に表示させて、リスク指数及びチェック手間指数の設定を行う。図7に示す帳票定義画面62は、入力画面の一例である。
図7は、本実施形態に係る帳票定義画面62の他の例を示す正面図である。
図7に示す帳票定義画面62は、管理者用端末装置60に表示され、システム管理者SEによりリスク指数及びチェック手間指数の入力を受け付けるための画面である。
図7に示す帳票定義画面62は、未記入帳票のプレビュー画像62Aと、認識枠情報62Cとを含んでいる。この認識枠情報62Cは、図6に示す確信度の閾値に代えて、リスク指数及びチェック手間指数を含んでいる。図7に示す例では、「認定番号」に関する認識枠情報62Cが表示されている。
すなわち、認識設定部210は、認識対象画像に対応する項目についてのリスク指数及びチェック手間指数の入力を受け付けるための入力画面の一例である帳票定義画面62を、管理者用端末装置60に表示させる制御を行う。認識設定部210は、帳票定義画面62を介して入力を受け付けたリスク指数及びチェック手間指数を、一例として、図8に示す重み値テーブル14Bに登録する。
図8は、本実施形態に係る重み値テーブル14Bの一例を示す図である。
図8に示す重み値テーブル14Bでは、複数の項目の各々に対応付けて、リスク指数及びチェック手間指数が登録されている。
図8に示すように、リスク指数は、認識結果を確認しないことで発生するリスクが大きい項目ほど、大きな値が設定されている。本例の場合、「氏名」、「住所」、及び「認定番号」が含まれているが、「認定番号」は、間違えて認識してしまうと、修正に多大な工数を要したり、多大な損害が発生したりする可能性がある。このため、リスク指数を大きくする(本例では「1000」である。)。一方、「住所」は、何らかの照会があった場合に参照するだけなので、間違えて認識しても発生するリスクは小さいと考えられる。このため、リスク指数を小さくする(本例では「0」である。)。
なお、リスク指数は、システム管理者SEの手動による設定でもよいし、自動的に設定することでもよい。自動設定の場合、記憶部14は、認識結果を確認しないことで発生するリスクの大きさを示すリスク情報を項目毎に記憶しておく。例えば、リスク情報として、リスクの大きさを示す値(一例として、0~1000)を項目毎に予め割り当てておく。本例の場合、「認定番号」には「1000」を割り当て、「住所」には「0」を割り当て、「氏名」には「50」を割り当てておく。認識設定部210は、記憶部14に記憶されているリスク情報に基づいて、リスク指数を導出し、一例として、図8に示す重み値テーブル14Bに設定する。例えば、リスク情報として示される値をそのままリスク指数として用いてもよいし、リスク情報として示される値に所定の係数を乗じて得られる値をリスク指数として用いてもよい。
一方、チェック手間指数は、認識結果の確認の操作に要する操作時間が長い項目ほど、大きな値が設定されている。本例の場合、上述したように、「氏名」、「住所」、及び「認定番号」が含まれているが、「認定番号」は、数字のみであるため、確認作業をすぐに行える。このため、チェック手間指数を小さくする(本例では「1」である。)。一方、「住所」は、文字が複雑で、かつ、文字数が多いため、確認作業に時間がかかると考えられる。このため、チェック手間指数を大きくする(本例では「3」である。)。
なお、チェック手間指数は、上記リスク指数と同様に、システム管理者SEの手動による設定でもよいし、自動的に設定することでもよい。自動設定の場合、記憶部14は、認識結果の確認の操作に要した操作時間を項目毎に記憶しておく。この操作時間には、複数回の確認の操作を行った場合には、複数回の操作時間の最大値や平均値等が適用される。認識設定部210は、記憶部14に記憶されている操作時間に基づいて、チェック手間指数を導出し、一例として、図8に示す重み値テーブル14Bに設定する。例えば、操作時間が「T1以上T2未満」の項目にはチェック手間指数として「1」を設定し、操作時間が「T2以上T3未満」の項目には「2」を設定し、操作時間が「T3以上T4未満」の項目には「3」を設定する。但し、T1<T2<T3<T4である。
また、チェック手間指数を自動設定する場合、一例として、認識枠の大きさに応じて、チェック手間指数を設定してもよい。なお、認識枠の大きさは、上述した認識枠情報に含まれる枠の座標から導出される。認識枠が大きいほど、文字数が多いと考えられるため、チェック手間指数として大きな値を設定する。
なお、図7に示す帳票定義画面62では、リスク指数及びチェック手間指数の各々の値を指定するようにしたが、図9に示すように、リスク指数及びチェック手間指数の各々の大きさに対応して予め定められた複数のレベルが選択可能に設けられていてもよい。
図9は、本実施形態に係る帳票定義画面62の一部を示す図である。
図9に示す帳票定義画面62の一部は、認識枠情報62Cに含まれるリスク指数及びチェック手間指数のみを示したものである。
図9に示すように、リスク指数及びチェック手間指数の各々について、上記複数のレベルの一例として、「大、中、小、なし」が選択可能とされている。この「大、中、小、なし」の各々には、リスク指数の値及びチェック手間指数の値が対応付けられている。本例の場合、リスク指数の「大」が選択され、チェック手間指数の「小」が各々選択されている。
次に、図5に戻り、本実施形態に係る認識処理部220は、記入済帳票の帳票画像を入力として、認識対象画像を受け付け、認識対象画像の認識結果及びその確信度を出力する。認識処理部220は、認識設定部210による設定内容に基づいて、受け付けた認識対象画像に対してOCR処理を行い、文字列等の認識結果を得る。なお、文字列等の認識方法としては、文字列等の認識結果、及び、その確信度を出力する公知の技術を用いればよい。この確信度とは、上述したように、文字列等の確からしさを示す指標であり、確信度の値が高いほど、認識対象画像とその文字列等とが一致する確率が高いことを示している。この確信度の導出方法としては、例えば、特開2016-212812号公報に記載されている、特開平5-040853公報、特開平5-020500号公報、特開平5-290169号公報、特開平8-101880号公報、特開2011-113125号公報、及び特開2013-069132号公報等に記載の公知の技術を用いればよい。なお、これらの中で、各文字に対する確信度を用いるものがあるが、文字毎の確信度を文字列の確信度に変換する手法としては、下記に示す様々な手法の中から適切なものを選択すればよい。
・文字列内の各文字についての確信度の最大値を文字列の確信度とする。
・文字列内の各文字についての確信度の最小値を文字列の確信度とする。
・文字列内の各文字についての確信度の平均値(最頻値、中央値等)を文字列の確信度とする。
本実施形態に係る確認処理実施判定部230は、認識対象画像に対応する項目についてのリスク指数及びチェック手間指数を、一例として、図8に示す重み値テーブル14Bから読み出す。確認処理実施判定部230は、図8に示す重み値テーブル14Bから読み出したリスク指数及びチェック手間指数と、一例として、図10に示す認識正誤データ14Cとから確信度の閾値を導出する。
図10は、本実施形態に係る認識正誤データ14Cの一例を示す図である。
図10において、縦軸は確信度(0以上1以下)を示し、横軸は複数の帳票(本例では100枚)を表す帳票番号を示す。また、白丸は帳票番号に対応して認識結果が正解とされる確信度をプロットした点を示し、黒丸は帳票番号に対応して認識結果が不正解とされる確信度をプロットした点を示す。
図10の左図は、帳票の項目のうちの「氏名」に関し、正解とされる確信度の分布と、不正解とされる確信度の分布とを示している。また、図10の中図は、帳票の項目のうちの「住所」に関し、正解とされる確信度の分布と、不正解とされる確信度の分布とを示している。また、図10の右図は、帳票の項目のうちの「認定番号」に関し、正解とされる確信度の分布と、不正解とされる確信度の分布とを示している。
確認処理実施判定部230は、各項目についての確信度の閾値(Th)を、以下に示す式(1)から得られる値が最小となるものから選択する。
(確認を「する」かつ「正解」数)×(リスク指数)+(確認を「しない」かつ「不正解」数)×(チェック手間指数) ・・・(1)
図10の左図に示す「氏名」の場合、リスク指数及びチェック手間指数の各々の値に基づいて、正解とされる確信度の分布と、不正解とされる確信度の分布とが重なる部分のうちのいずれかの値が閾値Thとなる。また、図10の中図に示す「住所」の場合、リスク指数が0であるため、正解とされる確信度の分布及び不正解とされる確信度の分布の各々におけるどの値よりも小さい値が閾値Thとなる。また、図10の右図に示す「認定番号」の場合、正解とされる確信度の分布と不正解とされる確信度の分布との境界が明確であるため、その境界付近が閾値Thとなる。
確認処理実施判定部230は、認識処理部220から出力された認識結果及びその確信度に対して、上記で求めた閾値Thを用いて、認識結果の確認作業を行うか否かを判定する。つまり、確認処理実施判定部230は、確信度が閾値Th未満である場合に、認識結果を不正解とし、認識結果の確認作業を行うと判定し、確信度が閾値Th以上である場合に、認識結果を正解とし、認識結果の確認作業を行わないと判定する。そして、確認処理実施判定部230は、判定結果を確認処理部240に出力する。
本実施形態に係る確認処理部240は、確認処理実施判定部230から受け付けた判定結果に基づいて、確認作業の必要な項目について確認者Uに認識対象画像及び認識結果をフィードバックし、確認者Uに確認作業を行わせる。具体的に、確認処理部240は、認識結果の確認作業を行うと判定された場合、確認作業を行うための確認画面を、確認者用端末装置40に表示させ、確認画面において、確認作業の対象とする、帳票の項目を強調して表示させる。ここでいう強調には、一例として、項目の画像の色を異ならせる、項目の画像に背景色を付与する、更には、項目の画像に下線や囲み線等の飾りを付与する等が含まれる。この確認画面の具体例については後述の図12に示す。
ここで、確認者Uにより認識結果が訂正されなかった場合は正解、訂正された場合は不正解として、認識結果の確信度と共に、認識正誤データ14Cとして記憶部14に格納する。つまり、確認処理部240は、上記確認画面を介して確認者Uにより、認識結果が訂正されなかった場合に、認識結果を不正解から正解に変更する。そして、確認処理部240は、最終的な認識結果を出力する。
本実施形態に係る認識結果出力部250は、確認処理部240から受け付けた最終的な認識結果を出力する。最終的な認識結果の出力先は、特に限定されるものではないが、表示部16、確認者用端末装置40、及び管理者用端末装置60の少なくとも1つを出力先としてもよい。
次に、図11を参照して、本実施形態に係るサーバ装置10の作用を説明する。
図11は、本実施形態に係る確認処理プログラム14Aによる確認判定処理の流れの一例を示すフローチャートである。
まず、サーバ装置10に対して、記入済帳票についての確認判定処理の開始が指示されると、確認処理プログラム14Aが起動され、以下の各ステップを実行する。
図11のステップ100では、認識処理部220が、記入済帳票の入力を受け付ける。
ステップ102では、認識処理部220が、記入済帳票の項目毎の画像に対してOCR処理を行うことにより文字認識を行い、項目毎に認識結果及びその確信度を得る。
ステップ104では、確認処理実施判定部230が、一例として、予め定められた順番に従って、項目を特定する。
ステップ106では、確認処理実施判定部230が、ステップ104で特定した項目についての重み値を、一例として、上述の図8に示す重み値テーブル14Bから取得する。
ステップ108では、確認処理実施判定部230が、ステップ106で取得した重み値の一例であるリスク指数及びチェック手間指数と、一例として、上述の図10に示す認識正誤データ14Cとから、上述の式(1)を用いて、確信度の閾値Thを導出する。
ステップ110では、確認処理実施判定部230が、ステップ102で得られた確信度が、ステップ108で導出された閾値Th未満であるか否かを判定する。確信度が閾値Th未満であると判定した場合(肯定判定の場合)、ステップ112に移行し、確信度が閾値Th以上であると判定した場合(否定判定の場合)、ステップ114に移行する。
ステップ112では、確認処理実施判定部230が、認識結果を不正解とし、認識結果の確認作業を行うと判定し、判定結果を確認処理部240に出力する。
一方、ステップ114では、確認処理実施判定部230が、認識結果を正解とし、認識結果の確認作業を行わないと判定し、判定結果を確認処理部240に出力する。
ステップ116では、確認処理実施判定部230が、最後の項目であるか否かを判定する。最後の項目であると判定した場合(肯定判定の場合)、本確認処理プログラム14Aによる確認判定処理を終了し、最後の項目ではないと判定した場合(否定判定の場合)、ステップ104に戻り処理を繰り返す。
次に、図12を参照して、確認者Uによる確認作業について説明する。
図12は、本実施形態に係る確認者Uによる確認作業の説明に供する図である。
図12に示す例では、3名の確認者Uにより確認作業を行う場合について示しているが、確認者Uは1名以上であればよい。
図12の(S1)では、確認処理部240が、確認者Uが操作する確認者用端末装置40にログイン画面42を表示させる。確認者Uがログイン画面42からユーザID(Identification)及びパスワードを入力する。
図12の(S2)では、確認処理部240が、確認者Uからのログインを受け付けた場合に、確認者用端末装置40に確認画面44を表示させる。この確認画面44では、ある項目についての、認識対象画像としてのプレビュー画像と、OCR処理の結果としての認識結果とが並べて表示される。また、この確認画面44には、「全体プレビュー画像表示」ボタンが設けられており、この「全体プレビュー画像表示」ボタンが確認者Uにより選択指定されると、全体プレビュー画像45が確認者用端末装置40に表示される。この全体プレビュー画像45においては、確認対象の項目45Aが強調して表示される。本例の場合、「生年月日」欄の画像が色付きの囲み線で囲まれることで、強調して表示されている。
なお、確認画面44においては、確信度と閾値Thとの差が大きい順、つまり、不正解である可能性が高い順に、帳票の項目を順番に強調して表示させるようにしてもよい。
図12の(S3)では、確認処理部240が、確認画面44に対して確認者Uから画面遷移の指示を受け付けた場合、確認者用端末装置40に確認画面46を表示させる。この確認画面46についても、確認画面44と同様に、次の項目についての、認識対象画像としてのプレビュー画像と、OCR処理の結果としての認識結果とが並べて表示される。なお、このときの確認作業に要した操作時間及び訂正結果は項目毎に記憶部14に記憶される。操作時間は、1つの項目の確認画面を表示してから、次の項目の確認画面に遷移するまでの時間として計測する。また、確認処理部240では、確認対象とする項目を自動的に確認者Uに振り分けて表示させる。
図12の(S4)では、確認処理部240が、確認対象の全ての項目について確認作業が完了した場合、確認者用端末装置40に完了画面48を表示させる。
次に、図13を参照して、本実施形態に係るサーバ装置10の別の作用を説明する。
図13は、本実施形態に係る確認処理プログラム14Aによる認識設定処理の流れの一例を示すフローチャートである。
まず、サーバ装置10に対して、未記入帳票についての認識設定処理の開始が指示されると、確認処理プログラム14Aが起動され、以下の各ステップを実行する。
図13のステップ120では、認識設定部210が、未記入帳票の入力を受け付ける。
ステップ122では、認識設定部210が、一例として、予め定められた順番に従って、項目を特定する。
ステップ124では、認識設定部210が、ステップ122で特定された項目に対応付けて重み値を設定する。本実施形態では、重み値の一例であるリスク指数及びチェック手間指数を、上述の図8に示す重み値テーブル14Bに登録する。
ステップ126では、認識設定部210が、最後の項目であるか否かを判定する。最後の項目であると判定した場合(肯定判定の場合)、本確認処理プログラム14Aによる認識設定処理を終了し、最後の項目ではないと判定した場合(否定判定の場合)、ステップ122に戻り処理を繰り返す。
このように本実施形態によれば、帳票の項目毎の重要性を考慮した重み値を用いて確信度の閾値を設定する。このため、帳票の認識結果についての確認作業の工数を低減させつつ、認識結果の正誤の判定精度が向上する。
以上、実施形態に係る情報処理装置の一例としてサーバ装置を例示して説明した。実施形態は、サーバ装置が備える各部の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明したサーバ装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 サーバ装置
12 制御部
12A CPU
12B ROM
12C RAM
12D I/O
14 記憶部
14A 確認処理プログラム
14B 重み値テーブル
14C 認識正誤データ
16 表示部
18 操作部
20 通信部
30 確認制御部
40、40A、40B 確認者用端末装置
50 画像読取装置
60 管理者用端末装置
90 情報処理システム
210 認識設定部
220 認識処理部
230 確認処理実施判定部
240 確認処理部
250 認識結果出力部

Claims (14)

  1. 認識の対象とする文書に含まれる複数の領域の各々に対応する画像の認識結果の確からしさを示す確信度、及び、前記複数の領域の各々に応じて予め設定された重み値に基づいて、前記認識結果の確認作業を行うか否かを判定する制御を行う制御部、
    を備えた情報処理装置。
  2. 前記重み値は、前記認識結果が不正解である場合に前記認識結果を確認しない場合のリスクを表す第1指標値、及び、前記認識結果が正解である場合に前記認識結果を確認する手間を表す第2指標値の少なくとも一方を含む請求項1に記載の情報処理装置。
  3. 前記制御部は、前記画像に対応する領域についての前記第1指標値及び前記第2指標値の入力を受け付けるための入力画面を表示させる制御を更に行う請求項2に記載の情報処理装置。
  4. 前記入力画面は、前記第1指標値及び前記第2指標値の各々の大きさに対応して予め定められた複数のレベルが選択可能とされている請求項3に記載の情報処理装置。
  5. 前記複数の領域の各々に対応付けて、前記第1指標値及び前記第2指標値を登録した重み値テーブルを更に備え、
    前記制御部は、前記画像に対応する領域についての前記第1指標値及び前記第2指標値を、前記重み値テーブルから読み出す制御を更に行う請求項2に記載の情報処理装置。
  6. 前記第1指標値は、前記認識結果を確認しないことで発生するリスクが大きい領域ほど、大きな値が設定されている請求項5に記載の情報処理装置。
  7. 前記認識結果を確認しないことで発生するリスクの大きさを示すリスク情報を領域毎に記憶する記憶部を更に備え、
    前記制御部は、前記記憶部に記憶されているリスク情報に基づいて、前記第1指標値を導出する制御を更に行う請求項6に記載の情報処理装置。
  8. 前記第2指標値は、前記認識結果の確認の操作に要する操作時間が長い領域ほど、大きな値が設定されている請求項5に記載の情報処理装置。
  9. 前記認識結果の確認の操作に要した操作時間を領域毎に記憶する記憶部を更に備え、
    前記制御部は、前記記憶部に記憶されている操作時間に基づいて、前記第2指標値を導出する制御を更に行う請求項8に記載の情報処理装置。
  10. 前記制御部は、前記確信度の閾値を、前記重み値から導出する制御を行い、
    前記確信度が前記閾値未満である場合に、前記認識結果を不正解とし、前記認識結果の確認作業を行うと判定し、
    前記確信度が前記閾値以上である場合に、前記認識結果を正解とし、前記認識結果の確認作業を行わないと判定する制御を更に行う請求項1~9のいずれか1項に記載の情報処理装置。
  11. 前記制御部は、前記認識結果の確認作業を行うと判定した場合、前記確認作業を行うための確認画面を、確認者が使用する端末装置に表示させ、前記確認画面において、前記確認作業の対象とする、前記文書の領域を強調して表示させる制御を更に行う請求項10に記載の情報処理装置。
  12. 前記制御部は、前記確認画面において、前記確信度と前記閾値との差が大きい順に、前記文書の領域を順番に強調して表示させる制御を更に行う請求項11に記載の情報処理装置。
  13. 前記制御部は、前記確認画面を介して前記確認者により、前記認識結果が訂正されなかった場合に、前記認識結果を不正解から正解に変更する制御を更に行う請求項11又は12に記載の情報処理装置。
  14. コンピュータを、請求項1~13のいずれか1項に記載の情報処理装置が備える制御部として機能させるためのプログラム。
JP2018166649A 2018-09-06 2018-09-06 情報処理装置及びプログラム Active JP7268311B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018166649A JP7268311B2 (ja) 2018-09-06 2018-09-06 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018166649A JP7268311B2 (ja) 2018-09-06 2018-09-06 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020042316A JP2020042316A (ja) 2020-03-19
JP7268311B2 true JP7268311B2 (ja) 2023-05-08

Family

ID=69798192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018166649A Active JP7268311B2 (ja) 2018-09-06 2018-09-06 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7268311B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279343A (ja) 2001-03-16 2002-09-27 Ricoh Co Ltd 認識結果修正装置、認識結果修正方法および記録媒体
JP2002312365A (ja) 2001-04-18 2002-10-25 Fujitsu Ltd 文書画像検索装置
JP2003346080A (ja) 2002-05-22 2003-12-05 Toshiba Corp 文字認識方法
JP2014137605A (ja) 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002279343A (ja) 2001-03-16 2002-09-27 Ricoh Co Ltd 認識結果修正装置、認識結果修正方法および記録媒体
JP2002312365A (ja) 2001-04-18 2002-10-25 Fujitsu Ltd 文書画像検索装置
JP2003346080A (ja) 2002-05-22 2003-12-05 Toshiba Corp 文字認識方法
JP2014137605A (ja) 2013-01-15 2014-07-28 Fujitsu Marketing Ltd レシート定義データ作成装置およびそのプログラム

Also Published As

Publication number Publication date
JP2020042316A (ja) 2020-03-19

Similar Documents

Publication Publication Date Title
RU2613734C1 (ru) Захват видео в сценарии ввода данных
EP3543912A1 (en) Image processing device, image processing method, and image processing program
RU2571396C2 (ru) Способ и система для верификации в процессе чтения
WO2019024692A1 (zh) 语音输入方法、装置、计算机设备和存储介质
US9596087B2 (en) Token authentication for touch sensitive display devices
US20170262722A1 (en) Information processing apparatus, program, and information processing method
US20160096706A1 (en) Handwriting input and security
JP5018939B2 (ja) 情報表示装置及び情報表示プログラム
US11200450B2 (en) Information processing apparatus and non-transitory computer readable medium for selecting a proper version of a recognition dictionary that is not necessarily a latest version
CN104346035A (zh) 对自动地更正的单词的指示
US20220164573A1 (en) Business card management device and non-transitory computer readable medium storing business card management program
JP7268311B2 (ja) 情報処理装置及びプログラム
US10706581B2 (en) Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor
JP2020052570A (ja) 情報処理装置及びプログラム
JP7263721B2 (ja) 情報処理装置及びプログラム
JP2020087112A (ja) 帳票処理装置および帳票処理方法
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
US9940407B2 (en) Method and apparatus for providing combined authentication service
JP7338265B2 (ja) 情報処理装置及びプログラム
JP7268316B2 (ja) 情報処理装置及びプログラム
JP6682777B2 (ja) 情報処理装置及び情報処理プログラム
WO2023188160A1 (ja) 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
JP2020047195A (ja) 情報処理装置及びプログラム
US20220198190A1 (en) Information processing apparatus and non-transitory computer readable medium
WO2016197763A1 (zh) 一种密码输入方法和终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230404

R150 Certificate of patent or registration of utility model

Ref document number: 7268311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150