JP7414449B2 - データ処理システム、データ処理方法、および、プログラム - Google Patents
データ処理システム、データ処理方法、および、プログラム Download PDFInfo
- Publication number
- JP7414449B2 JP7414449B2 JP2019178690A JP2019178690A JP7414449B2 JP 7414449 B2 JP7414449 B2 JP 7414449B2 JP 2019178690 A JP2019178690 A JP 2019178690A JP 2019178690 A JP2019178690 A JP 2019178690A JP 7414449 B2 JP7414449 B2 JP 7414449B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- workflow
- data processing
- selection
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 79
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 52
- 238000012015 optical character recognition Methods 0.000 description 41
- 239000003999 initiator Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013479 data entry Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035936 sexual power Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
OCR処理を用いることにより、一般的なオフィスで実施されている経費精算作業に代表される紙媒体の帳票からデジタルデータへの変換を伴う作業を自動化することが可能になり、データ入力作業における生産性の向上が期待できる。
そこで、OCR処理により取得された文字列に対しては、誤認識がないかをユーザが直接に確認し、必要があれば、修正をするチェック作業を行う必要がある。このようなチェック作業は、一般的に、PC(Personal Computer)や画像処理装置の表示部において行われる。
しかし、OCR処理により取得された文字列に対する、誤認識された文字の発見、指定、修正など作業は煩雑であるため、特に、多くの文書を対象に処理する場合には、チェック者の作業負担は重くなるという問題がある。
しかし、突合処理の際に、複数の選択候補文字列がユーザに提示されることがあるが、類似する多数の選択候補が提示される場合、その中から適切な文字列を選択することはチェック者にとっては負担が重い。
また、特許文献1の手法では、ユーザが選択した頻度を用いる際に、チェック作業を行うチェック者の熟練度も考慮されていない。したがって、提示される順位の信頼性も担保されていない。
図1は、本実施例に係るデータ処理システムの全体構成を示す図である。
図1に示すように、画像処理装置100及びPC/サーバー端末101は、イーサネット(登録商標)や無線LANなどからなるLAN104に接続され、さらに、インターネット105に接続されている。また、モバイル端末103は、公衆無線通信網102などを介してインターネット105に接続されている。画像処理装置100、PC/サーバー端末101、及びモバイル端末103は、LAN104又は公衆無線通信網102を介してインターネット105に接続され、相互に通信可能となっている。なお、PC/サーバー端末101とモバイル端末103に関しては、いずれか一方がある構成でもよいし、PC/サーバー端末101やモバイル端末103などが実施する処理を画像処理装置100が行うように構成してもよい。
なお、本実施例では、画像処理装置100においてスキャン画像の保存、メタデータの生成、外部ストレージへの送信を行うものとするが、PC/サーバー端末101において同様の処理をしてもよい。
なお、以上の構成要素は、あくまで例示であり、すべての構成要素が本発明に必須というものではない。
制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115を備え、これらはシステムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
記憶装置112は、制御プログラム、画像データ、メタデータ、設定データ、処理結果データなどを格納し保存する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118、大容量記憶領域であるHDD119などを有する。
ROM117は、制御プログラムなどを保存する。
RAM118は、CPU111の主メモリであり、ワークエリア等の一時記憶領域として用いられる。
HDD119は、大容量記憶領域であるHDDであり、画像データ、メタデータなどを保存する記憶領域として用いられる。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部やテンキー、スタートボタン、キャンセルボタン等のハードキーが備えられている。スタートボタンは、コピーやスキャンの処理を開始させるためのボタンである。キャンセルボタンは画像処理装置100が実行中の処理を一時停止、または中止するためのボタンである。
その他、画像処理装置100には、図示しないプリンタ部等も備えられている。
以上のように、本実施例に係る画像処理装置100は、上述したハードウェア構成により、画像処理機能を提供する。
例えば、処理開始者がユーザAである請求書ワークフロー701を例にとると、まず、処理開始者であるユーザAが、請求書など文書についてOCR処理を行い、「企業名」、「合計金額」などの項目値を抽出した後、OCR結果をチェックする。次に、ユーザAがチェックしたOCR結果について、チェック者1として、ユーザBがチェックする。最後に、ユーザBがチェックしたOCR結果について、チェック者2として、ユーザCがさらにチェックした後、文書を請求書登録システム711に入力する。
本実施例におけるデータ入力作業は、上述のようなワークフローに対して実行される。
次に、ステップS302において、CPU111は、スキャン画像に対して、画像変換、傾き補正、二値化等のOCR処理の前処理を行い、続いて、スキャン画像上の文字領域の特定処理及びOCR処理を行う。このように、文書内の文字領域ごとにOCR処理により文字コードが得られた後、ユーザが必要とする項目値が抽出される。なお、本実施例において、文字とは、(狭義の)文字に限られず、数字や記号などを含む、OCR処理によりコード化されるものをいう。
請求書には、例えば、「企業名」、「電話番号」、「合計金額」などの項目と、それらの項目に対応した項目値(例えば、「キヤノン」、「03-123-4567」、「¥11,286」)が含まれる。
例えば、項目名「合計金額」の項目値を抽出する場合、処理対象の文書種別(この場合は、「請求書」)で「合計金額」の意を示す「請求金額」などの文字列を検索する。その結果、スキャン画像ら見つかった「御請求金額」の位置と、予め定義され、画像処理装置100に記憶されている「御請求金額」と金額の項目値の位置関係に基づいて、「合計金額」の項目値を検索する。この場合は、「「御請求金額」文字列の右側に金額の項目値が存在する」というルールに基づいて、項目値「¥11,286」が抽出される。
なお、以上に示した項目値抽出の手段はあくまで一例であり、ユーザが所望する情報が抽出されることについて手段は問わない。
ワークフローの判別は、ステップS302で得られた項目値の中から、ワークフローの種別を判別するために必要な項目を抽出することにより行われる。ワークフローの種別を判別するために必要な項目とは、本実施例では、例えば、請求書であれば、「請求書」や「納品書」などの帳票のタイトル、発行元の企業名、品目や請求金額、日付のような項目である。これらの項目と各ワークフローとの結びつきの強さに基づいて、ワークフローを判別する。
ただし、ワークフローを判別する手法は、これには限られない。例えば、文書をスキャンする前に、表示・操作部121においてユーザがあらかじめ各ロールの内容を指示することによって、ワークフローを判別させるようにしてもよい。
図5は、図7で図示したようなワークフローに携わるユーザをテーブルにした、ワークフローの種別ごとのユーザテーブル501の一例である。ユーザテーブル501には、図7で示したワークフロー701~704について、帳票種類と、処理開始者、チェック者1、チェック者2である各ユーザ名が記載されている。ワークフローの種別ごとのユーザテーブル501は、あらかじめ作成され、記憶装置112に格納されている。
チェック処理が終了していなければ、次のロールについてチェック処理をするために、ステップS304に戻る。すべてのロールについてチェック処理が終了したら、ステップS307へ進む。
そして、ステップS307において、抽出した各項目値がシステムに入力されて、データ入力作業が終了する。
ここでは、処理開始者がユーザAである請求書ワークフロー701を例にして説明する。前述したように、請求書ワークフロー701は、処理開始者がユーザAであり、チェック者1がユーザBであり、チェック者2がユーザCである。なお、図10のフローチャートにおける処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。
次に、ステップS1002において、CPU111は、S1001で取得したOCR結果を修正するための選択候補を、優先順位にしたがい、画像処理装置100に備えられた表示・操作部121にチェック用画面1101として表示する。なお、選択候補の優先順位は、図8で後述するスコア付きの選択候補リストに基づいて生成される。
チェック用画面1101には、図11(a)に示されるように、文書401のスキャン画像から抽出された文字列画像1102と、文字列画像1102をOCR処理して得られたOCR結果1103(ここでは、「キャノン」)が表示される。また、OCR結果1103の下には、ドロップダウンリストとして、OCR結果1103(「キャノン」)についての選択候補1104(「キヤノン」、「キュノン」など)が優先順位にしたがい表示される。
なお、選択候補1104の表示方法としては、これに限られず、OCR結果1103や文字列画像1102と対比しやすい位置に表示させればよい。
また、チェック用画面1101は、画像処理装置100に備えられた表示・操作部121に表示させることには限られず、PC101に備えられたモニタ(不図示)などに表示させてもよい。
選択候補からの選択は、チェック用画面1101において、ユーザが、選択候補1104の中から1つの選択候補をタッチしてから確定ボタン1105を押下したり、不図示のマウスを用いてクリックしたりすることによって実行される。
例えば、チェック用画面1101においてユーザが選択候補1104の中から「キヤノン」を選択した場合、ワークフロー711について、後述するスコア付きの選択候補リスト内の「キヤノン」のスコアが加算される。なお、スコアを加算するスコア加算処理の詳細な説明については、図8などを用いて後述する。
すべての項目値についてチェック処理が終了した場合は、本フローチャートの処理を終了する。まだ修正していない項目値がある場合は、ステップS1001に戻って、次の未処理の項目値について、同様の処理を行う。
このOCR結果402に対して、ROM117、HDD119等に記憶されている企業名辞書403の中から、突合処理によって選択候補リスト404が抽出される。この例では、選択候補リスト404には、企業名としてOCR結果402である「キャノン」と近いと判断された、「キヤノン」、「キヤソン」、「キヤノー」、「キャノン」、「キュノン」などの文字列が含まれている。
スコア付きの選択候補リストには、ワークフローの種別ごと、かつ、修正対象の文字列ごとに、それぞれ、選択候補のリストが、各選択候補が正解である可能性を示すスコアとともに、スコアが高い順に記載されている。なお、各選択候補のスコアは、該当する種別のワークフローを処理した各ユーザによって選択された累積頻度である。
(a)のスコア付きの選択候補リスト801には、ワークフロー701における文字列「キャノン」についての選択候補が、スコアが高い順に並べられている。優先順位付きの選択候補リスト410は、スコア付きの選択候補リスト801に基づいて生成される。
前述のステップS1003において、図4のチェック結果409、411、412に示されるとおり、各ユーザが請求書ワークフロー701における担当のロールについてチェック処理を行ったものとする。
すなわち、ワークフロー711において、ユーザAは、修正対象の文字列「キャノン」について、選択候補の中から「キヤノン」を選択したとする。ユーザBも、修正対象の文字列「キャノン」について、選択候補の中から「キヤノン」を選択したとする。また、ユーザCは、修正対象の文字列「キャノン」について、選択候補の中から「キュノン」を選択したとする。
例えば、請求書ワークフロー701、704では、各ユーザの修正に対する重みが、処理開始者については「+1」、チェック者1について「+2」、チェック者2について「+3」とされている。
また、旅費精算ワークフロー702では、各ユーザの修正に対する重みが、処理開始者については「+1」、チェック者1については「+3」、チェック者2については「+4」とされている。
この例のように、各ワークフローについて、ユーザごとに、修正に対する重みを変えることができる。特に、チェック者が複数存在する場合には、後にチェックを行うチェック者2の重みを高くすることが考えられる。
ユーザAは、チェック結果409に示されるとおり、「キヤノン」を選択したことから、選択候補優先順位リスト801において、「キヤノン」のスコアに1を加える。
ユーザBも、チェック結果411に示されるとおり、「キヤノン」を選択したことから、選択候補優先順位リスト801において、「キヤノン」のスコアにさらに2を加える。
ユーザCは、チェック結果412に示されるとおり、「キュノン」を選択したことから、選択候補優先順位リスト801において、「キュノン」のスコアに5を加える。
すなわち、この例では、S1004において、スコア加算処理により、選択候補優先順位リスト801(図8(a))に、図9にテーブル901として示したような加算スコアが加算される。
実施例1では、ユーザに対してOCR結果を修正するための選択候補を提示し、その中から正しいものを選択させるようにした。ただし、提示された選択候補の中に選択すべき選択肢が存在しない場合も考えられる。例えば、企業名辞書403には現存する企業の名前のみが記憶されているものであるが、文書内に新規な企業名が記載されている場合も想定される。
そこで、実施例2では、提示された選択候補の中に適切な選択肢が存在しない場合に、選択候補を簡便に追加できるようにする。
そして、S1003においてユーザが新規追加欄1106に新たな企業名を入力すると、入力された企業名は企業名辞書403に追加される。チェック用画面1101において入力された新たな企業名は、次回以降、同じOCR結果がチェック処理の対象となった場合に、選択候補1104に追加されて表示される。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した各実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
401 文書
410 優先順位付きの選択候補リスト
1101 チェック用画面
Claims (11)
- 文書を読み取ることにより生成された画像に対して、文字認識処理を行うことにより、前記画像上の1又は2以上の文字列を抽出する抽出手段と、
前記文書に関するデータ入力作業のワークフローの種別を判別する判別手段と、
前記抽出手段で抽出された前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供手段と、を有するデータ処理システムであって、
前記提供手段は、ワークフローの種別ごとに各選択候補のスコアを格納したテーブルから、前記判別手段で判別された前記ワークフローの種別に対応する各選択候補のスコアを取得し、当該取得した各選択候補のスコアに基づいて決定された優先順位にしたがって、前記抽出手段で抽出された前記文字列を修正するための複数の選択候補を提示するものであり、
前記データ処理システムは、さらに、前記ユーザインターフェースにおいて提示された前記複数の選択候補の中からユーザにより1の選択候補が選択された場合、前記テーブルに格納されている当該選択された1の選択候補のスコアに対して当該ユーザに応じた重みをつけた加算を行うことにより前記テーブルを更新する更新手段を有する
ことを特徴とするデータ処理システム。 - 前記判別手段は、前記抽出された文字列に基づいて前記ワークフローの種別を判別する
ことを特徴とする請求項1に記載のデータ処理システム。 - 前記判別手段は、ユーザの指示に基づいて前記ワークフローの種別を判別する
ことを特徴とする請求項1に記載のデータ処理システム。 - 前記ワークフローは、1又は2以上のロールから構成される
ことを特徴とする請求項1乃至3のいずれか1項に記載のデータ処理システム。 - 前記各ロールについて、実行をするユーザが定められている
ことを特徴とする請求項4に記載のデータ処理システム。 - 前記ユーザインターフェースにおいて、前記ユーザは、文字列を入力することにより、前記複数の選択候補以外の選択候補の選択をすることができる
ことを特徴とする請求項1乃至5のいずれか1項に記載のデータ処理システム。 - 前記ワークフローの種別ごとに各選択候補のスコアを格納した前記テーブルを記憶した記憶手段をさらに備える
ことを特徴とする請求項1乃至6のいずれか1項に記載のデータ処理システム。 - 前記ユーザインターフェースにおいて、前記複数の選択候補以外の文字列が入力された場合、前記記憶手段は、前記入力された文字列を前記テーブルに記憶する
ことを特徴とする請求項7に記載のデータ処理システム。 - 前記チェック作業が行われた文書を保存する保存手段を有する
ことを特徴とする請求項1乃至8のいずれか1項に記載のデータ処理システム。 - 文書を読み取ることにより生成された画像に対して、文字認識処理を行うことにより、前記画像上の1又は2以上の文字列を抽出する抽出工程と、
前記文書に関するデータ入力作業のワークフローの種別を判別する判別工程と、
前記抽出工程で抽出された前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供工程と、を有するデータ処理方法であって、
前記提供工程は、ワークフローの種別ごとに各選択候補のスコアを格納したテーブルから、前記判別工程で判別された前記ワークフローの種別に対応する各選択候補のスコアを取得し、当該取得した各選択候補のスコアに基づいて決定された優先順位にしたがって、前記抽出工程で抽出された前記文字列を修正するための複数の選択候補を提示するものであり、
前記データ処理方法は、さらに、前記ユーザインターフェースにおいて提示された前記複数の選択候補の中からユーザにより1の選択候補が選択された場合、前記テーブルに格納されている当該選択された1の選択候補のスコアに対して当該ユーザに応じた重みをつけた加算を行うことにより前記テーブルを更新する更新工程を有する
ことを特徴とするデータ処理方法。 - 請求項10に記載されたデータ処理方法をコンピュータにより実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178690A JP7414449B2 (ja) | 2019-09-30 | 2019-09-30 | データ処理システム、データ処理方法、および、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178690A JP7414449B2 (ja) | 2019-09-30 | 2019-09-30 | データ処理システム、データ処理方法、および、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056732A JP2021056732A (ja) | 2021-04-08 |
JP7414449B2 true JP7414449B2 (ja) | 2024-01-16 |
Family
ID=75270981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178690A Active JP7414449B2 (ja) | 2019-09-30 | 2019-09-30 | データ処理システム、データ処理方法、および、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7414449B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7241822B2 (ja) * | 2021-08-20 | 2023-03-17 | 株式会社マネーフォワード | 証憑構造分析システム、証憑構造分析方法及び証憑構造分析プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233913A (ja) | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2010073174A (ja) | 2008-09-22 | 2010-04-02 | Fuji Xerox Co Ltd | 文書処理装置及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03214281A (ja) * | 1990-01-19 | 1991-09-19 | Sony Corp | 文字認識装置 |
-
2019
- 2019-09-30 JP JP2019178690A patent/JP7414449B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233913A (ja) | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2010073174A (ja) | 2008-09-22 | 2010-04-02 | Fuji Xerox Co Ltd | 文書処理装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021056732A (ja) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7059624B2 (ja) | 画像処理装置および画像処理プログラム | |
CN110999264B (zh) | 用于将消息内容集成到目标数据处理设备中的系统和方法 | |
JP6743445B2 (ja) | 携帯型情報装置およびプログラム | |
US11836442B2 (en) | Information processing apparatus, method, and storage medium for associating metadata with image data | |
JP2008236016A (ja) | 情報処理装置、情報処理方法、およびそのプログラム | |
JP6134107B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7414449B2 (ja) | データ処理システム、データ処理方法、および、プログラム | |
JP2021033902A (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
JP7040000B2 (ja) | 画像処理装置および画像処理プログラム | |
US11875587B2 (en) | Information processing system, information processing method, and non-transitory recording medium | |
JP2008197229A (ja) | 音声認識辞書構築装置及びプログラム | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP2021060801A (ja) | 情報処理システム、情報処理装置、方法及びプログラム | |
JP6162860B1 (ja) | ユーザ情報入力支援システム | |
US11804055B2 (en) | Information processing apparatus, information processing method, and information processing system | |
JP6707112B2 (ja) | ユーザ情報入力支援システム | |
JP6397084B2 (ja) | ユーザ情報入力支援システム | |
JP2022137608A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2022075467A (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2021064123A (ja) | データ入力支援システム、データ入力支援方法、及びプログラム | |
JP2005038205A (ja) | 信用保証諾否審査システム | |
US11431868B2 (en) | Information processing apparatus, information processing method, and storage medium comprising extracting a character string from a scanned document and determining if pre-defined candidates of a selection-type match the extracted character string, determining whether to display or not display one of the pre-defined candidates as a default value based on the result of the match between the extracted character string and the pre-defined candidates | |
US11620840B2 (en) | Image processing apparatus for extracting a desired character string from a scanned image | |
JP7401202B2 (ja) | 画像処理装置、その制御方法、及びプログラム | |
US20220019835A1 (en) | Image processing system, apparatus, method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231228 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7414449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |