JP2019040467A - 画像処理装置およびその制御方法 - Google Patents

画像処理装置およびその制御方法 Download PDF

Info

Publication number
JP2019040467A
JP2019040467A JP2017162692A JP2017162692A JP2019040467A JP 2019040467 A JP2019040467 A JP 2019040467A JP 2017162692 A JP2017162692 A JP 2017162692A JP 2017162692 A JP2017162692 A JP 2017162692A JP 2019040467 A JP2019040467 A JP 2019040467A
Authority
JP
Japan
Prior art keywords
character string
extraction
information
items
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017162692A
Other languages
English (en)
Inventor
英智 相馬
Hidetomo Soma
英智 相馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017162692A priority Critical patent/JP2019040467A/ja
Publication of JP2019040467A publication Critical patent/JP2019040467A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字認識結果の確認・修正を利用者がより効率的に行うことを可能とする。【解決手段】画像処理装置は、複数の文字列と当該複数の文字列の文書画像における配置情報とを取得する取得手段と、所与の抽出規則に基づいて複数の文字列から複数の項目それぞれに対応する項目名に関する第1の文字列群を抽出する第1の抽出手段と、配置情報に基づいて複数の文字列から複数の項目それぞれに対応する1以上の値に関する第2の文字列群を抽出する第2の抽出手段と、複数の項目間の依存関係に基づいて当該複数の項目を複数のグループに分類する分類手段と、第1の文字列群と第2の文字列群とをグループごとに配列した表示画面を生成する生成手段と、を有する。【選択図】図7

Description

本発明は、紙文書の電子化を支援する技術に関するものである。
オフィス環境において電子化(ペーパーレス化)が進んでいるが、他社とのやり取りなどにおいては紙文書も相変わらず使用されていることが多い。例えば、医療分野で使用されるお薬手帳では、レシート形式あるいは帳票形式で記載された紙文書が利用されている。そのため、お薬手帳を提示された医療機関は、当該お薬手帳の内容を電子カルテなどに改めて記載する必要が生じている。一方、スキャナ装置により帳票やレシートの紙文書を光学的に読み取り電子画像化することが容易になってきている。また、その紙文書の電子画像中の文字画像から、記載内容をテキストデータ化する文字認識の技術の精度も向上し、よく利用されている。
とはいえ、帳票やレシートの紙文書自体が汚れていたり折れ曲がっているような場合、撮影条件が悪い場合などにおいて、撮影画像から文字認識が困難な場合がある。また、文字認識の技術の精度が向上したとはいえ誤りをゼロにすることは非常に困難であるため、撮影画像から文字認識した結果をそのまま利用することは難しい。
そこで、特許文献1では、手書きされた帳票を処理するにあたって、当該帳票に対応する帳票定義情報を利用して当該帳票における手書き領域を読み取り、手書き情報を効率的に取得可能とする手法が開示されている。また、特許文献2では、帳票などにおける表領域に対して文字認識を行った結果と、当該文字認識に基づく数値データと演算式とによる演算値と、を比較し、一致しない場合にその旨を報知する手法が開示されている。
特開2005−234790号公報 特開2001−325562号公報
しかしながら、特許文献1に記載の技術においては、利用者は、処理対象の帳票に応じて帳票定義情報を選択し、選択した帳票定義情報で規定された項目の数だけ確認・修正作業を行う必要が生じる。また、特許文献2では、利用者は、文字認識において誤認識が起きていることを知ることは出来るが、各項目について確認・修正作業を行う必要が生じる。そのため、利用者は、文字認識結果を確認・修正する煩雑な操作を強いられることになる。
本発明はこのような問題を鑑みてなされたものであり、文字認識結果の確認・修正を利用者がより効率的に行うことを可能とする技術を提供することを目的とする。
上述の問題点を解決するため、本発明に係る画像処理装置は以下の構成を備える。すなわち、画像処理装置は、文書画像から抽出された複数の文字列と該複数の文字列の前記文書画像における配置情報とを取得する取得手段と、所与の抽出規則に基づいて、前記複数の文字列から複数の項目それぞれに対応する項目名に関する第1の文字列群を抽出する第1の抽出手段と、前記配置情報に基づいて、前記複数の文字列から前記複数の項目それぞれに対応する1以上の値に関する第2の文字列群を抽出する第2の抽出手段と、前記複数の項目間の依存関係に基づいて該複数の項目を複数のグループに分類する分類手段と、前記分類手段による分類の結果に基づいて前記第1の文字列群と前記第2の文字列群とをグループごとに配列した第1の表示画面を生成する生成手段と、を有する。
本発明によれば、文字認識結果の確認・修正を利用者がより効率的に行うことを可能とする技術を提供することができる。
第1実施形態に係る情報処理システムのハードウェア構成を示す図である。 第1実施形態に係る情報処理システムの機能構成を示す図である。 処理の対象となる紙文書の例を示す図である。 紙文書をOCR処理した処理結果を例示的に示す図である。 特定情報を抽出するための抽出規則を説明する図である。 検出された文字列の確認・修正のための画面の例を示す図である。 第1実施形態における検出処理・画面作成処理のフローチャートである。 検出処理において作成・使用される各種データの例を示す図である。
以下に、図面を参照して、この発明の実施の形態の一例を詳しく説明する。なお、以下の実施の形態はあくまで例示であり、本発明の範囲を限定する趣旨のものではない。
(第1実施形態)
本発明に係る画像処理装置の第1実施形態として、紙文書のスキャン画像を光学文字認識(OCR)処理して得られるテキストデータを処理する情報処理システムを例に挙げて以下に説明する。特に、文書画像の解析・文字認識において発生する誤りを、利用者がより簡単に確認・修正可能となるよう支援する手法について説明する。なお、本明細書及び添付の図面において記載される薬剤名である、ニスタジール(登録商標)、セレコックス(登録商標)はそれぞれ登録商標である。
<装置構成>
図1は、第1実施形態に係る情報処理システムのハードウェア構成を示す図である。
CPU(Central Processing Unit)101は、ROM102やRAM103上のプログラムを実行することにより各種制御を実現する機能部である。また、CPU101は、複数のプログラムを並列に動作させることもできる。ROM102は、CPU101により利用されるプログラムやデータを格納する。RAM103は、CPU101が処理するためのプログラムを格納するとともに、CPU101が各種制御を実行する際の様々なデータのワークメモリを提供する。
入力装置104は、ユーザによる各種入力操作を受け付けるキーボードやマウスである。もちろん、ユーザからの入力操作を受付可能なものであれば、タッチパネル、スタイラスペン等、何でもよい。また、音声認識やジェスチャー操作に基づく入力でもよい。バス105は、各部分に接続されているアドレスバス、データバスなどであり、各部分間の情報交換・通信機能を提供する。これにより、各部分が連携して動作できるようにする。
外部記憶装置106は、さまざまなデータ等を記憶するための外部記憶装置である。例えば、記憶媒体と当該記憶媒体を読み書きするためのドライブ装置などで構成される。記憶媒体としては、ハードディスク、フロッピーディスク、光ディスク、磁気ディスク、磁気テープ、不揮発性のメモリカード等がある。記憶媒体に記憶されたプログラムやデータの一部又は全部は、キーボード等の指示や、プログラムの指示により、必要な時にRAM103上に呼び出される。
NCU(Network Control Unit)107は、他のコンピュータ装置等と通信を行うための機能部である。NCU107は、ネットワーク(LAN)等を介して、不図示の外部装置と通信しプログラムやデータを共有する。なお、NCU107には、任意の通信規格のものを使用することが出来る。例えば、RS232C、USB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信が利用可能である。また、Bluetooth(登録商標)、赤外線通信、IEEE802.11a/b/n等の無線通信が利用可能である。
GPU(Graphics Processing Unit)108は、バス105を経由してCPU101などから与えられた表示指示や計算指示に従い計算を行い、その計算結果を表示装置109へ送信する機能部である。例えば、表示指示や計算指示に従い表示内容の画像の作成や表示位置などの計算を行い表示装置109に計算結果を描画させる。または、バス105を経由して、計算結果をCPU101に戻すことで、CPU101と連携した計算処理を行う場合もある。
表示装置109は、液晶ディスプレイなどで構成され、各種入力操作の状態やそれに応じた計算結果などをユーザに対して表示する機能部である。SCNU(Scanning Unit)110は、原稿(紙文書)を光学的に読取り画像データを生成する画像読取部であり、例えば、オーバーヘッド型のスキャナである。SCNU110は、NCU107の通信機能を介して接続してもよいし、それ以外の独自の外部I/Fを介して接続する形態でも良い。
以上述べてきた内部構成は、あくまでも一例であり、これに限定されるものでない。また、内部構成やその構成する各部分は、いわゆるハードウェアである制限はなく、ソフトウェアで作り出された仮想マシン上で動作するものでも構わない。
また、上述の内部構成を単体の装置で構成してもよいし、複数の装置で構成してもよい。この場合、サーバ・クライアント構成として、通信装置107を利用した情報交換・共有等を行い連携させて実現しても構わない。さらに、サーバ・クライアント構成のシステムの全部もしくは一部を、単一の装置上の1以上の仮想マシン上で動作させるような構成であっても構わない。
図2は、第1実施形態に係る情報処理システムの機能構成を示す図である。なお、各機能部は、基本的には、CPU101やGPU108がプログラムを実行することにより実現されることを想定する。ただし、一部または全部をASICなどのハードウェアにより実現してもよい。また、文書画像処理部202と特定情報抽出部204とは、一体の装置として構成してもよいしそれぞれを別体の装置として構成してもよい。
文書画像201は、紙文書をSCNU110で光学的にスキャンすることにより得られる画像である。文書画像処理部202は、文書画像201を画像取得して処理を行い、その結果として処理結果データ203を出力する。特定情報抽出部204は、処理結果データ203を入力として出力すべき情報を抽出する処理を行い、抽出情報205を得る。抽出情報205は、例えば、後段に接続された連携システムに提供される情報であり、当該連携システムが必要とする情報である。すなわち、抽出情報205は、紙文書に記載されていた情報である。
文書画像処理部202は、文書画像201を取得し、画像処理や文書内の解析、文字認識などを行う。そして、その結果として、特定情報抽出部204により処理される文書データとしての処理結果データ203を出力する(データ生成する)。文書画像処理部202は、補正処理部206、画像分類部207、領域抽出部208、文字認識部209、文書構造推定部210、文字認識辞書211を含む。
補正処理部206は、文書画像201に対する画像補正を行う。例えば、文書画像201は、スキャン時の紙文書の状態(斜めに配置、折れがある、丸まっているなど)や、紙文書に対する撮影方向などによる幾何学的関係から生じる画像の歪みを補正する。そのため、例えば、文書画像201における紙文書画像(四辺・領域など)の状態を推定し形状を補正する。
画像分類部207は、補正処理部206が画像補正した結果画像に対して、元の紙文書の種類を分類する。この分類結果によって、抽出される情報や、抽出するための方法などが変わってくることになる。ここでは、紙文書の種類が帳票やレシートであり、その情報を元に文書画像201から情報抽出することを想定している。
領域抽出部208は、補正処理部206が画像補正した結果画像と、画像分類部207による分類結果とに基づいて、文書画像201内の画像領域、テキスト領域などを検出する。例えば、結果画像における画像特徴量などに基づいて画像領域、テキスト領域などを検出する。検出した結果として、それぞれの領域の配置情報(位置、大きさ)及び分類(画像領域、テキスト領域、表領域など)を出力する。
文字認識部209は、画像に含まれる文字を認識する文字認識を行う。ここでは、文書画像201内のテキスト領域や表領域等の文字を含む領域に対して、補正処理部206が画像補正した結果画像における対応領域を対象に文字認識を行うことを想定する。文字認識辞書211は、文字認識部209が文字認識するために使用する辞書であり、各文字の特徴量情報が格納されている。
文書構造推定部210は、領域抽出部208から得られた各領域について、配置位置や大きさなどから、「構造」や「関係」を推定する。構造とは、例えば、表領域内のテキストデータの項目別の配置構造である。関係とは、例えば、文書内の画像領域と、当該画像領域に関連するテキスト領域(図番号やタイトル等のキャプション)の関係である。
特定情報抽出部204は、上述の処理により文書画像処理部202が出力した処理結果データ203を入力として処理を行い、抽出情報205を得る。特定情報抽出部204は、領域分類部212、検出部213、修正受付部214、抽出規則215、特定情報辞書216、検索インデックス217、文字認識の誤認識パタン218を含む。
抽出規則215は、利用者が抽出したい特定情報を抽出するための規則を格納したものである。特定情報抽出部204は抽出規則215に従い動作する。例えば、抽出規則215には、特定情報の内容に関する検索条件情報や抽出内容の制約情報等が含まれている。例えば、特定情報抽出部204は、処理結果データ203に対し、検索条件情報に基づき特定情報の候補を列挙し、制約情報に基づき候補や候補の組合せを求める。
特定情報辞書216は、検出部213での検出処理において抽出規則215と共に使用される多数の特定用語を記憶する所与の辞書である。例えば、商品、サービス、薬剤等の名前や、会社名等の特定用語、それらの識別情報である商品コードや会社コード等や価格等の情報が格納されている。一般的に、この特定用語は、非常に大量であり、常に最新であるのが好ましいため、最新版の情報が提供され、特定情報辞書216内の特定用語を更新することが行われることが多い。また、適時、利用者によって特定用語の追加等が行われることもある。
検索インデックス217は、特定情報辞書216内の多数の特定用語を高速に検索するための検索インデックスが格納されている。これを利用することで、特定情報辞書216内の特定用語の中から所望のものを高速に得ることができる。特定情報辞書216の内容が更新されると、それに伴い検索インデックスも更新され、常に正確な検索ができるように保たれる。検索インデックス217は、良く知られているn−gram法や、用語単位の出現情報を検索インデックス化する形態素解析等の言語処理利用の方法などにより用いられる。
誤認識パタン218は、文字訂正・誤り訂正用の情報である。具体的には、文字認識部209が誤認識しやすい文字に対してその誤認識パタンを格納する。誤認識パタン218は、特定情報辞書216内の多数の特定用語を高速に検索する際に、誤認識文字の混入を配慮するようにするものである。以下では、文字認識の誤認識パタンを利用する例について説明するが、表記ゆれなどについても同様に適用することができる。例えば、漢字の旧字の違い、漢字の送り仮名、カタカナ記載時の「サーバー」と「サーバ」、「バイオリン」と「ヴァイオリン」などの表記ゆれがある。
領域分類部212は、抽出規則215が適用されるべき画像内の領域を推定し分類する。ここでは、帳票やレシートの場合を想定しており、商品やサービス、薬剤、その数や料金などを記載した部分が対象となる。そのため、これらに該当する画像内の領域を推定し、対象領域かどうか分類する。あるいは、帳票やレシート内の決まった位置に出現する発行元の店舗や会社情報等を推定し分類する。
検出部213は、抽出規則215に基づいて、領域分類部212が対象領域とした表領域やテキスト領域に対して、「特定情報」の文字列の出現を検出するものである。特定情報の文字列とは、例えば、正規表現等を利用した文字列パタンに合う文字列、特定情報辞書216に登録された特定用語である。また、検出部213は、文字列の配置位置や相対的な位置関係などの配置情報に基づいて、同じ項目の組合せの繰り返し(例えば、商品やサービス、薬剤、その数や料金の組合せ)を検出しその文字列群を特定する。特定情報辞書216に登録された特定用語を高速に検出するために、検索インデックス217を使用する。なお、文字認識部209の結果には、誤認識した文字が含まれ得る。そのため、特定情報辞書216に登録された特定用語や正規表現等を利用した文字列パタンに従って、文字認識結果を修正する。
修正受付部214は、検出部213により検出された抽出項目ごとの抽出候補の確認・修正を利用者が行うためのユーザインターフェース画面(GUI)を作成し、利用者からの修正を受け付ける。詳細については後述するが、利用者は、抽出候補を対応する文書画像の該当部分を見ながら、GUI上の表示・操作部品を用いて確認・修正を行う。なお、検出された抽出候補を出力する際に、抽出規則215に基づいて出力形式を決定し整形する。たとえば、抽出規則215の抽出候補の制約情報を利用して、画面上の表示・操作部品をまとめてGUI上にレイアウトする。これにより、利用者は、より少ない操作で修正操作を行うことが可能となる。
<処理対象の紙文書の例>
図3(a)は、処理の対象となる紙文書の例を示す図である。ここでは、お薬手帳と呼ばれる紙文書の例を示している。お薬手帳においては、記載内容や情報の種類は比較的限定されているが記載フォーマットは統一されていない。ただし、一般の商品やサービス等のレシートに類似した記載形式となっている。一般に、お薬手帳には、各薬剤の効能、使用方法なども記載されるが、説明を簡単にするために、図3(a)では、お薬手帳を一般のレシートに近い内容に簡略化したものを示している。
文字列301は薬剤を得るための処方箋を提出し、薬剤を購入した利用者の人名であり、文字列302は処方・調剤した日付である。文字列303は、処方箋を発行した病院などの医療機関の名前である。文字列305は、薬剤を販売した薬局等の医療機関の名前と電話番号情報である。
表304は、購入した「商品名」、「商品コード」、「発注日」、「単価」、「分量」、「金額」の情報が、薬剤ごとに記載された表である。行306(第1の文字列群)は、表304の先頭の行であり、表304の各列の項目名が記載されている。行307〜309(第2の文字列群)は、表304の2行目以降の行であり、行306で示された項目名に対する内容あるいは値が記載されている。
図3(b)は、表304をより詳細に説明するために抜粋して示したものである。図示されるように、項目名として、商品名310、商品コード311、発注日312、単価313、分量314、金額315がある。表304の2行目以降の行に記載されている情報は、薬剤の各項目名に対する項目値の組合せ(項目値316〜321)となっている。複数の薬剤を購入した場合、行307〜309のように、各薬剤に関する情報が繰り返し記載されることになる。商品やサービス等のレシートとして、このような記載方法は一般的なものである。
<処理対象のデータ例>
図4は、図3(a)に示す紙文書をOCR処理した処理結果を例示的に示す図である。具体的には、文書画像処理部202が文書画像201(図3(a)に示す紙文書のスキャン画像)を入力として処理を実行した結果の処理結果データ203の例である。ここでは、XML形式を使って記載された例を示している。なお、以下に詳細説明する部分以外にも処理結果の記載があるが、行403、行409、行417、行420の記法にて途中の記載を省略している。
行401と行422は、それぞれ1つの文書に対する情報の開始宣言と終了宣言である。この文書は行401に、識別情報として“123”、光学スキャンして作成された日付として“2016/4/2”の情報を持っている。行402と行421は、それぞれ文書内のページに対する情報の開始宣言と終了宣言である。このページは、行402に番号“1”、大きさとして幅(横)“200”、高さ(縦)“150”の情報を持っている。
行404と行411は、それぞれ、このページ内のテキスト領域に対する情報の開始宣言と終了宣言である。これらの間には、行307の記載に関する部分の情報が入っている。このテキスト領域は、行404に、その位置として、左上の座標情報(x、y)=(4,40)と、領域の横縦の大きさ“180”、“8”の情報を持っている。また、行405と行407は、それぞれ、このテキスト領域内に対する文字認識結果の情報の開始宣言と終了宣言である。文字認識結果として行406に“アスタリン錠 873399 5.60 14錠 78.4 2016/4/1”の情報を持っている。また、行408と行410は、テキスト領域内に対する文字認識結果の情報の1文字ごとの情報の開始宣言と終了宣言である。この間に、文字認識の結果を1文字単位に分けた状態の情報が入っている。行408には、最初の文字の“ア”の位置として、左上の座標情報(x、y)=(4,40)と、領域の横縦の大きさ“5”、“8”の情報を持っている。同様に、行410は最後の文字“1”に関するものである。
行412〜行419も同様に、このページ内のテキスト領域に対する情報で、行308の1行目の記載に関する部分の情報が入っている。上述のような処理結果データ203を、抽出規則215に従い、特定情報抽出部204で処理を行う。
図5は、特定情報を抽出するための抽出規則215を説明する図である。ここでは、XML形式を使って記載された例を示している。なお、以下に詳細説明する部分以外にも処理結果の記載があるが、行528、行542の記法にて途中の記載を省略している。
行501と行543は、抽出規則215の複数の規則に対する情報の開始宣言と終了宣言である。行503と行541は、抽出規則215の規則に対する情報の開始宣言と終了宣言である。この規則は、行503に、識別情報として“5”の情報を持っている。また、タイプとして、“search:constraint”を持ち、その規則が、検索を用いた検出指示のための検索条件情報と検出した候補が満たさないといけない制約情報の指定を含んでいることを示している。また、この規則は、該当する候補があれば、何度も適用されるので、規則に該当する結果は複数生じる場合がある。
行504と行529は、この規則の中の検索を用いた検出指示である検索条件情報の開始宣言と終了宣言である。検索条件情報は複数あり、その個々の検索条件情報について説明する。
行505と行507は、検索条件情報に対する文字列検索(テキスト検索)情報の開始宣言と終了宣言である。行505に、検索タイプが“dic”とあり、辞書検索であるとの情報を持っている。また、検出結果を“drug−name”という名前で示すようにするという指示を持っている。行506は、この文字列検索の内容であり、対象となる辞書名として“drugDB”内の“name”を利用することが示されている。“drugDB”は商品である薬剤に関する情報が格納されているデータベースである。そして、“drugDB”内の“name”は、商品である薬剤の薬剤名を格納したデータベース内の薬剤名辞書である。
行505〜行507の指示は、特定情報辞書216内にある“drugDB”というデータベースの薬剤名辞書“name”にある薬剤名に該当するテキスト部分を曖昧検索することを指示している。また、行505で辞書検索を指定したため、その際に、検索インデックス217を利用した高速な曖昧検索を行うことになる。また、その際に、文字認識の誤り等を配慮するため、誤認識パタン218も使用することになる。
行508〜行511は、検索条件情報に対する次の文字列検索(テキスト検索)情報の開始宣言と終了宣言である。行508に、検索タイプが“position:dic”とあり、検索は位置に関するものと、辞書検索であるとの情報を持っている。また、検出結果を“drug−id”という名前で示すようにするという指示を持っている。行509〜行510は、この文字列検索の内容である。行509は、位置による検索で、上述の検出結果(名前は、“drug−name”)を起点(origin)に、右側“right”にあるテキストデータを対象にするという情報を持っている。行510は、この文字列検索の内容であり、対象となる辞書名として“drugDB”内の“id”を利用することが示されている。“drugDB”は商品である薬剤に関する情報が格納されているデータベースである。そして、“drugDB”内の“id”は、商品である薬剤の薬剤コードを格納したデータベース内の薬剤コード辞書である。
この行508〜行511の指示は、特定情報辞書216内にある“drugDB”というデータベースの薬剤コード辞書“id”にある薬剤コードに該当するテキスト部分を曖昧検索することを指示している。また、行508で辞書検索を指定したため、その際に、検索インデックス217を利用した高速な曖昧検索を行うことになる。また、その際に、文字認識の誤り等を配慮するため、誤認識パタン218も使用することになる。
行512と行515は、検索条件情報に対する次の文字列検索(テキスト検索)情報の開始宣言と終了宣言である。行512に、検索タイプが“position:date”とあり、検索は位置に関するものと、日付表現の検出であるとの情報を持っている。行513〜行514は、この文字列検索の内容である。行513は、位置による検索で、上述の検出結果(名前は“drug−id”)を起点に、右側“right”にあるテキストデータを対象にするという情報を持っている。行514は、日付表現に該当する文字列のマッチングであり、形式は“all”で日付の記載形式は特定しないと指示されている。日付の書き方として、和暦、西暦等をはじめ、年・月・日の数字の並べ方や、その間の“−”や“/”などの記号等の組合せと順序のパタンがあるが、このパタンを日付の記載形式と呼んでいる。
行516と行519は、検索条件情報に対する次の文字列検索(テキスト検索)情報の開始宣言と終了宣言である。行517に、検索タイプが“position:re”とあり、検索は位置に関するものと、文字列の正規表現との比較であるとの情報を持っている。行517〜行518は、この文字列検索の内容である。また、検出結果を“drug−unitPrice”という名前で示すようにするという指示を持っている。行517は、位置による検索で、上述の検出結果(名前は、“drug−date”)を起点に、右側“right”にあるテキストデータを対象にするという情報を持っている。行518は、正規表現による文字マッチングで、“/*[1−9]/”という情報をもっている。これは、1から9の数字の繰り返しがある文字列であることという条件を示している。
行520と行523は、検索条件情報に対する次の文字列検索(テキスト検索)情報の開始宣言と終了宣言である。行520に、検索タイプが“position:re”とあり、検索は位置に関するものと、文字列の正規表現との比較であるとの情報を持っている。行521〜行522は、この文字列検索の内容である。また、検出結果を“drug−amount”という名前で示すようにするという指示を持っている。行521は、位置による検索で、上述の検出結果(名前は、“drug−unitPrice”)を起点に、右側“right”にあるテキストデータを対象にするという情報を持っている。行522は、正規表現による文字マッチングで、“/*[1−9](錠|T|C|mL)/”という情報をもっている。これは、1から9の数字の繰り返しの後に「錠」か「T」か「C」か「mL」がある文字列であることという条件を示している。
行524と行527は、検索条件情報に対する次の文字列検索(テキスト検索)情報の開始宣言と終了宣言である。行524に、検索タイプが“position:re”とあり、検索は位置に関するものと、文字列の正規表現との比較であるとの情報を持っている。行525〜行526は、この文字列検索の内容である。また、検出結果を“drug−price”という名前で示すようにするという指示を持っている。行521は、位置による検索で、上述の検出結果(名前は、“drug−amount”)を起点に、右側“right”にあるテキストデータを対象にするという情報を持っている。行522は、正規表現による文字マッチングで、“/*[1−9]/”という情報をもっている。これは、1から9の数字の繰り返しがある文字列であることという条件を示している。
行530〜行540は、上述の検索条件情報を基に得られた候補に対して、その候補が満たすべき制約情報が指示されており、行530と行540は、その検出結果候補の満たすべき制約情報に関する情報の開始宣言と終了宣言である。特に、この例では、異なる抽出項目に対して、それぞれ得られた候補について、それらの満たすべき関係となる制約情報が複数記載されている。
行531と行533は、制約情報の開始宣言と終了宣言であり、制約タイプが“equation”で、数式によって記載されていることが指示されている。行532が、その数式によって記載された制約情報である。ここには、上述した薬剤情報のデータベースの“drugDB”において、検索条件情報の指示で得られた“drug−id”で示される候補に対し、該当する薬剤を特定し、その薬剤名が、“drug−name”で示される候補と一致することを指示している。この制約条件を満たせるように、“drug−id”で示される候補と、“drug−name”で示される候補は絞り込まれることになる。
行534と行536は、制約情報の開始宣言と終了宣言であり、制約タイプが“equation”で、数式によって記載されていることが指示されている。行535が、その数式によって記載された制約情報である。ここには、上述した薬剤情報のデータベースの“drugDB”において、検索条件情報の指示で得られた“drug−id”で示される候補に対し、該当する薬剤を特定している。そして、その単価が、“drug−unitPrice”で示される候補と一致することを指示している。この制約条件を満たせるように、“drug−id”で示される候補と、“drug−unitPrice”で示される候補は絞り込まれることになる。
行537と行539は、制約情報の開始宣言と終了宣言であり、制約タイプが“equation”で、数式によって記載されていることが指示されている。行538が、その数式によって記載された制約情報である。ここには、上述した“drug−unitPrice”で示される候補と、“drug−amount”で示される候補の積が、“drug−price”で示される候補に等しくなることを指示している。この制約条件を満たせるように、“drug−unitPrice”で示される候補と、“drug−amount”と、“drug−price”で示される候補は絞り込まれることになる。
このような抽出規則215に従い、検出部213は該当するものの検索条件情報に基づき、図4に示す処理結果データ203に対して行う。より詳細には、抽出規則215内の行504〜行527の検索指示情報に従い、辞書検索の場合は、検索インデックス217を利用して、特定情報辞書216の中の該当する文字列部分を曖昧検索する。また、正規表現の場合は、指定された正規表現に該当する文字列部分を曖昧検索する。さらに、この結果見つかった文字列部分について、紙面やページ内のレイアウトや、相対的な位置関係について、指示された条件を満たすものを検索して、得られたものを抽出項目ごとに候補とする。さらに、制約情報に基づき、候補の絞り込みを行う。
<確認・修正のためのユーザインタフェース画面>
文字認識の精度が完璧で間違いが生じなければ良いが、実際には、そうでないので、このようにして得られた抽出結果の候補には、文字認識の誤りなどが含まれるのが実状である。しかしながら、抽出結果は、他の処理システム(例えば、後段に接続される連携システム)で利用されるものである。そのため、得られた抽出結果の候補を正しく修正する必要がある。
そのため、利用者は、抽出結果が正しいか否かの確認を行い、正しくなければ修正を行う必要がある。以下では、利用者による確認・修正のためのユーザインタフェース画面について説明する。以下では、領域分類部212及び検出部213は、図4に示す処理結果データ203に対して抽出規則215の規則を用いて処理を行った場合の、画面作成の例について説明する。
図6(a)は、検出された文字列の確認・修正のための画面の例を示す図である。画面表示用のウィンドウ601内には、ウィンドウ601の名前を表示するタイトルバー602、抽出情報領域605、該当画像領域603が含まれる。抽出情報領域605は、ユーザが、抽出した候補の確認・修正を行うため、抽出した候補を配列して表示する領域である。該当画像領域603は、抽出情報領域605のうち、利用者が確認・修正する対象として選択した部分に該当する電子文書201の部分領域画像を配列して表示する領域である。図6(a)では、抽出情報領域605内の「アスピリン錠」に関する部分(破線で囲んだ部分)が選択された場合の例を示している。なお、また、該当画像領域603及び抽出情報領域605には、それぞれ、表示内容が画面上の表示領域に収まらない場合に、表示部分を変更するスクロールバー604、606を有する。
利用者は、抽出情報領域605内に表示される抽出した候補を表示・操作する画面部品を選択し、その確認・修正を行う。この選択操作に応じて、該当画像領域603内の表示は変化し、選択された候補とその関連候補に該当する文書画像部分が表示されることになる。利用者は、抽出情報領域605内に表示される抽出した候補を表示・操作する画面部品に対して操作を行うことで、その確認・修正を行うことになる。
図6(b)は、領域605内の表示内容を抜粋し各構成要素に参照番号を付したものである。文字列611〜622は、すべて、抽出した候補を表示・操作する画面部品である。文字列611は、商品名310、商品コード311、単価313の抽出項目名をまとめて、抽出項目グループとして抽出した値や内容を表示している。
文字列614は、文字列611で示される抽出項目に対応する値や内容に関する文字列であり、項目値316、317、320の値や内容の候補を一度に確認・修正できるように、操作部品として構成されている。文字の部分は、現在、最優先の抽出項目の値や内容の候補であり、プルダウンボタンを押下することで、修正候補である次候補以降が表示される。文字の下線部分は、文字認識結果と、抽出規則で指定された辞書やデータベース等を検索して得られた候補結果との差が生じている部分を示している。文字認識結果が優先して表示してもよいが、ここでは、辞書やデータベース等を検索して得られた候補結果が優先表示された例を示している。ただし、文字認識結果との差異部分は、識別可能に表示される(ここでは下線が付されている)。文字認識結果自体は、辞書やデータベース等を検索して得られた候補と一致しない場合は、候補として表示されないか、非常に優先されない候補として表示されることとなる。
文字列614では、複数の項目値316、317、320の組合せとなっている。これは、商品名が明確になれば、その商品コードや単価が判明するためである。また、利用者にとって、商品名が商品の識別を行う際にもっとも分かりやすいものであるため、商品名である「アスピリン錠」を見つけやすいように先頭に配置している。そして、そのあとに商品コードである「813399」と単価である「5.60」を“[”と“]”の中に、カンマ区切りで表示している。この表示方法に従い、文字列611においても、「商品名 [商品コード, 単価(円)]」と表示されており、各値などが対応している項目名が明確になるようにしている。
文字列617、620も文字列614と同様であり、行308、309内の対応する項目値の候補を一度に確認・修正できるように作成された操作部品である。
文字列612は、分量314、金額315の抽出項目名をまとめて抽出項目グループとして表示している。文字列615は、文字列612で示される抽出項目に対する項目値を示しており、項目値320、321の候補を一度に確認・修正できるように作成された操作部品として構成されている。
文字列618、621も文字列615と同様であり、行308、309内の対応する項目値の候補を一度に確認・修正できるように作成された操作部品である。
文字列613は、発注日312に対応する文字列を表示している。文字列616は、文字列613で示される抽出項目の項目値を示しており、項目値318の候補を確認・修正できるように作成された操作部品として構成されている。右側のカレンダーボタンを押下することで、カレンダーが出現し日付を設定できるようになっている。
文字列619、622も文字列616と同様であり、行308、309内の対応する項目値の候補を一度に確認・修正できるように作成された操作部品である。
図6(c)は、領域603内の表示内容を抜粋し各構成要素に参照番号を付したものである。点線領域631〜642内には、それぞれ、文書画像201内の部分領域画像が表示されている。すべて、抽出した候補を表示・操作する画面部品に対応する文字認識結果の領域の部分領域画像になっている。
点線領域631〜633は、文字列611を構成している各抽出項目名に対して、それが文字認識結果として検出された領域を文書画像201から切り抜いた部分領域画像を表示している部分である。点線領域637〜639も同様に、文字列614を構成している各抽出項目の値や内容に対して、それが文字認識結果として検出された領域を文書画像201から切り抜いた部分領域画像を表示している部分である。図6(c)において、点線領域637及び638をつなぐ太い横線、点線領域638及び639をつなぐ太い横線は、これらが、図6(b)で同一の抽出項目グループにあることを示している。また、点線領域637及び631をつなぐ細い縦線は、文書画像201上で、点線領域637からみて点線領域631が、上方向に配置されていたことを示している。点線領域638と点線領域632をつなぐ太い縦線、点線領域639と点線領域633をつなぐ細い縦線も同様である。
点線領域634〜635は、文字列612を構成している各抽出項目名に対して、それが文字認識結果として検出された領域を文書画像201から切り抜いた部分領域画像を表示している部分である。点線領域640〜641も同様に、文字列615を構成している各抽出項目の値や内容に対して、それが文字認識結果として検出された領域を文書画像201から切り抜いた部分領域画像を表示している部分である。点線領域640〜641をつなぐ太い横線は、これらが、図6(b)で同一の抽出項目グループにあることを示している。また、点線領域640と点線領域634をつなぐ細い縦線は、文書画像201上で、点線領域640からみて点線領域634が、上方向に配置されていたことを示している。点線領域641と点線領域635をつなぐ細い縦線も同様である。
点線領域636は、文字列613を構成している各抽出項目名に対して、それが文字認識結果として検出された領域を文書画像201から切り抜いた部分領域画像を表示している部分である。点線領域642も同様に、文字列616を構成している各抽出項目の値や内容に対して、それが文字認識結果として検出された領域を文書画像201から切り抜いた部分領域画像を表示している部分である。点線領域642と点線領域636をつなぐ細い縦線は、文書画像201上で、点線領域642からみて点線領域636が、上方向に配置されていたことを示している。
このように、ここでは、抽出した項目やその値や内容について、図6(b)の同一の抽出項目グループであることを太線で、それらの文書画像201上での配置による相対的な位置関係を細い線で示している。もちろん、それぞれの関係性を他の形態で表示してもよい。上述のように確認・修正の画面を構成することで、利用者は、より少ない操作回数で修正・確認が行えるようになる。
<システムの動作>
図7は、第1実施形態における検出処理・画面作成処理のフローチャートである。具体的には、図6(a)の画面表示を作成するまでの、検出部213と修正受付部214で行われる一連の処理を示している。また、図8は、検出処理において作成・使用される各種データの例を示す図である。
説明の前提として、ここでは図3(a)を対象の文書画像201の例として用いており、それに対して文書画像処理部201が処理を行った結果である処理結果データ203として図4に示すデータが得られることを想定している。そして、図4の例に対して、図5に示す抽出規則215の規則の例を用いて、領域分類部212と検出部213の処理を行う場合を想定している。
なお、図7の処理が始まる前に、特定情報抽出部204が起動されており、抽出規則215や、特定情報辞書216、検索インデックス217、誤認識パタン218は、利用可能な状態になっている。領域分類部212の処理が行われ、表304の部分を対象として、図4の結果が利用可能なっており、図5の抽出規則215の規則の例を適用するところから、図7の処理は開始される。
S701では、検出部213は、抽出規則の検索条件情報内のテキストに対する検索条件を用いて、処理結果データ203内の文字認識した結果であるテキストに対し曖昧検索を行い、該当する部分文字列を検出する。これにより、商品名である薬剤名や、商品コード等に該当する可能性のある部分文字列が得られる。文字認識の誤りを配慮して、曖昧検索を行うため、誤認識パタン218を利用する。また、必要に応じて、検索インデックス217を使用することで高速化を図る。また、特定情報辞書216が利用できる場合には、辞書中から類似する部分文字列が、文字認識した結果であるテキスト内に検出できるかどうかを検索して該当するものを検出する。更に、事前に定義された日付文字列や、正規表現等で文字列パタンが示されたについても、同様に検索・検出を行う。
S702では、検出部213は、抽出規則の検索条件情報内の位置に関するレイアウトや相対位置関係等の情報を、S701で検出された部分文字列に対して適用し、抽出対象項目ごとに項目候補化し、その候補の組合せを取得する。これにより、S701で検出された部分文字列に対して、抽出規則の検索条件情報内の位置に関するレイアウトや相対位置関係等を満たすものに絞り込み、その対応関係を得る。抽出規則215内の規則には、何度も適用できるものが含まれる場合があるため、複数の抽出項目の組合せが得られる。そのため、レイアウトや相対位置関係等の情報を満たす組合せのみに絞り込むのである。
テーブル800aは、S702の処理を行った例を示しており、“抽出項目”、“抽出セットID”、“抽出項目名”、“文字認識結果”、“抽出候補テキスト”の各値が行で対応付けられた状態で記載されている。“抽出項目”は、図5の規則で抽出項目として付けられた名前である。
“文字認識結果”は、図5の規則の検索条件情報のテキストの検索条件を適用したことで得られた項目の値や内容の候補の情報の一部であり、その文字認識結果そのものである。“抽出候補テキスト”も、同様に適用したことで得られた項目の値や内容の候補の情報の一部であり、“文字認識結果”を基に、辞書や正規表現、日付表現等に該当するように修正・検索された結果である。これらは、S701の処理で得られる。“抽出セットID”はS702で得られたものである。具体的には、図5の規則の検索条件情報のレイアウトや相対位置の検索条件を適用することで、“抽出項目”間の組合せを求めて、その組合せを抽出セットIDで示している。すなわち、同一の抽出セットIDを持つ抽出項目は、同一の抽出結果候補の組合せと見なすのである。また、“抽出項目名”は図5で明示しないが、規則を適用した時に、表内から該当すると推測され獲得された表内の項目名である。その内容として、ここでは、図3(b)の各項目が文字認識された結果が得られている。このような結果をS702の結果として得ることで、抽出結果の候補の情報が得られ、以下の処理で利用されることになる。
S703では、修正受付部214は、抽出規則の制約情報を基に、抽出項目間の依存関係を求める。そして、一度に値が確定できる抽出対象項目をグループ化し、グループ間のグループ依存関係を得る処理を行う。なお、この処理は、特定情報抽出部204内で抽出規則を扱う処理であれば、事前にこの処理を行うことが可能である。そのため、領域分類部212などで抽出規則を読み込んだ時点で行っておくことも可能である。そのため、修正受付部214以外の機能部で行ってもよい。
まずは、修正受付部214は、抽出規則215の規則内の制約情報を利用して、抽出項目間の依存関係を求める。図5の例の制約情報から、ある抽出項目の値や内容が決まると、それに応じて確定する抽出項目の値や内容があるような抽出項目同士の関係性を、ここでは依存関係として求める。テーブル800bは、その結果の例を示しており、図5の行532、535、538の関係式で示される制約情報から得られたものである。ここでは、依存関係の識別のために、“依存関係ID”をもち、それぞれに“依存元”と“依存先”の抽出項目がある。行532から、“drug−id”が決まれば、対応する“drug−name”が決まるので、依存関係ID“1”が作られている。同様に、行535から依存関係ID“2”、行538から依存関係ID“3”が作られている。
次に、テーブル800bで示された結果から、一度に値が確定できる抽出対象項目のグループ化を行い、グループ間のグループ依存関係を求める。具体的には、テーブル800bで依存元もしくは依存先が1つかつ同一となる抽出項目があれば、これらをまとめてグループ化し、同時に値や内容が決定できる抽出項目のグループを作成する。まとめられない場合は、そのまま1つのグループとする。また、その抽出項目グループ間で、重なる抽出項目があれば、グループ依存関係を設定する。テーブル800cは、その結果の例を示している。ここでは、2つの抽出項目グループが得られており、その識別のために、“抽出項目グループID(以下では単にグループIDと呼ぶ)”が設定されている。そして、その個々の抽出グループは、複数の抽出項目を持ち、グループ依存関係があれば、グループIDを持っている。
ここでは、テーブル800bの依存関係ID“1”及び“2”は、依存元の抽出項目として同じ“drug−id”を含んでいる。そのため、テーブル800cのグループID“1”が作成されている。また、図9(b)の依存関係ID“3”から、テーブル800cの抽出項目グループ“2”が作られている。グループID“1”及び“2”には、抽出項目の“drug−unitPrice”が共通してあるため、グループ依存関係が生じており、グループ依存先のグループIDの値を持っている。これにより、抽出項目のグループ化ができる対象が判明したので、このテーブル800cの結果を用いて以下の処理が行われる。
S704では、修正受付部214は、S703の処理結果により抽出項目のグループが得られた場合はS705へ進み、得られなかった場合はS706へ進む。
S705では、修正受付部214は、S704の処理結果の抽出項目グループ依存関係から、最小数のグループの優先順序(優先度)を設定し、画面表示グループ構成とする。ここでは、各抽出項目グループを比較して、辞書やデータベースを利用して値や内容を検索する抽出項目が多く含まれる画面表示グループを優先順序の上位に配置する。また、抽出項目グループ依存関係から、上位に配置した画面表示グループに依存する画面表示グループをその下位に配置することで、抽出項目グループの優先順位を決定する。
まずは、テーブル800cの各抽出項目グループを比較する際に、その抽出項目グループ内の抽出項目のそれぞれについて、辞書やデータベースを利用して値や内容を検索する抽出項目を調べる。図5で調べると、グループID“1”には、辞書やデータベースを利用する抽出項目である“drug−name”(行506で利用辞書を指定)と“drug−id”(行510で利用辞書を指定)があることが分かる。これに対し、グループID“2”には該当するものがないので、グループID“1”が画面表示グループの優先順序の上位に配置されることとなる。抽出項目グループはこれだけしかないので、グループID“1”が最上位に配置されることとなる
次に、テーブル800cの各抽出項目グループのグループ依存関係により、グループID“1”とグループID“2”には、互いに依存関係があることが分かる。上述の通り、ここでは、グループID“1”が最上位なので、この依存関係から、グループID“2”が、それに続く配置優先順序となる。すなわち、後述するテーブル800dでまとめて示されることとなるが、グループID“1”が優先順位“1”として最上位に設定されることとなる。また、グループID“2”は、グループID“1”に対して依存関係があるため、その下位の優先順位“2”に設定されることとなる。
S706では、修正受付部214は、画面表示グループ構成に入らなかった抽出項目があれば、それを1つの画面表示グループとし、グループ順序の後方に加える処理を行う。抽出項目によっては、他の抽出項目と依存関係がないものがあるので、その場合は、画面表示グループ構成に含まれないことになる。しかし、その値や内容についても、利用者による確認・修正の対象となるように、1つの画面表示グループとして追加し、すでにある画面表示グループ構成に対して、下位の優先順序に追加していく。
テーブル800dは、その結果の例であり、テーブル800cとテーブル800aに基づく結果を示している。S705の処理により、グループID“1”及び“2”が作られている。また、“drug−name”などが辞書・データベース利用の抽出項目であったことから、グループID“1”が優先順位“1”として最上位に設定されている。また、グループID“2”はグループID“1”に依存関係があるため、その下位の優先順位“2”に設定されている。また、S706の処理結果として、グループID“1”と“2”に含まれなかった抽出項目をテーブル800aから探して、抽出項目“drug−date”が残っていたので、これをグループID“3”として追加している。このようにして、画面表示グループを決定する。
S707では、修正受付部214は、抽出項目の組合せ対して、画面表示グループを反映し、画面表示内容を作成する処理を行う部分である。ここでは、S701とS702の結果である抽出項目ごとの候補の組合せに対して、S703〜S706の結果の画面表示グループを反映し、修正・確認の画面表示する内容情報を決定する。すなわち、抽出項目ごとの候補の組合せと合わせて、抽出項目名の表示内容や、抽出項目の値や内容の表示内容を決めるのである。
テーブル800eは、その結果の例であり、S701とS702の結果の例であるテーブル800aと、S703〜S706の結果のテーブル800dから作成されたものである。抽出セットごとに、その中の抽出項目をまとめた抽出グループがあり、まとめられた抽出項目に応じて、抽出項目名として表示する内容と、抽出候補テキストとして表示する内容が設定されている。抽出セットは“抽出セットID”で、抽出項目グループは“グループID”で特定される。“抽出項目”にはグループIDに対応する抽出項目が含まれ、テーブル800dの中と同じ内容である。抽出セットIDで示される抽出セットには、テーブル800aの抽出項目名と抽出候補テキストから、それぞれ、その内容や値を組合せて、抽出セット項目名と抽出セット候補テキストが作成されている。このテーブル800eの内容を基に、以下の処理で、確認・修正用の画面を作成することになる。
S708では、修正受付部214は、画面表示内容に従い、画面表示の利用部品とその表示内容と配置位置・順序を決定し、利用者による確認及び修正受付のための画面表示を行う。テーブル800eの内容を基に、画面表示の利用部品の選択を行う。グループID“1”は、辞書・データベース利用で結果候補を選択することになるので、最優先候補の抽出セット候補テキストを表示し、その次候補以降をメニュー選択する画面表示の利用部品を割り当てることになる。これにより、文字列611、614、617、620の画面表示の利用部品が割り当てられている。グループID“2”も、グループID“1”の選択内容に応じて、選択することになるので、同様になる。これにより、文字列612、615、618、621の画面表示の利用部品が割り当てられている。グループID“3”は日時なので、カレンダー利用の選択を行う画面表示の利用部品が割り当てられることになる。これにより、文字列613、616、619、622の画面表示の利用部品が割り当てられている。これ以外に、正規表現で数値を検索した場合には、数値修正用の画面表示の利用部品が割り当てられるなど、適切に割当処理が行われる。
S709では、修正受付部214は、抽出項目の候補の配置位置に合わせ、項目候補の基になった文書画像の該当部分を配置し、画面表示グループ構成関係も表示する。具体的には、S708での抽出項目の候補の表示の利用部品の配置と、S701とS702で検索した抽出項目名の相対位置をもとに表示画面を生成する。このとき、利用者に選択された抽出項目の候補の表示の利用部品と、その関連部分に該当する文書画像201内の部分領域画像を配置し表示する。まず、各抽出項目の候補の文字認識結果が得られた領域の部分領域画像を切り出して、抽出グループごとにまとめて横線でつないで表示を行う(点線領域637〜642の部分)。また、S701とS702で検索した抽出項目名の相対位置方向に、抽出項目名の文字認識結果が得られた領域の部分領域画像を切り出して、縦線でつなぎながら配置・表示を行う(点線領域631〜636の部分)。
S710では、修正受付部214は、利用者による操作に基づいて抽出項目の値を修正し、その結果を抽出結果として出力する。
以上説明したとおり第1実施形態によれば、文書画像からの抽出された内容(文字列)に基づいて、利用者が確認・修正に利用する画面を生成する。これにより、利用者は、より少ない操作回数、より簡単な操作で確認・修正がきるようになる。
なお、この例では、薬剤名の辞書やお薬手帳を基にした商品やサービス等のレシートの例で示したが、医療以外の場合であっても、適用可能である。特に、一般的によく利用される商品やサービス等のレシートや、レシート調の帳票については、類似性が高く容易に適用可能である。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
202 文書画像処理部; 204 特定情報抽出部; 212 領域分類部; 213 検出部; 214 修正受付部; 215 抽出規則; 216 特定情報辞書; 217 検索インデックス; 218 誤認識パタン

Claims (10)

  1. 文書画像から抽出された複数の文字列と該複数の文字列の前記文書画像における配置情報とを取得する取得手段と、
    所与の抽出規則に基づいて、前記複数の文字列から複数の項目それぞれに対応する項目名に関する第1の文字列群を抽出する第1の抽出手段と、
    前記配置情報に基づいて、前記複数の文字列から前記複数の項目それぞれに対応する1以上の値に関する第2の文字列群を抽出する第2の抽出手段と、
    前記複数の項目間の依存関係に基づいて該複数の項目を複数のグループに分類する分類手段と、
    前記分類手段による分類の結果に基づいて前記第1の文字列群と前記第2の文字列群とをグループごとに配列した第1の表示画面を生成する生成手段と、
    を有することを特徴とする画像処理装置。
  2. 前記取得手段は、前記第1の文字列群及び前記第2の文字列群に対応する、前記文書画像における複数の部分領域画像を更に取得し、
    前記生成手段は、前記複数の部分領域画像を配列した第2の表示画面を更に生成する
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記生成手段は、前記第1の表示画面における前記第2の文字列群に対して修正候補を表示するためのユーザインタフェース(UI)部品を配置する
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記分類手段は、相対的に多くの項目を含むグループを高い優先度のグループとして設定し、
    前記生成手段は、設定された優先度に従って、前記第1の文字列群と前記第2の文字列群とをグループごとに前記第1の表示画面に配列する
    ことを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 前記複数の文字列は、光学文字認識(OCR)処理により得られた文字列であり、
    前記OCR処理で発生し得る誤認識パタンを格納する記憶手段と、
    前記誤認識パタンに基づいて前記複数の文字列を修正する修正手段と、
    を更に有する
    ことを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
  6. 前記生成手段は、前記修正手段により修正した文字を識別可能に表示した前記第1の表示画面を生成する
    ことを特徴とする請求項5に記載の画像処理装置。
  7. 前記取得手段は、前記複数の文字列と前記配置情報とをXML形式の文書データとして取得する
    ことを特徴とする請求項1乃至6の何れか1項に記載の画像処理装置。
  8. 紙文書を読み取り前記文書画像を生成する画像取得手段と、
    前記文書画像に対してOCR処理を行い前記文書データを生成するデータ生成手段と、を更に有する
    ことを特徴とする請求項7に記載の画像処理装置。
  9. 画像処理装置の制御方法であって、
    文書画像から抽出された複数の文字列と該複数の文字列の前記文書画像における配置情報とを取得する取得工程と、
    所与の抽出規則に基づいて、前記複数の文字列から複数の項目それぞれに対応する項目名に関する第1の文字列群を抽出する第1の抽出工程と、
    前記配置情報に基づいて、前記複数の文字列から前記複数の項目それぞれに対応する1以上の値に関する第2の文字列群を抽出する第2の抽出工程と、
    前記複数の項目間の依存関係に基づいて該複数の項目を複数のグループに分類する分類工程と、
    前記分類工程による分類の結果に基づいて前記第1の文字列群と前記第2の文字列群とをグループごとに配列した第1の表示画面を生成する生成工程と、
    を有することを特徴とする制御方法。
  10. コンピュータを、請求項1乃至8の何れか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
JP2017162692A 2017-08-25 2017-08-25 画像処理装置およびその制御方法 Pending JP2019040467A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017162692A JP2019040467A (ja) 2017-08-25 2017-08-25 画像処理装置およびその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017162692A JP2019040467A (ja) 2017-08-25 2017-08-25 画像処理装置およびその制御方法

Publications (1)

Publication Number Publication Date
JP2019040467A true JP2019040467A (ja) 2019-03-14

Family

ID=65725768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017162692A Pending JP2019040467A (ja) 2017-08-25 2017-08-25 画像処理装置およびその制御方法

Country Status (1)

Country Link
JP (1) JP2019040467A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717483A (zh) * 2019-09-19 2020-01-21 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
CN111898528A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
JP2021002287A (ja) * 2019-06-24 2021-01-07 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP2021064122A (ja) * 2019-10-11 2021-04-22 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP2021082046A (ja) * 2019-11-20 2021-05-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP6980927B1 (ja) * 2020-08-03 2021-12-15 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びプログラム
JP2022546192A (ja) * 2019-07-17 2022-11-04 上海明品医学数拠科技有限公司 医学データの検証方法
JP7458816B2 (ja) 2020-02-18 2024-04-01 キヤノン株式会社 データ入力支援装置、データ入力支援方法、表示装置、及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021002287A (ja) * 2019-06-24 2021-01-07 富士ゼロックス株式会社 情報処理装置、及び情報処理プログラム
JP7298330B2 (ja) 2019-06-24 2023-06-27 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
JP2022546192A (ja) * 2019-07-17 2022-11-04 上海明品医学数拠科技有限公司 医学データの検証方法
JP7358612B2 (ja) 2019-07-17 2023-10-10 上海明品医学数拠科技有限公司 医学データの検証方法
CN110717483A (zh) * 2019-09-19 2020-01-21 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
CN110717483B (zh) * 2019-09-19 2023-04-18 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
JP2021064122A (ja) * 2019-10-11 2021-04-22 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP7408340B2 (ja) 2019-10-11 2024-01-05 キヤノン株式会社 画像処理装置の制御方法、プログラム及び画像処理装置
JP2021082046A (ja) * 2019-11-20 2021-05-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7400386B2 (ja) 2019-11-20 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7458816B2 (ja) 2020-02-18 2024-04-01 キヤノン株式会社 データ入力支援装置、データ入力支援方法、表示装置、及びプログラム
CN111898528A (zh) * 2020-07-29 2020-11-06 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN111898528B (zh) * 2020-07-29 2023-11-10 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
WO2022029834A1 (ja) * 2020-08-03 2022-02-10 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びプログラム
JP6980927B1 (ja) * 2020-08-03 2021-12-15 ファーストアカウンティング株式会社 データ処理装置、データ処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2019040467A (ja) 画像処理装置およびその制御方法
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2009238217A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP4867941B2 (ja) 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム
JP2016071898A (ja) 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
JP2021043775A (ja) 情報処理装置及びプログラム
JP2019159898A (ja) 計算機及びテンプレート管理方法
US10803233B2 (en) Method and system of extracting structured data from a document
JP2011513810A (ja) 用語識別方法および装置
JP2018128931A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2018081451A (ja) 情報処理装置およびその制御方法
JP2005011340A (ja) オブジェクト上の注釈をグループ化することによりオブジェクトを選択する方法、システム、プログラム、及び、コンピュータ可読記憶媒体
JP5229102B2 (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
JP5550959B2 (ja) 文書処理システム、及びプログラム
JP6655745B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US10970483B2 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7298330B2 (ja) 情報処理装置、及び情報処理プログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
CN112149402A (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
JP2022011019A (ja) データ入力支援装置、データ入力支援方法及びプログラム
JP2021114224A (ja) ファイル検索システム、ファイル検索方法及びプログラム
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法