JP6947971B2 - 情報処理装置、制御方法、プログラム - Google Patents

情報処理装置、制御方法、プログラム Download PDF

Info

Publication number
JP6947971B2
JP6947971B2 JP2017147464A JP2017147464A JP6947971B2 JP 6947971 B2 JP6947971 B2 JP 6947971B2 JP 2017147464 A JP2017147464 A JP 2017147464A JP 2017147464 A JP2017147464 A JP 2017147464A JP 6947971 B2 JP6947971 B2 JP 6947971B2
Authority
JP
Japan
Prior art keywords
area
item
value
column
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017147464A
Other languages
English (en)
Other versions
JP2018085093A5 (ja
JP2018085093A (ja
Inventor
容 川口
容 川口
新一 三浦
新一 三浦
孝文 白波瀬
孝文 白波瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Original Assignee
Canon Marketing Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc filed Critical Canon Marketing Japan Inc
Publication of JP2018085093A publication Critical patent/JP2018085093A/ja
Publication of JP2018085093A5 publication Critical patent/JP2018085093A5/ja
Application granted granted Critical
Publication of JP6947971B2 publication Critical patent/JP6947971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書画像の所望の箇所の値を容易に取得可能とする画像処理技術に関する。
従来、様々な画像処理技術が開示されている。その中で、報告書や伝票等の帳票をスキャナで取り込み、取り込んだデータからOCR(Optical Character Recognition;光学文字認識)技術を用いて必要な項目の値を認識し取得する方法が提案されている。
特に、取得が必要な項目に対して、取得すべき箇所から値を取得したかを判断することが重要となる。
特許文献1には、指定された項目名称に対して、検索対象の項目名称が表示されている位置と、同じカテゴリの他の項目名称が表示されている位置とを比較することにより、必要情報か否かを判定する方法が記載されている。
特開2014−186435号公報
しかしながら、特許文献1に記載された方法は、事前に定義された複数の項目名称(文字列)に対して、それらの表示位置の差により必要情報か否かを判定する方法であり、検査値のような事前定義できない項目については適用できない。
また、特許文献1に記載された方法は、帳票における項目のカテゴリ分けが変わるような非定型帳票の場合にも対応できない。
帳票等から項目の値を取得する場合、特にエラーのため取得できなかった項目が、取得すべき項目であったか否かを提示することは、エラー訂正のために役立つ。
また、帳票等から一度取得した結果に基づいて、各項目が取得すべき項目であるか否かを提示することは、非定型帳票に対して値を取得すべき項目を指定する場合に有効である。
そこで、本発明の目的は、文書の中で他の項目に係る値が取得された領域との位置関係に基づいて、一項目に係る値を取得する領域の妥当性を確認することができる仕組みを提供することを目的とする。
本発明は、文書から複数の項目に係る値を取得する情報処理装置であって、文書の中の前記項目ごとに特定される領域から前記項目に係る値を取得する取得手段と、前記複数の項目のうちの一項目に対して特定される第1の領域と、他の項目に係る値が取得された第2の領域との位置関係に基づき、前記一項目に係る値を取得する領域としての前記第1の領域の妥当性を決定する決定手段とを備えることを特徴とする。
本発明によれば、文書の中で他の項目に係る値が取得された領域との位置関係に基づいて、一項目に係る値を取得する領域の妥当性を確認することができる。
画像処理システムの構成例を示す図である。 PC201の概略構成を示すブロック図である。 画像処理システムにて実行される画像処理の概略を示すフローチャートである。 値取得処理のフローチャートである。 ブロック情報の一例を示すデータ図である。 文字認識領域情報の一例を示すデータ図である。 設定ファイルの一例を示すデータ図である。 設定ファイルの一例を示すデータ図である。 読み込む文書画像の一例を示すイメージ図である。 ブロック情報を文書画像上で表示した場合のイメージ図である。 文字認識領域情報を選択領域として文書画像上で表示した場合のイメージ図である。 認識結果を表示する画面の一例を示す図である。 認識結果を表示する画面の一例を示す図である。 値取得処理の一例を説明するイメージ図である。 第2の実施形態の値取得処理のフローチャートである。 読み込む文書画像の一例を示すイメージ図である。 第2の実施形態での認識結果を表示する画面の一例を示す図である。
<第1の実施形態>
以下、本発明の実施形態を、図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る画像処理方法が適用された画像処理システムの構成例を示す図である。
図1において、画像処理システムは、例えば、情報処理装置としてのパーソナルコンピュータ(PC)201と、画像読取装置としてのスキャナ202と、印刷装置としてのプリンタ203とを備え、これらがネットワーク204を介して互いに接続されている。
スキャナ202は、紙文書を光学的に読み取って電子化し、その画像データをPC201に送ることができる。PC201は、受信した画像データに対して所定の画像処理を実行する。その際、オペレータがキーボードやマウス等を操作して処理結果の確認および修正を行うことができる。プリンタ203は、所定の画像処理が行われた画像データをPC201から受信して印刷を行う。
ネットワーク204は、インターネット、LANやWAN、電話回線、専用デジタル回線、ATMやフレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、またはこれらの組み合わせにより実現される、いわゆる通信ネットワークであり、データの送受信が可能であればよい。
なお、本発明の実施形態に係る画像処理方法を図示の画像処理システムに適用した形態について説明するが、これに限定されず、スキャナやプリンタが一体的に構成された複合機に適用した形態であってもよい。また、PC201は、スキャナ202から入力された画像データに限らず、デジタルカメラ等で撮影された文書画像データに対して本発明の画像処理方法を実行してもよく、画像データの入力先や入力方法を限定するものではない。
図2は、図1のPC201の概略構成を示すブロック図である。
PC201において、CPU101は、ROM102に格納されている制御プログラムに従って装置全体の制御を行う。ROM102は、CPU101が実行する後述する処理等の制御プログラムを含む各種プログラムや各種パラメータデータを格納する。RAM103は、記憶装置104からロードされたプログラムを一時的に記憶したり、エリア画像や各種データを記憶する。また、RAM103は、データの作業領域や一時待避領域として機能する。
記憶装置104は、例えば、ハードディスクやCD−ROM等で構成され、画像データを管理するデータベースを含む各種データを記憶する。ディスプレイ105は、例えば、LCDやCRTで構成される。入力装置106は、例えば、マウスやキーボード、ペンタブレット等で構成される。
ネットワークインターフェース(I/F)109は、ネットワーク204上に接続されている外部装置(スキャナ202やプリンタ203に限らず、不図示のサーバや外部記憶装置等)と通信し、プログラムやデータを読み込んだり、書き込んだりする。
図3は、図1の画像処理システムにて実行される画像処理の概略を示すフローチャートである。本処理は、PC201内の画像処理プログラムに基づいてCPU101により実行される処理である。なお、図3の詳細な処理を示すフローチャートは、図4を用いて説明する。
まず、ステップS301では、PC201は、スキャナ202を制御して紙文書の画像を読み取らせて、その画像データを取得する。次に、PC201は、画像に対してブロックセレクション処理を行って、画像から表、文字、絵や図、枠、線の各領域を抽出する。
ブロックセレクション処理とは、図9のように読み取った一頁のイメージデータをオブジェクト毎の塊として認識し、該ブロック各々を文字/図画/写真/線/表等の属性に判定し、異なる属性を持つ領域に分割する処理である。
具体的には、先ず、入力画像を白黒に二値化し、輪郭線追跡をおこなって黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡をおこない白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意ブロックセレクション処理で得られた各ブロックに対するブロック情報を図5に示す。図5に示すブロック情報に対応する画像の例が図10である。なお、各ブロック情報は画面上で表示されないが、説明のために図10で各ブロックを示すものとする。
このブロックセレクション処理で得られたブロックのうち、テキスト属性(種別)を持つブロックを取得し、このブロックについて文字認識処理を行う。文字認識技術については既知の技術であるため説明を省略する。
文字認識をした結果得られた文字列から、複数行にわたる領域かを判定し、複数行にわたる場合には、各行に分割して、領域として登録する。1行はそのままの領域として登録する。文字認識した場合に得られた領域(座標)も取得できるため、その座標を登録する。領域として登録されたデータの例が図6である。図5のブロック4が13個の領域として分割され、登録される。
次に設定ファイル(図7)に設定された取得条件701に従って、値を取得する領域を特定する。この特定は、ブロックセレクションにより得られたブロックに対して文字認識処理を行い、行分割して、領域を登録する。この領域から、取得条件701のキー領域の検索文字列(例えば、HDLコレステロール)を基に、キー領域を検索して、このキー領域から、検索方向(例えば、横)を用いて、キー領域の横の領域を値取得領域として特定する。この時値フォーマット(例えば、数字、3ケタ)の条件に合わない場合は更に検索方向の隣の領域を値取得領域として特定する。
この時、702のように設定ファイルの検索文字列をカンマ区切りで複数登録しておくと、1番目の検索文字列に合致する文字列が存在しない場合は2番目の検索文字列(例えば、トリグリセライド)を検索する。
また、703のように設定ファイルの検索方向をカンマ区切りで複数登録しておくと、1番目の検索方向に合致する値が存在しない場合は2番目の検索方向(例えば、下)を検索する。
さらに、上記の検索方向に加えて、図8に示す除外列設定条件801および優先列設定条件803により、除外すべき列、優先すべき列を判断し、値を取得すべき領域を特定する。なお、本実施例では、除外列、優先列は、縦並びの一連の項目として説明しているが、帳票等の書式によっては横並びの一連の項目(除外行、優先行と呼んでもよい)としてもよい。
除外列設定条件801は、設定された文字列802が表示されている列には、検査の基準値や前回の検査値など、今回の検査結果とは異なる情報が表示されていると判断される対象を設定する条件である。
優先列設定条件803は、設定された文字列804が表示されている列には、今回の検査結果が表示されていると判断される対象を設定する条件である。
そして、値取得領域として特定された領域に登録されている文字列(数字)を今回の検査結果として取得する。
ステップS302では、PC201は、ステップS301にて取得した文字列(数字)を今回の検査結果としてディスプレイ105に表示する。ディスプレイへの表示例は、図12および図13であり、それぞれの画面については後述する。また、ユーザからの出力指示によりCSVファイル等に取得した値のデータ群をエクスポートして出力する。
図4を用いて、ステップS301の値取得処理について説明する。
ステップS401では、PC201は、設定ファイルから取得条件701、除外列設定条件801、優先列設定条件803を読み込む。それぞれの条件はステップS301で説明した通りである。利用する設定ファイルは、ユーザが任意に選択して読み込んでもよい。
ステップS402では、PC201は、スキャナから取り込まれた画像、或いは所定のフォルダに格納されている画像を読み込む。
ステップS403では、PC201は、読み込まれた画像を用いて、ブロックセレクション処理を実行する。このブロックセレクションは、ブロックセレクションライブラリを用いて実行する。なお、ブロックセレクション処理については、ステップS301にて説明した通りである。また、ブロック情報は図5と同様である。さらに、ブロックセレクションライブラリで文字認識処理を実行してもよい。
ステップS404では、PC201は、ブロックセレクションライブラリからテキスト種別、表種別を有するブロック情報を取得する。
ステップS405では、PC201は、取得したブロックに対して、文字認識処理を行う。文字認識処理は既知の技術であり説明を省略するが、例えば、パターンマッチングを用いて、記入文字と文字のテンプレートを照合して、文字候補を抽出する技術がある。
文字認識処理により、文字列(数字含む)と、その文字列の領域情報(座標)が取得できる。領域情報は、文字列を囲む枠を示す領域である。文字認識した結果は、ブロックごとにメモリで管理されるものとする。
ステップS405では、すべてのブロックに対して、まず文字認識を実行し、ステップS406の処理へ移行するようにしているが、1ブロックごとに、文字認識を行い、S406の判定を行ってもよい。すなわち、すべてのブロックに対して文字認識を実行したあとに、ステップS406の判定を実行する手順に限定されるものではない。
ステップS406では、PC201は、すべてのブロックに対して、処理を実行したか否かを判定する。すべてのブロックに対して処理が行われていない場合、次に処理するブロックの文字列を取得するべくステップS407へ処理を移す。すべてのブロックに対して処理を実行した場合には、ステップS411へ処理を移す。
ステップS407では、PC201は、処理対象のブロックの文字認識結果(文字列)をメモリから取得する。
ステップS408では、PC201は、取得した文字列が複数行の文字列かを判定する。複数行の文字列を取得した場合はステップS410へ処理を移す。また、1行の文字列を取得した場合はステップS409へ処理を移す。
ステップS409では、PC201は、文字認識結果をメモリに記憶する。文字認識結果は図6の文字認識領域情報に登録される。図6では、領域IDと、文字認識結果から得られる文字列と、文字列がある位置を示す領域情報(座標)を登録する。
ステップS410では、PC201は、行ごとに領域を分割して、文字認識領域情報を生成し、登録する。図6の601に示す通り、ブロック4の文字列が、13個の領域に分けて登録される。なお、領域情報(座標)は、それぞれの行の文字列のある位置の座標が登録される。
ステップS411では、PC201は、読み込まれた取得条件701のキー領域の検索文字列(図7参照)を取得して、文字認識領域情報を検索する。キー領域の検索文字列に従って、文字認識領域情報の文字列で一致する領域を特定する。これにより、一致した領域がキー検索領域となる。
ステップS412では読み込まれた除外列設定条件801の検索文字列(図8参照)を取得して、文字認識領域情報を検索し、値が一致する領域を特定する。この時、値が一致した領域が表領域の場合は表中の自分自身が存在する列を「除外列」とする。
除外列設定条件801の検索文字列を複数登録している場合は全ての検索文字列に対して、上記を実施する。
除外列の検索文字列と一致した個所が表形式でない場合は自分自身の文字列のX座標と同じ並びの領域を「除外列」として判断しても良い。また、除外列が横並びの場合はY座標で判断してもよい。
ステップS413では読み込まれた優先列設定条件803の検索文字列(図8参照)を取得して、文字認識領域情報を検索し、値が一致する領域を特定する。この時、値が一致した領域が表領域の場合は表中の自分自身が存在する列を「優先列」とする。
優先列設定条件803の検索文字列を複数登録している場合は全ての検索文字列に対して、上記を実施する。
優先列の検索文字列と一致した個所が表形式でない場合は自分自身の文字列のX座標と同じ並びの領域を「優先列」として判断しても良い。また、優先列が横並びの場合はY座標で判断してもよい。
ステップS414では、PC201は、キー領域と、取得条件701の検索方向(例えば、右)を取得して、キー領域から1つ右の領域を特定する。キー領域の座標を基に、文字認識領域情報(例えば、図6)を参照して右方向の座標を有する領域を検索し、特定する。この特定した領域が値取得領域となる。なお、右方向の座標を有する領域のうち、一番近い座標を持つ領域から順に1つ目の領域、2つ目の領域とする。キー領域が複数ある場合には、同様にそれぞれの条件に従い値の取得領域を特定する。
上記にて値の取得領域を取得する際に、値の検索方向に「優先列」が存在する場合はその列(例えば、図11の1101)を優先的に値を取得する取得領域の候補とする。また「優先列」が複数存在する場合は、優先度順に値の取得領域の候補とする。
また、値の検索方向に「除外列」が存在する場合はその列(例えば、図11の1102)を値取得領域の対象外とする。
例えば、図14に示す報告書例1401の場合、キー項目「HDLコレステロール」の値を取得する際に、基準値が表示された列1402は除外列を表す文字列を含まないため除外列とは判断されないが、文字列「今回」を含む列1403が優先列と判断され、列1402をスキップして、列1403の文字列「51」の領域を値の取得領域とする。
また、図14に示す報告書例1411の場合、文字列「基準値」を含む列1412が除外列と判断され、検索方向で除外列にある文字列「40〜86」は対象から除外され、除外列をスキップした列1413の文字列「51」の領域を値の取得領域とする。なお、列1413は優先列を表す文字列を含まないため優先列とは判断されない。
ステップS415では、PC201は、ステップS414で特定した値の取得領域から値を取得する。この時取得した文字列が読み込まれた取得条件701の値フォーマット(図7参照)と異なる場合は読み込まれた取得条件701の検索方向(図7参照)の次の文字列を取得する。これを値フォーマットに合致した文字列が取得できるか、同一の表の端まで繰り返す。
ステップS416では、PC201は、値が取得できたか否かを判断し、値が取得できた場合はステップS418を実施する。値が取得できなかった場合はステップS417を実施する。
ステップS417では、PC201は、読み込まれた取得条件701の検索方向(図7参照)に設定された全ての検索方向に対して値の取得を実施したか否かを判断し、実施した場合はステップS418を実施し、実施していない場合は検索方向を次の方向にしてステップS414を実施する。
ステップS418では、PC201は、認識した全てのキー項目に対して値の取得を実施した場合はステップS419を実施し、値の取得が未実施のキー項目がある場合は値の取得処理(ステップS414〜ステップS417)を実施する。
ステップS419では、値取得領域として特定された領域のうち、ステップS415で値を取得できなかったものについて、値を取得すべき領域であったどうかを判定する。判定した結果は、ステップS302にて結果を表示する際に反映させる。
具体的処理を、画像として取り込んだ報告書等が表形式の場合について説明する。ステップS415にて、あるキー項目についてエラーとなり、当該キー項目に対して値が取得できなかった場合、値を取得しようとした領域に対して、同じ列に値が正常に取得できた他の値取得領域が存在する場合は「優先領域」と判定する。逆に同じ列に値が正常に取得できた他の値取得領域が存在しない場合は「非優先領域」と判定する。つまり、値が正常に取得できた値取得領域が存在する列については、取得すべき項目が並んだ列である可能性が高いため、同列でエラーとなった領域についても、値を取得すべき領域と判定している。
図13に判定結果の一例を示す。図13では、キー項目「ALT(GPT)」について、値取得領域として1302と1303の2ヶ所が特定され、いずれも値取得がエラーとなっている。値取得領域1302では、他のキー項目「AST(GOT)」などについて同列の値取得領域で値が正常に取得できているため、「優先領域」、つまり値を取得すべきキー領域と判定される。一方、値取得領域1303では、他のキー項目について同列で値を正常に取得できた値取得領域が存在しないため、「非優先領域」、つまり値を取得しなくてもよいキー領域と判定される。
また、画像として取り込んだ報告書等が表形式でない場合は、エラーとなったキー領域のX座標と近いX座標を持つ領域に値の取得できた他のキー項目が存在する場合に「優先領域」、存在しない場合に「非優先領域」と判定してもよい。また、表形式の場合に列ではなく行で領域を特定してもよく、表形式でない場合にY座標で特定してもよい。
次に、ステップS302の値出力処理により表示される画面について説明する。
図12は、ステップS302により表示される画面の一例である認識結果画面1201の画面イメージである。
認識結果画面1201は、左側に読み取った画像イメージ1202、右側に検査項目毎の認識結果一覧1203を表示する。
ステップS415で、キー領域が空欄の場合や、値フォーマットに合う文字列がない場合など、値が取得できない項目がある場合にはエラー項目として強調表示する(1204、1205)。認識結果に誤りがあった場合には、ユーザにより、修正入力エリアに修正値を入力させることが可能である(1206)。修正入力エリアに入力された場合には、入力値が登録される値となる。
また、優先列設定条件803および除外列設定条件801により特定される優先列、除外列を識別可能に表示してもよい。
図13は、ステップS419による判定結果を反映させた画面の一例である認識結果画面1301の画面イメージである。
値取得領域1302はステップS415にて値を取得できず、ステップS419にて「優先領域」と判定されたため、値取得領域1302と、値取得領域1302の認識結果1304が強調表示されている。
一方、値取得領域1303はステップS415にて値を取得できず、ステップS419にて「非優先領域」と判定されたため、値取得領域1303と、値取得領域1303の認識結果1305が、「優先領域」とは異なる形式で表示されている。
また、認識結果画面1201および1301は、出力ボタンを備えており、認識結果と、ユーザによる値の修正があれば修正結果とをCSVファイルに出力する。なお、複数の画像が読み込まれた場合には、すべての画像に対して、値取得、確認を実行し、最後の画像に対して出力ボタンを押下すると、CSVファイルに一括して値を出力する。出力するファイルの形式は一例であり、限定されるものではない。
上記により、値の取得時にエラーとなった項目が取得すべき項目であるか否かを認識することができるようになる。
<第2の実施形態>
以下、本発明の第2の実施形態について説明する。なお、第1の実施形態と同じ内容については説明を省略する。
図15は、ステップS301の値取得処理の詳細フローを示すフローチャートである(第1の実施形態の図4に当たる)。また、図16に本例で読み込む文書画像のイメージ、図17に認識結果を表示する画面イメージを示し、都度説明に使用する。
ステップS401からS410までは図4と同じであるため、説明を省略する。ただし、ステップS401での除外列設定条件801、優先列設定条件803の読み込みは不要である。後続処理として、ステップS1501からの処理について説明する
ステップS1501では、PC201は、ステップS301にて分割したブロックごとに以下の処理を繰り返し実行する。ブロックごとに処理を実施するのは、ブロックにより表示項目の並びが変わる可能性があるからである。
ステップS1502では、PC201は、読み込まれた取得条件701のキー領域の検索文字列(図7参照)を取得して、文字認識領域情報を検索する。キー領域の検索文字列に従って、文字認識領域情報の文字列で一致する領域を特定する。これにより、一致した領域がキー検索領域となる。
ステップS1503では、PC201は、キー領域と、取得条件701の検索方向(例えば、右。本例では検索方向は1種類とする。)を取得して、キー領域から検索方向に順に領域を検索し、値取得領域を1つ特定する。領域の検索方法としては、キー領域の座標を基に、文字認識領域情報(例えば、図6)を参照して検索方向の座標を有する領域を順に検索する。この検索した領域が値取得領域となり、検索方向に順に取得される領域を列と呼ぶ。
ステップS1504では、PC201は、ステップS1503で特定した値の取得領域から値を取得する。この時取得した文字列が読み込まれた取得条件701の値フォーマット(図7参照)と合致する場合は取得候補と判定し、値フォーマットと異なる場合は除外候補と判定する。
図17の認識結果画面1701では、画像プレビュー1702を表示し、取得候補となった項目を網掛け表示(1703)している。検査項目「HDLコレステロール」、「LDLコレステロール」では2列目、3列目が、検査項目「尿蛋白」では2列目から4列目までが取得候補と判定されている。それ以外の項目は除外候補と判定されている。
ステップS1505では、ステップS1503で検索される全ての領域(列)についてステップS1503、S1504の処理を実施したか否かを判断し、実施した場合はステップS1506に移行し、実施していない場合は、ステップS1503に戻って次の領域(列)について処理する。
ステップS1506では、PC201は、認識した全てのキー項目に対してステップS1502〜S1505の処理を実施したか否かを判断し、実施した場合はステップS1507に移行し、実施していない場合はステップS1502に戻って次のキー項目について処理する。
ステップS1507では、PC201は、ステップS1506までの処理結果をもとに、除外列、つまり、項目値として取得しない列を特定する。特定方法の例としては、ステップS1506までの処理の結果、除外候補の割合が所定値(例えば40%)を超える場合は、除外列と特定する。ここで、同じ列とは、対象ブロックが表形式の場合は同一のX座標範囲を持つ領域、表形式でない場合は近似するX座標範囲を持つ領域を示す。また行列反転した表形式の場合はY座標範囲で判断する。
図17の認識結果画面1701では、検査項目「HDLコレステロール」、「LDLコレステロール」について、第2列(「正常値」列)は除外候補であるため(検査項目3つに対し2つが除外候補)、第2列を除外列と判断し、認識結果欄1704に除外列であることを表示している。
ステップS1508では、PC201は、ステップS1506までの処理結果をもとに、値取得候補列、つまり、項目値として取得する候補となる列を特定する。特定方法の例としては、ステップS1506までの処理の結果、取得候補の割合が所定値(例えば60%)以上の場合は、値取得候補列と特定する。
図17の認識結果画面1701では、全ての検査項目「について、第3列、第4列(「XX年」列、「YY年」列)は取得候補であるため(検査項目3つに対し3つが取得候補)、第3列、第4列を値取得候補列と判断し、認識結果欄1704に値取得候補列であることを表示している。
ステップS1509では、PC201は、認識結果画面1701を表示し、ユーザにより値取得候補列から値取得列の指定を受け付ける。認識結果画面1701では、値取得候補列の判断された列の上部に選択チェックボックス1705が表示され、ユーザが値取得列として指定する列の選択チェックボックス1705をチェックし、取得列決定ボタン1706を押下することにより、値取得列が決定され(画面例では第3列)、当該列の項目値が各検査項目に対して取得する値として確定される。
ステップS1510では、PC201は、全てのブロックに対してステップS1502からS1509までの処理を実施すれば繰り返し処理を終了し、そうでなければステップS1501に戻り次のブロックについて処理する。
以上で、第2の実施形態による値取得処理の説明を終了する。
上記により、認識結果に基づいて除外列、値取得候補列を提示するため、効率よく値取得列を決定することができる。
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。例えば、クラウド環境で実現する構成であってもよい。その場合、クラウド環境上のサーバで、設定ファイル作成ツールが実行される。
また、本発明におけるプログラムは、図に示すフローチャートの処理方法をコンピュータが実行可能なプログラムである。なお、記憶媒体に図に示す処理方法をコンピュータが実行可能なプログラムが記憶される構成であってもよい。なお、本発明におけるプログラムは図に示す各装置の処理方法ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
201 PC
202 スキャナ
203 プリンタ
204 ネットワーク

Claims (7)

  1. 文書から複数の項目に係る値を取得する情報処理装置であって、
    文書の中の前記項目ごとに特定される領域から前記項目に係る値を取得する取得手段と、
    前記複数の項目のうちの一項目に対して特定される第1の領域と、他の項目に係る値が取得された第2の領域との位置関係に基づき、前記一項目に係る値を取得する領域としての前記第1の領域の妥当性を決定する決定手段と
    を備えることを特徴とする情報処理装置。
  2. 前記決定手段は、前記第1の領域が前記第2の領域と同じ行/列、または、横/縦並びの一定範囲に位置するか否かに基づき、当該第1の領域の妥当性を決定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の領域は、前記取得手段により前記一項目に係る値を取得できなかった領域であることを特徴とする請求項1または2に記載の情報処理装置。
  4. する表示制御手段を備えることを特徴とする請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記決定された妥当性に基づいて、前記一項目に対して特定される第1の領域を識別可能に表示
    前記文書の中の領域から、前記複数の項目に係る値を取得する領域の指定を受け付ける受付手段を備えることを特徴とする請求項1〜4のいずれか1項に記載の情報処理装置。
  6. 文書から複数の項目に係る値を取得する情報処理装置の制御方法であって、
    取得手段が、文書の中の前記項目ごとに特定される領域から前記項目に係る値を取得する取得ステップと、
    決定手段が、前記複数の項目のうちの一項目に対して特定される第1の領域と、他の項目に係る値が取得された第2の領域との位置関係に基づき、前記一項目に係る値を取得する領域としての前記第1の領域の妥当性を決定する決定ステップと
    を備えることを特徴とする情報処理装置の制御方法。
  7. 文書から複数の項目に係る値を取得する情報処理装置において実行可能なプログラムであって、
    前記情報処理装置を
    文書の中の前記項目ごとに特定される領域から前記項目に係る値を取得する取得手段と、
    前記複数の項目のうちの一項目に対して特定される第1の領域と、他の項目に係る値が取得された第2の領域との位置関係に基づき、前記一項目に係る値を取得する領域としての前記第1の領域の妥当性を決定する決定手段
    として機能させるためのプログラム。
JP2017147464A 2016-11-17 2017-07-31 情報処理装置、制御方法、プログラム Active JP6947971B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016224366 2016-11-17
JP2016224366 2016-11-17

Publications (3)

Publication Number Publication Date
JP2018085093A JP2018085093A (ja) 2018-05-31
JP2018085093A5 JP2018085093A5 (ja) 2020-08-20
JP6947971B2 true JP6947971B2 (ja) 2021-10-13

Family

ID=62238499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017147464A Active JP6947971B2 (ja) 2016-11-17 2017-07-31 情報処理装置、制御方法、プログラム

Country Status (1)

Country Link
JP (1) JP6947971B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782839B (zh) * 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005018678A (ja) * 2003-06-30 2005-01-20 Casio Comput Co Ltd 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
JP4996940B2 (ja) * 2007-02-21 2012-08-08 日立コンピュータ機器株式会社 帳票認識装置およびそのプログラム
JP4871889B2 (ja) * 2008-01-18 2012-02-08 株式会社日立ソリューションズ 表認識方法及び表認識装置
JP5959460B2 (ja) * 2013-03-22 2016-08-02 株式会社エヌ・ティ・ティ・データ データ処理装置、データ処理方法及びプログラム
JP6390085B2 (ja) * 2013-10-03 2018-09-19 富士通株式会社 プログラム、情報処理装置、及び、情報処理方法
JP6253354B2 (ja) * 2013-11-06 2017-12-27 株式会社東芝 帳票読取装置、プログラムおよび帳票読取システム

Also Published As

Publication number Publication date
JP2018085093A (ja) 2018-05-31

Similar Documents

Publication Publication Date Title
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US8572475B2 (en) Display control of page data by annotation selection
US9430716B2 (en) Image processing method and image processing system
JP6826293B2 (ja) 情報処理システムと、その処理方法及びプログラム
US11153446B2 (en) Information processing apparatus for presenting an object for a batch operation without selection in advance and non-transitory computer readable medium
JP6931168B2 (ja) 情報処理装置、制御方法、プログラム
US11907651B2 (en) Information processing apparatus, information processing method, and storage medium
JP5094682B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2012203491A (ja) 文書処理装置及び文書処理プログラム
JP6947971B2 (ja) 情報処理装置、制御方法、プログラム
US20230206672A1 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
US11163992B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2005208977A (ja) 文書ファイリング装置および文書ファイリング方法
JP4518212B2 (ja) 画像処理装置及びプログラム
JP2007034613A (ja) 画像処理装置及びその方法
JP6536542B2 (ja) 情報処理装置、制御方法、プログラム
JP6795770B2 (ja) 情報処理装置と、その処理方法及びプログラム
JP6481204B2 (ja) 情報処理装置と、その処理方法及びプログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
US9912834B2 (en) Document camera device and cutout assistance method
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium
US20230118845A1 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
US20230394228A1 (en) Image processing apparatus and image forming apparatus

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210830

R151 Written notification of patent or utility model registration

Ref document number: 6947971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250