JP2019159945A - 情報管理プログラム、装置、及び方法 - Google Patents

情報管理プログラム、装置、及び方法 Download PDF

Info

Publication number
JP2019159945A
JP2019159945A JP2018047160A JP2018047160A JP2019159945A JP 2019159945 A JP2019159945 A JP 2019159945A JP 2018047160 A JP2018047160 A JP 2018047160A JP 2018047160 A JP2018047160 A JP 2018047160A JP 2019159945 A JP2019159945 A JP 2019159945A
Authority
JP
Japan
Prior art keywords
information
read
axis
character string
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018047160A
Other languages
English (en)
Inventor
伊藤 孝
Takashi Ito
孝 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018047160A priority Critical patent/JP2019159945A/ja
Publication of JP2019159945A publication Critical patent/JP2019159945A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】帳票毎に読取領域を事前に定義することなく、帳票から必要な情報を読み取る。【解決手段】特定部11が、複数の項目の各々について複数の情報が記載された帳票から、複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、複数の項目のそれぞれを示す文字列とに基づいて、帳票における読取対象の情報を読み取る読取領域を特定し、読取部12が、帳票における特定した読取領域から情報を読み取り、記憶制御部15が、読み取った情報を、項目を示す文字列と対応付けて、記憶部に記憶する。【選択図】図1

Description

開示の技術は、情報管理プログラム、情報管理装置、及び情報管理方法に関する。
何らかの作業報告や結果表等の帳票を、紙やイメージデータの形式で受け付けた場合において、帳票から、情報管理用のデータベースを作成する技術が存在する。ここでのイメージデータとは、XML(eXtensible Markup Language)やCSV(Comma-Separated Values)形式になっていない状態のPDF(Portable Document Format)などの電子データである。
具体的には、健康診断の結果などの帳票をOCR(Optical Character Recognition)などで読み取る場合、帳票上の所定領域(範囲)と、その範囲に記載されているであろう情報の属性とを予めルール化しておく。そして、所定領域から読み取った結果を、対応するデータ属性のデータであるとして管理する技術がある。例えば、座標(x1,y1)から座標(x2,y2)の範囲は、データ属性が「身長」であるデータが記録されている、というルールを作っておく。そして、帳票の(x1,y1)から座標(x2,y2)の範囲から読み取ったデータ(例えば、“180”)を、データ属性「身長」の値として記憶する。
特開2000−148763号公報
しかし、帳票のフォーマットが固定ではない場合、読取領域を各帳票のフォーマット毎に事前に定義しておく必要があり、煩雑である。
一つの側面として、帳票毎に読取領域を事前に定義することなく、帳票から必要な情報を読み取ることができる情報管理プログラム、装置、及び方法を提供することを目的とする。
一つの態様として、開示の技術は、複数の項目の各々について複数の情報が記載された帳票から、前記帳票における前記読取対象の情報を読み取る読取領域を特定する。読取領域は、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて特定する。そして、前記帳票における特定した前記読取領域から情報を読み取り、読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する。
一つの側面として、開示の技術は、帳票毎に読取領域を事前に定義することなく、帳票から必要な情報を読み取ることができる、という効果を有する。
本実施形態に係る情報管理装置の機能ブロック図である。 帳票のイメージデータの一例を示す図である。 X軸キーワードマスタの一例を示す図である。 調整幅を説明するための図である。 Y軸キーワードマスタの一例を示す図である。 項目マスタの一例を示す図である。 読取領域の特定を説明するための図である。 同一のX軸文字列が複数検索される帳票のイメージデータの一例を示す図である。 同一のX軸文字列が複数検索される場合の読取領域の特定を説明するための図である。 単位変換マスタの一例を示す図である。 画面表示マスタの一例を示す図である。 読取結果画面の一例を示す図である。 管理マスタの一例を示す図である。 本実施形態に係る情報管理装置として機能するコンピュータの概略構成を示すブロック図である。 本実施形態における情報管理処理の一例を示すフローチャートである。 X軸キーワード処理の一例を示すフローチャートである。 メモリに退避された値の一例を示す図である。 Y軸キーワード処理の一例を示すフローチャートである。 読取処理の一例を示すフローチャートである。 単位変換処理の一例を示すフローチャートである。 判定処理の一例を示すフローチャートである。 帳票のイメージデータの他の例を示す図である。 帳票のイメージデータの他の例を示す図である。 読み取りたい情報が記載されている箇所以外からX軸文字列及びY軸文字列が検索される場合を説明するための図である。
以下、図面を参照して、本発明の実施形態の一例を詳細に説明する。
図1に示すように、本実施形態に係る情報管理装置10には、紙媒体の帳票に記載された情報をスキャナ等で取り込んだ帳票のイメージデータ21が入力される。そして、情報管理装置10により、帳票のイメージデータ21から必要な情報が読み取られ、管理マスタ27に記憶される。
情報管理装置10は、機能的には、特定部11と、読取部12と、表示制御部13と、判定部14と、記憶制御部15とを含む。また、情報管理装置10の所定の記憶領域には、X軸キーワードマスタ22と、Y軸キーワードマスタ23と、項目マスタ24と、単位変換マスタ25と、画面表示マスタ26とが記憶される。
以下、各機能部及び各データベースについて詳述する。
特定部11は、入力された帳票のイメージデータ21を取得する。帳票には、複数の項目の各々について複数の情報が記載されている。図2に、帳票のイメージデータ21の一例を示す。本実施形態では、帳票の一例として、図2に示すような健康診断結果報告書を用いて説明する。図2の例では、健康診断結果報告書には、身長、体重、BMI、・・・等の項目の各々について、基準値、単位、今回の結果、及び前回の結果という複数の情報が記載されている。
特定部11は、取得した帳票のイメージデータ21に対してテキスト認識を行う。また、特定部11は、テキスト認識後のイメージデータ21から、複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、項目を示す文字列とに基づいて、読取対象の情報を読み取る読取領域を特定する。
本実施形態では、読取対象の情報が記載された領域を特定するための特徴として、読取対象の情報に関連する文字列を用いる。例えば、図2の例で、読み取りたい情報が、今回の健康診断における検査結果を示す値及び単位の情報であるとすると、「今回の結果」及び「単位」という文字列が、読取領域を特定するために用いられる。
具体的には、特定部11は、X軸キーワードマスタ22に定められたX軸キーワードと一致する文字列(以下、「X軸文字列」)を帳票のイメージデータ21から検索する。そして、特定部11は、検索されたX軸文字列の左端のX座標をX軸開始位置、及びX軸文字列の右端のX座標をX軸終了位置として取得する。また、特定部11は、X軸開始位置の前とX軸終了位置の後に余白を加え、読取領域のX軸方向の範囲として特定する。
ここで、図3に、X軸キーワードマスタ22の一例を示す。図3の例では、X軸キーワードマスタ22には、「キーワードSEQ」、「情報種別」、「X軸キーワード」、「開始X軸調整幅」、及び「終了X軸調整幅」の情報が含まれる。
「キーワードSEQ」は、X軸キーワードマスタ22に記憶されたX軸キーワードの通し番号である。「情報種別」は、そのX軸キーワードにより特定される読取領域から読み取られる情報の種別を表す。例えば、上記の図2の例では、「今回の結果」というX軸キーワードの情報種別を「値」、「単位」というX軸キーワードの情報種別を「単位」と定めておくことができる。「X軸キーワード」は、読取対象の情報を示すキーワードである。異なるフォーマットの帳票では、同じ情報を示す項目名であっても、異なる用語が用いられる場合があることを考慮して、情報種別毎に、1又は複数のX軸キーワードが定められる。
「開始X軸調整幅」及び「終了X軸調整幅」は、X軸方向の範囲を特定する際に加えられる余白を定めたものである。図4に示すように、X軸開始位置(図4中の白丸)及びX軸終了位置(図4中の黒丸)は、検索されたX軸文字列に基づいて決定される。そのため、X軸開始位置及びX軸終了位置からそのままX軸方向の範囲を特定すると、実際に情報が記載される領域の幅に対して、検索されたX軸文字列の文字数が少ない場合には、読み取りたい情報が読取領域に含まれなくなる可能性がある。そこで、図3の例では、X軸キーワードの文字数が少ないほど、大きな調整幅を定めている。
また、特定部11は、Y軸キーワードマスタ23に定められたY軸キーワードと一致する文字列(以下、「Y軸文字列」という)を帳票のイメージデータ21から検索する。そして、特定部11は、検索されたY軸文字列の右端のX座標をX軸終了位置、上端のY座標をY軸開始位置、及び下端のY座標をY軸終了位置として取得する。また、特定部11は、Y軸開始位置の前とY軸終了位置の後に余白を加え、読取領域のY軸方向の範囲として特定する。
ここで、図5に、Y軸キーワードマスタ23の一例を示す。図5の例では、Y軸キーワードマスタ23には、「キーワードSEQ」、「Y軸キーワード」、「項目ID」、「開始Y軸調整幅」、及び「終了Y軸調整幅」の情報が含まれる。
「キーワードSEQ」は、Y軸キーワードマスタ23に記憶されたY軸キーワードの通し番号である。「Y軸キーワード」は、各項目を示すキーワードである。異なるフォーマットの帳票では、同じ項目であっても、異なる用語が用いられる場合があることを考慮して、各項目について、1又は複数のY軸キーワードが定められる。
「項目ID」は、項目の識別情報であり、同一の項目に相当するY軸キーワードには、同一の項目IDが対応付けられる。また、同一の項目IDを示す複数の項目名のうち、情報管理装置10での情報の管理に使用する項目名の代表を、例えば、図6に示すような項目マスタ24に定めておく。図6の例では、項目マスタ24には、「項目ID」と「項目名」とが対応付けて記憶されている。「項目名」は、「項目ID」が示す項目の名称である。
「開始Y軸調整幅」及び「終了Y軸調整幅」は、「開始X軸調整幅」及び「終了X軸調整幅」と同様に、Y軸方向の範囲を特定する際に加えられる余白を定めたものである。
特定部11は、X軸方向の範囲及びY軸方向の範囲を特定することにより、図7に示すように、読取領域を特定する。
ここで、例えば、図8に示すように、読み取りたい情報を含む表などが2段組以上の構成で記載された帳票の場合、1つの帳票の異なる位置から、同一のX軸文字列が2つ以上検索されることになる。この場合、特定部11は、図9に示すように、同一のX軸文字列についての複数のX軸開始位置のうち、Y軸文字列のX軸終了位置より大きく(X軸文字列がY軸文字列より右に位置している)、かつY軸文字列のX軸終了位置に最も近いX軸開始位置を選択する。そして、特定部11は、選択したX軸開始位置及びそのX軸開始位置と同じ文字列についてのX軸終了位置に基づいて、X軸方向の範囲を特定する。
読取部12は、特定部11により特定された読取領域から、その読取領域を特定するY軸文字列が示す項目についての情報を読み取る。また、読取部12は、読み取った情報が「単位」を含む場合には、単位変換ルールが定められた単位変換マスタ25を参照して、必要に応じて、「値」を単位変換する。
ここで、図10に、単位変換マスタ25の一例を示す。図10の例では、単位変換マスタ25は、「項目ID」、「SEQ」、「項目名」、「読取単位」、「変換係数」、及び「変換後単位」の情報を含む。
「項目ID」は、単位変換が必要な項目の項目IDである。「SEQ」は、同一の項目IDについての単位変換ルールの通し番号である。「読取単位」は、読取領域から読み取った単位、すなわち、変換前の単位である。「変換係数」は、読み取った値を「変換後単位」に対応させるために、読み取った値に乗算される係数である。
表示制御部13は、画面表示する内容を定めた画面表示マスタ26において、読取領域から読み取られた情報を、その読取領域を特定するY軸文字列が示す項目の項目IDに対応する欄に設定する。
図11に、画面表示マスタ26の一例を示す。図11の例では、画面表示マスタ26は、「画面表示SEQ」、「項目名」、「値」、及び「単位」の情報を含む。「画面表示SEQ」は、画面における行番号に相当する。「項目名」は、画面に表示される項目名、各項目の分類を示す表示等を示す。「値」には、読取領域から読み取られた値、又は、単位変換が行われている場合には、単位変換後の値が設定される。各行に対応する「値」の欄には、その位置に設定する値に対応する項目IDが定められている。「単位」は、各項目について予め定められた単位であり、単位変換ルールが定められている項目については、変換後の単位である。
表示制御部13は、画面表示マスタ26に基づいて、例えば、図12に示すような読取結果画面30を表示装置(図示省略)に表示する。図12の例では、読取結果画面30には、項目毎の読取結果を示す読取結果一覧31と、警告表示領域32と、確定ボタン33とが含まれる。
読取結果一覧31には、画面表示マスタ26に設定された値が、修正可能に表示される。警告表示領域32は、後述する判定部14の判定結果に応じて警告のメッセージが表示される領域である。確定ボタン33は、読取結果一覧31に表示された各項目の値を確定して、管理マスタ27に記憶する際に選択される。また、読取結果画面30には、対象のユーザを特定する情報や、健康診断の実施日等の属性情報を表示する属性表示領域34を設けてもよい。属性表示領域34に表示する情報は、帳票のイメージデータ21から読み取った情報でもよいし、別途入力された情報でもよい。属性情報の取得及び表示については、従来既知の手法を用いることができるため、ここでは詳細な説明を省略する。
判定部14は、情報の変化が少ない項目として予め定めた項目について、その項目について読み取られた情報と、既に管理マスタ27に記憶されている過去の情報とを比較する。そして、判定部14は、比較結果に基づいて、特定部11による読取領域の特定の精度を判定する。例えば、成人の場合、身長の変化は少ないと考えられるため、項目「身長」を、情報の変化が少ない項目として定めておくことができる。この場合、判定部14は、今回読み取られた「身長」の値と、管理マスタ27に記憶されている同一ユーザについての「身長」の値との差が、予め定めた閾値以上か否かを判定する。判定部14は、差が閾値以上の場合には、読取領域の特定に失敗していると判定し、例えば、上記の読取結果画面30の警告表示領域32に、読み取りが正確に行われていない可能性があることを示すメッセージを表示する。
記憶制御部15は、読取結果画面30の確定ボタン33が選択されると、読取結果画面30に表示された情報群を、管理マスタ27に記憶する。図13に、管理マスタ27の一例を示す。図13の例では、管理マスタ27の各行(各レコード)は、1つの帳票のイメージデータ21から読み取られ、読取結果画面30に表示された情報群に相当する。情報群には、ユーザの識別情報である「ユーザID」、「ユーザ名」、「健康診断日」、及び項目毎の値が含まれる。項目毎の値は、各項目の項目IDに対応付けて記憶されている。
情報管理装置10は、例えば図14に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力装置、表示装置等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45と、インターネット等のネットワークに接続される通信I/F(Interface)46とを備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、情報管理装置10として機能させるための情報管理プログラム50が記憶される。情報管理プログラム50は、特定プロセス51と、読取プロセス52と、表示制御プロセス53と、判定プロセス54と、記憶制御プロセス55とを有する。また、記憶部43は、X軸キーワードマスタ22、Y軸キーワードマスタ23、項目マスタ24、単位変換マスタ25、画面表示マスタ26、及び管理マスタ27の各々を構成する情報が記憶される情報記憶領域60を有する。
CPU41は、情報管理プログラム50を記憶部43から読み出してメモリ42に展開し、情報管理プログラム50が有するプロセスを順次実行する。CPU41は、特定プロセス51を実行することで、図1に示す特定部11として動作する。また、CPU41は、読取プロセス52を実行することで、図1に示す読取部12として動作する。また、CPU41は、表示制御プロセス53を実行することで、図1に示す表示制御部13として動作する。また、CPU41は、判定プロセス54を実行することで、図1に示す判定部14として動作する。また、CPU41は、記憶制御プロセス55を実行することで、図1に示す記憶制御部15として動作する。
また、CPU41は、情報記憶領域60から各マスタを構成する情報を読み出して、X軸キーワードマスタ22、Y軸キーワードマスタ23、項目マスタ24、単位変換マスタ25、画面表示マスタ26、及び管理マスタ27の各々をメモリ42に展開する。これにより、情報管理プログラム50を実行したコンピュータ40が、情報管理装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
なお、X軸キーワードマスタ22、Y軸キーワードマスタ23、項目マスタ24、単位変換マスタ25、画面表示マスタ26、及び管理マスタ27の各々構成する情報は、情報記憶領域60に記憶される場合に限らない。これらの情報は、外部の記憶装置や記憶媒体49に記憶されていてもよい。この場合、情報管理プログラム50の実行時に、R/W部45や通信I/F46を介して、外部の記憶装置や記憶媒体49から、各マスタを構成する情報を取得し、各マスタをメモリ42に展開すればよい。
なお、情報管理プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
次に、本実施形態に係る情報管理装置10の作用について説明する。
帳票からの情報の読取処理が指示され、情報管理装置10に帳票のイメージデータ21が入力されると、情報管理装置10により、図15に示す情報管理処理が実行される。なお、情報管理処理は、本発明の情報管理方法の一例である。
ステップS10で、特定部11が、情報記憶領域60に記憶された、各マスタを構成する情報を読み出して、各マスタをメモリ42に展開する。
次に、ステップS20で、特定部11が、入力された帳票のイメージデータ21を取得し、取得した帳票のイメージデータ21に対してテキスト認識を行う。
次に、ステップS30で、図16に示すX軸キーワード処理が実行される。
図16のステップS31で、特定部11が、X軸キーワードマスタ22から、情報種別が「値」のX軸キーワードのうち、後述するステップS33及びS34の処理が未処理のX軸キーワードを1件選択する。
次に、ステップS32で、特定部11が、上記ステップS31で、X軸キーワードを選択できたか、すなわち、情報種別が「値」で、未処理のX軸キーワードがX軸キーワードマスタ22に存在するか否かを判定する。未処理の「値」のX軸キーワードが存在する場合、処理はステップS33へ移行する。
ステップS33では、特定部11が、上記ステップS31で選択した、「値」のX軸キーワードと一致する文字列を帳票のイメージデータ21から検索する。次に、ステップS34で、特定部11が、「値」のX軸キーワードと一致するX軸文字列が帳票のイメージデータ21から検索されたか否かを判定する。「値」のX軸文字列が検索された場合には、処理はステップS35へ移行し、「値」のX軸文字列が検索されなかった場合には、処理はステップS31に戻る。
そして、ステップS34で肯定判定されることなく、ステップS32で否定判定された場合は、読取領域を特定するためのX軸キーワードがX軸キーワードマスタ22に1件も存在しなかったことを表しているため、情報管理処理は終了する。
ステップS35では、特定部11が、検索された「値」のX軸文字列の左端のX座標をX軸開始位置、及び右端のX座標をX軸終了位置として取得し、取得したX軸開始位置及びX軸終了位置の値をメモリ42に退避する。なお、帳票のイメージデータ21から、同一の「値」のX軸文字列が複数検索された場合には、それらの「値」のX軸文字列の各々について、X軸開始位置及びX軸終了位置の値をメモリ42に退避する。
図17に、メモリ42に退避された値の一例を示す。図17に示すAが、上記ステップS35で退避された値の一例であり、図17に示すBは、同一の「値」のX軸文字列が複数検索された場合の一例である。なお、図17の例では、「値」のX軸開始位置及びX軸終了位置の各々についての「退避する値」の「xi(i=1,2,・・・),j,k」において、「xi」はX軸文字列のX軸開始位置(X座標)又はX軸終了位置(X座標)を表している。また、「j」は、検索されたX軸文字列に対応するX軸キーワードのX軸キーワードマスタ22におけるキーワードSEQである。また、「k」は、同一の「値」のX軸文字列が複数検索された場合における、各X軸文字列を識別するための通し番号である。後述する「単位」のX軸文字列のX軸開始位置及びX軸終了位置の各々についての「退避する値」も、xi及びkについては同様である。
次に、ステップS36で、特定部11が、X軸キーワードマスタ22から、情報種別が「単位」のX軸キーワードを選択する。
次に、ステップS37で、特定部11が、上記ステップS36で選択した、「単位」のX軸キーワードと一致する文字列を帳票のイメージデータ21から検索する。次に、ステップS38で、特定部11が、「単位」のX軸キーワードと一致するX軸文字列が帳票のイメージデータ21から検索されたか否かを判定する。「単位」のX軸文字列が検索された場合には、処理はステップS39へ移行し、「単位」のX軸文字列が検索されなかった場合には、情報管理処理(図15)に戻る。
ステップS39では、特定部11が、「単位」のX軸文字列の左端のX座標をX軸開始位置、及び右端のX座標をX軸終了位置として取得し、取得した「単位」のX軸開始位置及びX軸終了位置の値をメモリ42に退避する。なお、帳票のイメージデータ21から、同一の「単位」のX軸文字列が複数検索された場合には、それらの「単位」のX軸文字列の各々について、X軸開始位置及びX軸終了位置の値をメモリ42に退避する。図17に示すCが、上記ステップS39で退避された値の一例であり、図17に示すDは、「単位」について、複数のX軸文字列が検索された場合の一例である。そして、処理は情報管理処理(図15)に戻る。
次に、情報管理処理のステップS50で、図18に示すY軸キーワード処理が実行される。
図18のステップS51で、特定部11が、Y軸キーワードマスタ23から、後述するステップS53及びS54の処理が未処理のY軸キーワードを1件選択する。
次に、ステップS52で、特定部11が、上記ステップS51で、Y軸キーワードを選択できたか、すなわち、未処理のY軸キーワードがY軸キーワードマスタ23に存在するか否かを判定する。未処理のY軸キーワードが存在する場合、処理はステップS53へ移行する。
ステップS53では、特定部11が、上記ステップS51で選択したY軸キーワードと一致するY軸文字列を帳票のイメージデータ21から検索する。次に、ステップS54で、特定部11が、Y軸文字列が帳票のイメージデータ21から検索されたか否かを判定する。Y軸文字列が検索された場合には、処理はステップS55へ移行し、Y軸文字列が検索されなかった場合には、処理はステップS51に戻る。
ステップS55では、特定部11が、検索されたY軸文字列の右端のX座標をX軸終了位置、上端のY座標をY軸開始位置、及び下端のY座標をY軸終了位置として取得する。そして、特定部11は、取得したX軸終了位置、Y軸開始位置、及びY軸終了位置の値をメモリ42に退避する。
図17に示すEが、上記ステップS55で退避された値の一例である。なお、図17の例では、Y軸文字列のX軸終了位置の「退避する値」の「xi,m」において、「xi」は検索されたY軸文字列のX軸終了位置(X座標)を表している。また、Y軸開始位置及びY軸終了位置の各々の「退避する値」の「yi,m」において、「yi」は検索された文字列のY軸開始位置(Y座標)又はY軸終了位置(Y座標)を表している。また、いずれの場合も「m」は、検索されたY軸文字列に対応するY軸キーワードのY軸キーワードマスタ23におけるキーワードSEQである。そして、処理は情報管理処理(図15)に戻る。
次に、情報管理処理のステップS60で、図19に示す読取処理が実行される。
図19のステップS61で、特定部11が、メモリ42に退避された「値」のX軸文字列のX軸開始位置の値が2つ以上存在するか否かを判定する。2つ以上存在する場合には、処理はステップS62へ移行し、1つのみの場合には、処理はステップS63へ移行する。
ステップS62では、特定部11が、2つ以上のX軸開始位置のうち、上記Y軸キーワード処理(図18)のステップS55でメモリ42に退避された、Y軸文字列のX軸終了位置より大きく、かつY軸文字列のX軸終了位置に最も近いX軸開始位置を選択する。
次に、ステップS63で、特定部11が、メモリ42に退避された、「値」のX軸開始位置及びX軸終了位置に対応付けられているキーワードSEQをキーに、X軸キーワードマスタ22から、開始X軸調整幅及び終了X軸調整幅を取得する。この際、上記ステップS62でX軸開始位置が選択されている場合には、選択されたX軸開始位置と、選択されたX軸開始位置と同じ通し番号が付与されてメモリ42に退避されているX軸終了位置とを用いる。そして、特定部11が、X軸開始位置の前とX軸終了位置の後に、取得した調整幅を余白として加え、読取領域のX軸方向の範囲として特定する。
同様に、特定部11が、メモリ42に退避された、Y軸開始位置及びY軸終了位置に対応付けられているキーワードSEQをキーに、Y軸キーワードマスタ23から、開始Y軸調整幅及び終了Y軸調整幅を取得する。そして、特定部11が、Y軸開始位置の前とY軸終了位置の後に、取得した調整幅を余白として加え、読取領域のY軸方向の範囲として特定する。特定部11は、X軸方向の範囲及びY軸方向の範囲を特定することにより、図7に示すように、読取領域を特定する。
次に、ステップS64で、読取部12が、上記ステップS63で特定された読取領域の情報を読み取る。読取部12は、その読取領域のY軸方向の範囲の特定に用いられたY軸キーワードに対応する項目IDをY軸キーワードマスタ23から取得し、取得した項目IDと、読取結果とを対応付けて、メモリ42に退避する(例えば、図17のF)。そして、処理は情報管理処理(図15)に戻る。
次に、情報管理処理のステップS70で、図20に示す単位変換処理が実行される。
図20のステップS71で、特定部11が、「単位」のX軸文字列のX軸開始位置が、メモリ42に退避されているか否かを判定する。退避されている場合には、処理はステップS72へ移行し、退避されていない場合には、処理はステップS78へ移行する。
ステップS72では、特定部11が、メモリ42に退避された「単位」のX軸文字列のX軸開始位置の値が2つ以上存在するか否かを判定する。2つ以上存在する場合には、処理はステップS73へ移行し、1つのみの場合には、処理はステップS74へ移行する。
次にステップS73及びS74で、上記読取処理(図19)のステップS62及びS63と同様に読取領域を特定する。次に、ステップS75で、読取部12が、上記ステップS74で特定された読取領域から、単位の情報を読み取る。
次に、ステップS76で、読取部12が、読取領域のY軸方向の範囲の特定に用いられたY軸キーワードに対応する項目IDをY軸キーワードマスタ23から取得し、取得した項目IDに対応する単位変換ルールが単位変換マスタ25に存在するか否かを判定する。対応する単位変換ルールが存在する場合には、処理はステップS77へ移行し、存在しない場合には、処理はステップS78へ移行する。
ステップS77では、上記ステップS75で読み取った単位が、単位変換ルールの「読取単位」と一致する場合には、読取部12が、その単位変換ルールの「変換係数」を、メモリ42に退避している読取結果の値(図17のF)に乗算する。そして、読取部12が、メモリ42に退避している読取結果の値を書き換える。これにより、読取部12は、上記読取処理(図19)のステップS64で読み取った値の単位変換を行う。
次に、ステップS78で、表示制御部13が、メモリ42に退避した読取結果を、画面表示マスタ26において対応する項目IDの欄に設定する。そして、処理はY軸キーワード処理(図18)のステップS51に戻り、次の項目についての情報の読み取りが行われる。
Y軸キーワード処理(図18)のステップS52で、Y軸キーワードマスタ23内の全てのY軸キーワードの処理が終了したと判定された場合には、情報管理処理(図15)に戻る。
次に、情報管理処理のステップS90で、図21に示す判定処理が実行される。
図21のステップS91で、表示制御部13が、画面表示マスタ26に基づいて、例えば、図12に示すような読取結果画面30を表示装置に表示する。
次に、ステップS92で、判定部14が、情報の変化が少ない項目として予め定めた項目(例えば、項目「身長」)について、その項目について読み取られた情報と、既に管理マスタ27に記憶されている過去の情報とを比較する。
次に、ステップS93で、判定部14が、今回読み取られた特定項目の値と、管理マスタ27に記憶されている同一ユーザについての特定項目の値との差が、予め定めた閾値以上か否かを判定する。差が閾値以上の場合には、処理はステップS94へ移行し、差が閾値未満の場合には、処理はステップS95へ移行する。
ステップS94では、判定部14が、例えば、読取結果画面30の警告表示領域32に、読み取りが正確に行われていない可能性があることを示すメッセージを表示する。
次に、ステップS95で、記憶制御部15が、読取結果画面30の読取結果一覧31に修正可能に表示された各項目の値に対する修正を受け付ける。読取結果画面30の確定ボタン33が選択されると、次のステップS96で、記憶制御部15が、読取結果画面30に表示された情報群を、管理マスタ27に記憶し、情報管理処理は終了する。
以上説明したように、本実施形態に係る情報管理装置によれば、複数の項目の各々について複数の情報が記載された帳票を取り込んだ帳票のイメージデータから、読取対象の情報を読み取る読取領域を特定する。この際、複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、項目を示す文字列とに基づいて、読取領域を特定する。そのため、帳票毎に読取領域を事前に定義することなく、帳票から必要な情報を読み取ることができる。
なお、上記実施形態では、読取対象の情報が記載された領域を特定するための特徴として、読取対象の情報に関連する文字列を用いる場合について説明したが、これに限定されない。例えば、図22に示すように、帳票において、他の箇所とは異なる背景が施された部分(図22の網掛け部分)の情報を読み取りたい場合には、その背景が施されている領域のX軸方向の幅に基づいて、読取領域のX軸方向の範囲を特定してもよい。同様に、図23に示すように、帳票において、他の箇所とは異なる罫線が施された部分の情報を読み取りたい場合には、その罫線で囲まれた範囲のX軸方向の幅に基づいて、読取領域のX軸方向の範囲を特定してもよい。
また、上記実施形態では、読み取りたい情報が記載された部分以外から、X軸文字列及びY軸文字列が検索された場合であっても、そのX軸文字列及びY軸文字列に基づいて読取領域が特定されてしまう。例えば、図24に示すように、健康診断結果報告書などで所見が記載されている欄からX軸文字列及びY軸文字列が検索される場合もある。このような場合への対策として、X軸文字列及びY軸文字列の検索を、帳票内の予め定めた領域に限定するようにしてもよい。また、検索された文字列の前後(左右)に他の文字列が隣接している場合には、その検索された文字列は、X軸文字列又はY軸文字列の対象外とするようにしてもよい。
また、上記実施形態では、複数の項目が行に対応し、複数の項目の各々についての複数の情報が列に対応している場合について説明したが、行と列とが反対でも開示の技術を適用することができる。この場合、上記実施形態のX軸とY軸とを読み替えればよい。
また、1つの帳票が2頁以上で構成されている場合も、開示の技術を適用可能である。この場合、上記実施形態における情報管理処理(図15)のステップS20で、まず1頁目について、帳票のイメージデータを取得し、以降のステップS30〜S70を実行する。そして、Y軸キーワード処理(図18)のステップS52で否定判定された場合に、ステップS20に戻って、2頁目の帳票のイメージデータを取得し、以降の処理を繰り返せばよい。なお、X軸キーワード処理のステップS32で否定判定された場合も、ステップS20に戻るようにすればよい。そして、全頁についてステップS70まで処理が終了した場合に、ステップS90へ移行すればよい。
また、1つの帳票が2頁以上で構成されている場合の他の方法として、2頁以上の帳票を取り込んだイメージデータを結合して、1つのイメージデータとした上で、上記実施形態と同様に情報管理処理を実行するようにしてもよい。
また、上記実施形態では、検索された文字列の座標に調整幅を加えて読取領域を特定する場合について説明したが、これに限定されない。例えば、検索された文字列の周辺の画像特徴を利用して、X軸方向及びY軸方向の範囲を特定してもよい。例えば、検索された文字列の周辺が、図22に示すように背景色で区切られている場合や、図23に示すように罫線で囲まれている場合には、この背景色の区切りや罫線で囲まれた範囲を利用して、X軸方向及びY軸方向の範囲を特定することができる。
また、上記実施形態では、読取結果を一旦表示して修正を受け付けた上で管理マスタに記憶する場合について説明したが、読取結果をそのまま管理マスタに記憶するようにしてもよい。この場合、表示制御部13、判定部14、及び画面表示マスタ26を省略することができる。
また、上記実施形態では、情報管理プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD−ROM、DVD−ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の項目の各々について複数の情報が記載された帳票から、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて、前記帳票における前記読取対象の情報を読み取る読取領域を特定し、
前記帳票における特定した前記読取領域から情報を読み取り、
読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する
ことを含む処理をコンピュータに実行させるための情報管理プログラム。
(付記2)
前記特徴は、前記読取対象の情報に関連する文字列、領域の背景色、又は罫線の種類である付記1に記載の情報管理プログラム。
(付記3)
前記特徴を示す領域のX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する付記1又は付記2に記載の情報管理プログラム。
(付記4)
前記特徴に対応したX軸方向の範囲が2以上特定された場合、前記項目を示す文字列を含む領域のX軸の座標及びY軸方向の範囲を特定し、前記特徴に対応した2以上のX軸方向の範囲のうち、前記項目を示す文字列を含む領域のX軸の座標に最も近いX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する付記3に記載の情報管理プログラム。
(付記5)
前記特徴が前記読取対象の情報に関連する文字列の場合、前記文字列の幅に、前記文字列の数に応じた余白を加えた範囲を、前記特徴を示す領域のX軸方向の範囲として特定する付記3又は付記4に記載の情報管理プログラム。
(付記6)
前記読取領域から、前記読取対象の情報として、値及び単位を読み取り、読み取った前記単位を他の単位に変換すると共に、読み取った前記値を、変換した単位に応じて変更する付記1〜付記5のいずれか1項に記載の情報管理プログラム。
(付記7)
情報の変化が少ない項目として予め定めた項目について、前記項目について読み取られた情報と、既に記憶されている過去の情報と比較することにより、前記読取領域の特定の精度を判定することをさらに含む処理を前記コンピュータに実行させるための付記1〜付記6のいずれか1項に記載の情報管理プログラム。
(付記8)
複数の項目の各々について複数の情報が記載された帳票から、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて、前記帳票における前記読取対象の情報を読み取る読取領域を特定する特定部と、
前記帳票における特定した前記読取領域から情報を読み取る読取部と、
読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する記憶制御部と、
を含む情報管理装置。
(付記9)
前記特徴は、前記読取対象の情報に関連する文字列、領域の背景色、又は罫線の種類である付記8に記載の情報管理装置。
(付記10)
前記特定部は、前記特徴を示す領域のX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する付記8又は付記9に記載の情報管理装置。
(付記11)
前記特定部は、前記特徴に対応したX軸方向の範囲が2以上特定された場合、前記項目を示す文字列を含む領域のX軸の座標及びY軸方向の範囲を特定し、前記特徴に対応した2以上のX軸方向の範囲のうち、前記項目を示す文字列を含む領域のX軸の座標に最も近いX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する付記10に記載の情報管理装置。
(付記12)
前記特定部は、前記特徴が前記読取対象の情報に関連する文字列の場合、前記文字列の幅に、前記文字列の数に応じた余白を加えた範囲を、前記特徴を示す領域のX軸方向の範囲として特定する付記10又は付記11に記載の情報管理装置。
(付記13)
前記読取部は、前記読取領域から、前記読取対象の情報として、値及び単位を読み取り、読み取った前記単位を他の単位に変換すると共に、読み取った前記値を、変換した単位に応じて変更する付記8〜付記12のいずれか1項に記載の情報管理装置。
(付記14)
情報の変化が少ない項目として予め定めた項目について、前記項目について読み取られた情報と、既に記憶されている過去の情報と比較することにより、前記読取領域の特定の精度を判定する判定部をさらに含む付記8〜付記13のいずれか1項に記載の情報管理装置。
(付記15)
複数の項目の各々について複数の情報が記載された帳票から、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて、前記帳票における前記読取対象の情報を読み取る読取領域を特定し、
前記帳票における特定した前記読取領域から情報を読み取り、
読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する
ことを含む処理をコンピュータが実行する情報管理方法。
(付記16)
前記特徴は、前記読取対象の情報に関連する文字列、領域の背景色、又は罫線の種類である付記15に記載の情報管理方法。
(付記17)
前記特徴を示す領域のX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する付記15又は付記16に記載の情報管理方法。
(付記18)
前記特徴に対応したX軸方向の範囲が2以上特定された場合、前記項目を示す文字列を含む領域のX軸の座標及びY軸方向の範囲を特定し、前記特徴に対応した2以上のX軸方向の範囲のうち、前記項目を示す文字列を含む領域のX軸の座標に最も近いX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する付記17に記載の情報管理方法。
(付記19)
前記特徴が前記読取対象の情報に関連する文字列の場合、前記文字列の幅に、前記文字列の数に応じた余白を加えた範囲を、前記特徴を示す領域のX軸方向の範囲として特定する付記17又は付記18に記載の情報管理方法。
(付記20)
前記読取領域から、前記読取対象の情報として、値及び単位を読み取り、読み取った前記単位を他の単位に変換すると共に、読み取った前記値を、変換した単位に応じて変更する付記15〜付記19のいずれか1項に記載の情報管理方法。
10 情報管理装置
11 特定部
12 読取部
13 表示制御部
14 判定部
15 記憶制御部
21 帳票のイメージデータ
22 X軸キーワードマスタ
23 Y軸キーワードマスタ
24 項目マスタ
25 単位変換マスタ
26 画面表示マスタ
27 管理マスタ
30 読取結果画面
40 コンピュータ
41 CPU
42 メモリ
43 記憶部
49 記憶媒体
50 情報管理プログラム

Claims (9)

  1. 複数の項目の各々について複数の情報が記載された帳票から、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて、前記帳票における前記読取対象の情報を読み取る読取領域を特定し、
    前記帳票における特定した前記読取領域から情報を読み取り、
    読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する
    ことを含む処理をコンピュータに実行させるための情報管理プログラム。
  2. 前記特徴は、前記読取対象の情報に関連する文字列、領域の背景色、又は罫線の種類である請求項1に記載の情報管理プログラム。
  3. 前記特徴を示す領域のX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する請求項1又は請求項2に記載の情報管理プログラム。
  4. 前記特徴に対応したX軸方向の範囲が2以上特定された場合、前記項目を示す文字列を含む領域のX軸の座標及びY軸方向の範囲を特定し、前記特徴に対応した2以上のX軸方向の範囲のうち、前記項目を示す文字列を含む領域のX軸の座標に最も近いX軸方向の範囲と、前記項目を示す文字列を含む領域のY軸方向の範囲とに基づいて、前記読取領域を特定する請求項3に記載の情報管理プログラム。
  5. 前記特徴が前記読取対象の情報に関連する文字列の場合、前記文字列の幅に、前記文字列の数に応じた余白を加えた範囲を、前記特徴を示す領域のX軸方向の範囲として特定する請求項3又は請求項4に記載の情報管理プログラム。
  6. 前記読取領域から、前記読取対象の情報として、値及び単位を読み取り、読み取った前記単位を他の単位に変換すると共に、読み取った前記値を、変換した単位に応じて変更する請求項1〜請求項5のいずれか1項に記載の情報管理プログラム。
  7. 情報の変化が少ない項目として予め定めた項目について、前記項目について読み取られた情報と、既に記憶されている過去の情報と比較することにより、前記読取領域の特定の精度を判定することをさらに含む処理を前記コンピュータに実行させるための請求項1〜請求項6のいずれか1項に記載の情報管理プログラム。
  8. 複数の項目の各々について複数の情報が記載された帳票から、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて、前記帳票における前記読取対象の情報を読み取る読取領域を特定する特定部と、
    前記帳票における特定した前記読取領域から情報を読み取る読取部と、
    読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する記憶制御部と、
    を含む情報管理装置。
  9. 複数の項目の各々について複数の情報が記載された帳票から、前記複数の情報の中で読取対象の情報が記載された領域を特定するための特徴と、前記複数の項目のそれぞれを示す文字列とに基づいて、前記帳票における前記読取対象の情報を読み取る読取領域を特定し、
    前記帳票における特定した前記読取領域から情報を読み取り、
    読み取った前記情報を、前記項目を示す文字列と対応付けて、記憶部に記憶する
    ことを含む処理をコンピュータが実行する情報管理方法。
JP2018047160A 2018-03-14 2018-03-14 情報管理プログラム、装置、及び方法 Pending JP2019159945A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018047160A JP2019159945A (ja) 2018-03-14 2018-03-14 情報管理プログラム、装置、及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018047160A JP2019159945A (ja) 2018-03-14 2018-03-14 情報管理プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
JP2019159945A true JP2019159945A (ja) 2019-09-19

Family

ID=67993477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018047160A Pending JP2019159945A (ja) 2018-03-14 2018-03-14 情報管理プログラム、装置、及び方法

Country Status (1)

Country Link
JP (1) JP2019159945A (ja)

Similar Documents

Publication Publication Date Title
US6289254B1 (en) Parts selection apparatus and parts selection system with CAD function
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US9760347B2 (en) Method and system to identify GUI objects for non-markup-language-presented applications
US10963717B1 (en) Auto-correction of pattern defined strings
US8489568B2 (en) Data acquisition apparatus and data acquisition method
US20170132484A1 (en) Two Step Mathematical Expression Search
US20100257208A1 (en) System and method for structuring data in a storage device
US8526744B2 (en) Document processing apparatus and computer readable medium
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP5634374B2 (ja) 仕様作成支援装置、及び、プログラム
JP5229102B2 (ja) 帳票検索装置、帳票検索プログラムおよび帳票検索方法
JP2019159945A (ja) 情報管理プログラム、装置、及び方法
JPWO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP2019169182A (ja) 情報処理装置、制御方法、プログラム
US10445320B2 (en) Document search apparatus, non-transitory computer readable medium, and document search method
JP4558369B2 (ja) 情報抽出システム、情報抽出方法、コンピュータプログラム
JP4888179B2 (ja) 回路ブロック検出装置、その方法及びプログラム
JP2020113002A (ja) 表示比較プログラム、装置、及び方法
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JP6303531B2 (ja) 画像処理装置及び画像処理プログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP7283257B2 (ja) Ocr認識結果確認支援プログラム、ocr認識結果確認支援方法およびocr認識結果確認支援システム
JP7076173B2 (ja) 文書管理装置および文書管理システム
KR20220165515A (ko) 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법