JP2007058624A - 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2007058624A
JP2007058624A JP2005243715A JP2005243715A JP2007058624A JP 2007058624 A JP2007058624 A JP 2007058624A JP 2005243715 A JP2005243715 A JP 2005243715A JP 2005243715 A JP2005243715 A JP 2005243715A JP 2007058624 A JP2007058624 A JP 2007058624A
Authority
JP
Japan
Prior art keywords
attribute
data
area unit
image data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005243715A
Other languages
English (en)
Inventor
Atsushi Ito
篤 伊藤
Etsuko Ito
悦子 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005243715A priority Critical patent/JP2007058624A/ja
Publication of JP2007058624A publication Critical patent/JP2007058624A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 OCRなどによって取得されたテキストデータと画像データを関連付けて管理し、利用しやすいデータ提示を可能とした情報処理装置を提供する。
【解決手段】 画像データのデータ領域各々に対応する属性識別子に基づいて設定される属性領域に対応する画像を切り出して、属性領域単位画像データを生成し、属性領域単位画像データに対応する画像のテキスト化処理を実行して属性領域単位テキストデータを生成する。さらに、生成した属性領域単位画像データと属性領域単位テキストデータとを関連付けてデータベースに格納する。特定の属性領域単位テキストデータを指定することで、その属性領域単位テキストデータに対応する属性領域単位画像データをディスプレイなどの出力手段に出力することが可能となり、テキストの正誤判定や修正処理を、画像データを参照して行なうことが可能となる。
【選択図】 図1

Description

本発明は、情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。さらに詳細には、文書を含む画像データの読み取り処理およびテキスト化処理を行なうとともに、属性データに基づく分類を行なったテキストデータを生成し、各分類テキストデータに対応する画像データを関連付けて管理する構成とすることで、ユーザにとって利用し易いデータの提示を可能とした情報処理装置、および情報処理方法、並びにコンピュータ・プログラムに関する。
例えばユーザが手書きによって作成した文書、あるいは、プリンタやFAXなどから出力したドキュメント、あるいはこれらのドキュメントの編集文書などをデータベースに保管し管理する場合、スキャナによる文書読み取り画像を保管データとして管理する場合がある。さらに、高度な文書管理処理として、スキャナによって読み取られる文書領域毎の属性を取得して、属性毎に画像領域を分類した後に、OCR(Optical Character Recognition)によるテキスト化処理を行なう構成が提案されている。
例えば特許文献1には、文書領域毎の識別情報に基づく分類処理構成が開示され、特許文献2には、文書データのレイアウトに含まれる文字に基づく分類を行ないある項目に合致する文書集合を提示するなどの処理を可能とした構成を開示している。また、特許文献3には、OCRによる認識制度の低いと判定される領域を選択して画像表示して、ユーザによる修正を可能とした構成を開示している。
特開平05−342326号公報 特開2002−123815号公報 特開平08−96075号公報
上述したように、文書情報を読み取り、データベースに格納して管理する構成において、属性識別を行なって文書情報を分類して管理する手法が提案されているが、属性毎にテキスト化する際のOCRの精度には限界があり、データ精度を高めるためには、人間の介入による修正が必要となる。
多くの場合、人間が文書画像とテキスト化結果を目視等で比較し、テキストを修正することが行なわれる。その際、OCR処理されたテキストデータと、読み取り画像データの比較が必要となる。しかし、OCR処理されたテキストデータが、スキャナによって読み取られた画像のどの部分に対応するのかを見つけるのは、非常に時間のかかる処理であり、処理を実行するオペレータやユーザの負担が大きく、また処理効率が低下することになる。
また、OCR処理によって、テキスト化されてデータベースに格納された後に、そのテキストデータを読み出して、OCR処理の誤りに気がついた場合や、再度、原本画像を確認したい場合などにおいて、そのテキストに対応する原本およびその原本における対応データ位置を探し出すことは困難である場合が多い。
本発明は、このような問題点に鑑みてなされたものであり、文書情報のスキャン画像などの画像データの管理において、テキスト化処理を行なうとともに、属性データに基づくデータ分類を行ない、テキストデータと対応する文書画像情報を関連付けて管理し、必要に応じてテキストに対応する画像情報を即座にユーザに提示することを可能とし、利用し易いデータ処理、データ管理構成を実現する情報処理装置、および情報処理方法、並びにコンピュータ・プログラムを提供することを目的とする。
本発明の第1の側面は、
情報処理装置であり、
画像データに含まれるデータ領域各々に対応する属性識別子を抽出する属性識別子抽出手段と、
前記属性識別子抽出手段の抽出した属性識別子に基づいて、前記データ領域対応の属性を判定する属性判定手段と、
前記属性判定手段の属性判定処理において抽出された属性が対応付けられた属性領域に対応する画像を属性領域単位画像データとして切り出す画像切り出し手段と、
前記属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成する画像テキスト化処理手段と、
前記属性領域単位画像データと、該属性領域単位画像データに対応する属性領域単位テキストデータとを関連付けるデータ関連付け手段と、
前記データ関連付け手段において関連付けられた前記属性領域単位画像データと、属性領域単位テキストデータとを格納するデータベースと、
を有することを特徴とする情報処理装置にある。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、画像データのレイアウト解析処理を実行するレイアウト解析手段を有し、前記属性識別子抽出手段は、前記レイアウト解析手段の処理結果として区分されたデータ領域各々に対応する属性識別子を抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータを検索して出力手段に出力するデータ検索手段を有し、前記データ検索手段は、属性領域単位テキストデータの指定情報の入力に応じて、該属性領域単位テキストデータに関連付けられて前記データベースに格納された属性領域単位画像データを抽出して、出力手段に出力する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記画像切り出し手段は、属性領域に対応する属性領域単位画像データを個別の画像データファイルとして生成する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記画像テキスト化処理手段は、属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成するとともに、属性に基づく分類テキストデータファイルを生成する処理を実行する構成であることを特徴とする。
さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、さらに、ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータの編集処理を実行し、該編集データをデータベースに格納する処理を実行するデータ編集手段を有することを特徴とする。
さらに、本発明の第2の側面は、
情報処理方法であり、
画像データに含まれるデータ領域各々に対応する属性識別子を抽出する属性識別子抽出ステップと、
前記属性識別子抽出ステップにおいて抽出した属性識別子に基づいて、前記データ領域対応の属性を判定する属性判定ステップと、
前記属性判定ステップにおける属性判定処理において抽出された属性が対応付けられた属性領域に対応する画像を属性領域単位画像データとして切り出す画像切り出しステップと、
前記属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成する画像テキスト化処理ステップと、
前記属性領域単位画像データと、該属性領域単位画像データに対応する属性領域単位テキストデータとを関連付けるデータ関連付けステップと、
前記データ関連付けステップにおいて関連付けられた前記属性領域単位画像データと、属性領域単位テキストデータとをデータベースに格納するデータ格納ステップと、
を有することを特徴とする情報処理方法にある。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、画像データのレイアウト解析処理を実行するレイアウト解析ステップを有し、前記属性識別子抽出ステップは、前記レイアウト解析ステップにおける処理結果として区分されたデータ領域各々に対応する属性識別子を抽出する処理を実行することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータを検索して出力手段に出力するデータ検索ステップと、属性領域単位テキストデータの指定情報の入力に応じて、該属性領域単位テキストデータに関連付けられて前記データベースに格納された属性領域単位画像データを抽出して、出力手段に出力するステップと、を有することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記画像切り出しステップは、属性領域に対応する属性領域単位画像データを個別の画像データファイルとして生成する処理を実行するステップを含むこと特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記画像テキスト化処理ステップは、属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成するとともに、属性に基づく分類テキストデータファイルを生成する処理を実行することを特徴とする。
さらに、本発明の情報処理方法の一実施態様において、前記情報処理方法は、さらに、ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータの編集処理を実行し、該編集データをデータベースに格納する処理を実行するデータ編集ステップを有することを特徴とする。
さらに、本発明の第3の側面は、
情報処理装置においてデータ処理を実行させるコンピュータ・プログラムであり、
画像データに含まれるデータ領域各々に対応する属性識別子を抽出する属性識別子抽出ステップと、
前記属性識別子抽出ステップにおいて抽出した属性識別子に基づいて、前記データ領域対応の属性を判定する属性判定ステップと、
前記属性判定ステップにおける属性判定処理において抽出された属性が対応付けられた属性領域に対応する画像を属性領域単位画像データとして切り出す画像切り出しステップと、
前記属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成する画像テキスト化処理ステップと、
前記属性領域単位画像データと、該属性領域単位画像データに対応する属性領域単位テキストデータとを関連付けるデータ関連付けステップと、
前記データ関連付けステップにおいて関連付けられた前記属性領域単位画像データと、属性領域単位テキストデータとをデータベースに格納するデータ格納ステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、画像データに含まれるデータ領域各々に対応する属性識別子を抽出し、抽出した属性識別子に基づいて、データ領域対応の属性を判定し、属性領域に対応する画像を切り出して、属性領域単位画像データを生成するとともに、属性領域単位画像データに対応する画像のテキスト化処理を実行して属性領域単位テキストデータを生成し、生成した属性領域単位画像データと属性領域単位テキストデータとを関連付けて、データベースに格納する構成とした。データベースの格納データを表示して利用するユーザは、特定の属性領域単位テキストデータを指定することで、その属性領域単位テキストデータに対応する属性領域単位画像データをディスプレイなどの出力手段に出力させることが可能となり、ユーザは、テキストの正誤判定や、修正処理を、オリジナルの対応画像データを参照して効率的に行なうことが可能となる。
以下、図面を参照しながら本発明の実施形態に係る情報処理装置、および情報処理方法、並びにコンピュータ・プログラムの詳細について説明する。
まず、図1を参照して、本発明の情報処理装置の実行する処理について説明する。図1に示す情報処理装置100は、スキャナなどの画像読み取り処理を実行する機器画像データ読み取り手段101とPCなどのデータ処理手段102を有する。
データ処理手段102には、画像データ読み取り手段101の読み取り画像データが入力される。例えば図1に示すスキャン画像データ10である。スキャン画像データには、スキャン画像の構成データの分類に適用可能な属性識別子情報が付与されている。例えば、日付データ12、あるいはデータ属性を示すコード情報13としての[S]、[O]、[A]、[P]である。
本実施例では、スキャン画像を医師の作成するカルテを想定している。例えば、電子カルテシステムでは、カルテ情報を効率的に入力するための入力支援が求められている。このようなカルテ作成処理においては、記載データを予め客観的な分類データとして記載することが求められており、その1つの手法として、SOAP方式が提案されている。
SOAPは、例えば以下のデータに対応付けられコード情報である。
[S]は、Subjectiveデータであり、患者が直接提供する主観的データに対応付けられるコード情報である。
[O]は、Objectiveデータであり、医師や看護婦が取得する客観的データに対応付けられるコード情報である。
[A]は、Assessmentデータであり、医師や看護婦の判断データに対応付けられるコード情報である。
[P]は、Planデータであり、診断や、治療、あるいは教育などのスケジュール情報などのデータに対応付けられるコード情報である。
図1に示すスキャン画像データ10には、スキャン画像の構成データの分類に適用可能な属性識別子情報として、上述の[S]、[O]、[A]、[P]のコード情報13と、日付データ12が記録されている。
情報処理装置100のデータ処理手段は、スキャン画像10を入力すると、入力画像データに対するデータ処理を実行する。例えばレイアウト解析、属性識別子抽出処理、各構成データの属性識別子に基づく分類、各構成データのOCRなどによるテキスト化処理、テキストデータの属性識別子に基づく分類処理、分類テキストデータと、対応画像データの関連付け処理、データ格納処理、データ表示処理などを実行する。なお、これらのデータ処理の詳細については後段で説明する。
情報処理装置100が実行した入力画像に基づく処理データには、入力画像データに基づく属性分類されたテキストデータと、各属性領域単位テキストデータに対応する画像データとが含まれ、これらのデータは、情報処理装置100内のデータベース103に格納される。
情報処理装置100は、例えば、ユーザからのデータ提示要求をキーボードなどの入力手段から入力すると、データベース103内に格納されたデータをユーザの要求に基づいて検索、抽出し、ディスプレイに提示する。
ディスプレイの表示データは、例えば、図1に示すディスプレイ表示例20のようなデータとなる。表示データには、属性領域単位テキストデータ21が含まれる。属性領域単位テキストデータは、スキャン画像データ10に含まれる属性識別子に基づいて、スキャン画像データ10の各構成データのテキストデータを分類したデータである。
先に説明したように、スキャン画像データ10には日付データ12と、コード情報13が、属性識別子として設定され、情報処理装置100では、これらの属性識別子に基づいてスキャン画像データの構成データについてのテキスト化データを分類し、データベース103に格納している。情報処理装置100は、このデータベース格納データとしての属性領域単位テキストデータ21をディスプレイに出力する。
属性領域単位テキストデータ21は、属性識別子(日付データ)22と、属性識別子(SOAPコード情報)23とに基づいて分類されたテキストデータとして提示される。例えばユーザの指定したカーソル31の位置するテキストデータ32は、
属性識別子(日付データ)=[2005−03−27]、
属性識別子(SOAPコード情報)=[O]
のデータであり、スキャン画像データ10の構成データ15に基づくテキスト化データである。
ユーザがこのテキストデータ32に対してカーソル31を移動させて、所定のコマンドを出力、例えば、コマンドメニューを提示させて画像出力要求コマンドをクリックするなどの処理を実行すると、このテキストデータ32に対応する画像データファイルとしてデータベース103に格納されたデータが読み出され、画像データ表示領域25に表示される。
画像データ表示領域25に表示された画像データは、スキャン画像データ10の構成データ15に対応する画像データであり、OCRなどによるテキスト化されていない原本画像データである。ユーザまたはオペレータは、この画像データ表示領域25に表示された画像データを参照して、属性領域単位テキストデータ21に提示されたテキストデータ32が正しいOCR処理がなされ正確なテキストデータとして処理格納されているか否かを確認することができ、もし不正確なテキスト化部分がある場合は、テキストデータ32の編集処理を行なうことができる。
このように、本発明の情報処理装置100では、スキャン画像の構成データを属性識別子に基づいて分類して、分類データ毎にテキスト化処理を実行して属性領域単位テキストデータを生成するとともに、各属性領域単位テキストデータに対応する画像データを各分類テキストデータに対応付けた画像データファイルとしてデータベースに格納する。さらにディスプレイ表示されたテキストデータに対する指定情報の入力に基づいて、属性領域単位テキストデータに対応する画像データを表示する構成としたので、ユーザは、テキストデータの正当性を容易に確認することが可能となる。
次に、図2を参照して、本発明の情報処理装置100の実行する処理の詳細について説明する。図2は、本発明の情報処理装置100の実行する処理を説明する図であり、情報処理装置100の実行する処理を個別のブロックとして示したブロック図である。なお、情報処理装置100の実行するデータ処理は、情報処理装置100の有するハードウェアと、コンピュータ・プログラムを適用することによって実行されるものであり、図2に示す図は、これらの各処理を処理機能別のブロックとして示したブロック図である。なお、情報処理装置のハードウェア構成の具体例については、後段で説明する。
図2に示すブロック図に従って、本発明の情報処理装置の実行する処理について説明する。画像入力手段は、例えばスキャナなどによって読み取られた画像を入力する画像データ入力部である。情報処理装置に接続されたスキャナを介するデータ入力の他、例えばネットワークを介した他の情報処理装置からの転送画像を入力するなど、入力態様は、様々な設定が可能である。
レイアウト解析手段202は、画像入力手段において入力された画像データのレイアウト解析を実行する。なお、入力画像データに属性情報としてレイアウト情報が含まれる場合は、その情報を適用してもよい。レイアウト情報が含まれない場合は、入力画像データに基づいてレイアウト解析を実行する。レイアウト解析手段202におけるレイアウト解析は、文字領域、写真領域などの領域解析など、入力画像データの構成データについての配置情報および構成データ内容解析が含まれる。
例えば、図3に示すように、入力画像データに含まれる文字領域、写真領域などの領域が解析され、図3に示すように、領域251、領域252などからなるレイアウト単位が解析、抽出される。
属性識別子抽出手段203は、レイアウト解析手段202のレイアウト解析結果を入力し、レイアウト解析によって抽出された各領域内に含まれる属性識別子を特定、抽出する。なお、抽出する属性識別子の種類については、予め情報処理装置に登録しておく。本処理例では、日付情報、SOAPのコード情報が抽出すべき属性識別子として登録されているものとする。属性識別子抽出手段203は、レイアウト解析手段202のレイアウト解析結果として得られた各領域内に日付情報、SOAPのコード情報が含まれる場合、これらの属性識別子を特定、抽出する。
属性判定手段204は、属性識別子抽出手段203が各領域から抽出した属性識別子に従って、各領域の属性を判定する。例えば図4に示す例において、領域271は、属性として、日付属性:2005−03−02、コード属性:Aを有するデータ領域であり、領域272は、属性として、日付属性:2005−03−14、コード属性:Oを有するデータ領域であり、領域273は、属性として、日付属性:2005−03−27、コード属性:Oを有するデータ領域であると判別される。なお複数の小領域を含む中領域や、大領域が存在する場合、小領域の属性を判別する場合にその小領域を含む中領域、大領域に設定された属性識別子が参照される。例えば図3に示す例では、小領域271の属性判断に際して、小領域を含む大領域270に設定された属性識別子としての日付属性:2005−03−02が、小領域271の属性として設定される。属性の設定された小領域を属性領域と呼ぶ。
次に、属性領域単位画像切り出し手段205は、処理対象となる画像データにおいて、レイアウト解析手段202が抽出した領域(属性領域)単位毎に画像データを切り分けて、各切り出し画像データに対応する画像データファイルを生成する。この場合は、小領域単位で、画像データの切り出しが実行され、各画像データに対応する画像データファイル(属性領域単位画像データファイル)が作成される。例えば図5に示すように、各属性領域毎の属性領域単位画像データファイル281〜290が作成される。
属性領域単位画像テキスト化処理手段206は、レイアウト解析手段202が抽出した各領域(属性領域)単位の画像データのテキスト化処理を実行する。例えばOCR処理により、各属性領域単位画像データファイル内の画像に含まれる文字情報を判別し、テキスト化処理を行なう。属性領域単位画像テキスト化処理手段206は、属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成するとともに、属性に基づく分類テキストデータファイルを生成する処理を実行する。
属性に基づく分類テキストデータファイルは、例えば、図6に示すように、各属性領域単位テキストデータを、属性識別子に基づいて分類した表データファイルであり、表の各エントリデータとして、属性領域単位テキストデータが設定される。
属性領域単位画像−テキスト関連付け手段207は、属性領域単位画像切り出し手段205の生成した各属性領域毎の属性領域単位画像データファイルと、属性領域単位画像テキスト化処理手段206の生成した各属性領域単位テキストデータの対応付け処理を実行する。
例えば、図7に示すように、各属性領域単位テキストデータを表ファイルの各エントリデータとして設定した分類テキストデータファイルの各エントリテキストデータのリンクデータとして、属性領域単位画像切り出し手段205の生成した属性領域単位画像データファイル281〜290を対応付ける処理を実行する。なお、属性領域単位テキストデータの指定に基づいて、対応する属性領域単位画像データが取得可能な設定であればよく、関連付けの態様は様々な設定が可能である。
次にデータベース格納手段208は、属性領域単位画像−テキスト関連付け手段207において関連付けのなされた属性領域単位テキストデータと属性領域単位画像データを含むデータファイルをデータベース209に格納する。ここまでの処理が入力画像データに基づく格納データの生成処理、格納処理である。
ユーザは、データベース209に格納されたデータを情報処理装置のデータ出力手段(図2のデータ出力手段212)に出力表示させることができる。例えば、ユーザは、ユーザ入力手段211において、各属性領域単位テキストデータを表ファイルの各エントリデータとして設定したデータファイルを指定してデータ表示を要求するコマンドをデータ検索手段210に入力すると、データ検査膜手段は、指定されたデータファイルを209から取得して、データ出力手段212に表示する。
この表示によって、例えば図8に示す属性領域単位テキストデータを表ファイルの各エントリデータとして設定した属性領域単位テキストデータ300が出力表示される。ユーザは、さらに、属性領域単位テキストデータ300に含まれる1つの属性領域単位テキストデータエントリ301の位置に、ユーザ入力手段211として利用されるマウスを適用してカーソル302を移動させて、所定のコマンドを出力、例えば、コマンドメニューを提示させて画像出力要求コマンドをクリックするなどの処理を実行すると、この属性領域単位テキストデータエントリ301に対応する画像データファイルとして関連付けられている画像ファイルがデータ検索手段210によって、データベース203から取得され、データ出力手段212としてのディスプレイに提示される。例えば図8に示す属性領域単位画像表示領域311に画像データが表示される。
属性領域単位画像表示領域311に表示された画像データは、属性領域単位テキストデータエントリ301に対応する画像データファイルとして関連付けられている属性領域単位画像ファイルに格納された画像データであり、OCRなどによるテキスト化されていない原本画像データである。ユーザまたはオペレータは、この属性領域単位画像表示領域311に表示された画像データを参照して、属性領域単位テキストデータエントリ301が正しいOCR処理がなされ正確なテキストデータであるか否かを確認することができ、もし不正確なテキスト化部分がある場合は、属性領域単位テキストデータエントリ301の編集処理を行なうことができる。
ユーザ入力手段211を介して、分類テキストデータの編集(変更、削除など)が行なわれた場合は、データ編集手段213は、データベース209に格納された分類テキストデータに編集結果を反映させるデータ編集処理を実行する。
次に、図9、図10に示すフローチャートを参照して、本発明の情報処理装置の実行する処理シーケンスについて説明する。図9のフローは、画像データの入力から保管データの作成、データベースに対する格納処理に至る処理シーケンスであり、図10のフローは、データベースに格納されたデータの利用処理に関するシーケンスを説明するフローチャートである。
まず、図9を参照して、画像データの入力から保管データの作成、データベースに対する格納処理に至る処理シーケンスについて説明する。ステップS101において、情報処理装置は、処理対象となる入力画像データ、例えばスキャン画像データに対するレイアウト解析処理を実行する。この処理は、図2に示すブロック図のレイアウト解析手段202の実行する処理であり、先に図3を参照して説明したように、領域251、領域252などからなるレイアウト単位が解析、抽出される。
ステップS102において、各領域内における属性識別子を特定し、抽出する。この処理は、図2に示すブロック図の属性識別子抽出手段203の処理であり、レイアウト解析によって抽出された各領域内に含まれる属性識別子を特定、抽出する。
ステップS103では、抽出した属性識別子に基づいて、各領域の属性を判定する。この処理は、図2に示すブロック図の属性判定手段204の処理であり、例えば先に図4を参照して説明したように、各領域271の属性、例えば、日付属性、コード属性などを判定する。
ステップS104では、レイアウト解析により得た領域画像を切り出し、属性領域単位画像データファイルを作成する。この処理は、図2のブロック図に示す属性領域単位画像切り出し手段205の処理であり、処理対象となる画像データにおいて、レイアウト解析手段202が抽出した領域(属性領域)単位毎に画像データを切り分けて、各切り出し画像データに対応する画像データファイルを生成する。例えば図5に示すように、各属性領域毎の属性領域単位画像データファイル281〜290が作成される。
次に、ステップS105において、各属性領域単位画像データ単位で文字認識処理を行い、ステップS106において、判定された属性と文字認識結果を用いて、属性領域単位テキストデータファイルを作成する。これらの処理は、図2のブロック図に示す属性領域単位画像テキスト化処理手段206の処理であり、レイアウト解析手段202が抽出した各領域(属性領域)単位の画像データのテキスト化処理を実行する。例えばOCR処理により、各属性領域単位画像データファイル内の画像に含まれる文字情報を判別し、テキスト化処理を行なう。例えば、図6に示すように、各属性領域単位テキストデータを表ファイルの各エントリデータとして設定したデータファイルを生成する。
次に、ステップS107において、属性に基づく分類テキストデータと、切り出し画像とを、関連付けたファイルとして格納する。これらの処理は、図2のブロック図に示す属性領域単位画像−テキスト関連付け手段207、データベース格納手段208の処理であり、属性領域単位画像−テキスト関連付け手段207は、例えば、図7に示すように、各属性領域単位テキストデータを表ファイルの各エントリデータとして設定したデータファイルの各エントリデータとして設定されたテキストデータに対するリンクデータとして、属性領域単位画像切り出し手段205の生成した各属性領域毎の属性領域単位画像データファイル281〜290を対応付ける処理を実行する。データベース格納手段208は、属性領域単位画像−テキスト関連付け手段207において関連付けのなされた属性領域単位テキストデータと属性領域単位画像データを含むデータファイルがデータベース209に格納する。
次に、データベースに格納されたデータの利用処理について、図10に示すフローチャートを参照して説明する。図10に示すフローのステップS201では、ユーザの指定した特定の属性領域単位テキストデータを含む表ファイルの表示を実行する。ユーザは、図2のブロック図に示すユーザ入力手段211において、各属性領域単位テキストデータを表ファイルの各エントリデータとして設定したデータファイルを指定してデータ表示を要求するコマンドをデータ検索手段210に入力すると、データ検査膜手段は、指定されたデータファイルを209から取得して、データ出力手段212に表示する。
ステップS202では、表示された属性領域単位テキストデータから、特定のテキストデータを指示した処理要求の入力がユーザからあったか否かを判定する。ユーザは、例えば図8に示す属性領域単位テキストデータ300の1つの属性領域単位テキストデータエントリ301の位置に、ユーザ入力手段211として利用されるマウスを適用してカーソル302を移動させて、画像出力要求を行なうことが可能である。
ステップS202において、特定のテキストデータを指示した処理要求の入力があったと判定した場合は、ステップS203に進み、指示された分類テキストデータの
対応画像をデータベースから取得して表示する。この処理は、図2に示すデータ検索手段210が実行する。この処理は、ユーザの指定したテキストデータの対応画像データファイルとして関連付けられている画像ファイルをデータベース203から取得し、データ出力手段212としてのディスプレイに表示する処理であり、例えば図8に示す属性領域単位画像表示領域311に画像データが表示される。
ステップS204では、分類テキストデータの編集(変更、削除など)の有無を判定する。前述したように、例えば図8に示す属性領域単位画像表示領域311に表示された画像データは、属性領域単位テキストデータエントリ301に対応する画像データファイルとして関連付けられている属性領域単位画像ファイルに格納された画像データであり、OCRなどによるテキスト化されていない原本画像データであるので、ユーザまたはオペレータは、この属性領域単位画像表示領域311に表示された画像データを参照して、属性領域単位テキストデータ301が正しいOCR処理がなされ正確なテキストデータであるか否かを確認することができ、もし不正確なテキスト化部分がある場合は、属性領域単位テキストデータエントリ301の編集処理を行なうことができる。
ステップS204において、分類テキストデータの編集(変更、削除など)が行なわれたと判定した場合は、ステップS205に進み、データベースに格納された分類テキストデータに編集結果を反映させるデータ編集処理を実行する。この処理は、図2に示すデータ編集手段213の処理として実行される。
最後に、図11を参照して、本発明の情報処理装置のハードウェア構成例について説明する。図11に示す構成は、例えばPCなどによって構成される情報処理装置であり、スキャナ等のデータ読み取り部531を備えたハード構成例を示している。
CPU(Central Processing Unit)501は、上述の実施例において説明した各種のデータ処理、すなわちレイアウト解析、属性判定、属性領域単位画像データ、属性領域単位テキストデータの作成、データ表示制御、データ検索、編集処理等の各処理の実行シーケンスを記述したコンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、入力された画像データや、属性領域対応の画像データ、テキスト化データなどを格納する。さらに、各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。リムーバブル記録媒体521も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部531は、ドキュメントの読み取り処理を実行する。
なお、図11に示す情報処理装置のハードウェア構成例は、1つの装置例を示すものであり、本発明の情報処理装置は、図11に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、画像データに含まれるデータ領域各々に対応する属性識別子を抽出し、抽出した属性識別子に基づいて、データ領域対応の属性を判定し、属性領域に対応する画像を切り出して、属性領域単位画像データを生成するとともに、属性領域単位画像データに対応する画像のテキスト化処理を実行して属性領域単位テキストデータを生成し、生成した属性領域単位画像データと属性領域単位テキストデータとを関連付けて、データベースに格納する構成とした。データベースの格納データを表示して利用するユーザは、特定の属性領域単位テキストデータを指定することで、その属性領域単位テキストデータに対応する属性領域単位画像データをディスプレイなどの出力手段に出力させることが可能となり、ユーザは、テキストの正誤判定や、修正処理を、オリジナルの対応画像データを参照して効率的に行なうことが可能となる。
本発明の情報処理装置を適用した処理の概要について説明する図である。 本発明の情報処理装置の処理機能を説明するブロック図である。 本発明の情報処理装置の実行するレイアウト解析について説明する図である。 本発明の情報処理装置の実行する属性判定処理について説明する図である。 本発明の情報処理装置の実行する属性領域単位画像ファイルの生成処理について説明する図である。 本発明の情報処理装置の表示する属性領域単位テキストデータファイルの例について説明する図である。 属性領域単位テキストデータと、属性領域単位画像ファイルとの関連付け処理例について説明する図である。 本発明の情報処理装置の表示する表示データ例について説明する図である。 本発明の情報処理装置の実行する処理シーケンスを説明するフローチャートを示す図である。 本発明の情報処理装置の実行する処理シーケンスを説明するフローチャートを示す図である。 本発明の情報処理装置のハードウェア構成例について説明する図である。
符号の説明
10 スキャン画像データ
12,13 属性識別子
15 構成データ
20 ディスプレイ表示例
21 属性領域単位テキストデータ
22,23 属性識別子
25 画像データ表示領域
31 カーソル
32 テキストデータ
100 情報処理装置
101 画像データ読み取り手段
102 データ処理手段
103 データベース
201 画像入力手段
202 レイアウト解析手段
203 属性識別子抽出手段
204 属性判定手段
205 属性領域単位画像切り出し手段
206 属性領域単位画像テキスト化処理手段
207 属性領域単位画像−テキスト関連付け手段
208 データベース格納手段
209 データベース
210 データ検索手段
211 ユーザ入力手段
212 データ出力手段
213 データ編集手段
251,252 領域
270〜273 領域
281〜290 属性領域単位画像データファイル
300 属性領域単位テキストデータ
301 属性領域単位テキストデータエントリ
302 カーソル
311 属性領域単位画像表示領域
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
531 データ読み取り部

Claims (13)

  1. 情報処理装置であり、
    画像データに含まれるデータ領域各々に対応する属性識別子を抽出する属性識別子抽出手段と、
    前記属性識別子抽出手段の抽出した属性識別子に基づいて、前記データ領域対応の属性を判定する属性判定手段と、
    前記属性判定手段の属性判定処理において抽出された属性が対応付けられた属性領域に対応する画像を属性領域単位画像データとして切り出す画像切り出し手段と、
    前記属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成する画像テキスト化処理手段と、
    前記属性領域単位画像データと、該属性領域単位画像データに対応する属性領域単位テキストデータとを関連付けるデータ関連付け手段と、
    前記データ関連付け手段において関連付けられた前記属性領域単位画像データと、属性領域単位テキストデータとを格納するデータベースと、
    を有することを特徴とする情報処理装置。
  2. 前記情報処理装置は、さらに、
    画像データのレイアウト解析処理を実行するレイアウト解析手段を有し、
    前記属性識別子抽出手段は、
    前記レイアウト解析手段の処理結果として区分されたデータ領域各々に対応する属性識別子を抽出する処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、さらに、
    ユーザ入力に応じて、
    前記データベースに格納された属性領域単位テキストデータを検索して出力手段に出力するデータ検索手段を有し、
    前記データ検索手段は、
    属性領域単位テキストデータの指定情報の入力に応じて、該属性領域単位テキストデータに関連付けられて前記データベースに格納された属性領域単位画像データを抽出して、出力手段に出力する構成であることを特徴とする請求項1に記載の情報処理装置。
  4. 前記画像切り出し手段は、
    属性領域に対応する属性領域単位画像データを個別の画像データファイルとして生成する処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  5. 前記画像テキスト化処理手段は、
    属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成するとともに、属性に基づく分類テキストデータファイルを生成する処理を実行する構成であることを特徴とする請求項1に記載の情報処理装置。
  6. 前記情報処理装置は、さらに、
    ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータの編集処理を実行し、該編集データをデータベースに格納する処理を実行するデータ編集手段を有することを特徴とする請求項1に記載の情報処理装置。
  7. 情報処理方法であり、
    画像データに含まれるデータ領域各々に対応する属性識別子を抽出する属性識別子抽出ステップと、
    前記属性識別子抽出ステップにおいて抽出した属性識別子に基づいて、前記データ領域対応の属性を判定する属性判定ステップと、
    前記属性判定ステップにおける属性判定処理において抽出された属性が対応付けられた属性領域に対応する画像を属性領域単位画像データとして切り出す画像切り出しステップと、
    前記属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成する画像テキスト化処理ステップと、
    前記属性領域単位画像データと、該属性領域単位画像データに対応する属性領域単位テキストデータとを関連付けるデータ関連付けステップと、
    前記データ関連付けステップにおいて関連付けられた前記属性領域単位画像データと、属性領域単位テキストデータとをデータベースに格納するデータ格納ステップと、
    を有することを特徴とする情報処理方法。
  8. 前記情報処理方法は、さらに、
    画像データのレイアウト解析処理を実行するレイアウト解析ステップを有し、
    前記属性識別子抽出ステップは、
    前記レイアウト解析ステップにおける処理結果として区分されたデータ領域各々に対応する属性識別子を抽出する処理を実行することを特徴とする請求項7に記載の情報処理方法。
  9. 前記情報処理方法は、さらに、
    ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータを検索して出力手段に出力するデータ検索ステップと、
    属性領域単位テキストデータの指定情報の入力に応じて、該属性領域単位テキストデータに関連付けられて前記データベースに格納された属性領域単位画像データを抽出して、出力手段に出力するステップと、
    を有することを特徴とする請求項7に記載の情報処理方法。
  10. 前記画像切り出しステップは、
    属性領域に対応する属性領域単位画像データを個別の画像データファイルとして生成する処理を実行するステップを含むこと特徴とする請求項7に記載の情報処理方法。
  11. 前記画像テキスト化処理ステップは、
    属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成するとともに、属性に基づく分類テキストデータファイルを生成する処理を実行することを特徴とする請求項7に記載の情報処理方法。
  12. 前記情報処理方法は、さらに、
    ユーザ入力に応じて、前記データベースに格納された属性領域単位テキストデータの編集処理を実行し、該編集データをデータベースに格納する処理を実行するデータ編集ステップを有することを特徴とする請求項7に記載の情報処理方法。
  13. 情報処理装置においてデータ処理を実行させるコンピュータ・プログラムであり、
    画像データに含まれるデータ領域各々に対応する属性識別子を抽出する属性識別子抽出ステップと、
    前記属性識別子抽出ステップにおいて抽出した属性識別子に基づいて、前記データ領域対応の属性を判定する属性判定ステップと、
    前記属性判定ステップにおける属性判定処理において抽出された属性が対応付けられた属性領域に対応する画像を属性領域単位画像データとして切り出す画像切り出しステップと、
    前記属性領域単位画像データに対応する画像に基づくテキスト化処理を実行して属性領域単位テキストデータを生成する画像テキスト化処理ステップと、
    前記属性領域単位画像データと、該属性領域単位画像データに対応する属性領域単位テキストデータとを関連付けるデータ関連付けステップと、
    前記データ関連付けステップにおいて関連付けられた前記属性領域単位画像データと、属性領域単位テキストデータとをデータベースに格納するデータ格納ステップと、
    を有することを特徴とするコンピュータ・プログラム。
JP2005243715A 2005-08-25 2005-08-25 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム Pending JP2007058624A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005243715A JP2007058624A (ja) 2005-08-25 2005-08-25 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005243715A JP2007058624A (ja) 2005-08-25 2005-08-25 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2007058624A true JP2007058624A (ja) 2007-03-08

Family

ID=37922055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005243715A Pending JP2007058624A (ja) 2005-08-25 2005-08-25 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2007058624A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123815A (ja) * 2000-10-17 2002-04-26 Oki Electric Ind Co Ltd ファイリング装置
JP2002358481A (ja) * 2001-06-01 2002-12-13 Ricoh Elemex Corp 画像処理装置
JP2003058813A (ja) * 2001-08-09 2003-02-28 Jis:Kk データエントリーシステム
JP2004213091A (ja) * 2002-12-26 2004-07-29 Canon Inc 文書画像検索装置及びその方法、文書画像検索システム、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123815A (ja) * 2000-10-17 2002-04-26 Oki Electric Ind Co Ltd ファイリング装置
JP2002358481A (ja) * 2001-06-01 2002-12-13 Ricoh Elemex Corp 画像処理装置
JP2003058813A (ja) * 2001-08-09 2003-02-28 Jis:Kk データエントリーシステム
JP2004213091A (ja) * 2002-12-26 2004-07-29 Canon Inc 文書画像検索装置及びその方法、文書画像検索システム、プログラム

Similar Documents

Publication Publication Date Title
US9465920B2 (en) Providing assistance with reporting
US20150134366A1 (en) Medical image importer and method
JP5407209B2 (ja) 文書管理装置、文書管理プログラム、及び文書管理システム
JP5280156B2 (ja) 電子化文書管理装置および電子化文書管理方法
JP2009200699A (ja) 画像処理装置および画像処理方法
JP4591229B2 (ja) 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
JP5458861B2 (ja) 文書検索装置、プログラム、文書登録装置、および文書検索システム
JP6579849B2 (ja) 読影レポート作成支援システム、読影レポート作成支援方法、及び読影レポート作成支援プログラム
JP2008146295A (ja) 情報処理装置と情報処理方法とプログラムとコンピュータ読み取り可能な記録媒体
JP2007058624A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4717592B2 (ja) 文書管理システム、その文書管理クライアントの制御方法及びプログラム
US20150301997A1 (en) Information processing device, information processing method, and non-transitory computer-readable medium
JP2007219682A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JPH1166197A (ja) 電子カルテシステムの情報提示方式ならびにその記録媒体
JP4535176B2 (ja) 作業制御プログラム及び作業制御システム
KR20210116947A (ko) 치과용 전자 동의서 제공방법 및 이를 위한 치과 업무 관리장치
JP6357967B2 (ja) 情報処理システム及び情報処理プログラム
JP2009230450A (ja) 文書属性情報登録装置及びプログラム
JP5907101B2 (ja) 文書管理装置及びプログラム
JP4586679B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP6547500B2 (ja) 画像処理装置及び画像処理プログラム
JP2008152502A (ja) 文書画像検索装置及びプログラム
JP2006272585A (ja) 医用ラベル作成制御装置
JP2006235784A (ja) 画像処理装置、ドキュメント解析システム、および画像処理方法、並びにコンピュータ・プログラム
JP2007086955A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101228