JP6171807B2 - 文書データ処理システム、文書データ処理プログラム - Google Patents

文書データ処理システム、文書データ処理プログラム Download PDF

Info

Publication number
JP6171807B2
JP6171807B2 JP2013207085A JP2013207085A JP6171807B2 JP 6171807 B2 JP6171807 B2 JP 6171807B2 JP 2013207085 A JP2013207085 A JP 2013207085A JP 2013207085 A JP2013207085 A JP 2013207085A JP 6171807 B2 JP6171807 B2 JP 6171807B2
Authority
JP
Japan
Prior art keywords
information
image
document data
electronic document
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013207085A
Other languages
English (en)
Other versions
JP2015072545A (ja
Inventor
栄作 林
栄作 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2013207085A priority Critical patent/JP6171807B2/ja
Publication of JP2015072545A publication Critical patent/JP2015072545A/ja
Application granted granted Critical
Publication of JP6171807B2 publication Critical patent/JP6171807B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書データ処理システム、文書データ処理プログラムに関する。
図、表、写真等の画像情報と文字情報が含まれる電子データから所望の画像を検索する検索装置が知られている。例えば、下記特許文献1には、画像領域と文字領域との距離に基づいて、文字領域におけるキャプション領域の文字列や、文字領域における画像が存在する方向や位置を示す指示語を、当該画像と関連付けてキーセンテンスとして抽出し、当該キーセンテンスに基づいて所望の画像を検索する検索装置が開示されている。
特開平11−25113号公報
本発明は、電子文書データからより効率的に所望の画像を検索するための文書データ処理システム、文書データ処理プログラムを実現する。
請求項1に記載の文書データ処理システムは、電子文書データを取得する電子文書データ取得手段と、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、を含むことを特徴とする文書データ処理システムであって、前記文書データ処理システムは、更に、前記電子文書データに基づいて、前記文書の1ページにおける画像領域の位置を表す画像位置情報を取得する画像位置情報取得手段を含み、前記メタ情報生成手段は、更に、前記画像位置情報を関連付けた前記メタ情報を生成することを特徴とする。
請求項に記載の文書データ処理システムは、電子文書データを取得する電子文書データ取得手段と、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、を含むことを特徴とする文書データ処理システムであって、前記文書データ処理システムは、更に、前記画像領域に隣接する前記画像のキャプションを表す文字領域がある場合には、前記文字領域に含まれるテキスト情報に応じた情報を関連文書情報として取得する関連文書情報取得手段を含み、前記メタ情報生成手段は、更に、前記関連文書情報を関連付けた前記メタ情報を生成することを特徴とする。
請求項に記載の文書データ処理システムは、電子文書データを取得する電子文書データ取得手段と、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、を含むことを特徴とする文書データ処理システムであって、前記文書データ処理システムは、更に、前記画像領域における画像の特性を表す特性情報取得手段を含み、前記メタ情報生成手段は、更に、前記特性情報を関連付けた前記メタ情報を生成することを特徴とする。
請求項に記載の文書データ処理システムは、電子文書データを取得する電子文書データ取得手段と、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、を含むことを特徴とする文書データ処理システムであって、前記画像を検索するための検索情報を取得する検索情報取得手段と、前記検索情報及び前記メタ情報に基づいて、前記画像を検索する検索手段と、前記検索手段の検索結果を表す検索結果情報を生成する検索結果情報生成手段と、をさらに含むことを特徴とする。
請求項に記載の文書データ処理システムは、請求項に記載の文書データ処理システムにおいて、前記メタ情報生成手段は、更に、前記画像を含む文書のページ番号を表すページ識別情報を関連付けた前記メタ情報を生成し、前記検索手段は、前記検索情報及び前記メタ情報に基づいて、前記メタ情報の一部と類似する検索情報を含むメタ情報に含まれるページ識別情報を取得し、前記検索結果情報生成手段は、前記ページ識別情報で識別されるページの前記電子文書データを表示する前記検索結果情報を生成する、ことを特徴とする。
請求項に記載の文書データ処理システムは、請求項に記載の文書データ処理システムにおいて、前記画像を検索するための検索情報を取得する検索情報取得手段と、前記検索情報及び前記メタ情報に基づいて、前記画像を検索する検索手段と、前記検索手段の検索結果に基づいて前記画像位置情報に応じた情報を含む前記検索結果情報を生成する検索結果情報生成手段と、を含むことを特徴とする。
請求項に記載の文書データ処理プログラムは、電子文書データを取得する電子文書データ取得手段、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、及び、前記電子文書データに基づいて、前記文書の1ページにおける画像領域の位置を表す画像位置情報を取得する画像位置情報取得手段、としてコンピュータシステムを機能させるための文書データ処理プログラムであって、前記メタ情報生成手段は、更に、前記画像位置情報を関連付けた前記メタ情報を生成することを特徴とする。
請求項8に記載の文書データ処理プログラムは、電子文書データを取得する電子文書データ取得手段、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、及び、前記画像領域に隣接する前記画像のキャプションを表す文字領域がある場合には、前記文字領域に含まれるテキスト情報に応じた情報を関連文書情報として取得する関連文書情報取得手段、としてコンピュータシステムを機能させるための文書データ処理プログラムであって、前記メタ情報生成手段は、更に、前記関連文書情報を関連付けた前記メタ情報を生成することを特徴とする。
請求項9に記載の文書データ処理プログラムは、電子文書データを取得する電子文書データ取得手段、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、及び、前記画像領域における画像の特性を表す特性情報取得手段、としてコンピュータシステムを機能させるための文書データ処理プログラムであって、前記メタ情報生成手段は、更に、前記特性情報を関連付けた前記メタ情報を生成することを特徴とする。
請求項10に記載の文書データ処理プログラムは、電子文書データを取得する電子文書データ取得手段、前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、前記画像を検索するための検索情報を取得する検索情報取得手段、前記検索情報及び前記メタ情報に基づいて、前記画像を検索する検索手段、前記検索手段の検索結果を表す検索結果情報を生成する検索結果情報生成手段、としてコンピュータシステムを機能させるための文書データ処理プログラムであることを特徴とする。
請求項1、の発明によれば、文書構造の位置に関する構造位置情報に基づく画像のメタ情報が生成され、更に、文書の1ページにおける画像の位置に基づく画像のメタ情報が生成される。
請求項2、8の発明よれば、文書構造の位置に関する構造位置情報に基づく画像のメタ情報が生成され、更に、画像のキャプションに基づく画像のメタ情報が生成される。
請求項3、9の発明によれば、文書構造の位置に関する構造位置情報に基づく画像のメタ情報が生成され、更に、画像の特性に基づく画像のメタ情報が生成される。
請求項4、5、10の発明によれば、文書構造の位置に関する構造位置情報に基づく画像のメタ情報が生成され、更に、上記画像のメタ情報に基づいて、当該画像が検索される。
請求項の発明によれば、画像のメタ情報に基づいて画像が検索されるとともに、検索された画像の文書の1ページにおける画像の位置を表す検索結果画像情報が生成される。
文書データ処理システムのハードウェア構成の概要を示す図である。 図1に示したサーバの機能的構成の一例について説明するための図である。 電子文書データの一例を示す図である。 文書領域及び画像領域が特定された様子を示す図である。 文書構造取得部により取得された文書構造の概念図である。 メタ情報の一例を示す図である。 メタ情報生成処理についてのフローの一例を示す図である。 検索処理についてのフローの一例を示す図である。
以下、本発明の実施形態について、図面を参照しつつ説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。
図1は、本発明の文書データ処理システムのハードウェア構成の概要について説明するための図である。図1に示すように、文書データ処理システム100は、ネットワーク130(例えば、インターネット)を介して接続されたサーバ110及び端末120を有する。なお、図1においては、文書データ処理システム100は、1の端末120のみを有しているが、その他複数の端末120を有してもよいし、その他スキャナやコピー機能を有するいわゆる複合機(図示なし)を含むように構成してもよい。
サーバ110は、制御部111、記憶部112、通信部113を含む。制御部111は、例えば、CPU等であって、記憶部112に格納されたプログラムに従って動作する。記憶部112は、例えば、ハードディスクやROMやRAM等の情報記録媒体で構成され、制御部111によって実行されるプログラムを保持する情報記録媒体である。また、記憶部112は、制御部111のワークメモリとしても動作する。
通信部113は、ネットワークインターフェースであって、制御部111からの指示に応じて、ネットワーク130を介して、情報を送受信する。なお、制御部111、記憶部112、通信部113は、それぞれ、バス114を介して接続される。
端末120は、制御部121、通信部122、記憶部123、表示部124、操作部125を含む。同様に、各部120乃至125は、バス126を介して接続される。上述したサーバ110と同様に、制御部121は、例えば、CPUであって、記憶部112に格納されたプログラムに従って動作する。記憶部123は、例えば、ハードディスクやROMやRAM等の情報記録媒体で構成され、制御部121によって実行されるプログラムを保持する情報記録媒体である。また、記憶部123は、制御部121のワークメモリとしても動作する。
操作部125は、例えば、キーボード、マウス、ボタン等のインターフェースで構成され、ユーザの指示操作に応じて、当該指示操作の内容を制御部121に出力する。表示部124は、例えば、液晶ディスプレイ、CRTディスプレイ、または有機ELディスプレイ等であって、制御部121からの指示に従い、情報を表示する。
なお、上記制御部111及び121で処理されるプログラムは、例えば、ネットワーク130を介して、ダウンロードされて提供されてもよいし、または、CD−ROMやDVD−ROM等のコンピュータで読み取り可能な各種の情報記録媒体によって提供されてもよい。また、上記サーバ110や端末120の構成は一例であってこれに限定されるものではない。更に、上記においては、文書データ処理システム100がいわゆるサーバ・クライアントシステムで構成される場合について説明したが、本実施の形態はこれに限定されるものではなく、いわゆるクラウド技術を用いて構成してもよいし、1のコンピュータで構成してもよい。
次に本実施の形態における文書データ処理システム100の機能的構成について説明する。図2は、図1に示したサーバの機能的構成の一例について説明するための図である。図2に示すように、サーバ110は、電子文書データ取得部201、電子文書データ記憶部202、領域特定部203、文字認識部204、文書構造取得部205、構造位置情報取得部206、関連文書情報取得部207、画像位置情報取得部208、特性情報取得部209、メタ情報生成部210、メタ情報記憶部211、検索情報取得部212、検索部213、検索結果情報生成部214を含む。
なお、説明の簡略化のため、下記においては、電子文書データの表す特定の1ページが図3に示した場合を例として説明する。また、理解の容易化のため、下記においては、まず、画像に関連付けられるメタ情報の生成についての機能的構成について説明する。
電子文書データ取得部201は、電子文書データを取得する。具体的には、例えば、スキャナ(図示なし)で取得された画像情報としての電子文書データをネットワーク130を介して取得してもよいし、端末120を用いて文書作成ソフト等により作成された当初から電子化された電子文書データを取得してもよい。なお、下記においては、電子文書データが前者の場合を例として説明する。また、電子文書データ記憶部202は、電子文書データ取得部201により取得された電子文書データを記憶する。
領域特定部203は、電子文書データにおける画像を表す画像領域と文書を表す文書領域を特定する。具体的には、例えば、図4に示すように、領域特定部203は、図3に示した電子文書データに1ページを表す画像情報に含まれる画像領域及び文書領域を特定する。なお、図4においては、領域特定部203により特定された画像領域及び文書領域をそれぞれ実線及び点線の矩形領域で表す。
文字認識部204は、領域特定部203が特定した文字領域中の文書の文字認識(テキスト認識)を行う。具体的には、例えば、図4に示した文字領域中の「タイトル」、「第1章はじめに」、「第1節かきくけこ」等を文字認識する。
文書構造取得部205は、例えば、文字領域における文字のレイアウトや文書内容等に基づいて、文書の文書構造を取得する。具体的には、例えば、図4に示した、「第1章はじめに」「第1節かきくけこ」等、「章、節、小節」等により階層化された文書の文書構造を取得する。なお、取得された文書構造の概念図を図5に示す。
構造位置情報取得部206は、文書構造における領域特定部203により特定された画像の位置に関する構造位置情報を取得する。具体的には、例えば、文書における画像の位置及び文書構造の見出し位置に基づいて、取得された文書構造における画像の位置情報を取得する。具体的には、例えば、図4に示した場合、グラフを表す画像については、「第1節あいうえお」と「第2節かきくけこ」との間に位置しているので、当該画像は、文書構造において「第1節あいうえお」に位置することを表す構造位置情報を取得する。なお、この場合の様子を図5に示す。なお、上記においては、文書構造のうち第1節、第2節等の階層を基準として構造位置情報を取得する場合について説明したが、その他の階層(例えば、第1章、第2−1節等)、または、複数の階層の組み合わせに基づく構造位置情報を取得するように構成してもよい。
関連文書情報取得部207は、画像に隣接する領域にキャプションを表す文字領域がある場合に、当該文字領域に含まれるテキスト情報に応じた情報を関連文書情報として取得する。なお、キャプションを表す領域であるか否かは、例えば、画像との距離や、キャプションを表す文字領域の大きさ等に基づいて判定するが、周知であるので詳細な説明は省略する。例えば、図4に示した場合、関連文書情報取得部207は、グラフを表す画像にキャプションとして「図1」が存在するので、当該「図1」を関連文書情報として取得する。
画像位置情報取得部208は、1ページにおける画像の位置を表す画像位置情報を取得する。具体的には、例えば、画像位置情報取得部208は、右、左、上、下など、文書の1ページの中心位置に対する画像の相対位置を表す画像位置情報を取得する。例えば、図4に示した場合、グラフを表す画像は当該中心位置より、「左」に位置しているので、当該「左」を画像位置情報として取得する。なお、上記画像位置情報は、例えば、文書の1ページに含まれる画像間の関係に基づいて取得されるように構成してもよい。例えば、図4に示した場合、グラフは図(図4においてそれぞれ点線で示す)に対して左に位置し、図はグラフに対して右に位置しているので、グラフの画像位置情報として左を取得する等である。また、更に、右上、左上等の更に詳細な画像位置情報を取得するように構成するなど、1ページ内の画像の位置に関する限り、種々の変形を行ってもよい。
特性情報取得部209は、特定された各画像の特性を表す特性情報を取得する。ここで、画像の特性としては、例えば、グラフ、写真、または図が相当する。なお、画像の特性の判定については、パターンマッチング等の技術を用いればよいが、周知であるので、説明を省略する。
メタ情報生成部210は、特定された画像領域(画像)を識別する画像ID(識別情報)毎に、上記のように取得された関連文書情報、画像位置情報、特性情報、及び、文書中のページを表すページIDを関連付けたメタ情報を生成する。例えば、図6は、図4に示したグラフの画像(画像ID:P1で識別されるものとする)について、関連文書情報:図1、構造位置情報:あいうえお、画像位置情報:左、特性情報:グラフが関連付けられたメタ情報等を示す。なお、上記各部の処理は、例えば、1ページ毎に繰り返し行われる。また、メタ情報記憶部211は、メタ情報記憶部211により生成されたメタ情報を記憶する。なお、ページID(識別情報)については、例えば、電子文書データに含まれるページ番号を利用してもよいし、文字認識で認識するように構成してもよいし、1ページ毎に上記処理を繰り返す過程において取得されるように構成してもよい。
次に、文書データ処理システム100の検索についての処理に関する機能的構成について説明する。
検索情報取得部212は、画像の検索に関する検索情報を取得する。ここで、検索情報とは、例えば、上記関連文書情報、画像位置情報、特性情報、画像の名称に関する情報であって、文書の1ページ内における位置、画像の属する文書構造における構造位置等を表す文字情報に相当する。そして、当該検索情報は、例えば、ユーザが、使用する端末120を用いて、自己の記憶に基づいて入力する。具体的には、例えば、メタ情報に含まれる上記関連文書情報、画像位置情報、特性情報毎に検索情報をユーザが入力する。なお、下記においては、理解の容易化のため、主に、図6に示したメタ情報が記憶され、検索情報として、検索情報取得部212が、「グラフ」「左」を取得する場合を例として説明する。
検索部213は、検索情報及びメタ情報に基づいて、前記画像を検索する。具体的には、例えば、検索部213は、上記検索情報の全部または一部と一致または類似する情報が含まれるメタ情報のページIDを特定する。上記例の場合、「グラフ」「左」に関連付けられているページID:1を特定する。
検索結果情報生成部214は、前記検索部213の検索結果に応じた検索結果を表す検索結果情報を生成する。具体的には、例えば、電子文書データ記憶部202から電子文書データを取得し、当該ページに相当する電子文書データを表示する検索結果情報を生成する。これにより、検索情報に応じた画像を含む検索結果情報が生成される。なお、検索結果情報生成部214は、上記検索された画像のメタ情報の一部または全部に応じた情報を含む検索結果情報を生成するように構成してもよい。具体的には、例えば、画像位置情報に対応する検索情報として「左」が取得されている場合には、「1ページ目左にあった図」のような1ページ内における画像の位置を表す検索結果情報を生成するように構成してもよい。そして、生成された検索結果情報は端末120に送信され、端末120は当該検索結果情報を表示する。
なお、上記文書データ処理システム100の機能的構成は一例であって、本実施の形態はこれに限定されるものではない。例えば、上記においては、主に、階層化されていない画像情報としての電子文書データを取得する場合について説明したが、例えば、特定のソフトウェアなどにより作成され既に構造化された電子文書の電子文書データを取得した場合には、当該電子文書データに含まれる情報を用いて、上記文書構造の取得や文字認識等を行うように構成する方が望ましい。
次に、本実施の形態における文書データ処理システム100のフローについて説明する。まず、図7を用いて、文書データ処理システム100の各画像に関連付けられるメタ情報の生成のフローについて説明する。なお、下記においては、一例として、電子文書データがスキャナで読み取られた画像情報としてのデータである場合について説明する。
図7に示すように、まず、スキャナで文書を光学的に読み取り、電子文書データに変換する(S101)。電子文書データ取得部201は、電子文書データを取得する(S102)。電子文書データ記憶部202は、電子文書データ取得部201により取得された電子文書データを記憶する(S103)。
領域特定部203は、電子文書データにおける画像を表す画像領域と文書を表す文書領域を特定する(S104)。文字認識部204は、領域特定部203が特定した文字領域中の文書の文字認識(テキスト認識)を行う(S105)。文書構造取得部205は、文字領域における文字のレイアウトや文書内容等に基づいて、当該文書の文書構造を取得する(S106)。構造位置情報取得部206は、文書構造における領域特定部203により特定された画像の位置を表す構造位置情報を取得する(S107)。関連文書情報取得部207は、画像に隣接する領域にキャプションを表す文字領域がある場合に、当該文字領域に含まれるテキスト情報を、関連文書情報として取得する(S108)。
画像位置情報取得部208は、当該文書の1ページにおける画像の位置を表す画像位置情報を取得する(S109)。特性情報取得部209は、特定された各画像の特性を表す特性情報を取得する(S110)。
メタ情報生成部210は、画像を識別する画像ID毎に、上記関連文書情報、画像位置情報、特性情報、及び、ページIDを関連付けたメタ情報を生成する(S111)。メタ情報記憶部211は、メタ情報記憶部211により生成されたメタ情報を記憶する(S112)。そして、処理を終了する。なお、上記処理は、S104乃至S112の処理は、電子文書データのページ毎に繰り返し行われる。
次に、図8を用いて、文書データ処理システム100の検索処理のフローについて説明する。図8は、検索処理の一例を示す図である。
検索情報取得部212は、画像の検索に関する検索情報を取得する(S201)。検索部213は、検索情報及びメタ情報に基づいて、対象画像を含むページIDを取得する(S202)。検索結果情報生成部214は、電子文書データ記憶部202から電子文書データを取得し、当該ページに相当する電子文書データを表示する検索結果情報を生成する(S203)。生成された検索結果情報を端末120に送信される(S204)。端末120は当該検索結果情報を表示する(S205)。そして、処理を終了する。
なお、上記情報処理システムのフローは一例であって、本実施の形態は上記に限定されるものではない。例えば、文書構造の取得、関連文書情報の取得、特性情報の取得の順序は上記に限定されるものではない。
本発明は、上記実施の形態に限定されるものではなく、上記実施の形態で示した構成と実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えてもよい。
例えば、上記実施形態においては、主に、関連文書情報、画像位置情報、特性情報、及び、文書中のページを表すページIDを関連付けたメタ情報を生成する場合について説明したが、その他画像領域中にテキスト情報を含む場合には、当該テキスト情報をメタ情報に含めてもよい。また、当該テキスト情報の画像領域における位置を表す位置情報(例えば、中央)、や当該テキスト情報の数などをメタ情報に更に含めるように構成してもよい。この場合、テキスト情報の文字の大きさがあらかじめ設定された大きさ以上の場合にのみ、メタ情報に含めるように構成してもよい。
また、関連文書情報としては、画像のキャプションに含まれる接頭辞やコンテンツ特性に関するテキスト情報を含むように構成してもよい。ここで、接頭辞とは、例えば、「第1」などである。また、文書構造における同一階層内に複数の図がある場合には各図の番号を含むように構成してもよい。また、例えば「の図」、「の表」、「の写真」等画像の特性を表すテキスト情報がある場合には、当該テキスト情報を含むように構成してもよい。
100 文書データ処理システム、110 サーバ、111 制御部、112 記憶部、113 通信部、120 端末、124 表示部、125 操作部201 電子文書データ取得部、202 電子文書データ記憶部、203 領域特定部、204 文字認識部、205 文書構造取得部、206 構造位置情報取得部、207 関連文書情報取得部、208 画像位置情報取得部、209特性情報取得部、210 メタ情報生成部、211 メタ情報記憶部、212 検索情報取得部、213 検索部、214 検索結果情報生成部。

Claims (10)

  1. 電子文書データを取得する電子文書データ取得手段と、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、
    を含むことを特徴とする文書データ処理システムであって、
    前記文書データ処理システムは、更に、前記電子文書データに基づいて、前記文書の1ページにおける画像領域の位置を表す画像位置情報を取得する画像位置情報取得手段を含み、
    前記メタ情報生成手段は、更に、前記画像位置情報を関連付けた前記メタ情報を生成することを特徴とする文書データ処理システム。
  2. 電子文書データを取得する電子文書データ取得手段と、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、
    を含むことを特徴とする文書データ処理システムであって、
    前記文書データ処理システムは、更に、前記画像領域に隣接する前記画像のキャプションを表す文字領域がある場合には、前記文字領域に含まれるテキスト情報に応じた情報を関連文書情報として取得する関連文書情報取得手段を含み、
    前記メタ情報生成手段は、更に、前記関連文書情報を関連付けた前記メタ情報を生成することを特徴とする文書データ処理システム。
  3. 電子文書データを取得する電子文書データ取得手段と、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、
    を含むことを特徴とする文書データ処理システムであって、
    前記文書データ処理システムは、更に、前記画像領域における画像の特性を表す特性情報取得手段を含み、
    前記メタ情報生成手段は、更に、前記特性情報を関連付けた前記メタ情報を生成することを特徴とする文書データ処理システム。
  4. 電子文書データを取得する電子文書データ取得手段と、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段と、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段と、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段と、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段と、
    を含むことを特徴とする文書データ処理システムであって、
    前記画像を検索するための検索情報を取得する検索情報取得手段と、
    前記検索情報及び前記メタ情報に基づいて、前記画像を検索する検索手段と、
    前記検索手段の検索結果を表す検索結果情報を生成する検索結果情報生成手段と、
    をさらに含むことを特徴とする文書データ処理システム。
  5. 前記メタ情報生成手段は、更に、前記画像を含む文書のページ番号を表すページ識別情報を関連付けた前記メタ情報を生成し、
    前記検索手段は、前記検索情報及び前記メタ情報に基づいて、前記メタ情報の一部と類似する検索情報を含むメタ情報に含まれるページ識別情報を取得し、
    前記検索結果情報生成手段は、前記ページ識別情報で識別されるページの前記電子文書データを表示する前記検索結果情報を生成する、
    ことを特徴とする請求項に記載の文書データ処理システム。
  6. 前記画像を検索するための検索情報を取得する検索情報取得手段と、
    前記検索情報及び前記メタ情報に基づいて、前記画像を検索する検索手段と、
    前記検索手段の検索結果に基づいて前記画像位置情報に応じた情報を含む前記検索結果情報を生成する検索結果情報生成手段と、
    を含むことを特徴とする請求項に記載の文書データ処理システム。
  7. 電子文書データを取得する電子文書データ取得手段、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段
    記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、及び、
    前記電子文書データに基づいて、前記文書の1ページにおける画像領域の位置を表す画像位置情報を取得する画像位置情報取得手段、
    としてコンピュータシステムを機能させるための文書データ処理プログラムであって、
    前記メタ情報生成手段は、更に、前記画像位置情報を関連付けた前記メタ情報を生成することを特徴とする文書データ処理プログラム。
  8. 電子文書データを取得する電子文書データ取得手段、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、及び、
    前記画像領域に隣接する前記画像のキャプションを表す文字領域がある場合には、前記文字領域に含まれるテキスト情報に応じた情報を関連文書情報として取得する関連文書情報取得手段、
    としてコンピュータシステムを機能させるための文書データ処理プログラムであって、
    前記メタ情報生成手段は、更に、前記関連文書情報を関連付けた前記メタ情報を生成することを特徴とする文書データ処理プログラム。
  9. 電子文書データを取得する電子文書データ取得手段、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、及び、
    前記画像領域における画像の特性を表す特性情報取得手段、
    としてコンピュータシステムを機能させるための文書データ処理プログラムであって、
    前記メタ情報生成手段は、更に、前記特性情報を関連付けた前記メタ情報を生成することを特徴とする文書データ処理プログラム。
  10. 電子文書データを取得する電子文書データ取得手段、
    前記電子文書データに基づいて、前記電子文書データに含まれる画像を表す画像領域を特定する領域特定手段、
    前記電子文書データに基づいて、前記電子文書データが表す文書の文書構造を取得する文書構造取得手段、
    前記画像の前記文書構造における位置に関する構造位置情報を取得する構造位置情報取得手段、
    前記画像を識別する画像識別情報と、前記取得された構造位置情報とを関連付けたメタ情報を生成するメタ情報生成手段、
    前記画像を検索するための検索情報を取得する検索情報取得手段、
    前記検索情報及び前記メタ情報に基づいて、前記画像を検索する検索手段、
    前記検索手段の検索結果を表す検索結果情報を生成する検索結果情報生成手段、
    としてコンピュータシステムを機能させるための文書データ処理プログラム。
JP2013207085A 2013-10-02 2013-10-02 文書データ処理システム、文書データ処理プログラム Expired - Fee Related JP6171807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013207085A JP6171807B2 (ja) 2013-10-02 2013-10-02 文書データ処理システム、文書データ処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013207085A JP6171807B2 (ja) 2013-10-02 2013-10-02 文書データ処理システム、文書データ処理プログラム

Publications (2)

Publication Number Publication Date
JP2015072545A JP2015072545A (ja) 2015-04-16
JP6171807B2 true JP6171807B2 (ja) 2017-08-02

Family

ID=53014880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013207085A Expired - Fee Related JP6171807B2 (ja) 2013-10-02 2013-10-02 文書データ処理システム、文書データ処理プログラム

Country Status (1)

Country Link
JP (1) JP6171807B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101799198B1 (ko) * 2016-05-09 2017-11-17 중소기업은행 거래 정보 관리 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3352709B2 (ja) * 1991-10-07 2002-12-03 株式会社東芝 文書整形装置および文書整形装置の処理方法
JP4349183B2 (ja) * 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2011028503A (ja) * 2009-07-24 2011-02-10 Canon Inc 画像処理装置、画像処理方法、およびプログラム
JP2013069008A (ja) * 2011-09-21 2013-04-18 Konica Minolta Business Technologies Inc 電子書籍作成装置、電子書籍表示装置、電子書籍作成方法、電子書籍表示方法およびプログラム

Also Published As

Publication number Publication date
JP2015072545A (ja) 2015-04-16

Similar Documents

Publication Publication Date Title
JP5665125B2 (ja) 画像処理方法、及び、画像処理システム
US20120117051A1 (en) Multi-modal approach to search query input
US8838657B1 (en) Document fingerprints using block encoding of text
US8781815B1 (en) Non-standard and standard clause detection
JP2008181350A (ja) 情報処理システム、情報処理装置及びプログラム
US9977793B2 (en) Information processing system, information processing method, and information processing apparatus
CN114676133A (zh) 索引创建方法、装置、设备及存储介质
CN110598123A (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
JP2008276487A (ja) 文書処理プログラム、文書処理装置及び文書処理システム
JP2011128833A (ja) 文書検索装置、プログラム、文書登録装置、および文書検索システム
JP2016129021A (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
JP6171807B2 (ja) 文書データ処理システム、文書データ処理プログラム
JP2019144771A (ja) 帳票処理システム及び帳票処理プログラム
Martins et al. Geographically-aware information retrieval for collections of digitized historical maps
JP4633492B2 (ja) 設計情報管理装置及び設計情報管理方法
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP2014010640A (ja) 画像検索装置、情報処理方法、プログラム
JP2010267021A (ja) 情報処理装置及び情報処理方法
JP5223293B2 (ja) 位置表現抽出装置、方法及びプログラム
JP5634209B2 (ja) 検索インデックス作成システム、文書検索システム、インデックス作成方法、文書検索方法及びプログラム
JP2007317131A (ja) 文書管理方法及び文書検索方法及び装置及びプログラム
JP5345049B2 (ja) 検索サーバ及びその制御方法、並びに検索システム
JP2011028349A (ja) 文書処理装置、文書処理システム及びプログラム
JP2007293655A (ja) 文書処理装置、電子文書の出力処理方法、およびプログラム
JP5410372B2 (ja) コンテンツ検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6171807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees