JP2009123033A - 文書検索支援装置及びプログラム - Google Patents
文書検索支援装置及びプログラム Download PDFInfo
- Publication number
- JP2009123033A JP2009123033A JP2007297341A JP2007297341A JP2009123033A JP 2009123033 A JP2009123033 A JP 2009123033A JP 2007297341 A JP2007297341 A JP 2007297341A JP 2007297341 A JP2007297341 A JP 2007297341A JP 2009123033 A JP2009123033 A JP 2009123033A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- data
- image data
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 文書データを記憶した文書管理部20と、文書データに含まれるイメージデータの特徴量を記憶した文書要素特徴管理部19と、指定された文書データ中に含まれるイメージデータとテキストデータとを抽出するページ画像生成分割部12と、抽出したイメージデータと、文書要素特徴管理部19に記憶したイメージデータとの特徴量を比較して、抽出したイメージデータに類似するイメージデータを検索すると共に、抽出したテキストデータからキーワードを取り出し、文書管理部20に記憶された文書データの中から、キーワードが含まれる文書データを検索する検索実行部18と、検索された文書データからイメージデータを抽出してステンドグラス状画像を生成するSG状画像要約作成部15とを有している。
【選択図】 図1
Description
このように本発明は、文書検索の結果がステンドグラス状画像として表示されるので、検索結果として挙げられた文書データが所望の文書データであるか否かの判断を容易につけることができる。
従って、利用度の高い文書データを検索結果の上位に表示することができる。
従って、アノテーションが付与された利用頻度の高い文書データを検索することができる。
従って、属性情報の一致する文書データを検索することができる。
対象の文書データがパーソナルコンピュータ等によって生成された文書データであった場合には、ページ画像生成分割部12は、対象文書データからテキストデータを抽出する。また、ページ画像生成分割部12は、対象文書データをイメージデータに変換して、イメージ形式の図表データを抽出する。
また、対象の文書データがスキャナ等によって読み込まれたイメージデータであった場合には、ページ画像生成分割部12は、OCR(光学式文字読取装置)等によって文字認識を行うと共に、エッジ抽出、濃度判定等の処理によってイメージデータから図表データ部分を抽出する。抽出したテキストデータや図表データはページ画像生成分割部12から制御部16に出力される。
特徴量抽出部13は、図表データを複数の領域に分割し、各領域から画像的な特徴量を抽出する。抽出される特徴量には、分割した領域内の平均色やエッジ量、画像の色成分(RGBの各成分)、スペクトル、黒画素塊の面積、画像の偏平率、輪郭線の複雑さなどが挙げられる。なお、特徴量の抽出方法の詳細は、特開2004−21430号公報に開示がある。
また、テキストデータの場合には、辞書等を使用して固有表現を抽出し、キーワードとなる単語や、文書データのカテゴリを抽出する。特徴量抽出部13は、抽出した特徴量を制御部16に出力する。
サムネイル生成部14で作成されたサムネイルや、SG状画像要約作成部15で作成されたSG状画像は、制御部16に転送される。
また、制御部16は、メッセージ送受信部11で受信したメッセージを解析し、解析の結果、メッセージが文書データの検索要求であった場合には、クライアント端末3から検索キーワードを取得して検索実行部18に転送し、文書検索を実行させる。また、キーワードではなく、文書データを種文書とし、この種文書データに類似する文書データ(例えば、種文書に含まれるキーワードを含んだ文書データや、種文書に含まれる図表と同一又は類似する図表を含んだ文書データ)を検索する場合には、クライアント端末3から取得した種文書データをページ画像生成分割部12に転送してテキストデータとイメージデータを抽出させ、特徴量抽出部13でこれらのデータの特徴量を抽出する。制御部16は抽出した特徴量を検索実行部18に転送して、検索実行部18に文書要素特徴管理部19及び文書管理部20を検索させて、種文書に類似する文書データを検出させる。
また、制御部16は、検索実行部18から検索結果を受け取って、受け取った検索結果をメッセージ送受信部11に転送して、要求のあったクライアント端末3に送信する。
また、クライアント端末3からの要求が、文書データや、スキャナ等で読み込んだイメージデータの登録要求であった場合には、制御部16は、取得した文書データやイメージデータを前述のようにページ画像生成分割部12、特徴量抽出部13に転送してイメージデータ、テキストデータの特徴量を抽出する。抽出した特徴量を元の文書データやイメージデータに関連付けて文書要素特徴管理部19や文書管理部20に登録する。
なお、CPU22の制御に使用するプログラムは、CD−ROM等の記録媒体に格納されたものを読み込んでNVRAM25に格納してもよいし、通信網を介して送信されたプログラムを入出力部26で受信してNVRAM25に格納してもよい。
また、図4に示す管理テーブルでは、図表データに付与された図表IDと、図表データが図であるのか表であるのかを示す種別情報と、図表データが含まれる文書データの文書IDと、図表データが表れる文書データ中のページ番号と、特徴量抽出部13で抽出された図表データの特徴量とが対応付けて登録されている。
この管理テーブルには、文書データを一意に識別するための文書ID、又は文書データを格納した他の記憶装置の場所を示すURI(Uniform Resource Identifier)と、文書の属性情報として、文書名、文書の作成者、文書の更新日時、文書の種別、利用状況などが登録される。
文書種別とは、提案書、仕様書、マニュアル、カタログなどの文書の種類を示す情報であり、利用状況とは、どのような場面で文書が利用され、そのときの成果がどのようなものであったのかを示している。例えば、商談に利用され、その商談が成立した場合には成約と記録される。
全文検索は、クライアント端末3から入力されたキーワードを検索キーとして文書データの全体を検索し、該当するキーワードの含まれている文書データを検出する。
属性検索は、文書名、文書の作成者、更新日時、種別などの属性情報を検索キーとして該当する文書データを検索する。
類似検索は、種文書データの指定を受けて、この種文書データ中に含まれる図表データと類似する図表データを含んだ文書データを検索する。
類似検索では、文書要素特徴管理部19に登録された図表データの特徴量を用いて検索が行われる。種文書に含まれる図表データの特徴量と、登録された文書データに含まれる図表データの特徴量とを比較することで類似する図表データが検索される。類似検索の詳細については、特開2004−21430号公報に開示がある。
図6、7に、検索結果記憶部21に作成される管理テーブルの構造を示す。
図6に示す管理テーブルでは、指定された種文書データとの類似検索を実施した文書データのID(文書ID)、全文検索結果の一致度と、属性検索結果の一致度と、類似検索結果の一致度と、これらの一致度を加算した総合一致度と、一致すると判定された文書データのサムネイルと、SG状画像とが登録される。
また、図7に示す管理テーブルの例は、文書データのページごとの類似度を記録したものであり、指定された種文書データとの類似検索を実施した文書データのID(文書ID)、類似すると判定された図表データを記載したページのページ番号と、類似検索結果の一致度と、ページ内に出現する図表データのID番号とが記録される。
この入力画面では、検索条件を入力する画面と、オプションを設定する画面とが表示可能となっており、これらの画面をタグで切替え可能になっている。図8(A)に示す検索条件の入力画面では、検索を行う文字列の入力欄30と、検索を行う種文書を指定する入力欄31と、属性検索の条件入力欄32とが設けられている。
また、図8(B)に示すオプション設定画面には、アノテーションが付与された文書だけを検索対象とするか否かを設定する入力欄33と、アノテーションが付与された文書を優先的に検索するか否かを設定する入力欄34と、アノテーションの付与された文書と付与されていない文書とを区別しない設定を入力する入力欄35と、検索結果の表示形式を指定する入力欄36とが設けられている。
入力欄33が入力されると、制御部16は、アノテーションの付与された文書データだけを検索対象とするように検索実行部18に指示を出す。また、入力欄34が入力されると、制御部16は、アノテーションの付与された文書データを優先的に検索するように検索実行部18に指示を出す。また、入力欄36が入力されると、制御部16は、アノテーションの付与された文書データと付与されていない文書データとの区別をしないように検索実行部18に指示を出す。
図10に示す表示例では、マウスポインタを検索結果として表示したサムネイルやSG要約上に移動させると、文書データの属性データ(作成者、引用者、その他に同一の図表データが出現する出現文書データなど)が表示される。
制御部16は、クライアント端末3より検索要求を受信すると(ステップS1/YES)、検索要求を解析して検索条件を取り出す(ステップS2)。この検索条件には、図8(B)に示すオプション設定の情報も含まれる。
制御部16は、まずページカウンタを初期化して、1カウントアップする(ステップS21)。
次に制御部16は、処理対象のページを設定し、このページをページ画像生成分割部12に出力して、該当ページ内にテキストデータが含まれているか否かを判定する(ステップS22)。処理対象のページにテキストデータが含まれている場合には(ステップS22/YES)、特徴量抽出部13によって処理対象のページからキーワードや文書データのカテゴリを示すテキストデータを抽出する(ステップS23)。また、制御部16は、抽出したキーワードを検索実行部18に出力して、文書管理部20に登録された文書の全文検索を実施する(ステップS24)。検索結果は、検索実行部18から検索結果記憶部21に記憶される。
種文書に含まれる全てのキーワード、図表データに対する検索が終了すると(ステップS28)、制御部16は、検索結果を表示する文書の表示順を利用状況に応じて変更する。例えば、類似検索の対象となった文書が商談等に使用され、成約している文書データであった場合には、全文検索、属性検索、類似検索の一致度が低い文書であっても、表示順位を高く設定する。
例えば、検索結果に所望とする図表データが含まれていなかった場合、クライアント端末3に検索結果を表示して、ユーザが検索結果から所望とする図表データに類似する図表データにアノテーションを付与する。
制御部16は新たにアノテーションが付与された図表データに類似する図表データを検索実行部18で検索させる。
3 クライアント端末
10 文書検索支援装置
11 メッセージ送受信部
12 ページ画像生成分割部
13 特徴量抽出部
14 サムネイル生成部
15 SG要約作成部
16 制御部
17 更新部
18 検索実行部
19 文書要素特徴管理部
20 文書管理部
21 検索結果記憶部
Claims (6)
- 文書データと、該文書データに含まれるイメージデータの特徴量とを少なくとも記憶した記憶手段と、
クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、
前記抽出手段で抽出したイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、
前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶した文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、
前記第1検索手段及び前記第2検索手段で検索した文書データに含まれるイメージデータからステンドグラス状画像を生成する生成手段と、
を有することを特徴とする文書検索支援装置。 - 前記記憶手段は、文書データが他の文書データの作成時に利用された文書データであるか否かを示す情報を記憶しており、
前記第1検索手段及び前記第2検索手段で検索した文書データの表示順を、該文書データの利用状況に応じて変更する表示制御手段を更に有することを特徴とする請求項1記載の文書検索支援装置。 - スキャナによって読み込まれたイメージデータが検索対象に指定されると、前記抽出手段で図表領域のイメージデータを抽出して、前記第1検索手段で前記図表領域のイメージデータと、前記記憶手段に記憶したイメージデータとの特徴量を比較することを特徴とする請求項1または2記載の文書検索支援装置。
- 前記第1検索手段と前記第2検索手段との少なくとも一方は、前記記憶手段に記憶した文書データのうち、アノテーションが付与された文書データを検索対象とすることを特徴とする請求項1から3のいずれか一項記載の文書検索支援装置。
- 前記第2検索手段は、文書データの属性情報を検索キーとして前記記憶手段から該属性情報の一致する文書データを検出することを特徴とする請求項1から4のいずれか一項記載の文書検索支援装置。
- コンピュータを、
クライアント端末より指定された文書データ中に含まれるイメージデータとテキストデータとを抽出する抽出手段と、
前記抽出手段で抽出したイメージデータと、記憶手段に記憶されたイメージデータとの特徴量を比較して、前記抽出手段で抽出したイメージデータに類似するイメージデータを前記記憶手段から検索する第1検索手段と、
前記抽出手段で抽出したテキストデータからキーワードを取り出し、前記記憶手段に記憶された文書データの中から、前記キーワードが含まれる文書データを検索する第2検索手段と、
前記第1検索手段及び前記第2検索手段で検索した文書データからイメージデータを抽出してステンドグラス状画像を生成する生成手段として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007297341A JP2009123033A (ja) | 2007-11-15 | 2007-11-15 | 文書検索支援装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007297341A JP2009123033A (ja) | 2007-11-15 | 2007-11-15 | 文書検索支援装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009123033A true JP2009123033A (ja) | 2009-06-04 |
JP2009123033A5 JP2009123033A5 (ja) | 2010-12-09 |
Family
ID=40815101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007297341A Pending JP2009123033A (ja) | 2007-11-15 | 2007-11-15 | 文書検索支援装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009123033A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408618A (zh) * | 2018-09-27 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 关键词的推荐方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254892A (ja) * | 1997-03-11 | 1998-09-25 | Nec Corp | 文書検索・利用方法 |
JP2001101207A (ja) * | 1999-09-30 | 2001-04-13 | Oki Electric Ind Co Ltd | 文書要約装置 |
JP2005234772A (ja) * | 2004-02-18 | 2005-09-02 | Fuji Xerox Co Ltd | 文書管理装置および方法 |
JP2005293576A (ja) * | 2004-03-31 | 2005-10-20 | Fuji Xerox Co Ltd | ビデオにおける重要度の高い領域を判別する方法、装置及びプログラム |
-
2007
- 2007-11-15 JP JP2007297341A patent/JP2009123033A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254892A (ja) * | 1997-03-11 | 1998-09-25 | Nec Corp | 文書検索・利用方法 |
JP2001101207A (ja) * | 1999-09-30 | 2001-04-13 | Oki Electric Ind Co Ltd | 文書要約装置 |
JP2005234772A (ja) * | 2004-02-18 | 2005-09-02 | Fuji Xerox Co Ltd | 文書管理装置および方法 |
JP2005293576A (ja) * | 2004-03-31 | 2005-10-20 | Fuji Xerox Co Ltd | ビデオにおける重要度の高い領域を判別する方法、装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200400277003; 梅田 恭子 他: '知識メモを活用した研究情報共有方式の提案' 情報処理学会論文誌 Vol.42,No.11, 20011115, PP.2562-2571., 情報処理学会 * |
JPN6012045490; 梅田 恭子 他: '知識メモを活用した研究情報共有方式の提案' 情報処理学会論文誌 Vol.42,No.11, 20011115, PP.2562-2571., 情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408618A (zh) * | 2018-09-27 | 2019-03-01 | 北京字节跳动网络技术有限公司 | 关键词的推荐方法、装置、存储介质及电子设备 |
CN109408618B (zh) * | 2018-09-27 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 关键词的推荐方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5353148B2 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
US20070171482A1 (en) | Method and apparatus for managing information, and computer program product | |
US20120117051A1 (en) | Multi-modal approach to search query input | |
US7606797B2 (en) | Reverse value attribute extraction | |
JP2010073114A6 (ja) | 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム | |
JPH11250071A (ja) | 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体 | |
JP2009163743A (ja) | 画像処理装置および画像処理方法 | |
CN106980664B (zh) | 一种双语可比较语料挖掘方法及装置 | |
JP2006072744A (ja) | 文書処理装置、その制御方法、プログラム、及び記憶媒体 | |
KR20100101204A (ko) | 관심영역 기반의 유씨씨 영상 검색 방법 및 그 장치 | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
KR20090037704A (ko) | 직관적 이미지 검색을 위한 이미지의 메타 데이터 생성방법 | |
WO2008130501A1 (en) | Unstructured and semistructured document processing and searching and generation of value-based information | |
US20230153358A1 (en) | Systems and methods for collecting digital forensic evidence | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP2009123033A (ja) | 文書検索支援装置及びプログラム | |
JP2005258592A (ja) | フォーマット変換装置およびファイル検索装置 | |
JP2014010640A (ja) | 画像検索装置、情報処理方法、プログラム | |
JP2000020549A (ja) | 文書データベースシステムへの入力支援装置 | |
JPH10162024A (ja) | 電子ファイリング方法及び電子ファイリング装置 | |
JP5298484B2 (ja) | 文書処理装置 | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2008269085A (ja) | 情報推薦装置及び情報推薦システム | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム | |
JP2009230450A (ja) | 文書属性情報登録装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101025 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101025 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130108 |