JP4825544B2 - 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 - Google Patents
文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 Download PDFInfo
- Publication number
- JP4825544B2 JP4825544B2 JP2006049066A JP2006049066A JP4825544B2 JP 4825544 B2 JP4825544 B2 JP 4825544B2 JP 2006049066 A JP2006049066 A JP 2006049066A JP 2006049066 A JP2006049066 A JP 2006049066A JP 4825544 B2 JP4825544 B2 JP 4825544B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- seed
- seed document
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000000605 extraction Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 6
- 238000010792 warming Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 230000007613 environmental effect Effects 0.000 description 13
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 229910002092 carbon dioxide Inorganic materials 0.000 description 3
- 239000001569 carbon dioxide Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
select title from Documents where data contains '環境保護' ・・・(1)
expand from (select data from Documents where data contains '温暖化' limit 10) ・・・(2)
命令文(1)に示されるselect文は、文書データベース部14に定義されている「Documents」というテーブルからの検索命令である。より詳しくは、「Documentsテーブルにおいてdata項目(文書の本文)に”環境保護”という語を含むレコードのtitle項目(文書のタイトル)の値を検索せよ。」という命令を意味する。
select data from Documents where data contains '温暖化' limit 10 ・・・(2)
という問合せを文書データベース部14に対して実行することで、「温暖化」というキーワードに合致する文書のうち上位10件の文書のdata項目の値がシード文書として取得される。
select title from Documents where data contains '環境保護' ・・・(1)
expand from (select headline from MyFavoriteNews where headline like '%環境%') ・・・(3)
命令文(3)に示される、expand fromという記述に続く副問合せは、検索対象となる文書の集合を格納したテーブルDocumentsとは異なる文書の集合を格納したテーブルMyFavoriteNewsに対して、「headline項目に”環境”という文字列を含むレコードのheadline項目の値を検索せよ。」という命令を意味する。
select title from Documents where data contains '環境保護' ・・・(1)
expand from (
select data from Documents where data contains '二酸化炭素'
expand from (
select headline from RecentNews
where headline like '%温暖化%' limit 10
) ・・・(5)
limit 20) ・・・(4)
この例では、命令文(1)による「環境保護」に基づく検索に用いる拡張語を抽出するシード文書に、命令文(4)による検索結果の上位20件を使用している。更に、「二酸化炭素」に基づくシード文書の検索では、テーブルRecentNewsからheadline項目に「温暖化」を含むレコードの上位10件のheadline項目の値をシード文書として抽出された拡張語を追加している。
select title from Documents where data contains '環境保護'
expand from (
select data from Documents
where title like '%取り組み%'
and author like '%RRRR%'
and publish_date >= '2004/10/01' limit 20)
この例では「環境保護」に基づく検索に用いる拡張語を抽出するシード文書に、title項目(タイトル)に「取り組み」を含み、author項目(著者)に「RRRR」を含み、publish_date項目(公開日)が2004年10月1日以降である文書のうち上位20件が用いられている。
select title from Documents where data contains '環境保護'
expand from (
values ('近年の温暖化傾向が…',
'京都議定書が…',
'…', …)
)
この例では「環境保護」の検索に用いる拡張語を抽出するシード文書として、values()
に指定されている文字列が直に使用される。これらの文字列は、例えば、検索要求入力画面110におけるシード取得文字列入力領域112に入力させたものを用いてもよい。この場合、図3におけるステップS102からS105までの処理は不要となり、ステップS106においてシード文書取得部12はシード取得文字列入力領域112に入力された文字列を切り出して、それぞれをシード文書として使用する。
select title from Documents where title contains ‘環境保護’ ・・・(1)
expand from (select title from Documents where [所定の属性] in ・・・(6)
(select [所定の属性] from Documents where title contains ‘温暖化’ limit 10)) ・・・(7)
命令文(1)に示されるselect文は、上述したように文書データベース部14に定義されている「Documents」というテーブルからの検索命令である。より詳しくは、「Documentsテーブルにおいてtitle項目(文書の題名)に”環境保護”という語を含むレコードのtitle項目(文書のタイトル)の値を検索せよ。」という命令を意味する。
select title from Documents where [所定の属性] in ・・・(6)
(select [所定の属性] from Documents where title contains ‘温暖化’ limit 10) ・・・(7)
という問合せを文書データベース部14に対して実行することで、「温暖化」というキーワードに合致する文書のうち上位10件のいずれかの文書のtitle項目の値が、所定の属性の値に一致する文書がシード文書として取得される。
select title from Documents where 著者ID in ・・・(6)
(select 著者ID from Documents where title contains ‘温暖化’ limit 10) ・・・(7)
また、所定の属性が出版社である場合(すなわち、(7)によって検索された文書と出版社が共通する文書をシード文書とする場合)の上記(6)及び(7)の命令文は以下のようになる。
select title from Documents where 出版社ID in ・・・(6)
(select 出版社ID from Documents where title contains ‘温暖化’ limit 10)
更に、所定の属性が翻訳者である場合(すなわち、(7)によって検索された文書と翻訳者が共通する文書をシード文書とする場合)の上記(6)及び(7)の命令文は以下のようになる。
select title from Documents where 翻訳者ID in ・・・(6)
(select 翻訳者ID from Documents where title contains ‘温暖化’ limit 10) ・・・(7)
上述したように、第六の実施の形態における文書管理システム10によれば、利用者によって指定された文字列(シード取得文字列)に基づいて拡張語が選択されるため、利用者の意図により近い高い品質の検索結果を出力することができる。また、シード取得文字列は、検索条件の入力と共に入力させることができるため、利用者は、一回の入力操作で簡便に高品質の検索結果を得ることができる。
11 検索要求入力部
12 シード文書取得部
13 拡張語抽出部
14 文書データベース部
15 外部データベース
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 演算処理装置
105 表示装置
106 入力装置
Claims (16)
- 入力された検索条件に基づいて所定の文書の集合より前記検索条件に適合する文書を検索する文書検索装置であって、
前記検索条件とは別の情報に基づいてシード文書を取得するシード文書取得手段と、
前記シード文書取得手段によって取得された前記シード文書より前記検索条件と関連性を有する単語の集合を抽出する単語抽出手段と、
前記検索条件と前記単語抽出手段によって抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索する検索手段とを有し、
前記シード文書取得手段は、前記検索条件とは別に入力された文字列に基づいて前記シード文書を取得し、
前記シード文書取得手段は、前記文字列を構成する単語ごとに該文字列内の出現頻度を算出し、該出現頻度を用いて選択される所定の個数の単語に基づいて前記シード文書を取得することを特徴とする文書検索装置。 - 前記シード文書取得手段は、前記検索手段が対象とする前記所定の文書の集合と異なる文書の集合より前記シード文書を取得することを特徴とする請求項1記載の文書検索装置。
- 前記シード文書取得手段は、当該シード文書取得手段が取得したシード文書より抽出された前記単語の集合と前記文字列とに基づいて第二のシード文書を取得し、
前記単語抽出手段は、前記第二のシード文書より前記検索条件と関連性を有する単語の集合を抽出し、
前記検索手段は、前記検索条件と、前記第二のシード文書より抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項1又は2記載の文書検索装置。 - 前記シード文書取得手段は、前記文字列の少なくとも一部を書誌事項に含む文書を前記シード文書として取得することを特徴とする請求項1乃至3いずれか一項記載の文書検索装置。
- 前記シード文書取得手段は、前記検索条件とは別の情報に基づいて取得されたシード文書と所定の属性が共通する文書を更なるシード文書として取得し、
前記単語抽出手段は、前記シード文書取得手段によって取得された前記シード文書における出現頻度に基づいて、前記シード文書より所定数の単語を抽出し、
前記検索手段は、前記検索条件と前記単語抽出手段によって抽出された単語とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項1記載の文書検索装置。 - 前記検索条件とは別の情報は、前記検索条件に基づいて前記所定の文書の集合より検索された文字列、又は前記検索条件とは別に入力された文字列であることを特徴とする請求項5記載の文書検索装置。
- 前記所定の属性は、前記文書の出所を示す情報であることを特徴とする請求項5又は6記載の文書検索装置。
- 入力された検索条件に基づいて所定の文書の集合より前記検索条件に適合する文書を検索する検索手段と、前記検索に用いるシード文書を取得するシード文書取得手段と、前記シード文書より単語の集合を抽出する単語抽出手段とを有する文書検索装置により実行される文書検索方法であって、
前記シード文書取得手段が、前記検索条件とは別の情報に基づいてシード文書を取得するシード文書取得手順と、
前記単語抽出手段が、前記シード文書取得手順において取得された前記シード文書より前記検索条件と関連性を有する単語の集合を抽出する単語抽出手順と、
前記検索手段が、前記検索条件と前記単語抽出手順において抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索する検索手順とを有し、
前記シード文書取得手順は、前記検索条件とは別に入力された文字列に基づいて前記シード文書を取得し、
前記シード文書取得手順は、前記文字列を構成する単語ごとに該文字列内の出現頻度を算出し、該出現頻度を用いて選択される所定の個数の単語に基づいて前記シード文書を取得することを特徴とする文書検索方法。 - 前記シード文書取得手順は、前記検索手順が対象とする前記所定の文書の集合と異なる文書の集合より前記シード文書を取得することを特徴とする請求項8記載の文書検索方法。
- 前記シード文書取得手順は、当該シード文書取得手順が取得したシード文書より抽出された前記単語の集合と前記文字列とに基づいて第二のシード文書を取得し、
前記単語抽出手順は、前記第二のシード文書より前記検索条件と関連性を有する単語の集合を抽出し、
前記検索手順は、前記検索条件と、前記第二のシード文書より抽出された単語の集合とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項8又は9記載の文書検索方法。 - 前記シード文書取得手順は、前記文字列の少なくとも一部を書誌事項に含む文書を前記シード文書として取得することを特徴とする請求項8乃至10いずれか一項記載の文書検索方法。
- 前記シード文書取得手順は、前記検索条件とは別の情報に基づいて取得されたシード文書と所定の属性が共通する文書を更なるシード文書として取得し、
前記単語抽出手順は、前記シード文書取得手順において取得された前記シード文書における出現頻度に基づいて、前記シード文書より所定数の単語を抽出し、
前記検索手順は、前記検索条件と前記単語抽出手順によって抽出された単語とを用いて前記所定の文書の集合より文書を検索することを特徴とする請求項8記載の文書検索方法。 - 前記検索条件とは別の情報は、前記検索条件に基づいて前記所定の文書の集合より検索された文字列、又は前記検索条件とは別に入力された文字列であることを特徴とする請求項12記載の文書検索方法。
- 前記所定の属性は、前記文書の出所を示す情報であることを特徴とする請求項12又は13記載の文書検索方法。
- 請求項8乃至14いずれか一項記載の文書検索方法をコンピュータに実行させるための文書検索プログラム。
- 請求項15記載の文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006049066A JP4825544B2 (ja) | 2005-04-01 | 2006-02-24 | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
US11/395,731 US20060230031A1 (en) | 2005-04-01 | 2006-03-31 | Document searching device, document searching method, program, and recording medium |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005106886 | 2005-04-01 | ||
JP2005106886 | 2005-04-01 | ||
JP2005322793 | 2005-11-07 | ||
JP2005322793 | 2005-11-07 | ||
JP2006049066A JP4825544B2 (ja) | 2005-04-01 | 2006-02-24 | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007149047A JP2007149047A (ja) | 2007-06-14 |
JP4825544B2 true JP4825544B2 (ja) | 2011-11-30 |
Family
ID=37084270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006049066A Expired - Fee Related JP4825544B2 (ja) | 2005-04-01 | 2006-02-24 | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060230031A1 (ja) |
JP (1) | JP4825544B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4972358B2 (ja) * | 2006-07-19 | 2012-07-11 | 株式会社リコー | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。 |
US8065321B2 (en) * | 2007-06-20 | 2011-11-22 | Ricoh Company, Ltd. | Apparatus and method of searching document data |
JP2009271659A (ja) * | 2008-05-02 | 2009-11-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP5316158B2 (ja) * | 2008-05-28 | 2013-10-16 | 株式会社リコー | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
CN101901235B (zh) | 2009-05-27 | 2013-03-27 | 国际商业机器公司 | 文档处理方法和系统 |
US20130173610A1 (en) * | 2011-12-29 | 2013-07-04 | Microsoft Corporation | Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches |
US20140181097A1 (en) * | 2012-12-20 | 2014-06-26 | Microsoft Corporation | Providing organized content |
US10095750B2 (en) * | 2016-01-13 | 2018-10-09 | Ricoh Company, Ltd. | Adaptive query processing |
CN109558538B (zh) * | 2018-11-23 | 2022-02-01 | 北京字节跳动网络技术有限公司 | 输入联想词的构建方法、装置、存储介质及电子设备 |
JP7341090B2 (ja) * | 2020-03-17 | 2023-09-08 | 株式会社日立製作所 | 文献検索システム及び方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2894301B2 (ja) * | 1996-11-15 | 1999-05-24 | 日本電気株式会社 | 文脈情報を用いた文書検索方法および装置 |
US6480843B2 (en) * | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
JP4118571B2 (ja) * | 2002-02-15 | 2008-07-16 | 株式会社リコー | 文書検索装置、文書検索方法および記録媒体 |
JP4227797B2 (ja) * | 2002-05-27 | 2009-02-18 | 株式会社リコー | 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 |
JP2004029906A (ja) * | 2002-06-21 | 2004-01-29 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
JP4253483B2 (ja) * | 2002-09-20 | 2009-04-15 | 株式会社リコー | 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム |
JP4265737B2 (ja) * | 2002-09-20 | 2009-05-20 | 株式会社リコー | 文書検索装置、文書検索方法、文書検索プログラム、及び記録媒体 |
JP2004126840A (ja) * | 2002-10-01 | 2004-04-22 | Hitachi Ltd | 文書検索方法、プログラムおよびシステム |
JP4349875B2 (ja) * | 2003-09-19 | 2009-10-21 | 株式会社リコー | 文書フィルタリング装置、文書フィルタリング方法、および文書フィルタリングプログラム |
-
2006
- 2006-02-24 JP JP2006049066A patent/JP4825544B2/ja not_active Expired - Fee Related
- 2006-03-31 US US11/395,731 patent/US20060230031A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20060230031A1 (en) | 2006-10-12 |
JP2007149047A (ja) | 2007-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4825544B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 | |
EP1988476B1 (en) | Hierarchical metadata generator for retrieval systems | |
JP4644420B2 (ja) | ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置 | |
US8930822B2 (en) | Method for human-centric information access and presentation | |
US8019758B2 (en) | Generation of a blended classification model | |
US20090083230A1 (en) | Apparatus and method for supporting information searches | |
US20080021891A1 (en) | Searching a document using relevance feedback | |
US20060277189A1 (en) | Translation of search result display elements | |
US20110302149A1 (en) | Identifying dominant concepts across multiple sources | |
CN107870915B (zh) | 对搜索结果的指示 | |
JP2011215950A (ja) | キーワード提示装置、方法及びプログラム | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
US20040059726A1 (en) | Context-sensitive wordless search | |
JP2008084070A (ja) | 構造化文書検索装置およびプログラム | |
US20110252313A1 (en) | Document information selection method and computer program product | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
Singla et al. | A novel approach for document ranking in digital libraries using extractive summarization | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JPH05204983A (ja) | リレーショナルデータベース処理装置および処理方法 | |
US20070244861A1 (en) | Knowledge management tool | |
JP4933869B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体 | |
JP2007233752A (ja) | 検索装置、コンピュータプログラム及び記録媒体 | |
JP4000332B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2009276826A (ja) | 情報検索装置及び情報検索プログラム | |
JP4980604B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110816 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110912 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4825544 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |