JP4796527B2 - ドキュメント絞り込み検索装置、方法及びプログラム - Google Patents
ドキュメント絞り込み検索装置、方法及びプログラム Download PDFInfo
- Publication number
- JP4796527B2 JP4796527B2 JP2007076596A JP2007076596A JP4796527B2 JP 4796527 B2 JP4796527 B2 JP 4796527B2 JP 2007076596 A JP2007076596 A JP 2007076596A JP 2007076596 A JP2007076596 A JP 2007076596A JP 4796527 B2 JP4796527 B2 JP 4796527B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- list
- user terminal
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000004458 analytical method Methods 0.000 claims description 43
- 230000000877 morphologic effect Effects 0.000 claims description 22
- 230000001172 regenerating effect Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 241000207961 Sesamum Species 0.000 description 5
- 235000003434 Sesamum indicum Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 235000015429 Mirabilis expansa Nutrition 0.000 description 2
- 244000294411 Mirabilis expansa Species 0.000 description 2
- 239000003205 fragrance Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 235000013536 miso Nutrition 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000014347 soups Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析手段と、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成手段と、
前記単語リストをユーザ端末に表示する手段と、
(a)前記単語リストからユーザに単語を選択させる手段と、
(b)前記ドキュメント解析手段を用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成する手段と、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示する手段と、
前記(a)から(c)を繰り返す手段と、
を備えた情報検索装置。
まず、ドキュメントに含まれる文章を予め形態素解析して単語を抽出し、抽出された単語とドキュメントとを関連付けた初期状態の逆引きインデックスを作成しておく。
次に、初期状態の逆引きインデックスを用いて、作成された単語リストを所定の順序でユーザ端末に表示し、
(a)前記単語リストからユーザに単語を選択させる。
(b)選択された単語を含むドキュメント群の部分集合から前記逆引きインデックスを再構成する。
(c)再構成された逆引きインデックスを用いて前記単語リストを再生成し、ユーザ端末に再表示する。
そして上記(a)〜(c)の手順を繰り返す。
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析ステップと、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成ステップと、
前記単語リストをユーザ端末に表示するステップと、
(a)前記単語リストからユーザに単語を選択させるステップと、
(b)前記ドキュメント解析ステップを用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記(a)から(c)のステップを繰り返す方法。
コンピュータに、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析ステップと、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成ステップと、
前記単語リストをユーザ端末に表示するステップと、
(a)前記単語リストからユーザに単語を選択させるステップと、
(b)前記ドキュメント解析ステップを用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記(a)から(c)のステップを繰り返し実行させるステップ、とを備えたことを特徴とするコンピュータ・プログラム。
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。
図2は、本発明の好適な実施形態の一例に係るユーザ端末20及び情報検索装置10の機能ブロック図である。
図3は、本発明の好適な実施形態の一例に係る初期状態の逆引きインデックス生成処理のフローチャートである。
DF:単語Xのページ頻度(いくつのページに跨って出現したか)
N:総ページ数
図6は、本発明の好適な実施形態の一例に係る絞り込み検索処理のシーケンス図である。
図14は、本発明の好適な実施形態の一例に係る情報検索装置10、及びユーザ端末20のハードウェア構成を示す図である。以下、情報検索装置10を例にして説明するが、ユーザ端末20についても基本的には同様である。
10 情報検索装置
20、20a、20b、20c、20d ユーザ端末
30 通信ネットワーク
12 送受信部
13 制御部
15 記憶部
1301 ドキュメント収集手段
1302 ドキュメント解析手段
1303 単語リスト作成手段
1304 検索結果リスト作成手段
1530 ドキュメントテーブル
1531 初期状態の逆引きインデックス
1532 再構成した逆引きインデックス
Claims (8)
- ドキュメントを絞り込み検索するための情報検索装置であって、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて逆引きインデックスを作成するドキュメント解析手段と、
前記逆引きインデックスを用いて単語ごとに該単語を含むドキュメントを関連付けた単語リストを生成する単語リスト作成手段と、
前記生成した単語リストをユーザ端末に表示する手段と、
(a)前記ユーザ端末に表示した単語リストからユーザに単語を選択させる手段と、
(b)前記逆引きインデックスを用いて、前記選択された単語を含む前記ドキュメントの部分集合を抽出し、当該抽出した前記ドキュメントの部分集合について、前記ドキュメント解析手段により再構成した逆引きインデックスを作成する手段と、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示する手段と、
前記ユーザ端末に再表示した前記単語リストから前記ユーザが単語を選択する毎に前記(a)から(c)を繰り返し、前記(b)において2回目以降は前回再構成した前記逆引きインデックスを用いて、前記選択された単語を含む前記ドキュメントの部分集合をさらに抽出する手段と、
を備えた情報検索装置。 - 前記ドキュメント解析手段は、前記ユーザによって選択されたカテゴリーに分類されたドキュメントを対象とし、前記抽出された単語と前記ドキュメントの識別子とを関連付ける、請求項1に記載の情報検索装置。
- 前記ドキュメント解析手段は、前記形態素解析した単語から更にTFIDF法を用いて前記ドキュメントを特徴づける単語を抽出して前記ドキュメントと関連付けて前記逆引きインデックスを作成する、請求項1乃至2のいずれかに記載の情報検索装置。
- 前記表示する手段及び前記再表示する手段は、前記抽出された単語を含むドキュメント数の多い順序に表示する、請求項1乃至3のいずれか一項に記載の情報検索装置。
- 前記表示する手段及び再表示する手段は、所定の閾値以上のドキュメント数のドキュメントのみを表示する、請求項1乃至4のいずれか一項に記載の情報検索装置。
- 前記表示する手段及び再表示する手段は、閲覧頻度の高い順にドキュメントを表示する、請求項1乃至5のいずれか一項に記載の情報検索装置。
- コンピュータがドキュメントを絞り込み検索するための方法であって、前記コンピュータが、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて逆引きインデックスを作成するドキュメント解析ステップと、
前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを生成する単語リスト作成ステップと、
前記生成した単語リストをユーザ端末に表示するステップと、
(a)前記ユーザ端末に表示した単語リストからユーザに単語を選択させるステップと、
(b)前記逆引きインデックスを用いて、前記選択された単語を含む前記ドキュメントの部分集合を抽出し、当該抽出した前記ドキュメントの部分集合について、前記ドキュメント解析ステップを更に実行して再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記ユーザ端末に再表示した前記単語リストから前記ユーザが単語を選択する毎に前記(a)から(c)を繰り返し、前記(b)において2回目以降は前回再構成した前記逆引きインデックスを用いて、前記選択された単語を含む前記ドキュメントの部分集合をさらに抽出するステップとを実行する方法。 - ドキュメントを絞り込み検索するためのコンピュータ・プログラムであって、
コンピュータに、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて逆引きインデックスを作成するドキュメント解析ステップと、
前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを生成する単語リスト作成ステップと、
前記生成した単語リストをユーザ端末に表示するステップと、
(a)前記ユーザ端末に表示した単語リストからユーザに単語を選択させるステップと、
(b)前記逆引きインデックスを用いて、前記選択された単語を含む前記ドキュメントの部分集合を抽出し、当該抽出した前記ドキュメントの部分集合について、前記ドキュメント解析ステップを更に実行して再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記ユーザ端末に再表示した前記単語リストから前記ユーザが単語を選択する毎に前記(a)から(c)を繰り返し、前記(b)において2回目以降は前回再構成した前記逆引きインデックスを用いて、前記選択された単語を含む前記ドキュメントの部分集合をさらに抽出するステップとを実行させるコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076596A JP4796527B2 (ja) | 2007-03-23 | 2007-03-23 | ドキュメント絞り込み検索装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076596A JP4796527B2 (ja) | 2007-03-23 | 2007-03-23 | ドキュメント絞り込み検索装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008234559A JP2008234559A (ja) | 2008-10-02 |
JP4796527B2 true JP4796527B2 (ja) | 2011-10-19 |
Family
ID=39907225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007076596A Active JP4796527B2 (ja) | 2007-03-23 | 2007-03-23 | ドキュメント絞り込み検索装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4796527B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5581857B2 (ja) * | 2010-07-07 | 2014-09-03 | 日本電気株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
JP2012084029A (ja) * | 2010-10-14 | 2012-04-26 | Kyocera Mita Corp | 文書管理装置及び文書管理プログラム |
JP5525424B2 (ja) * | 2010-12-07 | 2014-06-18 | 日本電信電話株式会社 | 文書検索装置、文書検索方法及び文書検索プログラム |
CN109559256A (zh) * | 2018-11-15 | 2019-04-02 | 苏州征之魂专利技术服务有限公司 | 一种专利数据挖掘系统及方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04114276A (ja) * | 1990-09-05 | 1992-04-15 | Chubu Nippon Denki Software Kk | 索引を持つファイルに対する条件検索方式 |
JPH08249346A (ja) * | 1995-03-10 | 1996-09-27 | Toshiba Corp | 文書検索装置及び文書生成方法 |
JP2004054619A (ja) * | 2002-07-19 | 2004-02-19 | Nec Soft Ltd | 文書検索システム、文書検索方法、および、文書検索プログラム |
JP2004258832A (ja) * | 2003-02-25 | 2004-09-16 | Toshiba Corp | 文書検索システムおよび文書検索方法 |
JP2005242454A (ja) * | 2004-02-24 | 2005-09-08 | Seiko Epson Corp | 文書情報検索装置および文書情報検索方法ならびにそのプログラム |
JP2006178599A (ja) * | 2004-12-21 | 2006-07-06 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
-
2007
- 2007-03-23 JP JP2007076596A patent/JP4796527B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008234559A (ja) | 2008-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10242089B2 (en) | Method and system for searching for digital assets | |
JP4234740B2 (ja) | キーワード提示装置、プログラムおよびキーワード提示方法 | |
US8312022B2 (en) | Search engine optimization | |
KR100672277B1 (ko) | 개인화 검색 방법 및 검색 서버 | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
US20050222989A1 (en) | Results based personalization of advertisements in a search engine | |
US8495062B2 (en) | System and method for generating search terms | |
US20090313220A1 (en) | Expansion of Search Result Information | |
JP5327784B2 (ja) | 計算機システム、情報収集支援装置及び情報収集支援方法 | |
JP4796527B2 (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
KR100455439B1 (ko) | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 | |
JP4850882B2 (ja) | Webページにリンクを挿入する方法 | |
JP2020140503A (ja) | 文書検索装置及び文書検索方法 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP2014002653A (ja) | 共起語を特定する装置およびプログラム | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
JP2012141681A (ja) | クエリセグメント位置決定装置 | |
JP2004362121A (ja) | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 | |
JP2007188134A (ja) | 索引ファイルを用いた文書検索の方法 | |
WO2017175247A1 (en) | Method and system for generating content from search results rendered by a search engine | |
WO2019141043A1 (zh) | 提取浏览器搜索引擎的方法、设备及存储介质 | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP4980604B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 | |
JP4574186B2 (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 | |
JP2014120080A (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4796527 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |