JP2008234559A - ドキュメント絞り込み検索装置、方法及びプログラム - Google Patents
ドキュメント絞り込み検索装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2008234559A JP2008234559A JP2007076596A JP2007076596A JP2008234559A JP 2008234559 A JP2008234559 A JP 2008234559A JP 2007076596 A JP2007076596 A JP 2007076596A JP 2007076596 A JP2007076596 A JP 2007076596A JP 2008234559 A JP2008234559 A JP 2008234559A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- index
- list
- word list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 42
- 230000000877 morphologic effect Effects 0.000 claims description 22
- 230000001172 regenerating effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 241000207961 Sesamum Species 0.000 description 5
- 235000003434 Sesamum indicum Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 235000015429 Mirabilis expansa Nutrition 0.000 description 2
- 244000294411 Mirabilis expansa Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000003205 fragrance Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 235000013536 miso Nutrition 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 235000014347 soups Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ドキュメントを絞り込み検索するための情報検索装置10が、前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックス1531を作成して前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを生成し、ユーザ端末20に表示する。そして、(a)前記単語リストからユーザに単語を選択させて、(b)初期状態の逆引きインデックス1531から前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックス1532を作成して、(c)再構成した逆引きインデックス1532を用いて単語リストを再生成し、ユーザ端末20に再表示する。そして、更に、(a)から(c)を繰り返す方法。
【選択図】図2
Description
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析手段と、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成手段と、
前記単語リストをユーザ端末に表示する手段と、
(a)前記単語リストからユーザに単語を選択させる手段と、
(b)前記ドキュメント解析手段を用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成する手段と、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示する手段と、
前記(a)から(c)を繰り返す手段と、
を備えた情報検索装置。
まず、ドキュメントに含まれる文章を予め形態素解析して単語を抽出し、抽出された単語とドキュメントとを関連付けた初期状態の逆引きインデックスを作成しておく。
次に、初期状態の逆引きインデックスを用いて、作成された単語リストを所定の順序でユーザ端末に表示し、
(a)前記単語リストからユーザに単語を選択させる。
(b)選択された単語を含むドキュメント群の部分集合から前記逆引きインデックスを再構成する。
(c)再構成された逆引きインデックスを用いて前記単語リストを再生成し、ユーザ端末に再表示する。
そして上記(a)〜(c)の手順を繰り返す。
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析ステップと、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成ステップと、
前記単語リストをユーザ端末に表示するステップと、
(a)前記単語リストからユーザに単語を選択させるステップと、
(b)前記ドキュメント解析ステップを用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記(a)から(c)のステップを繰り返す方法。
コンピュータに、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析ステップと、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成ステップと、
前記単語リストをユーザ端末に表示するステップと、
(a)前記単語リストからユーザに単語を選択させるステップと、
(b)前記ドキュメント解析ステップを用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記(a)から(c)のステップを繰り返し実行させるステップ、とを備えたことを特徴とするコンピュータ・プログラム。
図1は、本発明の好適な実施形態の一例に係るシステム1の全体構成を示す図である。
図2は、本発明の好適な実施形態の一例に係るユーザ端末20及び情報検索装置10の機能ブロック図である。
図3は、本発明の好適な実施形態の一例に係る初期状態の逆引きインデックス生成処理のフローチャートである。
DF:単語Xのページ頻度(いくつのページに跨って出現したか)
N:総ページ数
図6は、本発明の好適な実施形態の一例に係る絞り込み検索処理のシーケンス図である。
図14は、本発明の好適な実施形態の一例に係る情報検索装置10、及びユーザ端末20のハードウェア構成を示す図である。以下、情報検索装置10を例にして説明するが、ユーザ端末20についても基本的には同様である。
10 情報検索装置
20、20a、20b、20c、20d ユーザ端末
30 通信ネットワーク
12 送受信部
13 制御部
15 記憶部
1301 ドキュメント収集手段
1302 ドキュメント解析手段
1303 単語リスト作成手段
1304 検索結果リスト作成手段
1530 ドキュメントテーブル
1531 初期状態の逆引きインデックス
1532 再構成した逆引きインデックス
Claims (8)
- ドキュメントを絞り込み検索するための情報検索装置であって、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析手段と、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成手段と、
前記単語リストをユーザ端末に表示する手段と、
(a)前記単語リストからユーザに単語を選択させる手段と、
(b)前記ドキュメント解析手段を用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成する手段と、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示する手段と、
前記(a)から(c)を繰り返す手段と、
を備えた情報検索装置。 - 前記ドキュメント解析手段は、前記ユーザによって選択されたカテゴリーに分類されたドキュメントを対象とし、前記抽出された単語と前記ドキュメントの識別子とを関連付ける、請求項1に記載の情報検索装置。
- 前記抽出する手段は、前記形態素解析した単語から更にTFIDF法を用いて前記ドキュメントを特徴づける単語を抽出する、請求項1乃至2のいずれかに記載の情報検索装置。
- 前記表示する手段及び前記再表示する手段は、前記抽出された単語を含むドキュメント数の多い順序に表示する、請求項1乃至3のいずれか一項に記載の情報検索装置。
- 前記表示する手段及び再表示する手段は、所定の閾値以上のドキュメント数のドキュメントのみを表示する、請求項1乃至4のいずれか一項に記載の情報検索装置。
- 前記表示する手段及び再表示する手段は、閲覧頻度の高い順にドキュメントを表示する、請求項1乃至5のいずれか一項に記載の情報検索装置。
- ドキュメントを絞り込み検索するための方法であって、
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析ステップと、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成ステップと、
前記単語リストをユーザ端末に表示するステップと、
(a)前記単語リストからユーザに単語を選択させるステップと、
(b)前記ドキュメント解析ステップを用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記(a)から(c)のステップを繰り返す方法。 - ドキュメントを絞り込み検索するためのコンピュータ・プログラムであって、
コンピュータに
前記ドキュメントに含まれる文章を形態素解析することによって単語を抽出して前記ドキュメントと関連付けて初期状態の逆引きインデックスを作成するドキュメント解析ステップと、
前記初期状態の前記逆引きインデックスを用いて前記抽出された単語ごとに該単語を含むドキュメントを関連付けた単語リストを作成する単語リスト作成ステップと、
前記単語リストをユーザ端末に表示するステップと、
(a)前記単語リストからユーザに単語を選択させるステップと、
(b)前記ドキュメント解析ステップを用いて前記初期状態の逆引きインデックスから前記選択された単語を含むドキュメントの部分集合から再構成した逆引きインデックスを作成するステップと、
(c)前記再構成した逆引きインデックスを用いて前記単語リストを再生成し、前記ユーザ端末に再表示するステップと、
前記(a)から(c)のステップを繰り返し実行させるステップ、とを備えたことを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076596A JP4796527B2 (ja) | 2007-03-23 | 2007-03-23 | ドキュメント絞り込み検索装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007076596A JP4796527B2 (ja) | 2007-03-23 | 2007-03-23 | ドキュメント絞り込み検索装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008234559A true JP2008234559A (ja) | 2008-10-02 |
JP4796527B2 JP4796527B2 (ja) | 2011-10-19 |
Family
ID=39907225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007076596A Active JP4796527B2 (ja) | 2007-03-23 | 2007-03-23 | ドキュメント絞り込み検索装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4796527B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012018536A (ja) * | 2010-07-07 | 2012-01-26 | Nec Corp | 情報検索装置、情報検索方法および情報検索プログラム |
JP2012084029A (ja) * | 2010-10-14 | 2012-04-26 | Kyocera Mita Corp | 文書管理装置及び文書管理プログラム |
JP2012123566A (ja) * | 2010-12-07 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法及び文書検索プログラム |
CN109559256A (zh) * | 2018-11-15 | 2019-04-02 | 苏州征之魂专利技术服务有限公司 | 一种专利数据挖掘系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04114276A (ja) * | 1990-09-05 | 1992-04-15 | Chubu Nippon Denki Software Kk | 索引を持つファイルに対する条件検索方式 |
JPH08249346A (ja) * | 1995-03-10 | 1996-09-27 | Toshiba Corp | 文書検索装置及び文書生成方法 |
JP2004054619A (ja) * | 2002-07-19 | 2004-02-19 | Nec Soft Ltd | 文書検索システム、文書検索方法、および、文書検索プログラム |
JP2004258832A (ja) * | 2003-02-25 | 2004-09-16 | Toshiba Corp | 文書検索システムおよび文書検索方法 |
JP2005242454A (ja) * | 2004-02-24 | 2005-09-08 | Seiko Epson Corp | 文書情報検索装置および文書情報検索方法ならびにそのプログラム |
JP2006178599A (ja) * | 2004-12-21 | 2006-07-06 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
-
2007
- 2007-03-23 JP JP2007076596A patent/JP4796527B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04114276A (ja) * | 1990-09-05 | 1992-04-15 | Chubu Nippon Denki Software Kk | 索引を持つファイルに対する条件検索方式 |
JPH08249346A (ja) * | 1995-03-10 | 1996-09-27 | Toshiba Corp | 文書検索装置及び文書生成方法 |
JP2004054619A (ja) * | 2002-07-19 | 2004-02-19 | Nec Soft Ltd | 文書検索システム、文書検索方法、および、文書検索プログラム |
JP2004258832A (ja) * | 2003-02-25 | 2004-09-16 | Toshiba Corp | 文書検索システムおよび文書検索方法 |
JP2005242454A (ja) * | 2004-02-24 | 2005-09-08 | Seiko Epson Corp | 文書情報検索装置および文書情報検索方法ならびにそのプログラム |
JP2006178599A (ja) * | 2004-12-21 | 2006-07-06 | Fuji Xerox Co Ltd | 文書検索装置および方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012018536A (ja) * | 2010-07-07 | 2012-01-26 | Nec Corp | 情報検索装置、情報検索方法および情報検索プログラム |
JP2012084029A (ja) * | 2010-10-14 | 2012-04-26 | Kyocera Mita Corp | 文書管理装置及び文書管理プログラム |
JP2012123566A (ja) * | 2010-12-07 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置、文書検索方法及び文書検索プログラム |
CN109559256A (zh) * | 2018-11-15 | 2019-04-02 | 苏州征之魂专利技术服务有限公司 | 一种专利数据挖掘系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4796527B2 (ja) | 2011-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10242089B2 (en) | Method and system for searching for digital assets | |
JP4234740B2 (ja) | キーワード提示装置、プログラムおよびキーワード提示方法 | |
KR100672277B1 (ko) | 개인화 검색 방법 및 검색 서버 | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
US20020055919A1 (en) | Method and system for gathering, organizing, and displaying information from data searches | |
US8495062B2 (en) | System and method for generating search terms | |
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
KR20160042896A (ko) | 마이닝된 하이퍼링크 텍스트 스니펫을 통한 이미지 브라우징 | |
JP4796527B2 (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
KR100455439B1 (ko) | 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법 | |
JP4850882B2 (ja) | Webページにリンクを挿入する方法 | |
JP2006285656A (ja) | 文書検索システム、記録媒体、プログラム、および文書検索方法 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
JP4728125B2 (ja) | 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム | |
JP2004362121A (ja) | 情報検索装置、携帯情報端末装置、情報検索方法、情報検索プログラム及び記録媒体 | |
JP2009282593A (ja) | コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム | |
JP4477931B2 (ja) | 検索リクエスト装置、検索リクエスト方法、検索リクエストプログラムおよび検索リクエストプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
WO2017175247A1 (en) | Method and system for generating content from search results rendered by a search engine | |
JP2006236221A (ja) | ウエブページ検索のための管理サーバ装置 | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP5416023B2 (ja) | 閲覧端末及び方法 | |
JP2008262442A (ja) | 検索キーデータを表示させる方法及びサーバ | |
JP2014120080A (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 | |
JP2006164045A (ja) | 共起グラフ作成方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110502 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110712 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4796527 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |