JP4754849B2 - 文書検索装置、文書検索方法、および文書検索プログラム - Google Patents
文書検索装置、文書検索方法、および文書検索プログラム Download PDFInfo
- Publication number
- JP4754849B2 JP4754849B2 JP2005064680A JP2005064680A JP4754849B2 JP 4754849 B2 JP4754849 B2 JP 4754849B2 JP 2005064680 A JP2005064680 A JP 2005064680A JP 2005064680 A JP2005064680 A JP 2005064680A JP 4754849 B2 JP4754849 B2 JP 4754849B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- documents
- conforming
- classification parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索手段と、文書をベクトルで表現したベクトル空間上で、前記適合文書指定手段により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索手段により検索された複数の前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出手段と、前記適合文書指定手段により指定された前記適合文書、及び前記不適合文書抽出手段により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出手段により抽出された前記不適合文書の集合よりも前記適合文書指定手段により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定手段により指定された前記適合文書の集合よりも前記不適合文書抽出手段により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成手段と、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの補正を行うプレフィルタリング手段と、前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索手段と、前記第3の関連文書検索手段により検索された前記第3の関連文書から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する分類手段と、前記分類手段による分類結果を前記表示画面に表示させる第2の表示制御手段と、を備えていることを特徴とする。
まず、この発明の実施の形態にかかる文書検索装置のハードウエア構成について説明する。図1は、この発明の実施の形態にかかる文書検索装置のハードウエア構成を示す図である。この文書検索装置100は、各種演算を行って装置全体を制御するCPU101と、各種のROMやRAMからなるメモリ102とを備えており、それらはバス103で接続されている。
次に、この発明の実施の形態にかかる文書検索装置の機能的構成について説明する。図2は、この発明の実施の形態にかかる文書検索装置の機能的構成を示すブロック図である。
次に、文書検索装置による文書検索処理の手順について説明する。図3は、この文書検索処理の手順を示すフローチャートである。この処理は、CPU101が文書検索プログラム120を実行することにより行われる。
,wn}と、文書ベクトルx={x1,x2,・・・,xn}により、
Σwi×xi+β ・・・(1)
(βはしきい値)の形式で表現され、(適合文書か非適合文書か判定したい)被フィルタリング文書の文書ベクトルxに対して、
f(x)>0 ・・・(2)
の場合に、xは適合文書になり、
f(x)≦0 ・・・(3)
の場合に、xは不適合文書になる。
score(d i)←0 ・・・(4)
score(di)←score(di)+value(wj) ・・・(5)
score(di)+b ・・・(6)
の値の正負を判定する。diが適合文書であるのに式(6)の値が負であるか、diが不適合文書であるのに式(6)の値が正である場合は、分類用パラメータw1,w2,・・・,wnに不適切なものがあることを意味する。
用パラメータをすべて評価した後と負の分類用パラメータの評価中に起こる可能性がある。また、学習データとして与えられた不適合文書xに対して、f(x)>0になるのは、
正の分類用パラメータの評価中と負の分類用パラメータをすべて評価した後に起きる可能性がある。分類用パラメータの補正は、適合文書を使用して負の分類用パラメータを補正し、不適合文書を使用して正の分類用パラメータを補正する。
101 CPU
102 メモリ
103 バス
104 磁気記憶装置
105 入力装置
106 表示装置
107 記憶媒体
108 記憶媒体読取装置
109 通信制御装置
110 ネットワーク
120 文書検索プログラム
201 検索語抽出部
202 関連文書検索部
203 適合文書指定部
204 関連語抽出部
205 不適合文書抽出部
206 学習部
207 プレフィルタリング部
208 分類部
210 データベース(DB)
220 文書検索部
230 入出力部
Claims (5)
- 操作命令を受け付ける操作手段と、
前記操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出手段と、
電子化された複数の文書を文書群として蓄積する蓄積手段と、
前記蓄積手段に蓄積されている文書群から、前記検索語抽出手段により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索手段と、
表示動作を行う表示手段と、
前記第1の関連文書検索手段により検索された前記第1の関連文書を前記表示手段に表示させる第1の表示制御手段と、
前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索手段により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定手段と、
前記適合文書指定手段により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出手段と、
前記蓄積手段に蓄積されている文書群から、前記関連語抽出手段により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索手段と、
文書をベクトルで表現したベクトル空間上で、前記適合文書指定手段により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索手段により検索された複数の前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出手段と、
前記適合文書指定手段により指定された前記適合文書、及び前記不適合文書抽出手段により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出手段により抽出された前記不適合文書の集合よりも前記適合文書指定手段により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定手段により指定された前記適合文書の集合よりも前記不適合文書抽出手段により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成手段と、
前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの補正を行い、
前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの補正を行うプレフィルタリング手段と、
前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索手段と、
前記第3の関連文書検索手段により検索された前記第3の関連文書から、前記プレフィルタリング手段で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する分類手段と、
前記分類手段による分類結果を前記表示画面に表示させる第2の表示制御手段と、
を備えていることを特徴とする文書検索装置。
- 前記プレフィルタリング手段は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出手段により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記正の分類用パラメータの削除を行い、
前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成手段により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定手段により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成手段により生成された前記負の分類用パラメータの削除を行うことを特徴とする請求項1に記載の文書検索装置。
- コンピュータが、
操作を受け付ける操作手段に対する検索者の入力操作に応じて検索用の語句を検索語として抽出する検索語抽出工程と、
電子化された複数の文書を文書群として蓄積する蓄積手段に蓄積されている文書群から、前記検索語抽出工程により抽出された前記検索語を含む文書を第1の関連文書として検索する第1の関連文書検索工程と、
前記第1の関連文書検索工程により検索された前記第1の関連文書を表示させる第1の検索結果表示工程と、
前記操作手段に対する検索者の入力操作に応じて、前記第1の関連文書検索工程により検索された複数の前記第1の関連文書から検索者が求める適合文書を指定する適合文書指定工程と、
前記適合文書指定工程により指定された前記適合文書に基づいて検索用の語句を関連語として抽出する関連語抽出工程と、
前記蓄積手段に蓄積されている文書群から、前記関連語抽出工程により抽出された前記関連語を含む文書を第2の関連文書として検索する第2の関連文書検索工程と、
文書をベクトルで表現したベクトル空間上で、前記適合文書指定工程により指定された前記適合文書の集合の中心ベクトルと、前記第2の関連文書検索工程により検索された前記第2の関連文書に含まれる文書の文書ベクトルと、の類似度に基づき、不適合文書を抽出する不適合文書抽出工程と、
前記適合文書指定工程により指定された前記適合文書、及び前記不適合文書抽出工程により抽出された前記不適合文書の集合から単語を抽出し、前記抽出した単語が前記不適合文書抽出工程により抽出された前記不適合文書の集合よりも前記適合文書指定工程により指定された前記適合文書の集合に多く含まれる場合は正の分類用パラメータとし、該抽出した単語が前記適合文書指定工程により指定された前記適合文書の集合よりも前記不適合文書抽出工程により抽出された前記不適合文書の集合に多く含まれる場合は負の分類用パラメータとする分類用パラメータ生成工程と、
前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの補正を行い、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの補正を行うプレフィルタリング工程と、
前記蓄積手段に蓄積されている文書群から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを含む文書を第3の関連文書として検索する第3の関連文書検索工程と、
前記第3の関連文書検索工程により検索された前記第3の関連文書から、前記プレフィルタリング工程で補正が行われた前記分類用パラメータを使用してフィルタリングを行うことにより、適合文書を分類する適合文書分類工程と、
前記適合文書分類工程による分類結果を表示する第2の表示工程と、
を実行することを特徴とする文書検索方法。
- 前記プレフィルタリング工程は、前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記正の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記不適合文書抽出工程により抽出された前記不適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記正の分類用パラメータの削除を行い、
前記蓄積手段に蓄積されている文書群に対して前記分類用パラメータ生成工程により生成された前記負の分類用パラメータを含む文書の検索を行い、検索した結果得られた文書群と前記適合文書指定工程により指定された前記適合文書の集合に一致する文書の有無に基づき、前記分類用パラメータ生成工程により生成された前記負の分類用パラメータの削除を行うことを特徴とする請求項3に記載の文書検索方法。
- 請求項3又は4のいずれか一つに記載の文書検索方法をコンピュータに実行させることを特徴とする文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005064680A JP4754849B2 (ja) | 2005-03-08 | 2005-03-08 | 文書検索装置、文書検索方法、および文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005064680A JP4754849B2 (ja) | 2005-03-08 | 2005-03-08 | 文書検索装置、文書検索方法、および文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006251935A JP2006251935A (ja) | 2006-09-21 |
JP4754849B2 true JP4754849B2 (ja) | 2011-08-24 |
Family
ID=37092394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005064680A Expired - Fee Related JP4754849B2 (ja) | 2005-03-08 | 2005-03-08 | 文書検索装置、文書検索方法、および文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4754849B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102160066A (zh) * | 2008-06-24 | 2011-08-17 | 沙伦·贝伦宗 | 特别适用于专利文献的搜索引擎和方法 |
JP5199168B2 (ja) * | 2008-09-30 | 2013-05-15 | ヤフー株式会社 | 検索装置 |
KR101413988B1 (ko) * | 2012-04-25 | 2014-07-01 | (주)이스트소프트 | 문서의 이산분리시스템 및 방법 |
CN104899322B (zh) | 2015-06-18 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
JP7243196B2 (ja) * | 2019-01-11 | 2023-03-22 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7238411B2 (ja) * | 2019-01-11 | 2023-03-14 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4179858B2 (ja) * | 2002-11-28 | 2008-11-12 | 株式会社リコー | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
-
2005
- 2005-03-08 JP JP2005064680A patent/JP4754849B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006251935A (ja) | 2006-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8335787B2 (en) | Topic word generation method and system | |
JP5161658B2 (ja) | キーワード入力支援装置、キーワード入力支援方法及びプログラム | |
JP2004326216A (ja) | 文書検索装置、方法、プログラム、及び記録媒体 | |
JP6123143B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
JP4754849B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JPWO2006134682A1 (ja) | 固有表現抽出装置、方法、及びプログラム | |
JP2019053767A (ja) | 保守装置 | |
JP7172187B2 (ja) | 情報表示方法、情報表示プログラムおよび情報表示装置 | |
JP5418138B2 (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP2006251975A (ja) | テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置 | |
JP2001265774A (ja) | 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム | |
JP3743204B2 (ja) | データ分析支援方法および装置 | |
WO2011052116A1 (ja) | ウェブクローリング初期点選択システム、方法及びプログラム | |
JP4423385B2 (ja) | 文書分類支援装置およびコンピュータプログラム | |
JPH11272709A (ja) | ファイル検索方式 | |
JP4416644B2 (ja) | 予測機能付き文字処理装置、方法、記録媒体およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP4574186B2 (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 | |
JP2006350749A (ja) | 文書フィルタリング装置、文書フィルタリング方法、プログラムおよび記録媒体 | |
JP2005234772A (ja) | 文書管理装置および方法 | |
JP3902825B2 (ja) | 文書検索システムおよび方法 | |
JP4496797B2 (ja) | 文書管理装置および方法 | |
JP2002092017A (ja) | 概念辞書拡張方法、装置、および概念辞書拡張プログラムを記録した記録媒体 | |
JP3383485B2 (ja) | 情報検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110405 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110422 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110524 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110526 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140603 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4754849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140603 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |