JP2005050239A - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents
文書検索装置、文書検索方法および文書検索プログラム Download PDFInfo
- Publication number
- JP2005050239A JP2005050239A JP2003283493A JP2003283493A JP2005050239A JP 2005050239 A JP2005050239 A JP 2005050239A JP 2003283493 A JP2003283493 A JP 2003283493A JP 2003283493 A JP2003283493 A JP 2003283493A JP 2005050239 A JP2005050239 A JP 2005050239A
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- search
- search key
- unnecessary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】制御装置1は、入力装置2により検索キー文書を入力すると、その文書の単語切りを形態素解析を用いて実行する。また、制御装置1は、外部記憶装置4に格納された検索対象文書の単語切りも形態素解析を用いて実行する。次に、制御装置1は、この単語切りによって抽出された各単語をシソーラス辞書6の同義語情報を用いて同義語グループへのまとめ上げを行った後、その検索キー単語それぞれがいくつの文書に出現するかを算出する。そして、制御装置1は、その出現頻度が所定の閾値を越える単語を不要語に設定したうえで、検索キー文書と各検索対象文書との類似度を算出する。
【選択図】 図1
Description
まず、この発明の第1実施形態について説明する。
次に、この発明の第2実施形態について説明する。
この第2実施形態の文書検索装置における制御装置1の詳細構成と、前述した第1実施形態の文書検索装置における制御装置1の詳細構成との違いは、この第2実施形態の文書検索装置における制御装置1では、制御部に登録文書数算出部215、メモリ部に登録文書数格納バッファ部260がそれぞれ新設された点にある。
次に、この発明の第3実施形態について説明する。
Claims (7)
- 与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出する文書検索装置において、
前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出手段と、
前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出手段と、
前記検索キー単語抽出手段により抽出された検索キー単語および前記検索対象単語抽出手段により抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制手段と、
前記同義語統制手段により同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出手段と、
前記出現文書数算出手段により求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別手段と、
前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別手段の判別結果を用いて算出する類似度算出手段と
を具備することを特徴とする文書検索装置。 - 不要語と判断する出現文書数を設定する不要語条件指定手段をさらに具備し、
前記不要語判別手段は、前記出現文書数算出手段により求められた出現文書数が前記不要語条件指定手段により指定された出現文書数以上であった場合に、その検索キー単語を不要語であると判断することを特徴とする請求項1記載の文書検索装置。 - 前記類似度算出手段により求められた類似度に基づき、検索対象文書をソートするソート手段と、
前記ソート手段により得られた検索対象文書のソート結果を表示する類似文書検索結果表示手段と
をさらに具備することを特徴とする請求項1または2記載の文書検索装置。 - 前記文書データベースに登録された文書の数を算出する登録文書数算出手段をさらに具備し、
前記不要語条件指定手段は、文書データベースに登録された全文書数に対する出現文書数の割合を不要語の条件として入力し、各文書データベースにおいて不要語と判断する出現文書数を各々算出することを特徴とする請求項2記載の文書検索装置。 - 前記出現文書数算出手段は、前記検索キー単語のまとめ上げにより得られた同義語グループを構成する各単語それぞれについて出現文書数を算出し、
前記不要語判別手段は、前記同義語グループを構成する各単語それぞれについて不要語か否かを判断することを特徴とする請求項1、2、3または4記載の文書検索装置。 - 与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出する文書検索方法であって、
前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出ステップと、
前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出ステップと、
前記検索キー単語抽出ステップにより抽出された検索キー単語および前記検索対象単語抽出ステップにより抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制ステップと、
前記同義語統制ステップにより同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出ステップと、
前記出現文書数算出ステップにより求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別ステップと、
前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別ステップの判別結果を用いて算出する類似度算出ステップと
を具備することを特徴とする文書検索方法。 - 与えられた文書の内容と類似する内容をもつ文書を文書データベース中から検出させるためのコンピュータを、
前記文書データベース中の各文書からその内容を表す検索対象単語を抽出する検索対象単語抽出手段、
前記与えられた文書から検索キーとなる検索キー単語を抽出する検索キー単語抽出手段、
前記検索キー単語抽出手段により抽出された検索キー単語および前記検索対象単語抽出手段により抽出された検索対象単語をシソーラス情報により同義語グループにまとめ上げてその同義語グループを代表する単語に置き換える同義語統制手段、
前記同義語統制手段により同義語統制が施された後の各検索キー単語が前記文書データベース中のいくつの文書に存在するかの総計を取る出現文書数算出手段、
前記出現文書数算出手段により求められた出現文書数に基づき、前記検索キー単語それぞれについて不要語で有るか否かを判断する不要語判別手段、
前記検索キー文書と前記文書データベース中の各文書との類似度を前記不要語判別手段の判別結果を用いて算出する類似度算出手段
として機能させるための文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003283493A JP3881638B2 (ja) | 2003-07-31 | 2003-07-31 | 文書検索装置、文書検索方法および文書検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003283493A JP3881638B2 (ja) | 2003-07-31 | 2003-07-31 | 文書検索装置、文書検索方法および文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005050239A true JP2005050239A (ja) | 2005-02-24 |
JP3881638B2 JP3881638B2 (ja) | 2007-02-14 |
Family
ID=34268369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003283493A Expired - Fee Related JP3881638B2 (ja) | 2003-07-31 | 2003-07-31 | 文書検索装置、文書検索方法および文書検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3881638B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010033465A (ja) * | 2008-07-30 | 2010-02-12 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP2010049650A (ja) * | 2008-08-25 | 2010-03-04 | Fujitsu Ltd | 検索方法および検索プログラム |
JP2012037920A (ja) * | 2010-08-03 | 2012-02-23 | Yahoo Japan Corp | 広告マッチング装置、方法及びプログラム |
JP2013156692A (ja) * | 2012-01-26 | 2013-08-15 | Ntt Comware Corp | 類似度算出装置、類似度算出方法、および類似度算出プログラム |
JP2015138351A (ja) * | 2014-01-21 | 2015-07-30 | 富士通株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
CN111625621A (zh) * | 2020-04-27 | 2020-09-04 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种文档检索方法、装置、电子设备及存储介质 |
-
2003
- 2003-07-31 JP JP2003283493A patent/JP3881638B2/ja not_active Expired - Fee Related
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010033465A (ja) * | 2008-07-30 | 2010-02-12 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP2010049650A (ja) * | 2008-08-25 | 2010-03-04 | Fujitsu Ltd | 検索方法および検索プログラム |
JP2012037920A (ja) * | 2010-08-03 | 2012-02-23 | Yahoo Japan Corp | 広告マッチング装置、方法及びプログラム |
JP2013156692A (ja) * | 2012-01-26 | 2013-08-15 | Ntt Comware Corp | 類似度算出装置、類似度算出方法、および類似度算出プログラム |
JP2015138351A (ja) * | 2014-01-21 | 2015-07-30 | 富士通株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
CN111625621A (zh) * | 2020-04-27 | 2020-09-04 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种文档检索方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3881638B2 (ja) | 2007-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4142881B2 (ja) | 文書類似度算出装置、クラスタリング装置および文書抽出装置 | |
JP2003030224A (ja) | 文書クラスタ作成装置、文書検索システムおよびfaq作成システム | |
JP4997892B2 (ja) | 検索システム、検索方法及び検索プログラム | |
KR20200038984A (ko) | 동의어 사전 작성 장치, 동의어 사전 작성 프로그램 및 동의어 사전 작성 방법 | |
CN112527958A (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
JP2011103082A (ja) | マルチメディア検索システム | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
CN111680152A (zh) | 目标文本的摘要提取方法及装置、电子设备、存储介质 | |
JP3881638B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2002007433A (ja) | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム | |
JPH0736897A (ja) | 文書分類装置 | |
JP4389102B2 (ja) | 技術文献検索システム | |
JP2008282111A (ja) | 類似文書検索方法、プログラムおよび装置 | |
JP2006293616A (ja) | 文書集約方法及び装置及びプログラム | |
JP2001117930A (ja) | 文書分類装置、文書分類方法および記録媒体 | |
JP6081609B2 (ja) | データ分析システム及びその方法 | |
JP2003345824A (ja) | 文書検索装置及び文書検索方法、文書検索プログラム | |
JP2007241636A (ja) | 文書データ解析装置および文書データ解析プログラム | |
JP2002318812A (ja) | 類似画像検索装置,類似画像検索方法並びに類似画像検索プログラム | |
JP2009271772A (ja) | テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム | |
JP2009217406A (ja) | 文書検索装置及び方法、並びに、プログラム | |
JP2003108579A (ja) | 文書検索装置及び文書検索方法 | |
JP2001101226A (ja) | 文書群分類装置および文書群分類方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060815 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061110 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3881638 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101117 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111117 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121117 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131117 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |