JP4373478B2 - 文書検索装置及び文書検索方法 - Google Patents
文書検索装置及び文書検索方法 Download PDFInfo
- Publication number
- JP4373478B2 JP4373478B2 JP2008109517A JP2008109517A JP4373478B2 JP 4373478 B2 JP4373478 B2 JP 4373478B2 JP 2008109517 A JP2008109517 A JP 2008109517A JP 2008109517 A JP2008109517 A JP 2008109517A JP 4373478 B2 JP4373478 B2 JP 4373478B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- word
- extracted
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このような問題を解決するためには、例えば、より重要度の高い語句は複数のセクションにわたって共通して使用されることが多いという考えに基づき、複数のセクション記述に共通する語句には重み付けを高くすると同時に、その場合でも共通する単語と名詞句とでは重み付けを高くする割合を調整する必要がある。
さらに、名詞句に対して2通りの表記を与え、一方の名詞句表記を初期検索に用い、他方の名詞句表記を初期検索結果の文書順位の並べ替えに用いることにより、精度の高い検索結果を得るようにした。
単語:cigar,smoking 名詞句:cigar smoking
<要求文記述から抽出された語句>
単語:popularity,cigar,smoking 名詞句:cigar smoking
#or(cigar,smoking,popularity,#scale[0.5](#window[1,1,o](cigar,smoking)))
#or(#level[3](#or(cigar,smoking)),popularity,#level[1.5](#scale[0.5](#window[1,1,o](cigar,smoking))))
#or(cigar,smoking,popularity,#scale[0.5](#window[1,30,u](cigar,smoking)))
*#window[1,30,u](cigar, smoking)は、“cigar”と“smoking”が任意の順序で1〜30語の範囲に出現することを指定している。
<b.初期検索結果の文書順位の並べ替えに用いる検索条件>
#or(cigar,smoking,popularity,#scale[0.5](#window[1,1,o](cigar,smoking)))
Claims (8)
- 少なくとも1つの単語を含むセクションを、少なくとも2つ含む検索要求を入力する検索要求入力手段と、
前記検索要求入力手段により入力された前記検索要求に含まれるセクションから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成する検索条件生成手段と、
前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索する文書検索手段と、を備え、
前記単語に対する重み付けは、前記各セクションから単語を抽出し、複数の前記セクションから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記セクションからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索装置。 - 一つの文および一つのキーワードから構成される検索要求を入力する検索要求入力手段と、
前記検索要求入力手段により入力された前記検索要求を構成する前記文または前記キーワードから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成する検索条件生成手段と、
前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索する文書検索手段と、を備え、
前記単語に対する重み付けは、前記文および前記キーワードから単語を抽出し、前記文および前記キーワードから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索装置。 - 前記検索条件生成手段は、
前記検索要求入力手段により入力された前記検索要求のなかで複数の前記セクションから抽出された単語を照合して該セクション間で重複する単語を除去すること、を特徴とする請求項1に記載の文書検索装置。 - 前記検索条件生成手段は、
前記検索要求入力手段により入力された前記検索要求のなかで前記文および前記キーワードから抽出された単語を照合して前記文および前記キーワードで重複する単語を除去すること、を特徴とする請求項2に記載の文書検索装置。 - 前記文書検索手段は、
前記検索条件生成手段により生成した前記検索条件に含まれる単語を用いて前記複数の文書を検索し、該複数の文書それぞれに対して前記検索条件に含まれる単語に対する重み付けに基づいたスコアを付与すること、を特徴とする請求項1から請求項4のいずれかに記載の文書検索装置。 - 前記文書検索手段は、
前記各文書に付与されたスコアを比較し、該スコアの高い文書を前記検索条件に合致した文書として抽出することを特徴とする請求項5に記載の文書検索装置。 - 検索要求入力手段と、検索条件生成手段と、文書検索手段とを含み、少なくとも1つの単語を含むセクションを、少なくとも2つ含む検索要求に基づいて検索対象である複数の文書から文書を検索する文書検索装置による文書検索方法であって、
前記検索要求入力手段は、前記検索要求を入力し、
前記検索条件生成手段は、前記検索要求入力手段により入力された前記検索要求に含まれるセクションから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成し、
前記文書検索手段は、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索し、
前記単語に対する重み付けは、前記各セクションから単語を抽出し、複数の前記セクションから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記セクションからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索方法。 - 検索要求入力手段と、検索条件生成手段と、文書検索手段とを含み、一つの文および一つのキーワードから構成される検索要求に基づいて検索対象である複数の文書から文書を検索する文書検索装置による文書検索方法であって、
前記検索要求入力手段は、前記検索要求を入力し、
前記検索条件生成手段は、前記検索要求入力手段により入力された前記検索要求を構成する前記文または前記キーワードから抽出された単語と、該単語に対する重み付けとを含む検索条件を生成し、
前記文書検索手段は、前記検索条件生成手段により生成した前記検索条件に基づいて、検索対象である複数の文書から文書を検索し、
前記単語に対する重み付けは、前記文および前記キーワードから単語を抽出し、前記文および前記キーワードから共通して抽出された単語を特定し、該共通して抽出された単語の重み付けを、いずれかの前記文または前記キーワードからのみ抽出された単語の重み付けより高くすることを特徴とする文書検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008109517A JP4373478B2 (ja) | 2008-04-18 | 2008-04-18 | 文書検索装置及び文書検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008109517A JP4373478B2 (ja) | 2008-04-18 | 2008-04-18 | 文書検索装置及び文書検索方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000336955A Division JP2002140357A (ja) | 2000-11-06 | 2000-11-06 | 文書検索装置及び文書検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008181566A JP2008181566A (ja) | 2008-08-07 |
JP4373478B2 true JP4373478B2 (ja) | 2009-11-25 |
Family
ID=39725346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008109517A Expired - Lifetime JP4373478B2 (ja) | 2008-04-18 | 2008-04-18 | 文書検索装置及び文書検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4373478B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5418051B2 (ja) * | 2008-09-08 | 2014-02-19 | 株式会社リコー | ワークフロー管理システム |
-
2008
- 2008-04-18 JP JP2008109517A patent/JP4373478B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2008181566A (ja) | 2008-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
JP4754247B2 (ja) | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 | |
JP3095552B2 (ja) | 同一の論題に関係する文献を検索する方法 | |
JP3759242B2 (ja) | 特徴確率自動生成方法及びシステム | |
WO2018066445A1 (ja) | 因果関係認識装置及びそのためのコンピュータプログラム | |
WO2008098507A1 (fr) | Méthode de saisie permettant de combiner des mots de façon intelligente, système associé à la méthode de saisie et méthode de renouvellement | |
US11573989B2 (en) | Corpus specific generative query completion assistant | |
JPH0520362A (ja) | 文書テキスト間の連鎖自動作成システム | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
US10102199B2 (en) | Corpus specific natural language query completion assistant | |
JP3596210B2 (ja) | 関連語辞書作成装置 | |
JP4065346B2 (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4373478B2 (ja) | 文書検索装置及び文書検索方法 | |
JP2009086903A (ja) | 検索サービス装置 | |
WO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
JP2007122525A (ja) | 言い換え処理方法及び装置 | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP2004258723A (ja) | 話題抽出装置、話題抽出方法およびプログラム | |
JP2002140357A (ja) | 文書検索装置及び文書検索方法 | |
JP4389102B2 (ja) | 技術文献検索システム | |
Malallah et al. | Multi-document text summarization using fuzzy logic and association rule mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090901 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090903 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120911 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4373478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130911 Year of fee payment: 4 |
|
EXPY | Cancellation because of completion of term |