JP2005301855A - 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 - Google Patents
文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 Download PDFInfo
- Publication number
- JP2005301855A JP2005301855A JP2004119857A JP2004119857A JP2005301855A JP 2005301855 A JP2005301855 A JP 2005301855A JP 2004119857 A JP2004119857 A JP 2004119857A JP 2004119857 A JP2004119857 A JP 2004119857A JP 2005301855 A JP2005301855 A JP 2005301855A
- Authority
- JP
- Japan
- Prior art keywords
- word
- scale expression
- extracted
- document
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】定量値を持ち得る属性を表す語である尺度表現語の集合を参照して入力テキストの中から尺度表現語を抽出するとともに、抽出された尺度表現語に隣接して複合語を形成する語、抽出された尺度表現語を修飾する語、抽出された尺度表現語を含む文節が修飾する語、のうちのどれかに該当する語を尺度表現関連語として抽出するステップを設け、キーワードの重みを付与する際に、尺度表現語または尺度表現関連語に対して、予め設定された算出方法に基づいて算出された重みを付与する。
【選択図】図1A
Description
(1)尺度表現語に隣接して複合語を形成する語:
例えば、「・・熱膨張率が・・」という記述の場合、「率」が尺度表現語で、これに隣接する「熱」「膨張」が尺度表現関連語である。
(2)尺度表現語を修飾する単語:
例えば、「・・室内の温度を・・」の場合、「温度」が尺度表現語で、助詞「の」を伴って「温度」を連体修飾している「室内」が尺度表現関連語である。また、「・・回転する速度が・・」の場合、「速度」が尺度表現語で、「速度」を連体修飾している「回転する」の標準形「回転」が尺度表現関連語である。
(3)尺度表現語を含む文節が修飾する単語:
例えば、「・・温度を検出する・・」の場合、「温度」が尺度表現語で、文節「温度を」が連用修飾している「検出する」の標準形「検出」が尺度表現関連語である。
(1)キーワード品詞リスト171:
キーワードとして抽出される品詞が、普通名詞、サ変名詞、動詞、形容詞、接尾語のみであることを示している。
(2)尺度表現語種類172:
上述した尺度表現語および3種類の尺度表現関連語のうち、どれを用いるかを1/0のフラグで設定する。
(3)尺度表現語重み付与方法(対象属性)173:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、重みを算出する演算が施される対象となる属性をTF903、IDF904、重み905のどれにするかを設定する。
(4)尺度表現語重み付与方法(算出方法)174:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、上記「尺度表現語重み付与方法(付与対象)173」で指定された属性に対して、下記「尺度表現語重み付与方法(付与値)175」で設定された値を「加算する」か、「掛け合わせる」か、「置換する」のか、の3種類から一つを指定する。
(5)尺度表現語重み付与方法(付与値)175:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、「尺度表現語重み付与方法(付与対象)173」で指定された属性に対して、上記「尺度表現語重み付与方法(付与方法)174」で指定された算出方法に基づいて重みを付与する際の値を設定する。図7では、尺度表現語の重み付与は、キーワードテーブル9(図5)に格納されたキーワードの属性のうちの「重み905」に対して、「値3」を「加算する」ように設定されている。
Claims (14)
- 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
前記中央処理装置が、前記記憶装置内の前記入力テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記中央処理装置が、前記類似度の高い文書を検索結果として出力するステップとを備え、
前記キーワードの重みを付与するステップにおいて、前記中央処理装置が、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与することを特徴とする文書検索方法。 - 利用者によって入力された入力テキストと、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
前記中央処理装置が、前記記憶装置内の前記テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するとともに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、の内の少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記中央処理装置が、前記類似度の高い文書を検索結果として出力するステップとを備え、
前記重み算出ルールは、前記尺度表現関連語用の重み算出ルールを含み、
前記キーワードの重みを付与するステップにおいて、前記中央処理装置が、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与することを特徴とする文書検索方法。 - 請求項1または請求項2に記載の文書検索方法において、前記キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとすることを特徴とする文書検索方法。
- 請求項2または請求項3に記載の文書検索方法において、前記計算機の入力装置が、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語および前記抽出された尺度表現語を含む文節が修飾する語の内のどれを前記尺度表現関連語として抽出するかの選択を、利用者から受け付けることを特徴とする文書検索方法。
- 請求項1から請求項4のいずれかに記載の文書検索方法において、前記計算機の入力装置が、前記記憶装置内の前記重み算出ルールを、利用者から受け付けることを特徴とする文書検索方法。
- 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
前記中央処理装置が、前記記憶装置内の前記入力テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記中央処理装置が、前記抽出された尺度表現語の内の少なくとも一つまたは全てを含む文書を前記記憶装置内の前記文書群から取得するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを備え、
前記類似度を算出するステップにおいて、前記中央処理装置が、前記取得された文書のみを対象として文書毎に類似度を算出することを特徴とする文書検索方法。 - 請求項1から請求項6のいずれかに記載の文書検索方法において、前記検索結果を出力するステップにおいて、前記中央処理装置が、前記抽出された尺度表現語が記述されている箇所を他と異なる態様とした形で、前記入力テキストを表示装置に表示させることを特徴とする文書検索方法。
- 請求項1から請求項6のいずれかに記載の文書検索方法において、前記検索結果を出力するステップにおいて、前記中央処理装置が、前記抽出された尺度表現語を他と異なる態様とした形で、前記入力テキストから抽出されたキーワード集合を表示装置に表示させることを特徴とする文書検索方法。
- 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置にアクセス可能な中央処理装置に各ステップを実行させるための文書検索プログラムにおいて、
前記記憶装置内の前記入力テキストを解析してキーワードを抽出するとともに、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与するステップと、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索プログラム。 - 利用者によって入力された入力テキスト定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置にアクセス可能な中央処理装置に各ステップを実行させるための文書検索プログラムにおいて、
前記記憶装置内の前記入力テキストを解析してキーワードを抽出するとともに、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出し、さらに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、のうちの少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与するステップと、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索プログラム。 - 請求項9または請求項10に記載の文書検索プログラムにおいて、前記キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとすることを特徴とする文書検索プログラム。
- システムバスに接続された入出力手段、中央処理装置、メモリのワークエリアおよびメモリの格納エリアが接続された計算機を備える文書検索装置において、前記メモリの格納エリアには入力テキストを格納する入力テキスト、各単語に関する属性データが登録されている単語辞書、単語の品詞間の接続コストや文法ルール等が定義されている文法辞書、キーワード候補から除外すべき語を定義する不要語辞書、定量値に関する語を定義する尺度表現語辞書、入力テキストから取得された単語を格納する単語テーブル、該単語テーブルに格納された単語の内キーワード候補から除外すべき語に該当しない語を格納するキーワードテーブル、検索対象となる文書を格納する文書データ、該文書データの検索のための文書データインデックス、検索結果を格納する検索結果データ、利用者が与える検索に関する各種の設定を格納するパラメータ設定データと検索のためのプログラム、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールを備える文書検索装置であって、
検索のためのプログラムは、利用者によって入力されたテキストを解析してキーワードを抽出するとともに、前記メモリ内の尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記メモリ内の前記重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与するステップと、前記重み付きキーワードと、前記メモリ内の前記予め抽出した重み付きキーワードとを比較して文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索装置。 - 前記検索のためのプログラムが、前記メモリ内の前記入力テキストを解析してキーワードを抽出するとともに、前記メモリ内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出し、さらに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、のうちの少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記メモリ内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与するステップと、前記重み付きキーワードと、前記メモリ内の前記予め抽出した重み付きキーワードとを比較して文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップを、前記中央処理装置に実行させる請求項12記載の文書検索装置。
- 請求項12または請求項13に記載の文書検索装置において、前記文書検索のためのプログラムが、キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとしたことを特徴とする文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004119857A JP4426893B2 (ja) | 2004-04-15 | 2004-04-15 | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004119857A JP4426893B2 (ja) | 2004-04-15 | 2004-04-15 | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005301855A true JP2005301855A (ja) | 2005-10-27 |
JP4426893B2 JP4426893B2 (ja) | 2010-03-03 |
Family
ID=35333277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004119857A Expired - Fee Related JP4426893B2 (ja) | 2004-04-15 | 2004-04-15 | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4426893B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009048130A1 (ja) * | 2007-10-12 | 2009-04-16 | Nec Corporation | 文書重要度算出システム、文書重要度算出方法およびプログラム |
JP2011039717A (ja) * | 2009-08-10 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法および情報検索プログラム |
WO2013021696A1 (ja) * | 2011-08-05 | 2013-02-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索システム、方法、及びプログラム |
JP2015164066A (ja) * | 2015-05-07 | 2015-09-10 | 富士通株式会社 | 情報検索装置、情報検索方法およびそのプログラム |
JP7413837B2 (ja) | 2020-02-28 | 2024-01-16 | ブラザー工業株式会社 | プログラム、情報処理装置及び情報処理システム |
-
2004
- 2004-04-15 JP JP2004119857A patent/JP4426893B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009048130A1 (ja) * | 2007-10-12 | 2009-04-16 | Nec Corporation | 文書重要度算出システム、文書重要度算出方法およびプログラム |
JP5187313B2 (ja) * | 2007-10-12 | 2013-04-24 | 日本電気株式会社 | 文書重要度算出システム、文書重要度算出方法およびプログラム |
US8983965B2 (en) | 2007-10-12 | 2015-03-17 | Nec Corporation | Document rating calculation system, document rating calculation method and program |
JP2011039717A (ja) * | 2009-08-10 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法および情報検索プログラム |
WO2013021696A1 (ja) * | 2011-08-05 | 2013-02-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索システム、方法、及びプログラム |
GB2508544A (en) * | 2011-08-05 | 2014-06-04 | Ibm | Information search system, method and program |
JPWO2013021696A1 (ja) * | 2011-08-05 | 2015-03-05 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報検索システム、方法、及びプログラム |
JP2015164066A (ja) * | 2015-05-07 | 2015-09-10 | 富士通株式会社 | 情報検索装置、情報検索方法およびそのプログラム |
JP7413837B2 (ja) | 2020-02-28 | 2024-01-16 | ブラザー工業株式会社 | プログラム、情報処理装置及び情報処理システム |
Also Published As
Publication number | Publication date |
---|---|
JP4426893B2 (ja) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
US20100281034A1 (en) | Query-Independent Entity Importance in Books | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP4426894B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
JP2000200281A (ja) | 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体 | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP4426893B2 (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
US8195458B2 (en) | Open class noun classification | |
JP2004206391A (ja) | 文書情報分析装置 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP2003108571A (ja) | 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
JPH1145252A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4484957B1 (ja) | 検索式生成装置、検索式生成方法、およびプログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2004206571A (ja) | 文書情報提示方法及び装置並びにプログラム及び記録媒体 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070131 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090825 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4426893 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121218 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131218 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |