JP2005301855A - 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 - Google Patents

文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 Download PDF

Info

Publication number
JP2005301855A
JP2005301855A JP2004119857A JP2004119857A JP2005301855A JP 2005301855 A JP2005301855 A JP 2005301855A JP 2004119857 A JP2004119857 A JP 2004119857A JP 2004119857 A JP2004119857 A JP 2004119857A JP 2005301855 A JP2005301855 A JP 2005301855A
Authority
JP
Japan
Prior art keywords
word
scale expression
extracted
document
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004119857A
Other languages
English (en)
Other versions
JP4426893B2 (ja
Inventor
Hisao Mase
久雄 間瀬
Makoto Iwayama
真 岩山
Yuichi Ogawa
祐一 小川
Kazutake Kurenishi
一毅 久連石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004119857A priority Critical patent/JP4426893B2/ja
Publication of JP2005301855A publication Critical patent/JP2005301855A/ja
Application granted granted Critical
Publication of JP4426893B2 publication Critical patent/JP4426893B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】テキストを入力として大量のテキスト文書を検索する精度を向上させる。
【解決手段】定量値を持ち得る属性を表す語である尺度表現語の集合を参照して入力テキストの中から尺度表現語を抽出するとともに、抽出された尺度表現語に隣接して複合語を形成する語、抽出された尺度表現語を修飾する語、抽出された尺度表現語を含む文節が修飾する語、のうちのどれかに該当する語を尺度表現関連語として抽出するステップを設け、キーワードの重みを付与する際に、尺度表現語または尺度表現関連語に対して、予め設定された算出方法に基づいて算出された重みを付与する。
【選択図】図1A

Description

本発明は、テキストデータを含む文書を検索する文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置に関する。
テキストデータを含む大量の文書群から所望の文書を検索する手法として、テキスト(文章またはキーワード集合)を検索条件として入力し、この入力テキストの内容に類似する文書を検索するものがある。すなわち、入力されたテキストから抽出される一つ以上の重み付きキーワードで構成されるキーワードベクトルと、検索対象文書群を構成する各文書から予め抽出された一つ以上の重み付きキーワードで構成されるキーワードベクトルとの間の内積または余弦を算出することにより、入力テキストと検索対象文書との間の内容の類似度を定量化し、類似度の高い文書を検索結果として出力する手法である。
上記手法において、入力テキストまたは検索対象文書からキーワードを抽出する際には、単語の字種(ひらがな/カタカナ/漢字/アルファベット/特殊記号等)や、単語辞書に定義される単語情報(見出し,品詞等)を手掛かりとする。また、明らかにキーワードとして不適切な単語は、不要語として除去される。
また、上記手法において、キーワードに重みを付与する際には、「TF・IDF法」と呼ばれる手法を使うのが一般的である。すなわち、あるテキスト内でのあるキーワードの出現頻度(TF)と、検索対象文書群におけるそのキーワードの出現文書数の逆数(IDF)という二つの値を用いてキーワードに付与する重みを算出する手法である。広く市販されている文書検索システムでは、これらの値をそのまま使うのではなく、対数関数(log)等を施して値を補正するのが一般的である。また、出現頻度(TF)はテキストが長いほど大きくなるため、出現頻度(TF)の値をテキスト長等で補正する場合が多い。
さらに、上記手法において、例えば、非特許文献1に開示されているように、キーワードを抽出する際に入力テキストまたは検索対象文書の構造的特性を利用する手法が知られている。例えば、検索対象文書が特許明細書である場合、キーワードを抽出する範囲を「特許請求の範囲」や「要約」等に限定するという手法である。
また、抽出されたキーワードに重みを付与する際にも、非特許文献2に開示されているように、そのキーワードが文書のどこに出現したかによってその重みの値を変えるという手法が知られている。例えば、検索対象文書が特許明細書である場合、「発明の名称」に出現するキーワードの重みの値を高くし、請求項の末尾(「〜を特徴とする」という表現以降)に出現する名詞句に含まれるキーワードの重みを高くするという手法である。
さらに、例えば、特開平11−085786号公報に開示されるように、検索結果を基礎に、さらに検索を展開する手法も知られている。
特開平11−085786号公報
水野恵雄:「類似文献自動検索システムについて」,特許庁技術懇話会会誌,No.223,pp.9-15,2002.5.15 間瀬久雄他:「特許テーマ分類方式の提案とその評価実験」,情報処理学会論文誌,第39巻第7号,pp.2207-2216,1998年7月
上記従来手法では、文書の構造や出現頻度に基づくキーワードの抽出および重み付けを行っているが、特許検索のように検索対象文書群の規模が著しく大きい場合、これらを考慮しただけでは検索精度は十分に高くならない。すなわち、所望の文書が検索結果から漏れたり、内容的に関係ないノイズ文書が検索結果の上位に多く含まれたりするケースが多く、その結果、利用者が所望の文書を見つけるのに多大な時間がかかってしまう。
本発明は、従来手法よりも高い検索精度を実現する文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置を提供することを目的とする。
本発明では上記課題を解決すべく、利用者によって入力されたテキストからのキーワードの抽出、抽出されたキーワードに対する重要度に相当する重みの付与、検索対象文書群の各文書から重み付きキーワードに対応する文書を検索結果として出力する文書検索方法において、定量値を持ち得る属性を表す語句、すなわち、尺度表現語に着目し、この尺度表現語の集合を予め定義しておき、前記キーワードの重み付与に尺度表現語の重みを関連付ける。
また、本発明では、前記尺度表現語集合を参照して、前記入力テキストの尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語および前記抽出された尺度表現語を含む文節が修飾する語の内の少なくとも1つに該当する語を尺度表現関連語として抽出し、前記キーワードの重み付与に尺度表現語および尺度表現関連語の重みを関連付ける。
本発明により、入力テキストの内容に類似する文書の検索精度を向上させることができるので、利用者が所望の文書を探す時間を短縮し、労力を軽減することができる。また、本発明で扱う尺度表現語および尺度表現関連語は人間の直感に近いキーワードであるため、検索条件のチューニング(入力テキストから抽出されたキーワードに対して、利用者がキーワードの追加・削除,重みの修正などを行うこと)による再検索も効率良く行うことができる。
本発明の実施の形態を以下、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。
本実施形態では、大量の特許公開公報テキスト群を検索して、利用者から入力された請求項テキストの内容に類似する文書を取得する特許検索システムについて述べる。本システムは、利用者から入力されるテキストデータおよび検索対象となる特許公開公報テキスト群に出現するキーワードに着目し、前述の「TF・IDF法」を用いて入力テキストの内容に類似する文書を検索する。なお、本実施形態では日本語テキストを対象としているが、英語等のテキストでも適用可能である。
図1Aは、本実施形態で述べるシステムを利用者の操作、各種データおよびデータの処理に関するプログラムを関連付けて表示したブロック図である。
利用者は本システムの入出力部1を介して、検索条件としてのテキストデータ、例えば、請求項テキストを入力する。入力されたテキストは入力テキスト2に格納保持される。ここでは、テキストはキーボードから利用者が入力しても良いし、マウス等を使ってのテキストデータのドラッグ&ドロップやコピー,音声やペン,OCR等による入力でも構わない。また、他のプログラムから自動的にテキストデータが渡されるような形態でも構わない。
検索条件となる請求項テキストデータを入力した後に、利用者が検索実行を指示すると、キーワード抽出プログラム3によってキーワードが抽出され、各キーワードに重みが付与される。以下、キーワード抽出プログラム3について説明する。
形態素解析31では、各単語に関する属性データが登録されている単語辞書4および、単語の品詞間の接続コストや文法ルール等が定義されている文法辞書5を参照して入力テキストを単語単位に分割し、各単語に対する見出し、標準形,品詞データを単語辞書4から取得し、単語テーブル8に単語の出現順に格納する。形態素解析31については文書処理分野では広く使われている公知技術であるため、その処理アルゴリズムの詳細についてはこれ以上言及しない。
次に、不要語除去32では、形態素解析31によって分割された単語の各々が不要語辞書6に登録されている不要語であるか否かを判別し、不要語辞書6に登録されている単語を不要語としてキーワード候補から除外する。本実施形態では、不要語辞書6は1レコードに不要語文字列1語を保持したデータ構造を持ち、検索対象文書の分野や内容,文書構造に依存した不要語(特許公開公報の場合、「発明」「請求項」「特徴」等)と、検索対象文書の分野や内容に依存しない一般的に高頻度で使われる不要語(「こと」「もの」「いる」等)が登録されている。形態素解析31で得られた各単語が不要語か否かの判別結果は単語テーブル8に不要語フラグ(値が1なら不要語)として格納される。
次に、キーワード特定33では、単語テーブル8に格納されたキーワード候補(不要語フラグの値が0である単語)について、予め定義された品詞を持つ単語をキーワードとして認定する。本実施形態では、キーワードを規定する品詞の情報はパラメータ設定データ17に列挙されるが、処理プログラムの中にキーワードとなり得る品詞情報を埋め込んでも良い。形態素解析31で得られた各単語がキーワードであるか否かの判別結果は単語テーブル8にキーワードフラグ(値が1ならキーワード)として格納される。
次に、尺度表現語抽出34では、尺度表現語辞書7を参照して、キーワード特定33で抽出されたキーワードの中から尺度表現語および尺度表現関連語を抽出する。本処理は、前記キーワード特定33に埋め込んで行っても良い。どのキーワードが尺度表現語であり、どのキーワードが尺度表現関連語であるかの抽出結果は、単語テーブル8の尺度表現フラグ(値が1なら尺度表現語、2以上なら尺度表現関連語)として格納される。
本実施形態でいう「尺度表現語」とは、「定量値を持ち得る属性を表す語」として定義される。例えば、「・・速度が50km/時である・・」という記述の場合、「50km/時」という記述部分が定量値を表しており、これは「速度」という属性に対する定量値であるので、単語「速度」は尺度表現語である。ここで、上記尺度表現語の定義で重要なのは、定量値を持ち「得る」ということである。すなわち、実際の文章の中に定量値が明示的に記述されていなくても良い。例えば、「・・室内の温度を測定する・・」という記述の場合、単語「温度」は属性を表す語であるが、その定量値は文中に明示的に記述されていない。しかし、「温度」は「20℃」などという定量値を持ち「得る」ので、尺度表現語であるとみなす。なお、上記尺度表現語の定義の代わりとして、「定量値に関する明示的な記述を伴って出現する属性を表す語句」という定義を使っても良い。この場合、上記「速度」は尺度表現語とみなされるが、上記「温度」は定量値が明示的に記述されていないので尺度表現語とはみなされない。なお、尺度表現語の定量値が明示的に記述されているか否かの判別は、尺度表現語の近傍に定量値を表す語が出現しているか否かを判別することによって実現できる。
尺度表現語は大きく2種類に分けられる。すなわち、「速度」「温度」のように、一つの単語で尺度表現語を形成するものと、「熱膨張率」のように、複数の単語(熱,膨張,率)で尺度表現語を形成するものがある。後者の場合、単語辞書4が持つ語彙規模にも関連するが、一般に尺度表現語には分野固有の専門用語も多く含まれるので、すべてを単語辞書4に予め登録しておくことは難しい。そこで、本実施形態では、前者(「速度」「温度」等)については単語単位で尺度表現語辞書7に予め登録し、後者(「熱膨張率」)については接尾語的な働きをしている単語(「熱膨張率」の場合「率」)を尺度表現語として尺度表現語辞書7に登録している。
また、尺度表現語の中には、上記「熱膨張率」のように分野や内容をかなり狭く限定できるものと、「温度」「速度」のように広い分野で使われるために分野や内容をほとんど特定できないものがある。上記「速度」の場合、何の速度なのかまで限定しないと、入力テキストの内容に類似する文書を特定することは困難である。そこで、尺度表現語に係る記述部分に含まれる語を「尺度表現関連語」と定義する。本実施形態において、「尺度表現語に係る記述部分に含まれる語」とは、以下の三つのどれか一つを満たす単語であるとする。
(1)尺度表現語に隣接して複合語を形成する語:
例えば、「・・熱膨張率が・・」という記述の場合、「率」が尺度表現語で、これに隣接する「熱」「膨張」が尺度表現関連語である。
(2)尺度表現語を修飾する単語:
例えば、「・・室内の温度を・・」の場合、「温度」が尺度表現語で、助詞「の」を伴って「温度」を連体修飾している「室内」が尺度表現関連語である。また、「・・回転する速度が・・」の場合、「速度」が尺度表現語で、「速度」を連体修飾している「回転する」の標準形「回転」が尺度表現関連語である。
(3)尺度表現語を含む文節が修飾する単語:
例えば、「・・温度を検出する・・」の場合、「温度」が尺度表現語で、文節「温度を」が連用修飾している「検出する」の標準形「検出」が尺度表現関連語である。
本実施形態では、上記尺度表現関連語のうち、実際の処理でどれを使用するかについては、パラメータ設定テーブル17に定義されている。これらの定義情報は、利用者またはシステム管理者が自由に設定することができる。
次に、キーワード重み付与35では、抽出されたキーワード(尺度表現語および尺度表現関連語を含む)について、入力テキスト内での出現頻度(TF)および文書データ13に格納された検索対象文書群での出現文書数の逆数(IDF)を用いて、キーワードの重要度に相当する重みを算出してキーワードに付与する。本実施形態では、式(1)によって重みを算出する。
Figure 2005301855
ここでDFは文書データ13に格納された検索対象文書群でのキーワード出現文書数、Nは文書データ13に格納されている検索対象文書の総数である。
キーワード重み付与35では、単語テーブル8に格納されたキーワード毎にその出現頻度をカウントし、文書インデクスデータ14に予め格納されている各キーワード毎の出現文書数(DF)を取得して、上記式(1)によってキーワードの重みを算出する。各キーワードの標準形および出現頻度,出現文書数,重みの値は、キーワードテーブル9に格納される。
キーワード重み付与35においては、キーワードのうち、尺度表現語または尺度表現関連語に対して、予めパラメータ設定データ17に定義された算出方法に基づいてその重みの値を変更する。例えば、パラメータ設定データ17に定義された算出方法が、「3を加算する」であり、尺度表現語「温度」の重みが3.5であるならば、その重みは3.5+3=6.5に変更されることになる。
本実施形態では、尺度表現語であるキーワードの重みを変更するのに、パラメータ設定データ17に予め定義された値を、元の重みの値に「加算する」、両者を「掛算する」、元の重みの値と「置換する」の3通りの内、一つを選択できるが、もちろん、これ以外の算出方法も定義可能である。また、演算の対象となる属性を、重み、出現頻度(TF)、出現文書数の逆数(IDF)から選択することも可能である。
キーワード抽出プログラム3でキーワードおよびその重みが決定されると、次に、検索実行プログラム10において、キーワードテーブル9に格納された重み付きキーワードを用いて文書データ13を検索する。本システムでは、インデクス生成プログラム15によって、文書データ13に格納される各文書から重み付きキーワードを予め抽出しておき、文書インデクスデータ14に格納される。また、各キーワードの出現文書数も計算され、文書インデクスデータ14に格納される。キーワードテーブル9に格納された重み付きキーワードで構成されるキーワードベクトル(重みの値がベクトルの成分となる)と、文書インデクスデータ14に格納された重み付きキーワードで構成されるキーワードベクトルとがなす角度の余弦を計算し、その文書の類似度(値の範囲は、−1から1の間となる)とする。類似度の算出方法についてはさまざまな手法が提案されているが、本発明は類似度の算出方法を特に制限するものではないので、これ以上詳細には言及しない。
検索実行プログラム10で検索された結果は、文書IDと類似度が対になって、類似度の降順にソートされて検索結果データ11に格納される。本発明は、キーワードおよびその重みを用いて検索すること以外は、検索実行処理アルゴリズムの内容を限定するものではないので、既に公知である検索実行プログラム10の処理の詳細については、これ以上言及しない。
検索結果表示プログラム12では、検索結果データ11に格納された検索結果を、入出力部1を介して利用者に表示する。また、キーワード抽出プログラム3で抽出された重み付きキーワードデータや入力テキストデータを利用者に表示する。
本実施形態で用いられる尺度表現語辞書7は編集が可能である。尺度表現語辞書管理編集プログラム16は、利用者からの編集要求に応じて編集用のGUI画面を提供し、利用者から入力される尺度表現語データに関する追加・修正・削除データをもとに尺度表現語辞書7の内容を更新する。
なお、本実施形態では、不要語辞書6および尺度表現語辞書7を、単語辞書4とは別なものとしているが、単語が不要語であるか否かの情報を単語辞書4の中に埋め込んで定義しても良いし、また、単語が尺度表現語であるか否かの情報を単語辞書4の中に埋め込んで定義しても良い。
図1Aで説明した本実施形態で述べるシステムは、電子計算機で構成されるものである。図1Bは、図1Aで説明した本実施形態で述べるシステムを電子計算機の構成として表示したブロック図であり、同じものには同じ参照符号を付した。200はシステムバスである。システムバス200には、入力手段としてのキーボード1、マウス1が接続され、出力手段としての印刷手段1、表示手段1が接続される。さらに、システムバス200には、中央処理装置(CPU)201、メモリのワークエリア203、メモリの格納エリア204が接続される。ここでは、さらに、システムバス200にネットワーク207が接続され、この他端にクライアントコンピュータ205が接続される例を示した。図のシステム構成をサーバとして、ネットワーク207を介して接続されたクライアント205により、図1Aで説明した各種の処理が実行される。
図1Aで説明した各種の処理が、格納エリア204に格納された必要なプログラムおよびデータをワークエリア203に読み出して、CPU201により実行される。
以下では、本実施形態で使用している各テーブルのデータ構造およびより詳細な処理アルゴリズム、データの画面表示例について上述を補足する形で説明する。
図2は、入力テキスト2の記述例を示すである。利用者は検索実行画面の所定の入力エリアにテキスト2aをキーボードから入力する。テキスト2aは、文章の形式で入力されているが、テキスト2bのように単語を区切記号(コンマ,スペースなど)で分けて羅列するという形式で入力しても良い。ただしこの入力形式の場合、尺度表現語は特定できても、尺度表現関連語は特定できなくなる不都合があるので、尺度表現関連語を活用する検索の用途では、文章の形式のテキスト2aの形で入力する方が良い。
図3は、形態素解析31で参照する単語辞書4のデータ構造を示す図である。各単語に関する見出し401、標準形402、品詞403などの情報が定義されている(もちろん、この他に活用情報なども格納されているが、ここでは本実施形態を説明する上で必要なものだけを示している)。ここで、標準形402は、用言など活用する単語の見出しを統一するための表記であり、キーワード文字列はこの標準形402に記述された文字列とする。また、キーワード重み付与35においてキーワードの出現頻度をカウントする場合には、この標準形402に記述された表記を用いる。
図4は、単語テーブル8のデータ構造を示す図である。単語テーブル8は、単語見出し801、標準形802、品詞803、不要語か否かを識別する不要語フラグ804(1であれば不要語)、キーワードか否かを識別するキーワードフラグ805(1であればキーワード)、尺度表現語か否かを識別する尺度表現フラグ806(1であれば尺度表現語、2以上であれば尺度表現関連語)からなり、入力テキスト2における単語出現順に格納されている。
図5は、キーワードテーブル9のデータ構造を示す図である。キーワードテーブル9は、キーワード抽出プログラム3の出力となる。キーワードテーブル9は、キーワード文字列である標準形901、キーワードが尺度表現語または尺度表現関連語であるか否かを識別する尺度表現フラグ902、出現頻度をもとに算出されたTF903、出現文書数の逆数をもとに算出されたIDF904、TF903およびIDF904から算出される重み905、尺度表現語および尺度表現関連語に対して算出される重みである尺度表現重み906からなる。本実施形態では、尺度表現重み906の値は、キーワードの重み905の値に「定数3」を「加算」することにより算出されるため、図5における尺度表現語「温度」「湿度」および尺度表現関連語「雰囲気」の持つ重みに定数3を加算した値が尺度表現重み906となる。尺度表現語でも尺度表現関連語でもないキーワードの尺度表現重み906の値はキーワード重み905と等しい。
図6は、尺度表現語辞書7のデータ構造を示す図である。尺度表現語辞書7は、尺度表現語の標準形701、上述した尺度表現語の種類702からなる(なお、本実施形態においては、尺度表現語の種類702の値によって処理を区別することはしていない)。なお、尺度表現語辞書7に登録されている単語は、単語辞書4にも登録されている必要がある。
図7は、パラメータ設定データ17のデータ構造を示す図である。パラメータ設定データ17は、検索を実行する際に必要となる各種パラメータの値を格納しているテーブルであり、利用者あるいはシステム管理者による値の設定を可能とする。パラメータ設定データ17に格納されているパラメータには以下のものがある。
(1)キーワード品詞リスト171:
キーワードとして抽出される品詞が、普通名詞、サ変名詞、動詞、形容詞、接尾語のみであることを示している。
(2)尺度表現語種類172:
上述した尺度表現語および3種類の尺度表現関連語のうち、どれを用いるかを1/0のフラグで設定する。
(3)尺度表現語重み付与方法(対象属性)173:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、重みを算出する演算が施される対象となる属性をTF903、IDF904、重み905のどれにするかを設定する。
(4)尺度表現語重み付与方法(算出方法)174:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、上記「尺度表現語重み付与方法(付与対象)173」で指定された属性に対して、下記「尺度表現語重み付与方法(付与値)175」で設定された値を「加算する」か、「掛け合わせる」か、「置換する」のか、の3種類から一つを指定する。
(5)尺度表現語重み付与方法(付与値)175:
尺度表現語に対して、どのような算出方法に基づいて重みを付与するのかを設定する。このパラメータは、「尺度表現語重み付与方法(付与対象)173」で指定された属性に対して、上記「尺度表現語重み付与方法(付与方法)174」で指定された算出方法に基づいて重みを付与する際の値を設定する。図7では、尺度表現語の重み付与は、キーワードテーブル9(図5)に格納されたキーワードの属性のうちの「重み905」に対して、「値3」を「加算する」ように設定されている。
尺度表現語の抽出および重み付与に関する上記(2)(3)(4)(5)については、尺度表現語毎に設定を変えても良い。すなわち、「尺度表現語「速度」に対しては、重み905に定数3を加算する」が、「尺度表現語「温度」に対しては、尺度表現語および尺度表現関連語に対してのみ重み905を1.5倍する」というように別々に定義しても良い。この処理は、例えば、利用者が、尺度表現辞書7を尺度表現語辞書管理編集プログラム16を介して尺度表現語辞書編集の操作をすることで実現できる。また、入力テキストに書かれた内容からその分野(分類)を特定し、その分野(分類)毎に尺度表現語の抽出および重み付与に関する設定を変えても良い。すなわち、例えば、同じ尺度表現語「速度」であっても、入力テキストの内容が計算機処理分野に関するものであると認定された場合は、重みに定数3をプラスし、プリンタ分野に関するものであると認定された場合は、定数5をプラスする、というようにすることも可能である。分野を特定する方法としては、入力テキストでまず検索を実行し、上位N件の文書に付与されている国際特許分類などの分類コードの付与件数の多いものを入力テキストの分野であると特定する方式などが公知であり、容易に実現可能である。
図8は、キーワード抽出プログラム3における尺度表現語抽出34の処理フローの詳細を示した図である。尺度表現語抽出34の入力は単語テーブル8(ただし、図4で尺度表現フラグ806が不確定値となっている)であり、出力は尺度表現フラグ806の値が確定した単語テーブル8である。
まず、単語テーブル8の尺度表現フラグ806の値を全て0に初期化する(ステップ3401)。次に、カウンタNの値を1に初期化する(ステップ3402)。次に、Nの値が単語テーブル8に格納された単語数以下であるか否かを判別し(ステップ3403)、Nの値の方が大きい場合、本処理を終了する。単語数以下である場合、さらに、単語テーブル8のN番目の単語のキーワードフラグ805の値が1であるか否かを判別し(ステップ3404)、1でない場合はNに1を加えてステップ3403に戻る(ステップ3414)。1である場合は、さらにN番目の単語の標準形802が尺度表現語辞書7に登録されているか否かをスキャンし(ステップ3405)、登録されていない場合はNに1を加えてステップ3403に戻る(ステップ3414)。登録されている場合、さらにパラメータ設定データ17の尺度表現語種類172の「尺度表現語」の項目の値が1であるか否かを判別し(ステップ3406)、1である場合は、単語テーブル8のN番目の単語の尺度表現フラグ806の値を1にして尺度表現語として抽出する(ステップ3407)。1でない場合は、ステップ3408にスキップする。
次に、尺度表現関連語の抽出処理に移る。パラメータ設定データ17の尺度表現語種類172の「尺度表現関連語(隣接複合語)」の項目の値が1であるか否かを判別し(ステップ3408)、1である場合は、単語テーブル8をN番目の単語から上に遡り、キーワードフラグ805が0である単語に行き着くまでに見つかった単語全ての尺度表現フラグ806の値を2にして尺度表現関連語として抽出する(ステップ3409)。1でない場合は、ステップ3410にスキップする。
次に、パラメータ設定データ17の尺度表現語種類172の「尺度表現関連語(修飾語)」の項目の値が1であるか否かを判別し(ステップ3410)、1である場合は、N番目の単語を修飾する単語でキーワードフラグが1である単語を全て抽出し、その単語の尺度表現フラグ806の値を3にして尺度表現関連語として抽出する(ステップ3411)。ここでN番目の単語である尺度表現語を修飾する単語の発見の仕方であるが、N番目の単語に助詞「の」または助動詞「である」を伴って係る名詞、または、N番目の単語の直前にある動詞/形容詞を特定するという方法で行う。もちろん、これらの部分を含む文全体あるいは文の一部に構文解析処理を施して、N番目の単語に係る語句を認定するという方法でも良い。ステップ3410で1でない場合、ステップ3412にスキップする。
次に、パラメータ設定データ17の尺度表現語種類172の「尺度表現関連語(被修飾語)」の項目の値が1であるか否かを判別し(ステップ3412)、1である場合、当該N番目の単語が修飾する単語でキーワードフラグが1である単語を全て抽出し、その単語の尺度表現フラグ806の値を4にする(ステップ3413)。ここでN番目の単語である尺度表現語が修飾する単語の発見の仕方であるが、N番目の単語の後ろに助詞「の」「を」または助動詞「である」を介して続く名詞または動詞/形容詞を特定するという方法で行う。もちろん、これらの部分を含む文全体あるいは文の一部に構文解析処理を施して、N番目の単語が係る語句を認定するという方法でも良い。
ステップ3412で1でない場合、ステップ3414にスキップし、Nに1を加えてステップ3403に戻る。
図9Aおよび図9Bは、キーワード抽出プログラム3におけるキーワード重み付与35の処理フローの詳細の前半部および後半部を示した図であり、図9AのAから図BのAに移る。キーワード重み付与35の入力は単語テーブル8であり、出力はキーワードテーブル9である。
まず、キーワードテーブル9を初期化する(ステップ3501)。次に、カウンタNの値を1に初期化する(ステップ3502)。カウンタNが単語テーブル8に格納されている単語数以下であるか否かを判別し、単語数よりも大きい場合、ステップ3510以降の処理に移る(ステップ3503)。単語数以下である場合、単語テーブル8のN番目の単語のキーワードフラグ805の値が1であるか否かを判別し(ステップ3504)、1でない場合、Nの値を1増加し(ステップ3516)、ステップ3503に戻る。1である場合、さらにN番目の単語がキーワードテーブル9に既に格納されているか否かをキーワードテーブル9の標準形901をスキャンすることにより判別し(3505)、既に格納されている場合、キーワードテーブル9における当該単語のTF903の値を1増加させる(ステップ3506)。格納されていない場合、キーワードテーブル9の標準形902に単語テーブル8における当該単語の標準形802を追加し、TF903の値に1を格納し、文書インデクスデータ14から当該単語のIDF値を取得してIDF904に格納する(ステップ3507)。
次に、単語テーブル8のN番目の単語の尺度表現フラグ806が1以上であるか否かを判別し(ステップ3508)、1でない場合、ステップ3516にスキップし、Nに1を加えてステップ3503に戻る。1以上である場合、その値をキーワードテーブル9の当該単語の尺度表現フラグ902に格納する(ステップ3509)。次に、ステップ3509の処理の後、ステップ3516にスキップし、Nに1を加えてステップ3503に戻る。
ステップ3503でカウンタNが単語テーブル8に格納されている単語数以下であるか否かを判別し、単語数よりも大きい場合、この時点でキーワードテーブル9に格納されたキーワード全てについて、ステップ3510以下の処理を施す。キーワードテーブル9に未処理のキーワードがあるか否かを判別し(ステップ3510)、未処理のキーワードがなくなったら本処理を終了する。未処理のキーワードがある場合、まず、当該キーワードのTF903とIDF904の値から重み905を算出する(ステップ3511)。次に、当該キーワードの尺度表現フラグ902が1以上であるか否かを判別し(ステップ3512)、1以上でない場合は、ステップ3510に戻る。1以上である場合、尺度表現語または尺度表現関連語としてその重みを、さらに更新するステップに移る。まず、パラメータ設定データ17の尺度表現語重み付与方法(対象属性)173の値に相当するキーワードテーブル9の属性の値を変数Xに格納する(ステップ3513)。次に、パラメータ設定データ17の尺度表現語重み付与方法(付与値)175の値を変数Yに格納する(ステップ3514)。そして、パラメータ設定データ17の尺度表現語重み付与方法(算出方法)174の算出方法に基づいて、当該キーワードの尺度表現重み906を算出する(ステップ3515)。すなわち、算出方法が「加算」である場合、XとYの和を求め、「掛算」である場合、XとYの積を求め、「置換」である場合、値をYとし、これを尺度表現重み906に代入する。
図10は、検索結果を利用者に表示する際の画面例の一例である。
本画面100は、図1Bの表示手段1の表示画面の例であり、大きく、入力テキスト表示エリア120、キーワード一覧表示エリア140、検索結果一覧表示エリア160からなる。入力テキスト表示エリア120には、利用者によって入力されたテキストデータが表示される。必要に応じて内容を修正して検索ボタン121を押下することにより、検索結果を得て、検索結果一覧表示エリア160に出力を表示することができる。また、解析ボタン122を押下することにより、キーワード抽出プログラム3によって抽出されたキーワード群をキーワード一覧表示エリア140に表示することができる。また、リセットボタン123を押下することにより、入力テキスト表示エリア120のデータをクリアすることができる。
入力テキスト表示エリア120にテキストを表示する際に、単語テーブル8を参照して、尺度表現語または尺度表現関連語に相当する記述部分を、他と異なる態様で表示しても良い。図10では、尺度表現語である「温度」「湿度」、尺度表現関連語である「雰囲気」にアンダーラインが付与されている。もちろん、色を変えたり、字の大きさやフォントを変えたり、網掛けを付けたりするなどして表示しても良い。また、尺度表現語と尺度表現関連語とを互いに異なる態様で表示しても良い。
キーワード一覧表示エリア140には、入力テキストから抽出されたキーワード群に関するデータが表示される。キーワードの見出し、TF、IDF、重みが表示される。また、キーワードのうち、尺度表現語あるいは尺度表現関連語に相当するものについては、他と異なる態様で表示することにより、利用者の理解を促進する。図10では、尺度表現語の見出しの左側に白抜きの星印を付けている。もちろん、このほかに、色を変えたり、字の大きさやフォントを変えたり、アンダーラインや網掛けを付けたり、尺度表現語を上位にソートして羅列するなどして表示しても良い。また、尺度表現語と尺度表現関連語を異なる態様で表示しても良い。さらに、図10では、重みの大きい尺度表現関連語の見出しの左側に黒塗りの星印を付けている。さらに、一つの尺度表現語とそれに係る尺度表現関連語の対応関係を明確に表示するために、これらを同一または同一と容易に判断可能な態様で表示しても良い。例えば、尺度表現関連語「雰囲気」は尺度表現語「温度」と同じグループとして表示するなどしても良い。これらの表示処理は、検索結果表示プログラム12において、キーワードテーブル9および必要に応じて単語テーブル8を参照することにより、容易に実現可能である。
また、キーワード一覧表示エリア140では、項目を選択してソートボタン142を押下することにより、キーワード群を選択された項目でソートすることができる。さらに、項目を選択して編集ボタン141を押下することにより、表示された内容を修正することができ、再検索ボタン143を押下することにより、上記修正内容で再検索することができる。本実施形態では、キーワード一覧表示エリア140は、検索結果とともに表示しているが、解析ボタン122を検索前に押下することによって、キーワード一覧を表示し、その内容を修正してから検索を行うということも可能である。
検索結果一覧表示エリア160では、検索実行プログラム10で検索された結果が表示される。ソートボタン161の押し下げで表示内容をソートし、前頁ボタン162、次頁ボタン163の押し下げで表示スクロールができ、項目を選択して内容表示ボタン164を押し下げれば、選択された個別の文書内容の表示ができる。
検索を終了する時は、終了ボタン180を押し下げれば良い。
このように、検索結果を表示する際に、テキストやキーワード一覧を表示するだけでなく、本実施形態で述べた尺度表現語および尺度表現関連語を他と異なる態様で表示することにより、それらの存在を利用者に明確に認識させ、注意喚起させることができ、また、キーワードのチューニング等を効率良く行うことができる。
以上に述べたように、本実施形態では、特許請求項テキストを入力として、その内容に類似する特許公開公報文書を検索するものであり、尺度表現語を抽出してその重みを変更する、また、尺度表現語に関連する記述内容である尺度表現関連語を抽出してその重みを変更することにより、検索精度の向上が期待できる。
次に、本実施形態の拡張形態について述べる。
本拡張実施形態では、尺度表現語および尺度表現関連語の重みを変える代わりに、尺度表現語および/または尺度表現関連語を含む文書を文書データ13の中から検索し、検索結果として抽出された文書群のみを対象として、入力テキスト2の内容に類似する文書を特定するものである。図2の入力テキスト2aが入力された場合、キーワード抽出プログラム3によって尺度表現語として「温度」および「湿度」、尺度表現関連語として「雰囲気」が抽出されるが、本拡張実施形態では、まず、尺度表現語「温度」「湿度」のいずれか一方を含む文書を文書データ13を参照して検索する。検索の方法としては、上述のように文書インデクスデータ14に格納されている各文書に出現するキーワードとの照合によって行っても良いし、各文書中のテキストをスキャンしてキーワード文字列を含むかを判定しても良い。また、文書内の検索範囲として、特定の範囲に限定しても構わない。本拡張実施形態においては、例えば、検索範囲を「特許請求の範囲」のみに限定しても良い。また、尺度表現語「温度」「湿度」の両方を含む文書を検索しても良い。また、尺度表現語だけでなく尺度表現関連語も含め、その中のどれか一つの語を含む文書を検索しても良い。
上記検索によってM件の文書がヒットしたとすると、次にこのM件のみを対象として、入力テキストと各文書中のテキストとの類似度を算出する。このときに用いるキーワードの重みとして、従来のTF・IDF法によって付与された重み(キーワードテーブル9の重み905)を用いても良いし、上記実施形態で述べたように、ここでさらに尺度表現語および尺度表現関連語を考慮して付与された重み(キーワードテーブル9の尺度表現重み906)を用いても良い。
本拡張実施形態によれば、尺度表現語に着目することにより、大量の検索対象文書の中から、入力テキストに関連しそうな文書のみを抽出できるので、検索のノイズを大幅に軽減することができる。
また、尺度表現語および尺度表現関連語だけでなく、これらの単語の同義語または類義語を類義語辞書に格納しておき、検索時に類義語辞書を検索して尺度表現語および尺度表現関連語を拡張して検索する方法を用いても良い。一般に類義語辞書の作成は多大な工数がかかるが、尺度表現語に限れば語彙数は非常に小さいこと、尺度表現語は固有名詞的な性質を持つためそもそも同義語または類義語が少ないことを考えると、作成工数は比較的小さくて済む。
本実施形態で述べるシステムを利用者の操作、各種データおよびデータの処理に関するプログラムを関連付けて表示したブロック図である。 図1Aで説明した本実施形態で述べるシステムを電子計算機の構成として表示したブロック図である。 本発明の実施形態の入力テキスト2の記述例を示す図である。 本発明の実施形態の形態素解析31で参照する単語辞書4のデータ構造の一例を示す図である。 本発明の実施形態の単語テーブル8のデータ構造の一例を示す図である。 本発明の実施形態のキーワードテーブル9のデータ構造の一例を示す図である。 本発明の実施形態の尺度表現語辞書7のデータ構造の一例を示す図である。 本発明の実施形態のパラメータ設定データ17のデータ構造の一例を示す図である。 本発明の実施形態のキーワード抽出プログラム3における尺度表現語抽出34の処理フローの詳細を示した図である。 本発明の実施形態のキーワード重み付与35の処理フローの詳細の前半部を示す図である。 本発明の実施形態のキーワード重み付与35の処理フローの詳細の後半部を示す図である。 本発明の実施形態の検索結果を利用者に表示する際の画面例の一例である。
符号の説明
1…入出力部、1…キーボード、1…マウス、1…印刷手段、1…表示手段、2…入力テキスト、3…キーワード抽出プログラム、4…単語辞書、5…文法辞書、6…不要語辞書、7…尺度表現語辞書、8…単語テーブル、9…キーワードテーブル、10…検索実行プログラム、11…検索結果データ、12…検索結果表示プログラム、13…文書データ、14…文書インデクスデータ、15…インデクス作成プログラム、16…尺度表現語辞書管理編集プログラム、17…パラメータ設定データ、100…表示画面、120…入力テキスト表示エリア、121…検索ボタン、122…解析ボタン、123…リセットボタン、140…キーワード一覧表示エリア、141…編集ボタン、142…ソートボタン、143…再検索ボタン、160…検索結果一覧表示エリア、161…ソートボタン、162…前頁ボタン、163…次頁ボタン、164…内容表示ボタン、180…終了ボタン、200…システムバス、201…CPU、203…メモリのワークエリア、204…メモリの格納エリア、205…クライアント、207…ネットワーク。

Claims (14)

  1. 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
    前記中央処理装置が、前記記憶装置内の前記入力テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記中央処理装置が、前記類似度の高い文書を検索結果として出力するステップとを備え、
    前記キーワードの重みを付与するステップにおいて、前記中央処理装置が、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与することを特徴とする文書検索方法。
  2. 利用者によって入力された入力テキストと、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
    前記中央処理装置が、前記記憶装置内の前記テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するとともに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、の内の少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記中央処理装置が、前記類似度の高い文書を検索結果として出力するステップとを備え、
    前記重み算出ルールは、前記尺度表現関連語用の重み算出ルールを含み、
    前記キーワードの重みを付与するステップにおいて、前記中央処理装置が、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与することを特徴とする文書検索方法。
  3. 請求項1または請求項2に記載の文書検索方法において、前記キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとすることを特徴とする文書検索方法。
  4. 請求項2または請求項3に記載の文書検索方法において、前記計算機の入力装置が、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語および前記抽出された尺度表現語を含む文節が修飾する語の内のどれを前記尺度表現関連語として抽出するかの選択を、利用者から受け付けることを特徴とする文書検索方法。
  5. 請求項1から請求項4のいずれかに記載の文書検索方法において、前記計算機の入力装置が、前記記憶装置内の前記重み算出ルールを、利用者から受け付けることを特徴とする文書検索方法。
  6. 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置と、前記記憶装置にアクセス可能な中央処理装置とを備えた計算機による、文書検索方法において、
    前記中央処理装置が、前記記憶装置内の前記入力テキストを解析してキーワードを抽出するステップと、前記中央処理装置が、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記中央処理装置が、前記抽出された尺度表現語の内の少なくとも一つまたは全てを含む文書を前記記憶装置内の前記文書群から取得するステップと、前記中央処理装置が、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するステップと、前記中央処理装置が、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを備え、
    前記類似度を算出するステップにおいて、前記中央処理装置が、前記取得された文書のみを対象として文書毎に類似度を算出することを特徴とする文書検索方法。
  7. 請求項1から請求項6のいずれかに記載の文書検索方法において、前記検索結果を出力するステップにおいて、前記中央処理装置が、前記抽出された尺度表現語が記述されている箇所を他と異なる態様とした形で、前記入力テキストを表示装置に表示させることを特徴とする文書検索方法。
  8. 請求項1から請求項6のいずれかに記載の文書検索方法において、前記検索結果を出力するステップにおいて、前記中央処理装置が、前記抽出された尺度表現語を他と異なる態様とした形で、前記入力テキストから抽出されたキーワード集合を表示装置に表示させることを特徴とする文書検索方法。
  9. 利用者によって入力された入力テキスト、定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置にアクセス可能な中央処理装置に各ステップを実行させるための文書検索プログラムにおいて、
    前記記憶装置内の前記入力テキストを解析してキーワードを抽出するとともに、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与するステップと、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索プログラム。
  10. 利用者によって入力された入力テキスト定量値に関する語を定義する尺度表現語辞書、検索対象となる文書、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールとを記憶する記憶装置にアクセス可能な中央処理装置に各ステップを実行させるための文書検索プログラムにおいて、
    前記記憶装置内の前記入力テキストを解析してキーワードを抽出するとともに、前記記憶装置内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出し、さらに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、のうちの少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記記憶装置内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与するステップと、前記重み付きキーワードと、前記記憶装置内の前記予め抽出した重み付きキーワードとを比較して、前記記憶装置内の前記文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索プログラム。
  11. 請求項9または請求項10に記載の文書検索プログラムにおいて、前記キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとすることを特徴とする文書検索プログラム。
  12. システムバスに接続された入出力手段、中央処理装置、メモリのワークエリアおよびメモリの格納エリアが接続された計算機を備える文書検索装置において、前記メモリの格納エリアには入力テキストを格納する入力テキスト、各単語に関する属性データが登録されている単語辞書、単語の品詞間の接続コストや文法ルール等が定義されている文法辞書、キーワード候補から除外すべき語を定義する不要語辞書、定量値に関する語を定義する尺度表現語辞書、入力テキストから取得された単語を格納する単語テーブル、該単語テーブルに格納された単語の内キーワード候補から除外すべき語に該当しない語を格納するキーワードテーブル、検索対象となる文書を格納する文書データ、該文書データの検索のための文書データインデックス、検索結果を格納する検索結果データ、利用者が与える検索に関する各種の設定を格納するパラメータ設定データと検索のためのプログラム、各文書から予め抽出した重み付きキーワード、尺度表現語用の重み算出ルールを備える文書検索装置であって、
    検索のためのプログラムは、利用者によって入力されたテキストを解析してキーワードを抽出するとともに、前記メモリ内の尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記メモリ内の前記重み算出ルールに基づいて、前記抽出された尺度表現語の重みを付与するステップと、前記重み付きキーワードと、前記メモリ内の前記予め抽出した重み付きキーワードとを比較して文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップとを、前記中央処理装置に実行させることを特徴とする文書検索装置。
  13. 前記検索のためのプログラムが、前記メモリ内の前記入力テキストを解析してキーワードを抽出するとともに、前記メモリ内の前記尺度表現語辞書を参照して前記抽出されたキーワードの中から尺度表現語を抽出し、さらに、前記入力テキストにおいて、前記抽出された尺度表現語に隣接して複合語を形成する語、前記抽出された尺度表現語を修飾する語、前記抽出された尺度表現語を含む文節が修飾する語、のうちの少なくとも1つに該当する語を尺度表現関連語として抽出するステップと、前記抽出されたキーワードの各々に対して重要度に相当する重みを付与するとともに、前記メモリ内の前記重み算出ルールに基づいて、前記抽出された尺度表現語および尺度表現関連語の重みを付与するステップと、前記重み付きキーワードと、前記メモリ内の前記予め抽出した重み付きキーワードとを比較して文書毎に類似度を算出するステップと、前記類似度の高い文書を検索結果として出力するステップを、前記中央処理装置に実行させる請求項12記載の文書検索装置。
  14. 請求項12または請求項13に記載の文書検索装置において、前記文書検索のためのプログラムが、キーワードを尺度表現語として抽出するのは、当該キーワードを含む文節が定量値を表す語または定量値を定性的に表す語を修飾しているか、定量値を表す語または定量値を定性的に表す語を含む文節が当該キーワードを修飾しているかのいずれかに該当する場合のみとしたことを特徴とする文書検索装置。
JP2004119857A 2004-04-15 2004-04-15 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 Expired - Fee Related JP4426893B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004119857A JP4426893B2 (ja) 2004-04-15 2004-04-15 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004119857A JP4426893B2 (ja) 2004-04-15 2004-04-15 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置

Publications (2)

Publication Number Publication Date
JP2005301855A true JP2005301855A (ja) 2005-10-27
JP4426893B2 JP4426893B2 (ja) 2010-03-03

Family

ID=35333277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004119857A Expired - Fee Related JP4426893B2 (ja) 2004-04-15 2004-04-15 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置

Country Status (1)

Country Link
JP (1) JP4426893B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP2011039717A (ja) * 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法および情報検索プログラム
WO2013021696A1 (ja) * 2011-08-05 2013-02-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索システム、方法、及びプログラム
JP2015164066A (ja) * 2015-05-07 2015-09-10 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
JP7413837B2 (ja) 2020-02-28 2024-01-16 ブラザー工業株式会社 プログラム、情報処理装置及び情報処理システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009048130A1 (ja) * 2007-10-12 2009-04-16 Nec Corporation 文書重要度算出システム、文書重要度算出方法およびプログラム
JP5187313B2 (ja) * 2007-10-12 2013-04-24 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
US8983965B2 (en) 2007-10-12 2015-03-17 Nec Corporation Document rating calculation system, document rating calculation method and program
JP2011039717A (ja) * 2009-08-10 2011-02-24 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム、情報検索方法および情報検索プログラム
WO2013021696A1 (ja) * 2011-08-05 2013-02-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索システム、方法、及びプログラム
GB2508544A (en) * 2011-08-05 2014-06-04 Ibm Information search system, method and program
JPWO2013021696A1 (ja) * 2011-08-05 2015-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報検索システム、方法、及びプログラム
JP2015164066A (ja) * 2015-05-07 2015-09-10 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
JP7413837B2 (ja) 2020-02-28 2024-01-16 ブラザー工業株式会社 プログラム、情報処理装置及び情報処理システム

Also Published As

Publication number Publication date
JP4426893B2 (ja) 2010-03-03

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
US7769771B2 (en) Searching a document using relevance feedback
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US10552467B2 (en) System and method for language sensitive contextual searching
US20100281034A1 (en) Query-Independent Entity Importance in Books
US8606779B2 (en) Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
CN111324771A (zh) 视频标签的确定方法、装置、电子设备及存储介质
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP5179564B2 (ja) クエリセグメント位置決定装置
US8195458B2 (en) Open class noun classification
JP2004206391A (ja) 文書情報分析装置
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070131

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070131

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090825

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091211

R150 Certificate of patent or registration of utility model

Ref document number: 4426893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees