JP2007102723A

JP2007102723A - 文書検索装置、文書検索方法および文書検索プログラム

Info

Publication number: JP2007102723A
Application number: JP2005295545A
Authority: JP
Inventors: Hisao Mase; 久雄間瀬; Kazutake Kurenishi; 一毅久連石
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2005-10-07
Filing date: 2005-10-07
Publication date: 2007-04-19
Anticipated expiration: 2025-10-07
Also published as: JP4592556B2

Abstract

【課題】自然言語文章を入力とする文書検索において、どのような視点で文章を入力したかという観点を考慮した検索がされていないため、入力文章の特性を十分に活かした検索ができておらず、検索精度も十分に高いものとなっていない。
【解決手段】入力文章の観点集合を利用者に提示し、観点毎にターム抽出方法、重み付け方法、検索範囲を予め定義した観点テーブルを参照して、選択された観点に応じてターム抽出、重み付け、検索範囲を動的に変更して検索を実行する。
【選択図】図１

Description

本発明は、自然言語文章を入力してその内容に類似する文書を検索する文書検索装置、文書検索方法および文書検索プログラムに関する。

テキストデータを含む大量の文書群から所望の文書を検索する手法として、自然言語文章を検索条件として入力し、その内容に類似する文書を検索するものがある。すなわち、入力文章から抽出される一つ以上の重み付きタームで構成されるタームベクトルと、検索対象文書群を構成する各文書から予め抽出された一つ以上の重み付きタームで構成されるタームベクトルとの間の類似性を内積または余弦などの尺度で算出することにより、入力文章と検索対象文書との間の内容の類似度を定量化し、類似度の高い文書を検索結果として出力する手法である。

上記手法において、タームに重みを付与する際には、「ＴＦ・ＩＤＦ法」と呼ばれる手法を使うのが一般的である。すなわち、あるタームの文章内での出現頻度（ＴＦ：Term Frequency）と、検索対象文書群におけるそのタームの出現文書数の逆数（ＩＤＦ：Inverted Document Frequency）という二つの値を用いてタームに付与する重みを算出する手法である。広く市販されている類似文書検索システムでは、これらの値をそのまま使うのではなく、対数関数（ｌｏｇ）等を施して値を補正するのが一般的である。また、出現頻度（ＴＦ）は文章が長いほど大きくなるため、出現頻度（ＴＦ）の値を文章長等で補正する場合が多い。

特許文献１には、類似文書検索に際し、ユーザの観点を関心度の深さとして検索ターム毎に深さを数値で設定させ、この数値を重みにして類似文書の検索を行う類似文書検索方法等が示されている。また、特許文献２には、ユーザの質問文から、予め定義された視点（観点）判定ルールにより視点情報を求め、その情報を用いて検索対象文書データベースから視点に対応する文書を抜粋し、その抜粋した文書を対象に類似文書検索を行い、スコアをつけてユーザに提示する文書検索システム等が示されている。
特開２００５−４２４７号公報特開２００４−２８７８７５号公報

一般に自然言語文章を入力として文書を検索する場合、入力となる文章は利用者の検索目的およびその時点で保有している検索対象に関する情報量に応じて、さまざまな観点から入力される。ここで、「観点」とは「文章がどのような視点に立った内容であるのかを示したもの」であり、違う言葉で言い換えるとすると、「視点」「切り口」などが挙げられる。また、文書検索の立場から言うと、「観点」とは、「ユーザが文書集合の中から所望の文書だけを絞り込むために用いる文章属性」と言える。

例えば、ある発明内容に類似する特許を検索する場合、文章入力の観点としては、構成要素の列挙（手段または処理ステップなど）、課題・目的（何がしたいか）、発明の特徴（発明として新しい点は何か）、用途（発明がどこでどのように使われるか）、発明の対象、発明の効果などがあると思われる。また、特許以外の文書、例えば事故報告書であれば、現象、原因、対策、教訓などの観点が挙げられ、研究報告書などでは、背景、経緯、目的、手法、結果、将来課題などが挙げられる。

しかし、上記従来技術では、上記観点を利用者が指定する仕掛けが提供されておらず、上記観点を考慮した検索がなされないため、入力文章の特性を十分に活かした検索ができておらず、検索精度も高くならないという課題がある。

本発明は、上記課題を解決すべく、入力文章に加え、その文章がどんな視点に立って記載されたものかという観点を入力に加え、高精度な検索を実現する方法およびプログラムを提供することを目的とする。

すなわち、本発明は、入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を予め定義しておいて利用者に提示し、利用者によって選択された観点に応じてターム抽出アルゴリズムまたは重み付けアルゴリズム、検索実行時の検索範囲を動的に変更することにより、上記課題を解決する。また、入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、利用者によって文章が入力された入力エリアに対応する観点に応じてターム抽出アルゴリズムまたは重み付けアルゴリズム、検索実行時の検索範囲を動的に変更することにより、上記課題を解決する。

さらに、入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係を定義した観点抽出テーブルを格納しておき、入力文章の中に観点抽出テーブルに格納された言語表現が出現するか否かを解析することにより入力文章の観点を推定し、推定された観点に応じてターム抽出アルゴリズムまたは重み付けアルゴリズム、検索実行時の検索範囲を動的に変更して検索を実行することにより、上記課題を解決する。

本発明によれば、入力文章の観点を反映させた検索ターム抽出・重み付け、検索範囲の絞り込み等により、より高精度な類似文書検索が可能となり、情報検索にかかる利用者の作業効率を向上させることができる。

本発明の実施の形態を以下、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。
本実施形態では、特許文書を検索対象文書とし、利用者から入力された文章内容に関連の深い文書を検索する特許検索システムについて述べる。本システムは、利用者から入力される文章および検索対象となる特許文書群に出現するタームに着目し、前述の「ＴＦ・ＩＤＦ法」を用いて入力文章の内容に関連の深い文書を検索する。なお、本実施形態では日本語文章を対象としているが、英語等の外国語文章でも適用可能である。

図１は、本実施例１における本発明の特徴を示す図である。本システムでは、日本語文章を入力として、その文章内容に関連の深い文書検索結果リストを出力する。従来方法では、文章入力エリア５３または５７に任意の文章を入力し、検索実行を指示すると、入力文章からタームを抽出して重み（重要度）を算出して各タームに付与する処理が実行される。従来のシステムでは、この処理は入力文章としてどんな文章が入力されても同一のアルゴリズムによってなされる場合がほとんどである。

これに対し、本システムでは、文章を入力するエリアの他に、入力文章がどのような視点に立った内容であるのかを示す観点の一覧を選択肢形式で利用者に画面出力し、利用者の選択を促す点が特徴である。すなわち、図１（Ａ）に示す入力文章「ブックエンドは本を出し入れするとすぐに位置がずれてしまう」は、従来発明における問題点について記載されているので、観点として「課題」が選択される。また、図１（Ｂ）に示す入力文章「案内溝を持つ基板と、案内溝に係合する係合部を持つ仕切板からなるブックエンド」は、発明を実現するための手段・構成要素（「案内溝を持つ基板と、案内溝に係合する係合部を持つ仕切板からなる」）と、発明の対象物（「ブックエンド」）について記載されているので、観点として「対象」「手段」の二つが選択される。

本システムでは、利用者によって検索実行が指示されると、入力文章からタームを抽出して重みを算出するが、この際に選択された観点に応じて、タームとしてどれを抽出するのかを動的に変えることによりどのタームを抽出すべきかを動的に変えることにより、質の高いタームのみを検索に使えるようにする。例えば、ある観点が「対象」の場合は、名詞のみを抽出し、「手段」の場合は、目的語とそれが修飾する動詞のみを抽出する、といった解析が可能となる。

また、選択された観点に応じて、タームの重みの値をどの程度にしたら良いのかを動的に変えることにより、そのタームの重みを高精度に自動付与できるようにする。例えば、図１（Ａ）に示すように、観点が「課題」の場合、課題を記載する場合に良く使われる言語表現として「〜してしまう」などを予め蓄積・格納しておき（図４参照）、その言語表現に付随するターム（図１（Ａ）の場合は、その直前の主語である「位置」および動詞「ずれる」）を抽出してその重みを他のタームよりも高くする。ここでは、「課題の表現にはいろいろな構文が使われ、品詞による特定が難しいが、逆に、課題を表すときに使われる機能語（助動詞、助詞など）には固有の特徴がある」という言語特性を利用している。同様に図１（Ｂ）では、「〜と、」の直前の名詞「基板」および「〜からなる」の直前の名詞「仕切板」、文末の名詞「ブックエンド」の重みを高くする。ここでは、観点が「手段」の場合、手段の動作内容およびその動作が及ぶ対象物を対にして記載することが必須になるが、それらは「〜と、」「〜からなる」の直前に記載される名詞部分に記載されることが多い、という統計的な記載傾向に基づいている。また、観点が「対象」の場合は、発明の対象はものであることが多く、名詞で書かれることが多いという統計的な記載傾向に基づいている。

図２は、本システムのブロック図である。利用者は入出力部１を介して、文章を入力する。入力された文章は入力文章２に格納保持される。本実施形態では、文章はキーボードから入力することを想定しているが、マウス等を使っての文章データのドラッグ＆ドロップやコピー，音声やペン，ＯＣＲ等による入力でも構わない。また、他のプログラムから自動的に文章データが渡されるような形態でも構わない。
また、利用者は入出力部１を介して入力文章の観点を選択する。選択された観点は選択観点３に格納保持される。

利用者が検索実行を指示すると、本システムはまずターム抽出・重み付け部４において検索に用いるターム群を抽出し、各タームに重みを付与する。以下、ターム抽出・重み付け部４について説明する。

文章整形４１では、入力文章を自然言語解析するために言語表記を統一する。本システムでは、半角文字を全角文字に変換し、英語小文字列を大文字列に変換する処理を施す。
形態素解析４２では、単語文字列およびその属性情報（品詞・活用・標準形など）を格納した単語辞書５および単語間の接続規則を格納した文法辞書６を参照して、整形された文章を単語毎に分割し、各単語の属性情報を抽出して単語テーブル９に格納する。
不要語除去４３では、助詞・助動詞や一般の文書で良く使われる単語（「場合」「とき」など）など、文章の内容を特徴付けない単語（不要語）を格納した不要語辞書７を参照して不要語を除去する（本システムでは形態素解析結果に含まれる不要語に対して、不要語であることを示すフラグを立てる（図５参照））。

ターム特定４４では、検索に用いるのに適切なタームのみを抽出する（本システムでは検索に用いるターム（以下、「検索ターム」）であることを示すフラグを立てる（図５参照）。この際に、利用者から選択された観点に対応してどのようなタームを検索に用いるのかを定義した観点テーブル９（詳細後述）を参照する。

ターム重み付与４５では、各検索タームの重みを算出する。この際にも、利用者から選択された観点に対応してどのよう重みを算出するかを定義した観点テーブル９（詳細後述）を参照する。本システムでは、ベースとなる重み付け方法として、ＴＦ・ＩＤＦ法によるターム重み付けを採用する。すなわち、入力文章中におけるタームの出現回数ＴＦをｌｏｇで補正した値（＝１＋ｌｏｇ（ＴＦ））と、文書ＤＢ１２に格納された特許文書群におけるタームの出現文書件数の逆数ＩＤＦから算出される値（＝ｌｏｇ（１＋Ｎ／ＤＦ）、Ｎは文書ＤＢ１２の文書総数）との積によってベースとなる重みを算出する。さらに、本システムでは、観点に着目した重み付けを採用する。すなわち、各観点においてある条件を満たすタームについてはそのタームの重みを高くすべく、「重み係数」なる値を定義可能としておき、上記重みにこの重み係数を乗ずることにより、重みをチューニングすることができるようにする。上記条件および重み係数の値などのデータは、観点テーブル９に観点毎に格納されている（図４参照、詳細後述）

ターム抽出・重み付け部４の出力であるタームおよびその重みのリストは検索タームテーブル１０に格納される。
検索実行部１１では、文書ＤＢ１２に蓄積された特許文書データの各々に含まれるタームを抽出して重みを算出する検索インデクス生成部１４によって予め生成された検索インデクス１３と、検索タームテーブル１０に格納された検索タームとを照合して、各文書との類似度を算出する。本システムでは類似度の算出尺度として、タームの重みを要素としたタームベクトル間の内積を算出する。もちろん、ベクトル間の余弦を算出するなど他の尺度を用いても全く問題はない。

検索タームと検索インデクス１３を照合する際には、利用者によって選択された観点に応じて検索範囲（ターム照合範囲）を一部分に限定する。例えば、図１（Ａ）の場合、観点が「課題」であるが、この場合、検索範囲を特許文書全体ではなくて、発明にかかる課題について述べた「発明が解決しようとする課題」や要約書の「課題」の部分だけに限定する。どの観点に関して検索範囲をどのように限定するかについてのデータは、図４に示す観点テーブル９の「検索範囲９０６」を参照することにより把握する。

検索結果生成表示部１５では、検索実行部１１での検索結果を構成する特許文書に対して、結果出力表示に必要な文書属性（出願日、出願人、発明の名称など）を付加して出力用のデータを生成する。そして、入出力部１を介して検索結果を利用者に報知する。
図３は、形態素解析４２の出力である単語テーブル８の一例である。この出力データは図１（Ａ）の文章を入力とした場合のものである。単語テーブル８は、入力文章に出現するままの単語文字列である見出し語１０１、活用する単語についてその終止形に置き換えた標準形１０２、品詞１０３、その単語が不要語か否かをフラグで示した不要語フラグ１０４、その単語が検索タームであるかをフラグで示した検索タームフラグ１０５からなる。形態素解析４２の時点では、不要語除去４３およびターム特定４４はまだ実行されていないので、不要語フラグ１０４および検索タームフラグ１０５は初期値０のままである。なお、形態素解析は既に広く知られた公知技術であるので、処理アルゴリズムについては言及しない。

図４は、観点テーブル９の構成の一例を示す図である。観点テーブル９は、観点毎にデータが記述されている。ある一つの観点に係るデータは、観点の識別子である観点ＩＤ９０１、観点名称９０２、検索タームとしてどのタームを抽出すべきかを品詞で規定する「検索タームとする品詞９０３」、検索タームの中でどのタームを重要視すべきか（重みを上げるべきか）をルールとして記述した「重要視する検索ターム９０４」、重要視する検索タームに対して重みをどのくらい上げるべきかの度合を記述した重み係数９０５、検索実行時の検索範囲９０６から構成される。

このうち、「重要視する検索ターム９０４」は、ルールとして記述されている。例えば、「文字列「てしまう」の直前の動詞と主語」は、図３に示す単語の標準形１０２をスキャンすることにより、標準形「て」と「しまう」を結合する形で「てしまう」が出現しておりこのルールを満たすことが分かる。その直前の動詞の標準形として「ずれる」、主語（「が」「は」を伴う名詞）の標準形として「位置」を容易に特定できる。従ってこれらのタームの重みに対して、重み係数９０５として定義された値３をベースの重みに乗ずることにより、最終の重みの値を算出する。

また、検索実行時の検索範囲９０６は、本システムでは特許文書を構成する明細書タグを単位として指定している。一つの観点に対して検索範囲として複数の明細書タグを指定しても構わない。

図５は、不要語除去４３およびターム特定４４実行後の単語テーブル８の一例である。
図３に対して、不要語除去４３が実行されることにより、不要語辞書７に格納されている単語に対して不要語フラグ１０４が１となる。また、ターム特定４５が実行されることにより、検索タームである単語に対して検索タームフラグ１０５が１となる。この際、本システムは観点テーブル９を参照して検索タームとなるタームが何かを把握する。図１（Ａ）の場合、観点が「課題」であるので、図５において観点名称が「課題」であるデータにおける「検索タームとする品詞９０８」に記載された品詞である名詞・動詞・英文字列を品詞として持つ単語を検索タームとみなすことができる。従って、検索タームフラグが１でかつ不要語フラグ１０４が０であるタームの標準形（「ブックエンド」「本」「出し入れ」「位置」「ずれる」）が検索タームと認定される。

図６は、検索タームテーブル１０の構成の一例を示す図である。検索タームテーブル１０は、検索タームの標準形１０２、該タームのＴＦ（補正値）１０６、ＩＤＦ（補正値）１０７、重要視するタームの重みに乗ずる重み係数１０８、最終的に算出された重みの値１０９から構成される。上述したように、本システムでは最終的な重みをＴＦ１０６とＩＤＦ１０７と重み係数１０８の積として算出する。

次に、本実施形態の実施例２について述べる。
図７は、図１で示した観点の選択方法を変えたものである。図１では、観点を列挙して利用者に適切なものを選択させるものであったが、図７では、観点毎に文章入力エリアを分けて表示し、利用者は適切なエリアにその観点に該当する文章を入力する。本形態は、観点が複数混合している文章を入力する場合に、文章のどの部分がどの観点に相当するかをシステムが容易に理解できるのが特長である。

ターム抽出・重み付け部４での処理は、以下の２通りが考えられるがどちらの方法を採用しても構わない。また、どちらも基本的には上述した処理を複数回繰り返すことになるので、ここでは処理の詳細については言及しない。
（方法１）文章入力エリア毎に検索タームの抽出および重み付けを行い、その結果を一つにマージしてから検索を実行する。
（方法２）文章入力エリア毎に検索タームの抽出および重み付けを行い、それぞれの検索タームで検索を実行し、検索結果として出力される類似度をマージして最終的な類似度を算出する。

次に、本実施形態の拡張例である実施例３について述べる。本実施例３は、図１および図７で示した観点の選択方法をさらに変えたものである。すなわち、図１や図７に示したような観点集合や複数の文章入力エリアは表示されず、一つの文章入力エリアのみを表示する。すなわち観点を特定するのはシステムが自動的に行う。これにより、利用者は観点の存在を意識しないで自由に文章を入力して検索を行えるのが特長である。

以下、入力文章の観点をシステムが自動で特定するアルゴリズムの一例について述べる。上記実施例では、観点が利用者から指定されるので、指定された観点をキーに図４の観点テーブル９を参照することにより、ターム抽出および重み付け、検索実行時に必要な情報を取得することが可能であるが、本拡張例の場合、利用者から観点が指定されないため、入力文章中の特定言語表現をもとに観点を特定することとなる。ここでも図４の観点テーブル９を参照することとなるが、入力文章の中に、観点テーブル９における「ターム抽出で着目する言語表現と抽出する検索ターム９０４」に定義されたルールに合致する言語表現が存在するか否かをチェックし、存在する場合、そのルールの含まれる観点を該入力文章の観点とみなす。

具体的な処理アルゴリズムとしては、まず入力文章２の冒頭にポインタをおき、そのポインタから始まる文字列について、観点テーブル９の「ターム抽出で着目する言語表現と抽出する検索ターム９０４」に定義されたルールに合致する言語表現が存在するか否かをチェックする。このとき、図３の単語テーブル８の見出し１０１、標準形１０２、品詞１０３の情報もあわせて参照する。もし、ポインタから始まる文字列が合致するルールが見つかった場合、そのルールの属する観点ＩＤ９０１および観点名称９０２を観点として認定する。もし、合致するルールが見つからない場合、ポインタを一文字進め、同様のチェック処理を行う。こうして入力文章２の末尾にポインタが来るまで処理を繰り返す。そして、認定された観点すべてを入力文章２に対応する観点として最終的に認定する。その後のターム抽出・重み付け処理や検索実行処理は、既に述べた方法と同様にして行うことができる。

本発明の実施例１における本発明の特徴を示す図である。本発明の実施例１におけるブロック図を示す図である。本発明の実施例１における単語テーブルの構成の一例を示す図である。本発明の実施例１における観点テーブルの構成の一例を示す図である。本発明の実施例１における不要語除去４３およびターム特定４４の実行後の単語テーブルの構成の一例を示す図である。本発明の実施例における検索タームテーブル１０の構成の一例を示す図である。本発明の変形例である実施例２を示す図である。

符号の説明

１入出力部
２入力文章
３選択観点
４ターム抽出・重み付け部
５単語辞書
６文法辞書
７不要語辞書
８単語テーブル
９観点テーブル
１０検索タームテーブル
１１検索実行部
１２文書ＤＢ
１３検索インデクス
１４検索インデクス生成部
１５検索結果生成表示部

Claims

文書を格納する文書データベースと接続され、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された入力文章からターム群を抽出してその重要度を算出するターム抽出・重み付け部と、
前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示部と、を備えた文書検索装置であって、
前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを備え、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
請求項１における文書検索装置において、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示する観点集合表示部と、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
請求項１に記載の文書検索装置において、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
請求項１に記載の文書検索装置において、
前記観点テーブルに、入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義しておき、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
請求項２に記載の文書検索装置において、
前記観点テーブルに、前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義しておき、
前記入力装置を介して利用者から観点が選択されない場合に、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
文書を格納する文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成し、
入力装置を介して利用者によって入力された文章からターム群を抽出してその重要度を算出し、
前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定し、
前記類似度の高い文書を、出力装置を介して利用者に報知する文書検索方法であって、
前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
請求項６に記載の文書検索方法において、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示し、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
請求項６に記載の文書検索方法において、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出部・重み付け部におけるターム抽出および重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
請求項６に記載の文書検索方法において、
前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておき、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
請求項７に記載の文書検索方法において、
前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておき、前記入力装置を介して利用者から観点が選択されない場合に、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
文書を格納する文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成する手順と、
入力装置を介して利用者によって入力された文章からターム群を抽出してその重要度を算出する手順と、
前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する手順と、
前記類似度の高い文書を、出力装置を介して利用者に報知する手順と、を実行するコンピュータによる読み取りが可能な文書検索プログラムであって、
前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照する手順と、
前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更する手順と、を実行するコンピュータによる読み取りが可能な文書検索プログラム。
請求項１１に記載のコンピュータによる読み取りが可能な文書検索プログラムにおいて、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示する手順と、
前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照する手順と、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更する手順と、を実行するコンピュータによる読み取りが可能な文書検索プログラム。
請求項１１に記載のコンピュータによる読み取りが可能な文書検索プログラムにおいて、
前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示する手順と、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照する手順と、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更する手順と、を実行するコンピュータによる読み取りが可能な文書検索プログラム。
請求項１１に記載のコンピュータにより読み取りが可能な文書検索プログラムにおいて、
入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておく手順と、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析する手順と、前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更する手順と、を実行するコンピュータによる読み取りが可能な文書検索プログラム。
請求項１２に記載のコンピュータによる読み取りが可能な文書検索プログラムにおいて、
入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておく手順と、前記入力装置を介して利用者から観点が選択されない場合に、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析する手順と、前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して前記ターム抽出・重み付け部におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更する手順と、を実行するコンピュータによる読み取りが可能な文書検索プログラム。