JP4592556B2 - 文書検索装置、文書検索方法および文書検索プログラム - Google Patents

文書検索装置、文書検索方法および文書検索プログラム Download PDF

Info

Publication number
JP4592556B2
JP4592556B2 JP2005295545A JP2005295545A JP4592556B2 JP 4592556 B2 JP4592556 B2 JP 4592556B2 JP 2005295545 A JP2005295545 A JP 2005295545A JP 2005295545 A JP2005295545 A JP 2005295545A JP 4592556 B2 JP4592556 B2 JP 4592556B2
Authority
JP
Japan
Prior art keywords
search
viewpoint
document
weighting
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005295545A
Other languages
English (en)
Other versions
JP2007102723A (ja
Inventor
久雄 間瀬
一毅 久連石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005295545A priority Critical patent/JP4592556B2/ja
Publication of JP2007102723A publication Critical patent/JP2007102723A/ja
Application granted granted Critical
Publication of JP4592556B2 publication Critical patent/JP4592556B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然言語文章を入力してその内容に類似する文書を検索する文書検索装置、文書検索方法および文書検索プログラムに関する。
テキストデータを含む大量の文書群から所望の文書を検索する手法として、自然言語文章を検索条件として入力し、その内容に類似する文書を検索するものがある。すなわち、入力文章から抽出される一つ以上の重み付きタームで構成されるタームベクトルと、検索対象文書群を構成する各文書から予め抽出された一つ以上の重み付きタームで構成されるタームベクトルとの間の類似性を内積または余弦などの尺度で算出することにより、入力文章と検索対象文書との間の内容の類似度を定量化し、類似度の高い文書を検索結果として出力する手法である。
上記手法において、タームに重みを付与する際には、「TF・IDF法」と呼ばれる手法を使うのが一般的である。すなわち、あるタームの文章内での出現頻度(TF:Term Frequency)と、検索対象文書群におけるそのタームの出現文書数の逆数(IDF:Inverted Document Frequency)という二つの値を用いてタームに付与する重みを算出する手法である。広く市販されている類似文書検索システムでは、これらの値をそのまま使うのではなく、対数関数(log)等を施して値を補正するのが一般的である。また、出現頻度(TF)は文章が長いほど大きくなるため、出現頻度(TF)の値を文章長等で補正する場合が多い。
特許文献1には、類似文書検索に際し、ユーザの観点を関心度の深さとして検索ターム毎に深さを数値で設定させ、この数値を重みにして類似文書の検索を行う類似文書検索方法等が示されている。また、特許文献2には、ユーザの質問文から、予め定義された視点(観点)判定ルールにより視点情報を求め、その情報を用いて検索対象文書データベースから視点に対応する文書を抜粋し、その抜粋した文書を対象に類似文書検索を行い、スコアをつけてユーザに提示する文書検索システム等が示されている。
特開2005−4247号公報 特開2004−287875号公報
一般に自然言語文章を入力として文書を検索する場合、入力となる文章は利用者の検索目的およびその時点で保有している検索対象に関する情報量に応じて、さまざまな観点から入力される。ここで、「観点」とは「文章がどのような視点に立った内容であるのかを示したもの」であり、違う言葉で言い換えるとすると、「視点」「切り口」などが挙げられる。また、文書検索の立場から言うと、「観点」とは、「ユーザが文書集合の中から所望の文書だけを絞り込むために用いる文章属性」と言える。
例えば、ある発明内容に類似する特許を検索する場合、文章入力の観点としては、構成要素の列挙(手段または処理ステップなど)、課題・目的(何がしたいか)、発明の特徴(発明として新しい点は何か)、用途(発明がどこでどのように使われるか)、発明の対象、発明の効果などがあると思われる。また、特許以外の文書、例えば事故報告書であれば、現象、原因、対策、教訓などの観点が挙げられ、研究報告書などでは、背景、経緯、目的、手法、結果、将来課題などが挙げられる。
しかし、上記従来技術では、上記観点を利用者が指定する仕掛けが提供されておらず、上記観点を考慮した検索がなされないため、入力文章の特性を十分に活かした検索ができておらず、検索精度も高くならないという課題がある。
本発明は、上記課題を解決すべく、入力文章に加え、その文章がどんな視点に立って記載されたものかという観点を入力に加え、高精度な検索を実現する方法およびプログラムを提供することを目的とする。
すなわち、本発明は、入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を予め定義しておいて利用者に提示し、利用者によって選択された観点に応じてターム抽出アルゴリズムまたは重み付けアルゴリズム、検索実行時の検索範囲を動的に変更することにより、上記課題を解決する。また、入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、利用者によって文章が入力された入力エリアに対応する観点に応じてターム抽出アルゴリズムまたは重み付けアルゴリズム、検索実行時の検索範囲を動的に変更することにより、上記課題を解決する。
さらに、入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係を定義した観点抽出テーブルを格納しておき、入力文章の中に観点抽出テーブルに格納された言語表現が出現するか否かを解析することにより入力文章の観点を推定し、推定された観点に応じてターム抽出アルゴリズムまたは重み付けアルゴリズム、検索実行時の検索範囲を動的に変更して検索を実行することにより、上記課題を解決する。
本発明によれば、入力文章の観点を反映させた検索ターム抽出・重み付け、検索範囲の絞り込み等により、より高精度な類似文書検索が可能となり、情報検索にかかる利用者の作業効率を向上させることができる。
本発明の実施の形態を以下、図面を用いて詳細に説明する。なお、これにより本発明が限定されるものではない。
本実施形態では、特許文書を検索対象文書とし、利用者から入力された文章内容に関連の深い文書を検索する特許検索システムについて述べる。本システムは、利用者から入力される文章および検索対象となる特許文書群に出現するタームに着目し、前述の「TF・IDF法」を用いて入力文章の内容に関連の深い文書を検索する。なお、本実施形態では日本語文章を対象としているが、英語等の外国語文章でも適用可能である。
図1は、本実施例1における本発明の特徴を示す図である。本システムでは、日本語文章を入力として、その文章内容に関連の深い文書検索結果リストを出力する。従来方法では、文章入力エリア53または57に任意の文章を入力し、検索実行を指示すると、入力文章からタームを抽出して重み(重要度)を算出して各タームに付与する処理が実行される。従来のシステムでは、この処理は入力文章としてどんな文章が入力されても同一のアルゴリズムによってなされる場合がほとんどである。
これに対し、本システムでは、文章を入力するエリアの他に、入力文章がどのような視点に立った内容であるのかを示す観点の一覧を選択肢形式で利用者に画面出力し、利用者の選択を促す点が特徴である。すなわち、図1(A)に示す入力文章「ブックエンドは本を出し入れするとすぐに位置がずれてしまう」は、従来発明における問題点について記載されているので、観点として「課題」が選択される。また、図1(B)に示す入力文章「案内溝を持つ基板と、案内溝に係合する係合部を持つ仕切板からなるブックエンド」は、発明を実現するための手段・構成要素(「案内溝を持つ基板と、案内溝に係合する係合部を持つ仕切板からなる」)と、発明の対象物(「ブックエンド」)について記載されているので、観点として「対象」「手段」の二つが選択される。
本システムでは、利用者によって検索実行が指示されると、入力文章からタームを抽出して重みを算出するが、この際に選択された観点に応じて、タームとしてどれを抽出するのかを動的に変えることによりどのタームを抽出すべきかを動的に変えることにより、質の高いタームのみを検索に使えるようにする。例えば、ある観点が「対象」の場合は、名詞のみを抽出し、「手段」の場合は、目的語とそれが修飾する動詞のみを抽出する、といった解析が可能となる。
また、選択された観点に応じて、タームの重みの値をどの程度にしたら良いのかを動的に変えることにより、そのタームの重みを高精度に自動付与できるようにする。例えば、図1(A)に示すように、観点が「課題」の場合、課題を記載する場合に良く使われる言語表現として「〜してしまう」などを予め蓄積・格納しておき(図4参照)、その言語表現に付随するターム(図1(A)の場合は、その直前の主語である「位置」および動詞「ずれる」)を抽出してその重みを他のタームよりも高くする。ここでは、「課題の表現にはいろいろな構文が使われ、品詞による特定が難しいが、逆に、課題を表すときに使われる機能語(助動詞、助詞など)には固有の特徴がある」という言語特性を利用している。同様に図1(B)では、「〜と、」の直前の名詞「基板」および「〜からなる」の直前の名詞「仕切板」、文末の名詞「ブックエンド」の重みを高くする。ここでは、観点が「手段」の場合、手段の動作内容およびその動作が及ぶ対象物を対にして記載することが必須になるが、それらは「〜と、」「〜からなる」の直前に記載される名詞部分に記載されることが多い、という統計的な記載傾向に基づいている。また、観点が「対象」の場合は、発明の対象はものであることが多く、名詞で書かれることが多いという統計的な記載傾向に基づいている。
図2は、本システムのブロック図である。利用者は入出力部1を介して、文章を入力する。入力された文章は入力文章2に格納保持される。本実施形態では、文章はキーボードから入力することを想定しているが、マウス等を使っての文章データのドラッグ&ドロップやコピー,音声やペン,OCR等による入力でも構わない。また、他のプログラムから自動的に文章データが渡されるような形態でも構わない。
また、利用者は入出力部1を介して入力文章の観点を選択する。選択された観点は選択観点3に格納保持される。
利用者が検索実行を指示すると、本システムはまずターム抽出・重み付け部4において検索に用いるターム群を抽出し、各タームに重みを付与する。以下、ターム抽出・重み付け部4について説明する。
文章整形41では、入力文章を自然言語解析するために言語表記を統一する。本システムでは、半角文字を全角文字に変換し、英語小文字列を大文字列に変換する処理を施す。
形態素解析42では、単語文字列およびその属性情報(品詞・活用・標準形など)を格納した単語辞書5および単語間の接続規則を格納した文法辞書6を参照して、整形された文章を単語毎に分割し、各単語の属性情報を抽出して単語テーブル9に格納する。
不要語除去43では、助詞・助動詞や一般の文書で良く使われる単語(「場合」「とき」など)など、文章の内容を特徴付けない単語(不要語)を格納した不要語辞書7を参照して不要語を除去する(本システムでは形態素解析結果に含まれる不要語に対して、不要語であることを示すフラグを立てる(図5参照))。
ターム特定44では、検索に用いるのに適切なタームのみを抽出する(本システムでは検索に用いるターム(以下、「検索ターム」)であることを示すフラグを立てる(図5参照)。この際に、利用者から選択された観点に対応してどのようなタームを検索に用いるのかを定義した観点テーブル9(詳細後述)を参照する。
ターム重み付与45では、各検索タームの重みを算出する。この際にも、利用者から選択された観点に対応してどのよう重みを算出するかを定義した観点テーブル9(詳細後述)を参照する。本システムでは、ベースとなる重み付け方法として、TF・IDF法によるターム重み付けを採用する。すなわち、入力文章中におけるタームの出現回数TFをlogで補正した値(=1+log(TF))と、文書DB12に格納された特許文書群におけるタームの出現文書件数の逆数IDFから算出される値(=log(1+N/DF)、Nは文書DB12の文書総数)との積によってベースとなる重みを算出する。さらに、本システムでは、観点に着目した重み付けを採用する。すなわち、各観点においてある条件を満たすタームについてはそのタームの重みを高くすべく、「重み係数」なる値を定義可能としておき、上記重みにこの重み係数を乗ずることにより、重みをチューニングすることができるようにする。上記条件および重み係数の値などのデータは、観点テーブル9に観点毎に格納されている(図4参照、詳細後述)
ターム抽出・重み付け部4の出力であるタームおよびその重みのリストは検索タームテーブル10に格納される。
検索実行部11では、文書DB12に蓄積された特許文書データの各々に含まれるタームを抽出して重みを算出する検索インデクス生成部14によって予め生成された検索インデクス13と、検索タームテーブル10に格納された検索タームとを照合して、各文書との類似度を算出する。本システムでは類似度の算出尺度として、タームの重みを要素としたタームベクトル間の内積を算出する。もちろん、ベクトル間の余弦を算出するなど他の尺度を用いても全く問題はない。
検索タームと検索インデクス13を照合する際には、利用者によって選択された観点に応じて検索範囲(ターム照合範囲)を一部分に限定する。例えば、図1(A)の場合、観点が「課題」であるが、この場合、検索範囲を特許文書全体ではなくて、発明にかかる課題について述べた「発明が解決しようとする課題」や要約書の「課題」の部分だけに限定する。どの観点に関して検索範囲をどのように限定するかについてのデータは、図4に示す観点テーブル9の「検索範囲906」を参照することにより把握する。
検索結果生成表示部15では、検索実行部11での検索結果を構成する特許文書に対して、結果出力表示に必要な文書属性(出願日、出願人、発明の名称など)を付加して出力用のデータを生成する。そして、入出力部1を介して検索結果を利用者に報知する。
図3は、形態素解析42の出力である単語テーブル8の一例である。この出力データは図1(A)の文章を入力とした場合のものである。単語テーブル8は、入力文章に出現するままの単語文字列である見出し語101、活用する単語についてその終止形に置き換えた標準形102、品詞103、その単語が不要語か否かをフラグで示した不要語フラグ104、その単語が検索タームであるかをフラグで示した検索タームフラグ105からなる。形態素解析42の時点では、不要語除去43およびターム特定44はまだ実行されていないので、不要語フラグ104および検索タームフラグ105は初期値0のままである。なお、形態素解析は既に広く知られた公知技術であるので、処理アルゴリズムについては言及しない。
図4は、観点テーブル9の構成の一例を示す図である。観点テーブル9は、観点毎にデータが記述されている。ある一つの観点に係るデータは、観点の識別子である観点ID901、観点名称902、検索タームとしてどのタームを抽出すべきかを品詞で規定する「検索タームとする品詞903」、検索タームの中でどのタームを重要視すべきか(重みを上げるべきか)をルールとして記述した「重要視する検索ターム904」、重要視する検索タームに対して重みをどのくらい上げるべきかの度合を記述した重み係数905、検索実行時の検索範囲906から構成される。
このうち、「重要視する検索ターム904」は、ルールとして記述されている。例えば、「文字列「てしまう」の直前の動詞と主語」は、図3に示す単語の標準形102をスキャンすることにより、標準形「て」と「しまう」を結合する形で「てしまう」が出現しておりこのルールを満たすことが分かる。その直前の動詞の標準形として「ずれる」、主語(「が」「は」を伴う名詞)の標準形として「位置」を容易に特定できる。従ってこれらのタームの重みに対して、重み係数905として定義された値3をベースの重みに乗ずることにより、最終の重みの値を算出する。
また、検索実行時の検索範囲906は、本システムでは特許文書を構成する明細書タグを単位として指定している。一つの観点に対して検索範囲として複数の明細書タグを指定しても構わない。
図5は、不要語除去43およびターム特定44実行後の単語テーブル8の一例である。
図3に対して、不要語除去43が実行されることにより、不要語辞書7に格納されている単語に対して不要語フラグ104が1となる。また、ターム特定45が実行されることにより、検索タームである単語に対して検索タームフラグ105が1となる。この際、本システムは観点テーブル9を参照して検索タームとなるタームが何かを把握する。図1(A)の場合、観点が「課題」であるので、図5において観点名称が「課題」であるデータにおける「検索タームとする品詞908」に記載された品詞である名詞・動詞・英文字列を品詞として持つ単語を検索タームとみなすことができる。従って、検索タームフラグが1でかつ不要語フラグ104が0であるタームの標準形(「ブックエンド」「本」「出し入れ」「位置」「ずれる」)が検索タームと認定される。
図6は、検索タームテーブル10の構成の一例を示す図である。検索タームテーブル10は、検索タームの標準形102、該タームのTF(補正値)106、IDF(補正値)107、重要視するタームの重みに乗ずる重み係数108、最終的に算出された重みの値109から構成される。上述したように、本システムでは最終的な重みをTF106とIDF107と重み係数108の積として算出する。
次に、本実施形態の実施例2について述べる。
図7は、図1で示した観点の選択方法を変えたものである。図1では、観点を列挙して利用者に適切なものを選択させるものであったが、図7では、観点毎に文章入力エリアを分けて表示し、利用者は適切なエリアにその観点に該当する文章を入力する。本形態は、観点が複数混合している文章を入力する場合に、文章のどの部分がどの観点に相当するかをシステムが容易に理解できるのが特長である。
ターム抽出・重み付け部4での処理は、以下の2通りが考えられるがどちらの方法を採用しても構わない。また、どちらも基本的には上述した処理を複数回繰り返すことになるので、ここでは処理の詳細については言及しない。
(方法1)文章入力エリア毎に検索タームの抽出および重み付けを行い、その結果を一つにマージしてから検索を実行する。
(方法2)文章入力エリア毎に検索タームの抽出および重み付けを行い、それぞれの検索タームで検索を実行し、検索結果として出力される類似度をマージして最終的な類似度を算出する。
次に、本実施形態の拡張例である実施例3について述べる。本実施例3は、図1および図7で示した観点の選択方法をさらに変えたものである。すなわち、図1や図7に示したような観点集合や複数の文章入力エリアは表示されず、一つの文章入力エリアのみを表示する。すなわち観点を特定するのはシステムが自動的に行う。これにより、利用者は観点の存在を意識しないで自由に文章を入力して検索を行えるのが特長である。
以下、入力文章の観点をシステムが自動で特定するアルゴリズムの一例について述べる。上記実施例では、観点が利用者から指定されるので、指定された観点をキーに図4の観点テーブル9を参照することにより、ターム抽出および重み付け、検索実行時に必要な情報を取得することが可能であるが、本拡張例の場合、利用者から観点が指定されないため、入力文章中の特定言語表現をもとに観点を特定することとなる。ここでも図4の観点テーブル9を参照することとなるが、入力文章の中に、観点テーブル9における「ターム抽出で着目する言語表現と抽出する検索ターム904」に定義されたルールに合致する言語表現が存在するか否かをチェックし、存在する場合、そのルールの含まれる観点を該入力文章の観点とみなす。
具体的な処理アルゴリズムとしては、まず入力文章2の冒頭にポインタをおき、そのポインタから始まる文字列について、観点テーブル9の「ターム抽出で着目する言語表現と抽出する検索ターム904」に定義されたルールに合致する言語表現が存在するか否かをチェックする。このとき、図3の単語テーブル8の見出し101、標準形102、品詞103の情報もあわせて参照する。もし、ポインタから始まる文字列が合致するルールが見つかった場合、そのルールの属する観点ID901および観点名称902を観点として認定する。もし、合致するルールが見つからない場合、ポインタを一文字進め、同様のチェック処理を行う。こうして入力文章2の末尾にポインタが来るまで処理を繰り返す。そして、認定された観点すべてを入力文章2に対応する観点として最終的に認定する。その後のターム抽出・重み付け処理や検索実行処理は、既に述べた方法と同様にして行うことができる。
本発明の実施例1における本発明の特徴を示す図である。 本発明の実施例1におけるブロック図を示す図である。 本発明の実施例1における単語テーブルの構成の一例を示す図である。 本発明の実施例1における観点テーブルの構成の一例を示す図である。 本発明の実施例1における不要語除去43およびターム特定44の実行後の単語テーブルの構成の一例を示す図である。 本発明の実施例における検索タームテーブル10の構成の一例を示す図である。 本発明の変形例である実施例2を示す図である。
符号の説明
1 入出力部
2 入力文章
3 選択観点
4 ターム抽出・重み付け部
5 単語辞書
6 文法辞書
7 不要語辞書
8 単語テーブル
9 観点テーブル
10 検索タームテーブル
11 検索実行部
12 文書DB
13 検索インデクス
14 検索インデクス生成部
15 検索結果生成表示部

Claims (12)

  1. 文書を格納する文書データベースと接続され、
    前記文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成する検索インデクス生成部と、
    入力装置を介して利用者によって入力された入力文章からターム群を抽出してその重要度を算出するターム抽出・重み付け部と、
    前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
    前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示部と、を備えた文書検索装置であって、
    前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを備え、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
  2. 請求項1における文書検索装置において、
    前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示する観点集合表示部と、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
  3. 請求項1に記載の文書検索装置において、
    前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
  4. 請求項1に記載の文書検索装置において、
    前記観点テーブルに、入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義しておき、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け部におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行部における検索実行時の検索範囲を動的に変更することを特徴とする文書検索装置。
  5. 文書検索装置により実行される方法であって、
    文書を格納する文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成するインデクス生成処理を行い、
    入力装置を介して利用者によって入力された文章からターム群を抽出してその重要度を算出するターム抽出・重み付け処理を行い、
    前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行処理を行い、
    前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示処理を行う文書検索方法であって、
    前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法
  6. 請求項5に記載の文書検索方法において、
    前記文書検索装置により、
    前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示し、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
  7. 請求項に記載の文書検索方法において、
    前記文書検索装置により、
    前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示し、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出部・重み付け処理におけるターム抽出および重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
  8. 請求項に記載の文書検索方法において、
    前記文書検索装置により、
    前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておき、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定し、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出および重み付けを実行し、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更することを特徴とする文書検索方法。
  9. コンピュータに、
    文書を格納する文書データベースに格納された文書からタームを抽出してその重要度を算出することによって検索インデクスを生成するインデクス生成処理を行う手順と、
    入力装置を介して利用者によって入力された文章からターム群を抽出してその重要度を算出するターム抽出・重み付け処理を行う手順と、
    前記ターム群と前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行処理を行う手順と、
    前記類似度の高い文書を、出力装置を介して利用者に報知する検索結果表示処理を行う手順を実行させるための文書検索プログラムであって、
    前記コンピュータに、
    前記入力文章がどのような視点に立った内容であるのかを示す観点毎にターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム
  10. 請求項9に記載の文書検索プログラムにおいて、
    前記コンピュータに、
    前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点集合を、前記出力装置を介して利用者に提示する手順と、前記入力装置を介して利用者によって選択された観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出及び重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。
  11. 請求項9に記載の文書検索プログラムにおいて、
    前記コンピュータに、
    前記入力文章を利用者が入力する際に、該文章がどのような視点に立った内容であるのかを示す観点毎に文章入力エリアを分けて表示する手順と、前記入力装置を介して利用者によって文章が入力された入力エリアに対応する観点に応じて、観点毎に、ターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を予め定義した観点テーブルを参照して、前記ターム抽出部・重み付け処理におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。
  12. 請求項9に記載の文書検索プログラムにおいて、
    前記コンピュータに、
    前記入力文章がどのような視点に立った内容であるのかを示す観点と該観点に立って記載される文章に固有の言語表現との間の対応関係および観点毎のターム抽出方法および重み付け方法、あるいは、検索実行時の検索範囲を定義した観点テーブルを予め格納しておく手順と、前記入力文章の中に前記観点テーブルに格納された言語表現が出現するか否かを解析することにより前記入力文章の観点を推定する手順と、前記推定された観点に応じて、観点毎に、前記観点テーブルを参照して、前記ターム抽出・重み付け処理におけるターム抽出および重み付けを実行する手順、あるいは、前記検索実行処理における検索実行時の検索範囲を動的に変更する手順と、を実行させることを特徴とする文書検索プログラム。
JP2005295545A 2005-10-07 2005-10-07 文書検索装置、文書検索方法および文書検索プログラム Expired - Fee Related JP4592556B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005295545A JP4592556B2 (ja) 2005-10-07 2005-10-07 文書検索装置、文書検索方法および文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005295545A JP4592556B2 (ja) 2005-10-07 2005-10-07 文書検索装置、文書検索方法および文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2007102723A JP2007102723A (ja) 2007-04-19
JP4592556B2 true JP4592556B2 (ja) 2010-12-01

Family

ID=38029569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005295545A Expired - Fee Related JP4592556B2 (ja) 2005-10-07 2005-10-07 文書検索装置、文書検索方法および文書検索プログラム

Country Status (1)

Country Link
JP (1) JP4592556B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5397198B2 (ja) * 2009-12-08 2014-01-22 日本電気株式会社 話題推薦装置、話題推薦装方法およびプログラム
JP5652519B2 (ja) * 2013-08-14 2015-01-14 富士通株式会社 情報検索方法、プログラム及び装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0744567A (ja) * 1993-07-29 1995-02-14 Fujitsu Ltd 文書検索装置
JPH07192020A (ja) * 1993-03-12 1995-07-28 Toshiba Corp 文書情報検索装置
JP2002108936A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体
JP2004355550A (ja) * 2003-05-30 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 自然文検索装置、その方法及びプログラム
JP2005234732A (ja) * 2004-02-18 2005-09-02 Fuji Xerox Co Ltd 文書管理装置および方法
JP2005242454A (ja) * 2004-02-24 2005-09-08 Seiko Epson Corp 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192020A (ja) * 1993-03-12 1995-07-28 Toshiba Corp 文書情報検索装置
JPH0744567A (ja) * 1993-07-29 1995-02-14 Fujitsu Ltd 文書検索装置
JP2002108936A (ja) * 2000-10-03 2002-04-12 Canon Inc 情報検索装置及びその制御方法及びコンピュータ読み取り可能な記憶媒体
JP2004355550A (ja) * 2003-05-30 2004-12-16 Nippon Telegr & Teleph Corp <Ntt> 自然文検索装置、その方法及びプログラム
JP2005234732A (ja) * 2004-02-18 2005-09-02 Fuji Xerox Co Ltd 文書管理装置および方法
JP2005242454A (ja) * 2004-02-24 2005-09-08 Seiko Epson Corp 文書情報検索装置および文書情報検索方法ならびにそのプログラム

Also Published As

Publication number Publication date
JP2007102723A (ja) 2007-04-19

Similar Documents

Publication Publication Date Title
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
CN109298796B (zh) 一种词联想方法及装置
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
Elbarougy et al. Graph-Based Extractive Arabic Text Summarization Using Multiple Morphological Analyzers.
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
KR20220041337A (ko) 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP4479745B2 (ja) 文書の類似度補正方法、プログラムおよびコンピュータ
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Tschuggnall et al. Reduce & attribute: Two-step authorship attribution for large-scale problems
JP4525433B2 (ja) 文書集約装置及びプログラム
JP5214985B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100914

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100914

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees