JP2742115B2 - 類似文書検索装置 - Google Patents

類似文書検索装置

Info

Publication number
JP2742115B2
JP2742115B2 JP1310562A JP31056289A JP2742115B2 JP 2742115 B2 JP2742115 B2 JP 2742115B2 JP 1310562 A JP1310562 A JP 1310562A JP 31056289 A JP31056289 A JP 31056289A JP 2742115 B2 JP2742115 B2 JP 2742115B2
Authority
JP
Japan
Prior art keywords
document
index
unit
input
dependency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1310562A
Other languages
English (en)
Other versions
JPH03172966A (ja
Inventor
博人 稲垣
末治 宮原
英文 加納
史彦 小橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1310562A priority Critical patent/JP2742115B2/ja
Publication of JPH03172966A publication Critical patent/JPH03172966A/ja
Application granted granted Critical
Publication of JP2742115B2 publication Critical patent/JP2742115B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、フルテキストのデータベース中から類似
文書を効率よく高精度に検索することができる類似文書
検索装置に関する。
〔従来の技術〕
従来から情報検索システムの構築を目指して種々のシ
ステムが立案,実現されてきている。これらのシステム
では、データベース中から必要な情報を取り出す場合の
検索方法として、文書番号や文書名を入力する方法、各
文書に付与されているキーワードを検索する方法、文書
の文字をすべて検索する方法が取られてきた。
例えば特許文を検索するシステム(PATOLIS)では、
特許番号(出願番号,公告番号,公開番号など),国際
分類番号,出願人などの書誌事項から特許文書を検索す
ることができる。また、各特許に対して発明の目的,産
業上の利用分野,効果,構成等をフリーキーワードとし
て登録しており、検索したいキーワード列と論理式(AN
D,OR,NOT)の組み合わせを入力することにより希望の特
許文書を検索することができる。
最後の方法はフルテキストサーチと呼ばれている方法
であり、ユーザが入力したキーワードと一致する単語を
持つ文書を出力する方法である。この場合検索結果は、
検索した順に出力する場合とキーワードの一致数が多い
順にソートして出力する場合がある。
〔発明が解決しようとする課題〕
上記従来技術においては、多数のキーワードと論理式
を複雑に組み合わせたとしても、必ずしも希望の文書を
入手できるとは限らない。また、キーワードのマッチン
グ方式においては、キーワードの直接マッチング,論理
式(AND,OR,NOT等),複合条件式(近傍条件,文脈条
件)が用いられるが、検索時に必要な文書を検索するこ
とが非常に多く、大量に出力された検索結果から希望す
る文書を人手で探さなければならない等の問題点があっ
た。
この発明は、上記の問題点を解決するためになされた
もので、フルテキストのデータベースの中から類似文書
を効率よく、かつ高精度に検索ができる類似文書検索装
置を提供することを目的とする。
〔課題を解決するための手段〕
この発明にかかる類似文書検索装置は、検索対象であ
る文章を直性外部から入力可能とする文書入力部と、入
力文書を分かち書きし、形態素情報から文節間の係り受
け関係を解析する係り受け解析部と、係り受け解析結果
から文構造を決定し、この文構造から索引を抽出し、重
要度付与を行う索引抽出部と、入力された文書の形態素
情報,係り受け情報,索引情報を記憶する文書蓄積部
と、索引抽出部で作成した索引の同義語や類義語をシソ
ーラス辞書から取り出すシソーラス展開部と、索引とそ
の同義語,類義語をキーワードとして、文構造の類似度
を算出する類似文書検索部と、類似文書検索部で検索し
た文書を類似度の高い順に画面に出力する類似文書出力
部とを具備したものである。
〔作用〕
この発明においては、入力として直接検索したい文書
を入力するため、キーワードや論理式の設定をせずに類
似文書を検索することが可能となる。また、索引抽出部
で付与した索引の重要度と、シソーラス展開した同義
語,類義語の意味の近さとを考慮し、さらに係り受け構
造の類似度から文書の類似度を判断するので、従来に比
べ精度のよい類似文書の検索が可能となる。
〔実施例〕
以下、この発明の実施例について説明する。
まず、この発明の類似文書検索装置の全体構成につい
て述べる。
第1図はこの発明の一実施例の構成を示すブロック図
である。1は文書入力部で、外部から入力した文書情報
(イメージ情報,コード情報)を本装置に適したコード
情報に変換する。2は係り受け解析部で、文書入力部1
から入力した文を分かち書きし単語単位に分割する。さ
らに、品詞情報,活用形,形態素の情報を個々の単語に
付与して係り受け解析を行う。3は索引抽出部で、索引
を抽出するとともに、抽出した索引に重要度を付与す
る。索引の重要度は係り受け解析部2の係り受け情報か
ら得た構文情報から判断する。4は文書蓄積部で、形態
素情報,係り受け情報,索引情報等を蓄積する。5はシ
ソーラス展開部で、索引抽出部3で抽出した索引の同義
語,類義語をシソーラス辞書から取り出す。6は類似文
書検索部で、索引抽出部3から抽出した索引と、シソー
ラス展開部5で取得した同義語,類義語と、係り受け解
析部2の係り受け関係を用いて文書の類似度を算出す
る。7は類似文書出力部で、類似文書検索部6で検索さ
れた文書を類似度の高い順に画面に出力する。
第2図にこの発明の類似文書検索装置のシステム構成
ブロック図を示す。イメージ情報からコード情報への変
換は文字認識部10が受け持つ。イメージ情報の入力デバ
イスとしては、イメージリーダ11,ハンドスキャナ12,FA
X13,CD−ROM14がある。また、直接コード情報として入
力するデバイスとして、フロッピーディスク15やマグネ
ティックテープ16がある。また、ユーザが直接キーボー
ドから文書入力可能なようにユーザ端末にはキーボード
17が用意されている。
CPU20およびRAM21を使用して係り受け解析部2,索引抽
出部3,シソーラス展開部5,類似文書検索部6の処理を実
行する。DISK30には文書データベース100,シソーラス辞
書101,形態素解析用辞書102が記憶されている。文書デ
ータベース,辞書等は通常DISK30に記憶されているが、
各種処理の高速化を図るためRAM21の容量に応じて、DIS
K30からRAM21に転送されて使用される。類似文書検索結
果は、ディスプレー70に映し出される。そして、上記10
〜17および70の各部は、第1図の文書入力部1に対応
し、これらから文書を直接入力する。また、第1図の文
書蓄積部4は文書データベース100に対応している。
以下に各処理の詳細について第1図,第2図により述
べる。
文書入力部1ではイメージ情報,コード情報のどちら
も入力可能である。イメージ情報の入力は、FAX13,CD−
ROM14,イメージリーダ11等のイメージ読取り装置から行
われる。各デバイスドライバでは、各デバイスから取得
したイメージ情報から文書構造情報を基に文字を切り出
し、切り出した文字イメージを文字認識部10に転送す
る。文字認識部10では転送されてきた文字イメージをコ
ード情報に変換する処理を行う。この処理は、例えば宮
原(宮原:文字読取方式、特願昭57−222489号)の発明
を用いる。コード情報は変換した後、他の処理を行うた
めRAM21に転送される。
直接、フロッピーディスク15やマグネティックテープ
16からコード情報を読取る場合は、読取った情報を直接
RAM21に転送する。キーボード17から直接コード情報を
入力する場合でも同様にRAM21に転送される。
係り受け解析部2では、まず、入力された文書の形態
素解析を行う。形態素解析では、形態素解析用辞書102
を用いて文を分かち書きし、形態素情報を付与する。形
態素情報としては、表記,読み,品詞,活用形,意味カ
テゴリ番号等を付与する。係り受け解析はこれらの形態
素情報を用いて実施される。係り受け解析の代表的な手
法としては、稲垣ら(稲垣、小橋:係り受け解析方法、
特開昭64−17152号公報参照)の発明がある。この係り
受け解析手法を用いて入力文章を係り受け解析した例を
第3図に示す。
入力文「カナ文字列及び同音語選択指示信号を入力す
るための入力手段と、……」を文節単位に分割すると、
「カナ文字列 及び 同音語選択指示信号を 入力する
ための 入力手段と、」と分割される。次に文節単位に
分割された単語群の係り受け関係を求める。この入力文
では第3図に示すように、「カナ文字列」と「同音語選
択指示信号」は並列構文を形成しており、ともに「入力
するための」に係り、文節「入力するための」は「入力
手段」に係ることになる。係り受け解析部2では、この
ような文節間の係り受け関係を求める処理を受け持つ。
索引抽出部3では、形態素解析で分解された単語の中
から索引を抽出するとともに、抽出した索引を重み付け
する。
索引抽出する手法としては、不要語辞書法と統制語辞
書法がある。前者は、索引として抽出してはならない単
語を不要語辞書に登録し、不要語辞書にない単語を索引
として抽出する手法である。後者は、索引となるべき単
語を統制語辞書に登録し、統制語辞書の単語と一致する
単語が文書中に存在する場合、索引として出力する手法
である。統制語辞書が用意されている文書では統制語辞
書法を用い、統制語辞書が用意されていない文書では不
要語辞書を用いる。第3図に示すような例では、統制語
辞書が用意されていないため、不要語辞書法を適用す
る。この種の文書では、第4図に示すような不要語辞書
を用意し、不要語以外の単語を除いた名詞相当語句(固
有名詞、サ変名詞等も含む)を索引として抽出する。
索引の重み付けは、係り受け解析結果から算出される
文構造ポイントを利用する。文構造ポイントは、文節間
の係り受けとその係り受け関係の属性により決定する。
文末の文節に文構造ポイントの基準値を与え、各文節の
文構造ポイントは、文末の文節から対象とする文節にた
どり着くまでに通る係り受けの文節間リンクポイントの
合計値とする。
第5図に係り文節の付属語と文節間のリンクポイント
の対応を示す。第6図に例を示すが、「信号を 入力す
るための 入力手段。」という入力文では、「入力手
段。」には文構造ポイントの基準値(0)を与え、文節
「入力するための」は、助詞「の」の介した係り受け関
係であるため、文節間のリンクポイントは2となり、文
構造ポイントも2となる。同様にして、文節「信号」を
文節間リンクポイントが0であるため、「入力するため
の」と同じ文構造ポイント2となる。同様にして、すべ
ての文節の文構造のポイントを求める。文構造ポイント
が大きいほど索引の重要度を低くする。
文書蓄積部4では、文書情報を文書データベース100
に登録する。登録する情報としては、ただ単に文書のコ
ード情報だけでなく、係り受け解析部2で付与した形態
素情報や索引抽出部3で付与した索引情報も同時に記憶
する。第7図に入力文書例、第8図に入力された文章が
蓄積されている状態を示す。各行は文節単位に区切られ
ており、各文節に対して文節番号,文節表記,文節読
み,品詞,係り先番号,索引等が付与されている。新し
い文書蓄積の際には、類似文書検索部6で必要なインデ
ックス情報も併せて更新する。第9図にインデックス情
報テーブルを示す。インデックス情報テーブルには、文
書データベースの索引とその索引が付与されている文書
番号が記憶されている。このテーブルはマッチングした
文書番号を高速に取得するために使用される。
シソーラス展開部5では、検索装置が種々の文書表現
に対応できるように、索引抽出部3で抽出した索引を同
義語や類義語で展開する。第10図に索引をシソーラス辞
書101で展開した例を示す。左端に列挙されている単語
が文書中から抽出された索引群である。その索引に対し
て、シソーラス辞書101を検索し、見出し語と索引が一
致した場合は、その見出し語に付与されている同義語・
類義語を抽出する。
このシソーラス辞書101では、同義語を3つに分類し
ている。同義語0,同義語1,同義語2である。これらは意
味の近さによって大別されている。つまり同義語0とは
見出し語と意味的に全く類似の単語であり、どのような
条件でも言い替え可能な語と定義する。同義語1,同義語
2と番号が高くなるにつれて、見出し語から意味が遠く
なる。
例えば「文書」という索引の場合、同義語0としては
「ドキュメント」が挙げられている。この場合「文書」
は「ドキュメント」と言い替えても全く意味的に同じこ
とを示している。また、類義語としては、「テキス
ト」,「文章」,「文」等がある。
また、シソーラス辞書101には、多義判定テーブルが
用意されており、表記上では同じでも意味が異なる単語
の区別を文書の分野によって判定する。第11図に多義判
定テーブルを示す。多義判定テーブルでは、単語の表
記,読み,利用分野の情報からなり、シソーラス展開す
る場合、入力された文書の分野に最も意味的に正しい同
義語,類義語を出力する。例えば「CD」といった場合、
銀行関係を分野で使われる「キャッシュ・ディスペンサ
ー」であるのか、音楽関係である「コンパクト・ディス
ク」であるのかわからないが、この発明の装置では、文
書の分野が多義判定テーブルに記載されている場合、そ
の分野に対応する同義語,類義語を優先する。もし、適
当な分野がない場合は、すべての同義語,類義語を抽出
する。
類似文書検索部6では、入力文書に類似する文書を検
索する処理を行う。入力文書と文書データベース100と
のマッチングは、2段階で実施される。第1段階は、キ
ーワード包含率検査で、入力文書のシソーラス展開され
たキーワードと文書データベースとのキーワードがどの
程度一致しているかを検査する。マッチングは、第9図
のインデックス情報テーブルとシソーラス展開された語
との間で高速に行われる。キーワード包含率は、キーワ
ードの一致した個数を、各文書に付与されているキーワ
ード数(重複したキーワードは1個と数える)で割った
値である。
第2段階のマッチングでは、先のキーワード包含率で
ヒットした文書に対して、文構造の類似度を判断して絞
り込みを行う。キーワードが2個以上一致した文書すべ
てに対して処理を実施した場合時間がかかるため、ユー
ザの要望に合わせて処理レベルを決定する。処理レベル
は、キーワード包含率や文書数の2種類の指定が可能で
ある。
この発明の装置では、絞り込みの手法として、係り受
け関係に代表される2項関係の類似度に着目した処理を
行う。係り受け関係により抽出される2項関係として
は、<名詞(句)>と<動詞(句)>の関係、名詞句内
の<名詞>と<名詞>の関係等がある。名詞句の場合、
名詞句の一番最後にくる名詞にその名詞句の意味を代表
させ、動詞句の場合、動詞句を構成する単語すべてを対
象とした。
第7図の入力文では、例えば のような<名詞>と<動詞>の2項関係が抽出される。
また、名詞句内の関係と などが抽出される。また、動詞句が複数の用言から構成
されている場合には、<名詞(句)>は、複数の用言と
の2項関係を持つとする。例えば「漢字カナ混じり文に
変換して 表示し……」という文の場合、 とする。
これらの2項関係が文書データベース中の文書に存在
する場合、マッチングポイントを与える。マッチングポ
イントは索引の重要度、シソーラスポイントにより変化
する。以下でそれぞれの評価ポイントについて説明す
る。
索引の重要度は、文書蓄積部4で付与した文構造を考
慮した標準的重みを、第1段階のマッチング状況に応じ
て変化させたものである。先に付与した文構造に基づく
標準的重み付けは、その文書の一般的内容に対する重み
付けであり、文書の内容に深く立ち入った専門的内容に
ついての重みは軽くしている。しかし、検索要求として
は、広い意味での検索(例えば「かな漢字変換装置に関
する特許を収集したい」)や狭い意味での検索要求(例
えば「かな漢字変換装置の同音語選択に関する特許を収
集したい」)などがあり、その2面性を同時に満足する
必要がある。この発明の装置の場合、なるべく広い検索
要求から狭い検索要求まで対応できるように索引の重み
付けを変化させる。
第1段階のマッチングでキーワード包含率が低い場合
は、現在ある文書データベースの内容が入力された文書
に対して十分なデータ量を保持していないと判断し、広
い意味での検索を優先して行う。そのため、索引の重要
度は標準的重み付けのままとする。キーワード包含率が
高い場合は、専門的な内容に立ち入った検索であると判
断して、索引の重要度を内容の深いところに対して最大
の重みを付加した状態で検索を実行する。
シソーラスポイントは、シソーラス展開部5で付与さ
れた同義語,類義語の索引に対しての意味的距離を表し
たものである。索引に意味的距離が近いほどシソーラス
ポイントは高くなる。つまり、索引及び同義語0はシソ
ーラスポイント3、同義語1と同義語2はシソーラスポ
イント2、類似語はシソーラスポイント1を与える。
各索引の評価値は、索引の重要度,シソーラスポイン
トのそれぞれを掛け合せたポイントとし、係り受け関係
が一致した場合、それぞれの評価値どうしを掛け合せた
ポイントをマッチングポイントとする。最終的な文書間
の類似度は、マッチングポイントの総和にキーワード包
含率を掛けた値とする。
第12図にマッチングポイントを求める例を示す。入力
文は“カナ文字列を漢字カナ混じり文に変換し、”で、
類似度を検査する文(マッチング文)は、“第1の文字
を第2の文字に置換し、”で、それぞれの係り受け関係
及び索引重要度が図のように求められているとする。こ
の場合、各文節について見ると、第1文節は“文字”と
いう単語が一致している(シソーラスポイント3)。第
2文節では、“漢字”に対して“文字”が類義語である
からシソーラスポイント1。第3文節では“変換”に対
して“置換”が類義語であるからシソーラスポイント1
となる。ここで、入力文の索引重要度とマッチング文の
索引重要度とシソーラスポイントをすべて掛け合せ索引
の評価値を算出する。係り受け関係が同じ場合、係り文
節と受け文節の索引評価値を掛け合せたポイントを各係
り受け関係のマッチングポイントとする。例えば第1分
“漢字カナ混じり文に”と“変換し、”が係り受け関係
にあり、また、第2文“第2の文字に”と“置換し”の
係り受け関係が一致しているため、この文節の係り受け
のマッチングポイントは、各文節のポイントを掛け合せ
た10×10=100ポイントとなる。同様にして、全ての係
り受け関係についてマッチングポイントを求め総和をと
り、キーワード包含率を掛け合せて文書の類似度とす
る。
類似文書出力部7は、類似文書検索部6の検索結果を
ディスプレイ70に表示する。この場合、類似度の高い順
にソートし類似度の高い文書5件を画面に表示し、それ
ぞれの内容が分かりやすいように表示する。画面上に5
件全て表示できない場合は、類似度の高い文書を優先し
て表示する。
〔発明の効果〕
この発明は以上説明したように、文書を直接入力し、
コード情報とする文書入力部と、入力された文字列を分
かち書きし、形態素情報を付与するとともに、形態素情
報を基にして文節間の係り受け関係を判定する係り受け
解析部と、係り受け解析部の係り受け解析結果から文構
造を決定し、この文構造から索引を抽出するとともに、
索引の重要度を付与する索引抽出部と、入力文書,係り
受け解析結果,索引抽出結果を蓄積する文書蓄積部と、
索引抽出部の索引をシソーラス辞書で展開するシソーラ
ス展開部と、入力文書と蓄積されている文書との類似度
を索引の類似度と係り受け関係の類似度から判定する類
似文書検索部と、検索した類似文書を出力する類似文書
出力部とからなるので、ユーザはキーワード,論理式等
を考慮する必要なくして類似文書の検索が可能となる。
また、類似文書の検索においては、索引をシソーラス
展開することにより漏れのない検索を可能とする。検索
した文書の絞り込みは、検索対象による索引に対して行
い高精度に実行される。また、2段階の検索方式により
検索時間の短縮が可能となる。
【図面の簡単な説明】
第1図はこの発明の一実施例の構成を示すブロック図、
第2図は類似文書検索装置のシステム構成ブロック図、
第3図は係り受け解析例を説明する図、第4図は不要語
辞書を説明する図、第5図は係り文節の付属語と文節間
リンクポイントの対応を示すテーブル図、第6図は文構
造ポイント計算例を説明する図、第7図は入力文書例を
説明する図、第8図は蓄積された文書情報を示す図、第
9図はインデックス情報テーブル図、第10図はシソーラ
ス展開部を説明する図、第11図は多義判定テーブル、第
12図はマッチングポイント計算例を説明する図である。 図中、1は文書入力部、2は係り受け解析部、3は索引
抽出部、4は文書蓄積部、5はシソーラス展開部、6は
類似文書検索部、7は類似文書出力部、10は文字認識
部、11はイメージリーダ、12はハンドスキャナ、13はFA
X、14はCD−ROM、15はフロッピーディスク、16はマグネ
ティックテープ、17はキーボード、20はCPU、100は文書
データベース、101はシソーラス辞書、102は形態素解析
用辞書である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小橋 史彦 東京都千代田区内幸町1丁目1番6号 日本電信電話株式会社内 (56)参考文献 特開 昭58−56071(JP,A) 特開 昭57−59277(JP,A) 特開 昭62−196726(JP,A) 特開 昭64−17152(JP,A) 特開 平1−112331(JP,A) 特開 昭63−136224(JP,A) 福永 博信、斎藤珠喜「語の類義性と 結合関係を考慮したテキスト検索」電子 情報通信学会春季全国大会講演論文集」 P6−24,1989年3月 福永 博信、斎藤珠喜「全文探索と多 様な表現」ほか、情報処理学会第39回全 国大会講演論文集PP682〜683,676〜 677,680〜681,平成元年 丸山宏 渡辺日出雄「既存のメニュー システムと自然言語インターフェースの 融合」ソフトウェア科学会第4回大会論 文集PP63〜66 昭和62年11月 稲垣博人ほか「意味連結パターンを用 いた係り受け解析」、情報処理学会研究 報告vol.88,No.54(88−NL− 67)PP1〜8,昭和63年7月22日

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書を直接入力し、コード情報とする文書
    入力部と、前記入力された文字列を分かち書きし、形態
    素情報を付与するとともに、前記形態素情報を基にして
    文節間の係り受け関係を判定する係り受け解析部と、前
    記係り受け解析部の係り受け解析結果から文構造を決定
    し、この文構造から索引を抽出するとともに、索引の重
    要度を付与する索引抽出部と、入力文書,係り受け解析
    結果,索引抽出結果を蓄積する文書蓄積部と、前記索引
    抽出部の索引をシソーラス辞書で展開するシソーラス展
    開部と、入力文書と蓄積されている文書との類似度を索
    引の類似度と係り受け関係の類似度から判定する類似文
    書検索部と、検索した類似文書を出力する類似文書出力
    部とを具備することを特徴とする類似文書検索装置。
JP1310562A 1989-12-01 1989-12-01 類似文書検索装置 Expired - Lifetime JP2742115B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1310562A JP2742115B2 (ja) 1989-12-01 1989-12-01 類似文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1310562A JP2742115B2 (ja) 1989-12-01 1989-12-01 類似文書検索装置

Publications (2)

Publication Number Publication Date
JPH03172966A JPH03172966A (ja) 1991-07-26
JP2742115B2 true JP2742115B2 (ja) 1998-04-22

Family

ID=18006738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1310562A Expired - Lifetime JP2742115B2 (ja) 1989-12-01 1989-12-01 類似文書検索装置

Country Status (1)

Country Link
JP (1) JP2742115B2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197756A (ja) * 1991-12-09 1993-08-06 Ricoh Co Ltd 文書検索装置
JP3566720B2 (ja) * 1992-04-30 2004-09-15 アプル・コンピュータ・インコーポレーテッド コンピュータ・システムにおいて情報を編成する方法と装置
JP3139658B2 (ja) * 1993-05-06 2001-03-05 シャープ株式会社 文書表示方式
JPH07129602A (ja) * 1993-10-29 1995-05-19 C Ee C:Kk 文書検索装置および方法
CA2128973A1 (en) * 1994-01-28 1995-07-29 Kenneth Ward Church Information retrieval method
JP3350594B2 (ja) * 1994-05-31 2002-11-25 富士通株式会社 検索装置
JP3195183B2 (ja) * 1995-03-28 2001-08-06 キヤノン株式会社 情報検索方法及びその装置
JPH0962703A (ja) * 1995-08-30 1997-03-07 Nec Corp データベース検索システムおよびその情報検索処理方法
JPH09128402A (ja) * 1995-10-30 1997-05-16 Fuji Xerox Co Ltd 文書類似度計算装置および文書分類装置
JPH1097545A (ja) * 1996-09-20 1998-04-14 Sharp Corp 情報処理装置
JP3618931B2 (ja) * 1996-11-05 2005-02-09 有限会社特許情報出版 ワード処理システムおよびワード処理方法
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JPH1139347A (ja) * 1997-07-24 1999-02-12 Nec Corp テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体
JPH1173422A (ja) * 1997-08-28 1999-03-16 Hitachi Inf Syst Ltd 類似文書検索システムおよびそれに用いる記憶媒体
JPH1173426A (ja) * 1997-08-29 1999-03-16 Tokkyo Joho Shuppan:Kk 文章照合装置
JP3225900B2 (ja) * 1997-09-12 2001-11-05 日本電気株式会社 事象解析方法および装置
US6256633B1 (en) * 1998-06-25 2001-07-03 U.S. Philips Corporation Context-based and user-profile driven information retrieval
JP4021583B2 (ja) 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
JP2000339323A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法、文書検索装置、文書検索システム及び記録媒体
JP2001312501A (ja) * 2000-04-28 2001-11-09 Mitsubishi Electric Corp 文書自動分類システム、文書自動分類方法、及び文書自動分類プログラムを記録したコンピュータ読み取り可能な記録媒体
US7076527B2 (en) 2001-06-14 2006-07-11 Apple Computer, Inc. Method and apparatus for filtering email
KR100685023B1 (ko) * 2001-11-13 2007-02-20 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템
JP4308543B2 (ja) * 2003-02-04 2009-08-05 株式会社リコー キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JP4915499B2 (ja) * 2005-12-22 2012-04-11 日本電気株式会社 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2007241888A (ja) * 2006-03-10 2007-09-20 Sony Corp 情報処理装置および方法、並びにプログラム
JP5186453B2 (ja) * 2009-08-07 2013-04-17 ヤフー株式会社 検索装置及び方法
DE112019001497T5 (de) 2018-03-23 2021-01-07 Semiconductor Energy Laboratory Co., Ltd. System zur Dokumentensuche, Verfahren zur Dokumentensuche, Programm und nicht-transitorisches, von einem Computer lesbares Speichermedium
CN110413735B (zh) * 2019-07-25 2022-04-29 深圳供电局有限公司 一种问答检索方法及其系统、计算机设备、可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
丸山宏 渡辺日出雄「既存のメニューシステムと自然言語インターフェースの融合」ソフトウェア科学会第4回大会論文集PP63〜66 昭和62年11月
福永 博信、斎藤珠喜「全文探索と多様な表現」ほか、情報処理学会第39回全国大会講演論文集PP682〜683,676〜677,680〜681,平成元年
福永 博信、斎藤珠喜「語の類義性と結合関係を考慮したテキスト検索」電子情報通信学会春季全国大会講演論文集」P6−24,1989年3月
稲垣博人ほか「意味連結パターンを用いた係り受け解析」、情報処理学会研究報告vol.88,No.54(88−NL−67)PP1〜8,昭和63年7月22日

Also Published As

Publication number Publication date
JPH03172966A (ja) 1991-07-26

Similar Documents

Publication Publication Date Title
JP2742115B2 (ja) 類似文書検索装置
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP3181548B2 (ja) 情報検索装置及び情報検索方法
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US6654717B2 (en) Multi-language document search and retrieval system
US20050203900A1 (en) Associative retrieval system and associative retrieval method
EP0610760A2 (en) Document detection system with improved document detection efficiency
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP3198932B2 (ja) 文書検索装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2850952B2 (ja) 文書検索方法および装置
JP3123836B2 (ja) テキスト型データベース装置
JPH04156663A (ja) 文章圧縮装置
JP3369127B2 (ja) 形態素解析装置
Daelemans et al. Part-of-speech tagging for Dutch with MBT, a memory-based tagger generator
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPS61248160A (ja) 文書情報登録方式
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JPH0827803B2 (ja) テキストベース検索方法
JP2000339342A (ja) 文書検索方法および文書検索装置
JPH07296005A (ja) 日本語テキスト登録・検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090130

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100130

Year of fee payment: 12

EXPY Cancellation because of completion of term