JP4227797B2 - 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 - Google Patents
類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP4227797B2 JP4227797B2 JP2002314914A JP2002314914A JP4227797B2 JP 4227797 B2 JP4227797 B2 JP 4227797B2 JP 2002314914 A JP2002314914 A JP 2002314914A JP 2002314914 A JP2002314914 A JP 2002314914A JP 4227797 B2 JP4227797 B2 JP 4227797B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- document
- synonym
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書検索における検索語の類義語を求める類義語検索装置、方法、及びこの装置で用いられる類義語検索プログラム、この類義語検索プログラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】
データベース等に蓄積された多数の電子文書等の文書群から検索語(キーワード)に関連する文書を抽出する文書検索においては、検索者が検索語Aを与えた場合、検索対象となる文書中では検索語Aの類義語Bが用いられている場合がある。その場合、検索処理が語形に基づいて行われる限り、その文書は検索要求に合致する可能性が高いにもかかわらず、検索抽出することができない。この問題は一般的には語彙的ギャップ問題として従来より指摘されている。
尚、ここで類義語とは、例えば
・表記レベルの類義語:「コンピュータ」と「コンピューター」
・語彙レベルの類義語:「本」と「書籍」
のような語を言うものとする。
【0003】
従って、検索要求中の検索語についてその類義語を求めることができれば、それらの類義語群を検索要求に含めることで、検索性能が向上することが期待できる。このため従来より、類義語群の自動獲得方法に関して例えば次のような提案がなされている。
・対象文字列の構成単語毎に予め用意した類義語ファイルから類義語を取得し、それらを組み合わせて対象文字列に対する類義表現を構成する(例えば特許文献1)。
・「〜とは〜である」といったパターンを用いて文書群から類義語を抽出する(例えば特許文献2)。
【0004】
・複合語とその構成語間の関係を類義関係とみなし、入力単語に対し、それを構成語とする複合語を類義語として出力する(例えば特許文献3)。
・既存シソーラスに入力単語を登録する際に、入力単語の構成単語を求め、それらのシソーラス中の登録位置に基づき入力単語の登録位置を決定する(例えば特許文献4)。
・過去にユーザから入力された検索語群を記憶しておき、それらの中から現在の入力語に対する類義語(よく共起する語)を取り出す(例えば特許文献5)。
・括弧内とそれに前出する語との対を同義関係として抽出する(例えば特許文献6)。
【0005】
【特許文献1】
特開平6−162098号公報(特許第3025724号)
【特許文献2】
特開平6−266769号公報
【特許文献3】
特開平7−319884号公報
【特許文献4】
特開平8−221427号公報
【特許文献5】
特開平9−319767号公報
【特許文献6】
特開平11−328205号公報
【0006】
【発明が解決しようとする課題】
しかしながら上記の従来技術では、類義語辞書、シソーラス、あるいは類義語抽出用の規則群などを必要とするが、これらのデータ群は予め人手により開発、作成しなければならず、そのための多大なコストがかかるという問題があった。また、括弧表現や同義表現などを利用することで規則群を容易に整備できたとしても、それらの表現が実際に出現する頻度は一般的には少なく、従って、得られる類義語も少量となる。即ち、一般性に欠けるという問題があった。
【0007】
本発明は上記の問題を解決するためになされたもので、従来に比べて低コストで、かつ一般性のある類義語を獲得できるようにした類義語検索装置、方法、プログラム及び記憶媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成するために、本発明による類義語検索装置においては、対象語を入力する入力手段と、文書群を記憶する文書記憶手段と、前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された前記関連語候補を検索語として前記シード文書を検索する第1の演算処理と、検索語が出現する文書について前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する第2の演算処理を行う1次検索手段と、前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算処理を行い、関連語を抽出する2次検索手段と、前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択する類義語選択手段とを設けている。
【0009】
また、本発明による類義語検索方法は、入力手段と、文書記憶手段と、1次検索手段と、2次検索手段と、類義語選択手段とを含む類義語検索装置による類義語検索方法であって、前記入力手段が対象語を入力するステップと、前記文書記憶手段が文書群を記憶するステップと、前記1次検索手段により、前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された前記関連語候補を検索語として前記シード文書を検索する第1の演算処理と、検索語が出現する文書について前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する第2の演算処理を行うステップと、2次検索手段により、前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算処理を行い、関連語を抽出するステップと、前記類義語選択手段が前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択するステップと、を含むようにしている。
【0010】
また、本発明によるプログラムは、対象語を入力する入力手段と、文書群を記憶する文書記憶手段と、前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された前記関連語候補を検索語として前記シード文書を検索する第1の演算処理と、検索語が出現する文書について前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する第2の演算処理を行う1次検索手段と、前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算処理を行い、関連語を抽出する2次検索手段と、前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択する類義語選択手段と、としてコンピュータを機能させるプログラムである。
【0011】
また、本発明による記憶媒体は、上記プログラムを記憶したものである。
【0012】
【発明の実施の形態】
以下、本発明の実施の形態を図面と共に説明する。
本実施の形態は、対象語に対し、文書群(コレクション)をランキング検索し、その上位文書群に現れる語群のうちから、対象語の関連語群を抽出し、その関連語群のみを用いて再度コレクションをランキング検索し、その上位文書群の内、対象語を含まない文書郡に現れる関連語群から関連度を利用して類義語の候補を求めることで前記課題を達成するものである。
【0013】
図7は本発明の実施の形態による類義語検索装置を示すブロック図である。
本装置は、図示のようにユーザによる対象語入力操作等を行う入力装置20、検索結果得られた類義語候補を出力する出力装置30、プログラム格納用ROM、作業用RAM等の記憶装置40及び全体を制御するCPU50から構成されている。
【0014】
図1は本発明の第1の実施の形態によるCPUにおける制御部の構成を示すブロック図である。
図1において、1はユーザにより入力装置20から入力された対象語(ここでは類義語を検索するための検索語)を受付ける入力部、2は入力された対象語を格納する対象語バッファ、3は文書群が格納された文書記憶部、4は文書記憶部3を検索する文書検索部、5は対象語バッファ2の対象語を検索語として文書検索部4を介して文書記憶部3をランキング検索すると共に、関連語候補群を求め、その中から関連語を求める1次検索部、6は関連語候補群から関連語を抽出する関連語抽出部、7は抽出された関連語を格納する関連語バッファ、8は関連語を用いて文書群をランキング検索し、関連語を抽出する2次検索部、9は2次検索された関連語から類義語候補を選択する類義語選択部、10は類義語を出力する出力部である。
【0015】
次に、上記構成による動作について説明する。
図2は制御部の動作を概略的に示すフローチャートである。
まず、入力部1を介して対象語を入力し、入力された対象語は対象語バッファ2に格納される(ステップS1、以下、ステップ略)。次に、1次検索部5により文書記憶部3の1次検索を行い(S2)、その検索結果に基づいて2次検索部8より2次検索を行う(S3)。次に、2次検索の結果に基づいて類義語選択部9により類義語候補を選択し(S4)、出力部10により類義語候補の語形を出力する(S5)。
【0016】
図3は1次検索部5の動作を示すフローチャートである。
1次検索部5は、まず、対象語バッファ2の対象語を検索語として文書検索部4を介して以下のような文書ランキング検索を行う(S11)。即ち、文書記憶部3に記憶された各文書について次に定義される文書スコア(score)を計算する。
score={tf/(tf+dlen)}×weight・・・(1)
weight=Log(N/n+1)・・・(2)
【0017】
上記(1)式において、tfはその文書に検索語(対象語)が出現する頻度であり、dlenは文書長である。このスコア定義によれば、検索語が多く現れるほど、かつ文書長が短いほど、かつweight(重み)が大きいほど、その文書に大きなスコアが付与される。
また、上記(2)式において、Nは文書記憶部3に記憶された文書の総数であり、nは総数Nの文書中で検索語が出現する文書数(文書頻度)である。この重み定義式によれば、少数の文書に出現するほど、その検索語の重みは大きくなる。
【0018】
尚、検索語が複数の場合は、各検索語について上記スコアを求め、それらを加算することにより最終的な文書スコアを得る。検索語が1つも現れない文書のスコアは0とする。
上記文書ランキング検索により、文書スコア順に各文書がソートして出力される。
【0019】
1次検索部5は次に、上記文書ランキングの結果から、上位にランクされた文書を所定の数Rだけ、上位から順に文書記憶部3から取り出す(S12)。これらのR個の上位文書をここではシード文書と呼ぶ。次に、シード文書から1つずつ文書を取り出し(S12)、その文書Dについて関連語抽出部6により、関連語候補群を以下のようにして求める(S13)。
【0020】
まず、文書Dを形態素解析あるいは単語の区切り文字等を用いて単語に分解する。そして各単語を関連語候補としてそれぞれについて次の属性を求める。
・文書頻度n:その単語を検索語として文書検索を行うことにより、その単語の文書頻度(文書総数Nの中の出現文書数)を求める。
・出現シード文書数r:総数Rのシード文書中のその単語が出現したシード文書数
・重み(weight):前記(2)式により求める。
・選択値(tsv)=weight×(r/R−n/N)・・・(3)
【0021】
1次検索部5は、上記のようにして全てのシード文書について関連語候補群(単語群)とその属性を求めた後(S14)、各候補を選択値の降順にソートし、その中から上位T個を選択して関連語とする。ただしその場合、対象語と語形が同一の関連語候補は関連語とはしない。次に、1次検索部5は、各関連語の語形と選択値とのペアを関連語バッファ7に格納する。選択値は、重みが大きいほど、かつ対象語と文書内共起する確率が高いほど大きくなる。従って、選択値は、対象語と関連語候補との関連の度合い、即ち、関連度を表すものとなる。
【0022】
図4は2次検索部8の動作を示すフローチャートである。
2次検索部8は、関連語バッファ7に格納された関連語群を検索語群として文書検索部4を介して文書記憶部3の文書ランキング検索を行う(S21)。その際、対象語は検索語群に含めないものとする。1次検索部5の場合と同様にしてシード文書を求め(S22)、このシード文書から関連語を抽出するが、対象語を含む上位文書はシード文書とはしない(S23、S24)。これは一般に、対象語を含む文書は、その文書中に一貫してその語を使用し、その類義語は使用されない場合が多いからである。全てのシード文書について2次検索の結果得られた関連語は関連語バッファ7に格納される(S25)。
【0023】
類義語選択部9は、2次検索の結果、関連語バッファ7に得られた関連語群から関連度(選択値)が大きい順に上位S個を類義語候補として選択する。この類義語は出力部10から出力される。
【0024】
図5は本発明の第2の実施の形態による制御部の構成を示すブロック図であり、図1と対応する部分には同一番号を付して重複する説明は省略する。
本実施の形態は、対象語バッファ2と関連語バッファ7との間に判定部11を追加したものである。
【0025】
図6は制御部の動作を示すフローチャートである。
まず、入力部1を介して対象語を入力し、入力された対象語は対象語バッファ2に格納される(S31)。次に1次検索部5により文書記憶部3を1次検索を行う(S32)。次に、判定部11により処理を続行するか否かを判断し(S33)、続行しない場合は、類義語候補が得られなかった旨のメッセージを出力部10から出力する(S34)。次に、1次検索の結果に基づいて2次検索部に8より文書記憶部3の2次検索を行う(S35)。そして、2次検索の結果に基づいて類義語選択部9により類義語候補を選択し(S36)、出力部10により類義語候補の語形を出力する(S37)。上記S31、S32及びS35からS37は、図1のS1からS5と同様に行われる。
【0026】
上記S33において、判定部11は以下のようにして処理続行の可否を判定する。即ち、1次検索の結果、得られた関連語群を関連度の順にソートし、この関連語のランキングにおいて、対象語が上位k位以内にならなかった場合は処理続行しないと判断する。それ以外は処理続行すると判断する。つまり、対象語と最も関連度が高くなるべき語は対象語自身であり、その状況から外れるほど有効性が低い関連語が得られたと判断し、その場合は処理を続行しない。
【0027】
本実施の形態によれば、文書群の不足等で類義語が得られない対象語に対しては、その旨メッセージを出力するので、類義語の獲得結果の品質を高めることができる。
尚、図2のS5及び図6のS37においては、出力部10により類義語の語形のみを出力しているが、関連語バッファ7に記憶された関連度も類義語の語形と共に出力するようにしてもよい。このようにすることにより、類義語候補を更に絞り込むための情報として、各類義語候補毎にその関連度を出力するので、類義語の獲得結果の品質を高めることができる。
【0028】
次に、本発明の第3から6の実施の形態について説明する。図8、図12、図13、図16は各実施の形態による制御部の構成を示すもので、図1、図5と対応する部分には同一番号を付して重複する説明は省略する。尚、類義語検索装置の構成は図7の構成と同一である。
【0029】
図8は本発明の第3の実施の形態による制御部の構成を示すブロック図である。
尚、図1、図5における1次検索部5及び2次検索部8は図示を省略されている。
また、類語語選択部9は類義語抽出部12として図示されている。
【0030】
図9は制御部の動作を示すフローチャートである。
入力部1を用いて対象語を受け付け、対象語は対象語バッファ2に格納される(S41)。次に1次検索を行い(S42)、さらに2次検索を行う(S43)。次に出力部10を用いて類似語群を出力する(S44)。
【0031】
図10は1次検索の動作を示すフローチャートである。
1次検索では、まず対象語を検索語として文書検索部4を用いて文書ランキング検索を行う(S51)。文書ランキング検索は前記(1)(2)式を用いて文書スコアを計算することにより行われる。次に、文書ランキングの結果から、上位文書(上位にランクされた文書)を予め定めた数(Rとする)だけ、上位から順に文書記憶部3から取り出す(S52)。これら上位文書をここではシード文書と呼ぶ。次に、各シード文書Dに対して関連語抽出部6を用いて関連語候補群を得る(S53)。関連語候補群は、文書Dを形態素解析あるいは単語の区切り文字等を用いて単語に分解して前記(3)式による選択値により求める。
【0032】
次に1次検索は、全てのシード文書に対して関連語候補群とその属性が求めた後(S54)、各候補を選択値の降順にソートし、予め定めた関連語数Tに基づき、上位T個を関連語とする。但し、対象語と語形が同一の関連語候補は、関連語とはしない。次に、各関連語の語形および選択値のペアを関連語バッファに格納する。選択値は、重みが大きいほど、かつ対象語と文書内共起する確率が大きいほど大きくなる。よって選択値は、対象語と関連語候補との関連の度合い(関連度と呼ぶ)を表す。
【0033】
図11は2次検索の動作を示すフローチャートである。
2次検索では、まず関連語バッファ7に格納された関連語群を検索語群として文書検索部4を用いて、文書ランキング検索を行う(S61)。次に、文書ランキングの結果から、上位文書(上位にランクされた文書)を予め定めた数(R2とする)だけ、上位から順に文書記憶部3から取り出す(S62)。これら上位文書をここでは第2シード文書Dと呼ぶ。次に、各第2シード文書Dに対して類義語抽出部12を用いて、類義語候補群を以下のようにして得る(S63)。
【0034】
即ち、文書Dを形態素解析あるいは単語の区切り文字等を用いて単語に分解する。そして各単語sに対して次の属性を得る。
共起度c:第2シード文書において単語sの各出現位置において、その前後W語以内の位置に出現した関連語の総数。ここでWは予定めた定数である。
即ち、単語sに対する共起度cとは、第2シード文書群においてsの付近に出現した関連語の総数である。
【0035】
尚、cはsの第2シード文書群における出現頻度tfを1とする相対頻度としてもよい。この場合
c’ = c/tf
である。
【0036】
次に、単語sとc、あるいはsとc’を類義語候補の表現としてプールする。そして、全ての第2シード文書に対して類義語候補が求まった段階で(S64)、各候補を共起度cの降順にソートし、予め定めた類義語数Sに基づき、上位S個を類義語とする。出力部10は上記のS個の類義語を出力する。
【0037】
尚、上記類義語を出力する場合、対象語と同一の語形の類義語が出力される場合がある。このため本発明の第4の実施の形態では、このような自明の類義語を除いて出力する。図12は第4の実施の形態による制御部を示すもので、出力部10において対象語バッファ2に記憶された対象語の語形と類義語の語形を比較し、同一であれば出力しない。
【0038】
以上のように第3、第4の実施の形態は、対象語に対し、文書群をランキング検索し、その上位文書群から対象語の関連語群を求め、その関連語群を用いて再び文書群をランキング検索し、その上位文書群と関連語群から類義語群を求めるようにしたものである。
【0039】
図13は本発明の第5の実施の形態による制御部の構成を示すブロック図であり、図8に補足語バッファ13を追加したものである。
【0040】
図14は制御部の動作を示すフローチャートである。
まず、入力部1を用いて対象語と補足語群を受け付け、対象語は対象語バッファ2に格納され、補足語群は補足語バッファ13に格納される(S71)。次に1次検索を行い、さらに2次検索を行う(S72、S73)。そして、出力部10より類似語群を出力する(S74)。
【0041】
図15は1次検索の動作を示すフローチャートである。
S81〜S84における前記図10との違いは、S81で対象語だけでなく、補足語群も用いて文書検索部4により文書ランキング検索を行う点である。
【0042】
ここで補足語について説明する。
例えば、対象語“TCP”は次の2つの意味を持つ多義語である。
意味1:ネットワークのプロトコル
意味2:リン酸三カルシウム
そこで、意味1の類義語を求める場合は、補足語群として“ネットワーク、通信”などを与えればよい。
【0043】
2次検索は図11と同様に行われ、出力部10は前記S個の類義語を出力する。この場合、対象語と同一の語形の類義語が出力される場合があるため、本発明の第6の実施の形態においては、このような自明の類義語を除いて出力する。図16は第6の実施の形態による制御部を示すもので、出力部10は、対象語バッファ2に記憶された対象語の語形と類義語の語形を比較し、同一であれば出力しない。
【0044】
以上のように第5、第6の実施の形態は、対象語と補足語群に対し、文書群をランキング検索し、その上位文書群から対象語の関連語群を求め、その関連語群を用いて再び文書群をランキング検索し、その上位文書群と関連語群から類義語群を求めるようにしたものである。
【0045】
尚、各フローチャートについて説明した処理を図1、5、8、12、13、16の制御部、図7のCPUが実行するためのプログラムは本発明によるプログラムを構成する。また、このプログラムを記憶する図7の記憶装置40等の記憶媒体は、本発明による記憶媒体を構成する。この記憶媒体としては、光ディスク、光磁気ディスク、磁気記録媒体、半導体記憶装置等であってよい。
【0046】
【発明の効果】
以上説明したように本発明によれば、類義語検索のために文書群のみを利用すればよいので、従来に比べて低コストで、かつ一般性のある類義語を獲得することができる。
【0047】
また、文書群の不足等で類義語が得られない対象語についてその旨メッセージを出力することにより、獲得される類義語の品質を高めることができる。
また、類義語候補を更に絞り込むための情報として、各類義語候補毎にその関連度(共起度を含む)を出力することにより、獲得される類義語の品質を高めることができる。
さらに、多義語についても低コストで、かつ一般性のある類義語を獲得することができると共に、獲得される類義語の品質を高めることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態による類義語検索装置における制御部の構成を示すブロック図である。
【図2】第1の実施の形態による制御部全体の処理を示すフローチャートである。
【図3】1次検索部の処理を示すフローチャートである。
【図4】2次検索部の処理を示すフローチャートである。
【図5】本発明の第2の実施の形態による類義語検索装置における制御部の構成を示すブロック図である。
【図6】第2の実施の形態による制御部全体の処理を示すフローチャートである。
【図7】本発明の実施の形態による類義語検索装置を示すブロック図である。
【図8】本発明の第3の実施の形態による類義語検索装置における制御部の構成を示すブロック図である。
【図9】第3の実施の形態による制御部全体の処理を示すフローチャートである。
【図10】1次検索部の処理を示すフローチャートである。
【図11】2次検索部の処理を示すフローチャートである。
【図12】本発明の第4の実施の形態による類義語検索装置における制御部の構成を示すブロック図である。
【図13】本発明の第5の実施の形態による類義語検索装置における制御部の構成を示すブロック図である。
【図14】第5の実施の形態による制御部全体の処理を示すフローチャートである。
【図15】1次検索部の処理を示すフローチャートである。
【図16】本発明の第6の実施の形態による類義語検索装置における制御部の構成を示すブロック図である。
【符号の説明】
1 入力部
2 対象語バッファ
3 文書記憶部
4 文書検索部
5 1次検索部
6 関連語抽出部
7 関連語バッファ
8 2次検索部
9 類義語選択部
10 出力部
11 判定部
12 類義語抽出部
13 補足語バッファ
20 入力装置
30 出力装置
40 記憶装置
50 CPU
Claims (32)
- 対象語を入力する入力手段と、
文書群を記憶する文書記憶手段と、
前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された前記関連語候補を検索語として前記シード文書を検索する第1の演算処理と、検索語が出現する文書について前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する第2の演算処理を行う1次検索手段と、
前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算処理を行い、関連語を抽出する2次検索手段と、
前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択する類義語選択手段とを設けたことを特徴とする類義語検索装置。 - 前記1次検索手段により得られた関連度の上位所定位以内に対象語が入らない場合は処理を中止することを特徴とする請求項1記載の類義語検索装置。
- 前記処理を中止する旨のメッセージを出力する出力手段を設けたことを特徴とする請求項2記載の類義語検索装置。
- 前記関連語候補群は前記対象語を含まないことを特徴とする請求項1から3のいずれか1項に記載の類義語検索装置。
- 前記1次検索手段又は前記2次検索手段は、前記第1の演算処理において文書スコアを、
文書スコア={tf/(tf+dlen)}×weight
weight=Log(N/n+1)
但し、tf:その文書に検索語(対象語)が出現する頻度、dlen:文書長、N:前記文書記憶手段に記憶された文書の総数、n:総数Nの文書中で検索語が出現する文書数(文書頻度)
として付与することを特徴とする請求項1から4のいずれか1項に記載の類義語検索装置。 - 前記1次検索手段又は前記2次検索手段は、前記第2の演算処理において、関連度を、
関連度=weight×(r/R−n/N)
但し、R:シード文書数、r:シード文書における検索語が出現した出現文書数
として付与することを特徴とする請求項1から5のいずれか1項に記載の類義語検索装置。 - 前記入力された対象語、即ち検索語が複数の場合は、各検索語について前記文書スコアを求め、それらを加算することにより最終的な文書スコアを得ることを特徴とする請求項1から6のいずれか1項に記載の類義語検索装置。
- 前記類義語選択手段は、前記類義語候補と共に関連度を出力することを特徴とする請求項1から7のいずれか1項に記載の類義語検索装置。
- 入力手段と、文書記憶手段と、1次検索手段と、2次検索手段と、類義語選択手段とを含む類義語検索装置による類義語検索方法であって、
前記入力手段が対象語を入力するステップと、
前記文書記憶手段が文書群を記憶するステップと、
前記1次検索手段により、前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された前記関連語候補を検索語として前記シード文書を検索する第1の演算処理と、検索語が出現する文書について前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する第2の演算処理を行うステップと、
2次検索手段により、前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算処理を行い、関連語を抽出するステップと、
前記類義語選択手段が前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択するステップと、を含むことを特徴とする類義語検索装置による類義語検索方法。 - 前記関連度の上位所定位以内に対象語が入らない場合は処理を中止することを特徴とする請求項9記載の類義語検索装置による類義語検索方法。
- 前記処理を中止する旨のメッセージを出力することを特徴とする請求項10記載の類義語検索装置による類義語検索方法。
- 前記関連語候補群は前記対象語を含まないことを特徴とする請求項9から11のいずれか1項に記載の類義語検索装置による類義語検索方法。
- 前記第1の演算処理と、前記第2の演算処理を行うステップ又は関連語を抽出するステップは、該第1の演算処理において文書スコアを、
文書スコア={tf/(tf+dlen)}×weight
weight=Log(N/n+1)
但し、tf:その文書に検索語(対象語)が出現する頻度、dlen:文書長、N:前記文書記憶手段に記憶された文書の総数、n:総数Nの文書中で検索語が出現する文書数(文書頻度)
として付与するステップを含むことを特徴とする請求項9から12のいずれか1項に記載の類義語検索装置による類義語検索方法。 - 前記第1の演算処理と、前記第2の演算処理を行うステップ又は関連語を抽出するステップは、前記第2の演算処理において、関連度を、
関連度=weight×(r/R−n/N)
但し、R:シード文書数、r:シード文書における検索語が出現した出現文書数
として付与することを特徴とする請求項9から13のいずれか1項に記載の類義語検索装置による類義語検索方法。 - 前記入力された対象語、即ち検索語が複数の場合は、各検索語について前記文書スコアを求め、それらを加算することにより最終的な文書スコアを得ることを特徴とする請求項9から14のいずれか1項に記載の類義語検索装置による類義語検索方法。
- 前記選択された類義語候補と共に関連度を出力することを特徴とする請求項9から15のいずれか1項に記載の類義語検索装置による類義語検索方法。
- 対象語を入力する入力手段と、
文書群を記憶する文書記憶手段と、
前記入力された対象語を検索語として前記文書記憶手段を検索し、検索語が出現する文書に文書スコアを付与し、文書スコアの高い順にランキングし、このランキングの上位所定数の文書をシード文書として取り出し、このシード文書を構成する単語を関連語候補として抽出し、抽出された前記関連語候補を検索語として前記シード文書を検索する第1の演算処理と、検索語が出現する文書について前記対象語と検索語との関連度を求め、前記関連語候補から前記関連度の高い順に上位所定数の検索語を関連語として抽出する第2の演算処理を行う1次検索手段と、
前記抽出された関連語を検索語として前記文書記憶手段を検索し、検索語が出現する文書について前記第1及び第2の演算処理を行い、関連語を抽出する2次検索手段と、
前記2次検索手段で抽出された関連語から関連度の高い順に上位所定数の関連語を類義語候補として選択する類義語選択手段と、
としてコンピュータを機能させることを特徴とする類義語検索プログラム。 - 前記関連度の上位所定位以内に対象語が入らない場合は処理を中止する中止処理を設けた請求項17記載の類義語検索プログラム。
- 前記処理を中止する旨のメッセージを出力する出力処理を設けた請求項18記載の類義語検索プログラム。
- 前記関連語候補群は前記対象語を含まないことを特徴とする請求項17から19のいずれか1項に記載の類義語検索プログラム。
- 前記1次検索手段又は前記2次検索手段は、前記第1の演算処理において文書スコアを、
文書スコア={tf/(tf+dlen)}×weight
weight=Log(N/n+1)
但し、tf:その文書に検索語(対象語)が出現する頻度、dlen:文書長、N:前記文書記憶手段に記憶された文書の総数、n:総数Nの文書中で検索語が出現する文書数(文書頻度)
として付与することを特徴とする請求項17から20のいずれか1項に記載の類義語検索プログラム。 - 前記1次検索手段又は前記2次検索手段は、前記第2の演算処理において、関連度を、
関連度=weight×(r/R−n/N)
但し、R:シード文書数、r:シード文書における検索語が出現した出現文書数
として付与することを特徴とする請求項17から21のいずれか1項に記載の類義語検索プログラム。 - 前記入力された対象語、即ち検索語が複数の場合は、各検索語について前記文書スコアを求め、それらを加算することにより最終的な文書スコアを得ることを特徴とする請求項17から22のいずれか1項に記載の類義語検索プログラム。
- 前記類義語選択手段は、前記類義語候補と共に関連度を出力することを特徴とする請求項17から23のいずれか1項に記載の類義語検索プログラム。
- 前記請求項17から24のいずれか1項に記載の類義語検索プログラムを記憶したことを特徴とする記憶媒体。
- 前記入力手段は、前記対象語が多義語の場合にその意味付けのための補足語を対象語と共に入力し、前記1次検索手段は、前記入力された対象語と補足語を前記検索語とすることを特徴とする請求項1から8のいずれか1項に記載の類義語検索装置。
- 前記類義語選択手段は、前記第2の演算処理で求められるシード文書における単語sの各出現位置において、その前後の所定数W語以内の位置に出現した関連語の総数を示す共起度c又はc’ = c/tfを求め、このc又はc’ = c/tfの高い順に上位所定数の関連語を類義語候補として選択することを特徴とする請求項1から8または26のいずれか1項に記載の類義語検索装置。
- 前記対象語が多義語の場合にその意味付けのための補足語を対象語と共に入力し、前記入力された対象語と補足語を前記検索語とすることを特徴とする請求項9から16のいずれか1項に記載の類義語検索方法。
- 前記第1の演算処理又は前記第2の演算処理で求められるシード文書における単語sの各出現位置において、その前後の所定数W語以内の位置に出現した関連語の総数を示す共起度c又はc’ = c/tfを求め、このc又はc’ = c/tfの高い順に上位所定数の関連語を類義語候補として選択することを特徴とする請求項9から16または28のいずれか1項に記載の類義語検索方法。
- 前記入力処理は、前記対象語が多義語の場合にその意味付けのための補足語を対象語と共に入力し、前記ランキング処理は、前記入力された対象語と補足語を前記検索語とすることを特徴とする請求項17から24のいずれか1項に記載の類義語検索プログラム。
- 前記選択処理は、前記関連語を抽出する抽出処理で求められるシード文書における単語sの各出現位置において、その前後の所定数W語以内の位置に出現した関連語の総数を示す共起度c又はc’ = c/tfを求め、このc又はc’ = c/tfの高い順に上位所定数の関連語を類義語候補として選択することを特徴とする請求項17から24または30のいずれか1項に記載の類義語検索プログラム。
- 前記請求項17から24、30または31のいずれか1項に記載の類義語検索プログラムを記憶したことを特徴とする記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002314914A JP4227797B2 (ja) | 2002-05-27 | 2002-10-29 | 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002153002 | 2002-05-27 | ||
JP2002314914A JP4227797B2 (ja) | 2002-05-27 | 2002-10-29 | 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004054882A JP2004054882A (ja) | 2004-02-19 |
JP4227797B2 true JP4227797B2 (ja) | 2009-02-18 |
Family
ID=31948947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002314914A Expired - Fee Related JP4227797B2 (ja) | 2002-05-27 | 2002-10-29 | 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4227797B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4524640B2 (ja) * | 2005-03-31 | 2010-08-18 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP4825544B2 (ja) * | 2005-04-01 | 2011-11-30 | 株式会社リコー | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体 |
JP4933869B2 (ja) * | 2006-09-14 | 2012-05-16 | 株式会社リコー | 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体 |
JP4640554B2 (ja) | 2008-08-26 | 2011-03-02 | Necビッグローブ株式会社 | サーバ装置、情報処理方法およびプログラム |
JP4587236B2 (ja) * | 2008-08-26 | 2010-11-24 | Necビッグローブ株式会社 | 情報検索装置、情報検索方法、およびプログラム |
JP2010257155A (ja) * | 2009-04-23 | 2010-11-11 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP4637969B1 (ja) * | 2009-12-31 | 2011-02-23 | 株式会社Taggy | ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法 |
JP5754019B2 (ja) * | 2011-07-11 | 2015-07-22 | 日本電気株式会社 | 同義語抽出システム、方法およびプログラム |
JP2014106665A (ja) * | 2012-11-27 | 2014-06-09 | Hitachi Ltd | 文書検索装置、文書検索方法 |
KR102053419B1 (ko) * | 2017-04-06 | 2019-12-09 | 네이버 주식회사 | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 |
-
2002
- 2002-10-29 JP JP2002314914A patent/JP4227797B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004054882A (ja) | 2004-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1225517B1 (en) | System and methods for computer based searching for relevant texts | |
US10055461B1 (en) | Ranking documents based on large data sets | |
US6442540B2 (en) | Information retrieval apparatus and information retrieval method | |
JP3225912B2 (ja) | 情報検索装置、方法及び記録媒体 | |
US7792833B2 (en) | Ranking search results using language types | |
US20040249808A1 (en) | Query expansion using query logs | |
US7324988B2 (en) | Method of generating a distributed text index for parallel query processing | |
US20100257177A1 (en) | Document rating calculation system, document rating calculation method and program | |
JP4227797B2 (ja) | 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 | |
JP4207438B2 (ja) | Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム | |
JP5146108B2 (ja) | 文書重要度算出システム、文書重要度算出方法およびプログラム | |
JP2008117351A (ja) | 検索システム | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
KR20020089677A (ko) | 문서 자동 분류 방법 및 이를 수행하기 위한 시스템 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
JP2010055164A (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
JPH05324728A (ja) | 情報検索装置 | |
JP3558267B2 (ja) | 文書検索装置 | |
JP2004192374A (ja) | 文書検索装置、プログラムおよび記録媒体 | |
JP4671212B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
JP4208402B2 (ja) | 文書検索装置、文書検索方法および記録媒体 | |
JP2000242646A (ja) | 情報検索方法及び情報検索装置 | |
RU2266560C1 (ru) | Способ поиска информации в политематических массивах неструктурированных текстов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080605 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121205 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131205 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |