JP2001325292A - 複合語の類似度判定システム、類似度判定方法及び記録媒体 - Google Patents

複合語の類似度判定システム、類似度判定方法及び記録媒体

Info

Publication number
JP2001325292A
JP2001325292A JP2000140800A JP2000140800A JP2001325292A JP 2001325292 A JP2001325292 A JP 2001325292A JP 2000140800 A JP2000140800 A JP 2000140800A JP 2000140800 A JP2000140800 A JP 2000140800A JP 2001325292 A JP2001325292 A JP 2001325292A
Authority
JP
Japan
Prior art keywords
word
compound
words
similarity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000140800A
Other languages
English (en)
Inventor
Masayuki Koide
昌幸 小出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2000140800A priority Critical patent/JP2001325292A/ja
Publication of JP2001325292A publication Critical patent/JP2001325292A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 対比される各複合語が有する意味合いを考慮
した複合語同士の類似度判定を可能とする。 【解決手段】 所定の単語及びこれと関連する関連単語
を記憶する単語関係辞書記憶部31と、対比される各複
合語ごとに、単語関係辞書記憶部31に記憶された単語
レベルに分解する複合語分解手段21と、分解された複
合語のうち、比較基準側の複合語の各単語ごとに、単語
関係辞書記憶部31に記憶された単語及び関連単語に基
づく同義語・類義語リストを作成する単語関係情報取得
手段22と、分解された複合語のうち、比較対象側の複
合語の各単語が、単語関係情報取得手段22で作成され
た単語情報リストに含まれるか否かを判定する単語比較
手段23と、この比較結果に応じて、対応する各単語ご
とに類似度を示す評価値を与え、この評価値に基づい
て、対比される複合語の類似度を算出する類似度確定手
段24を備えた構成としてある。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一又は二以上の単
語又は文字列の組合せからなる複合語同士を対比し、そ
の類似度を判定する類似度判定システムに関し、特に、
対比される各複合語を単語レベルに分解するとともに、
あらかじめ記憶された所定の単語の同義語及び類義語情
報に基づいて、分解された単語ごとに類似度を算出,判
定することにより、各複合語が有する意味合いを考慮し
た複合語間の類似度判定を可能とした複合語の類似度判
定システム、類似度判定方法及びその記録媒体に関す
る。
【0002】
【従来の技術】一般に、インターネットや各種のデータ
ベース等においては、ユーザが任意の単語又は文字列の
組合せからなる複合語を入力することにより、入力され
た複合と同一又は類似の複合語を判定し、その同一又は
類似の複合語を含む情報を検索,抽出してユーザ側に提
供する情報検索手段が備えられている。この種の情報検
索手段等に用いられる複合語の類似判定技術に関するも
のとしては、これまで、例えば、特開平6−27454
7号公報や特開平11−110395号公報に開示され
た技術が知られている。
【0003】特開平6−274547号公報には、複合
語を所定の単位語に分解して、単位語ごとに文字の一致
の程度を計算する「複合語認識装置」が提案されてい
る。この複合語認識装置は、比較する複合語を、それぞ
れ所定の単位語に分解し、単位語ごとに文字一致の類似
度を計算することにより、単位語の順序や重みづけ等の
計算を行って、複合語間の類似度を算出するものであ
る。この装置によれば、表記の多様性による表記揺れ
等、入力される複合語の多様性,曖昧性の問題に対応
し、柔軟な複合語認識を実現することが可能であった。
【0004】一方、特開平11−110395号公報に
は、ベクトル空間法を用いることにより、互いに共通す
る意味を持ちながら、表記の異なる単語を含んで記述さ
れた文書データ間の類似度を判定して類似文書を検索す
る「類似文書検索装置および類似文書検索方法」が提案
されている。この検索方法は、類義語の関係にある複数
の種類の単語を一種類の単語とみなし、その単語の出現
頻度を含むベクトルデータ(更新ベクトルデータ)を作
成し、このベクトルデータによって、検索キー文書と検
索対象文書間の類似度を計算するものである。この検索
方法によれば、検索キー単語と同様の意味を持ちながら
表記が異なる単語が含まれる文書や、同じ意味を持ちな
がら表記が異なる単語が含まれた二以上の文書同士を、
類似文書として検索することが可能であった。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の複合語の類似判定方法には、以下のような問
題があった。まず、特開平6−274547号の「複合
語認識装置」では、単語の文字そのものの一致の程度を
計算するのみであったため、文字の表記揺れ等に対応す
ることは可能であったが、単語の意味を考慮した類似度
を判別できないという問題があった。
【0006】また、特開平11−110395号の文書
検索方法は、ベクトル空間法という多量の要素の存在を
前提にした類似度計算方法を用いていた。このため、こ
の検索方法では、比較の対象として多数の複合語を含む
文書の存在が必要となり、その結果、適用対象が文書に
限られてしまい、複合語同士のような小さな対象の類似
度の判定に適用できないという問題が発生した。
【0007】本発明は、このような従来の技術が有する
問題を解決するために提案されたものであり、対比され
る各複合語を単語レベルに分解するとともに、あらかじ
め記憶された所定の単語の同義語及び類義語情報に基づ
いて、分解された単語ごとに類似度を算出,判定するこ
とにより、各複合語が有する意味合いを考慮した複合語
間の類似度判定を可能とした複合語の類似度判定システ
ム、類似度判定方法及びその記録媒体の提供を目的とす
る。
【0008】上記目的を達成するため、本発明の請求項
1記載の複合語の類似度判定システムは、所定の単語及
びこの単語と一定の関連を有する関連単語を記憶する単
語関係辞書記憶部と、対比される複合語を、各複合語ご
とに、前記単語関係辞書記憶部に記憶された単語レベル
に分解する複合語分解手段と、前記複合語分解手段で分
解された複合語のうち、一方の複合語の各単語ごとに、
前記単語関係辞書記憶部に記憶された単語及び関連単語
に基づく単語情報リストを作成する単語関係情報取得手
段と、前記複合語分解手段で分解された複合語のうち、
他方の複合語の各単語が、前記単語関係情報取得手段で
作成された単語情報リストに含まれるか否かを判定する
単語比較手段と、前記単語比較手段の比較結果に応じ
て、対応する各単語ごとに類似度を示す評価値を与え、
この評価値に基づいて、対比される複合語の類似度を算
出する類似度確定手段と、を備えた構成としてある。
【0009】特に、請求項2では、前記単語関係辞書記
憶部に記憶される、前記所定の単語と一定の関連を有す
る関連単語が、当該所定の単語の同義語及び類義語から
なる構成としてあり、さらに、請求項3では、この関連
単語が、当該所定の単語の派生語を含む構成としてあ
る。
【0010】このような構成からなる本発明の複合語の
類似度判定システムによれば、対比される各複合語を単
語レベルに分解する分解手段を備えるとともに、あらか
じめ記憶された所定の単語の同義語及び類義語情報に基
づき、分解された単語ごとに類似度を判定し、最終的な
複合語の類似度を算出する類似度確定手段を備えてある
ので、各単語レベルごとに同義語と類義語の違いによっ
て差のある評価値を付与することが可能となる。
【0011】これにより、複合語の類似度を、同義語,
類義語の関係から、複合語の有する意味合いを含めて算
出することができる。また、複合語の類似度を同義語及
び類義語関係を参照しつつ数値で表すことができるの
で、対比される複合語を、一致しているか否かという二
者択一の選択でなく、どの程度類似しているかという定
量的な表現で表すことができる。
【0012】また、請求項4記載の複合語の類似度判定
システムは、前記単語関係辞書記憶部に記憶される、前
記所定の単語と一定の関連を有する関連単語が、当該所
定の単語の上位語を含む構成としてある。
【0013】このような構成からなる本発明の複合語の
類似度判定システムによれば、同義語と類義語に加え
て、上位語という単語間の関係を備えているので、単語
の意味や概念の包含関係についての類似度も考慮して類
似度の判定を行うことができる。これにより、より広範
かつ柔軟な複合語の類似度判定を実現することが可能と
なる。
【0014】また、請求項5記載の複合語の類似度判定
方法は、記憶された所定の単語及びこの単語と一定の関
連を有する関連単語を読み出す処理と、対比される複合
語を、各複合語ごとに、記憶された前記所定の単語レベ
ルに分解する処理と、この分解された複合語のうち、一
方の複合語の各単語ごとに、記憶された前記所定の単語
及び関連単語に基づく単語情報リストを作成する処理
と、分解された複合語のうち、他方の複合語の各単語
が、前記単語情報リストに含まれるか否かを判定する処
理と、この単語情報リストの比較結果に応じて、対応す
る各単語ごとに類似度を示す評価値を与え、この評価値
に基づいて、対比される複合語の類似度を算出する処理
と、を有する方法としてある。
【0015】このような方法からなる本発明の複合語の
類似度判定方法によれば、対比される各複合語を単語レ
ベルに分解するとともに、あらかじめ記憶された所定の
単語の同義語及び類義語情報に基づき、分解された単語
ごとに類似度を判定し、最終的な複合語の類似度を算出
するようにしてあるので、各単語レベルごとに同義語と
類似語の違いによって差のある評価値を付与することが
できる。
【0016】これにより、複合語の類似度を、同義語,
類義語の関係から、複合語の意味合いを含めて算出する
ことが可能となる。また、複合語の類似度を同義語及び
類義語関係を参照しつつ数値で表すことができるので、
対比される複合語を、一致しているか否かという二者択
一の選択でなく、どの程度類似しているかという定量的
な表現で表すことができる。
【0017】さらに、請求項6記載の記録媒体は、記憶
された所定の単語及びこの単語と一定の関連を有する関
連単語を読み出す処理と、対比される複合語を、各複合
語ごとに、記憶された前記所定の単語レベルに分解する
処理と、この分解された複合語のうち、一方の複合語の
各単語ごとに、記憶された前記所定の単語及び関連単語
に基づく単語情報リストを作成する処理と、分解された
複合語のうち、他方の複合語の各単語が、前記単語情報
リストに含まれるか否かを判定する処理と、この単語情
報リストの比較結果に応じて、対応する各単語ごとに類
似度を示す評価値を与え、この評価値に基づいて、対比
される複合語の類似度を算出する処理と、をコンピュー
タに実行させるための複合語の類似度判定方法プログラ
ムが記録された構成としてある。
【0018】このような構成からなる本発明の記録媒体
に記録されたプログラムをコンピュータに読み込ませて
実行させることにより、対比される各複合語を単語レベ
ルに分解するとともに、あらかじめ記憶してある所定の
単語の同義語及び類義語情報に基づいて、分解された単
語ごとに類似度を判定し、最終的な複合語の類似度を算
出することができる。
【0019】これにより、複合語の各単語レベルごとに
同義語と類似語の違いにより差のある評価値を付与する
ことができ、複合語の類似度を、同義語,類義語の関係
から、複合語の意味合いを含めて算出することが可能と
なる。また、複合語の類似度が、同義語及び類義語の存
在に応じて異なる数値データとして表されるので、対比
される複合語の類似度が、一致しているか否かという二
者択一の選択ではなく、どの程度類似しているか定量的
に表現されることになる。
【0020】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しつつ説明する。なお、以下の各実施形
態における複合語の類似度判定システム及び類似度判定
方法は、プログラムに制御されたコンピュータにより実
行される。このプログラムは、例えば、記録媒体により
提供される。記録媒体としては、例えば、磁気ディス
ク,半導体メモリ,その他の任意の、コンピュータで読
取り可能なものを使用することができる。また、記録媒
体に記録されたプログラムは、記録媒体を直接コンピュ
ータに装着して当該コンピュータに読み込ませてもよい
し、通信回線を介してコンピュータに読み込ませてもよ
い。
【0021】[第一実施形態]まず、本発明の複合語の
類似度判定システム,類似度判定方法及び記録媒体の第
一の実施形態について、図1〜図5を参照して説明す
る。図1は、本発明の複合語の類似度判定システムの第
一実施形態を示すブロック図である。図2は、本実施形
態にかかる複合語の類似度判定システムの単語関係情報
辞書記憶部を示す説明図である。図3は、本実施形態に
かかる複合語の類似度判定システムの動作を示すフロー
チャート図である。図4及び図5は、本実施形態にかか
る複合語の類似度判定システムの単語比較手段における
各単語間の比較判定処理を示す説明図である。
【0022】図1に示すように、本実施形態にかかる複
合語の類似度判定システムは、キーボード等の入力装置
1と、プログラム制御により動作するデータ処理装置2
と、情報を記憶する記憶装置3と、ディスプレイ装置等
からなる出力装置4とを備えた構成となっている。入力
装置1は、類似度を判定するために対比される二つの複
合語を入力する入力手段であり、通常は、コンピュータ
等に接続されたキーボード等により構成されている。こ
の入力装置1は、対比する任意の複合語を入力できると
ともに、入力される二つの複合語のうち、どちらを比較
基準側とし、どちらを比較対象側とするか(図4参照)
を指定できるようになっている。
【0023】記憶装置3は、図1に示すように、単語関
係辞書記憶部31を備えている。この単語関係辞書記憶
部31には、複合語の類似度判定の基準となる一定の基
本的な単語(基本単語)が記憶してある。また、この単
語関係辞書記憶部31には、各基本単語と一定の関連を
有する単語(関連単語)が、それぞれ各基本単語ととも
に記憶されるようになっている。
【0024】図2に、この単語関係辞書記憶部31がど
のように各基本単語及び関連単語を記憶しているかを具
体的に示す。同図に示すように、単語関係辞書記憶31
には、一定の基本的な単語が、各単語ごとに記憶されて
おり、その単語の活用形や派生した形の単語も、その単
語の派生語として記憶されるようになっている。また、
この単語関係辞書記憶部31に記憶された各単語間にお
いて、互いに同義語及び類義語の関係にあるものについ
ては、それらも当該単語の関連単語として記憶されるよ
うになっている。
【0025】より具体的には、一つの単語情報として、
図2に示すように、基本単語及びその派生語が記憶され
ており、さらに、その単語の同義語及び類義語として定
義される他の基本単語が、単語関係辞書記憶部31内に
格納されている位置情報のリストとして記憶されるよう
になっている。これにより、ある基本単語の同義語又は
類義語を取得しようとする場合、その単語の同義語又は
類義語情報として記憶されている位置情報リストを辿る
ことにより、同義語又は類義語に該当する他の基本単語
を入手できるようになっている。
【0026】データ処理装置2は、図1に示すように、
複合語分解手段21と、単語関係情報取得手段22と、
単語比較手段23及び類似度確定手段24を備えてい
る。複合語分解手段21は、入力装置1から入力される
二つの複合語を、それぞれ文字列解析し、単語関係辞書
記憶部31に記憶されている単語及びその派生語と一致
する文字列がある場合には、当該文字列を複合語から分
離する。そして、各複合語の最後の文字まで、順次、文
字列解析を行い、当該複合語を単語関係辞書記憶部31
に記憶されている単語に対応する単語レベルの文字列
(単語)に分解するようになっている。
【0027】さらに、複合語の一部又は全部の文字列
に、単語関係辞書記憶部31に記憶されている単語及び
その派生語に一致する文字列が存在しない場合には、当
該文字列をそのまま一つの単語とみなして処理するよう
になっている。このように、本実施形態では、単語関係
辞書記憶部31に記憶されていない単語で構成された複
合語についても、類似判定の対象とすることができるの
で、入力,判定される複合語がより広範かつ柔軟性に富
んだものとなる。
【0028】単語関係情報取得手段22は、複合語分解
手段21において分解される複合語のうち、一方の複合
語について分解された各単語(分解単語)が入力され、
各単語ごとに、単語関係辞書記憶部31に記憶されてい
る単語及び関連単語に基づく単語情報リスト(同義語・
類似語リスト)を作成するようになっている。具体的に
は、単語関係情報取得手段22は、対比される二つの複
合語のうち、比較基準側の複合語の分解された各単語に
ついて、単語関係辞書記憶部31に記憶されている単語
間の同義語、類義語関係の情報に基づき、その分解単語
ごとの同義語及び類義語を示す同義語リスト及び類義語
リストを作成する(図4参照)。このとき、その単語に
派生語が記憶されている場合には、その派生語について
も、その分解単語の同義語として同義語リストに含めら
れるようになっている。
【0029】単語比較手段23は、複合語分解手段21
において分解される複合語のうち、他方の複合語の各分
解単語が、単語関係情報取得手段22で作成された単語
情報リスト(同義語リスト,類義語リスト)に含まれる
か否かを比較,判定する比較手段である。具体的には、
この単語比較手段23は、単語関係取得手段22によっ
て作成された比較基準側の複合語の同義語リスト及び類
義語リストをもとに、比較対象側の複合語の分解された
各単語が、各同義語リスト,類義語リスト中に含まれて
いるかを比較,判別するようになっている。そして、こ
の単語比較手段23での比較結果に基づいて、類似度確
定手段24において対比される複合語の最終的な類似度
が確定されるようになっている。
【0030】類似度確定手段24は、単語比較手段23
の比較結果に基づき、複合語の対応する各分解単語ごと
に類似度を示す評価値を与え、当該評価値に基づいて複
合語間の類似度を計算するようになっている。具体的に
は、類似度確定手段24は、まず、単語比較手段23で
判別された各分解単語ごとの比較結果に基づき、比較対
象側の各単語が、比較基準側の同義語リストに含まれて
いる場合には「同義語一致」としての評価値を与え、類
義語リストに含まれている場合には「類義語一致」とし
ての評価値を与え、同義語リスト及び類義語リストのい
ずれにも該当する単語が存在しない場合には、該当無し
として「単語不一致」の評価値を与える。
【0031】例えば、比較対象側の各単語が比較基準側
の同義語リストに含まれている場合、基準側と対象側の
単語がまったく同一の場合には、「完全一致」として評
価値「100」を付与し、他の同義語と一致する場合に
は「同義語一致」として評価値「90」を付与する。ま
た、類義語リストに含まれている場合には「類義語一
致」として評価値「50」を付与する。同義語・類義語
リストに該当する単語が存在しない場合は評価値「0」
を付与する。
【0032】そして、このようにして各分解単語ごとに
与えられた評価値を合計し、その合計値を比較基準側の
複合語の分解単語数で割ることにより、その結果を一分
解単語当たりの平均類似度とみなし、これを対比する二
つの複合語の最終的な類似度として判定する。その後、
この類似度確定手段24が、算出された類似度を出力装
置4へ出力することにより、対比される複合語の最終的
な類似度が出力装置4において表示されることになる。
【0033】なお、対比する複合語によっては、比較対
象側の一つの単語が比較基準側の二以上の同義語リスト
と類義語リストの双方に含まれる場合がある。そのよう
な場合には、本実施形態では、対応する単語同士を一対
一で対応させつつ、複合語の類似度として各単語に付与
される評価値の合計が最大になるように、類似度確定手
段24において、比較基準側と比較対象側の単語間の対
応関係を調整するようにしてある。
【0034】例えば、図4に示す場合では、比較基準側
の単語aについて、比較対象側の単語xと単語yがとも
に類似する対応関係を有している。そして、この場合、
図4に示すように、単語xは「同義語一致」であり、単
語yは「類義語一致」である。そこで、類似度確定手段
24は、評価値の合計が最大となるよう、「同義語一
致」となる単語xを採用して、「類義語一致」となる単
語yを破棄し、基準側の単語aについて「同義語一致」
の評価値(例えば「100」)を付与する。これによ
り、基準側と対象側の各単語を一対一で対応させつつ、
各単語に与えられる評価値の合計を最大にするよう調整
することができる。
【0035】次に、以上のような構成からなる本実施形
態にかかる複合語の類似度判定システムの動作につい
て、図2に示すフローチャート及び図5に示す複合語の
具体例を参照しつつ説明する。まず、入力装置1に対比
される二つの複合語が入力される。入力装置1に複合語
が入力されると、各複合語が入力装置1からデータ処理
装置2の複合語分解手段21に出力される。また、複合
語の入力の際に、二つの複合語のうち、どちらが比較基
準側となり、とちらが比較対象側の複合語となるかにつ
いても、入力装置1により指定される。
【0036】複合語分解手段21は、入力された各複合
語をそれぞれ文字列解析し、記憶装置3の単語関係辞書
記憶部31に記憶されている単語と一致するものがあれ
ば、その文字列を分離し、複合語の最後の文字まで解析
を行って、複合語を各単語レベルに分解する(ステップ
A1)。このとき、解析の結果、単語関係辞書記憶部3
1に記憶されていない文字列が存在する場合には、その
文字列をそのまま分解単語として取り扱う。
【0037】例えば、図5に示す場合では、二つの複合
語が、比較基準側として“Date OfDocument Modify”、
比較対象側として“File Replace Time And Day”の文
字列が、それぞれ入力装置1を介して複合語分解手段2
1に入力される。複合語分解手段21では、各複合語を
単語関係辞書記憶部31に記憶された単語に一致する
“Date”、“Of”、“Document”、“Modify”、及び、
“File”、“Replace”、“Time”、“And”、“Day”
に分解する(ステップA1)。
【0038】複合語から各単語レベルへの分解処理が終
了すると、単語関係情報取得手段22において、比較基
準側として指定された複合語から分解された各単語につ
いて、単語関係辞書記憶部31で各単語の同義語,類義
語として記憶されている他の単語情報を取得し、当該単
語自身を含めた同義語・類義語リストを作成する(ステ
ップ2)。図5に示す場合では、例えば、“Date”につ
いて、同義語リストとして“Day”が含まれるリストが
作成され、類義語リストとして“Time”が含まれるリス
トが作成される。なお、このとき、その単語に派生語が
存在する場合、その派生語も同義語リストに追加され
る。また、単語関係辞書記憶部31に登録,記憶されて
いない単語が複合語として入力されたり、分解単語とし
て残った場合には、その単語自体が同義語リスト,類義
語リストとなる。
【0039】各単語の同義語リスト、類義語リストが作
成されると、次に単語比較手段23により比較基準側の
各同義語リスト及び類義語リスト内に、比較対象側の分
割された各単語が含まれるているか否かが判別される
(ステップA3)。この比較,判定処理は、比較基準側
の各単語の同義語リスト及び類義語リストのすべてと、
比較対象側の分割された各単語のすべてについて行われ
る。例えば、図5に示す場合では、矢印で示すように、
例えば、“Date”の同義語リストには比較対象側の“Da
y”が含まれ、“Date”の類義語リストには比較対象側
の“Timeが含まれていることが判別されることになる。
【0040】次に、この単語比較手段23における比較
の結果、比較基準側の各単語と、各単語の同義語・類義
語リストに含まれる比較対象側の単語との対応が一対一
となっているか否かが判定され、一対一の対応になって
いない場合には、類似度確定手段24により、基準側と
対象側の単語が一対一の対応となるよう調整が行われる
(ステップA4)。この調整は、比較基準側と比較対象
側の各単語の類似関係を一対一となるように対応させつ
つ、複合語の類似度として各単語に与えられる評価値の
合計が最大になるように行われる。例えば、図5に示す
場合、類似度確定手段24は、単語比較手段23の判定
結果に基づき、比較基準側の単語が比較対象側の単語と
一対一になっていない組合せである“Date”を判別し、
この単語に与えられる評価値が最大となるよう、同義語
リストに含まれている単語“Day”を採用し、類義語リ
ストに含まれている単語“Time”の対応関係を破棄する
調整を行う。
【0041】このようにして基準側の単語と対象側の単
語の対応関係が一対一となったところで、それぞれの組
合せに対して所定の評価値を付与し、付与された各評価
値の合計を、基準側の複合語の分解単語数で除算し、そ
の結果である商の値を最終的な複合語間の類似度として
確定する(ステップA5)。例えば、図5に示す場合で
は、“Date”は同義語として一致なので評価値「90」
が付与され、“Document”と“Modify”はそれぞれ類義
語として一致なので評価値「50」が付与される。“O
f”は対応単語が存在しないので評価値は「0」とな
る。これらの評価値は合計が「190」となり、これを
単語数「4」で除すると、結果は「47.5」となり、
これが二つの複合語間の最終的な類似度となる。そし
て、この類似度が出力装置4へ出力され、この値(図5
に示す場合は「47.5」)がディスプレイ等に出力表
示され(ステップA6)、類似度判定処理が終了する。
【0042】以上説明したように、本実施形態にかかる
複合語の類似度判定システムによれば、対比される各複
合語を単語レベルに分解するとともに、あらかじめ記憶
された所定の単語の同義語及び類義語情報に基づき、分
解された単語ごとに類似度を判定し、最終的な複合語の
類似度を算出するようにしてあるので、各単語レベル語
とに同義語と類似語の違いによって差のある評価値を付
与することができる。これにより、複合語の類似度を、
同義語,類義語の関係から、複合語の意味合いを含めて
算出することが可能となる。また、このような本実施形
態の類似度判定システムによれば、複合語の類似度を同
義語及び類義語関係を参照しつつ数値で表すことができ
るので、対比される複合語を、一致しているか否かとい
う二者択一の選択でなく、どの程度類似しているかとい
う定量的な表現で表すことができる。
【0043】さらに、本実施形態の類似度判定システム
では、単語関係辞書記憶部31に記憶する単語間の関係
情報が、同義語と類義語のみとなり、単語間の類似評価
も、この同義語及び類義語の有無によって算出すること
ができる。このため、本実施形態の記憶装置3には、記
憶容量が膨大となる単語間の類似度の定義や評価等の情
報を記憶しておく必要がなく、記憶容量を削減すること
ができる。また、単語間の関係を記憶する単語関係辞書
の構築についても、同義語と類義語の二種類の分類だけ
なので、構築作業を容易に行うことができる。
【0044】[第二実施形態]次に、本発明の複合語の
類似度判定システム,類似度判定方法及び記録媒体の第
二の実施形態について、図6〜図8を参照して説明す
る。図6は、本発明の複合語の類似度判定システムの第
二実施形態を示すブロック図である。図7は、本実施形
態にかかる複合語の類似度判定システムの単語関係情報
辞書記憶部を示す説明図である。図8は、本実施形態に
かかる複合語の類似度判定システムの単語比較手段にお
ける各単語間の比較判定処理を示す説明図である。
【0045】これらの図に示すように、本実施形態の複
合語の類似度判定システムは、単語関係辞書として、上
述した第一実施形態で示した同義語,類義語の関係に加
えて、上位語という類似分類情報を追加し、この上位語
の関係を含むて複合語の類似度を判定するようにしたも
のである。したがって、上位語情報を記憶した単語関係
辞書記憶部32と、この上位語情報に対応する処理が追
加されたデータ処理装置5の単語関係情報取得手段25
及び単語比較手段26及び類似度確定手段27が、第一
実施形態における各部と置き換わった構成となってい
る。
【0046】図7に示すように、本実施形態の単語関係
辞書の情報を有する単語関係辞書記憶部32は、単語関
係辞書として、第一実施形態の同義語及び類義語に加え
て、上位語を単語の類似分類情報として記憶するように
してある。ここで、上位語とは、単語の意味において、
ある単語の意味が他の単語の意味の範疇に含まれる場合
に、この他の単語を上位語とするものである。例えば、
図8に示す例の場合、“Text”の上位語として“Docume
nt”が該当する。本実施形態では,このような上位語関
係の情報が、単語関係辞書記憶部32に記憶されてい
る。
【0047】また、本実施形態のデータ処理装置5は、
図6に示すように、第一実施形態における単語関係情報
取得手段22及,単語比較手段23及び類似度確定手段
24に代えて、単語関係情報取得手段25,単語比較手
段26及び類似度確定手段27を備えている。単語関係
情報取得手段25は、第一実施形態で示した処理に加え
て、追加された上位語の関係にある単語が存在する場合
には、その単語について、同義語・類義語リストと同様
に、上位語リストを作成するようになっている。
【0048】単語比較手段26は、第一実施形態で示し
た処理に加えて、上位語リスト内の単語も含めて、比較
対象側の分割された単語が単語情報リストのいずれかに
含まれるか否かを判定するようになっている。さらに、
類似度確定手段27は、比較対象側の単語が上位語リス
トに含まれる場合には、その上位語リストに含まれる単
語も含めて、第一実施形態における場合と同様の調整処
理を行い、評価値の付与及び類似度の算出を行うように
なっている。
【0049】なお、ここで付与される評価値は、上位語
一致の場合には、所定の上位語一致の評価値が与えられ
るようになっている。例えば、上位語リストに比較対象
側の単語が含まれる場合には、「上位語一致」として評
価値「30」が付与される。その他、本実施形態におけ
る他の構成部分については、上述した第一実施形態の場
合とほぼ同様となっている。
【0050】次に、以上のような構成からなる本実施形
態にかかる複合語の類似度判定システムの動作につい
て、図8に示す複合語の具体例を参照しつつ説明する。
まず、対比され複合語の入力から、複合語の分解までの
動作は第一実施形態の場合と同様に行われる。例えば、
図8に示す場合では、二つの複合語が、比較基準側とし
て“Date OfText Modify”が、比較対象側として“Docu
ment Replace Time”が、それぞれ入力装置1を介して
複合語分解手段21に入力され、複合語分解手段21に
おいて、各複合語が“Date”、“Of”、“Text”、“Mo
dify”、及び、“Document”、“Replace”、“Time”
に分解される。
【0051】複合語から各単語レベルへの分解処理が終
了すると、単語関係情報取得手段25が、第一実施形態
の場合と同様に、比較基準側の各単語について同義語リ
スト及び類義語リストを作成するとともに、さらに、上
位語の関係にある単語が存在すれば、その単語について
の上位語リストを作成する。例えば、図8に示す場合で
は、“Text”の上位語として“Document”が存在するの
で、これを上位語リストとして作成する。
【0052】次に、単語比較手段26は、第一実施形態
における処理に加えて、上位語リスト内の単語も含め
て、比較対象側の単語が含まれるているか否かを判定す
る。図8に示す例では、矢印で示すように、“Text”の
上位語リストには比較対象側の“Document”が含まれる
ことが判別される。
【0053】次いで、単語比較手段26における比較結
果に基づき、比較基準側の単語と比較対象側の単語とが
一対一の対応となっているかどうかが判別され、一対一
の対応となっていない場合には、第一実施形態の場合と
同様に、各単語に与えられる評価値の合計が最大になる
態様で、各単語が一対一の対応となるよう、類似度確定
手段27により調整が行われる。なお、図8に示す例で
は、比較基準側と比較対象側の単語はすべて一対一の対
応となっているので、調整は行われない。
【0054】基準側と対象側の単語の対応関係が一対一
となったところで、類似度確定手段27により、各単語
の組合せに対して所定の評価値が付与され、付与された
各評価値の合計が基準側の複合語の分解単語数で除され
て、その結果が最終的な複合語間の類似度として確定さ
れる。
【0055】図8に示す場合では、“Date”は同義語と
して一致なので評価値「90」が付与され、“Text”は
上位語として一致なので評価値「30」が付与され、ま
た、“Modify”は類義語として一致なので評価値「3
0」が付与される。“Of”は対応単語が存在しないので
評価値は「0」となる。したがって、これらの評価値は
合計は「150」となり、これを単語数「4」で除する
と、結果は「37.5」となり、これが対比される複合
語の最終的な類似度となり、この値がディスプレイ等に
出力表示される。
【0056】以上のように、本実施形態の複合語の類似
度判定システムによれば、上述した第一実施形態におけ
る効果に加えて、同義語と類義語以外に上位語という単
語間の関係を追加しているので、単語の意味や概念の包
含関係についての類似度をも考慮した類似度の判定を行
うことが可能となり、より広範かつ柔軟な複合語の類似
度判定を実現することができる。
【0057】[第三実施形態]さらに、図9を参照し
て、本発明の複合語の類似度判定システムの第三の実施
形態について説明する。図9は、本発明の第三実施形態
にかかる複合語の類似度判定システムを示すブロック図
である。同図に示すように、本実施形態では、本発明に
かかる複合語の類似度判定システムを実行するためのプ
ログラムを記録した記録媒体6を備えた構成となってい
る。
【0058】この記録媒体6は、磁気ディスク,半導体
メモリ、その他の任意の記録媒体により構成されてい
る。そして、本実施形態では、本発明にかかる複合語の
類似度判定システムを実行するためのプログラムが、記
録媒体6からデータ処理装置2に読み込まれ、これによ
ってデータ処理装置2の動作が制御されるようになって
いる。データ処理装置2は、記録媒体6に記録されたプ
ログラムの制御により、上述した第一又は第二実施形態
におけるデータ処理装置2又は5による処理と同一の処
理を実行する。
【0059】このように、本実施形態によれば、本発明
にかかる複合語の類似度判定システム及び類似度判定方
法を実行するプログラムを、磁気ディスク,半導体メモ
リ,その他の任意の、コンピュータで読取り可能な手段
を使用した記録媒体6により提供することができる。そ
して、本実施形態における記録媒体6に記録されたプロ
グラムは、図9に示したように、記録媒体6を直接コン
ピュータに装着して当該コンピュータに読み込ませるこ
ともでき、また、通信回線等を介してコンピュータに読
み込ませることもできる。
【0060】なお、本発明の装置は、上述した実施形態
にのみ限定されるものではなく、本発明の要旨の範囲で
種々の変更実施が可能であることは言うまでもない。例
えば、上述した実施形態では、対比される複合語が二つ
の場合を例にとって説明してあるが、これが三つ以上の
複合語の場合であってもよい。すなわち、本発明は、二
以上の複数の複合語を順次対比することにより、任意の
複数の複合語の類似度判定手段として適用することが可
能である。
【0061】また、上述した実施形態では、単語間の関
係として同義語,類義語,派生語、及び上位語を設定す
るようにしてあるが、これ以外にも、さらに他の単語間
の関係を追加して、複合語の類似度の判定材料の範囲を
拡張することができる。また、本発明の利用目的や適用
対象等に応じて、単語間の関係に特徴のある単語関係辞
書を作成することも可能である。
【0062】
【発明の効果】以上説明したように、本発明の複合語の
類似度判定システム,類似度判定方法及び記録媒体によ
れば、対比される各複合語を単語レベルに分解するとと
もに、あらかじめ記憶された所定の単語の同義語及び類
義語情報に基づき、分解された単語ごとに類似度を算
出,判定することで、各複合語が有する意味合いを考慮
した複合語間の類似度判定を実現することができる。
【図面の簡単な説明】
【図1】本発明の複合語の類似度判定システムの第一実
施形態を示すブロック図である。
【図2】本発明の複合語の類似度判定システムの第一実
施形態における単語関係情報辞書記憶部を示す説明図で
ある。
【図3】本発明の第一実施形態にかかる複合語の類似度
判定システムの動作を示すフローチャート図である。
【図4】本発明の第一実施形態にかかる複合語の類似度
判定システムの単語比較手段における各単語間の比較判
定処理を示す説明図である。
【図5】本発明の第一実施形態にかかる複合語の類似度
判定システムの単語比較手段における各単語間の比較判
定処理を示す説明図である。
【図6】本発明の複合語の類似度判定システムの第二実
施形態を示すブロック図である。
【図7】本発明の複合語の類似度判定システムの第二実
施形態における単語関係情報辞書記憶部を示す説明図で
ある。
【図8】本発明の第二実施形態にかかる複合語の類似度
判定システムの単語比較手段における各単語間の比較判
定処理を示す説明図である。
【図9】本発明の複合語の類似度判定システムの第三実
施形態を示すブロック図である。
【符号の説明】
1 入力装置 2 データ処理装置 3 記憶装置 4 出力装置 21 複合語分解手段 22 単語関係情報取得手段 23 単語比較手段 24 類似度確定手段 31 単語関係辞書記憶部
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/22 520 G06F 17/22 520S 17/28 17/28 Z

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 所定の単語及びこの単語と一定の関連を
    有する関連単語を記憶する単語関係辞書記憶部と、 対比される複合語を、各複合語ごとに、前記単語関係辞
    書記憶部に記憶された単語レベルに分解する複合語分解
    手段と、 前記複合語分解手段で分解された複合語のうち、一方の
    複合語の各単語ごとに、前記単語関係辞書記憶部に記憶
    された単語及び関連単語に基づく単語情報リストを作成
    する単語関係情報取得手段と、 前記複合語分解手段で分解された複合語のうち、他方の
    複合語の各単語が、前記単語関係情報取得手段で作成さ
    れた単語情報リストに含まれるか否かを判定する単語比
    較手段と、 前記単語比較手段の比較結果に応じて、対応する各単語
    ごとに類似度を示す評価値を与え、この評価値に基づい
    て、対比される複合語の類似度を算出する類似度確定手
    段と、 を備えたことを特徴とする複合語の類似度判定システ
    ム。
  2. 【請求項2】 前記単語関係辞書記憶部に記憶される、
    前記所定の単語と一定の関連を有する関連単語が、当該
    所定の単語の同義語及び類義語からなる請求項1記載の
    複合語の類似度判定システム。
  3. 【請求項3】 前記単語関係辞書記憶部に記憶される、
    前記所定の単語と一定の関連を有する関連単語が、当該
    所定の単語の派生語を含む請求項1又は2記載の複合語
    の類似度判定システム。
  4. 【請求項4】 前記単語関係辞書記憶部に記憶される、
    前記所定の単語と一定の関連を有する関連単語が、当該
    所定の単語の上位語を含む請求項1,2又は3記載の複
    合語の類似度判定システム。
  5. 【請求項5】 記憶された所定の単語及びこの単語と一
    定の関連を有する関連単語を読み出す処理と、 対比される複合語を、各複合語ごとに、記憶された前記
    所定の単語レベルに分解する処理と、 この分解された複合語のうち、一方の複合語の各単語ご
    とに、記憶された前記所定の単語及び関連単語に基づく
    単語情報リストを作成する処理と、 分解された複合語のうち、他方の複合語の各単語が、前
    記単語情報リストに含まれるか否かを判定する処理と、 この単語情報リストの比較結果に応じて、対応する各単
    語ごとに類似度を示す評価値を与え、この評価値に基づ
    いて、対比される複合語の類似度を算出する処理と、 を有することを特徴とする複合語の類似度判定方法。
  6. 【請求項6】 記憶された所定の単語及びこの単語と一
    定の関連を有する関連単語を読み出す処理と、 対比される複合語を、各複合語ごとに、記憶された前記
    所定の単語レベルに分解する処理と、 この分解された複合語のうち、一方の複合語の各単語ご
    とに、記憶された前記所定の単語及び関連単語に基づく
    単語情報リストを作成する処理と、 分解された複合語のうち、他方の複合語の各単語が、前
    記単語情報リストに含まれるか否かを判定する処理と、 この単語情報リストの比較結果に応じて、対応する各単
    語ごとに類似度を示す評価値を与え、この評価値に基づ
    いて、対比される複合語の類似度を算出する処理と、 をコンピュータに実行させるための複合語の類似度判定
    方法プログラムが記録されたことを特徴とする記録媒
    体。
JP2000140800A 2000-05-12 2000-05-12 複合語の類似度判定システム、類似度判定方法及び記録媒体 Pending JP2001325292A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000140800A JP2001325292A (ja) 2000-05-12 2000-05-12 複合語の類似度判定システム、類似度判定方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000140800A JP2001325292A (ja) 2000-05-12 2000-05-12 複合語の類似度判定システム、類似度判定方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2001325292A true JP2001325292A (ja) 2001-11-22

Family

ID=18648026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000140800A Pending JP2001325292A (ja) 2000-05-12 2000-05-12 複合語の類似度判定システム、類似度判定方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2001325292A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156890A (ja) * 2016-02-29 2017-09-07 富士通株式会社 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP2018088101A (ja) * 2016-11-28 2018-06-07 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017156890A (ja) * 2016-02-29 2017-09-07 富士通株式会社 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP2018088101A (ja) * 2016-11-28 2018-06-07 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム

Similar Documents

Publication Publication Date Title
CN106708929B (zh) 视频节目的搜索方法和装置
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP3258063B2 (ja) データベース検索システム及び方法
US6338060B1 (en) Data processing apparatus and method for outputting data on the basis of similarity
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP2001325292A (ja) 複合語の類似度判定システム、類似度判定方法及び記録媒体
US20040054677A1 (en) Method for processing text in a computer and a computer
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JPH11110395A (ja) 類似文書検索装置および類似文書検索方法
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP3548372B2 (ja) 文字認識装置
JP3436109B2 (ja) 関連検索式検索装置及び関連検索式検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10232871A (ja) 検索装置
JP3210842B2 (ja) 情報処理装置
JP2001290826A (ja) 文書分類装置、文書分類方法及び文書分類プログラムを記録した記録媒体
JPH1173420A (ja) 文書処理装置及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10307839A (ja) テキスト検索装置及び方法
JP5032453B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP4051369B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JPH01297768A (ja) 文書処理装置
JP2021009591A (ja) データ取得装置、データ取得方法、およびデータ取得プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050201