JP2000137718A

JP2000137718A - 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Info

Publication number: JP2000137718A
Application number: JP10313588A
Authority: JP
Inventors: Kaname Kasahara; 要笠原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-11-04
Filing date: 1998-11-04
Publication date: 2000-05-16

Abstract

(57)【要約】【課題】複合共起語を抽出し、その共起ベクトルを比
較することにより十分な精度を持って類似性を判別し得
る単語の類似性判別方法および単語の類似性判別プログ
ラムを記録した記録媒体を提供する。【解決手段】類似度を比較しようとする２つの単語
Ａ，Ｂに類似度を比較しようとすると、まず単語Ａ，Ｂ
のそれぞれについて一緒に複合語を構成し得る単語であ
る複合共起語を収集し、この収集した複合共起語の重み
からなる共起ベクトルを参照し（ステップＳ１１）、そ
れぞれの単語Ａ，Ｂの共起ベクトルを作成する（ステッ
プＳ１３）。それから、各単語Ａ，Ｂの共起ベクトルの
要素を比較し（ステップＳ１５）、両単語Ａ，Ｂの類似
度ｓｉｍ（Ａ，Ｂ）を計算する（ステップＳ１７）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、２つの単語の似て
いる度合である類似度を計算する単語の類似性判別方法
および単語の類似性判別プログラムを記録した記録媒体
に関する。

【０００２】

【従来の技術】近年、インターネットの発展により、膨
大なテキストデータを閲覧することが可能となってい
る。また、ＣＲ−ＲＯＭ等の記録媒体のコストの低下に
より、個人であっても、容易に多量のテキストデータを
保存できるようになっている。そのため膨大なテキスト
データの中から必要な情報を取得する検索が重視されて
いる。

【０００３】検索を行う際には、ユーザの入力単語と適
合するテキストデータをいかにして探すかが問題であ
り、一般的には、テキスト中の単語と比較することが行
われる。その場合、ユーザの入力単語の類義語や類似語
についても比較することにより、従来得られなかった適
切なテキストデータを得ることができる。そのために
は、単語同士の似ている度合を判定する類似性判別が必
須になる。

【０００４】類似性判別では、似ている単語同士を分類
した類語辞典が一般的に用いられる。この類語辞典は、
人手で作成されるので時間とコストを要するため、新語
や流行語等、含まれてない単語を適宜追加することは困
難である。そのための技術の１つとして、膨大なテキス
トデータであるコーパスを用いて類似性判別が行われて
いる。

【０００５】コーパスを用いた類似性判別では、文中の
単語間の用いられ方を判定し、ある条件で一緒に用いら
れる単語である共起語の出現頻度を調査し、その値を比
較することが一般に行われている。その一例を示す。ま
ずコーパス中の文を構文解析し、述語と目的語の関係を
調べそれらを共起語とする。例えば、文「馬を飼育す
る。」ならば、「飼育する」が「馬」の共起語となる。
その結果を集計し、名詞に対し述語として現れる動詞の
出現頻度を重みとした図２のようなベクトルを用意す
る。類似度の計算は例えば、共起ベクトルの内積によっ
て行われる。この場合、馬と豚の類似度は３０、馬と新
聞の類似度は６となり、馬は新聞よりも豚に似ていると
判別される。共起語としてはこれまで、上記の目的語に
対する述語以外に、述語に対する主語、形容詞に対する
名詞等が提案されている。

【０００６】コーパスに基づく類似性判別では、新語や
流行語であっても、それを含むコーパスを利用すること
により、単語の共起ベクトルを構成することが可能であ
り、新しい単語についても類似性判別が可能となってい
る。

【０００７】

【発明が解決しようとする課題】上述したコーパスに基
づく従来の類似性判別方法では、述語に対する主語、述
語に対する目的語などを共起語としているが、これだけ
では、文中のすべての単語間の関係をカバーすることが
できないので、共起ベクトルによる類似性判別の精度は
十分なものでないという問題がある。

【０００８】本発明は、上記に鑑みてなされたもので、
その目的とするところは、複合共起語を抽出し、その共
起ベクトルを比較することにより十分な精度を持って類
似性を判別し得る単語の類似性判別方法および単語の類
似性判別プログラムを記録した記録媒体を提供すること
にある。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、２つの単語の類似度を計
算する単語の類似性判別方法であって、各単語それぞれ
について一緒に複合語を構成し得る単語である複合共起
語を収集し、この収集した複合共起語の重みからなる共
起ベクトルを作成し、類似度を計算しようとする２つの
単語の各々の複合共起語の共起ベクトルを比較して類似
度を計算することを要旨とする。

【００１０】請求項１記載の本発明にあっては、各単語
について複合共起語を収集し、この収集した複合共起語
の重みからなる共起ベクトルを作成し、２つの単語の各
々の複合共起語の共起ベクトルを比較して類似度を計算
するため、従来の類似性判別に加えて更に広い範囲にお
ける単語間の関係をカバーした類似性の判別を行うこと
ができ、類似性判別精度を向上することができる。

【００１１】また、請求項２記載の本発明は、請求項１
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを構
文解析して複合共起語を抽出し、この抽出した複合共起
語の出現頻度を共起ベクトルの重みとすることを要旨と
する。

【００１２】請求項２記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを構文解析して
複合共起語を抽出し、この複合共起語の出現頻度を共起
ベクトルの重みとするため、複合語および複合共起語を
自動的にコーパスから抽出することができ、効率化を図
ることができる。

【００１３】更に、請求項３記載の本発明は、請求項１
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを形
態素解析し、連続して出現する名詞の単語を複合共起語
として抽出し、この抽出した複合共起語の出現頻度を共
起ベクトルの重みとすることを要旨とする。

【００１４】請求項３記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを形態素解析
し、連続して出現する名詞の単語を複合共起語として抽
出し、この複合共起語の出現頻度を共起ベクトルの重み
とするため、近似的な複合語および複合共起語の判定を
行い、共起ベクトルのコーパスからの獲得を高速に行う
ことができる。

【００１５】請求項４記載の本発明は、２つの単語の類
似度を計算する単語の類似性判別プログラムを記録した
記録媒体であって、各単語それぞれについて一緒に複合
語を構成し得る単語である複合共起語を収集し、この収
集した複合共起語の重みからなる共起ベクトルを作成
し、類似度の計算しようとする２つの単語の各々の複合
共起語の共起ベクトルを比較して類似度を計算する単語
の類似性判別プログラムを記録媒体に記録することを要
旨とする。

【００１６】請求項４記載の本発明にあっては、各単語
について複合共起語を収集し、この収集した複合共起語
の重みからなる共起ベクトルを作成し、２つの単語の各
々の複合共起語の共起ベクトルを比較して類似度を計算
する単語の類似性判別プログラムを記録媒体に記録する
ため、該記録媒体を用いて、その流通性を高めることが
できる。

【００１７】また、請求項５記載の本発明は、請求項４
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを構
文解析して複合共起語を抽出し、この抽出した複合共起
語の出現頻度を共起ベクトルの重みとすることを要旨と
する。

【００１８】請求項５記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを構文解析して
複合共起語を抽出し、この複合共起語の出現頻度を共起
ベクトルの重みとする単語の類似性判別プログラムを記
録媒体に記録するため、該記録媒体を用いて、その流通
性を高めることができる。

【００１９】更に、請求項６記載の本発明は、請求項４
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを形
態素解析し、連続して出現する名詞の単語を複合共起語
として抽出し、この抽出した複合共起語の出現頻度を共
起ベクトルの重みとする単語の類似性判別プログラムを
記録媒体に記録することを要旨とする。

【００２０】請求項６記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを形態素解析
し、連続して出現する名詞の単語を複合共起語として抽
出し、この複合共起語の出現頻度を共起ベクトルの重み
とする単語の類似性判別プログラムを記録媒体に記録す
るため、該記録媒体を用いて、その流通性を高めること
ができる。

【００２１】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。図１は、本発明の第１の実施
形態に係る単語の類似性判別方法の処理手順を示すフロ
ーチャートである。同図に示す単語の類似性判別方法に
おいて類似度を比較しようとする２つの単語Ａ，Ｂに類
似度を比較しようとすると、まず単語Ａ，Ｂのそれぞれ
について一緒に複合語を構成し得る単語である複合共起
語を収集し、この収集した複合共起語の重みからなる共
起ベクトルを参照し（ステップＳ１１）、それぞれの単
語Ａ，Ｂの共起ベクトルを作成する（ステップＳ１
３）。それから、各単語Ａ，Ｂの共起ベクトルの要素を
比較し（ステップＳ１５）、両単語Ａ，Ｂの類似度ｓｉ
ｍ（Ａ，Ｂ）を計算する（ステップＳ１７）。

【００２２】更に詳しく説明すると、本実施形態の単語
の類似性判別方法では、まず、類似判別を行う単語につ
いて、それらと一緒に複合語を構成する単語である複合
共起語を予め集める。複合共起語としては、人手で思い
つく単語を入力したり、辞書を用いるなど、どのような
方法であっても構わない。例えば、単語「テレビ」なら
ば、これを含む複合語として、「テレビ局」、「テレビ
中継」、「テレビ鑑賞」など種々存在し、対応する「テ
レビ」との複合共起語は、「局」「中継」、「鑑賞」と
なる。

【００２３】単語の共起ベクトルでは、これら複合共起
語の重みを要素とする。重みとしては、値が大きな程重
要であればどのような値であっても構わない。例えば、
複合語を構成する複合共起語の重みは１、構成しない複
合共起語を０とすることができる。このようにして単語
の共起ベクトルを作成する。図３は、単語「電話」、
「テレビ」、「ラジオ」の複合共起語の共起ベクトルの
一例である。

【００２４】このような共起ベクトルを用いて単語の類
似度を求める。２つの単語の類似度としては、共起ベク
トルの同じ要素の重みを比較し、要素の重みの分布が近
いほど値が大きくなるようなものであれば、どのような
ものであっても構わない。例えば、同じ要素の重みが共
に正の値を取る場合には１を加算する方法や、同じ要素
の重みの平均を加算する方法、値が小さな重みを加算す
る方法など、種々考えられる。ここでは、要素の重みの
積の和を類似度とする。図３を用いて「テレビ」と「電
話」の類似度を計算すると、１×０＋１×０＋１×１＋
１×１＝２となり、「テレビ」と「ラジオ」の類似度
は、１×１＋１×１＋１×１＋１×１＝４となり、「テ
レビ」は、「電話」よりも「ラジオ」に類似していると
判別される。

【００２５】次に、本発明の第２の実施形態について説
明する。第２の実施形態は、上述した第１の実施形態に
おける単語の複合共起語の共起ベクトルを自然言語で記
述されたテキストであるコーパスの構文解析により自動
的に取得するものである。

【００２６】すなわち、本実施形態では、コーパス中の
各文において、文中の単語の品詞および単語間の文法的
関係を解析する構文解析を行う。構文解析手法として
は、複合語を分割して表示するようなものであれば、ど
のようなものであっても構わない。例えば、「私はテレ
ビ局を見学する。」という文に対し、構文解析を行い、主語：「私」、述語：「見学する」、目的語：「テレビ
局」、名詞：「私」、「テレビ」、「局」、動詞：「見
学する」と解析された場合、目的語「テレビ局」が名詞「テレ
ビ」と「局」に分割され、複合語を構成していると判定
されるので、この判定結果に基づき、単語「局」が「テ
レビ」に対する複合共起語として抽出され、これにより
「テレビ」の共起ベクトルの「局」の要素の重みに１を
加算する。すなわち、この抽出した複合共起語の出現頻
度を共起ベクトルの重みとする。

【００２７】次に、本発明の第３の実施形態について説
明する。第３の実施形態は、上述した第１の実施形態に
おける単語の複合共起語の共起ベクトルをコーパスの形
態素解析により自動的に取得するものである。

【００２８】すなわち、本実施形態では、コーパス中の
各文において、文中の単語およびその品詞を解析する形
態素解析を行う。解析結果について、名詞と判定された
単語が連続して現れる場合は、それらが複合語共起の関
係にある可能性が高く、互いを近似的に複合語共起して
いるとみなす。この場合に、互いの単語の共起ベクトル
について、他方の要素の重みを加算することにより、共
起ベクトルをコーパスより作成する。

【００２９】実際の例について、説明する。文「私はテ
レビ局を見学する。」について、形態素解析を行った結
果が、私（名詞）−は（助詞）−、（読点）−テレビ（名詞）
−局（名詞）−を（助詞）−見学する（動詞）−。（句
点）であった場合、連続して出現する名詞「テレビ」と
「局」を、複合語共起の関係と判断し、「テレビ」の共
起ベクトルの要素「局」の重みに１を加算し、「局」の
共起ベクトルの要素「テレビ」の重みに１を加算する。

【００３０】

【発明の効果】以上説明したように、本発明によれば、
各単語について複合共起語を収集し、この収集した複合
共起語の重みからなる共起ベクトルを作成し、２つの単
語の各々の複合共起語の共起ベクトルを比較して類似度
を計算するので、従来の類似性判別に加えて更に広い範
囲における単語間の関係をカバーした類似性の判別を行
うことができ、類似性判別精度を向上することができ
る。

【００３１】また、本発明によれば、自然言語で記述さ
れたテキストであるコーパスを構文解析して複合共起語
を抽出し、この複合共起語の出現頻度を共起ベクトルの
重みとするので、複合語および複合共起語を自動的にコ
ーパスから抽出することができ、効率化を図ることがで
きる。

【００３２】更に、本発明によれば、自然言語で記述さ
れたテキストであるコーパスを形態素解析し、連続して
出現する名詞の単語を複合共起語として抽出し、この複
合共起語の出現頻度を共起ベクトルの重みとするので、
近似的な複合語および複合共起語の判定を行い、共起ベ
クトルのコーパスからの獲得を高速に行うことができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る単語の類似性判
別方法の処理手順を示すフローチャートである。

【図２】名詞に対して述語として現れる動詞の出現頻度
を重みとした共起ベクトルの例を示す図である。

【図３】「電話」「テレビ」「ラジオ」等の複合共起語
の共起ベクトルの一例を示す図である。

Claims

【特許請求の範囲】

【請求項１】２つの単語の類似度を計算する単語の類
似性判別方法であって、各単語それぞれについて一緒に複合語を構成し得る単語
である複合共起語を収集し、この収集した複合共起語の重みからなる共起ベクトルを
作成し、類似度を計算しようとする２つの単語の各々の複合共起
語の共起ベクトルを比較して類似度を計算することを特
徴とする単語の類似性判別方法。
【請求項２】前記複合共起語を収集する処理は、自然
言語で記述されたテキストであるコーパスを構文解析し
て複合共起語を抽出し、この抽出した複合共起語の出現
頻度を共起ベクトルの重みとすることを特徴とする請求
項１記載の単語の類似性判別方法。
【請求項３】前記複合共起語を収集する処理は、自然
言語で記述されたテキストであるコーパスを形態素解析
し、連続して出現する名詞の単語を複合共起語として抽
出し、この抽出した複合共起語の出現頻度を共起ベクト
ルの重みとすることを特徴とする請求項１記載の単語の
類似性判別方法。
【請求項４】２つの単語の類似度を計算する単語の類
似性判別プログラムを記録した記録媒体であって、各単語それぞれについて一緒に複合語を構成し得る単語
である複合共起語を収集し、この収集した複合共起語の重みからなる共起ベクトルを
作成し、類似度の計算しようとする２つの単語の各々の複合共起
語の共起ベクトルを比較して類似度を計算することを特
徴とする単語の類似性判別プログラムを記録した記録媒
体。
【請求項５】前記複合共起語を収集する処理は、自然
言語で記述されたテキストであるコーパスを構文解析し
て複合共起語を抽出し、この抽出した複合共起語の出現
頻度を共起ベクトルの重みとすることを特徴とする請求
項４記載の単語の類似性判別プログラムを記録した記録
媒体。
【請求項６】前記複合共起語を収集する処理は、自然
言語で記述されたテキストであるコーパスを形態素解析
し、連続して出現する名詞の単語を複合共起語として抽
出し、この抽出した複合共起語の出現頻度を共起ベクト
ルの重みとすることを特徴とする請求項４記載の単語の
類似性判別プログラムを記録した記録媒体。