JP2000137718A - 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 - Google Patents

単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Info

Publication number
JP2000137718A
JP2000137718A JP10313588A JP31358898A JP2000137718A JP 2000137718 A JP2000137718 A JP 2000137718A JP 10313588 A JP10313588 A JP 10313588A JP 31358898 A JP31358898 A JP 31358898A JP 2000137718 A JP2000137718 A JP 2000137718A
Authority
JP
Japan
Prior art keywords
word
occurrence
words
compound
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10313588A
Other languages
English (en)
Inventor
Kaname Kasahara
要 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10313588A priority Critical patent/JP2000137718A/ja
Publication of JP2000137718A publication Critical patent/JP2000137718A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複合共起語を抽出し、その共起ベクトルを比
較することにより十分な精度を持って類似性を判別し得
る単語の類似性判別方法および単語の類似性判別プログ
ラムを記録した記録媒体を提供する。 【解決手段】 類似度を比較しようとする2つの単語
A,Bに類似度を比較しようとすると、まず単語A,B
のそれぞれについて一緒に複合語を構成し得る単語であ
る複合共起語を収集し、この収集した複合共起語の重み
からなる共起ベクトルを参照し(ステップS11)、そ
れぞれの単語A,Bの共起ベクトルを作成する(ステッ
プS13)。それから、各単語A,Bの共起ベクトルの
要素を比較し(ステップS15)、両単語A,Bの類似
度sim(A,B)を計算する(ステップS17)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、2つの単語の似て
いる度合である類似度を計算する単語の類似性判別方法
および単語の類似性判別プログラムを記録した記録媒体
に関する。
【0002】
【従来の技術】近年、インターネットの発展により、膨
大なテキストデータを閲覧することが可能となってい
る。また、CR−ROM等の記録媒体のコストの低下に
より、個人であっても、容易に多量のテキストデータを
保存できるようになっている。そのため膨大なテキスト
データの中から必要な情報を取得する検索が重視されて
いる。
【0003】検索を行う際には、ユーザの入力単語と適
合するテキストデータをいかにして探すかが問題であ
り、一般的には、テキスト中の単語と比較することが行
われる。その場合、ユーザの入力単語の類義語や類似語
についても比較することにより、従来得られなかった適
切なテキストデータを得ることができる。そのために
は、単語同士の似ている度合を判定する類似性判別が必
須になる。
【0004】類似性判別では、似ている単語同士を分類
した類語辞典が一般的に用いられる。この類語辞典は、
人手で作成されるので時間とコストを要するため、新語
や流行語等、含まれてない単語を適宜追加することは困
難である。そのための技術の1つとして、膨大なテキス
トデータであるコーパスを用いて類似性判別が行われて
いる。
【0005】コーパスを用いた類似性判別では、文中の
単語間の用いられ方を判定し、ある条件で一緒に用いら
れる単語である共起語の出現頻度を調査し、その値を比
較することが一般に行われている。その一例を示す。ま
ずコーパス中の文を構文解析し、述語と目的語の関係を
調べそれらを共起語とする。例えば、文「馬を飼育す
る。」ならば、「飼育する」が「馬」の共起語となる。
その結果を集計し、名詞に対し述語として現れる動詞の
出現頻度を重みとした図2のようなベクトルを用意す
る。類似度の計算は例えば、共起ベクトルの内積によっ
て行われる。この場合、馬と豚の類似度は30、馬と新
聞の類似度は6となり、馬は新聞よりも豚に似ていると
判別される。共起語としてはこれまで、上記の目的語に
対する述語以外に、述語に対する主語、形容詞に対する
名詞等が提案されている。
【0006】コーパスに基づく類似性判別では、新語や
流行語であっても、それを含むコーパスを利用すること
により、単語の共起ベクトルを構成することが可能であ
り、新しい単語についても類似性判別が可能となってい
る。
【0007】
【発明が解決しようとする課題】上述したコーパスに基
づく従来の類似性判別方法では、述語に対する主語、述
語に対する目的語などを共起語としているが、これだけ
では、文中のすべての単語間の関係をカバーすることが
できないので、共起ベクトルによる類似性判別の精度は
十分なものでないという問題がある。
【0008】本発明は、上記に鑑みてなされたもので、
その目的とするところは、複合共起語を抽出し、その共
起ベクトルを比較することにより十分な精度を持って類
似性を判別し得る単語の類似性判別方法および単語の類
似性判別プログラムを記録した記録媒体を提供すること
にある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、2つの単語の類似度を計
算する単語の類似性判別方法であって、各単語それぞれ
について一緒に複合語を構成し得る単語である複合共起
語を収集し、この収集した複合共起語の重みからなる共
起ベクトルを作成し、類似度を計算しようとする2つの
単語の各々の複合共起語の共起ベクトルを比較して類似
度を計算することを要旨とする。
【0010】請求項1記載の本発明にあっては、各単語
について複合共起語を収集し、この収集した複合共起語
の重みからなる共起ベクトルを作成し、2つの単語の各
々の複合共起語の共起ベクトルを比較して類似度を計算
するため、従来の類似性判別に加えて更に広い範囲にお
ける単語間の関係をカバーした類似性の判別を行うこと
ができ、類似性判別精度を向上することができる。
【0011】また、請求項2記載の本発明は、請求項1
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを構
文解析して複合共起語を抽出し、この抽出した複合共起
語の出現頻度を共起ベクトルの重みとすることを要旨と
する。
【0012】請求項2記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを構文解析して
複合共起語を抽出し、この複合共起語の出現頻度を共起
ベクトルの重みとするため、複合語および複合共起語を
自動的にコーパスから抽出することができ、効率化を図
ることができる。
【0013】更に、請求項3記載の本発明は、請求項1
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを形
態素解析し、連続して出現する名詞の単語を複合共起語
として抽出し、この抽出した複合共起語の出現頻度を共
起ベクトルの重みとすることを要旨とする。
【0014】請求項3記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを形態素解析
し、連続して出現する名詞の単語を複合共起語として抽
出し、この複合共起語の出現頻度を共起ベクトルの重み
とするため、近似的な複合語および複合共起語の判定を
行い、共起ベクトルのコーパスからの獲得を高速に行う
ことができる。
【0015】請求項4記載の本発明は、2つの単語の類
似度を計算する単語の類似性判別プログラムを記録した
記録媒体であって、各単語それぞれについて一緒に複合
語を構成し得る単語である複合共起語を収集し、この収
集した複合共起語の重みからなる共起ベクトルを作成
し、類似度の計算しようとする2つの単語の各々の複合
共起語の共起ベクトルを比較して類似度を計算する単語
の類似性判別プログラムを記録媒体に記録することを要
旨とする。
【0016】請求項4記載の本発明にあっては、各単語
について複合共起語を収集し、この収集した複合共起語
の重みからなる共起ベクトルを作成し、2つの単語の各
々の複合共起語の共起ベクトルを比較して類似度を計算
する単語の類似性判別プログラムを記録媒体に記録する
ため、該記録媒体を用いて、その流通性を高めることが
できる。
【0017】また、請求項5記載の本発明は、請求項4
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを構
文解析して複合共起語を抽出し、この抽出した複合共起
語の出現頻度を共起ベクトルの重みとすることを要旨と
する。
【0018】請求項5記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを構文解析して
複合共起語を抽出し、この複合共起語の出現頻度を共起
ベクトルの重みとする単語の類似性判別プログラムを記
録媒体に記録するため、該記録媒体を用いて、その流通
性を高めることができる。
【0019】更に、請求項6記載の本発明は、請求項4
記載の発明において、前記複合共起語を収集する処理
が、自然言語で記述されたテキストであるコーパスを形
態素解析し、連続して出現する名詞の単語を複合共起語
として抽出し、この抽出した複合共起語の出現頻度を共
起ベクトルの重みとする単語の類似性判別プログラムを
記録媒体に記録することを要旨とする。
【0020】請求項6記載の本発明にあっては、自然言
語で記述されたテキストであるコーパスを形態素解析
し、連続して出現する名詞の単語を複合共起語として抽
出し、この複合共起語の出現頻度を共起ベクトルの重み
とする単語の類似性判別プログラムを記録媒体に記録す
るため、該記録媒体を用いて、その流通性を高めること
ができる。
【0021】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。図1は、本発明の第1の実施
形態に係る単語の類似性判別方法の処理手順を示すフロ
ーチャートである。同図に示す単語の類似性判別方法に
おいて類似度を比較しようとする2つの単語A,Bに類
似度を比較しようとすると、まず単語A,Bのそれぞれ
について一緒に複合語を構成し得る単語である複合共起
語を収集し、この収集した複合共起語の重みからなる共
起ベクトルを参照し(ステップS11)、それぞれの単
語A,Bの共起ベクトルを作成する(ステップS1
3)。それから、各単語A,Bの共起ベクトルの要素を
比較し(ステップS15)、両単語A,Bの類似度si
m(A,B)を計算する(ステップS17)。
【0022】更に詳しく説明すると、本実施形態の単語
の類似性判別方法では、まず、類似判別を行う単語につ
いて、それらと一緒に複合語を構成する単語である複合
共起語を予め集める。複合共起語としては、人手で思い
つく単語を入力したり、辞書を用いるなど、どのような
方法であっても構わない。例えば、単語「テレビ」なら
ば、これを含む複合語として、「テレビ局」、「テレビ
中継」、「テレビ鑑賞」など種々存在し、対応する「テ
レビ」との複合共起語は、「局」「中継」、「鑑賞」と
なる。
【0023】単語の共起ベクトルでは、これら複合共起
語の重みを要素とする。重みとしては、値が大きな程重
要であればどのような値であっても構わない。例えば、
複合語を構成する複合共起語の重みは1、構成しない複
合共起語を0とすることができる。このようにして単語
の共起ベクトルを作成する。図3は、単語「電話」、
「テレビ」、「ラジオ」の複合共起語の共起ベクトルの
一例である。
【0024】このような共起ベクトルを用いて単語の類
似度を求める。2つの単語の類似度としては、共起ベク
トルの同じ要素の重みを比較し、要素の重みの分布が近
いほど値が大きくなるようなものであれば、どのような
ものであっても構わない。例えば、同じ要素の重みが共
に正の値を取る場合には1を加算する方法や、同じ要素
の重みの平均を加算する方法、値が小さな重みを加算す
る方法など、種々考えられる。ここでは、要素の重みの
積の和を類似度とする。図3を用いて「テレビ」と「電
話」の類似度を計算すると、1×0+1×0+1×1+
1×1=2となり、「テレビ」と「ラジオ」の類似度
は、1×1+1×1+1×1+1×1=4となり、「テ
レビ」は、「電話」よりも「ラジオ」に類似していると
判別される。
【0025】次に、本発明の第2の実施形態について説
明する。第2の実施形態は、上述した第1の実施形態に
おける単語の複合共起語の共起ベクトルを自然言語で記
述されたテキストであるコーパスの構文解析により自動
的に取得するものである。
【0026】すなわち、本実施形態では、コーパス中の
各文において、文中の単語の品詞および単語間の文法的
関係を解析する構文解析を行う。構文解析手法として
は、複合語を分割して表示するようなものであれば、ど
のようなものであっても構わない。例えば、「私はテレ
ビ局を見学する。」という文に対し、構文解析を行い、 主語:「私」、述語:「見学する」、目的語:「テレビ
局」、名詞:「私」、「テレビ」、「局」、動詞:「見
学する」 と解析された場合、目的語「テレビ局」が名詞「テレ
ビ」と「局」に分割され、複合語を構成していると判定
されるので、この判定結果に基づき、単語「局」が「テ
レビ」に対する複合共起語として抽出され、これにより
「テレビ」の共起ベクトルの「局」の要素の重みに1を
加算する。すなわち、この抽出した複合共起語の出現頻
度を共起ベクトルの重みとする。
【0027】次に、本発明の第3の実施形態について説
明する。第3の実施形態は、上述した第1の実施形態に
おける単語の複合共起語の共起ベクトルをコーパスの形
態素解析により自動的に取得するものである。
【0028】すなわち、本実施形態では、コーパス中の
各文において、文中の単語およびその品詞を解析する形
態素解析を行う。解析結果について、名詞と判定された
単語が連続して現れる場合は、それらが複合語共起の関
係にある可能性が高く、互いを近似的に複合語共起して
いるとみなす。この場合に、互いの単語の共起ベクトル
について、他方の要素の重みを加算することにより、共
起ベクトルをコーパスより作成する。
【0029】実際の例について、説明する。文「私はテ
レビ局を見学する。」について、形態素解析を行った結
果が、 私(名詞)−は(助詞)−、(読点)−テレビ(名詞)
−局(名詞)−を(助詞)−見学する(動詞)−。(句
点) であった場合、連続して出現する名詞「テレビ」と
「局」を、複合語共起の関係と判断し、「テレビ」の共
起ベクトルの要素「局」の重みに1を加算し、「局」の
共起ベクトルの要素「テレビ」の重みに1を加算する。
【0030】
【発明の効果】以上説明したように、本発明によれば、
各単語について複合共起語を収集し、この収集した複合
共起語の重みからなる共起ベクトルを作成し、2つの単
語の各々の複合共起語の共起ベクトルを比較して類似度
を計算するので、従来の類似性判別に加えて更に広い範
囲における単語間の関係をカバーした類似性の判別を行
うことができ、類似性判別精度を向上することができ
る。
【0031】また、本発明によれば、自然言語で記述さ
れたテキストであるコーパスを構文解析して複合共起語
を抽出し、この複合共起語の出現頻度を共起ベクトルの
重みとするので、複合語および複合共起語を自動的にコ
ーパスから抽出することができ、効率化を図ることがで
きる。
【0032】更に、本発明によれば、自然言語で記述さ
れたテキストであるコーパスを形態素解析し、連続して
出現する名詞の単語を複合共起語として抽出し、この複
合共起語の出現頻度を共起ベクトルの重みとするので、
近似的な複合語および複合共起語の判定を行い、共起ベ
クトルのコーパスからの獲得を高速に行うことができ
る。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る単語の類似性判
別方法の処理手順を示すフローチャートである。
【図2】名詞に対して述語として現れる動詞の出現頻度
を重みとした共起ベクトルの例を示す図である。
【図3】「電話」「テレビ」「ラジオ」等の複合共起語
の共起ベクトルの一例を示す図である。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 2つの単語の類似度を計算する単語の類
    似性判別方法であって、 各単語それぞれについて一緒に複合語を構成し得る単語
    である複合共起語を収集し、 この収集した複合共起語の重みからなる共起ベクトルを
    作成し、 類似度を計算しようとする2つの単語の各々の複合共起
    語の共起ベクトルを比較して類似度を計算することを特
    徴とする単語の類似性判別方法。
  2. 【請求項2】 前記複合共起語を収集する処理は、自然
    言語で記述されたテキストであるコーパスを構文解析し
    て複合共起語を抽出し、この抽出した複合共起語の出現
    頻度を共起ベクトルの重みとすることを特徴とする請求
    項1記載の単語の類似性判別方法。
  3. 【請求項3】 前記複合共起語を収集する処理は、自然
    言語で記述されたテキストであるコーパスを形態素解析
    し、連続して出現する名詞の単語を複合共起語として抽
    出し、この抽出した複合共起語の出現頻度を共起ベクト
    ルの重みとすることを特徴とする請求項1記載の単語の
    類似性判別方法。
  4. 【請求項4】 2つの単語の類似度を計算する単語の類
    似性判別プログラムを記録した記録媒体であって、 各単語それぞれについて一緒に複合語を構成し得る単語
    である複合共起語を収集し、 この収集した複合共起語の重みからなる共起ベクトルを
    作成し、 類似度の計算しようとする2つの単語の各々の複合共起
    語の共起ベクトルを比較して類似度を計算することを特
    徴とする単語の類似性判別プログラムを記録した記録媒
    体。
  5. 【請求項5】 前記複合共起語を収集する処理は、自然
    言語で記述されたテキストであるコーパスを構文解析し
    て複合共起語を抽出し、この抽出した複合共起語の出現
    頻度を共起ベクトルの重みとすることを特徴とする請求
    項4記載の単語の類似性判別プログラムを記録した記録
    媒体。
  6. 【請求項6】 前記複合共起語を収集する処理は、自然
    言語で記述されたテキストであるコーパスを形態素解析
    し、連続して出現する名詞の単語を複合共起語として抽
    出し、この抽出した複合共起語の出現頻度を共起ベクト
    ルの重みとすることを特徴とする請求項4記載の単語の
    類似性判別プログラムを記録した記録媒体。
JP10313588A 1998-11-04 1998-11-04 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 Pending JP2000137718A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10313588A JP2000137718A (ja) 1998-11-04 1998-11-04 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10313588A JP2000137718A (ja) 1998-11-04 1998-11-04 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000137718A true JP2000137718A (ja) 2000-05-16

Family

ID=18043131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10313588A Pending JP2000137718A (ja) 1998-11-04 1998-11-04 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000137718A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005131A1 (fr) * 2000-07-06 2002-01-17 Iiga Co., Ltd Dispositif de recherche
JP2012524314A (ja) * 2009-04-16 2012-10-11 株式会社東芝 データ検索およびインデクシングの方法および装置
JP2013137672A (ja) * 2011-12-28 2013-07-11 Fujitsu Ltd 言語処理プログラム、言語処理装置および言語処理方法
CN108171570A (zh) * 2017-12-15 2018-06-15 北京小度信息科技有限公司 一种数据筛选方法、装置及终端
WO2021084631A1 (ja) * 2019-10-29 2021-05-06 日本電信電話株式会社 情報処理装置、抽出方法および抽出プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002005131A1 (fr) * 2000-07-06 2002-01-17 Iiga Co., Ltd Dispositif de recherche
JP2012524314A (ja) * 2009-04-16 2012-10-11 株式会社東芝 データ検索およびインデクシングの方法および装置
US9223850B2 (en) 2009-04-16 2015-12-29 Kabushiki Kaisha Toshiba Data retrieval and indexing method and apparatus
JP2013137672A (ja) * 2011-12-28 2013-07-11 Fujitsu Ltd 言語処理プログラム、言語処理装置および言語処理方法
CN108171570A (zh) * 2017-12-15 2018-06-15 北京小度信息科技有限公司 一种数据筛选方法、装置及终端
CN108171570B (zh) * 2017-12-15 2021-04-27 北京星选科技有限公司 一种数据筛选方法、装置及终端
WO2021084631A1 (ja) * 2019-10-29 2021-05-06 日本電信電話株式会社 情報処理装置、抽出方法および抽出プログラム

Similar Documents

Publication Publication Date Title
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US10296584B2 (en) Semantic textual analysis
JP3266586B2 (ja) データ分析システム
CN108538286A (zh) 一种语音识别的方法以及计算机
KR101507637B1 (ko) 오역의 검출을 지원하는 장치 및 방법
JP2002245061A (ja) キーワード抽出
CN108153730A (zh) 一种多义词词向量训练方法及装置
JP2001084255A (ja) 文書検索装置および方法
CN108363700A (zh) 新闻标题的质量评估方法及装置
JP2000137718A (ja) 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体
CN109992647B (zh) 一种内容搜索方法及装置
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
Tejedor et al. Ontology-based retrieval of human speech
CN113987133A (zh) 一种融合tfidf和lda实现抽取式文本摘要方法
JP3985483B2 (ja) 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体
JPH03132872A (ja) 索引情報生成装置
CN112711695A (zh) 基于内容的搜索建议生成方法及装置
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
Mashina Application of statistical methods to solve the problem of enriching ontologies of developing subject areas
JP4213900B2 (ja) 文書分類装置と記録媒体
CN111814025A (zh) 一种观点提取方法及装置
JP5128328B2 (ja) 曖昧性評価装置およびプログラム
CN111444434A (zh) 一种互联网反馈评论的生成方法及系统
JP5142395B2 (ja) 関係情報抽出装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees