JP6427466B2

JP6427466B2 - 同義語ペア獲得装置、方法、及びプログラム

Info

Publication number: JP6427466B2
Application number: JP2015106871A
Authority: JP
Inventors: いつみ斉藤; 九月貞光; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2015-05-26
Filing date: 2015-05-26
Publication date: 2018-11-21
Anticipated expiration: 2035-05-26
Also published as: JP2016224482A

Description

本発明は、同義語ペア獲得装置、方法、及びプログラムに係り、特に、同義語ペアを獲得するための同義語ペア獲得装置、方法、及びプログラムに関する。

従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するための手法が提案されている。教師データを用いた手法としては、非特許文献１及び非特許文献２に記載されている手法が挙げられる。

教師データを用いない手法としては、非特許文献３及び非特許文献４に記載されている手法が挙げられる。

岡崎直観, 辻井潤一，"アライメント識別モデルを用いた略語定義の自動獲得". 言語処理学会第14回年次大会 (NLP2008), pp. 139-142 藤沼祥成, 横野光, 相澤彰子，"Twitter（Ｒ）上の「おはよう」を例とした崩れた表記の検出と分析." 第27 回人工知能学会全国大会, 2013.06 増山毅司, 関根聡，"大規模コーパスからのカタカナ語の表記の揺れリストの自動構築"，言語処理学会第14回年次大会 (NLP2004) 池田和史，柳原正，松本一則，滝嶋康弘，"くだけた表現を高精度に解析するための正規化ルール自動生成手法"，情報処理学会論文誌，vol3. No.3 pp.68-77, 2010 Kudo,T., Japanese Morphological Analyzer,インターネット＜URL:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html＞

しかし、非特許文献１及び非特許文献２に記載の教師データを用いた手法により崩れ表記語を抽出する場合、Ｗｅｂデータから、図７のような正解ペアを人手で作成する必要があり、正解ペアの生成コストが高いという課題がある。

また、教師データを用いない手法に基づく場合、獲得候補となる崩れ語の候補が限られた候補（カタカナ語，既存解析器で未知語となった語等）に限られており、多様な崩れ表記を獲得することができないという課題がある。これは、既存解析器では崩れ表記語は誤って解析されてしまうことが多く、多様な崩れ表記語を獲得することが困難なためである。なぜならば、日本語は単語間にスペースなどの区切りが存在しないため、一般に存在するテキストにおいては形態素の正しい区切り位置を解析することが困難である。また、Ｗｅｂ上には、ひらがなや漢字とひらがな、カタカナとひらがな等で書かれる崩れ表記語が多数存在しており、解析が困難である。例えば、「すげー」、「やば」、「さみい」、「サムい」、「寒っ」等である。また、図８に非特許文献５に記載のMecab（IPAdic）を用いて崩れ表記語を含む文を解析した結果の一例を示す。

本発明は、上記問題点を解決するために成されたものであり、効率よく、同義語ペアを獲得することができる同義語ペア獲得装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る同義語ペア獲得装置は、文書から、正規表記語、又は前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である複数の単語分割候補を生成する単語分割候補生成部と、前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算する意味ベクトル計算部と、正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得する同義語ペア獲得部と、を含んで構成されている。

また、第１の発明に係る同義語ペア獲得装置において、前記同義語ペア獲得部は、正規表記語である前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得し、選択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するようにしてもよい。

第２の発明に係る同義語ペア獲得方法は、単語分割候補生成部が、文書から、正規表記語、又は前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である複数の単語分割候補を生成するステップと、意味ベクトル計算部が、前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算するステップと、同義語ペア獲得部が、正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するステップと、を含んで実行することを特徴とする。

また、第２の発明に係る同義語ペア獲得方法は、前記同義語ペア獲得部が獲得するステップは、正規表記語である前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得し、選択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記単語分割候補を、前記複数の単語分割候補から選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するようにしてもよい。

第３の発明に係るプログラムは、第１の発明に係る同義語ペア獲得装置の各部として機能させるためのプログラムである。

本発明の同義語ペア獲得装置、方法、及びプログラムによれば、文書から、正規表記語、又は崩れ表記語である複数の単語分割候補を生成し、複数の単語分割候補に基づいて、複数の単語分割候補の各々について、単語の意味ベクトルを計算し、正規表記語である単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得することにより、効率よく、同義語ペアを獲得することができる、という効果が得られる。

本発明の実施の形態に係る同義語ペア獲得装置の構成を示すブロック図である。音類似度の一例を示す図である。同義語ペアの獲得の例を示す概念図である。正規表記語を起点として単語分割候補を選択する例を示す図である。選択された単語分割候補を起点として更に単語分割候補を選択する例を示す図である。本発明の実施の形態に係る同義語ペア獲得装置における同義語ペア獲得処理ルーチンを示すフローチャートである。正規表記語及び崩れ表記語の組み合わせの一例を示す図である。Ｍｅｃａｂを用いて崩れ表記語を含む文を解析した結果の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る同義語ペア獲得装置の構成＞

次に、本発明の実施の形態に係る同義語ペア獲得装置の構成について説明する。図１に示すように、本発明の実施の形態に係る同義語ペア獲得装置１００は、ＣＰＵと、ＲＡＭと、後述する同義語ペア獲得処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この同義語ペア獲得装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、崩れ表記語を含む文書からなる文書集合を受け付ける。

演算部２０は、辞書データベース２８と、単語分割候補生成部３０と、意味ベクトル計算部３２と、同義語ペア獲得部３４とを含んで構成されている。

辞書データベース２８には、辞書引きを行うために必要な辞書（読み、表記、品詞）が記憶されている。

単語分割候補生成部３０は、入力部１０により受け付けた文書集合の文書の各々から、正規表記語、又は正規表記語に対して揺らいだ表記の候補である崩れ表記語である複数の単語分割候補を生成する。

単語分割候補生成部３０は、具体的には、文書に対して、既存の単語分割手法である以下の第１の手法から第３の手法の各々を適用して単語分割候補を生成する。この際、辞書データベース２８に存在しない崩れ表記語についても区切り候補として出力できるような手法を用いる。

単語分割候補生成部３０は、文書集合に含まれる文書の各々に対して、第１の手法として、点推定を用いた単語分割手法を適用して単語分割候補の生成を行う。点推定を用いた単語分割手法では、文字ｎｇｒａｍ、文字種ｎｇｒａｍ等を素性とした文字間の区切りモデルを用いて、文書を複数の単語分割候補に分割する。

単語分割候補生成部３０は、文書集合に対して、第２の手法として、教師なし解析を用いた単語分割手法を適用して、単語分割候補の生成を行う。教師なし解析を用いた単語分割手法では、サンプリングした単語分割候補に対して出現頻度等を算出し、目的関数が最適化されるように、文書の各々を単語分割候補に分割する。

単語分割候補生成部３０は、文書集合に含まれる文書の各々に対して、第３の手法として、Ｍｅｃａｂ等による解析結果を取得し、あらかじめ定めたルールを元に一部結合させた単語分割候補の生成を行う。ルールとしては、例えば、未知語連続は結合する、名詞連続は結合する等である。なお、ルールとして以下の方法を用いてもよい。例えば、Ｔｗｉｔｔｅｒ（Ｒ）等から短い文を切り出して、単語分割候補とする場合には、短い文の切り出しは、複数の区切り文字（例えば、改行、記号的表現（「！」，「ｗ」，「♪」）、句読点（「、」，「。」）など）を設定し、短い文を区切り文字で分割するようにすればよい。このように設定することで、例えば「やっべぇぇｗｗｗｗｗｗｗｗｗｗｗ」という文であれば、「ｗ」以前の「やっべぇぇ」を単語分割候補として取得できる。また、「おっはよお♪ ってお昼だけど・・・今起きた・・・」という文であれば、「♪」以前の「おっはよお」が単語分割候補として取得できる。上記のようにして取得した文字数がｎ文字以下の文字列を形態素辞書に追加して解析を行うようにしてもよい。

意味ベクトル計算部３２は、単語分割候補生成部３０により生成された複数の単語分割候補に基づいて、複数の単語分割候補の各々について、単語の意味ベクトルを計算する。

意味ベクトル計算部３２は、具体的には、単語分割候補生成部３０により生成された複数の単語分割候補を列挙するように、単語区切りが付与された文書集合に対し、単語分割候補として出現した各単語の意味ベクトルを計算する。この際、各単語の意味ベクトルを求める手法としては既存の手法を用いることができる。例えば、非特許文献６に記載のｗｏｒｄ２ｖｅｃ等が代表的な手法として挙げられる。

［非特許文献６］：Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

同義語ペア獲得部３４は、正規表記語である単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度が閾値以上であって、かつ、単語の読みに基づいて計算される音類似度が閾値以上となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。同義語ペア獲得部３４は、更に、選択された単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度が閾値以上であって、かつ、単語の読みに基づいて計算される音類似度が閾値以上となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。図３に同義語ペア獲得部３４の処理の概念図を示す。

同義語ペア獲得部３４は、具体的には、まず正規表記語である単語分割候補の各々について、他の単語分割候補の各々との意味類似度の計算を行う。意味類似度は、意味ベクトル計算部３２において求めた単語ごとの意味ベクトルのコサイン類似度を用いて計算する。

同義語ペア獲得部３４は、次に、正規表記語である単語分割候補の各々について、他の単語分割候補との音類似度の計算を行う。本実施の形態では、音類似度として、音類似度距離を、単語分割候補の読みに基づいて計算する。ここで、漢字表記は読み推定を行い、カタカナ表記はひらがなに変換する。変換コストは次のように設定する。同一文字の変換コストは０とする。また、母音(小文字も含む（例：ぁ，ぃ，ぅ，ぇ，ぉ）)、促音（っ）、撥音（ん）、長音の削除はコスト０とする。ただし、単語の先頭における削除はコスト１として音類似度距離をカウントアップする。また、同行又は同列（日本語ひらがな50音表の同行又は同列を指す。濁音又は半濁音は濁音化又は半濁音化する前の文字と同一の位置として考える）文字の置換、母音-促音間の置換、母音‐長音間、母音‐母音間の変換はコスト０とする。例えば、「ぶ」又は「ぷ」→「ふ」というような同行又は同列の文字列（はひふへほうくすつぬむゆる）をコスト０とする。上記以外の変換はコスト１として音類似度距離をカウントアップする。図２に音類似度距離の計算例を示す。本実施の形態では、閾値以上の音類似度のものをフィルタリングするため、音類似度距離が閾値以下のものがフィルタリングされる。

次に、同義語ペア獲得部３４は、文書集合から得られた正規表記語の単語分割候補の各々について、以下に説明する第１の獲得処理及び第２の獲得処理を行って、同義語ペアを獲得する。同義語ペア獲得部３４の第１の獲得処理では、文書集合から得られた正規表記語の単語分割候補の各々について、以下の処理を行う。

まず、当該正規表記語の単語分割候補について、文書集合中に現れた他の単語分割候補から、他の単語分割候補との間の意味類似度が予め定めた閾値以上である単語分割候補をフィルタリングする。次に、フィルタリングされた単語分割候補から、当該正規表記語について、他の単語分割候補との音類似度が予め定めた閾値以上（音類似度距離が閾値以下）となる単語分割候補をフィルタリングする。更に、フィルタリングされた単語分割候補から、辞書データベース２８において、当該単語分割候補の表記が辞書中の正規表記語として存在し、かつ辞書中の当該正規表記語の品詞と同一の品詞であるものを削除する。そして、同義語ペア獲得部３４は、削除後の単語分割候補を選択する。このようにして、当該正規表記語の単語分割候補と選択した単語分割候補とのペアを、同義語ペアとして獲得とする。図４に第１の獲得処理の一例を示す。図４では、正規表記語の単語分割候補「さむい」を起点として単語分割候補を選択している。

次に、同義語ペア獲得部３４は、当該正規表記語の単語分割候補について、以下のように、上記の第１の獲得処理で当該正規表記語の単語分割候補について同義語ペアとして選択された単語分割候補を起点とした、第２の獲得処理を行う。まず、上記の第１の獲得処理で当該正規表記語の単語分割候補について同義語ペアとして選択された単語分割候補の各々について、他の単語分割候補との間の意味類似度の計算、及び音類似度距離の計算を行う。次に、当該正規表記語の単語分割候補について同義語ペアとして選択された単語分割候補の各々について、以下の処理を行う。

当該単語分割候補について、文書集合中に現れた他の単語分割候補の各々との間の意味類似度が予め定めた閾値以上である単語分割候補をフィルタリングする。次に、フィルタリングされた単語分割候補から、当該単語分割候補との音類似度距離が予め定めた閾値以下となる単語分割候補をフィルタリングする。更に、フィルタリングされた単語分割候補から、辞書データベース２８において、単語分割候補の表記が辞書中の正規表記語として存在し、かつ辞書中の当該正規表記語の品詞と同一の品詞であるものを削除する。そして、同義語ペア獲得部３４は、削除後の単語分割候補を選択する。このようにして、当該正規表記語の単語分割候補と選択した単語分割候補とのペアを、同義語ペアとして獲得とする。図５に第２の獲得処理の一例を示す。図５では、第１の獲得処理で正規表記語の単語分割候補「さむい」に対して選択された単語分割候補「さみぃ」を起点として単語分割候補を選択している。更に、同義語ペア獲得部３４は、上記第２の獲得処理で選択された単語分割候補を起点として、上記第２の獲得処理と同じ処理を予め定めた回数繰り返し、当該正規表記語の単語分割候補と選択した単語分割候補とのペアを、同義語ペアとして獲得する。

＜本発明の実施の形態に係る同義語ペア獲得装置の作用＞

次に、本発明の実施の形態に係る同義語ペア獲得装置１００の作用について説明する。入力部１０において崩れ表記語を含む文書からなる文書集合を受け付けると、同義語ペア獲得装置１００は、図６に示す同義語ペア獲得処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた文書集合の文書の各々から複数の単語分割候補を生成する。

次に、ステップＳ１０２では、ステップＳ１００で生成された複数の単語分割候補に基づいて、単語分割候補の各々について、単語の意味ベクトルを計算する。

ステップＳ１０４では、ステップＳ１００で生成された正規表記語である単語分割候補の各々について、ステップＳ１０２で計算された意味ベクトルに基づいて、他の単語分割候補の各々との意味類似度を計算する。

ステップＳ１０６では、ステップＳ１００で生成された正規表記語である単語分割候補の各々について、単語分割候補の読みに基づいて他の単語分割候補の各々との音類似度距離を計算する。

ステップＳ１０８では、正規表記語である単語分割候補の各々について、ステップＳ１０４で計算された意味類似度が閾値以上であって、かつ、ステップＳ１０６で計算された音類似度距離が閾値以下となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。

ステップＳ１１０では、正規表記語である単語分割候補の各々に対し、ステップＳ１０８又は前回のステップＳ１１０で選択された単語分割候補の各々について、ステップＳ１０４と同様に計算される意味類似度が閾値以上であって、かつ、ステップＳ１０６と同様に計算される音類似度距離が閾値以下となる、単語分割候補を、複数の単語分割候補から選択し、当該正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得する。

ステップＳ１１２では、ステップＳ１１０の処理を予め定めた回数繰り返したかを判定し、繰り返していればステップＳ１１４へ移行し、繰り返していなければステップＳ１１０へ戻って処理を繰り返す。

ステップＳ１１４では、ステップＳ１０８及びステップＳ１１０で獲得された同義語ペアを出力部５０に出力して処理を終了する。

以上説明したように、本発明の実施の形態に係る同義語ペア獲得装置によれば、文書から、正規表記語、又は崩れ表記語である複数の単語分割候補を生成し、複数の単語分割候補に基づいて、複数の単語分割候補の各々について、単語の意味ベクトルを計算し、正規表記語である単語分割候補の各々について、意味ベクトルに基づいて計算される意味類似度が閾値以上であって、かつ、単語の読みに基づいて計算される音類似度距離が閾値以下となる、単語分割候補を、複数の単語分割候補から選択し、正規表記語である単語分割候補と、選択された単語分割候補とのペアを、同義語ペアとして獲得することにより、効率よく、同義語ペアを獲得することができる。

また、意味類似度と音類似度の双方を考慮することにより、精度よく同義候補のペアを獲得することができる。

また、正規表記語を起点とした獲得だけではフィルタされてしまった単語分割候補に対しても、選択された単語分割候補を起点として新たな同義語ペアを獲得することでより多様な崩れ表記語を獲得することが可能になる。

また、従来手法に比べ、多様な崩れ表記語の正しい区切りとして単語分割候補を生成することが可能になる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０入力部
２０演算部
２８辞書データベース
３０単語分割候補生成部
３２意味ベクトル計算部
３４同義語ペア獲得部
５０出力部
１００同義語ペア獲得装置

Claims

文書から、正規表記語である単語分割候補、及び前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である単語分割候補を含む複数の単語分割候補を生成する単語分割候補生成部と、
前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算する意味ベクトル計算部と、
正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得する同義語ペア獲得部と、
を含む同義語ペア獲得装置。
前記同義語ペア獲得部は、
選択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて更に選択し、正規表記語である前記単語分割候補と、更に選択された前記単語分割候補とのペアを、同義語ペアとして獲得する請求項１に記載の同義語ペア獲得装置。
単語分割候補生成部が、文書から、正規表記語である単語分割候補、及び前記正規表記語に対して揺らいだ表記の候補である崩れ表記語である単語分割候補を含む複数の単語分割候補を生成するステップと、
意味ベクトル計算部が、前記単語分割候補生成部により生成された前記複数の単語分割候補に基づいて、前記複数の単語分割候補の各々について、単語の意味ベクトルを計算するステップと、
同義語ペア獲得部が、正規表記語である前記単語分割候補の各々について、前記意味ベクトルに基づいて計算される意味類似度と、単語の読みに基づいて計算される音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて選択し、正規表記語である前記単語分割候補と、選択された前記単語分割候補とのペアを、同義語ペアとして獲得するステップと、
を含む同義語ペア獲得方法。
前記同義語ペア獲得部が獲得するステップは、
選択された前記単語分割候補の各々について、前記意味類似度と前記音類似度とに基づいて、前記複数の単語分割候補をフィルタリングし、フィルタリングされた前記複数の単語分割候補から、予め定められた前記正規表記語と同一の表記であって、前記同一の表記の前記正規表記語と同一の品詞である前記単語分割候補を除いて更に選択し、正規表記語である前記単語分割候補と、更に選択された前記単語分割候補とのペアを、同義語ペアとして獲得する請求項３に記載の同義語ペア獲得方法。
コンピュータを、請求項１又は請求項２に記載の同義語ペア獲得装置の各部として機能させるためのプログラム。