JP2018025956A

JP2018025956A - モデル作成装置、推定装置、方法、及びプログラム

Info

Publication number: JP2018025956A
Application number: JP2016157059A
Authority: JP
Inventors: いつみ斉藤; Itsumi Saito; 九月貞光; Kugatsu Sadamitsu; 久子浅野; Hisako Asano; 松尾　義博; Yoshihiro Matsuo; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-08-09
Filing date: 2016-08-09
Publication date: 2018-02-15
Anticipated expiration: 2036-08-09
Also published as: JP6558863B2

Abstract

【課題】正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる。【解決手段】単語分割部２４が、崩れ表記語を含む複数のテキストの各々について、テキストから単語の分割候補を複数生成する。意味ベクトル計算部２６が、生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。負例生成部２２が、複数の正規表記語が格納された辞書２１に基づいて、負例データを生成する。モデル作成部３０が、正例データの各々について、正例データが表すペアの意味の類似度を表す意味類似度を含む素性と、負例データの各々について、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。【選択図】図３

Description

本発明は、モデル作成装置、推定装置、方法、及びプログラムに関する。

従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するための手法が提案されている。教師データを用いた手法としては、非特許文献１及び非特許文献２に記載されている手法が挙げられる。非特許文献１では、略語ペアの獲得が行われる。また、非特許文献２では、特定単語の崩れ表記の獲得が行われる。

教師データを用いない手法としては、非特許文献３及び非特許文献４に記載されている手法が挙げられる。非特許文献３では、カタカナ表記揺れの獲得が行われる。また、非特許文献４では、既存解析器の出力結果における未知語に着目した崩れ表記（正規化ルール）の獲得が行われる。非特許文献５に記載の技術では、意味類似度と音類似度に基づく同義語ペアの獲得が行われる。

岡崎直観, 辻井潤一，"アライメント識別モデルを用いた略語定義の自動獲得". 言語処理学会第14回年次大会(NLP2008), pp. 139-142 藤沼祥成, 横野光, 相澤彰子，"Twitter（Ｒ）上の「おはよう」を例とした崩れた表記の検出と分析." 第27 回人工知能学会全国大会, 2013.06 増山毅司, 関根聡，"大規模コーパスからのカタカナ語の表記の揺れリストの自動構築"，言語処理学会第14回年次大会(NLP2004) 池田和史，柳原正，松本一則，滝嶋康弘，"くだけた表現を高精度に解析するための正規化ルール自動生成手法"，情報処理学会論文誌，vol3. No.3 pp.68-77, 2010 斉藤，貞光，浅野，松尾，"web上のテキストからの表記揺れ語獲得"，第22回言語処理学会年次大会予稿集

上記非特許文献５に記載の技術では、正規表記語と崩れ表記語との複数候補が列挙された文書集合から単語分割候補を複数取得し、得られた単語分割候補中に出現した正規表記語（辞書に存在する表記）と分割候補中に現れた崩れ表記語（辞書に存在しない表記）との間の意味類似度と音類似度とを計算しフィルタリングを行う。この場合、下記（１）、（２）が満たされるようにフィルタリングが行われる。

（１）正規表記語と崩れ表記語との意味類似度が予め定めた閾値以上であること
（２）正規表記語と崩れ表記語との音類似度が予め定めた閾値以上であること

なお、意味類似度は単語ごとの意味ベクトルのコサイン類似度を用いて計算される。また、音類似度距離は単語の読みに基づいて計算され、具体的には以下の（１）〜（３）に従って計算される。

（１）漢字表記は読み推定を行う
（２）カタカナ表記はひらがなに変換する
（３）コスト設定に基づいて音類似度が計算される。例えば、以下の（３−１）〜（３−４）に示すコスト設定例に応じて音類似度が計算される。

（３−１）同一文字の置換コストは０とする。
（３−２）母音、促音（っ）、撥音（ん）、長音の削除はコスト０とする。ただし、単語の先頭における削除はコスト１とする。
（３−３）同行・同列文字の置換、母音−促音間の置換、母音−長音間、母音−母音間の置換はコスト０とする。
（３−４）上記（３−１）〜（３−３）以外の変換はコスト１とする。
ただし、「母音」は、小文字も含む（ぁ，ぃ，ぅ，ぇ，ぉ）
また、「同行・同列」は、日本語ひらがな５０音表の同行、同列を指す。濁音・半濁音は濁音・半濁音化する前の文字と同一の位置として考える（例えば、ぶ、ぷ→「ふ」と同行同列（はひふへほうくすつぬむゆる）の文字列をコスト０とする）。

しかし、上記説明した技術における、意味類似度及び音類似度の閾値を用いたフィルタ手法を用いる場合、多様な素性を用いて正規表記語と崩れ表記語とのペアの識別を行うことが難しく、略語やフレーズの高精度な識別が困難という問題がある。略語やフレーズの識別が困難である例を例１，２に示す。

例１：セブン−セブンイレブン（正しいペア）
音類似度：０．５７、意味類似度：０．７６
例２：うれしい−嬉しいなあ（正しくないペア）
音類似度:０．８、意味類似度:０．８０

上記の例１、２に関しては、例２の方が音類似度、意味類似度がともに高いが、例１は正しいペア、例２は正しくないペアとして識別したい例である。

この場合、音類似度と意味類似度との閾値以外のルールを導入しなければ両者を正しく識別することはできない。しかし、個別の事例を見ながらルールを設定するのは高コストである。

本発明は、上記問題点を解決するために成されたものであり、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができるモデルを取得することができるモデル作成装置、方法、及びプログラムを提供することを目的とする。

また、本発明は、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる推定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係るモデル作成装置は、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算する意味ベクトル計算部と、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成する負例生成部と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成部と、を含んで構成されている。

第２の発明に係るモデル作成方法は、単語分割部、意味ベクトル計算部、負例生成部、及びモデル作成部を含むモデル作成装置におけるモデル作成方法であって、前記単語分割部が、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算するステップと、前記負例生成部が、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成するステップと、前記モデル作成部が、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するステップと、を含む。

第３の発明に係る推定装置は、複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、を含んで構成されている。

第４の発明に係る推定方法は、単語分割部、意味ベクトル計算部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、前記推定部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、を含む。

第５の発明に係る推定装置は、複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するランダムウォーク部と、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、を含んで構成されている。

第６の発明に係る推定方法は、単語分割部、意味ベクトル計算部、ランダムウォーク部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、前記ランダムウォーク部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するステップと、前記推定部が、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、を含む。

また、前記負例データは、前記辞書に格納された正規表記語と、該正規表記語とは異なる正規表記語とのペア、前記辞書に格納された活用形をもつ正規表記語と、該正規表記語の活用形とは異なる活用形の正規表記語とのペア、及び前記辞書からランダムに選択された正規表記語と、該正規表記語の品詞に対して予め定められたサフィックスが該正規表記語に結合された語とのペアの少なくとも１つとして生成されるようにすることができる。

第７の発明に係るプログラムは、上記モデル作成装置又は上記推定装置の各部として機能させるためのプログラムである。

本発明のモデル作成装置、方法、及びプログラムによれば、複数の正規表記語が格納された辞書に基づいて負例データを生成し、正例データが表すペアの意味類似度を含む素性と、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成することにより、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを取得することができる、という効果が得られる。

本発明の推定装置、方法、及びプログラムによれば、単語の分割候補のペアの各々について、分割候補のペアの意味ベクトルの各々に基づいて算出される、ペアの意味類似度を含む素性と、モデル記憶部に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定することにより、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる、という効果が得られる。

崩れ表記語の一例を示す図である。様々な形態で表記される崩れ表記語を説明するための図である。本発明の実施の形態に係るモデル作成装置の構成を示すブロック図である。負例データの一例を示す図である。モデル作成装置の処理の流れを説明するための説明図である。本発明の実施の形態に係る推定装置の構成を示すブロック図である。ノード「うっせぇし」の近傍ノードリストの例を示す図である。ランダムウォークによって得られる結果の例を示す図である。ランダムウォークの結果得られた類似度行列から得られる隣接候補の集合の一例を示す図である。正規表記語の候補集合から得られる結果の一例を示す図である。推定装置の処理の流れを説明するための説明図である。推定装置の処理の流れを説明するための説明図である。本発明の実施の形態に係るモデル作成装置におけるモデル作成処理ルーチンを示すフローチャートである。本発明の実施の形態に係る推定装置における推定処理ルーチンを示すフローチャートである。

＜本発明の実施の形態の概要＞
本実施の形態は、既存の辞書に存在しないｗｅｂ上の崩れ表記語を自動的に獲得するための技術である。辞書に存在する語「すごい‐形容詞」に対応する崩れ表記語の自動獲得例を図１に示す。図１に示すように、「すごい」に対して「すげー」、「すげぇ」、「すげえ」、「すっごい」、及び「すーごい」等が崩れ表記語として獲得される。

本実施の形態では、以下に示すように用語を定義する。

正規表記語：辞書に存在する語
崩れ表記語：辞書に存在せず、正規表記語の異形として出現する表記の語
同義語ペア：同一の意味で表記が異なる単語のペア
正例データ：正規表記語と崩れ表記語との正解のペアデータ
負例データ：正規表記語と崩れ表記語との不正解のペアデータ

崩れ表記語は様々であり、例えば、図２に示すように、口語調、小書き文字、カタナカ化、及びひらがな化の崩れ表記語が存在する。

本実施の形態では、正規表記語と崩れ表記語との組み合わせを識別する際に、複数の素性を考慮しなければうまく識別できない例に関しても精度よく識別を行うために、正解データを用いたモデルを導入する。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明を、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成装置と、作成されたモデルを用いて対応する正規表記語と崩れ表記語との組み合わせを推定する推定装置とに適用した場合を例に説明する。

＜本発明の実施の形態に係るモデル作成装置の構成＞

本発明の実施の形態に係るモデル作成装置の構成について説明する。図３に示すように、本発明の実施の形態に係るモデル作成装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル作成処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル作成装置１００は、機能的には図３に示すように第１入力部１０と、第２入力部１２と、演算部２０とを備えている。

第１入力部１０は、正規表記語と該正規表記語に対応する崩れ表記語とのペアを表す予め定められた複数の正例データを受け付ける。第２入力部１２は、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストであるテキスト群を受け付ける。

演算部２０は、辞書２１と、負例生成部２２と、単語分割部２４と、意味ベクトル計算部２６と、類似度算出部２８と、モデル作成部３０と、モデル記憶部３２とを含んで構成されている。

辞書２１には、複数の正規表記語が格納されている。辞書２１としては、一般的な形態素解析辞書を想定する。辞書２１には、正規表記語の表記、品詞、読みなどの情報が格納されている。ここで、辞書２１に存在している語を全て「正規表記語」と定義する（崩れ表記語は辞書２１に存在しない語）。例えばＪｔａｇ辞書（出願人が整備している辞書）に格納されている情報の一例を以下に示す。

かっぱ-寿司,名詞:固有:組織,100,カッパ'-ズシ,,,,,374:428,88

負例生成部２２は、辞書２１に格納された複数の正規表記語に基づいて、正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データを生成する。

正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する際には、負例データがないと学習することができない。他の正例データを負例データとして利用する方法もあるが、人が作成する正例データは少ない傾向があり、負例データのバリエーションをカバーすることができない。

そこで、本実施の形態では、辞書に格納された語である辞書語や活用形、高頻度な表記など使用することで正例データに出現しないバリエーションを生成するため、バリエーションが多い負例データの生成が可能となり、モデルによる推定の精度を高めることができる。負例であることが自明であるパターンのみを負例データとして生成する。

例えば、負例生成部２２は、下記の複数の条件（１）〜（３）に基づき、負例データを生成する。

（１）辞書２１に格納された特定の正規表記語に対して、特定の正規表記語とは異なる正規表記語をランダムに選択し、特定の正規表記語とランダムに選択された正規表記語とのペアを負例データとして生成する。例えば、「やばい−おはよう」等が負例データとして生成される。

（２）辞書２１に格納された活用形をもつ特定の正規表記語に対して、特定の正規表記語の活用形が異なる活用形の正規表記語を生成し、特定の正規表記語と異なる活用形の正規表記語とのペアを負例データとして生成する。例えば、「うれしい−うれしく」等が負例データとして生成される。

（３）辞書２１からランダムに選択された特定の正規表記語に対して、特定の正規表記語の品詞に対して予め定められたサフィックスが当該特定の正規表記語に結合された語を生成し、特定の正規表記語とサフィックスが当該特定の正規表記語に結合された語とのペアを負例データとして生成する。例えば、「私−私は」等が負例データとして生成される。なお、予め定められたサフィックスとしては、高頻度なひらがなサフィックスを用いることができる。高頻度なサフィックスの求め方としては、下記の非特許文献参６等を参考に品詞ごとにあらかじめ抽出しておく。

非特許文献６：村脇ら，“形態論制約を用いた未知語の自動獲得”，言語処理学会第14回年次大会発表論文集

正例データから生成された負例データの一例を図４に示す。図４に示すように、左側に示す予め収集した正例データから、右側に示すような負例データが生成される。なお、負例生成部２２は、第１入力部１０により受け付けた複数の正例データを用いて、生成された負例データと正例データとを比較し、負例データが正例データと合致する場合には、当該負例データを除外する処理を行っても良い。

単語分割部２４は、第２入力部１２により受け付けたテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成し、分割済みコーパスを生成する。

単語分割部２４は、辞書２１に存在しない崩れ表記語についても区切り候補として出力できるような手法を用いる。例えば、単語分割部２４は、点推定を用いた単語分割手法、教師なし解析を用いた単語分割手法、又は形態素解析器のフリーソフトであるＭｅｃａｂ等の解析結果を、予め定めたルールを元に一部結合させた候補を生成する手法のような、既存の単語分割手法を用いることができる。ここでＭｅｃａｂ等の解析結果を予め定めたルールを元に一部結合させた候補を生成する手法では、未知語連続は結合する、名詞連続は結合するなどの予め定めたルールを用いることができる。

意味ベクトル計算部２６は、単語分割部２４によって生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。

意味ベクトル計算部２６は、分割候補である各単語の意味ベクトルを求める手法として、下記の参考文献に記載のword2vec等、既存の手法を用いることができる。

参考文献：Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean., "Efficient Estimation of Word Representations in Vector Space.", In Proceedings of Workshop at ICLR, 2013.

類似度算出部２８は、意味ベクトル計算部２６によって計算された各単語の意味ベクトルに基づいて、単語のペアの各々に対し、単語のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部２８は、単語の音の各々に基づいて、単語のペアの各々に対し、単語のペアの音の類似度を表す音類似度を算出する。なお、音類似度の算出方法としては、例えば上記非特許文献５の手法を用いることができる。

モデル作成部３０は、類似度算出部２８によって算出された、第１入力部１０により受け付けた正例データが表す正規表記語と崩れ表記語とのペアの各々についての意味類似度及び音類似度を含む素性と、負例生成部２２によって生成された負例データが表す正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアの各々についての意味類似度及び音類似度を含む素性とに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。

なお、本実施の形態では、素性として意味類似度及び音類似度を用いる場合を例に説明するが、他の情報が素性に含まれていてもよい。例えば、先頭文字の変換有無、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。なお、後続差分文字列の素性は、例えば上記非特許文献６に記載の方法を用いて作成することができる。

モデル記憶部３２には、モデル作成部３０によって作成されたモデルが記憶される。

図５に、モデル作成装置１００の処理の流れを説明するための図を示す。図５に示すように、正例データ（例えば、Ｗ１−Ｗ５，Ｗ３−Ｗ７）が第１入力部１０により入力されると、負例生成部２２は、辞書２１に格納された情報を用いて、負例データ（例えば、Ｗ１−Ｗ７）を生成する。

次に、テキスト群Ａが第２入力部１２により入力されると、単語分割部２４は、処理１として、テキスト群のテキストから単語の分割候補Ｂ（Ｗ_１，・・・，Ｗ_ｎ）を生成する。また、単語分割部２４は、処理１として、テキスト群Ａから分割済みコーパスを生成する。そして、意味ベクトル計算部２６は、処理２として、単語区切りが付与されたテキスト群である分割済みコーパスに対し、単語の分割候補として出現した各単語（Ｗ_１，・・・，Ｗ_ｎ）について、当該単語の意味ベクトルを計算する。

次に、類似度算出部２８は、単語の音の各々に基づいて、単語の組み合わせの各々に対し音類似度を算出する。なお、組み合わせの各々に対する音類似度は行列Ｃで表現され、単語（Ｗ_１，・・・，Ｗ_ｎ）の組み合わせに対して音類似度が行列Ｃの各要素に格納される。

また、類似度算出部２８は、単語の意味ベクトルの各々に基づいて、分割候補の組み合わせの各々に対し意味類似度を算出する。なお、組み合わせの各々に対する意味類似度は行列Ｄで表現され、単語（Ｗ_１，・・・，Ｗ_ｎ）の組み合わせに対して意味類似度が行列Ｄの各要素に格納される。

なお、音類似度の行列Ｃ及び意味類似度の行列Ｄに替えて、ランダムウォークが実施された類似度行列Ｒを用いてもよい。類似度行列Ｒについては後述する。

そして、モデル作成部３０は、意味類似度の行列Ｃ及び音類似度の行列Ｄの各要素を含む素性と、負例データと、正例データとに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。そして、作成されたモデルがモデル記憶部３２に格納される。なお、図５に示すように、素性には、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。また、後続差分文字列の素性は、例えば上記非特許文献６に記載の方法を用いて作成することができる。

＜本発明の実施の形態に係る推定装置の構成＞

次に、本発明の実施の形態に係る推定装置の構成について説明する。図６に示すように、本発明の実施の形態に係る推定装置２００は、ＣＰＵと、ＲＡＭと、後述する推定処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この推定装置２００は、機能的には図６に示すように入力部４０と、演算部５０と、出力部７０を備えている。

入力部４０は、第２入力部１２と同様に、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストであるテキスト群を受け付ける。

演算部５０は、単語分割部５２と、意味ベクトル計算部５４と、類似度算出部５６と、ランダムウォーク部５８と、モデル記憶部６０と、推定部６２とを含んで構成されている。

単語分割部５２は、単語分割部２４と同様に、入力部４０により受け付けたテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成し、分割済みコーパスを生成する。

意味ベクトル計算部５４は、意味ベクトル計算部２６と同様に、単語分割部５２によって生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。

類似度算出部５６は、類似度算出部２８と同様に、意味ベクトル計算部５４によって計算された各単語の意味ベクトルに基づいて、分割候補のペアの各々に対し、分割候補のペアの意味類似度を算出する。また、類似度算出部５６は、類似度算出部２８と同様に、分割候補の音の各々に基づいて、分割候補のペアの各々に対し、分割候補のペアの音類似度を算出する。

ランダムウォーク部５８は、類似度算出部５６によって算出された、分割候補のペアの各々の意味類似度及び音類似度に基づいて、分割候補の各々について、当該分割候補と類似する分割候補からなる近傍ノードリストを生成する。そして、ランダムウォーク部５８は、分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、当該分割候補に対する隣接候補の集合を取得する。

具体的には、まず、ランダムウォーク部５８は、類似度算出部５６によって算出された分割候補のペアの各々の意味類似度及び音類似度に基づいて、分割候補のペアの各々に対する意味類似度を各要素とする行列と、分割候補のペアの各々に対する音類似度を各要素とする行列とを生成する。

そして、ランダムウォーク部５８は、意味類似度の行列の各要素と音類似度の行列の各要素とに基づいて、分割候補の各々について、意味類似度と音類似度とが基準値を満たす他の分割候補を抽出し、各分割候補に対応する近傍ノードリストを生成する。近傍ノードリストの各ノードは、意味類似度と音類似度とが基準値を満たす、分割候補のペアに対応する。後述するように、モデルを用いて正規表記語と崩れ表記語との組み合わせを推定する場合であっても、全ての分割候補のペア間で正負の識別を行うのは高コストである。そのため、まずは音類似度と意味類似度との緩い閾値である基準値で制約をかける。

図７に、ノード「うっせぇし」の近傍ノードリストの例を示す。図７の右側の数値は、意味類似度の値を表している。図７に示す例では、０．４を基準値として得られた近傍ノードリストである。

次に、ランダムウォーク部５８は、分割候補の各々について生成した近傍ノードリストに対し、ランダムウォークを指定回数行い、分割候補のペアの各々の類似度を表す類似度行列を求め、ランダムウォークの結果得られた類似度行列に基づいて、分割候補の各々について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。

なお、ランダムウォークとしては、例えば以下の非特許文献７に記載の方法を用いることができる。また、ランダムウォークの初期値の行列は、意味類似度の各要素を正規化した値を使うことができる。

非特許文献７：Martin Szummer, Tommi Jaakkola,“Partially labeled classification with Markov random walks”，［平成28年6月24日検索］、インターネット< http://people.ee.duke.edu/~lcarin/SzummerJaakkola.pdf>

図８に、ランダムウォークによって得られる結果の例を示す。図８に示す例では、正解のペアが「やっべぇ−やばい」である場合が示されている。図８に示すように、基準値に基づき生成された左側の近傍ノードリストでは、基準値によって１次のつながりしか考慮されない場合、正解の正規表記語「やばい」は存在しない。しかし、図８の右側に示すように、１０回のランダムウォークを行うことにより、正解の正規表記語である「やばい」が出現するようになる。

また、ランダムウォークの結果得られた類似度行列の値に基づいて、例えば、図９に示すように、正規表記語の条件を満たす候補のみが隣接候補の集合として設定される。正規表記語の条件としては、例えば上記非特許文献５などの方法を参考にして設定することができる。

モデル記憶部６０には、モデル作成装置１００によって作成されたモデルが記憶される。

推定部６２は、複数の分割候補の各々について、当該分割候補と、ランダムウォーク部５８によって取得された隣接候補の集合に含まれる隣接候補との組み合わせについて、モデル記憶部６０に記憶されたモデルと、当該組み合わせの意味ベクトルの各々に基づいて類似度算出部５６により算出された意味類似度、及び当該組み合わせの音の各々に基づいて類似度算出部５６により算出された音類似度を含む素性とに基づいて、当該組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。

具体的には、推定部６２は、ランダムウォークによって取得された隣接候補の集合と、分割候補の各ペアに対する意味類似度及び音類似度を含む素性集合と、モデル記憶部６０に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。推定部６２は、正規表記語と崩れ表記語との組み合わせであると推定された分割候補のペアを同義語ペアとして出力する。

図１０に、正規表記語と崩れ表記語との組み合わせであるか否かが推定された分割候補の組み合わせの例を示す。図１０に示す例では、「うっせぇし」に対して「うるさいし」が正解であると判定されている。

出力部７０は、推定部６２によって正規表記語と崩れ表記語との組み合わせであると推定された、分割候補の組み合わせを結果として出力する。

図１１及び図１２に、推定装置２００の処理の流れを説明するための図を示す。図１１に示すように、テキスト群Ａが入力部４０により入力されると、単語分割部５２は、処理１として、テキスト群のテキストから単語の分割候補Ｂ（Ｗ_１，・・・，Ｗ_ｎ）を生成する。また、単語分割部５２は、処理１として、テキスト群Ａから分割済みコーパスを生成する。そして、意味ベクトル計算部５４は、処理２として、単語区切りが付与されたテキスト群である分割済みコーパスに対し、単語の分割候補として出現した単語の各々（Ｗ_１，・・・，Ｗ_ｎ）について、当該単語の意味ベクトルを計算する。

次に、類似度算出部５６は、分割候補の音の各々に基づいて、分割候補のペアの各々に対し音類似度を算出する。なお、ペアの各々に対する音類似度は行列Ｃで表現され、分割候補（Ｗ_１，・・・，Ｗ_ｎ）のペアに対して音類似度が行列Ｃの各要素に格納される。

また、類似度算出部５６は、分割候補の意味ベクトルの各々に基づいて、分割候補のペアの各々に対し意味類似度を算出する。なお、ペアの各々に対する意味類似度は行列Ｄで表現され、分割候補（Ｗ_１，・・・，Ｗ_ｎ）のペアに対して意味類似度が行列Ｄの各要素に格納される。

次に、ランダムウォーク部５８は、意味類似度の行列Ｄの各要素と音類似度の行列Ｃの各要素とについて、意味類似度と音類似度とが基準値を満たす各要素を抽出し、各分割候補の近傍ノードリストＥとして出力する。

そして、ランダムウォーク部５８は、図１２に示すように、生成した近傍ノードリストＥの各ノードに対し、ランダムウォークを指定回数行う。ランダムウォークの結果得られた類似度行列Ｒに基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として出力する。なお、ランダムウォークで初期値として利用する行列としては、例えば上記非特許文献５の「３．３．２類似度グラフの構築」に記載されている類似度グラフを利用することができる。

そして、推定部６２は、モデル記憶部６０に記憶されたモデルと、分割候補の組み合わせ各々についての意味類似度の行列Ｃ及び音類似度の行列Ｄを含む素性とに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。なお、図１２に示すように、素性には、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。

なお、意味的類似度の素性の行列Ｃに替えて、ランダムウォークで生成された類似度行列Ｒを用いてもよい。類似度行列Ｒを利用する場合には、まず、推定装置２００による推定処理において、ランダムウォークにより対象となる分割候補を増加させ類似度行列Ｒを生成する。次に、モデル作成装置１００によるモデル作成処理において類似度行列Ｒを用いてモデルを作成する。そして、推定装置２００による推定処理において、作成されたモデルを用いて同義語ペアの推定という流れになる。

＜本発明の実施の形態に係るモデル作成装置の作用＞

次に、本発明の実施の形態に係るモデル作成装置１００の作用について説明する。なお、以下では、ランダムウォークによって生成された類似度行列を用いる場合を例に説明する。第１入力部１０において複数の正例データを受け付け、第２入力部１２においてテキスト群を受け付けると、モデル作成装置１００は、図１３に示すモデル作成処理ルーチンを実行する。

まず、ステップＳ１００において、単語分割部２４は、第２入力部１２において受け付けたテキスト群を取得する。

次に、ステップＳ１０２において、負例生成部２２は、辞書２１に格納された複数の正規表記語に基づいて、正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データを生成する。

ステップＳ１０４では、単語分割部２４は、上記ステップＳ１００で取得したテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成する。

ステップＳ１０６では、意味ベクトル計算部２６は、上記ステップＳ１０４で生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。

ステップＳ１０８では、類似度算出部２８は、上記ステップＳ１０６で計算された各単語の意味ベクトルに基づいて、単語のペアの各々に対し、単語のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部２８は、単語の音の各々に基づいて、単語のペアの各々に対し、単語のペアの音の類似度を表す音類似度を算出する。

ステップＳ１０９では、ランダムウォークの結果生成された類似度行列を取得する。そして、類似度行列に基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。

ステップＳ１１０では、モデル作成部３０は、上記ステップＳ１０９で取得された隣接候補の集合と、上記ステップＳ１０８で算出された、正例データが表す正規表記語と崩れ表記語とのペアの各々についての意味類似度及び音類似度を含む素性と、上記ステップＳ１０２で生成された負例データが表す正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアの各々についての意味類似度及び音類似度を含む素性とに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。そして、モデル作成部３０は、作成したモデルをモデル記憶部３２に格納して処理を終了する。

＜本発明の実施の形態に係る推定装置の作用＞

次に、本発明の実施の形態に係る推定装置２００の作用について説明する。モデル作成装置１００によって作成されたモデルが推定装置２００に入力されると、モデル記憶部６０に格納される。そして、推定装置２００の入力部４０においてテキスト群を受け付けると、推定装置２００は、図１４に示す推定処理ルーチンを実行する。

ステップＳ２００において、単語分割部５２は、入力部４０において受け付けたテキスト群を取得する。

ステップＳ２０２において、単語分割部５２は、上記ステップＳ２００で取得したテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成する。

ステップＳ２０４において、意味ベクトル計算部５４は、上記ステップＳ２０２で生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。

ステップＳ２０５において、類似度算出部５６は、上記ステップＳ２０４で計算された各単語の意味ベクトルに基づいて、分割候補のペアの各々に対し、分割候補のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部５６は、分割候補の音の各々に基づいて、分割候補のペアの各々に対し、分割候補のペアの音の類似度を表す音類似度を算出する。

ステップＳ２０６において、ランダムウォーク部５８は、上記ステップＳ２０５から得られる、意味類似度の行列の各要素と音類似度の行列の各要素とに基づいて、分割候補の各々について、意味類似度と音類似度とが基準値を満たす他の分割候補を抽出し、各分割候補に対応する近傍ノードリストを生成する。

ステップＳ２０８において、ランダムウォーク部５８は、上記ステップＳ２０６で分割候補の各々について生成された近傍ノードリストに対し、ランダムウォークを指定回数行い、類似度行列を生成する。そして、ランダムウォーク部５８は、ランダムウォークの結果得られた類似度行列に基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。

ステップＳ２１０において、推定部６２は、上記ステップＳ２０８で取得された隣接候補の集合と、分割候補の各ペアに対する意味類似度及び音類似度を含む素性集合と、モデル記憶部６０に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。そして、推定部６２は、正規表記語と崩れ表記語との組み合わせであると推定された分割候補のペアを同義語ペアとして出力する。

ステップＳ２１２において、出力部７０は、上記ステップＳ２１０で出力された同義語ペアを出力して処理を終了する。

以上説明したように、本発明の実施の形態に係るモデル作成装置によれば、複数の正規表記語が格納された辞書に基づいて負例データを生成し、正例データが表すペアの意味類似度を含む素性と、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成することにより、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを取得することができる。

また、本発明の実施の形態に係る推定装置によれば、単語の分割候補のペアの意味類似度に基づいて、分割候補と類似する分割候補からなる近傍ノードリストを生成し、各近傍ノードリストに対するランダムウォークを実施し、分割候補に対する隣接候補の集合を取得し、分割候補と取得された隣接候補の集合に含まれる隣接候補との組み合わせについて、予め作成されたモデルと、当該組み合わせの意味ベクトルの各々に基づいて算出される意味類似度を含む素性とに基づいて、当該組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定することにより、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる。

また、単語の分割候補間の一次のつながりでは正規表記語が出現しないペアに対しても、ランダムウォークを用いることで効率良く候補を拡大することができる。これにより、複数次数のつながりで正規表記語が含まれる場合には、正規表記語の候補集合に正規表記語を含めることができる。

また、本実施の形態では、正例データと負例データとに基づき作成されたモデルを用いて正規表記語と崩れ表記語とを推定する。この際、モデルとしてはＳＶＭや最大エントロピーモデルなどの一般的なモデルを用いることができ、また正例データを用いて自明な負例データを生成することで、精度の向上を図ることができる。

また、正例データと負例データとに基づきモデルを構築することにより、多様な素性を柔軟に取り込むことが可能となり、正規表記語と崩れ表記語との高精度な識別が可能になる。また、モデルの構築に際し、複数の方法で負例データを生成することにより、音や意味類似度で識別が難しい候補に対しても識別の性能を向上させることができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記の実施の形態では、素性に意味類似度及び音類似度が含まれている場合を例に説明したが、これに限定されるものではない。例えば、意味類似度のみが素性に含まれていてもよいし、上述したように、後続差分文字列及び正規表記語候補の品詞等が素性に含まれていてもよい。

また、上記の実施の形態では、モデル作成装置と推定装置とを別々の装置として構成する場合を例に説明したが、モデル作成装置と推定装置とを１つの装置として構成してもよい。

上述のモデル作成装置１００及び推定装置２００は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０第１入力部
１２第２入力部
２０,５０演算部
２１辞書
２２負例生成部
２４,５２単語分割部
２６,５４意味ベクトル計算部
２８,５６類似度算出部
３０モデル作成部
４０入力部
３２,６０モデル記憶部
５８ランダムウォーク部
６２推定部
７０出力部
１００モデル作成装置
２００推定装置

Claims

正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算する意味ベクトル計算部と、
複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成する負例生成部と、
正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成部と、
を含むモデル作成装置。
複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、
正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、
前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、
を含む推定装置。
複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、
正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、
前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するランダムウォーク部と、
前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、
を含む推定装置。
前記負例データは、
前記辞書に格納された正規表記語と、該正規表記語とは異なる正規表記語とのペア、
前記辞書に格納された活用形をもつ正規表記語と、該正規表記語の活用形とは異なる活用形の正規表記語とのペア、及び
前記辞書からランダムに選択された正規表記語と、該正規表記語の品詞に対して予め定められたサフィックスが該正規表記語に結合された語とのペアの少なくとも１つとして生成される
請求項１に記載のモデル作成装置。
単語分割部、意味ベクトル計算部、負例生成部、及びモデル作成部を含むモデル作成装置におけるモデル作成方法であって、
前記単語分割部が、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
前記意味ベクトル計算部が、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算するステップと、
前記負例生成部が、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成するステップと、
前記モデル作成部が、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するステップと、
を含むモデル作成方法。
単語分割部、意味ベクトル計算部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、
前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、
前記推定部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、
を含む推定方法。
単語分割部、意味ベクトル計算部、ランダムウォーク部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、
前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、
前記ランダムウォーク部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するステップと、
前記推定部が、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、
を含む推定方法。
コンピュータを、請求項１に記載のモデル作成装置、又は請求項２〜請求項４の何れか１項に記載の推定装置の各部として機能させるためのプログラム。