JP6220761B2

JP6220761B2 - モデル学習装置、文字列変換装置、方法、及びプログラム

Info

Publication number: JP6220761B2
Application number: JP2014213752A
Authority: JP
Inventors: いつみ斉藤; 九月貞光; 久子浅野; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-10-20
Filing date: 2014-10-20
Publication date: 2017-10-25
Anticipated expiration: 2034-10-20
Also published as: JP2016081379A

Description

本発明は、モデル学習装置、文字列変換装置、方法、及びプログラムに係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するためのモデル学習装置、文字列変換装置、方法、及びプログラムに関する。

従来より、崩れ表記の単語（「崩れ語」と呼称）が正規表記の単語（「正規語」と呼称）から生成される確率を教師なし学習を用いて求める技術が知られている（非特許文献１参照）。ここで「崩れ表記」とは、図１８に示すように口語調やｗｅｂ特有の書き言葉など、新聞などの正書法では現れない表記を指す。

また、文字列の変換パタンを文字列アライメントによって求める手法が知られている（非特許文献２参照）。

また、文字列のひらがな化、カタカナ化を行うための素性を導入し、識別モデルを用いて定式化する手法が知られている（非特許文献３参照）。

非特許文献１の技術では、観測単語の系列（崩れ語を含む単語列）は、潜在的な正規語の系列から生成された生成モデルに基づくと仮定して、観測単語の生起確率を推定している。観測単語の系列をｗ、正規語の系列をｖとする。

ｗ＝（ｗ_１，．．．，ｗ_ｎ）

ｖ＝（ｖ_１，．．．，ｖ_ｎ）

また、各観測単語ｗ_ｉは正規語ｖ_ｉから独立に生成されるとする。

形態素解析として用いる場合は、品詞をクラスとするクラス言語モデルの変種として確率値を最大化する単語及び品詞列＜ｖ_ｏｐｔ，ｃ_ｏｐｔ＞を求める式を下記（２）式のように定式化できる。ただし、ｃ_ｉは品詞を表す。

なお、Ｐ（ｗ_１｜ｖ_１）、Ｐ（ｖ_１｜ｃ_１）、及びＰ（ｃ_１｜ｃ_１−１）の推定は、崩れ語を含む大量の実文章データを用いてＥＭアルゴリズムに基づき行う。

非特許文献２の技術では、動的計画法に基づき、図１９に示す表を用いて最小コストの経路を探索し、文字間の対応関係を求めている。総コストは、各経路における文字列の対応コストの和で表される。コスト関数としては、例えば、図２０のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路１であるとすると、出力アライメントは、（か，か）、（な，な）、（ぁー，ｎｕｌｌ）、（り，り）となる。ただし、（ｎｕｌｌ，ｘ）は崩れ語中への部分文字列ｘの挿入、（ｙ，ｎｕｌｌ）は崩れ語中の部分文字列ｙの削除を表す。ｎｕｌｌとは対応する文字列が存在しないことを意味する。

非特許文献３の技術によれば、入力文について生成したラティスの各経路について、正規文の尤もらしさを判断するための複数の素性に関する重みを用いて最適な候補の選択を行っている。最適な候補の選択は、下記（３）式に示すように素性関数と重みを掛け合わせた総コストの値を最小化するように行われる。

ただし、＾ｗは最適単語及び最適品詞の列であり、Ｗは単語及び品詞の列を示す。また、λ_ｋはｋ番目の素性の重みであり、φ_ｋ(ｗ)はｋ番目の素性を示す。各素性としては、経路が表す品詞列に対して、品詞同士が連接する確率に関する品詞連接コストを示す第１素性φ１、経路が表す単語列に対して、単語が生起する確率に関する単語コストを示す第２素性φ２、経路が表す単語列に対して、ｎ個の単語が生起したときに単語が生起する確率に関する単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性φ３、崩れフレーズを正規フレーズに変換することについての変換確率及び崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを含む文字列変換コストを示す第４素性（φ４、φ５）、文字列が、文字種変換辞書に基づいて置き換えた部分文字列を含む場合における文字種変換コストを示す第５素性（φ６、φ７）を用いる。ここで、単語表層ｎ−ｇｒａｍに基づくコストを示す第３素性φ３は、−ｌｏｇ（単語ｂｉ−ｇｒａｍ確率）の値である。また、文字列変換コストを示す第４素性は、−ｌｏｇ（正規崩れフレーズモデルの変換確率）の値である素性φ４と、フレーズフィルタモデルに基づく崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアである素性φ５とを含む。また、文字種変換コストを示す第５素性は、文字種がひらがなに変換された文字列に対して（１×単語コスト）となる値である素性φ６と、文字種がカタカナに変換された文字列に対して（１×単語コスト）となる値である素性φ７を用いることができる。

工藤，市川，Talbot，賀沢, "Web上のひらがな交じり文に頑健な形態素解析" ，言語処理学会第18回年次大会, 2012 斉藤，貞光，浅野，松尾，"正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"，情報処理学会第214回自然言語処理研究会，Vol.2013-NL-214, No.5 , 2013 斉藤，貞光，浅野，松尾，"正規-崩れ文字列アライメントと文字種変換を用いた崩れ表記正規化に基づく日本語形態素解析" ，第20回言語処理学会全国大会，2014/3/10

しかし、非特許文献１の技術では、辞書から容易に展開可能な単語の読みが、ひらがな表記されている崩れ語候補のみに適用されており、その他の崩れ表記の列挙方法は提案されていない。例えば、以下のＡのような単語が全てひらがな表記された単語は扱えるが、Ｂのような口語的もしくは音的な崩れ表記の列挙方法は提示されていない。

Ａ）てすと（テスト），ゆうびんきょく（郵便局）

Ｂ）すっげー（すごい），すんばらしー（すばらしい）

また、非特許文献２の技術では、文字位置や品詞ごとに異なる変換確率を考慮することができない。例えば、正規語「おはよう」、崩れ語「おはよぉ」に対し、従来技術では、例えば「う，ぉ」の変換パタンを学習する。しかし、実際「うれしい→ぉれしい」と崩れる確率はほぼ０である。このように文字の崩れやすさは、文字の単語内での位置と品詞などに依存して変化する。

また、非特許文献２の技術では、変換パタンとして崩れ文字列側の削除を扱うことができなかったため、変換パタンのカバー率に課題があった。例えば正規語「あつい」に対し、崩れ語が「あつ」のとき従来は（崩れ文字列，正規文字列）＝（ｎｕｌｌ, い）といったパタンは、このような変換パタンを許すとデコード時の展開候補が膨大になってしまい実質扱うことができないという問題があり、扱うことができなかった。そのため、獲得されるパタンは（つ，つい）といったパタンとなっていた。

上記のような場合、「形容詞末尾の“い”省略」というより汎化された変換パタンを獲得することができず、「あつ→あつい」は生成できるが「さむ→さむい」は生成できないといったように変換パタンのカバー率の面で課題があった。

また、非特許文献２及び非特許文献３の技術では、動的計画法による文字列の経路におけるコストや、素性として文字列レベルの変換確率を用いているが、単語レベルの崩れ語生成確率を求めることができないという問題があった。例えば、単語レベルの崩れ語生成確率、ｐ（てすと|テスト）の生成確率を求めることができない。つまり、単語ごとに異なる崩れ語生成確率を直接考慮することができなかった。

本発明は、上記問題点を解決するために成されたものであり、文字列に含まれる揺らいだ表記である崩れ語を正規語に精度よく変換するためのモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。

また、文字列に含まれる揺らいだ表記である崩れ語を正規語に変換することができる文字列変換装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係るモデル学習装置は、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する正規崩れフレーズモデル推定部と、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成する崩れ表記辞書生成部と、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するモデル学習部と、を含んで構成されている。

また、第１の発明に係るモデル学習装置において、前記モデル学習部は、入力文字列中の観測語ｗ_ｉが正規語ｖ_ｉから生成される確率Ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率Ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率Ｐ（ｃ_ｉ｜ｃ_ｉ−１）の積算値を最尤化するように、前記確率Ｐ（ｗ_ｉ｜ｖ_ｉ）、前記確率Ｐ（ｖ_ｉ｜ｃ_ｉ）、及び前記確率Ｐ（ｃ_ｉ｜ｃ_ｉ−１）を、前記最尤モデルとして学習してもよい。

また、第１の発明に係るモデル学習装置において、前記ラティス生成部は、前記入力された文書に含まれる入力文字列の各々に対して、対応する正規フレーズがｎｕｌｌである複数の崩れフレーズからなるスキップリストを用いて、前記入力文字列から、前記スキップリストに含まれる前記崩れフレーズを削除した文字列を生成し、前記入力文字列、及び前記生成された文字列について、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列、及び前記生成された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造である前記ラティスを生成してもよい。

また、第２の発明に係る文字列変換装置は、入力された文字列に対して、上記第１の発明に係るモデル学習装置により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成されたラティスと、前記モデル学習装置によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、を含んで構成されている。

第１の発明に係るモデル学習方法は、フレーズアライメント部、正規崩れフレーズモデル推定部、崩れ表記辞書生成部、ラティス生成部、モデル学習部を含むモデル学習装置におけるモデル学習方法であって、前記フレーズアライメント部が、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるステップと、前記正規崩れフレーズモデル推定部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成するステップと、前記崩れ表記辞書生成部が、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成するステップと、前記ラティス生成部が、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、前記モデル学習部が、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するステップと、を含んで実行することを特徴とする。

また、第２の発明に係る文字列変換方法は、ラティス生成部、文字列変換部を含む文字列変換装置における文字列変換方法であって、前記ラティス生成部が、入力された文字列に対して、上記第１の発明に係るモデル学習方法により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、前記文字列変換部が、前記ラティス生成部によって生成されたラティスと、前記モデル学習方法によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、を含んで実行することを特徴とする。

また、第１の発明に係るプログラムは、コンピュータを、上記第１の発明のモデル学習装置を構成する各部として機能させるためのプログラムである。

また、第２の発明に係るプログラムは、コンピュータを、上記第２の発明の文字列変換装置を構成する各部として機能させるためのプログラムである。

また、本発明のモデル学習装置、方法、及びプログラムによれば、文字列に含まれる揺らいだ表記である崩れ語を正規語に精度よく変換するためのモデルを学習することができる。

本発明の文字列変換装置、方法、及びプログラムによれば、文字列に含まれる揺らいだ表記である崩れ語を正規語に変換することができる。

崩れ語と正規語の例を示す図である。正規フレーズと崩れフレーズの例を示す図である。本実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。正規語崩れ語ペアの例を示す図である。動的計画法に基づいて最小コストの経路を探索する際に用いられる表の例を示す図である。動的計画法のコスト関数の例を示す図である。動的計画法に基づく経路において文字位置及び品詞を付与した表の例を示す図である。正規崩れフレーズモデルの例を示す図である。崩れ表記辞書の生成例を示す図である。崩れ表記辞書の例を示す図である。スキップリストの例を示す図である。ラティスの例を示す図である。最尤モデルにおける単語レベルの崩れ語生成確率の例を示す図である。本実施の形態に係る文字列変換装置の機能的構成を示すブロック図である。本実施の形態に係る文字列変換装置を用いて崩れ語を含む入力文字列を正規表記の文字列へ変換した例を示す図である。本実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。本実施の形態に係る文字列変換装置における文字列変換処理ルーチンを示すフローチャートである。崩れた表記の例を示す図である。動的計画法の例を示す図である。動的計画法のコスト関数の例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る正規崩れフレーズモデルの概要＞

まず、本発明の実施の形態における正規崩れフレーズモデルの概要を説明する。

本実施の形態において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図１に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図２に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア（正解データ）を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。

＜本発明の実施の形態に係るモデル学習装置の構成＞

次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図３に示すように、本発明の実施の形態に係るモデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図３に示すように入力部１０と、演算部２０と、出力部６０とを備えている。

入力部１０は、図４に示すような、Ｔｗｉｔｔｅｒ（登録商標）やブログなどの特定分野で典型的に記載されている崩れ表記が含まれる文から、人手で抽出された崩れ語に対し、対応する正規語が付与されたフレーズ推定用の正解データである正規語崩れ語ペアデータを受け付ける。ここで正規語には品詞情報が付与されている。また、入力部１０は、ｗｅｂ上の特定分野の文書を受け付ける。

演算部２０は、初期設定部３０と、フレーズアライメント部３２と、正規崩れフレーズモデル推定部３４と、正規崩れフレーズモデル記憶部３６と、崩れ表記辞書生成部３８と、スキップリスト生成部４０と、スキップリスト記憶部４２と、崩れ表記辞書ＤＢ４４と、正規語辞書ＤＢ４６と、文字種変換辞書ＤＢ４８と、文字列生成部５０と、ラティス生成部５２と、モデル学習部５４と、を含んで構成されている。

初期設定部３０は、入力部１０において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズＳ_Ｖと崩れフレーズＳ_Ｗの全てのペアを求め、各ペアについて変換確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）をランダムに設定し、正規フレーズと崩れフレーズのペアの変換確率を格納した変換確率テーブルを生成しメモリ（図示省略）に記憶する。なお、正規フレーズＳ_Ｖと崩れフレーズＳ_Ｗの各ペアの変換確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）をヒューリスティックに設定してもよい。

フレーズアライメント部３２は、品詞情報が付与され、かつ、正規化された表現である正規語と、正規語に対して揺らいだ表記である崩れ語との複数のペアの各々について、初期設定部３０において生成された又は正規崩れフレーズモデル推定部３４において更新された変換確率テーブルに基づいて、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求める。

フレーズアライメント部３２では、正規語の文字列アライメントとして文字位置（Ｂ：形態素の先頭，Ｉ：形態素の内部，Ｅ：形態素の末尾のタグで表現）、及び品詞情報を付与する。なお、上記非特許文献２の技術では制約として崩れ語側の削除パタンを候補から除いていたが、本実施の形態では制約は設けず、崩れ語側の削除パタンも候補に含める。

具体的には、前向き後ろ向きアルゴリズムによる動的計画法に基づいて、図５に示すような表を用いて最小コストの経路（またはｎ−ｂｅｓｔ解）を探索し、文字間の対応関係を求める。経路の総コストは、経路上における文字列の対応コストの和で表される。コスト関数としては、例えば、図６のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路１であるとすると、出力アライメントは、図７に示すように（か−Ｂ−副詞，か），（な−Ｉ−副詞，な），（ｎｕｌｌ，ぁー），（り−Ｅ−副詞，り）となる。ただし、（ｎｕｌｌ，ｘ）はｘの挿入、（ｙ，ｎｕｌｌ）はｙの削除を表す。

正規崩れフレーズモデル推定部３４は、フレーズアライメント部３２により求められた複数のペアの各々についての対応関係に基づいて、崩れフレーズと、崩れフレーズに対応する正規フレーズ、正規フレーズの各文字の、形態素における文字位置、及び正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する。

正規崩れフレーズモデル推定部３４は、具体的には、フレーズアライメント部３２において求められた正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、下記（４）式に従って、対数尤度が収束するまで繰り返し計算を行い、崩れフレーズと正規フレーズの同時確率を求める。

ただし、Ｎ（Ｓ_Ｗ,Ｓ_Ｖ）は、（Ｓ_Ｗ,Ｓ_Ｖ）のアライメントが表れた回数を示し、Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）は崩れフレーズと正規フレーズの同時確率である。

正規崩れフレーズモデル推定部３４における繰り返し計算では、例えば、前回計算分の対数尤度との差分が予め定められた閾値ε（例えばε＝０．０５）以下か否か判定する。差分が閾値ε以下である場合には、反復終了条件が満たされたと判定し、図８に示すような、現在の変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部３６に記憶する。ここで、ＢＩＥＳはそれぞれ形態素中の文字位置を表す。Ｂは形態素の先頭の文字、Ｉは形態素の内部の文字、Ｅは形態素の末尾の文字、Ｓは一文字形態素の文字を表す。例えば、”ていうか”(独立詞)の場合、て−Ｂ、い−Ｉ、う−Ｉ、か−Ｅというフラグがそれぞれ振られる。また、差分が閾値εよりも大きい場合には、反復終了条件が満たされていないと判定し、フレーズアライメント部３２及び正規崩れフレーズモデル推定部３４の処理を繰り返す。なお、繰り返し回数が上限回数に達したことを反復終了条件としてもよい。

正規崩れフレーズモデル記憶部３６には、正規崩れフレーズモデルが記憶されている。

崩れ表記辞書生成部３８は、正規崩れフレーズモデル推定部３４によって生成された正規崩れフレーズモデルと、正規語辞書ＤＢ４６に記憶されている、正規語の各々に対する品詞情報を含む各種情報（読み、表記、品詞）を格納した既存の正規語辞書とに基づいて、正規崩れフレーズモデルに基づいて正規語を変換した崩れ語、正規語、及び正規語に対する品詞情報の組み合わせを、崩れ語の各々について格納した崩れ表記辞書を生成する。

崩れ表記辞書生成部３８は、具体的には、まずＰ（Ｓ_Ｗ,Ｓ_Ｖ）が予め定めた閾値より大きい崩れフレーズと正規フレーズとのペアを抽出する。次に、抽出されたペアについて、正規語辞書ＤＢ４６により辞書引きを行い、正規語辞書ＤＢ４６のエントリの中から、当該ペアの正規フレーズを構成する文字列が部分一致し、文字位置及び品詞が一致するエントリを抽出する。例えば図９に示すように、形容詞で末尾の文字が「い」であるエントリをすべて抽出するとすれば、「あつい」、「かわいい」、「楽しい」、「さむい」等が該当する。そして、崩れ表記辞書生成部３８は、正規語辞書ＤＢ４６から抽出された正規語の、正規フレーズを構成する文字列と一致する部分を、抽出されたペアの崩れフレーズで置き換える。上記の例の場合、「い」を「っ」で置き換える。このようにして生成した崩れ語、正規語、及び正規語に対する品詞情報の組み合わせを、崩れ表記辞書ＤＢ４４に登録する。なお、正規語辞書ＤＢ４６のエントリの正規語が、抽出されたペアの正規フレーズを構成する文字列と完全一致する場合には置き換えを行わずに、抽出されたペアの崩れフレーズを構成する文字列、正規フレーズを構成する文字列、及び正規語辞書ＤＢ４６のエントリの品詞情報の組み合わせを、そのまま崩れ表記辞書ＤＢ４４に登録する。崩れ表記辞書の一例を図１０に示す。

スキップリスト生成部４０は、正規崩れフレーズモデル記憶部に記憶された正規フレーズが空の文字列である複数の崩れフレーズと、同時確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）との組み合わせからなるスキップリストを生成し、スキップリスト記憶部４２に記憶する。スキップリストの一例を図１１に示す。

文字種変換辞書ＤＢ４８には、文字列の文字種を展開するために必要な「漢字」「ひらがな」「カタカナ」の相互に対応する文字列の組み合わせであって、同一の読みとなる文字列の組み合わせが複数組格納された文字種変換辞書が記憶されている。

文字列生成部５０は、入力部１０で受け付けた文書に含まれる入力文字列の各々に対して、スキップリスト記憶部４２に記憶されたスキップリストを用いて動的照合し、入力文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。例えば、スキップリストに｛ー，ぁ，ぃ ,っ｝の崩れフレーズがある場合、「すーごくたのしっ！」に対してスキップリストを照合すると、２文字目の「ー」と８文字目の「っ」がマッチする。この場合、「すごくたのしっ！」及び「すーごくたのし！」という２つの新たな文字列を生成する。ラティス生成部５２には、入力文字列とスキップリストによって生成された文字列が出力される。上記例の文字列の場合であれば「すーごくたのしっ！」「すごくたのしっ！」、及び「すーごくたのし！」が３つの文字列が出力される。なお、スキップリストの照合は、同時確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）が予め定めた閾値以上となるものに限定してもよい。

ラティス生成部５２は、入力部１０で受け付けた文書に含まれる入力文字列及び文字列生成部５０で生成された文字列の各々について、崩れ表記辞書ＤＢ４４に記憶された崩れ表記辞書、正規語辞書ＤＢ４６に記憶された正規語辞書、及び文字種変換辞書ＤＢ４８に記憶された文字種変換辞書を用いて、辞書引きを行い、入力文字列、及び生成された文字列に含まれる、品詞が付与された各形態素であって、崩れ語である場合の変換候補としての正規語が付与された各形態素に対応するノード及び入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。作成したラティスの例を図１２に示す。ここで、括弧付きのものが変換候補としての正規語である。

ラティス生成部５２では、正規語辞書ＤＢ４６に記憶された正規語辞書、及び崩れ表記辞書ＤＢ４４に記憶された崩れ表記辞書を用いて、ラティスの各ノードに対して品詞情報を付与する。また、ラティス生成部５２では、崩れ表記辞書ＤＢ４４に記憶された崩れ表記辞書を用いて、ラティスの各ノードに対して、崩れ語である場合の変換候補としての正規語を付与する。また、ラティス生成部５２では、文字種変換辞書ＤＢ４８に記憶された文字種変換辞書を用いて、各ノードについて、読みに基づいて展開を行う。「漢字」表記又は「カタカナ」表記から「ひらがな」表記を展開する。同様に、「漢字」表記又は「ひらがな」表記から「カタカナ」表記を展開する。例えば前者であれば「教科書→きょうかしょ」「バイト→ばいと」と展開し、後者であれば「先生→センセイ」「ありがとう→アリガトウ」と展開する。

モデル学習部５４は、ラティス生成部５２によって入力文字列及び文字列生成部５０で生成された文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる崩れ語を正規語に変換するための最尤モデルを学習する。

モデル学習部５４では、入力文字列の各々に対し、予め求められた観測語ｗ_ｉ（崩れ語含む）が正規語ｖ_ｉから生成される崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）の各々の初期値、又は、崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）の各々の前回値と、ラティス生成部５２で生成されたラティスとに基づいて、当該入力文字列についてラティスの全ての各ノード、リンクの期待頻度を算出する。そして、全ての文について算出された期待頻度を集計し、正規化した結果を、崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）の各々の更新値として算出する。そして、下記（５）式の期待対数尤度関数を計算する。ここで、ｄは入力文字列、Ｄは入力文字列の集合を表す。ｚはｃ、ｖ、ｗの組を表す。

そして、モデル学習部５４は、バウムウェルチアルゴリズムに従って、入力文書の全ての入力文字列について、既存のモデルで解析した結果から計算されたｐ（ｗ_ｉ｜ｖ_ｉ）及びｐ（ｖ_ｉ｜ｃ_ｉ）、並びに予め定められたｐ（ｃ_ｉ｜ｃ_ｉ−１）を初期値として、上記（５）式で求められた期待対数尤度関数が、収束するまで、文字列生成部５０、ラティス生成部５２、及びモデル学習部５４における繰り返すことにより、最尤モデルを学習する。ここで、収束判定には、前回計算分の対数尤度との差分が予め定められた閾値ε（例えばε＝０．０５）以下か否か判定する。なお、モデル学習部５４の処理のみ繰り返し行うようにしてもよい。

求められた最尤モデルの単語についての推定結果の例を図１３に示す。図１３の表に示すように、単語ごとに個別の崩れ語生成確率が求まっている。従来法では、例えば「すごい」→「すげー」となる崩れ語生成確率を求めることはできず、「ごい」→「げー」という文字列レベルの変換確率しか求めることができなかった。そのため、例えば「うごい（動い・動詞）」→「うげー」という崩れ語生成確率と「すごい」→「すげー」の崩れ語生成確率が同じものとして扱われていたが、本実施の形態のモデル学習によって、単語レベルの崩れ語生成確率を求めることが可能になった。

＜本発明の実施の形態に係る文字列変換装置の構成＞

次に、本発明の実施の形態に係る文字列変換装置の構成について説明する。図１４に示すように、本発明の実施の形態に係る文字列変換装置３００は、ＣＰＵと、ＲＡＭと、後述する文字列変換処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。このモデル学習装置１００は、機能的には図１４に示すように入力部３１０と、演算部３２０と、出力部３６０とを備えている。

入力部３１０は、ｗｅｂ上の特定分野の文書を受け付ける。

演算部３２０は、文字列生成部３３０と、ラティス生成部３３２と、文字列変換部３３４と、スキップリスト記憶部３４０と、崩れ表記辞書ＤＢ３４２と、正規語辞書ＤＢ３４４と、文字種変換辞書ＤＢ３４６と、最尤モデル記憶部３５０とを含んで構成されている。

文字列生成部３３０は、モデル学習装置１００の文字列生成部５０と同様に、入力部３１０で受け付けた文書に含まれる文字列の各々に対して、スキップリスト記憶部３４０に記憶されているスキップリストを用いて動的照合し、当該文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。

スキップリスト記憶部３４０には、モデル学習装置１００において生成されたスキップリストと同一のスキップリストが記憶されている。

崩れ表記辞書ＤＢ３４２には、モデル学習装置１００において生成された崩れ表記辞書と同一の崩れ表記辞書が記憶されている。

正規語辞書ＤＢ３４４には、モデル学習装置１００の正規語辞書ＤＢ４６と同一の既存の正規語辞書（読み、表記、品詞）が記憶されている。

文字種変換辞書ＤＢ３４６には、文字列の文字種を展開するために必要な「漢字」「ひらがな」「カタカナ」の相互に対応する文字列の組み合わせであって、同一の読みとなる文字列の組み合わせが複数組格納された文字種変換辞書が記憶されている。

ラティス生成部３３２は、ラティス生成部５２と同様に、入力部３１０で受け付けた文書に含まれる文字列の各々に対し、当該文字列及び文字列生成部３３０において当該文字列から生成された文字列の各々について、崩れ表記辞書ＤＢ３４２に記憶されている崩れ表記辞書、正規語辞書ＤＢ３４４に記憶された正規語辞書、及び文字種変換辞書ＤＢ３４６に記憶された文字種変換辞書を用いて辞書引きを行い、当該文字列及び生成された文字列に含まれる品詞が付与された各形態素であって、崩れ語である場合の変換候補としての正規語が付与された各形態素に対応するノード及び入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

最尤モデル記憶部３５０は、モデル学習装置１００において学習された最尤モデルと同一の最尤モデルが記憶されている。

文字列変換部３３４は、入力部３１０で受け付けた文書に含まれる文字列の各々に対し、ラティス生成部３３２によって生成されたラティスと、上記モデル学習装置１００によって学習され最尤モデル記憶部３５０に記憶された最尤モデルとに基づいて、当該文字列に含まれる崩れ語を正規語に変換した文字列を生成すると共に、当該文字列に対する形態素解析結果を出力する。

文字列変換部３３４は、具体的には、最尤モデル記憶部３５０に記憶された最尤モデルに含まれる崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）に基づいて、動的計画法に従って、確率値を最大化する単語及び品詞列＜ｖ_ｏｐｔ，ｃ_ｏｐｔ＞を求めるための下記（６）式の目的関数を最大化する、ラティス生成部３３２によって生成されたラティスのノードを結んだ最適な経路を選択し、選択された経路が表す最適な単語区切りによって、崩れ語を正規語に変換した文字列を生成する。また、文字列変換部３３４は、選択された経路が表す品詞列及び単語区切りを、形態素解析結果として出力する。

図１５に、文字列変換の例を示す。入力文字列が「今日メッチャさむ」である場合、「めっちゃ→メッチャ」といったカタカナ化現象や、「さむい→さむ」といった口語的省略現象を正しく正規化して解析が可能となっている（「メッチャ」及び「さむ」は通常辞書には存在しない）。

＜本発明の実施の形態に係るモデル学習装置の作用＞

次に、本発明の実施の形態に係るモデル学習装置１００の作用について説明する。入力部１０において正規語崩れ語ペアデータ及び文書を受け付けると、モデル学習装置１００は、図１６に示すモデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズＳ_Ｖと崩れフレーズＳ_Ｗの全てのペアを求め、各ペアについて変換確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）をランダムに設定し、各ペアの変換確率を格納した変換確率テーブルを生成し、メモリに記憶する。

次に、ステップＳ１０２では、正規語崩れ語ペアデータに含まれるペアの各々について、正規語の文字列アライメントとして文字位置、及び品詞情報を付与する。

ステップＳ１０４では、ステップＳ１００において生成した、又はステップＳ１０６において前回更新した変換確率テーブルに基づいて、動的計画法に従って、文字間の対応関係である最適アライメントを求める。

次に、ステップＳ１０６では、ステップＳ１０４において正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、崩れフレーズと正規フレーズの同時確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）を求め、メモリに記憶し、求められた同時確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）の値により変換確率テーブルを更新し、対数尤度を算出する。

次に、ステップＳ１０８では、ステップＳ１０６において算出した対数尤度の値と、前回のステップＳ１０６において算出した対数尤度の値の差分が、予め定められた閾値ε以下か否かを判定する。差分が閾値ε以下である場合には反復終了条件が満たされたと判定し、ステップＳ１１０へ移行し、差分が閾値εよりも大きい場合には反復終了条件が満たされていないと判定し、ステップＳ１０４へ移行し、ステップＳ１０４からステップＳ１０８の処理を繰り返す。

次に、ステップＳ１１０では、ステップＳ１０６において最終的に更新された変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部３６に記憶する。

次に、ステップＳ１１２では、ステップＳ１１０において記憶された正規崩れフレーズモデルと、正規語辞書とに基づいて、正規崩れフレーズモデルに基づいて正規語を変換した崩れ語、正規語、及び正規語に対する品詞情報の組み合わせを、崩れ語の各々について格納した崩れ表記辞書を生成し、崩れ表記辞書ＤＢ４４に記憶する。

ステップＳ１１４では、正規崩れフレーズモデル記憶部に記憶された正規フレーズがｎｕｌｌである複数の崩れフレーズと、同時確率Ｐ（Ｓ_Ｗ,Ｓ_Ｖ）との組み合わせからなるスキップリストを生成し、スキップリスト記憶部４２に記憶する。

ステップＳ１１６では、入力部１０で受け付けた文書に含まれる入力文字列の各々に対して、ステップＳ１１４で生成されたスキップリストを用いて動的照合し、当該入力文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。

ステップＳ１１８では、入力部１０で受け付けた文書に含まれる入力文字列の各々に対し、当該入力文字列及びステップＳ１１４で当該入力文字列から生成された文字列の各々について、崩れ表記辞書ＤＢ４４に記憶された崩れ表記辞書、正規語辞書ＤＢ４６に記憶された正規語辞書、及び文字種変換辞書ＤＢ４８に記憶された文字種変換辞書を用いて、辞書引きを行い、当該入力文字列、及び生成された文字列に含まれる、品詞が付与された各形態素であって、崩れ語である場合の変換候補としての正規語が付与された各形態素に対応するノード及び入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

ステップＳ１２０では、入力文字列の各々に対し、崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）の各々の初期値、又は、後述するステップ１２２により算出された前回の更新値と、ステップＳ１１８において生成されたラティスとに基づいて、当該入力文字列についてラティスの全ての各ノード、リンクの期待頻度を算出する。

ステップＳ１２２では、ステップＳ１２０により全ての入力文字列について算出された期待頻度を集計して、正規化した結果を、崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）の各々の更新値として算出し、上記（５）式の期待対数尤度関数を計算する。

ステップＳ１２４では、ステップＳ１２２によって求められた期待対数尤度関数が収束したかを判定し（前回計算した期待対数尤度関数との差分があらかじめ定めた閾値ε以下になっているか否かを判定し）、収束していればステップＳ１２６へ移行し、収束していなければステップＳ１１２からステップＳ１２４の処理を繰り返す。

ステップＳ１２６では、ステップＳ１２２で算出された崩れ語生成確率ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率ｐ（ｃ_ｉ｜ｃ_ｉ−１）の各々を最尤モデルとして出力部６０に出力し処理を終了する。

＜本発明の実施の形態に係る文字列変換装置の作用＞

次に、本発明の実施の形態に係る文字列変換装置３００の作用について説明する。まず、上記モデル学習処理ルーチンによって得られた最尤モデルが、最尤モデル記憶部３５０に格納される。また、入力部３１０において文書を受け付けると、文字列変換装置３００は、図１７に示す文字列変換処理ルーチンを実行する。

まず、ステップＳ３００では、入力部３１０において受け付けた文書に含まれる文字列の各々に対して、スキップリスト記憶部３４０に記憶されているスキップリストを用いて動的照合し、当該文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。

ステップＳ３０２では、入力部３１０において受け付けた文書に含まれる文字列の各々に対して、当該文字列及びステップＳ３００において当該文字列から生成された文字列の各々について、崩れ表記辞書ＤＢ３４２に記憶されている崩れ表記辞書、正規語辞書ＤＢ３４４に記憶された正規語辞書、及び文字種変換辞書ＤＢ３４６に記憶された文字種変換辞書を用いて辞書引きを行い、品詞及び変換候補としての正規語が付与された各形態素に対応するノード及び入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。

ステップＳ３０４では、入力部３１０において受け付けた文書に含まれる文字列の各々に対して、ステップＳ３０２において生成されたラティスと、モデル学習装置１００によって学習され最尤モデル記憶部３５０に記憶された最尤モデルとに基づいて、当該文字列に含まれる崩れ語を正規語に変換した文字列を生成すると共に、形態素解析結果を出力する。

以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、正規崩れフレーズモデルを生成し、生成した正規崩れフレーズモデルから崩れ表記辞書及びスキップリストを生成し、文書に含まれる入力文字列の各々について、スキップリストに基づいて正規フレーズが空文字である崩れフレーズを削除した文字列を生成し、ラティスを生成し、生成されたラティスに基づいて、文字列に含まれる崩れ語を正規語に変換するための最尤モデルを学習することで、文字列に含まれる揺らいだ表記である崩れ語を正規語に精度よく変換するためのモデルを学習することができる。

また、本発明の実施の形態に係る文字列変換装置によれば、入力された文字列からスキップリストに含まれる崩れフレーズを削除した文字列を生成し、当該文字列及び生成した文字列から生成したラティスと、最尤モデルとに基づいて、当該文字列に含まれる崩れ語を正規語に変換することで、文字列に含まれる揺らいだ表記である崩れ語を正規語に変換することができる。

また、正規表記と崩れ表記の文字列アライメントを用いて、崩れ表記から正規表記を展開することができる。

また、単語レベルの崩れ語生成確率を用いることで、より正確に崩れ現象をモデル化することができる。

また、文字情報だけでなく正規語の品詞や文字位置情報も同時に学習することで、文字変換における文字位置と品詞の情報を適切に考慮することができる。例えば、「おはよう→おはよぉ」であれば（ぉ，“う，感動詞，Ｅ”）といった変換パタンを学習できる。

また、正規文字列側に文字の形態素中での位置と品詞を付与した状態でアライメントを行うため、崩れ文字列側の省略も扱うことが可能となり、より汎化されたパタンを獲得することができる。例えば、正規語「あつい」に対し、崩れ語が「あつ」のとき（ｎｕｌｌ,“い，形容詞，Ｅ”）といった変換パタンを獲得することができる。このような変換パタンが獲得できた場合、「あつ→あつい」のような変換パタンだけでなく、「さむ→さむい」のように形容詞末尾が“い”で終わる語の“い”が省略されるというより汎化された変換パタンを獲得することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

１０、３１０入力部
２０、３２０演算部
３０初期設定部
３２フレーズアライメント部
３４正規崩れフレーズモデル推定部
３６正規崩れフレーズモデル記憶部
３８崩れ表記辞書生成部
４０スキップリスト生成部
４２、３４０スキップリスト記憶部
４４、３４２崩れ表記辞書ＤＢ
４６、３４４正規語辞書ＤＢ
４８、３４６文字種変換辞書ＤＢ
５０、３３０文字列生成部
５２、３３２ラティス生成部
５４モデル学習部
６０、３６０出力部
１００モデル学習装置
３００文字列変換装置
３３４文字列変換部
３５０最尤モデル記憶部

Claims

入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する正規崩れフレーズモデル推定部と、
前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成する崩れ表記辞書生成部と、
入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するモデル学習部と、
を含む、モデル学習装置。
前記モデル学習部は、入力文字列中の観測語ｗ_ｉが正規語ｖ_ｉから生成される確率Ｐ（ｗ_ｉ｜ｖ_ｉ）、正規語ｖ_ｉが品詞ｃ_ｉから生成される確率Ｐ（ｖ_ｉ｜ｃ_ｉ）、及び品詞ｃ_ｉが隣り合う一つ前の品詞ｃ_ｉ−１から生成される確率Ｐ（ｃ_ｉ｜ｃ_ｉ−１）の積算値を最尤化するように、前記確率Ｐ（ｗ_ｉ｜ｖ_ｉ）、前記確率Ｐ（ｖ_ｉ｜ｃ_ｉ）、及び前記確率Ｐ（ｃ_ｉ｜ｃ_ｉ−１）を、前記最尤モデルとして学習する請求項１記載のモデル学習装置。
前記ラティス生成部は、前記入力された文書に含まれる入力文字列の各々に対して、対応する正規フレーズが空の文字列である複数の崩れフレーズからなるスキップリストを用いて、前記入力文字列から、前記スキップリストに含まれる前記崩れフレーズを削除した文字列を生成し、前記入力文字列、及び前記生成された文字列について、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列、及び前記生成された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造である前記ラティスを生成する請求項１又は２記載のモデル学習装置。
入力された文字列に対して、請求項１〜請求項３の何れか１項記載のモデル学習装置により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部によって生成されたラティスと、前記モデル学習装置によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、
を含む、文字列変換装置。
フレーズアライメント部、正規崩れフレーズモデル推定部、崩れ表記辞書生成部、ラティス生成部、モデル学習部を含むモデル学習装置におけるモデル学習方法であって、
前記フレーズアライメント部が、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるステップと、
前記正規崩れフレーズモデル推定部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成するステップと、
前記崩れ表記辞書生成部が、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成するステップと、
前記ラティス生成部が、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
前記モデル学習部が、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するステップと、
を含む、モデル学習方法。
ラティス生成部、文字列変換部を含む文字列変換装置における文字列変換方法であって、
前記ラティス生成部が、入力された文字列に対して、請求項５記載のモデル学習方法により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
前記文字列変換部が、前記ラティス生成部によって生成されたラティスと、前記モデル学習方法によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、
を含む、文字列変換方法。
コンピュータを、請求項１〜請求項３の何れか１項記載のモデル学習装置を構成する各部として機能させるためのプログラム。
コンピュータを、請求項４に記載の文字列変換装置を構成する各部として機能させるためのプログラム。