JP6220761B2 - モデル学習装置、文字列変換装置、方法、及びプログラム - Google Patents

モデル学習装置、文字列変換装置、方法、及びプログラム Download PDF

Info

Publication number
JP6220761B2
JP6220761B2 JP2014213752A JP2014213752A JP6220761B2 JP 6220761 B2 JP6220761 B2 JP 6220761B2 JP 2014213752 A JP2014213752 A JP 2014213752A JP 2014213752 A JP2014213752 A JP 2014213752A JP 6220761 B2 JP6220761 B2 JP 6220761B2
Authority
JP
Japan
Prior art keywords
word
character string
regular
phrase
collapsed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014213752A
Other languages
English (en)
Other versions
JP2016081379A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014213752A priority Critical patent/JP6220761B2/ja
Publication of JP2016081379A publication Critical patent/JP2016081379A/ja
Application granted granted Critical
Publication of JP6220761B2 publication Critical patent/JP6220761B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、モデル学習装置、文字列変換装置、方法、及びプログラムに係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するためのモデル学習装置、文字列変換装置、方法、及びプログラムに関する。
従来より、崩れ表記の単語(「崩れ語」と呼称)が正規表記の単語(「正規語」と呼称)から生成される確率を教師なし学習を用いて求める技術が知られている(非特許文献1参照)。ここで「崩れ表記」とは、図18に示すように口語調やweb特有の書き言葉など、新聞などの正書法では現れない表記を指す。
また、文字列の変換パタンを文字列アライメントによって求める手法が知られている(非特許文献2参照)。
また、文字列のひらがな化、カタカナ化を行うための素性を導入し、識別モデルを用いて定式化する手法が知られている(非特許文献3参照)。
非特許文献1の技術では、観測単語の系列(崩れ語を含む単語列)は、潜在的な正規語の系列から生成された生成モデルに基づくと仮定して、観測単語の生起確率を推定している。観測単語の系列をw、正規語の系列をvとする。
w=(w,...,w
v=(v,...,v
また、各観測単語wは正規語vから独立に生成されるとする。
形態素解析として用いる場合は、品詞をクラスとするクラス言語モデルの変種として確率値を最大化する単語及び品詞列<vopt,copt>を求める式を下記(2)式のように定式化できる。ただし、cは品詞を表す。
なお、P(w|v)、P(v|c)、及びP(c|c1−1)の推定は、崩れ語を含む大量の実文章データを用いてEMアルゴリズムに基づき行う。
非特許文献2の技術では、動的計画法に基づき、図19に示す表を用いて最小コストの経路を探索し、文字間の対応関係を求めている。総コストは、各経路における文字列の対応コストの和で表される。コスト関数としては、例えば、図20のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路1であるとすると、出力アライメントは、(か,か)、(な,な)、(ぁー,null)、(り,り)となる。ただし、(null,x)は崩れ語中への部分文字列xの挿入、(y,null)は崩れ語中の部分文字列yの削除を表す。nullとは対応する文字列が存在しないことを意味する。
非特許文献3の技術によれば、入力文について生成したラティスの各経路について、正規文の尤もらしさを判断するための複数の素性に関する重みを用いて最適な候補の選択を行っている。最適な候補の選択は、下記(3)式に示すように素性関数と重みを掛け合わせた総コストの値を最小化するように行われる。
ただし、^wは最適単語及び最適品詞の列であり、Wは単語及び品詞の列を示す。また、λはk番目の素性の重みであり、φ(w)はk番目の素性を示す。各素性としては、経路が表す品詞列に対して、品詞同士が連接する確率に関する品詞連接コストを示す第1素性φ1、経路が表す単語列に対して、単語が生起する確率に関する単語コストを示す第2素性φ2、経路が表す単語列に対して、n個の単語が生起したときに単語が生起する確率に関する単語表層n−gramに基づくコストを示す第3素性φ3、崩れフレーズを正規フレーズに変換することについての変換確率及び崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアを含む文字列変換コストを示す第4素性(φ4、φ5)、文字列が、文字種変換辞書に基づいて置き換えた部分文字列を含む場合における文字種変換コストを示す第5素性(φ6、φ7)を用いる。ここで、単語表層n−gramに基づくコストを示す第3素性φ3は、−log(単語bi−gram確率)の値である。また、文字列変換コストを示す第4素性は、−log(正規崩れフレーズモデルの変換確率)の値である素性φ4と、フレーズフィルタモデルに基づく崩れフレーズを正規フレーズへ変換した変換の尤もらしさを示すスコアである素性φ5とを含む。また、文字種変換コストを示す第5素性は、文字種がひらがなに変換された文字列に対して(1×単語コスト)となる値である素性φ6と、文字種がカタカナに変換された文字列に対して(1×単語コスト)となる値である素性φ7を用いることができる。
工藤,市川,Talbot,賀沢, "Web上のひらがな交じり文に頑健な形態素解析" ,言語処理学会 第18回年次大会, 2012 斉藤,貞光,浅野,松尾,"正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入",情報処理学会 第214回自然言語処理研究会,Vol.2013-NL-214, No.5 , 2013 斉藤,貞光,浅野,松尾,"正規-崩れ文字列アライメントと文字種変換を用いた崩れ表記正規化に基づく日本語形態素解析" ,第20回言語処理学会全国大会,2014/3/10
しかし、非特許文献1の技術では、辞書から容易に展開可能な単語の読みが、ひらがな表記されている崩れ語候補のみに適用されており、その他の崩れ表記の列挙方法は提案されていない。例えば、以下のAのような単語が全てひらがな表記された単語は扱えるが、Bのような口語的もしくは音的な崩れ表記の列挙方法は提示されていない。
A)てすと(テスト),ゆうびんきょく(郵便局)
B)すっげー(すごい),すんばらしー(すばらしい)
また、非特許文献2の技術では、文字位置や品詞ごとに異なる変換確率を考慮することができない。例えば、正規語「おはよう」、崩れ語「おはよぉ」に対し、従来技術では、例えば「う,ぉ」の変換パタンを学習する。しかし、実際「うれしい→ぉれしい」と崩れる確率はほぼ0である。このように文字の崩れやすさは、文字の単語内での位置と品詞などに依存して変化する。
また、非特許文献2の技術では、変換パタンとして崩れ文字列側の削除を扱うことができなかったため、変換パタンのカバー率に課題があった。例えば正規語「あつい」に対し、崩れ語が「あつ」のとき従来は(崩れ文字列,正規文字列)=(null, い)といったパタンは、このような変換パタンを許すとデコード時の展開候補が膨大になってしまい実質扱うことができないという問題があり、扱うことができなかった。そのため、獲得されるパタンは(つ,つい)といったパタンとなっていた。
上記のような場合、「形容詞末尾の“い”省略」というより汎化された変換パタンを獲得することができず、「あつ→あつい」は生成できるが「さむ→さむい」は生成できないといったように変換パタンのカバー率の面で課題があった。
また、非特許文献2及び非特許文献3の技術では、動的計画法による文字列の経路におけるコストや、素性として文字列レベルの変換確率を用いているが、単語レベルの崩れ語生成確率を求めることができないという問題があった。例えば、単語レベルの崩れ語生成確率、p(てすと|テスト)の生成確率を求めることができない。つまり、単語ごとに異なる崩れ語生成確率を直接考慮することができなかった。
本発明は、上記問題点を解決するために成されたものであり、文字列に含まれる揺らいだ表記である崩れ語を正規語に精度よく変換するためのモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
また、文字列に含まれる揺らいだ表記である崩れ語を正規語に変換することができる文字列変換装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るモデル学習装置は、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する正規崩れフレーズモデル推定部と、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成する崩れ表記辞書生成部と、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するモデル学習部と、を含んで構成されている。
また、第1の発明に係るモデル学習装置において、前記モデル学習部は、入力文字列中の観測語wが正規語vから生成される確率P(w|v)、正規語vが品詞cから生成される確率P(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率P(c|ci−1)の積算値を最尤化するように、前記確率P(w|v)、前記確率P(v|c)、及び前記確率P(c|ci−1)を、前記最尤モデルとして学習してもよい。
また、第1の発明に係るモデル学習装置において、前記ラティス生成部は、前記入力された文書に含まれる入力文字列の各々に対して、対応する正規フレーズがnullである複数の崩れフレーズからなるスキップリストを用いて、前記入力文字列から、前記スキップリストに含まれる前記崩れフレーズを削除した文字列を生成し、前記入力文字列、及び前記生成された文字列について、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列、及び前記生成された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造である前記ラティスを生成してもよい。
また、第2の発明に係る文字列変換装置は、入力された文字列に対して、上記第1の発明に係るモデル学習装置により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部によって生成されたラティスと、前記モデル学習装置によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、を含んで構成されている。
第1の発明に係るモデル学習方法は、フレーズアライメント部、正規崩れフレーズモデル推定部、崩れ表記辞書生成部、ラティス生成部、モデル学習部を含むモデル学習装置におけるモデル学習方法であって、前記フレーズアライメント部が、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるステップと、前記正規崩れフレーズモデル推定部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成するステップと、前記崩れ表記辞書生成部が、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成するステップと、前記ラティス生成部が、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、前記モデル学習部が、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するステップと、を含んで実行することを特徴とする。
また、第2の発明に係る文字列変換方法は、ラティス生成部、文字列変換部を含む文字列変換装置における文字列変換方法であって、前記ラティス生成部が、入力された文字列に対して、上記第1の発明に係るモデル学習方法により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、前記文字列変換部が、前記ラティス生成部によって生成されたラティスと、前記モデル学習方法によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、を含んで実行することを特徴とする。
また、第1の発明に係るプログラムは、コンピュータを、上記第1の発明のモデル学習装置を構成する各部として機能させるためのプログラムである。
また、第2の発明に係るプログラムは、コンピュータを、上記第2の発明の文字列変換装置を構成する各部として機能させるためのプログラムである。
また、本発明のモデル学習装置、方法、及びプログラムによれば、文字列に含まれる揺らいだ表記である崩れ語を正規語に精度よく変換するためのモデルを学習することができる。
本発明の文字列変換装置、方法、及びプログラムによれば、文字列に含まれる揺らいだ表記である崩れ語を正規語に変換することができる。
崩れ語と正規語の例を示す図である。 正規フレーズと崩れフレーズの例を示す図である。 本実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。 正規語崩れ語ペアの例を示す図である。 動的計画法に基づいて最小コストの経路を探索する際に用いられる表の例を示す図である。 動的計画法のコスト関数の例を示す図である。 動的計画法に基づく経路において文字位置及び品詞を付与した表の例を示す図である。 正規崩れフレーズモデルの例を示す図である。 崩れ表記辞書の生成例を示す図である。 崩れ表記辞書の例を示す図である。 スキップリストの例を示す図である。 ラティスの例を示す図である。 最尤モデルにおける単語レベルの崩れ語生成確率の例を示す図である。 本実施の形態に係る文字列変換装置の機能的構成を示すブロック図である。 本実施の形態に係る文字列変換装置を用いて崩れ語を含む入力文字列を正規表記の文字列へ変換した例を示す図である。 本実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。 本実施の形態に係る文字列変換装置における文字列変換処理ルーチンを示すフローチャートである。 崩れた表記の例を示す図である。 動的計画法の例を示す図である。 動的計画法のコスト関数の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る正規崩れフレーズモデルの概要>
まず、本発明の実施の形態における正規崩れフレーズモデルの概要を説明する。
本実施の形態において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図1に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図2に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア(正解データ)を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図3に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部60とを備えている。
入力部10は、図4に示すような、Twitter(登録商標)やブログなどの特定分野で典型的に記載されている崩れ表記が含まれる文から、人手で抽出された崩れ語に対し、対応する正規語が付与されたフレーズ推定用の正解データである正規語崩れ語ペアデータを受け付ける。ここで正規語には品詞情報が付与されている。また、入力部10は、web上の特定分野の文書を受け付ける。
演算部20は、初期設定部30と、フレーズアライメント部32と、正規崩れフレーズモデル推定部34と、正規崩れフレーズモデル記憶部36と、崩れ表記辞書生成部38と、スキップリスト生成部40と、スキップリスト記憶部42と、崩れ表記辞書DB44と、正規語辞書DB46と、文字種変換辞書DB48と、文字列生成部50と、ラティス生成部52と、モデル学習部54と、を含んで構成されている。
初期設定部30は、入力部10において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズSと崩れフレーズSの全てのペアを求め、各ペアについて変換確率P(S,S)をランダムに設定し、正規フレーズと崩れフレーズのペアの変換確率を格納した変換確率テーブルを生成しメモリ(図示省略)に記憶する。なお、正規フレーズSと崩れフレーズSの各ペアの変換確率P(S,S)をヒューリスティックに設定してもよい。
フレーズアライメント部32は、品詞情報が付与され、かつ、正規化された表現である正規語と、正規語に対して揺らいだ表記である崩れ語との複数のペアの各々について、初期設定部30において生成された又は正規崩れフレーズモデル推定部34において更新された変換確率テーブルに基づいて、正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求める。
フレーズアライメント部32では、正規語の文字列アライメントとして文字位置(B:形態素の先頭,I:形態素の内部,E:形態素の末尾のタグで表現)、及び品詞情報を付与する。なお、上記非特許文献2の技術では制約として崩れ語側の削除パタンを候補から除いていたが、本実施の形態では制約は設けず、崩れ語側の削除パタンも候補に含める。
具体的には、前向き後ろ向きアルゴリズムによる動的計画法に基づいて、図5に示すような表を用いて最小コストの経路(またはn−best解)を探索し、文字間の対応関係を求める。経路の総コストは、経路上における文字列の対応コストの和で表される。コスト関数としては、例えば、図6のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路1であるとすると、出力アライメントは、図7に示すように(か−B−副詞,か),(な−I−副詞,な),(null,ぁー),(り−E−副詞,り)となる。ただし、(null,x)はxの挿入、(y,null)はyの削除を表す。
正規崩れフレーズモデル推定部34は、フレーズアライメント部32により求められた複数のペアの各々についての対応関係に基づいて、崩れフレーズと、崩れフレーズに対応する正規フレーズ、正規フレーズの各文字の、形態素における文字位置、及び正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する。
正規崩れフレーズモデル推定部34は、具体的には、フレーズアライメント部32において求められた正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、下記(4)式に従って、対数尤度が収束するまで繰り返し計算を行い、崩れフレーズと正規フレーズの同時確率を求める。
ただし、N(S,S)は、(S,S)のアライメントが表れた回数を示し、P(S,S)は崩れフレーズと正規フレーズの同時確率である。
正規崩れフレーズモデル推定部34における繰り返し計算では、例えば、前回計算分の対数尤度との差分が予め定められた閾値ε(例えばε=0.05)以下か否か判定する。差分が閾値ε以下である場合には、反復終了条件が満たされたと判定し、図8に示すような、現在の変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部36に記憶する。ここで、BIESはそれぞれ形態素中の文字位置を表す。Bは形態素の先頭の文字、Iは形態素の内部の文字、Eは形態素の末尾の文字、Sは一文字形態素の文字を表す。例えば、”ていうか”(独立詞)の場合、て−B、い−I、う−I、か−Eというフラグがそれぞれ振られる。また、差分が閾値εよりも大きい場合には、反復終了条件が満たされていないと判定し、フレーズアライメント部32及び正規崩れフレーズモデル推定部34の処理を繰り返す。なお、繰り返し回数が上限回数に達したことを反復終了条件としてもよい。
正規崩れフレーズモデル記憶部36には、正規崩れフレーズモデルが記憶されている。
崩れ表記辞書生成部38は、正規崩れフレーズモデル推定部34によって生成された正規崩れフレーズモデルと、正規語辞書DB46に記憶されている、正規語の各々に対する品詞情報を含む各種情報(読み、表記、品詞)を格納した既存の正規語辞書とに基づいて、正規崩れフレーズモデルに基づいて正規語を変換した崩れ語、正規語、及び正規語に対する品詞情報の組み合わせを、崩れ語の各々について格納した崩れ表記辞書を生成する。
崩れ表記辞書生成部38は、具体的には、まずP(S,S)が予め定めた閾値より大きい崩れフレーズと正規フレーズとのペアを抽出する。次に、抽出されたペアについて、正規語辞書DB46により辞書引きを行い、正規語辞書DB46のエントリの中から、当該ペアの正規フレーズを構成する文字列が部分一致し、文字位置及び品詞が一致するエントリを抽出する。例えば図9に示すように、形容詞で末尾の文字が「い」であるエントリをすべて抽出するとすれば、「あつい」、「かわいい」、「楽しい」、「さむい」等が該当する。そして、崩れ表記辞書生成部38は、正規語辞書DB46から抽出された正規語の、正規フレーズを構成する文字列と一致する部分を、抽出されたペアの崩れフレーズで置き換える。上記の例の場合、「い」を「っ」で置き換える。このようにして生成した崩れ語、正規語、及び正規語に対する品詞情報の組み合わせを、崩れ表記辞書DB44に登録する。なお、正規語辞書DB46のエントリの正規語が、抽出されたペアの正規フレーズを構成する文字列と完全一致する場合には置き換えを行わずに、抽出されたペアの崩れフレーズを構成する文字列、正規フレーズを構成する文字列、及び正規語辞書DB46のエントリの品詞情報の組み合わせを、そのまま崩れ表記辞書DB44に登録する。崩れ表記辞書の一例を図10に示す。
スキップリスト生成部40は、正規崩れフレーズモデル記憶部に記憶された正規フレーズが空の文字列である複数の崩れフレーズと、同時確率P(S,S)との組み合わせからなるスキップリストを生成し、スキップリスト記憶部42に記憶する。スキップリストの一例を図11に示す。
文字種変換辞書DB48には、文字列の文字種を展開するために必要な「漢字」「ひらがな」「カタカナ」の相互に対応する文字列の組み合わせであって、同一の読みとなる文字列の組み合わせが複数組格納された文字種変換辞書が記憶されている。
文字列生成部50は、入力部10で受け付けた文書に含まれる入力文字列の各々に対して、スキップリスト記憶部42に記憶されたスキップリストを用いて動的照合し、入力文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。例えば、スキップリストに{ー,ぁ,ぃ ,っ}の崩れフレーズがある場合、「すーごくたのしっ!」に対してスキップリストを照合すると、2文字目の「ー」と8文字目の「っ」がマッチする。この場合、「すごくたのしっ!」及び「すーごくたのし!」という2つの新たな文字列を生成する。ラティス生成部52には、入力文字列とスキップリストによって生成された文字列が出力される。上記例の文字列の場合であれば「すーごくたのしっ!」「すごくたのしっ!」、及び「すーごくたのし!」が3つの文字列が出力される。なお、スキップリストの照合は、同時確率P(S,S)が予め定めた閾値以上となるものに限定してもよい。
ラティス生成部52は、入力部10で受け付けた文書に含まれる入力文字列及び文字列生成部50で生成された文字列の各々について、崩れ表記辞書DB44に記憶された崩れ表記辞書、正規語辞書DB46に記憶された正規語辞書、及び文字種変換辞書DB48に記憶された文字種変換辞書を用いて、辞書引きを行い、入力文字列、及び生成された文字列に含まれる、品詞が付与された各形態素であって、崩れ語である場合の変換候補としての正規語が付与された各形態素に対応するノード及び入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。作成したラティスの例を図12に示す。ここで、括弧付きのものが変換候補としての正規語である。
ラティス生成部52では、正規語辞書DB46に記憶された正規語辞書、及び崩れ表記辞書DB44に記憶された崩れ表記辞書を用いて、ラティスの各ノードに対して品詞情報を付与する。また、ラティス生成部52では、崩れ表記辞書DB44に記憶された崩れ表記辞書を用いて、ラティスの各ノードに対して、崩れ語である場合の変換候補としての正規語を付与する。また、ラティス生成部52では、文字種変換辞書DB48に記憶された文字種変換辞書を用いて、各ノードについて、読みに基づいて展開を行う。「漢字」表記又は「カタカナ」表記から「ひらがな」表記を展開する。同様に、「漢字」表記又は「ひらがな」表記から「カタカナ」表記を展開する。例えば前者であれば「教科書→きょうかしょ」「バイト→ばいと」と展開し、後者であれば「先生→センセイ」「ありがとう→アリガトウ」と展開する。
モデル学習部54は、ラティス生成部52によって入力文字列及び文字列生成部50で生成された文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる崩れ語を正規語に変換するための最尤モデルを学習する。
モデル学習部54では、入力文字列の各々に対し、予め求められた観測語w(崩れ語含む)が正規語vから生成される崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)の各々の初期値、又は、崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)の各々の前回値と、ラティス生成部52で生成されたラティスとに基づいて、当該入力文字列についてラティスの全ての各ノード、リンクの期待頻度を算出する。そして、全ての文について算出された期待頻度を集計し、正規化した結果を、崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)の各々の更新値として算出する。そして、下記(5)式の期待対数尤度関数を計算する。ここで、dは入力文字列、Dは入力文字列の集合を表す。zはc、v、wの組を表す。
そして、モデル学習部54は、バウムウェルチアルゴリズムに従って、入力文書の全ての入力文字列について、既存のモデルで解析した結果から計算されたp(w|v)及びp(v|c)、並びに予め定められたp(c|ci−1)を初期値として、上記(5)式で求められた期待対数尤度関数が、収束するまで、文字列生成部50、ラティス生成部52、及びモデル学習部54における繰り返すことにより、最尤モデルを学習する。ここで、収束判定には、前回計算分の対数尤度との差分が予め定められた閾値ε(例えばε=0.05)以下か否か判定する。なお、モデル学習部54の処理のみ繰り返し行うようにしてもよい。
求められた最尤モデルの単語についての推定結果の例を図13に示す。図13の表に示すように、単語ごとに個別の崩れ語生成確率が求まっている。従来法では、例えば「すごい」→「すげー」となる崩れ語生成確率を求めることはできず、「ごい」→「げー」という文字列レベルの変換確率しか求めることができなかった。そのため、例えば「うごい(動い・動詞)」→「うげー」という崩れ語生成確率と「すごい」→「すげー」の崩れ語生成確率が同じものとして扱われていたが、本実施の形態のモデル学習によって、単語レベルの崩れ語生成確率を求めることが可能になった。
<本発明の実施の形態に係る文字列変換装置の構成>
次に、本発明の実施の形態に係る文字列変換装置の構成について説明する。図14に示すように、本発明の実施の形態に係る文字列変換装置300は、CPUと、RAMと、後述する文字列変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図14に示すように入力部310と、演算部320と、出力部360とを備えている。
入力部310は、web上の特定分野の文書を受け付ける。
演算部320は、文字列生成部330と、ラティス生成部332と、文字列変換部334と、スキップリスト記憶部340と、崩れ表記辞書DB342と、正規語辞書DB344と、文字種変換辞書DB346と、最尤モデル記憶部350とを含んで構成されている。
文字列生成部330は、モデル学習装置100の文字列生成部50と同様に、入力部310で受け付けた文書に含まれる文字列の各々に対して、スキップリスト記憶部340に記憶されているスキップリストを用いて動的照合し、当該文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。
スキップリスト記憶部340には、モデル学習装置100において生成されたスキップリストと同一のスキップリストが記憶されている。
崩れ表記辞書DB342には、モデル学習装置100において生成された崩れ表記辞書と同一の崩れ表記辞書が記憶されている。
正規語辞書DB344には、モデル学習装置100の正規語辞書DB46と同一の既存の正規語辞書(読み、表記、品詞)が記憶されている。
文字種変換辞書DB346には、文字列の文字種を展開するために必要な「漢字」「ひらがな」「カタカナ」の相互に対応する文字列の組み合わせであって、同一の読みとなる文字列の組み合わせが複数組格納された文字種変換辞書が記憶されている。
ラティス生成部332は、ラティス生成部52と同様に、入力部310で受け付けた文書に含まれる文字列の各々に対し、当該文字列及び文字列生成部330において当該文字列から生成された文字列の各々について、崩れ表記辞書DB342に記憶されている崩れ表記辞書、正規語辞書DB344に記憶された正規語辞書、及び文字種変換辞書DB346に記憶された文字種変換辞書を用いて辞書引きを行い、当該文字列及び生成された文字列に含まれる品詞が付与された各形態素であって、崩れ語である場合の変換候補としての正規語が付与された各形態素に対応するノード及び入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
最尤モデル記憶部350は、モデル学習装置100において学習された最尤モデルと同一の最尤モデルが記憶されている。
文字列変換部334は、入力部310で受け付けた文書に含まれる文字列の各々に対し、ラティス生成部332によって生成されたラティスと、上記モデル学習装置100によって学習され最尤モデル記憶部350に記憶された最尤モデルとに基づいて、当該文字列に含まれる崩れ語を正規語に変換した文字列を生成すると共に、当該文字列に対する形態素解析結果を出力する。
文字列変換部334は、具体的には、最尤モデル記憶部350に記憶された最尤モデルに含まれる崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)に基づいて、動的計画法に従って、確率値を最大化する単語及び品詞列<vopt,copt>を求めるための下記(6)式の目的関数を最大化する、ラティス生成部332によって生成されたラティスのノードを結んだ最適な経路を選択し、選択された経路が表す最適な単語区切りによって、崩れ語を正規語に変換した文字列を生成する。また、文字列変換部334は、選択された経路が表す品詞列及び単語区切りを、形態素解析結果として出力する。
図15に、文字列変換の例を示す。入力文字列が「今日メッチャさむ」である場合、「めっちゃ→メッチャ」といったカタカナ化現象や、「さむい→さむ」といった口語的省略現象を正しく正規化して解析が可能となっている(「メッチャ」及び「さむ」は通常辞書には存在しない)。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において正規語崩れ語ペアデータ及び文書を受け付けると、モデル学習装置100は、図16に示すモデル学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズSと崩れフレーズSの全てのペアを求め、各ペアについて変換確率P(S,S)をランダムに設定し、各ペアの変換確率を格納した変換確率テーブルを生成し、メモリに記憶する。
次に、ステップS102では、正規語崩れ語ペアデータに含まれるペアの各々について、正規語の文字列アライメントとして文字位置、及び品詞情報を付与する。
ステップS104では、ステップS100において生成した、又はステップS106において前回更新した変換確率テーブルに基づいて、動的計画法に従って、文字間の対応関係である最適アライメントを求める。
次に、ステップS106では、ステップS104において正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、崩れフレーズと正規フレーズの同時確率P(S,S)を求め、メモリに記憶し、求められた同時確率P(S,S)の値により変換確率テーブルを更新し、対数尤度を算出する。
次に、ステップS108では、ステップS106において算出した対数尤度の値と、前回のステップS106において算出した対数尤度の値の差分が、予め定められた閾値ε以下か否かを判定する。差分が閾値ε以下である場合には反復終了条件が満たされたと判定し、ステップS110へ移行し、差分が閾値εよりも大きい場合には反復終了条件が満たされていないと判定し、ステップS104へ移行し、ステップS104からステップS108の処理を繰り返す。
次に、ステップS110では、ステップS106において最終的に更新された変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部36に記憶する。
次に、ステップS112では、ステップS110において記憶された正規崩れフレーズモデルと、正規語辞書とに基づいて、正規崩れフレーズモデルに基づいて正規語を変換した崩れ語、正規語、及び正規語に対する品詞情報の組み合わせを、崩れ語の各々について格納した崩れ表記辞書を生成し、崩れ表記辞書DB44に記憶する。
ステップS114では、正規崩れフレーズモデル記憶部に記憶された正規フレーズがnullである複数の崩れフレーズと、同時確率P(S,S)との組み合わせからなるスキップリストを生成し、スキップリスト記憶部42に記憶する。
ステップS116では、入力部10で受け付けた文書に含まれる入力文字列の各々に対して、ステップS114で生成されたスキップリストを用いて動的照合し、当該入力文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。
ステップS118では、入力部10で受け付けた文書に含まれる入力文字列の各々に対し、当該入力文字列及びステップS114で当該入力文字列から生成された文字列の各々について、崩れ表記辞書DB44に記憶された崩れ表記辞書、正規語辞書DB46に記憶された正規語辞書、及び文字種変換辞書DB48に記憶された文字種変換辞書を用いて、辞書引きを行い、当該入力文字列、及び生成された文字列に含まれる、品詞が付与された各形態素であって、崩れ語である場合の変換候補としての正規語が付与された各形態素に対応するノード及び入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
ステップS120では、入力文字列の各々に対し、崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)の各々の初期値、又は、後述するステップ122により算出された前回の更新値と、ステップS118において生成されたラティスとに基づいて、当該入力文字列についてラティスの全ての各ノード、リンクの期待頻度を算出する。
ステップS122では、ステップS120により全ての入力文字列について算出された期待頻度を集計して、正規化した結果を、崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)の各々の更新値として算出し、上記(5)式の期待対数尤度関数を計算する。
ステップS124では、ステップS122によって求められた期待対数尤度関数が収束したかを判定し(前回計算した期待対数尤度関数との差分があらかじめ定めた閾値ε以下になっているか否かを判定し)、収束していればステップS126へ移行し、収束していなければステップS112からステップS124の処理を繰り返す。
ステップS126では、ステップS122で算出された崩れ語生成確率p(w|v)、正規語vが品詞cから生成される確率p(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率p(c|ci−1)の各々を最尤モデルとして出力部60に出力し処理を終了する。
<本発明の実施の形態に係る文字列変換装置の作用>
次に、本発明の実施の形態に係る文字列変換装置300の作用について説明する。まず、上記モデル学習処理ルーチンによって得られた最尤モデルが、最尤モデル記憶部350に格納される。また、入力部310において文書を受け付けると、文字列変換装置300は、図17に示す文字列変換処理ルーチンを実行する。
まず、ステップS300では、入力部310において受け付けた文書に含まれる文字列の各々に対して、スキップリスト記憶部340に記憶されているスキップリストを用いて動的照合し、当該文字列から、スキップリストに含まれる崩れフレーズを削除した文字列を生成する。
ステップS302では、入力部310において受け付けた文書に含まれる文字列の各々に対して、当該文字列及びステップS300において当該文字列から生成された文字列の各々について、崩れ表記辞書DB342に記憶されている崩れ表記辞書、正規語辞書DB344に記憶された正規語辞書、及び文字種変換辞書DB346に記憶された文字種変換辞書を用いて辞書引きを行い、品詞及び変換候補としての正規語が付与された各形態素に対応するノード及び入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
ステップS304では、入力部310において受け付けた文書に含まれる文字列の各々に対して、ステップS302において生成されたラティスと、モデル学習装置100によって学習され最尤モデル記憶部350に記憶された最尤モデルとに基づいて、当該文字列に含まれる崩れ語を正規語に変換した文字列を生成すると共に、形態素解析結果を出力する。
以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、正規崩れフレーズモデルを生成し、生成した正規崩れフレーズモデルから崩れ表記辞書及びスキップリストを生成し、文書に含まれる入力文字列の各々について、スキップリストに基づいて正規フレーズが空文字である崩れフレーズを削除した文字列を生成し、ラティスを生成し、生成されたラティスに基づいて、文字列に含まれる崩れ語を正規語に変換するための最尤モデルを学習することで、文字列に含まれる揺らいだ表記である崩れ語を正規語に精度よく変換するためのモデルを学習することができる。
また、本発明の実施の形態に係る文字列変換装置によれば、入力された文字列からスキップリストに含まれる崩れフレーズを削除した文字列を生成し、当該文字列及び生成した文字列から生成したラティスと、最尤モデルとに基づいて、当該文字列に含まれる崩れ語を正規語に変換することで、文字列に含まれる揺らいだ表記である崩れ語を正規語に変換することができる。
また、正規表記と崩れ表記の文字列アライメントを用いて、崩れ表記から正規表記を展開することができる。
また、単語レベルの崩れ語生成確率を用いることで、より正確に崩れ現象をモデル化することができる。
また、文字情報だけでなく正規語の品詞や文字位置情報も同時に学習することで、文字変換における文字位置と品詞の情報を適切に考慮することができる。例えば、「おはよう→おはよぉ」であれば(ぉ,“う,感動詞,E”)といった変換パタンを学習できる。
また、正規文字列側に文字の形態素中での位置と品詞を付与した状態でアライメントを行うため、崩れ文字列側の省略も扱うことが可能となり、より汎化されたパタンを獲得することができる。例えば、正規語「あつい」に対し、崩れ語が「あつ」のとき(null,“い,形容詞,E”)といった変換パタンを獲得することができる。このような変換パタンが獲得できた場合、「あつ→あつい」のような変換パタンだけでなく、「さむ→さむい」のように形容詞末尾が“い”で終わる語の“い”が省略されるというより汎化された変換パタンを獲得することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
10、310 入力部
20、320 演算部
30 初期設定部
32 フレーズアライメント部
34 正規崩れフレーズモデル推定部
36 正規崩れフレーズモデル記憶部
38 崩れ表記辞書生成部
40 スキップリスト生成部
42、340 スキップリスト記憶部
44、342 崩れ表記辞書DB
46、344 正規語辞書DB
48、346 文字種変換辞書DB
50、330 文字列生成部
52、332 ラティス生成部
54 モデル学習部
60、360 出力部
100 モデル学習装置
300 文字列変換装置
334 文字列変換部
350 最尤モデル記憶部

Claims (8)

  1. 入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
    前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成する正規崩れフレーズモデル推定部と、
    前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成する崩れ表記辞書生成部と、
    入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するモデル学習部と、
    を含む、モデル学習装置。
  2. 前記モデル学習部は、入力文字列中の観測語wが正規語vから生成される確率P(w|v)、正規語vが品詞cから生成される確率P(v|c)、及び品詞cが隣り合う一つ前の品詞ci−1から生成される確率P(c|ci−1)の積算値を最尤化するように、前記確率P(w|v)、前記確率P(v|c)、及び前記確率P(c|ci−1)を、前記最尤モデルとして学習する請求項1記載のモデル学習装置。
  3. 前記ラティス生成部は、前記入力された文書に含まれる入力文字列の各々に対して、対応する正規フレーズが空の文字列である複数の崩れフレーズからなるスキップリストを用いて、前記入力文字列から、前記スキップリストに含まれる前記崩れフレーズを削除した文字列を生成し、前記入力文字列、及び前記生成された文字列について、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列、及び前記生成された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造である前記ラティスを生成する請求項1又は2記載のモデル学習装置。
  4. 入力された文字列に対して、請求項1〜請求項3の何れか1項記載のモデル学習装置により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部によって生成されたラティスと、前記モデル学習装置によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、
    を含む、文字列変換装置。
  5. フレーズアライメント部、正規崩れフレーズモデル推定部、崩れ表記辞書生成部、ラティス生成部、モデル学習部を含むモデル学習装置におけるモデル学習方法であって、
    前記フレーズアライメント部が、入力された、品詞情報が付与され、かつ、正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるステップと、
    前記正規崩れフレーズモデル推定部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れフレーズと、前記崩れフレーズに対応する正規フレーズ、前記正規フレーズの各文字の、形態素における文字位置、及び前記正規フレーズの品詞情報の組み合わせとからなる正規崩れフレーズモデルを生成するステップと、
    前記崩れ表記辞書生成部が、前記正規崩れフレーズモデル推定部によって生成された前記正規崩れフレーズモデルと、前記正規語の各々に対する品詞情報を格納した正規語辞書とに基づいて、前記正規崩れフレーズモデルに基づいて前記正規語を変換した前記崩れ語、前記正規語、及び前記正規語に対する品詞情報の組み合わせを、前記崩れ語の各々について格納した崩れ表記辞書を生成するステップと、
    前記ラティス生成部が、入力された文書に含まれる入力文字列の各々に対して、前記崩れ表記辞書生成部により生成された崩れ表記辞書を用いて辞書引きを行い、前記入力文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    前記モデル学習部が、前記ラティス生成部によって前記入力文字列の各々に対して生成されたラティスに基づいて、文字列に含まれる前記崩れ語を前記正規語に変換するための最尤モデルを学習するステップと、
    を含む、モデル学習方法。
  6. ラティス生成部、文字列変換部を含む文字列変換装置における文字列変換方法であって、
    前記ラティス生成部が、入力された文字列に対して、請求項5記載のモデル学習方法により生成された前記崩れ表記辞書を用いて辞書引きを行い、前記入力された文字列に含まれる品詞が付与された各形態素であって、前記崩れ語である場合の変換候補としての前記正規語が付与された各形態素に対応するノード及び前記入力された文字列の表記に基づいて連結される形態素に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    前記文字列変換部が、前記ラティス生成部によって生成されたラティスと、前記モデル学習方法によって学習された前記最尤モデルとに基づいて、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、
    を含む、文字列変換方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載のモデル学習装置を構成する各部として機能させるためのプログラム。
  8. コンピュータを、請求項4に記載の文字列変換装置を構成する各部として機能させるためのプログラム。
JP2014213752A 2014-10-20 2014-10-20 モデル学習装置、文字列変換装置、方法、及びプログラム Active JP6220761B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014213752A JP6220761B2 (ja) 2014-10-20 2014-10-20 モデル学習装置、文字列変換装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014213752A JP6220761B2 (ja) 2014-10-20 2014-10-20 モデル学習装置、文字列変換装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016081379A JP2016081379A (ja) 2016-05-16
JP6220761B2 true JP6220761B2 (ja) 2017-10-25

Family

ID=55956223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014213752A Active JP6220761B2 (ja) 2014-10-20 2014-10-20 モデル学習装置、文字列変換装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6220761B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6684693B2 (ja) * 2016-11-09 2020-04-22 日本電信電話株式会社 文字列変換装置、モデル学習装置、方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4478042B2 (ja) * 2005-03-01 2010-06-09 日本電信電話株式会社 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム

Also Published As

Publication number Publication date
JP2016081379A (ja) 2016-05-16

Similar Documents

Publication Publication Date Title
CN110210029B (zh) 基于垂直领域的语音文本纠错方法、系统、设备及介质
JP5377889B2 (ja) 言語処理装置およびプログラム
US10319368B2 (en) Meaning generation method, meaning generation apparatus, and storage medium
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
CN110085215B (zh) 一种基于生成对抗网络的语言模型数据增强方法
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
CN104156349B (zh) 基于统计词典模型的未登录词发现和分词系统及方法
JP2009223463A (ja) 同義性判定装置、その方法、プログラム及び記録媒体
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
JP5319141B2 (ja) 言語モデルの枝刈り方法及び装置
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
KR20080039009A (ko) 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치
CN109815497B (zh) 基于句法依存的人物属性抽取方法
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
JP6220761B2 (ja) モデル学習装置、文字列変換装置、方法、及びプログラム
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
JP6712973B2 (ja) 文生成装置、文生成学習装置、文生成方法、及びプログラム
KR101417757B1 (ko) 하이퍼그래프 언어모델 학습 및 적용 장치 및 그 학습 및 적용 방법, 및 하이퍼그래프 언어모델 갱신장치 및 그 갱신방법
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
JP2017167378A (ja) 単語スコア計算装置、単語スコア計算方法及びプログラム
JP5959598B2 (ja) モデル学習装置、ランキング装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171002

R150 Certificate of patent or registration of utility model

Ref document number: 6220761

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150