JP6145027B2 - Model learning device, morphological analysis device, and program - Google Patents

Model learning device, morphological analysis device, and program Download PDF

Info

Publication number
JP6145027B2
JP6145027B2 JP2013225853A JP2013225853A JP6145027B2 JP 6145027 B2 JP6145027 B2 JP 6145027B2 JP 2013225853 A JP2013225853 A JP 2013225853A JP 2013225853 A JP2013225853 A JP 2013225853A JP 6145027 B2 JP6145027 B2 JP 6145027B2
Authority
JP
Japan
Prior art keywords
phrase
regular
character string
word
collapsed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013225853A
Other languages
Japanese (ja)
Other versions
JP2015087952A (en
Inventor
いつみ 斉藤
いつみ 斉藤
九月 貞光
九月 貞光
久子 浅野
久子 浅野
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013225853A priority Critical patent/JP6145027B2/en
Publication of JP2015087952A publication Critical patent/JP2015087952A/en
Application granted granted Critical
Publication of JP6145027B2 publication Critical patent/JP6145027B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、モデル学習装置、形態素解析装置、及びプログラムに係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するためのモデル学習装置、形態素解析装置、及びプログラムに関する。   The present invention relates to a model learning device, a morphological analysis device, and a program, and in particular, a model learning device, a morphological analysis device, and a program for robustly analyzing a broken notation that does not appear in a normal writing method such as colloquial tone About.

従来の日本語形態素解析器は、図24に示すように、形態素の連接確率(コスト)と生起確率(コスト)を用いて、入力文の分かち書き(単語分割)と品詞付与を同時に行っている(総コストが最小の組み合わせを選択する。)。   As shown in FIG. 24, a conventional Japanese morpheme analyzer simultaneously performs input sentence segmentation (word division) and part-of-speech assignment using a morpheme connection probability (cost) and occurrence probability (cost) ( Select the combination with the lowest total cost.)

また、異なる文字種間での文字変換の対応関係や、漢字−読みの対応関係を推定する際に用いられる手法として、トランスリタレーションという手法がある。トランスリタレーションとは、図25に示す様に、2つの文字列間の対応関係を求める手法であり、例えば、動的計画法を用いて、各文字の対応を推定する等、様々な拡張手法が提案されている(非特許文献1)。   Moreover, there is a technique called transliteration as a technique used when estimating the correspondence between character conversions between different character types and the correspondence between kanji and reading. As shown in FIG. 25, transliteration is a technique for obtaining the correspondence between two character strings. For example, various extension techniques such as estimating the correspondence of each character by using dynamic programming. Has been proposed (Non-Patent Document 1).

また、従来、崩れた表記に対応するために、図26に示す様な、人手で文字列の変換ルールを作成し、形態素解析に組み込むことで対応している。ここで「崩れた表記」とは、図27に示すように、口語超やweb特有の書き言葉など、新聞などの正書法では現れない表記を指す。具体的には、小文字化(あ→ぁ、い→ぃ)、長音化(あ→−、う→−)など、特徴的なパターンに関して人手整備を行い、形態素解析において、入力文の書き換えや辞書引き拡張を行う(非特許文献2、非特許文献3)。   Conventionally, in order to cope with the broken notation, a character string conversion rule as shown in FIG. 26 is manually created and incorporated into morphological analysis. Here, “broken notation” refers to notation that does not appear in the orthography of newspapers, such as over-spoken words or web-specific written words, as shown in FIG. Specifically, manual maintenance is performed for characteristic patterns such as lowercase letters (a → a, i → i), long sound (a → −, u → −), and rewriting of input sentences and dictionaries in morphological analysis. Pull extension is performed (Non-Patent Document 2, Non-Patent Document 3).

辞書引きの拡張とは、入力文字列が別の文字列に変化した場合も考慮して辞書引きを行うことである。例えば、「軽−く」という入力文に対し、通常は「軽く」という形容詞は文字列が一致しないので列挙されないが、”「−」を削除”というルールを考慮した場合、「軽−く」と「軽く」という両方の文字列を辞書引きして一つのラティスにする。この場合は、「軽く」という形態素も列挙されるため、図28のようなラティスが生成される。ここで、ラティスとは、入力文字列に対し、辞書引きを行った結果入力文字列に「マッチした形態素集合をグラフ構造にしたもの」である。図29に例を示す。   The expansion of dictionary lookup is to perform dictionary lookup in consideration of a case where the input character string is changed to another character string. For example, for an input sentence “light-light”, the adjective “lightly” is not usually enumerated because the character strings do not match, but when the rule “delete“-”” is considered, “light-light” And “lightly” both strings are dictionary-drawn into one lattice. In this case, the morpheme “light” is also listed, so that a lattice as shown in FIG. 28 is generated. Here, the lattice is “a graph structure of a set of matched morphemes” as a result of performing dictionary lookup on the input character string. An example is shown in FIG.

齋藤邦子、篠原章夫、永田昌明、小原永,「音声制御ブラウザのVCWeb の英日シームレス化」,(2002),人工知能学会論文誌,pp.343-347Kuniko Saito, Akio Shinohara, Masaaki Nagata, Ei Ohara, “VCWeb's English-Japanese Seamless Web Browser” (2002), Journal of the Japanese Society for Artificial Intelligence, pp.343-347 勝木健太、笹野遼平、河原大輔、黒橋禎夫,「web上の多彩な言語バリエーションに対応した頑健な形態素解析」,(2011),言語処理学会,第17回年次大会発表論文集Kenta Katsuki, Shinpei Kanno, Daisuke Kawahara, Ikuo Kurohashi, “Robust Morphological Analysis for Various Language Variations on the Web”, (2011), Proc. Of the 17th Annual Conference 岡照晃、小町守、小木曽智信、松本裕治,「表記のバリエーションを考慮した近代日本語の形態素解析」,(2013),第27回人工知能学会発表論文集Teruoka Oka, Mamoru Komachi, Tomonobu Ogi, Yuji Matsumoto, “Morphological Analysis of Modern Japanese Considering Variations of Notation”, (2013), Proc.

従来の日本語形態素解析器においては、辞書引きをベースとして解析を行うため、辞書に存在しない語が出現した場合に解析失敗を起こす確率が高いという点が問題となる。   In the conventional Japanese morphological analyzer, the analysis is performed based on the dictionary lookup. Therefore, there is a high probability that the analysis failure occurs when a word that does not exist in the dictionary appears.

また、上記の従来の崩れた表記に対応する手法においては、崩れパターンが多岐にわたるため、人手整備では網羅しきれず、再現率が低いという問題がある。また、崩れ確率は現象によって異なるものであるが、従来の手法においては、全ての崩れパターンに対して、同一のコストが与えられているという問題がある。   In addition, the conventional methods for dealing with corrupted notations have a variety of collapse patterns, which cannot be covered by manual maintenance and have a low recall rate. Further, although the collapse probability varies depending on the phenomenon, the conventional method has a problem that the same cost is given to all the collapse patterns.

本発明では、上記問題点を解決するために成されたものであり、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる形態素解析装置、及びプログラムを提供することを目的とする。   In the present invention, a morpheme analysis apparatus and a program capable of accurately performing morpheme analysis even on a character string including a broken word that is a distorted notation are made to solve the above problems. The purpose is to provide.

また、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができるモデル学習装置、及びプログラムを提供することができる。   In addition, it is possible to provide a model learning apparatus and a program that can learn a model that can accurately perform morphological analysis even on a character string that includes a broken word that is a fuzzy notation.

上記目的を達成するために、第1の発明に係るモデル学習装置は、入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出する変換確率算出部と、を含んで構成されている。   In order to achieve the above object, a model learning device according to a first aspect of the present invention includes a plurality of regular words that are input normalized expressions and corrupted words that are notations that fluctuate with respect to the regular words. Based on a pair, for each of the plurality of pairs, each of a regular phrase that is a partial character string in which the regular word is separated at a character string delimiter position, and a partial character in which the collapsed word is delimited at a character string delimiter position Based on the correspondence relationship between each of the plurality of pairs obtained by the phrase alignment unit and the phrase alignment unit obtained by the phrase alignment unit, the optimum correspondence relationship with each of the collapsed phrases that are columns, A conversion probability calculation unit that calculates a conversion probability that the regular phrase is converted into the collapsed phrase for each pair of the regular phrase and the collapsed phrase. It is.

また、第1の発明に係るモデル学習装置において、前記入力された前記複数のペアに基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記変換確率を格納した変換確率テーブルを初期化する初期設定部と、予め定められた反復終了条件が満たされるまで、前記フレーズアライメント部による処理及び前記変換確率算出部による算出を繰り返し、前記変換確率テーブルを正規崩れフレーズモデルとして出力する反復判定部とを更に含み、前記フレーズアライメント部は、前記変換確率テーブルに基づいて、前記複数のペアの各々についての最適な対応関係を、動的計画法に従って求め、前記変換確率算出部は、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記変換確率を算出し、前記変換確率テーブルを更新してもよい。   In the model learning device according to the first aspect of the present invention, initializing a conversion probability table storing the conversion probabilities for each pair of the regular phrase and the collapsed phrase based on the plurality of input pairs. A setting unit and an iterative determination unit that repeats the processing by the phrase alignment unit and the calculation by the conversion probability calculation unit until a predetermined repetition end condition is satisfied, and outputs the conversion probability table as a normal collapsed phrase model. Further, the phrase alignment unit obtains an optimal correspondence for each of the plurality of pairs based on the conversion probability table according to dynamic programming, and the conversion probability calculation unit includes the regular phrase and the For each pair of collapsed phrases, calculate the conversion probability and update the conversion probability table It may be.

第2の発明に係るモデル学習装置は、入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出する統計量算出部と、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記崩れフレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、を含んで構成されている。   The model learning device according to the second aspect of the present invention is based on at least one of a character n-gram composed of n characters and a word surface layer n-gram composed of n words based on a plurality of inputted corpora. A statistic calculation unit for calculating a statistic, a plurality of pairs of a normal word that is an input normalized expression and a broken word that is a distorted expression with respect to the regular word, and the broken word as a character string Based on a pre-determined regular collapsible phrase model for converting a collapsed phrase that is a partial character string delimited by a delimiter position into a regular phrase that is a partial character string delimited by the delimiter position of the character string For each of the plurality of pairs, the collapsed phrase included in the collapsed word of the pair is converted into the regular phrase, and the converted regular phrase and the regularized pair Statistic calculated for at least one of the character n-gram and the word surface layer n-gram corresponding to the collapsed phrase, and the character n-gram and the word surface layer n- corresponding to the regular phrase A data generation unit that generates learning data that is one of positive example data and negative example data, including a statistic calculated for at least one of the gram, and generated for each of the plurality of pairs by the data generation unit A learning unit that learns a phrase filter model for determining the likelihood of converting the collapsed phrase into the regular phrase based on the learned data.

第3の発明に係る形態素解析装置は、正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、を含んで構成されている。   The morpheme analyzer according to the third aspect of the present invention provides a normal phrase that is a normalized expression that is a partial character string that is a partial character string delimited by a character string delimiter, and that is a notation that is a distorted expression with respect to the normal word. A partial character string that matches the collapsed phrase with respect to the input character string, based on a normal disrupted phrase model obtained in advance for converting a broken phrase that is a partial character string obtained by dividing a word at a character string separation position. For each of the character string of the analysis candidate generated by the analysis candidate generation unit that generates a character string replaced with the corresponding regular phrase as an analysis candidate, and the input character string and the analysis candidate generation unit This is a graph structure consisting of edges that connect nodes corresponding to each partial character string to which parts of speech are assigned and nodes corresponding to connected partial character strings. A lattice generation unit that generates a lattice, a selection unit that selects an optimal path connecting the nodes according to dynamic programming based on the lattice generated in the lattice generation unit, and outputs the result as an analysis result; It is comprised including.

第4の発明に係る形態素解析装置は、正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、前記解析候補生成部によって生成された前記解析候補の各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルに基づいて、前記解析候補の尤もらしさを算出する算出部と、前記解析候補生成部によって生成された前記解析候補から、前記算出部によって算出された前記解析候補の尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記解析候補を抽出する解析候補抽出部と、前記入力された文字列及び前記解析候補抽出部によって抽出された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、を含んで構成されている。   The morpheme analyzer according to the fourth aspect of the present invention provides a normal phrase that is a normalized expression that is a partial character string that is a partial character string that is delimited at a character string delimiter position, and is a notation that is a distorted expression with respect to the normal word. A partial character string that matches the collapsed phrase with respect to the input character string, based on a normal disrupted phrase model obtained in advance for converting a broken phrase that is a partial character string obtained by dividing a word at a character string separation position. For each of the analysis candidate generated by the analysis candidate generation unit and the analysis candidate generation unit that generates a character string in which the corresponding character string is replaced with the corresponding normal phrase, the collapsed phrase is converted into the normal phrase A calculation unit that calculates the likelihood of the analysis candidate based on a phrase filter model obtained in advance for determining the likelihood of the analysis An analysis candidate that extracts the likely analysis candidate from the analysis candidate generated by the analysis candidate generation unit based on the likelihood of the analysis candidate calculated by the calculation unit and a predetermined threshold value A dictionary for each of the character strings of the extraction candidates, the input character strings and the analysis candidate character strings extracted by the analysis candidate extraction unit, and nodes corresponding to the partial character strings to which parts of speech are assigned; A lattice generation unit that generates a lattice that is a graph structure composed of edges connecting nodes corresponding to connected partial character strings, and the nodes according to dynamic programming based on the lattice generated by the lattice generation unit And a selection unit that selects an optimum route connecting the two and outputs the result as an analysis result.

また、本発明のプログラムは、コンピュータを、上記のモデル学習装置及び形態素解析装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said model learning apparatus and morphological analyzer.

以上説明したように、本発明の形態素解析装置、及びプログラムによれば、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。   As described above, according to the morphological analysis device and the program of the present invention, it is possible to accurately perform morphological analysis even on a character string including a broken word that is a distorted notation.

また、本発明のモデル学習装置、及びプログラムによれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるモデルを学習することができる。   Further, according to the model learning apparatus and the program of the present invention, it is possible to learn a model that can accurately perform morphological analysis even on a character string that includes a broken word that is a fuzzy notation.

崩れ語と正規語の例を示す図である。It is a figure which shows the example of a broken word and a regular word. 正規フレーズと崩れフレーズの例を示す図である。It is a figure which shows the example of a regular phrase and a collapse phrase. 本発明の第1の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the model learning apparatus which concerns on the 1st Embodiment of this invention. 正規語崩れ語ペアの例を示す図である。It is a figure which shows the example of a regular word breaking word pair. 動的計画法に基づいて最小コストの経路を探索する際に用いられる表の例を示す図である。It is a figure which shows the example of the table used when searching the path | route of the minimum cost based on a dynamic programming. コスト関数の例を示す図である。It is a figure which shows the example of a cost function. 正規崩れフレーズモデルの例を示す図である。It is a figure which shows the example of a regular collapse phrase model. 本発明の第1の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the morphological analyzer which concerns on the 1st Embodiment of this invention. 解析候補文を作成する例を示す図である。It is a figure which shows the example which produces an analysis candidate sentence. ラティスの例を示す図である。It is a figure which shows the example of a lattice. 本発明の第1の実施の形態に係るモデル学習装置における正規崩れフレーズモデル学習処理ルーチンを示すフローチャートである。It is a flowchart which shows the regular break phrase model learning process routine in the model learning apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。It is a flowchart which shows the phrase filter model learning process routine in the model learning apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。It is a flowchart which shows the morpheme analysis process routine in the morpheme analyzer which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る形態素解析装置を用いた結果の例を示す図である。It is a figure which shows the example of the result using the morpheme analyzer which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る形態素解析装置を用いた結果の例を示す図である。It is a figure which shows the example of the result using the morpheme analyzer which concerns on the 1st Embodiment of this invention. 本発明の第2の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the model learning apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the morphological analyzer which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係るモデル学習装置におけるフレーズフィルタモデル学習処理ルーチンを示すフローチャートである。It is a flowchart which shows the phrase filter model learning process routine in the model learning apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係る形態素解析装置における形態素解析処理ルーチンを示すフローチャートである。It is a flowchart which shows the morpheme analysis process routine in the morpheme analyzer which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the model learning apparatus which concerns on the 3rd Embodiment of this invention. 本発明の第3の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the morphological analyzer which concerns on the 3rd Embodiment of this invention. 本発明の第4の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the model learning apparatus which concerns on the 4th Embodiment of this invention. 本発明の第4の実施の形態に係る形態素解析装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the morphological analyzer which concerns on the 4th Embodiment of this invention. 従来の日本語形態素解析器の例を示す図である。It is a figure which shows the example of the conventional Japanese morphological analyzer. トランスリタレーションの例を示す図である。It is a figure which shows the example of transliteration. 人手で文字列の変換ルールを作成した例である。This is an example of manually creating a character string conversion rule. 崩れた表記の例を示す図である。It is a figure which shows the example of the notation which collapsed. ラティスの例を示す図である。It is a figure which shows the example of a lattice. マッチした形態素集合をグラフ構造にしたものの例を示す図である。It is a figure which shows the example of what made the matched morpheme set into the graph structure.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<発明の原理>
本実施の形態において、「崩れフレーズ・正規フレーズ」と「崩れ語・正規語」という言葉を用いる。図1に示すように、「崩れ語・正規語」を、崩れモデルを推定する際に、人手アノテーションによって抽出された正規文字列と崩れ文字列の単位と定義する。また、図2に示すように、「崩れフレーズ・正規フレーズ」を、崩れ語・正規語のペア(正解データ)を用いて、フレーズアライメントにより抽出した崩れ語・正規語中の部分文字列の単位と定義する。
<Principle of the invention>
In the present embodiment, the words “collapse phrase / regular phrase” and “collapse phrase / regular word” are used. As shown in FIG. 1, “collapsed word / regular word” is defined as a regular character string extracted by manual annotation and a unit of corrupted character string when the collapse model is estimated. In addition, as shown in FIG. 2, the unit of the partial character string in the broken word / normal word extracted by phrase alignment using the broken word / normal word pair (correct data) It is defined as

基本的な解決方針として、下記(1)式に示すように、従来の形態素解析の目的関数に、正規フレーズが崩れフレーズに変換される確率をかけることにより、正規表記の品詞と正しい単語区切りを同時に推定する。   As a basic solution policy, as shown in the following equation (1), by applying the probability that a regular phrase is broken and converted into a phrase to the objective function of conventional morphological analysis, the part of speech of the normal notation and the correct word break are obtained. Estimate at the same time.

ただし、P(V|W)は、正規語Vが観測語Wに変換される単語変換確率であり、正規フレーズが崩れフレーズに変換される確率と等しい。また、P(T)は、正規表記の品詞の列Tの接続確率であり、P(W|T)が、正規表記の品詞の列Tが与えられたときの観測語Wの正規確率である。   However, P (V | W) is a word conversion probability that the normal word V is converted into the observed word W, and is equal to the probability that the normal phrase is broken and converted into the phrase. Further, P (T) is a connection probability of the part T of regular notation part of speech, and P (W | T) is a normal probability of the observed word W when the part T of regular part of speech part is given. .

また、単語変換確率を文字列(フレーズ)ごとに分解し、下記(2)式に示すように、フレーズ変換確率の積で単語変換確率を近似し、フレーズ確率をトランスリタレーションモデルで求める。   Further, the word conversion probability is decomposed for each character string (phrase), and the word conversion probability is approximated by the product of the phrase conversion probabilities as shown in the following equation (2), and the phrase probability is obtained by a transliteration model.

<第1の実施の形態に係るモデル学習装置の構成>
次に、本発明の第1の実施の形態に係るモデル学習装置の構成について説明する。図3に示すように、本発明の第1の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述する正規崩れフレーズモデル学習処理ルーチン及びフレーズフィルタモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。
<Configuration of Model Learning Device According to First Embodiment>
Next, the configuration of the model learning device according to the first embodiment of the present invention will be described. As shown in FIG. 3, the model learning device 100 according to the first embodiment of the present invention executes a CPU, a RAM, a normal collapse phrase model learning process routine and a phrase filter model learning process routine, which will be described later. And a ROM including a ROM storing various programs and various data. Functionally, the model learning apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 50 as shown in FIG.

入力部10は、図4に示すような、Twitter(登録商標)やブログなど、崩れ表記が含まれる文から、人手で抽出された崩れ語に対し、対応する正規語が付与されたフレーズ推定用の正解データである正規語崩れ語ペアデータを受け付ける。また、入力部10は、web上の複数分野の大量の文書群を受け付け、複数分野のコーパスとする。   The input unit 10 is for phrase estimation in which a corresponding regular word is given to a broken word manually extracted from a sentence including a broken notation such as Twitter (registered trademark) or a blog as shown in FIG. Regular word break word pair data, which is correct answer data, is received. Further, the input unit 10 accepts a large number of document groups in a plurality of fields on the web and uses them as a corpus of a plurality of fields.

演算部20は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部42と、モデル学習部44と、フレーズフィルタモデル記憶部46とを含んで構成されている。   The calculation unit 20 includes an initial setting unit 30, a phrase alignment unit 31, a conversion probability calculation unit 32, an iterative determination unit 34, a normal collapsed phrase model storage unit 36, a statistic calculation unit 42, and a model learning unit 44. And a phrase filter model storage unit 46.

初期設定部30は、入力部10において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズfvと崩れフレーズfwの全てのペアを求め、各ペアについて変換確率P(fw|fv)をランダムに設定し、正規フレーズと崩れフレーズのペアの変換確率を格納した変換確率テーブルを生成しメモリ(図示省略)に記憶する。なお、正規フレーズfvと崩れフレーズfwの各ペアの変換確率P(fw|fv)をヒューリスティックに設定してもよい。   The initial setting unit 30 obtains all pairs of the regular phrase fv and the corrupted phrase fw based on the regular word corrupted word pair data received by the input unit 10, and randomly calculates the conversion probability P (fw | fv) for each pair. A conversion probability table that stores the conversion probabilities of pairs of regular phrases and collapsed phrases is generated and stored in a memory (not shown). Note that the conversion probability P (fw | fv) of each pair of the regular phrase fv and the collapsed phrase fw may be set heuristically.

フレーズアライメント部31は、正規語崩れ語ペアデータに含まれるペアの各々について、初期設定部30において生成された又は変換確率算出部32において更新された変換確率テーブルに基づいて、動的計画法により最適な対応関係である最適アライメントを求める。具体的には、動的計画法に基づいて、図5に示すような表を用いて最小コストの経路を探索し、文字間の対応関係を求める。経路の総コストは、経路上における文字列の対応コストの和で表される。コスト関数としては、例えば、図6のような確率値の対数をとった値が用いられる。この場合、最小コストの経路が経路1であるとすると、出力アライメントは、(か,か),(な,な),(ぁー,null),(り,り)となる。ただし、(null,x)はxの挿入、(y,null)はyの削除を表す。   The phrase alignment unit 31 uses dynamic programming based on the conversion probability table generated in the initial setting unit 30 or updated in the conversion probability calculation unit 32 for each of the pairs included in the regular word broken word pair data. Find the optimum alignment, which is the best correspondence. Specifically, based on dynamic programming, a route as shown in FIG. 5 is used to search for a route with the lowest cost, and a correspondence between characters is obtained. The total cost of the route is represented by the sum of the corresponding costs of the character strings on the route. As the cost function, for example, a logarithm of probability values as shown in FIG. 6 is used. In this case, if the path with the lowest cost is path 1, the output alignment is (ka, ka), (na, na), (aa, null), (ri, ri). However, (null, x) represents insertion of x, and (y, null) represents deletion of y.

変換確率算出部32は、フレーズアライメント部31においてt回目に求められた正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、下記(3)式に従って、t回目の計算におけるP(fw|fv)の期待値P(fw|fv)を求め、メモリに記憶する。そして、求められた期待値P(fw|fv)の値により変換確率テーブルを更新メモリに記憶する。ただし、N(fw,fv)は、正規語崩れ語ペアデータの最適アライメントにおいて正規フレーズfvが崩れフレーズfwに変換された回数を表す。 The conversion probability calculation unit 32 calculates the P in the t-th calculation according to the following equation (3) based on the optimum alignment of each pair included in the regular word collapsed word pair data obtained by the phrase alignment unit 31 at the t-th time. An expected value P t (fw | fv) of (fw | fv) is obtained and stored in the memory. Then, the conversion probability table is stored in the update memory based on the obtained expected value P t (fw | fv). However, N (fw, fv) represents the number of times that the normal phrase fv is converted into the broken phrase fw in the optimum alignment of the normal word broken word pair data.

反復判定部34は、変換確率算出部32において算出されたP(fw|fv)に基づく尤度関数と、メモリに記憶されている前回算出されたPt−1(fw|fv)に基づく尤度関数との差分が予め定められた閾値ε(例えばε=0.05)以下か否か判定する。差分が閾値ε以下である場合には、反復終了条件が満たされたと判定し、図7に示すような、現在の変換確率テーブルを、正規崩れフレーズモデルとして記憶部36に記憶すると共に、出力部50に出力する。また、差分が閾値εよりも大きい場合には、反復終了条件が満たされていないと判定し、フレーズアライメント部31の処理と、変換確率算出部32の処理とを繰り返す。なお、尤度関数は、下記(4)式により表される。また、繰り返し回数が上限回数に達したことを反復終了条件としてもよい。 The iterative determination unit 34 is based on the likelihood function based on P t (fw | fv) calculated by the conversion probability calculation unit 32 and the previously calculated P t−1 (fw | fv) stored in the memory. It is determined whether or not the difference from the likelihood function is equal to or less than a predetermined threshold value ε (for example, ε = 0.05). When the difference is less than or equal to the threshold ε, it is determined that the iteration end condition is satisfied, and the current conversion probability table as illustrated in FIG. 7 is stored in the storage unit 36 as a normal collapsed phrase model, and the output unit Output to 50. If the difference is larger than the threshold ε, it is determined that the iteration end condition is not satisfied, and the process of the phrase alignment unit 31 and the process of the conversion probability calculation unit 32 are repeated. The likelihood function is represented by the following equation (4). Further, the repetition end condition may be that the number of repetitions reaches the upper limit number.


正規崩れフレーズモデル記憶部36には、正規崩れフレーズモデルが記憶されている。   The regular broken phrase model storage unit 36 stores a regular broken phrase model.

統計量算出部42は、入力部10において受け付けた複数分野のコーパスに基づいて、全ての文字n‐gramについて、文字n‐gram統計量を算出する。例えば、対象文書として「そんなんやってらんねーよ」があった場合、文字2グラム統計量として、P(ん|そ)、P(な|ん)等を算出し、文字3グラム統計量として、P(な|そ,ん)、P(ん|ん,な)等を算出する。なお、形態素解析処理済みの複数分野のコーパスに基づいて、全ての単語表層n‐gramについて、単語表層n‐gram統計量を算出してもよい。   The statistic calculation unit 42 calculates the character n-gram statistic for all the character n-grams based on the corpus of a plurality of fields received by the input unit 10. For example, if the target document is “That's not done”, P (n | so), P (na | n), etc. are calculated as character 2 gram statistics, and as character 3 gram statistics, P (n | so, n), P (n | n, n), etc. are calculated. Note that the word surface n-gram statistics may be calculated for all word surface n-grams based on a plurality of corpora of morphological analysis processing.

データ生成部43は、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該崩れ語に対応する正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字n‐gram統計量、及び当該崩れフレーズに対応する文字n‐gram統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字n‐gram統計量及び崩れフレーズに対応する文字n‐gram統計量を含む学習データを、負例データとして生成する。   The data generation unit 43 generates a part of the corrupted word based on the normal corrupted phrase model stored in the normalized corrupted phrase model storage unit 36 for each of the pairs included in the normalized word corrupted word pair data received by the input unit 10. Of the character string, a partial character string corresponding to the collapse phrase is converted into a partial character string of a regular phrase corresponding to the collapse phrase. Then, it is determined whether or not the converted regular phrase is included in the regular word corresponding to the corrupted word, and if included, the character n-gram statistic corresponding to the regular phrase and the corrupted phrase are supported. Learning data including character n-gram statistics is generated as positive example data. If not included, character n-gram statistics corresponding to the regular phrase and character n-gram statistics corresponding to the collapsed phrase are included. Learning data is generated as negative example data.

モデル学習部44は、データ生成部43において生成された正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部46に記憶すると共に、出力部50に出力する。   The model learning unit 44 performs identification learning using a support vector machine or the like based on learning data composed of positive example data and negative example data generated by the data generation unit 43, and converts a collapsed phrase into a regular phrase. A phrase filter model for determining the likelihood of the phrase is learned, stored in the phrase filter model storage unit 46, and output to the output unit 50.

フレーズフィルタモデル記憶部46には、モデル学習部44において学習されたフレーズフィルタモデル、及び統計量算出部42により算出された文字n‐gram統計量が記憶されている。   The phrase filter model storage unit 46 stores the phrase filter model learned by the model learning unit 44 and the character n-gram statistic calculated by the statistic calculation unit 42.

<第1の実施の形態に係る形態素解析装置の構成>
次に、本発明の第1の実施の形態に係る形態素解析装置の構成について説明する。図8に示すように、本発明の第1の実施の形態に係る形態素解析装置200は、CPUと、RAMと、後述する形態素解析処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この形態素解析装置200は、機能的には図8に示すように入力部210と、演算部220と、出力部250とを備えている。
<Configuration of morphological analyzer according to the first embodiment>
Next, the configuration of the morphological analyzer according to the first embodiment of the present invention will be described. As shown in FIG. 8, the morpheme analyzer 200 according to the first embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a morpheme analysis processing routine to be described later, , Can be configured with a computer including. Functionally, the morphological analyzer 200 includes an input unit 210, a calculation unit 220, and an output unit 250 as shown in FIG.

入力部210は、入力文を受け付ける。   The input unit 210 receives an input sentence.

演算部220は、解析候補生成部230と、正規崩れフレーズモデル記憶部232と、辞書データベース233と、算出部235と、フレーズフィルタモデル記憶部236と、解析対象抽出部238と、ラティス生成部239と、選択部240とを含んで構成されている。   The calculation unit 220 includes an analysis candidate generation unit 230, a denormalized phrase model storage unit 232, a dictionary database 233, a calculation unit 235, a phrase filter model storage unit 236, an analysis target extraction unit 238, and a lattice generation unit 239. And a selection unit 240.

解析候補生成部230は、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルに基づいて、入力部10において受け付けた入力文から解析候補文を各々生成する。具体的には、入力部210において受け付けた入力文に、正規崩れフレーズモデルに含まれる崩れフレーズに一致する部分文字列がある場合には、部分文字列を当該崩れフレーズに対応する正規フレーズに変換することにより解析候補文を生成する。なお、解析候補文は、入力文に含まれる崩れフレーズのうち1か所のみ変更したものとし、崩れフレーズが複数ある場合には、崩れフレーズ毎に解析候補文が生成される。図9に具体例を示す。また、崩れフレーズに対応する正規フレーズが複数ある場合には、正規フレーズ毎に解析候補文が生成される。   The analysis candidate generation unit 230 generates each analysis candidate sentence from the input sentence received by the input unit 10 based on the normal breakdown phrase model stored in the normal breakdown phrase model storage unit 232. Specifically, when the input sentence received by the input unit 210 includes a partial character string that matches the broken phrase included in the regular broken phrase model, the partial character string is converted into a regular phrase corresponding to the broken phrase. To generate an analysis candidate sentence. It is assumed that the analysis candidate sentence is changed only in one of the collapsed phrases included in the input sentence. If there are a plurality of collapsed phrases, an analysis candidate sentence is generated for each collapsed phrase. A specific example is shown in FIG. Moreover, when there are a plurality of regular phrases corresponding to the collapsed phrase, an analysis candidate sentence is generated for each regular phrase.

正規崩れフレーズモデル記憶部232には、モデル学習装置100において学習された正規崩れフレーズモデルと同一の正規崩れフレーズモデルが記憶されている。   The normal broken phrase model storage unit 232 stores the same normal broken phrase model as the normal broken phrase model learned by the model learning device 100.

辞書データベース記憶部233には、形態素解析を行うために必要な辞書(読み、表記、品詞、コスト(生起確率))及び品詞ペアの各々の接続確率が記憶されている。   The dictionary database storage unit 233 stores a dictionary (reading, notation, part of speech, cost (occurrence probability)) and connection probability of each part of speech part necessary for performing morphological analysis.

フレーズフィルタモデル記憶部236には、モデル学習装置100において学習されたフレーズフィルタモデル及び文字n‐gram統計量と同一のフレーズフィルタモデル及び文字n‐gram統計量が記憶されている。   The phrase filter model storage unit 236 stores the same phrase filter model and character n-gram statistic as the phrase filter model and character n-gram statistic learned by the model learning device 100.

解析対象抽出部238は、解析候補生成部230において生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部236に記憶されているフレーズフィルタモデル及び文字n‐gram統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。   The analysis target extraction unit 238 converts the input sentence, the phrase filter model and the character n-gram statistic stored in the phrase filter model storage unit 236 for each of the analysis candidate sentences generated by the analysis candidate generation unit 230. Based on this, it is determined whether or not the collapsed phrase is an analysis candidate sentence that has been correctly converted into a regular phrase. If it is determined that the collapsed phrase is an analysis candidate sentence that has been correctly converted, it is extracted as an analysis target sentence and converted correctly. If it is determined that the analysis candidate sentence has not been analyzed, the analysis candidate sentence is deleted.

例えば、入力文の崩れフレーズを変換した正規フレーズの文字n‐gram統計量と、入力文の崩れフレーズの文字n‐gram統計量と、フレーズフィルタモデル記憶部236に記憶されているフレーズフィルタモデルとに基づいて、当該崩れフレーズを当該正規フレーズへ変換した変換の尤もらしさを示すスコアを算出し、算出されたスコアが閾値以上であれば、正しく変換された解析対象文であると判定する。   For example, the character n-gram statistic of the regular phrase converted from the broken phrase of the input sentence, the character n-gram statistic of the broken phrase of the input sentence, the phrase filter model stored in the phrase filter model storage unit 236, and Based on the above, a score indicating the likelihood of conversion of the collapsed phrase into the regular phrase is calculated, and if the calculated score is equal to or greater than a threshold, it is determined that the sentence has been correctly converted.

ラティス生成部239は、入力部210において受け付けた入力文と、解析対象抽出部238において抽出された解析対象文の各々とに対して、辞書データベース記憶部233に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。作成したラティスの例を図10に示す。   The lattice generation unit 239 uses the dictionary stored in the dictionary database storage unit 233 for the input sentence received by the input unit 210 and each of the analysis target sentences extracted by the analysis target extraction unit 238. Then, a lattice is generated, which is a graph structure including nodes corresponding to each partial character string to which the part of speech is assigned and nodes corresponding to the connected partial character strings. An example of the created lattice is shown in FIG.

選択部240は、ラティス生成部239において生成したラティスと、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルの変換確率と、辞書データベース記憶部233に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記(1)式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。   The selection unit 240 includes the lattice generated by the lattice generation unit 239, the conversion probability of the normal broken phrase model stored in the normal broken phrase model storage unit 232, the cost of the dictionary stored in the dictionary database storage unit 233, and Based on the connection probability of part-of-speech pairs, the optimal path connecting the nodes of the lattice that maximizes the objective function of equation (1) is selected according to dynamic programming, and the normal represented by the selected path The notation part of speech and word break are output as morphological analysis results.

<第1の実施の形態に係るモデル学習装置の作用>
次に、本発明の第1の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において正規語崩れ語ペアデータを受け付けると、モデル学習装置100は、図11に示す正規崩れフレーズモデル学習処理ルーチンを実行する。
<Operation of the model learning device according to the first embodiment>
Next, the operation of the model learning device 100 according to the first embodiment of the present invention will be described. When the regular word broken word pair data is received by the input unit 10, the model learning device 100 executes a regular broken phrase model learning processing routine shown in FIG.

まず、ステップS100では、入力部10において受け付けた正規語崩れ語ペアデータに基づいて、正規フレーズfvと崩れフレーズfwの全てのペアを求め、各ペアについて変換確率P(fw|fv)をランダムに設定し、各ペアの変換確率を格納した変換確率テーブルを生成し、メモリに記憶する。   First, in step S100, all pairs of the normal phrase fv and the broken phrase fw are obtained based on the normal word broken word pair data received by the input unit 10, and the conversion probability P (fw | fv) is randomly determined for each pair. A conversion probability table storing the conversion probabilities of each pair is generated and stored in the memory.

次に、ステップS104では、正規語崩れ語ペアデータに含まれるペアの各々について、ステップS100において生成した、又はステップS106において前回更新した変換確率テーブルに基づいて、動的計画法に従って、文字間の対応関係である最適アライメントを求める。   Next, in step S104, for each of the pairs included in the regular word corrupted word pair data, according to the dynamic programming, based on the conversion probability table generated in step S100 or updated last time in step S106, Find the optimal alignment that is the correspondence.

次に、ステップS106では、ステップS104において正規語崩れ語ペアデータに含まれるペアの各々の最適アライメントに基づいて、P(fw|fv)の期待値P(fw|fv)を求め、メモリに記憶し、求められた期待値P(fw|fv)の値により変換確率テーブルを更新する。 Next, in step S106, an expected value P t (fw | fv) of P (fw | fv) is obtained based on the optimum alignment of each pair included in the regular word corrupted word pair data in step S104, and stored in the memory. The conversion probability table is updated with the stored expected value P t (fw | fv).

次に、ステップS108では、ステップS106において取得した正規フレーズと崩れフレーズペアの各々のP(fw|fv)の期待値P(fw|fv)に基づいて、上記(4)式に従って、尤度関数を算出する。 Next, in step S108, based on the expected value P t (fw | fv) of each P (fw | fv) of the regular phrase and the collapsed phrase pair acquired in step S106, the likelihood is calculated according to the above equation (4). Calculate the function.

次に、ステップS110では、ステップS108において取得した尤度関数の値と、前回のステップS108において取得した尤度関数の値の差分が、予め定められた閾値ε以下か否かを判定する。差分が閾値ε以下である場合には反復終了条件が満たされたと判定し、ステップS110へ移行し、差分が閾値εよりも大きい場合には反復終了条件が満たされていないと判定し、ステップS104へ移行し、ステップS104〜ステップS110の処理を繰り返す。   Next, in step S110, it is determined whether or not the difference between the value of the likelihood function acquired in step S108 and the value of the likelihood function acquired in previous step S108 is equal to or less than a predetermined threshold ε. If the difference is equal to or smaller than the threshold ε, it is determined that the iteration end condition is satisfied, and the process proceeds to step S110. If the difference is greater than the threshold ε, it is determined that the iteration end condition is not satisfied, and step S104 is performed. Step S104 to Step S110 are repeated.

次に、ステップS112では、ステップS106において最終的に更新された変換確率テーブルを、正規崩れフレーズモデルとして正規崩れフレーズモデル記憶部36に記憶する。   Next, in step S112, the conversion probability table finally updated in step S106 is stored in the normal broken phrase model storage unit 36 as a normal broken phrase model.

次に、ステップS114では、ステップS112において取得した正規崩れフレーズモデルを出力部50により出力して、処理を終了する。   Next, in step S114, the normal broken phrase model acquired in step S112 is output by the output unit 50, and the process ends.

次に、本発明の第1の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において正規語崩れ語ペアデータ及び複数分野のコーパスを受け付けると、モデル学習装置100は、図12に示すフレーズフィルタモデル学習処理ルーチンを実行する。   Next, the operation of the model learning device 100 according to the first embodiment of the present invention will be described. When the input unit 10 receives regular word collapsed word pair data and a corpus of a plurality of fields, the model learning device 100 executes a phrase filter model learning processing routine shown in FIG.

まず、ステップS201では、正規崩れフレーズモデル記憶部36に記憶されている正規崩れフレーズモデルを読み込む。   First, in step S <b> 201, a normal broken phrase model stored in the normal broken phrase model storage unit 36 is read.

次に、ステップS203では、入力部10において受け付けた複数分野のコーパスに基づいて、全ての文字n‐gramについて、文字n‐gram統計量を算出する。   Next, in step S203, the character n-gram statistic is calculated for all the character n-grams based on the corpus of a plurality of fields received by the input unit 10.

次に、ステップS204では、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、ステップS201において取得した正規崩れフレーズモデルに基づいて、崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズに対応する正規フレーズの部分文字列に変換する。   Next, in step S204, for each of the pairs included in the regular word corrupted word pair data received in the input unit 10, based on the regular corrupted phrase model acquired in step S201, the corrupted character partial character strings are corrupted. The partial character string corresponding to the phrase is converted into a partial character string of a regular phrase corresponding to the collapsed phrase.

次に、ステップS205では、入力部10において受け付けた正規語崩れ語ペアデータの処理対象のペアについて、ステップS204において変換した正規フレーズの各々について、処理対象のペアの正規語に含まれるか否か判定し、含まれる場合には、ステップS203において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字n‐gram統計量を含む学習データを正例データとして作成し、含まれない場合には、ステップS203において取得した当該正規フレーズと当該崩れフレーズとの各々に対応する文字n‐gram統計量を含む学習データを負例データとして作成する。   Next, in step S205, for each pair of regular phrases converted in step S204, whether or not each of the regular phrases converted in step S204 is included in the regular words of the pair to be processed for the pair of regular word collapsed word data received in the input unit 10. If it is determined and included, the learning data including the character n-gram statistics corresponding to each of the regular phrase and the collapse phrase acquired in step S203 is created as positive example data. Creates learning data including character n-gram statistics corresponding to each of the regular phrase and the collapse phrase acquired in step S203 as negative example data.

ステップ206では、正規語崩れ語ペアデータの全てのペアについて、上記ステップS204、S205の処理を実行したか否かを判定し、上記ステップS204、S205の処理を実行していないペアが存在する場合には、上記ステップS204へ戻り、当該ペアを、処理対象とする。一方、全てのペアについて、上記ステップS204、S205の処理を実行した場合には、ステップS207へ進む。   In Step 206, it is determined whether or not the processing of Steps S204 and S205 has been executed for all pairs of regular word corrupted word pair data, and there is a pair that has not executed the processing of Steps S204 and S205. In step S204, the pair is set as a processing target. On the other hand, if the processes of steps S204 and S205 have been executed for all pairs, the process proceeds to step S207.

次に、ステップS207では、ステップS205において取得した正例データ及び負例データからなる学習データに基づいて、サポートベクタマシン等を用いて識別学習を行い、崩れフレーズを正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習し、フレーズフィルタモデル記憶部46に記憶する。また、上記ステップS203で算出された文字n‐gram統計量を、フレーズフィルタモデル記憶部46に記憶する。   Next, in step S207, it is possible to perform identification learning using a support vector machine or the like based on the learning data including the positive example data and the negative example data acquired in step S205, and to convert the collapsed phrase into a regular phrase. The phrase filter model for judging the likelihood is learned and stored in the phrase filter model storage unit 46. Further, the character n-gram statistic calculated in step S203 is stored in the phrase filter model storage unit 46.

次に、ステップS208では、ステップS207において学習したフレーズフィルタモデル、及び上記ステップS203で算出された文字n‐gram統計量を出力部50により出力し、フレーズフィルタモデル学習処理ルーチンの処理を終了する。   Next, in step S208, the phrase filter model learned in step S207 and the character n-gram statistic calculated in step S203 are output by the output unit 50, and the processing of the phrase filter model learning processing routine is terminated.

<第1の実施の形態に係る形態素解析装置の作用>
次に、本発明の第1の実施の形態に係る形態素解析装置200の作用について説明する。まず、モデル学習装置100により出力された正規崩れフレーズモデルが、形態素解析装置200に入力され、正規崩れフレーズモデル記憶部232に記憶される。また、モデル学習装置100により出力されたフレーズフィルタモデル及び文字n‐gram統計量が、形態素解析装置200に入力され、フレーズフィルタモデル記憶部236に記憶される。そして、入力部210において入力文を受け付けると、形態素解析装置200は、図13に示す形態素解析処理ルーチンを実行する。
<Operation of the morphological analyzer according to the first embodiment>
Next, the operation of the morphological analyzer 200 according to the first embodiment of the present invention will be described. First, the normal broken phrase model output by the model learning device 100 is input to the morphological analyzer 200 and stored in the normal broken phrase model storage unit 232. Further, the phrase filter model and the character n-gram statistic output by the model learning device 100 are input to the morphological analyzer 200 and stored in the phrase filter model storage unit 236. Then, when an input sentence is received by the input unit 210, the morpheme analyzer 200 executes a morpheme analysis process routine shown in FIG.

まず、ステップS300では、正規崩れフレーズモデル記憶部232に記憶されている正規崩れフレーズモデルを読み込む。   First, in step S300, a normal broken phrase model stored in the normal broken phrase model storage unit 232 is read.

次に、ステップS301では、辞書データベース記憶部233に記憶されている辞書を読み込む。   Next, in step S301, the dictionary stored in the dictionary database storage unit 233 is read.

次に、ステップS302では、フレーズフィルタモデル記憶部236に記憶されているフレーズフィルタモデル及び文字n‐gram統計量を読み込む。   Next, in step S302, the phrase filter model and character n-gram statistics stored in the phrase filter model storage unit 236 are read.

次に、ステップS304では、入力部210において受け付けた入力文について、ステップS300において取得した正規崩れフレーズモデルに基づいて、解析候補文の各々を生成する。   Next, in step S304, each of the analysis candidate sentences is generated based on the normal broken phrase model acquired in step S300 for the input sentence received by the input unit 210.

次に、ステップS308では、ステップS304において取得した解析候補文の各々について、入力部210において受け付けた入力文と、ステップS302において取得したフレーズフィルタモデル及び文字n‐gram統計量とに基づいて、崩れフレーズが正規フレーズへ正しく変換された解析候補文であるか否かを判定し、正しく変換された解析候補文であると判定された場合に、解析対象文として抽出し、正しく変換された解析候補文でないと判定された場合に、当該解析候補文を削除する。   Next, in step S308, for each of the analysis candidate sentences acquired in step S304, a collapse is performed based on the input sentence received in the input unit 210 and the phrase filter model and character n-gram statistics acquired in step S302. It is determined whether or not the phrase is an analysis candidate sentence that has been correctly converted into a regular phrase, and if it is determined that the phrase is an analysis candidate sentence that has been converted correctly, it is extracted as an analysis target sentence and the analysis candidate that has been converted correctly When it is determined that the sentence is not a sentence, the analysis candidate sentence is deleted.

次に、ステップS310では、ステップS308において抽出された解析対象文の各々と、入力部210において受け付けた入力文とに対して、ステップS301において取得した辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。   Next, in step S310, dictionary analysis is performed on each of the analysis target sentences extracted in step S308 and the input sentence received in the input unit 210 using the dictionary acquired in step S301, and parts of speech are given. A lattice, which is a graph structure composed of edges connecting the nodes corresponding to the partial character strings and the nodes corresponding to the connected partial character strings, is generated.

次に、ステップS312では、ステップS310において取得したラティスと、ステップS300において取得した正規崩れフレーズモデルの変換確率と、ステップS301において取得した辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記(1)式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択する。   Next, in step S312, based on the lattice acquired in step S310, the conversion probability of the regular collapsed phrase model acquired in step S300, the dictionary cost and the part-of-speech pair connection probability acquired in step S301, dynamic According to the programming method, the optimum path connecting the nodes of the lattice that maximizes the objective function of the above equation (1) is selected.

次に、ステップS314では、ステップS312において選択された経路が表わす正規表記の品詞と単語区切りを、形態素解析結果として出力部250により出力して形態素解析処理ルーチンを終了する。   Next, in step S314, the part of speech and the word break in the normal notation represented by the route selected in step S312 are output as a morpheme analysis result by the output unit 250, and the morpheme analysis processing routine is terminated.

上記の形態素解析処理ルーチンを実行することにより、例えば、入力文「そんなんやってらんねーよ」が入力された場合には、図14(B)に示すような、形態素解析結果が出力される。なお、比較例として、従来の形態素解析器を用いた場合の形態素解析結果を、図14(A)に示す。   By executing the above morpheme analysis processing routine, for example, when an input sentence “That's what you do” is input, a morpheme analysis result as shown in FIG. 14B is output. As a comparative example, FIG. 14A shows a morphological analysis result when a conventional morphological analyzer is used.

また、入力文「次の日にはすーぐ生きてーw」が入力された場合御には、図15(B)に示すような、形態素解析結果が出力される。一方、従来の形態素解析器を用いた場合には、図15(A)に示す形態素解析結果となる。   In addition, when the input sentence “I live well on the next day-w” is input, a morphological analysis result as shown in FIG. 15B is output. On the other hand, when a conventional morphological analyzer is used, the morphological analysis result shown in FIG.

以上説明したように、本発明の第1の実施の形態に係る形態素解析装置によれば、正規崩れフレーズモデル及びフレーズフィルタモデルを用いることにより、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。 As described above, according to the morphological analysis device according to the first embodiment of the present invention, by using the normal collapsed phrase model and the phrase filter model, the character string including the collapsed word that is a distorted notation is used. However, the morphological analysis can be performed with high accuracy.

また、本発明の第1の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及びフレーズフィルタモデルを学習することができる。   In addition, according to the model learning device according to the first exemplary embodiment of the present invention, a normal collapsed phrase model and a phrase that can accurately perform morphological analysis even on a character string that includes a corrupted word that is a fuzzy notation. A filter model can be learned.

また、文字列レベルの揺らぎモデルを正解データから自動構築し、形態素解析に組み込むことにより、崩れた表記にも頑健な形態素解析器の枠組みを提供できる。   In addition, by automatically constructing a fluctuation model at the character string level from correct data and incorporating it into morphological analysis, it is possible to provide a framework for a morphological analyzer that is robust against broken notation.

また、正規表記と崩れ表記の正解ペアデータを用いてトランスリタレーションによるフレーズ変換モデルを導入することにより、ルールとルールごとのコスト設定を自動で行うことができる。   In addition, by introducing a phrase conversion model by transliteration using correct pair data in normal notation and broken notation, it is possible to automatically set rules and cost for each rule.

また、崩れフレーズであるとして正規フレーズに変換された箇所が、正しく変換された否かを判別するフレーズフィルタモデルを導入することにより、解析対象となる候補を削減することができ、解析時における計算コストを削減することが出来る。   In addition, by introducing a phrase filter model that determines whether or not a part that has been converted into a regular phrase as a broken phrase has been correctly converted, the number of candidates for analysis can be reduced, and the calculation at the time of analysis can be reduced. Cost can be reduced.

また、トランスリタレーションモデルにより、正規フレーズ及び崩れフレーズのペア対と変換確率とを自動で獲得し、動的計画法との組み合わせにより処理速度と処理精度との向上を図ることができる。   Moreover, a pair pair of a regular phrase and a collapsing phrase and a conversion probability can be automatically acquired by a transliteration model, and processing speed and processing accuracy can be improved by a combination with dynamic programming.

次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。   Next, a second embodiment will be described. In addition, about the part which becomes the structure and effect | action similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

第2の実施の形態では、文字n‐gram統計量をフレーズフィルタモデルとする点が第1の実施の形態と異なっている。   The second embodiment is different from the first embodiment in that the character n-gram statistic is a phrase filter model.

<第2の実施の形態に係るモデル学習装置の構成>
次に、第2の実施の形態に係るモデル学習装置300の構成について説明する。
<Configuration of Model Learning Device According to Second Embodiment>
Next, the configuration of the model learning device 300 according to the second embodiment will be described.

本発明の第2の実施の形態に係るモデル学習装置300は、図16に示すように、入力部10と、演算部320と、出力部50とを備えている。   As shown in FIG. 16, the model learning device 300 according to the second exemplary embodiment of the present invention includes an input unit 10, a calculation unit 320, and an output unit 50.

演算部320は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36と、統計量算出部342と、フレーズフィルタモデル記憶部346とを含んで構成されている。   The calculation unit 320 includes an initial setting unit 30, a phrase alignment unit 31, a conversion probability calculation unit 32, an iterative determination unit 34, a normal disruption phrase model storage unit 36, a statistic calculation unit 342, and a phrase filter model storage. Part 346.

統計量算出部342は、入力部10において受け付けた複数分野のコーパスに基づいて、全ての文字n‐gramについて、文字n−gram統計量を算出し、算出された文字n‐gram統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部346に記憶する。   The statistic calculation unit 342 calculates the character n-gram statistic for all the character n-grams based on the corpus of a plurality of fields received by the input unit 10, and sets the calculated character n-gram statistic. Is stored in the phrase filter model storage unit 346 as a phrase filter model.

フレーズフィルタモデル記憶部346には、統計量算出部342において生成されたフレーズフィルタモデルが記憶されている。   The phrase filter model storage unit 346 stores the phrase filter model generated by the statistic calculation unit 342.

<第2の実施の形態に係る形態素解析装置の構成>
次に、第2の実施の形態に係る形態素解析装置400の構成について説明する。
<Configuration of Morphological Analyzer according to Second Embodiment>
Next, the configuration of the morphological analyzer 400 according to the second embodiment will be described.

本発明の第2の実施の形態に係る形態素解析装置400は、図17に示すように、入力部210と、演算部420と、出力部50とを備えている。   As shown in FIG. 17, the morphological analyzer 400 according to the second embodiment of the present invention includes an input unit 210, a calculation unit 420, and an output unit 50.

演算部420は、解析候補生成部230と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、算出部425と、フレーズフィルタモデル記憶部436と、解析対象抽出部438と、ラティス生成部239と、選択部240とを含んで構成されている。   The calculation unit 420 includes an analysis candidate generation unit 230, a denormalized phrase model storage unit 232, a dictionary database storage unit 233, a calculation unit 425, a phrase filter model storage unit 436, an analysis target extraction unit 438, and a lattice generation. A part 239 and a selection part 240 are included.

算出部435は、解析候補生成部230により生成された解析候補文の各々について、入力文と、フレーズフィルタモデル記憶部436に記憶されている文字n‐gram統計量の集合であるフレーズフィルタモデルとに基づいて、入力文中の崩れフレーズに対応する文字n‐gram統計量P(変換前)と、当該解析候補文中の正規フレーズに対応する文字n‐gram統計量P(変換後)を用いて、フレーズ変換の尤もらしさを示す値として、P(変換後)/P(変換前)を算出する。例えば、入力文「やってらんねーよ」と解析候補文「やってらんないよ」が有る場合、入力文中の変換部分の変換文字列と周辺の文字列とからなる部分文字列に対応する文字n‐gram統計量、P(よ|ん,ね,ー)と、解析候補文中の変換文の返還文字列と周辺の文字列とからなる部分文字列に対応する文字n‐gram統計量、P(よ|ん,な,い)を用いて、P(よ|ん,な,い)/P(よ|ん,ね,ー)の値を算出する。   For each of the analysis candidate sentences generated by the analysis candidate generation unit 230, the calculation unit 435 includes an input sentence and a phrase filter model that is a set of character n-gram statistics stored in the phrase filter model storage unit 436. Based on the above, using the character n-gram statistic P (before conversion) corresponding to the collapsed phrase in the input sentence and the character n-gram statistic P (after conversion) corresponding to the regular phrase in the analysis candidate sentence, P (after conversion) / P (before conversion) is calculated as a value indicating the likelihood of phrase conversion. For example, if there is an input sentence “I do not do it” and an analysis candidate sentence “I do not do it”, the character n corresponding to the partial character string consisting of the conversion character string of the conversion part and the surrounding character string in the input sentence A character n-gram statistic corresponding to a partial character string consisting of a return character string of the conversion sentence in the analysis candidate sentence and a peripheral character string, P ( The value of P (yo |, na, i) / P (yo |, ne, i) is calculated using yo |, n, i).

解析対象抽出部438は、解析候補文の各々について、算出部435において当該解析候補文について算出された、フレーズ変換の尤もらしさを示す値が閾値Tよりも大きいか否か判定する。閾値Tよりもフレーズ変換の尤もらしさを示す値が大きい場合、当該解析候補文を解析対象文として抽出し、算出されたフレーズ変換の尤もらしさを示す値が閾値T以下である場合、当該解析候補文を削除する。   The analysis target extraction unit 438 determines, for each analysis candidate sentence, whether the value indicating the likelihood of phrase conversion calculated by the calculation unit 435 for the analysis candidate sentence is greater than a threshold value T. When the value indicating the likelihood of phrase conversion is larger than the threshold T, the analysis candidate sentence is extracted as an analysis target sentence, and when the calculated value indicating the likelihood of phrase conversion is equal to or less than the threshold T, the analysis candidate Delete the sentence.

<第2の実施の形態に係るモデル学習装置の作用>
次に、本発明の第2の実施の形態に係るモデル学習装置300の作用について説明する。入力部10において複数分野のコーパスを受け付けると、モデル学習装置300は、図18に示すフレーズフィルタモデル学習処理ルーチンを実行する。
<Operation of Model Learning Device According to Second Embodiment>
Next, the operation of the model learning device 300 according to the second embodiment of the present invention will be described. When the input unit 10 receives a corpus of a plurality of fields, the model learning device 300 executes a phrase filter model learning processing routine shown in FIG.

ステップS400では、ステップS203において取得した文字n‐gram統計量の集合をフレーズフィルタモデルとしてフレーズフィルタモデル記憶部346に記憶する。   In step S400, the set of character n-gram statistics acquired in step S203 is stored in the phrase filter model storage unit 346 as a phrase filter model.

<第2の実施の形態に係る形態素解析装置の作用>
次に、本発明の第2の実施の形態に係る形態素解析装置400の作用について説明する。入力部210において入力文を受け付けると、形態素解析装置400は、図19に示す形態素解析処理ルーチンを実行する。
<Operation of the morphological analyzer according to the second embodiment>
Next, the operation of the morphological analyzer 400 according to the second embodiment of the present invention will be described. When an input sentence is received by the input unit 210, the morpheme analyzer 400 executes a morpheme analysis processing routine shown in FIG.

ステップS500では、入力部210において受け付けた入力文と、ステップS304において取得した解析候補文の各々と、ステップS302において取得したフレーズフィルタモデルとに基づいて、解析候補文の各々について、フレーズ変換の尤もらしさを示す値を算出する。   In step S500, the likelihood of phrase conversion is calculated for each of the analysis candidate sentences based on the input sentence received in the input unit 210, each of the analysis candidate sentences acquired in step S304, and the phrase filter model acquired in step S302. A value indicating the likelihood is calculated.

ステップS502では、ステップS500において算出した、フレーズ変換の尤もらしさを示す値が閾値Tよりも大きい値である解析候補文の各々を、解析対象文として抽出する。   In step S502, each analysis candidate sentence whose value indicating the likelihood of phrase conversion calculated in step S500 is larger than the threshold value T is extracted as an analysis target sentence.

以上説明したように、本発明の第2の実施の形態に係る形態素装置によれば、正規崩れフレーズモデル及び文字n‐gram統計量の集合からなるフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。 As described above, according to the morpheme device according to the second exemplary embodiment of the present invention, the morpheme apparatus uses the phrase filter model including a set of a normal collapsed phrase model and a character n-gram statistic, and the expression is fluctuating. Morphological analysis can be performed with high accuracy even for a character string including a broken word.

また、本発明の第2の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデル及び文字n‐gram統計量の集合からなるフレーズフィルタモデルを学習することができる。   In addition, according to the model learning device according to the second embodiment of the present invention, a normal collapsed phrase model and a character that can accurately perform morphological analysis even on a character string including a corrupted word that is a distorted notation. A phrase filter model consisting of a set of n-gram statistics can be learned.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

第2の実施の形態においては、フレーズ変換の尤もらしさを示す値を、P(変換後)/P(変換前)として算出し、当該値が閾値Tよりも大きい解析候補文を解析対象文として抽出する場合について説明したがこの限りでない。例えば、P(変換後)−P(変換前)の値が予め定められた閾値以上である解析候補文を解析対象文として抽出しても良い。   In the second embodiment, a value indicating the likelihood of phrase conversion is calculated as P (after conversion) / P (before conversion), and an analysis candidate sentence whose value is greater than the threshold T is used as an analysis target sentence. Although the case of extracting has been described, the present invention is not limited to this. For example, an analysis candidate sentence having a value of P (after conversion) −P (before conversion) equal to or greater than a predetermined threshold may be extracted as an analysis target sentence.

次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。   Next, a third embodiment will be described. In addition, about the part which becomes the structure and effect | action similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

第3の実施の形態では、正規崩れフレーズモデルのみを用いる点が第1の実施の形態と異なっている。   The third embodiment is different from the first embodiment in that only the regular disruption phrase model is used.

<第3の実施の形態に係るモデル学習装置の構成>
次に、第3の実施の形態に係るモデル学習装置500の構成について説明する。
<Configuration of Model Learning Device According to Third Embodiment>
Next, the configuration of the model learning device 500 according to the third embodiment will be described.

本発明の第3の実施の形態に係るモデル学習装置500は、図20に示すように、入力部10と、演算部520と、出力部50とを備えている。   As shown in FIG. 20, the model learning device 500 according to the third exemplary embodiment of the present invention includes an input unit 10, a calculation unit 520, and an output unit 50.

演算部520は、初期設定部30と、フレーズアライメント部31と、変換確率算出部32と、反復判定部34と、正規崩れフレーズモデル記憶部36とを含んで構成されている。   The calculation unit 520 includes an initial setting unit 30, a phrase alignment unit 31, a conversion probability calculation unit 32, an iterative determination unit 34, and a normal disruption phrase model storage unit 36.

<第3の実施の形態に係る形態素解析装置の構成>
次に、第3の実施の形態に係る形態素解析装置600の構成について説明する。
<Configuration of morphological analyzer according to the third embodiment>
Next, the configuration of the morphological analyzer 600 according to the third embodiment will be described.

本発明の第3の実施の形態に係る形態素解析装置600は、図21に示すように、入力部10と、演算部620と、出力部50とを備えている。   As shown in FIG. 21, the morphological analyzer 600 according to the third embodiment of the present invention includes an input unit 10, a calculation unit 620, and an output unit 50.

演算部620は、解析候補生成部230と、正規崩れフレーズモデル記憶部232と、辞書データベース記憶部233と、ラティス生成部639と、選択部240とを含んで構成されている。   The calculation unit 620 includes an analysis candidate generation unit 230, a denormalized phrase model storage unit 232, a dictionary database storage unit 233, a lattice generation unit 639, and a selection unit 240.

ラティス生成部639は、入力部210において受け付けた入力文と、解析候補生成部230において生成した解析候補文の各々とに対して辞書データベース記憶部233に記憶されている辞書を用いて辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。   The lattice generation unit 639 performs dictionary lookup using the dictionary stored in the dictionary database storage unit 233 for the input sentence received by the input unit 210 and each of the analysis candidate sentences generated by the analysis candidate generation unit 230. And generating a lattice that is a graph structure including nodes corresponding to each partial character string to which the part of speech is assigned and nodes connecting nodes corresponding to the connected partial character strings.

以上説明したように、本発明の第3の実施の形態に係る形態素装置によれば、正規崩れフレーズモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。 As described above, according to the morpheme device according to the third embodiment of the present invention, a morphological analysis is performed even for a character string including a broken word that is a distorted notation using a regular broken phrase model. It can be done accurately.

また、本発明の第3の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができる正規崩れフレーズモデルを学習することができる。   In addition, according to the model learning device according to the third exemplary embodiment of the present invention, a regular collapsed phrase model that can accurately perform a morphological analysis on a character string including a broken word that is a distorted notation is learned. can do.

次に、第4の実施の形態について説明する。なお、第1の実施の形態と同様の構成及び作用となる部分については、同一符号を付して説明を省略する。   Next, a fourth embodiment will be described. In addition, about the part which becomes the structure and effect | action similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

第4の実施の形態では、正規崩れフレーズモデルの代わりに、予め人手で作成した正規崩れフレーズルールを用いる点が第1の実施の形態と異なっている。   The fourth embodiment is different from the first embodiment in that a normal broken phrase rule created in advance by hand is used instead of the regular broken phrase model.

<第4の実施の形態に係るモデル学習装置の構成>
次に、第4の実施の形態に係るモデル学習装置700の構成について説明する。
<Configuration of Model Learning Device According to Fourth Embodiment>
Next, the configuration of the model learning device 700 according to the fourth embodiment will be described.

本発明の第4の実施の形態に係るモデル学習装置700は、図22に示すように、入力部10と、演算部720と、出力部50とを備えている。   As shown in FIG. 22, the model learning device 700 according to the fourth exemplary embodiment of the present invention includes an input unit 10, a calculation unit 720, and an output unit 50.

演算部720は、正規崩れフレーズルール記憶部736と、統計量算出部42と、データ生成部743と、モデル学習部44と、フレーズフィルタモデル記憶部46とを含んで構成されている。   The calculation unit 720 includes an irregular phrase phrase storage unit 736, a statistic calculation unit 42, a data generation unit 743, a model learning unit 44, and a phrase filter model storage unit 46.

正規崩れフレーズルール記憶部736には、崩れフレーズと、当該崩れフレーズに対する正規フレーズとの複数のペアが、正規崩れフレーズルールとして予め記憶されている。   The regular broken phrase rule storage unit 736 stores a plurality of pairs of a broken phrase and a regular phrase corresponding to the broken phrase in advance as a regular broken phrase rule.

データ生成部743は、入力部10において受け付けた正規語崩れ語ペアデータに含まれるペアの各々について、正規崩れフレーズルール記憶部736に記憶されている正規崩れフレーズルールに基づいて、当該ペアの崩れ語の部分文字列のうち、崩れフレーズに該当する部分文字列を、当該崩れフレーズを対応する正規フレーズの部分文字列に変換する。そして、変換後の正規フレーズが当該ペアの正規語に含まれるか否か判定し、含まれる場合には当該正規フレーズに対応する文字n‐gram統計量、及び当該崩れフレーズに対応する文字n‐gram統計量を含む学習データを正例データとして生成し、含まれない場合には当該正規フレーズに対応する文字n‐gram統計量、及び崩れフレーズに対応する文字n‐gram統計量を含む学習データを負例データとして生成する。   For each of the pairs included in the normal-word-breaking word pair data received by the input unit 10, the data generation unit 743 breaks down the pair based on the normal-breaking phrase rule stored in the normal-breaking phrase rule storage unit 736. Among the partial character strings of the word, the partial character string corresponding to the collapsed phrase is converted into the partial character string of the corresponding regular phrase. Then, it is determined whether or not the converted regular phrase is included in the pair of regular words. If included, the character n-gram statistic corresponding to the regular phrase and the character n− corresponding to the collapsed phrase are included. Learning data including gram statistic is generated as positive example data, and if not included, learning data including character n-gram statistic corresponding to the regular phrase and character n-gram statistic corresponding to the collapsed phrase Are generated as negative example data.

<第4の実施の形態に係る形態素解析装置の構成>
次に、第4の実施の形態に係る形態素解析装置800の構成について説明する。
<Configuration of Morphological Analyzer according to Fourth Embodiment>
Next, the configuration of the morphological analyzer 800 according to the fourth embodiment will be described.

本発明の第4の実施の形態に係る形態素解析装置800は、図23に示すように、入力部210と、演算部820と、出力部50とを備えている。   As shown in FIG. 23, the morphological analyzer 800 according to the fourth embodiment of the present invention includes an input unit 210, a calculation unit 820, and an output unit 50.

演算部820は、解析候補生成部830と、正規崩れフレーズルール記憶部832と、辞書データベース記憶部233と、フレーズフィルタモデル記憶部236と、解析対象抽出部238と、ラティス生成部239と、選択部840とを含んで構成されている。   The calculation unit 820 includes an analysis candidate generation unit 830, a denormalized phrase rule storage unit 832, a dictionary database storage unit 233, a phrase filter model storage unit 236, an analysis target extraction unit 238, a lattice generation unit 239, and a selection Part 840.

解析候補生成部830は、正規崩れフレーズルール記憶部832に記憶されている正規崩れフレーズルールに基づいて、入力部210において受け付けた入力文から解析候補文を各々生成する。   The analysis candidate generation unit 830 generates an analysis candidate sentence from the input sentence received by the input unit 210 based on the normal breakdown phrase rule stored in the normal breakdown phrase rule storage unit 832.

フレーズルール記憶部832には、モデル学習装置700のフレーズルール記憶部736に記憶されている正規崩れフレーズルールと同一の正規崩れフレーズルールが記憶されている。   The phrase rule storage unit 832 stores the normal broken phrase rule that is the same as the normal broken phrase rule stored in the phrase rule storage unit 736 of the model learning device 700.

選択部840は、ラティス生成部239において生成したラティスと、辞書データベース記憶部233に記憶されている辞書のコスト及び品詞ペアの接続確率とに基づいて、動的計画法に従って、上記(1)式の目的関数を最大化する、当該ラティスのノードを結んだ最適な経路を選択し、選択された経路が表す正規表記の品詞と単語区切りを、形態素解析結果として出力する。なお、上記(1)式において、各変換確率として一定値を用いればよい。   Based on the lattice generated by the lattice generation unit 239, the cost of the dictionary stored in the dictionary database storage unit 233, and the connection probability of the part-of-speech pair, the selection unit 840 uses the above equation (1). The optimal path connecting the lattice nodes is selected, and the part-of-speech part and the word break of the normal notation represented by the selected path are output as the morphological analysis result. In the above equation (1), a constant value may be used as each conversion probability.

以上説明したように、本発明の第4の実施の形態に係る形態素装置によれば、正規崩れフレーズルール及びフレーズフィルタモデルを用いて、揺らいだ表記である崩れ語を含む文字列に対しても、形態素解析を精度よく行うことができることができる。 As described above, according to the morpheme device according to the fourth exemplary embodiment of the present invention, even with respect to a character string including a broken word that is a distorted notation, using a regular broken phrase rule and a phrase filter model. The morphological analysis can be performed with high accuracy.

また、本発明の第4の実施の形態に係るモデル学習装置によれば、揺らいだ表記である崩れ語を含む文字列に対しても形態素解析を精度よく行うことができるフレーズフィルタモデルを学習することができる。   In addition, according to the model learning device according to the fourth exemplary embodiment of the present invention, a phrase filter model that can accurately perform a morphological analysis on a character string including a broken word that is a fuzzy notation is learned. be able to.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   For example, in the present specification, the program has been described as an embodiment in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

10 入力部
20 演算部
30 初期設定部
31 フレーズアライメント部
32 変換確率算出部
34 反復判定部
36 正規崩れフレーズモデル記憶部
42 統計量算出部
43 データ生成部
44 モデル学習部
46 フレーズフィルタモデル記憶部
50 出力部
100 モデル学習装置
200 形態素解析装置
210 入力部
220 演算部
230 解析候補生成部
232 正規崩れフレーズモデル記憶部
233 辞書データベース記憶部
235 算出部
236 フレーズフィルタモデル記憶部
238 解析対象抽出部
239 ラティス生成部
240 選択部
250 出力部
300 モデル学習装置
320 演算部
342 統計量算出部
346 フレーズフィルタモデル記憶部
400 形態素解析装置
420 演算部
425 算出部
435 算出部
436 フレーズフィルタモデル記憶部
438 解析対象抽出部
500 モデル学習装置
520 演算部
600 形態素解析装置
620 演算部
639 ラティス生成部
700 モデル学習装置
720 演算部
736 正規崩れフレーズルール記憶部
743 データ生成部
800 形態素解析装置
820 演算部
830 解析候補生成部
832 正規崩れフレーズルール記憶部
840 選択部
DESCRIPTION OF SYMBOLS 10 Input part 20 Operation part 30 Initial setting part 31 Phrase alignment part 32 Conversion probability calculation part 34 Iteration determination part 36 Normal break phrase model storage part 42 Statistics amount calculation part 43 Data generation part 44 Model learning part 46 Phrase filter model storage part 50 Output unit 100 Model learning device 200 Morphological analysis device 210 Input unit 220 Operation unit 230 Analysis candidate generation unit 232 Normal broken phrase model storage unit 233 Dictionary database storage unit 235 Calculation unit 236 Phrase filter model storage unit 238 Analysis target extraction unit 239 Lattice generation Unit 240 selection unit 250 output unit 300 model learning device 320 calculation unit 342 statistic calculation unit 346 phrase filter model storage unit 400 morpheme analysis device 420 calculation unit 425 calculation unit 435 calculation unit 436 phrase filter model storage unit 438 Analysis target extraction unit 500 Model learning device 520 Calculation unit 600 Morphological analysis device 620 Calculation unit 639 Lattice generation unit 700 Model learning device 720 Calculation unit 736 Normal broken phrase rule storage unit 743 Data generation unit 800 Morphological analysis device 820 Calculation unit 830 Analysis Candidate generator 832 Regularly broken phrase rule storage 840 selector

Claims (14)

入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出する変換確率算出部と、
を含む、モデル学習装置であって、
前記入力された前記複数のペアに基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記変換確率を格納した変換確率テーブルを初期化する初期設定部と、
予め定められた反復終了条件が満たされるまで、前記フレーズアライメント部による処理及び前記変換確率算出部による算出を繰り返し、前記変換確率テーブルを正規崩れフレーズモデルとして出力する反復判定部とを更に含み、
前記フレーズアライメント部は、前記変換確率テーブルに基づいて、前記複数のペアの各々についての最適な対応関係を、動的計画法に従って求め、
前記変換確率算出部は、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記変換確率を算出し、前記変換確率テーブルを更新するモデル学習装置。
Based on a plurality of pairs of a normal word that is an input normalized expression and a collapsing word that is a notation that fluctuates with respect to the regular word, the regular word is a character string for each of the plurality of pairs. Dynamic programming is used to determine the optimal correspondence between each regular phrase that is a partial character string delimited by a delimiter position and each broken phrase that is a partial character string delimited by the delimiter position of the character string. The phrase alignment part to be determined according to
Based on the correspondence relationship for each of the plurality of pairs obtained by the phrase alignment unit, a conversion probability that the regular phrase is converted to the collapsed phrase is calculated for each pair of the regular phrase and the collapsed phrase. A conversion probability calculation unit to
The including, a model learning device,
An initial setting unit that initializes a conversion probability table that stores the conversion probability for each pair of the regular phrase and the collapsed phrase based on the plurality of the input pairs;
It further includes a repetition determination unit that repeats the processing by the phrase alignment unit and the calculation by the conversion probability calculation unit until a predetermined repetition end condition is satisfied, and outputs the conversion probability table as a normal collapsed phrase model,
The phrase alignment unit obtains the optimal correspondence for each of the plurality of pairs according to the dynamic programming based on the conversion probability table,
The said conversion probability calculation part is a model learning apparatus which calculates the said conversion probability about each pair of the said normal phrase and the said collapse phrase, and updates the said conversion probability table.
入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出する統計量算出部と、
入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記崩れフレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成するデータ生成部と、
前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する学習部と、
を含む、モデル学習装置。
A statistic calculator that calculates a statistic for each of at least one of a character n-gram consisting of n characters and a word surface layer n-gram consisting of n words based on a plurality of input corpora;
A plurality of pairs of a normal word that is an input normalized expression and a broken word that is a swaying notation with respect to the regular word, and a partial character string in which the broken word is delimited at a character string delimiter position For each of the plurality of pairs, the broken phrase is converted into a regular phrase that is a partial character string obtained by dividing the regular word at a character string separation position. The collapsed phrase included in the collapsed word is converted into the regular phrase, and based on the comparison result between the converted regular phrase and the paired regular word, the character n-gram corresponding to the collapsed phrase and Statistics calculated for at least one of the word surface n-grams, and fewer characters n-gram and word surface n-grams corresponding to the regular phrases Also includes a statistics calculated for one, and a data generation unit for generating learning data is either the positive example data and a negative example data,
A learning unit that learns a phrase filter model for determining the likelihood of converting the collapsed phrase into the regular phrase based on learning data generated for each of the plurality of pairs by the data generation unit;
A model learning device.
入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求めるフレーズアライメント部と、
前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出し、各ペアについて前記変換確率を格納した変換確率テーブルを正規崩れフレーズモデルとして出力する変換確率算出部と、
を含む、モデル学習装置。
Based on a plurality of pairs of a normal word that is an input normalized expression and a collapsing word that is a notation that fluctuates with respect to the regular word, the regular word is a character string for each of the plurality of pairs. Dynamic programming is used to determine the optimal correspondence between each regular phrase that is a partial character string delimited by a delimiter position and each broken phrase that is a partial character string delimited by the delimiter position of the character string. The phrase alignment part to be determined according to
Based on the correspondence relationship for each of the plurality of pairs obtained by the phrase alignment unit, a conversion probability that the regular phrase is converted to the collapsed phrase is calculated for each pair of the regular phrase and the collapsed phrase. A conversion probability calculation unit that outputs a conversion probability table storing the conversion probability for each pair as a normal collapsed phrase model ;
A model learning device.
コンピュータを、請求項1〜請求項3の何れか1項記載のモデル学習装置を構成する各部として機能させるためのプログラム。 The program for functioning a computer as each part which comprises the model learning apparatus of any one of Claims 1-3 . 正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記正規フレーズが前記崩れフレーズに変換される変換確率を格納した変換確率テーブルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、
を含む、形態素解析装置。
A portion obtained by dividing a regular phrase that is a substring of a regular word that is a normalized expression at a delimiter position of a character string, and a broken word that is a distorted expression relative to the regular word at a delimiter position of the character string Based on a conversion probability table that stores conversion probabilities that the normal phrase and the collapse phrase are converted into the collapse phrase for each pair of the regular phrase and the collapse phrase, which are obtained in advance for conversion to the collapse phrase that is a character string, An analysis candidate generation unit that generates, as an analysis candidate, a character string obtained by replacing a partial character string that matches the collapsed phrase with the corresponding regular phrase for the input character string;
Dictionaries are applied to each of the input character strings and the analysis candidate character strings generated by the analysis candidate generation unit, nodes corresponding to the partial character strings to which parts of speech are assigned, and connected parts A lattice generation unit that generates a lattice that is a graph structure composed of edges connecting nodes corresponding to character strings;
Based on the lattice generated in the lattice generation unit, in accordance with dynamic programming, select an optimal path connecting the nodes, and outputs a selection result,
A morpheme analyzer.
前記選択部は、前記ラティス生成部において生成されたラティスと、前記変換確率テーブルとに基づいて、動的計画法に従って、前記正規フレーズが前記崩れフレーズに変換される変換確率を含む目的関数を最適にする、前記ノードを結んだ経路を選択し、解析結果として出力する請求項5記載の形態素解析装置。  The selection unit optimizes an objective function including a conversion probability that the regular phrase is converted into the collapsed phrase according to dynamic programming based on the lattice generated in the lattice generation unit and the conversion probability table. 6. The morphological analyzer according to claim 5, wherein a path connecting the nodes is selected and output as an analysis result. 正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記正規フレーズが前記崩れフレーズに変換される変換確率を格納した変換確率テーブルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成する解析候補生成部と、
前記解析候補生成部によって生成された前記解析候補の各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルに基づいて、前記解析候補の尤もらしさを算出する算出部と、
前記解析候補生成部によって生成された前記解析候補から、前記算出部によって算出された前記解析候補の尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記解析候補を抽出する解析候補抽出部と、
前記入力された文字列及び前記解析候補抽出部によって抽出された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する選択部と、
を含む、形態素解析装置。
A portion obtained by dividing a regular phrase that is a substring of a regular word that is a normalized expression at a delimiter position of a character string, and a broken word that is a distorted expression relative to the regular word at a delimiter position of the character string Based on a conversion probability table that stores conversion probabilities that the normal phrase and the collapse phrase are converted into the collapse phrase for each pair of the regular phrase and the collapse phrase, which are obtained in advance for conversion to the collapse phrase that is a character string, An analysis candidate generation unit that generates, as an analysis candidate, a character string obtained by replacing a partial character string that matches the collapsed phrase with the corresponding regular phrase for the input character string;
For each of the analysis candidates generated by the analysis candidate generation unit, based on a phrase filter model obtained in advance for determining the likelihood of converting the collapsed phrase into the regular phrase, A calculation unit for calculating the likelihood,
Analysis candidate extraction for extracting the likely analysis candidate from the analysis candidate generated by the analysis candidate generation unit based on the likelihood of the analysis candidate calculated by the calculation unit and a predetermined threshold And
Dictionaries for each of the input character string and the analysis candidate character string extracted by the analysis candidate extraction unit, nodes corresponding to each partial character string given a part of speech and connected parts A lattice generation unit that generates a lattice that is a graph structure composed of edges connecting nodes corresponding to character strings;
Based on the lattice generated in the lattice generation unit, in accordance with dynamic programming, select an optimal path connecting the nodes, and outputs a selection result,
A morpheme analyzer.
前記選択部は、前記ラティス生成部において生成されたラティスと、前記変換確率テーブルとに基づいて、動的計画法に従って、前記正規フレーズが前記崩れフレーズに変換される変換確率を含む目的関数を最適にする、前記ノードを結んだ経路を選択し、解析結果として出力する請求項7記載の形態素解析装置。  The selection unit optimizes an objective function including a conversion probability that the regular phrase is converted into the collapsed phrase according to dynamic programming based on the lattice generated in the lattice generation unit and the conversion probability table. The morpheme analyzer according to claim 7, wherein a path connecting the nodes is selected and output as an analysis result. コンピュータを、請求項5〜請求項8の何れか1項記載の形態素解析装置を構成する各部として機能させるためのプログラム。 The program for functioning a computer as each part which comprises the morphological analyzer of any one of Claims 5-8. 初期設定部が、入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズ、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を格納した変換確率テーブルを初期化し、  The initial setting unit, based on a plurality of pairs of a regular word that is an input normalized expression and a broken word that is a swaying expression with respect to the regular word, the regular word The conversion probability that the regular phrase is converted to the collapsed phrase for each pair of the regular phrase that is the partial string delimited by and the collapsed phrase that is the partial string obtained by separating the collapsed word at the position where the string is separated. Initialize the stored conversion probability table,
フレーズアライメント部が、前記入力された前記複数のペアと、前記変換確率テーブルとに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求め、  The phrase alignment unit is a normal character string that is a partial character string obtained by dividing the regular word at a character string delimiter position for each of the plurality of pairs based on the plurality of input pairs and the conversion probability table. Finding the optimal correspondence between each of the phrases and each of the collapsed phrases that are partial character strings obtained by dividing the collapsed word at the position where the character string is separated, according to dynamic programming,
変換確率算出部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記変換確率を算出し、前記変換確率テーブルを更新し、  The conversion probability calculation unit calculates the conversion probability for each pair of the regular phrase and the collapsed phrase based on the correspondence relationship for each of the plurality of pairs obtained by the phrase alignment unit, and the conversion Update the probability table,
反復判定部が、予め定められた反復終了条件が満たされるまで、前記フレーズアライメント部による処理及び前記変換確率算出部による算出を繰り返し、前記変換確率テーブルを正規崩れフレーズモデルとして出力する  The iterative determination unit repeats the processing by the phrase alignment unit and the calculation by the conversion probability calculation unit until a predetermined repetition end condition is satisfied, and outputs the conversion probability table as a normal collapsed phrase model
モデル学習方法。  Model learning method.
統計量算出部が、入力された複数のコーパスに基づいて、n個の文字からなる文字n−gram及びn個の単語からなる単語表層n−gramの少なくとも一方の各々について、統計量を算出し、  The statistic calculator calculates a statistic for each of at least one of a character n-gram consisting of n characters and a word surface layer n-gram consisting of n words based on the plurality of inputted corpora. ,
データ生成部が、入力された正規化された表現である正規語と前記正規語に対して揺らいだ表記である崩れ語との複数のペア、及び前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズを、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズに変換するための予め求められた正規崩れフレーズモデルに基づいて、前記複数のペアの各々について、前記ペアの前記崩れ語に含まれる前記崩れフレーズを前記正規フレーズに変換し、前記変換された正規フレーズと前記ペアの前記正規語との比較結果に基づいて、前記崩れフレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量と、前記正規フレーズに対応する文字n−gram及び単語表層n−gramの少なくとも一方について算出された統計量とを含む、正例データ及び負例データの何れか一方である学習データを生成し、  The data generation unit divides a plurality of pairs of a normal word that is an input normalized expression and a broken word that is a swaying expression with respect to the regular word, and the broken word at a character string delimiter position. Based on a pre-determined regular collapsed phrase model for converting a regular phrase that is a partial character string into a regular phrase that is a partial character string obtained by dividing the regular word at a character string separation position, For each, convert the collapsible phrase included in the collapsible word of the pair into the regular phrase, and correspond to the collapsible phrase based on a comparison result between the converted regular phrase and the regular word of the pair Statistics calculated for at least one of a character n-gram and a word surface layer n-gram, and a character n-gram and a word surface layer n- corresponding to the regular phrase And a statistic least one calculated for the ram, and generates learning data is either the positive example data and a negative example data,
学習部が、前記データ生成部によって前記複数のペアの各々について生成された学習データに基づいて、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するためのフレーズフィルタモデルを学習する  The learning unit learns a phrase filter model for determining the likelihood of converting the collapsed phrase into the regular phrase based on the learning data generated for each of the plurality of pairs by the data generation unit.
モデル学習方法。  Model learning method.
フレーズアライメント部が、入力された正規化された表現である正規語と、前記正規語に対して揺らいだ表記である崩れ語との複数のペアに基づいて、前記複数のペアの各々について、前記正規語を文字列の区切り位置で区切った部分文字列である正規フレーズの各々と、前記崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズの各々との最適な対応関係を、動的計画法に従って求め、  For each of the plurality of pairs, the phrase alignment unit is based on a plurality of pairs of a regular word that is an input normalized expression and a broken word that is a swaying expression with respect to the regular word. Optimal correspondence between each regular phrase that is a partial character string obtained by dividing a regular word at a character string delimiter position and each broken phrase that is a partial character string obtained by delimiting the broken word at a character string delimiter position , According to dynamic programming,
変換確率算出部が、前記フレーズアライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記正規フレーズ及び前記崩れフレーズの各ペアについて、前記正規フレーズが前記崩れフレーズに変換される変換確率を算出し、各ペアについて前記変換確率を格納した変換確率テーブルを正規崩れフレーズモデルとして出力する  The conversion probability calculation unit converts the regular phrase into the collapsed phrase for each pair of the regular phrase and the collapsed phrase based on the correspondence relationship for each of the plurality of pairs obtained by the phrase alignment unit. A conversion probability table storing the conversion probabilities for each pair is output as a normal collapsed phrase model
モデル学習方法。  Model learning method.
解析候補生成部が、正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記正規フレーズが前記崩れフレーズに変換される変換確率を格納した変換確率テーブルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成し、  The analysis candidate generator generates a regular phrase that is a partial character string obtained by dividing a regular word that is a normalized expression at a character string delimiter position, and a corrupted word that is a distorted expression with respect to the regular word. Conversion that stores the conversion probability that the normal phrase is converted into the collapsed phrase for each pair of the regular phrase and the collapsed phrase, which is obtained in advance for conversion into the collapsed phrase that is a partial character string that is delimited at a delimiter position. Based on the probability table, for the input character string, a character string in which a partial character string that matches the collapsed phrase is replaced with the corresponding regular phrase is generated as an analysis candidate,
ラティス生成部が、前記入力された文字列及び前記解析候補生成部によって生成された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成し、  A node corresponding to each partial character string to which a part of speech is given by the lattice generation unit performing a dictionary lookup on each of the input character string and the analysis candidate character string generated by the analysis candidate generation unit And a lattice which is a graph structure composed of edges connecting nodes corresponding to the substrings to be connected,
選択部が、前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する  The selection unit selects an optimum path connecting the nodes according to the dynamic programming based on the lattice generated by the lattice generation unit, and outputs it as an analysis result.
形態素解析方法。  Morphological analysis method.
解析候補生成部が、正規化された表現である正規語を文字列の区切り位置で区切った部分文字列である正規フレーズを、前記正規語に対して揺らいだ表記である崩れ語を文字列の区切り位置で区切った部分文字列である崩れフレーズに変換するための予め求められた、前記正規フレーズ及び前記崩れフレーズの各ペアについて前記正規フレーズが前記崩れフレーズに変換される変換確率を格納した変換確率テーブルに基づいて、入力された文字列について、前記崩れフレーズに一致する部分文字列を、対応する前記正規フレーズに置き換えた文字列を解析候補として生成し、  The analysis candidate generator generates a regular phrase that is a partial character string obtained by dividing a regular word that is a normalized expression at a character string delimiter position, and a corrupted word that is a distorted expression with respect to the regular word. Conversion that stores the conversion probability that the normal phrase is converted into the collapsed phrase for each pair of the regular phrase and the collapsed phrase, which is obtained in advance for conversion into the collapsed phrase that is a partial character string that is delimited at a delimiter position. Based on the probability table, for the input character string, a character string in which a partial character string that matches the collapsed phrase is replaced with the corresponding regular phrase is generated as an analysis candidate,
算出部が、前記解析候補生成部によって生成された前記解析候補の各々について、前記崩れフレーズを前記正規フレーズへ変換することの尤もらしさを判断するための予め求められたフレーズフィルタモデルに基づいて、前記解析候補の尤もらしさを算出し、  For each of the analysis candidates generated by the analysis candidate generation unit, the calculation unit is based on a phrase filter model obtained in advance for determining the likelihood of converting the collapsed phrase into the regular phrase. Calculating the likelihood of the analysis candidate;
解析候補抽出部が、前記解析候補生成部によって生成された前記解析候補から、前記算出部によって算出された前記解析候補の尤もらしさと、予め定められた閾値とに基づいて、尤もらしい前記解析候補を抽出し、  The analysis candidate extraction unit is based on the likelihood of the analysis candidate calculated by the calculation unit based on the analysis candidate generated by the analysis candidate generation unit and a predetermined threshold, and the analysis candidate that is likely Extract
ラティス生成部が、前記入力された文字列及び前記解析候補抽出部によって抽出された前記解析候補の文字列の各々に対して辞書引きを行い、品詞が付与された各部分文字列に対応するノード及び連結される部分文字列に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成し、  A node corresponding to each partial character string to which a part of speech is assigned by the dictionary generator for each of the input character string and the analysis candidate character string extracted by the analysis candidate extraction unit. And a lattice which is a graph structure composed of edges connecting nodes corresponding to the substrings to be connected,
選択部が、前記ラティス生成部において生成されたラティスに基づいて、動的計画法に従って、前記ノードを結んだ最適な経路を選択し、解析結果として出力する  The selection unit selects an optimum path connecting the nodes according to the dynamic programming based on the lattice generated by the lattice generation unit, and outputs it as an analysis result.
形態素解析方法。  Morphological analysis method.
JP2013225853A 2013-10-30 2013-10-30 Model learning device, morphological analysis device, and program Active JP6145027B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013225853A JP6145027B2 (en) 2013-10-30 2013-10-30 Model learning device, morphological analysis device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013225853A JP6145027B2 (en) 2013-10-30 2013-10-30 Model learning device, morphological analysis device, and program

Publications (2)

Publication Number Publication Date
JP2015087952A JP2015087952A (en) 2015-05-07
JP6145027B2 true JP6145027B2 (en) 2017-06-07

Family

ID=53050682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013225853A Active JP6145027B2 (en) 2013-10-30 2013-10-30 Model learning device, morphological analysis device, and program

Country Status (1)

Country Link
JP (1) JP6145027B2 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5625827B2 (en) * 2010-11-30 2014-11-19 富士通株式会社 Morphological analyzer, speech synthesizer, morphological analysis method, and morphological analysis program

Also Published As

Publication number Publication date
JP2015087952A (en) 2015-05-07

Similar Documents

Publication Publication Date Title
CN111753531A (en) Text error correction method and device based on artificial intelligence, computer equipment and storage medium
CN112906392B (en) Text enhancement method, text classification method and related device
CN111859921A (en) Text error correction method and device, computer equipment and storage medium
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN107341143B (en) Sentence continuity judgment method and device and electronic equipment
JP5809381B1 (en) Natural language processing system, natural language processing method, and natural language processing program
JP6145059B2 (en) Model learning device, morphological analysis device, and method
CN112464676A (en) Machine translation result scoring method and device
JP6778655B2 (en) Word concatenation discriminative model learning device, word concatenation detection device, method, and program
JP6427466B2 (en) Synonym pair acquisition apparatus, method and program
KR20230009564A (en) Learning data correction method and apparatus thereof using ensemble score
CN109815497B (en) Character attribute extraction method based on syntactic dependency
JP5441937B2 (en) Language model learning device, language model learning method, language analysis device, and program
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
JP2016224483A (en) Model learning device, method and program
JP6535607B2 (en) Preprocessing model learning device, method and program
JP6145027B2 (en) Model learning device, morphological analysis device, and program
JP6558856B2 (en) Morphological analyzer, model learning device, and program
JP6564709B2 (en) Sentence rewriting device, method, and program
WO2012131822A1 (en) Voice recognition result shaping device, voice recognition result shaping method, and program
CN114580391A (en) Chinese error detection model training method, device, equipment and storage medium
JP2018077677A (en) Character string converting device, model learning device, method, and program
JP6220761B2 (en) Model learning device, character string conversion device, method, and program
CN112766002A (en) Text alignment method and system based on dynamic programming
JP2016189154A (en) Translation method, device, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170512

R150 Certificate of patent or registration of utility model

Ref document number: 6145027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150