JP6532088B2

JP6532088B2 - 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法

Info

Publication number: JP6532088B2
Application number: JP2016546716A
Authority: JP
Inventors: ジ，チャン・ジン
Original assignee: Llsollu Co Ltd
Current assignee: Llsollu Co Ltd
Priority date: 2013-10-02
Filing date: 2014-08-27
Publication date: 2019-06-19
Anticipated expiration: 2034-08-27
Also published as: CN105593845A; WO2015050321A1; US10282413B2; KR101509727B1; WO2015050321A8; CN105593845B; JP2016538666A; US20160217122A1

Description

本発明は、自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法に関する。

近年、ブログ、特にフェイスブックおよびツイッターに代表されるソーシャル、カカオトークのようなモバイルメッセージは、コンピュータのみならず、スマートフォンにおいても日常になっており、その使用が日増しに増える傾向にある。

しかし、このようなメッセージの使用において、正書法に合わないエラーの含まれている破壊表現が大量流通している。ここで、破壊表現とは、正書法として間違っているか、正規化および標準化されていない表現をいい、このような破壊表現が含まれている文章を破壊文章という。このような破壊文章は、インターネットの活性化とスマートフォンの普及により発生した新たな言語使用のパラダイムである。

破壊文章は、正常表現でない破壊表現を含んでいるが、文章の意を伝えるには支障がない。

一方、機械翻訳などの自然言語情報処理、検索、データマイニングなどで用いられる形態素分析の場合、破壊表現がない正常文章を対象としている。つまり、既存の形態素分析は、形態素分析時に用いられる形態素知識や形態素情報が格納されている形態素辞書を使用しているが、前記のような破壊文章に含まれている破壊された形態素は、その特徴上、正常な形態素辞書に収録が不可能であり、また、単純に破壊された形態素を形態素辞書に追加する方式にも限界があり、破壊表現が含まれている破壊文章に対する形態素分析が難しい問題を抱えている。

本発明がなそうとする技術的課題は、破壊表現が含まれている破壊文章を正確に形態素分析可能な自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法を提供することである。

本発明の一特徴による整列コーパス生成方法は、
破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する段階と、前記並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する段階とを含む。

ここで、前記並列コーパスを構築する段階は、ネットワークを介して多数の破壊文章を収集する段階と、収集される破壊文章に含まれる破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する段階と、収集される破壊文章が普遍性を有すると判断される場合、当該破壊文章に対応する正常文章を生成する段階と、生成される正常文章と、これに対応する破壊文章とを一対に形成して、前記並列コーパスを構築する段階とを含む。

また、前記普遍性を判断する段階において、前記クエリに基づく検索の結果物の量を基準として基準量を超える場合、当該破壊表現が普遍性を有すると判断し、前記普遍性の判断は、多数のポータルサイトを介したウェブ検索により自動的に実行されることを特徴とする。

また、前記整列コーパスを生成する段階は、前記並列コーパスから与えられた文字列から、付属文字列の対（ｓｕｂ−ｓｔｒｉｎｇｐａｉｒ）をランダムや初期化方法論で設定し、関連性確率を初期化する段階と、文字列マッチおよび当該マッチ確率値に応じて破壊文章と正常文章との間が最適化できるように、破壊表現と正常表現との間のマッチを行う段階と、新たな整列による各付属文字列の対間の確率を再び計算する段階と、自律学習の停止条件が満足されるまで前記マッチを行う段階および計算する段階を繰り返し行い、前記停止条件が満足される場合、最終出力の破壊表現、正常表現および相関確率−ここで、相関確率は、前記破壊表現および正常表現の整列確率値である−を前記整列コーパスに格納する段階と、を含む。

また、前記整列コーパスを生成すべく行われる自律学習ベースで整列を求め、整列の確率値を設定していくために、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムが用いられることを特徴とする。

本発明の他の特徴による整列コーパス生成装置は、
破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する並列コーパス構築部と、前記並列コーパス構築部により構築される並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する自律学習部とを含む。

ここで、前記自律学習部は、前記並列コーパス構築部により構築される並列コーパスと、前記並列コーパスに対して、自律学習方法を用いて破壊表現と正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、前記整列コーパスを生成する自律学習整列部とを含む。

また、前記並列コーパス構築部は、ネットワークを介して多数の破壊文章を収集する破壊文章収集器と、前記破壊文章収集器により収集される破壊文章に含まれる破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する普遍性判断器と、収集される破壊文章が普遍性を有すると判断される場合、当該破壊文章に対応する正常文章を生成する正常文章生成器と、前記正常文章生成器により生成される正常文章と、これに対応する破壊文章とを一対に形成して、前記並列コーパスを構築する構築器とを含む。

また、前記自律学習整列部は、前記並列コーパスから与えられた文字列から、付属文字列の対（ｓｕｂ−ｓｔｒｉｎｇｐａｉｒ）をランダムや初期化方法論で設定し、関連性確率を初期化する初期化器と、文字列マッチおよび当該マッチ確率値に応じて破壊文章と正常文章との間が最適化できるように、破壊表現と正常表現との間のマッチを行うＥ−ステップ処理器と、新たな整列による各付属文字列の対間の確率を再び計算するＭ−ステップ処理器と、前記並列コーパスに構築されている破壊文章と正常文章の文字列を前記初期化器に入力させ、前記Ｍ−ステップ処理器の確率計算後、自律学習の停止条件が満足されるまで前記Ｅ−ステップ処理器およびＭ−ステップ処理器の繰り返し実行を制御し、前記停止条件が満足される場合、最終出力の破壊表現、正常表現および相関確率が格納される前記整列コーパスを生成する制御器と、を含む。

本発明のさらに他の特徴による形態素分析装置は、
言語毎の形態素分析に用いられる多数の知識情報を格納するが、正常表現に対応する形態素情報を格納する形態素辞書と、破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−に対応する正常表現情報を格納する整列コーパスとを含む知識データベースと、入力される語節に対して、前記知識データベースを用いて形態素分析を行って分析結果を出力するが、入力語節に対する形態素が前記形態素辞書にない場合、前記入力語節に含まれている破壊表現に対して、前記整列コーパスを用いて前記破壊表現に対応する正常表現を探し、形態素分析を行う分析器と、を含む。

ここで、前記知識データベースが、形態素毎の接続情報を格納する既分析辞書をさらに含み、前記分析器は、前記形態素辞書を用いて、前記入力語節をなしている形態素を分割するが、前記入力語節をなしている形態素が前記形態素辞書にない場合、前記整列コーパスを用いて、対応する正常表現を用いて形態素分割を行う形態素分割部と、前記既分析辞書を用いて、前記形態素分割部により分割された形態素に対して組み合わせ可能な形態素を抽出する接続情報チェック部と、前記接続情報チェック部により抽出される形態素に対して原形復元を行って、形態素分析結果として出力する原形復元部と、を含む。

また、前記形態素分割部は、前記入力語節を形態素に分割して形態素候補を生成する候補群生成器と、前記候補群生成器で生成される形態素候補に対して、前記形態素辞書を用いて当該形態素候補の存在の有無をチェックする正常表現チェック器と、前記正常表現チェック器により形態素候補が前記形態素辞書に存在しないと判断される場合、当該形態素候補に対して、前記整列コーパスを用いて前記入力語節の破壊表現の存在の有無をチェックする破壊表現チェック器と、前記正常表現チェック器により形態素候補が前記形態素辞書に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する分割処理器と、前記候補群生成器、前記正常表現チェック器、前記破壊表現チェック器および前記分割処理器を制御して、前記入力語節に対する形態素分割が行われるようにするが、前記候補群生成器で生成される形態素候補が前記正常表現チェック器により前記形態素辞書に存在しないと判断される場合、前記破壊表現チェック器により対応する正常表現を探し、前記候補群生成器に再入力制御する制御器とを含む。

また、前記整列コーパスは、破壊表現が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列して生成されたことを特徴とする。

また、前記整列コーパスは、破壊表現と該破壊表現に対応する正常表現との間の整列確率値である相関確率を含むことを特徴とする。

また、形態素分析時、前記形態素辞書を介して形態素の存在の有無を判断する時に、前記相関確率を用いて当該各文字列が形態素である確率として数値化して表現することを特徴とする。

また、前記整列コーパスは、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムベースで生成されることを特徴とする。

本発明のさらに他の特徴による形態素分析方法は、
入力される語節を形態素に分割して形態素候補を生成する段階と、形態素候補が形態素辞書−ここで、形態素辞書は、正常表現に対応する形態素情報を格納する辞書である−に存在するか否かを判断する段階と、形態素候補が前記形態素辞書に存在する場合、当該形態素分析を行う段階と、形態素候補が前記形態素辞書に存在しない場合、前記入力される語節に含まれる破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が整列コーパス−ここで、整列コーパスは、破壊表現に対応する正常表現情報を格納するコーパスである−に存在するか否かを判断する段階と、破壊表現が前記整列コーパスに存在する場合、当該破壊表現に対応する正常表現を探し、形態素分析を行う段階と、を含む。

ここで、前記形態素分析を行う段階は、形態素毎の接続情報を格納する既分析辞書を用いて、形態素に対して組み合わせ可能な形態素を抽出する段階と、抽出される形態素に対して原形復元を行って、形態素分析結果として出力する段階とを含む。

また、前記形態素候補が形態素辞書に存在するか否かを判断する段階の前に、前記整列コーパスを生成する段階をさらに含む。

また、前記整列コーパスを生成する段階は、破壊表現が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する段階と、前記並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する段階とを含む。

本発明によれば、破壊表現が含まれている破壊文章を正確に形態素分析することができる。

また、破壊表現と正常表現の整列情報を補助形態素辞書として用いることによって、一般的な形態素分析器が、破壊文章の形態素分析だけでなく、正常な表現に変える機能まで可能にする効果がある。

さらに、破壊表現と正常表現の整列情報および自律学習を通した整列により破壊表現と正常表現の多様な関係を数値化することによって、様々な種類の破壊に対する対応を可能にする。

一般的な形態素分析装置を概略的に示すブロック図である。一般的な形態素分析方法のフローチャートである。本発明の実施形態に係る形態素分析装置の構成ブロック図である。図３に示された形態素分割部の具体的な構成ブロック図である。図３に示された破壊表現−正常表現整列コーパスを生成する装置の構成ブロック図である。図５に示された並列コーパス構築部の構成ブロック図である。本発明の実施形態に係る形態素分析方法のフローチャートである。多数の言語に通用する汎用の形態素分析装置の構造を概略的に示す図である。図８に示された形態素分析装置に、本発明の実施形態に係る破壊表現−正常表現整列コーパスが適用された例を示す図である。

以下、添付した図面を参照して、本発明の実施形態について本発明の属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は、種々の異なる形態で実現可能であり、ここで説明する実施形態に限定されない。そして、図面において、本発明を明確に説明するために説明上不必要な部分は省略し、明細書全体にわたって類似の部分については類似の図面符号を付した。

明細書全体において、ある部分がある構成要素を「含む」とする時、これは特に反対となる記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに包含できることを意味する。また、明細書に記載された「…部」、「…器」、「モジュール」などの用語は、少なくとも１つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェアまたはハードウェアおよびソフトウェアの結合で実現可能である。

まず、一般的な形態素分析装置について説明する。

図１は、一般的な形態素分析装置を概略的に示すブロック図である。

図１を参照すれば、一般的な形態素分析装置１０において、形態素分割器１３は、辞書ＤＢ１１の形態素辞書１１−１を参照して、入力される語節をなしている全ての可能な形態素を分割し、接続情報チェック器１５は、辞書ＤＢ１１の既分析辞書１１−３を参照して、形態素分割器１３により分割された形態素に対して組み合わせ可能な形態素を抽出し、最終形態素分析結果として出力する。

図２は、一般的な形態素分析方法のフローチャートである。

図２を参照すれば、形態素分割器１３が、入力語節を形態素に分割して形態素候補を生成し（Ｓ１０）、生成される形態素候補に対して形態素辞書１１−１をチェックし（Ｓ２０）、形態素辞書１１−１にある場合、接続情報チェック器１５が、接続情報をチェックして最終分析結果を出力する（Ｓ３０）。

しかし、この時、前記段階Ｓ２０において、形態素候補が形態素辞書１１−１にない場合には、形態素辞書１１−１に登録されていない単語（Ｏｕｔ−ｏｆｄｉｃｔｉｏｎａｒｙｗｏｒｄまたはＯｕｔ−ｏｆ−Ｖｏｃａｂｕｌａｒｙ（ＯＯＶ））として認識したり、または有効でない形態素として認識して、形態素分析失敗と処理される（Ｓ４０）。

本発明の実施形態において、対象となる破壊表現が、前記一般的な形態素分析装置１０で登録されていない単語、または有効でない形態素として認識されうる。

以下、本発明の実施形態において、対象となる破壊表現について説明する。

韓国語メッセージの使用において、正書法エラーの含まれている韓国語破壊表現が大量流通しており、ネチズン、特に小学生らの間で新しく作られ流行っている「外界語」の使用が日常で、韓国語破壊現象は学者らが憂慮する水準にまで至っている。

以下、前記韓国語破壊文章の破壊類型について説明する。

（１）正書法エラー
多くの破壊文章は綴りエラーを含んでいる。綴りエラーは、正確な綴りを知らずに犯すエラー、または正確な綴りを無視して犯すエラーである。例えば、

を

に、

を

、
を

、

を

に表現する破壊表現がある。この種類のエラーは、音に従って表記する特徴を見せており、時には、音に従って表記することによって、新たなニュアンスを示す手段として用いられる。

他の種類の綴りエラーは、打ち間違いで引き起こされたエラーである。特に、スマートフォンのように相対的に小さい画面への、移動中の文字入力で打ち間違いが頻繁に発生する。このようなエラーは、タイピングするキーに隣接したキーが入力される特徴を見せている。例えば、

を

に間違って入力するもので、これは

を

に間違ってタイピングした場合であり、

を

と入力して、

を

に間違ってタイピングした場合である。特に、

と

、

と

、

と

、

と

は互いに打ち間違いとして入力される確率が高い。

（２）新造語
新造語の一種類は新生略語である。例えば、

は

の略語であり、

は

の略語であり、

は

の略語であり、

は

の略語であり、そして、

は

の略語で、ネチズンの間で通用している。

他の種類の新造語として、

を

のように

をくっつけて、よりかわいらしい、あるいはハツラツな感じを伝えるのに用いられる。

前記２つの類型ではないものの、既存の正常文章ベースの自然言語処理システムがさらされている他の問題は、外国語の音域の様々なバージョンの通用である。例えば、

、

などの使用がある。

外国語と韓国語の発音の差から１：１の音域が難しくて、上のように様々な音域バージョンが存在し、また、この状況で音域標準の設定が難しいだけでなく、標準が設定されていても実生活で守られない可能性がさらに高い。

このように、前記破壊表現が含まれている破壊文章が、前記一般的な形態素分析装置１０を通して形態素分析が行われる場合、形態素辞書１１−１になくて形態素分析が行われなくなることによって、既存の自然言語処理技術や機械翻訳などが順調に行われなくなる。

以下、上記の問題を解決するための、本発明の実施形態について説明する。

図３は、本発明の実施形態に係る形態素分析装置の構成ブロック図である。

図３に示されているように、本発明の実施形態に係る形態素分析装置１００は、辞書データベース（ＤＢ）１１０と、形態素分割部１２０と、接続情報チェック部１３０と、原形復元部１４０とを含む。

辞書ＤＢ１１０は、入力語節に対する形態素分析時に用いられる各種の辞書情報を格納する。このような辞書ＤＢ１１０には、形態素分析時に用いられる形態素辞書１１１と、破壊表現、これに対応する正常表現、そして破壊表現と正常表現の関連性を数値化した値である相関確率を格納し、形態素分析時に用いられる破壊表現−正常表現整列コーパス１１３と、接続情報チェックおよび原形復元時に用いられる既分析辞書１１５とが含まれる。その他にも、言語毎に形態素分析に用いられる多様な形態の辞書情報が格納できる。ここで、破壊表現−正常表現整列コーパス（ｃｏｒｐｕｓ）１１３は、普遍的に用いられる破壊表現を含む破壊文章と、これに対応する正常文章とを含む並列コーパスを構築し、構築された並列コーパスの各文章内の破壊表現と正常表現の最適整列を自律学習して生成される。これについては、以後に具体的に説明する。一方、言語処理で用いられるコーパス（ｃｏｒｐｕｓ）と形態素分析の意味についてはよく知られているので、ここでは具体的な説明を省略する。

形態素分割部１２０は、辞書ＤＢ１１０の形態素辞書１１１と破壊表現−正常表現整列コーパス１１３を参照して、入力される語節をなしている全ての可能な形態素を分割する。この時、形態素分割部１２０は、入力語節から分割される形態素が形態素辞書１１１にはないものの破壊表現−正常表現整列コーパス１１３にはある場合、当該形態素に対応する正常表現を用いて形態素分割を行う。

接続情報チェック部１３０は、辞書ＤＢ１１０の既分析辞書１１５を参照して、形態素分割部１２０により分割された形態素に対して組み合わせ可能な形態素を抽出する。

原形復元部１４０は、接続情報チェック部１３０により抽出される形態素に対して原形復元を行って、形態素分析結果として出力する。

図４は、図３に示された形態素分割部１２０の具体的な構成ブロック図である。

図４に示されているように、形態素分割部１２０は、候補群生成器１２１と、正常表現チェック器１２２と、破壊表現チェック器１２３と、分割処理器１２４と、制御器１２５とを含む。

候補群生成器１２１は、入力語節を形態素に分割して形態素候補を生成する。

正常表現チェック器１２２は、候補群生成器１２１で生成される形態素候補に対して、形態素辞書１１１を参照して当該形態素候補の存在の有無をチェックする。

破壊表現チェック器１２３は、正常表現チェック器１２２により形態素候補が形態素辞書１１１に存在しないと判断される場合、入力語節の破壊表現に対して、破壊表現−正常表現整列コーパス１１３を参照して当該破壊表現に対応する正常表現の存在の有無をチェックする。

分割処理器１２４は、正常表現チェック器１２２により形態素候補が形態素辞書１１１に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する。

制御器１２５は、候補群生成器１２１、正常表現チェック器１２２、破壊表現チェック器１２３および分割処理器１２４を制御して、入力語節を形態素に分割処理し、最終分割処理された形態素を接続情報チェック部１３０に伝達する。特に、制御器１２５は、破壊表現チェック器１２３により破壊表現に対応する正常表現が存在するとチェックされる場合、当該正常表現を用いて候補群生成器１２１が再び形態素候補を生成し、生成される形態素候補に対して、正常表現チェック器１２２が形態素候補の存在の有無をチェックするように制御を行う。

次に、図３に示された破壊表現−正常表現整列コーパス１１３を生成する内容について説明する。

図５は、図３に示された破壊表現−正常表現整列コーパス１１３を生成する装置２００の構成ブロック図である。

図５に示されているように、破壊表現−正常表現整列コーパス１１３を生成する装置２００は、並列コーパス構築部２１０と、自律学習部２２０とを含む。

並列コーパス構築部２１０は、普遍的に用いられる破壊表現が含まれている破壊文章を収集して破壊文章に対応する正常文章を生成し、破壊文章と正常文章の対を格納する破壊文章−正常文章並列コーパス２２１を構築する。

自律学習部２２０は、並列コーパス構築部２１０により構築される破壊文章−正常文章並列コーパス２２１と、該破壊文章−正常文章並列コーパス２２１に対して、自律機械学習方法を用いて破壊表現と正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、破壊表現−正常表現整列コーパス１１３を生成する自律学習整列部２２２とを含む。

このような自律学習整列部２２２は、初期化器２２２１と、Ｅ（Ｅｘｐｅｃｔａｔｉｏｎ）−ステップ処理器２２２２と、Ｍ（Ｍａｘｉｍｉｚａｔｉｏｎ）−ステップ処理器２２２３と、制御器２２２４とを含む。

初期化器２２２１は、破壊文章−正常文章並列コーパス２２１から与えられた文字列から、関連付属文字列の対（ｓｕｂ−ｓｔｒｉｎｇｐａｉｒ）をランダムやその他の初期化方法論で設定し、関連性確率を初期化する。

Ｅ−ステップ処理器２２２２は、デコーディングを行い、文字列マッチおよび当該マッチ確率値に応じて破壊文章と正常文章との間が最適化できるように、破壊表現と正常表現との間のマッチを行う。

Ｍ−ステップ処理器２２２３は、確率計算を行い、新たな整列による各付属文字列の対間の確率を再び計算する。

制御器２２２４は、破壊文章−正常文章並列コーパス２２１に構築されている破壊文章と正常文章の文字列を初期化器２２２１に入力させ、Ｍ−ステップ処理器２２２３の確率計算後、自律学習の停止条件が満足されるまでＥ−ステップ処理器２２２２およびＭ−ステップ処理器２２２３の繰り返し実行（ｉｔｅｒａｔｉｏｎ）を制御し、停止条件が満足される場合、最終出力の文字列、つまり、破壊表現、正常表現および相関確率からなる結果を破壊表現−正常表現整列コーパス１１３に格納する。

前記Ｅ−ステップ処理器２２２２とＭ−ステップ処理器２２２３がそれぞれ行うＥ−ステップ処理およびＭ−ステップ処理については、以後に具体的に説明する。

次に、図５に示された並列コーパス構築部２１０が、破壊文章−正常文章並列コーパス２２１を構築する内容について説明する。

図６は、図５に示された並列コーパス構築部２１０の構成ブロック図である。

図６に示されているように、並列コーパス構築部２１０は、破壊文章収集器２１１と、普遍性判断器２１２と、正常文章生成器２１３と、構築器２１４とを含む。

破壊文章収集器２１１は、モバイルのＳＭＳ（ＳｈｏｒｔＭｅｓｓａｇｅＳｅｒｖｉｃｅ）、カカオトークのメッセージおよびインターネットのツイッターなどを介して一定量の破壊文章を収集する。このような破壊文章として、例えば、１００万個の破壊文章が収集されて用いられる。また、破壊文章は、オンラインを介して収集されたり、または運用者によって収集された破壊文章が入力手段を介した入力により収集されてもよい。

普遍性判断器２１２は、破壊文章収集器２１１により収集された破壊文章に含まれている破壊表現をクエリとしてオンラインを介した検索を行い、このようなクエリに基づく結果物の量を基準として普遍的に用いられる破壊表現であるか否かを判断して、当該破壊表現に対する普遍性を判断する。このような破壊表現の普遍性判断は、ネイバー、ダウム、グーグルなどのウェブ検索により自動的に実行できる。

正常文章生成器２１３は、普遍性判断器２１２により普遍性があると判断された破壊表現に対して対応する正常表現を生成する。このような正常表現の生成は、ウェブ検索により自動的に行われてもよく、または運用者によって直接行われてもよい。

構築器２１４は、正常文章生成器２１３により生成される正常文章を、対応する破壊文章と共に一対に形成して、破壊文章−正常文章並列コーパス２２１として構築する。

以下、図５に示された自律学習整列部２２２が、破壊文章−正常文章並列コーパス２２１に対して自律学習整列を行って、破壊表現−正常表現整列コーパス１１３を生成する方法について具体的に説明する。

まず、本発明の実施形態に係る破壊文章と正常文章の整列は、自律機械学習方法により自律的に行われ、全体コーパスの値が最高となる整列を求め、整列の確率値を設定していく方法が用いられる。この時、最適な整列を求め、整列の確率値を設定していく方法として、本発明の実施形態ではＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムを用いるが、その他の自律および半自律ベースの他の方法を用いて行われてもよい。

まず、本発明の実施形態では、Ｕ_ｉ，ｊが文字列ｕ_ｉ，ｕ_ｉ＋１，…，ｕ_ｊを示し、Ｖ_ｍ，ｌが文字列ｖ_ｉ，ｖ_ｉ＋１，…，ｖ_ｍを示すと仮定する。

ＥＭアルゴリズムを用いて整列作業を行うために、破壊表現との最適な正常表現文字列を探すデコーディング段階（Ｅ−ステップ）と各文字列間の確率を学習する段階（Ｍ−ステップ）が必要である。この過程は下記のように３つの段階で進行する。

１）初期化段階（ステップ−１）
与えられた破壊文字列から、関連付属文字列の対をランダムやその他の初期化方法論で設定し、関連性確率値は０に初期化する。つまり、任意破壊文字列Ｕ_{ｎ，ｉ−ｈ}と正常文字列Ｖ_{ｍ，ｊ−ｋ}の整列確率値Ｐ（Ｖ_{ｍ，ｊ−ｋ}｜Ｕ_{ｎ，ｉ−ｈ}）＝０に設定する。

２）期待（Ｅｘｐｅｃｔａｔｉｏｎ）段階（ステップ−２）
この段階は、入力された破壊文章と正常文章から、破壊文字列と正常文字列の対を求める段階である。

この段階では、現在の確率値に応じて動的プログラミングデコーディング方法により、与えられた文字列の対Ｕ_ｎ，１＝ｕ_ｉ，ｕ_２，…，ｕ_ｎとＶ_ｍ，１＝ｖ_１，ｖ_２，…，ｖ_ｍから、それぞれ対応する付属文字列の対を求める。

具体的なデコーディング過程は以下の通りである。

破壊表現文字列Ｕ_ｎ，１と正常表現文字列Ｖ_ｍ，１に対して、Ｓ（ｉ，ｊ）は、破壊表現文字列Ｕ_ｉ，１と正常表現文字列Ｖ_ｍ，１までの整列スコアを意味する。この場合、破壊表現Ｕ_ｎ，１と正常表現Ｖ_ｍ，１の対応する付属文字列の対を求める過程は、下記の付属段階１から３により行われる。

＜付属段階１＞
Ｓ（０，０）＝０
初期化段階であって、いずれの文字列も含まれないＳ（０，０）の値を０に設定する。

＜付属段階２＞
Ｓ（ｉ，ｊ）＝ｍａｘ_ｈ，ｋ［Ｓ（ｉ−ｈ，ｊ−ｋ）＋ｌｏｇＰ（Ｖ_{ｍ，ｊ−ｋ}｜Ｕ_{ｎ，ｉ−ｈ}）］
０≦ｉ≦ｎ，０≦ｊ≦ｍ
破壊表現文字列Ｕ_ｉ，１と正常表現文字列Ｖ_ｊ，１までの整列スコアＳ（ｉ，ｊ）は、破壊表現文字列Ｕ_{ｉ−ｈ，１}と正常表現文字列Ｖ_{ｊ−ｋ，１}までの整列スコアＳ（ｉ−ｈ，ｊ−ｋ）と、破壊表現文字列Ｕ_{ｉ，ｉ−ｈ}と正常表現文字列Ｖ_{ｊ，ｊ−ｋ}までの整列重み値ｌｏｇＰ（Ｖ_{ｉ，ｊ−ｋ}｜Ｕ_{ｉ，ｉ−ｈ}）との合計の最大値（ｍａｘ）である。

ここで、ｌｏｇＰ（Ｖ_{ｉ，ｊ−ｋ}｜Ｕ_{ｉ，ｉ−ｈ}）は、Ｖ_{ｊ，ｊ−ｋ}とＵ_{ｉ，ｉ−ｈ}の整列確率Ｐ（Ｖ_{ｉ，ｊ−ｋ}｜Ｕ_{ｉ，ｉ−ｈ}）のログ（ｌｏｇ）値であり、Ｐ（Ｖ_{ｉ，ｊ−ｋ}｜Ｕ_{ｉ，ｉ−ｈ}）は、ＥＭアルゴリズムの前記ステップ−１段階と後述するステップ−３段階で計算された値である。

＜付属段階３＞
前記付属段階２により、破壊表現文字列に対して１からｎまで、そして、正常表現文字列に対して１からｍまで順次に計算された整列スコアＳ（ｎ，ｍ）は、破壊表現文字列Ｕ_ｉ，１と正常表現文字列Ｖ_ｊ，１までの最高整列値である。

３）最大化（Ｍａｘｉｍｉｚａｔｉｏｎ）段階（ステップ−３）
この段階は、前記ステップ−２段階で整列された破壊表現文字列と正常表現文字列の対の統計に応じた確率値を求める段階であって、最高値となるように整列された各付属文字列の対に対してバックトラッキング（ｂａｃｋ−ｔｒａｃｋｉｎｇ）する方法で破壊表現文字列に対応する正常表現文字列を探す。

具体的には、ステップ−２段階それぞれの付属文字列の対をカウントして、Ｐ（Ｖ_ｊ，１｜Ｕ_ｉ，１）＝ｃｏｕｎｔ（Ｕ_ｉ，１，Ｖ_ｊ，１）／ｃｏｕｎｔ（Ｕ_ｉ，１）により現時点で対応する文字列の確率値を推定する。ここで、ｃｏｕｎｔ（Ｕ_ｉ，１、Ｖ_ｊ，１）は、全体並列コーパスにおいてＵ_ｉ，１とＶ_ｊ，１が共に出現する回数を示し、ｃｏｕｎｔ（Ｕ_ｉ，１）は、全体並列コーパスにおいてＵ_ｉ，１が出現する回数を示す。

前記ステップ−３段階の後、終了条件が満足されない場合、終了条件が満足されるまで前記ステップ−２段階とステップ−３段階が繰り返し行われる。この時の繰り返しは、前のステップ−３の結果値が反映されて行われる。

前記終了条件が満足されて破壊表現と正常表現の整列が完了すると、当該破壊表現と正常表現、そしてこれらの間の相関確率を表現−正常表現整列コーパス１１３に格納する。

例として、破壊文章−正常文章並列コーパス２２１に記載された破壊文章が「知らない人からきもいと言われます。」であり、これに対応して記載された正常文章が「知らない人から気持ち悪いと言われます。」の場合、前記過程により、破壊表現−正常表現整列コーパス１１３には、「きもい：：気持ち悪い：：0.5947」、「もい：：持ち悪い：：0.1201」などが生成されて格納されるとよい。この時、破壊表現−正常表現整列コーパス１１３に記載される形式は、「破壊表現：：正常表現：：相関確率」である。ここで、相関確率は、前記ステップ−１およびステップ−３で求められた破壊表現と正常表現の整列確率値が相当しうる。

以下、図７を参照して、本発明の実施形態に係る形態素分析方法について説明する。

図７は、本発明の実施形態に係る形態素分析方法のフローチャートである。

説明に先立ち、まず、装置２００の並列コーパス構築部２１０により破壊文章−正常文章並列コーパス２２１が構築された後、構築された破壊文章−正常文章並列コーパス２２１に対して、自律学習部２２０が、自律学習ベースの最適整列を行って、破壊表現−正常表現整列コーパス１１３を予め生成した状態であることを仮定する。

図７を参照すれば、形態素分析のための語節が入力されると（Ｓ１００）、形態素分割部１２０は、入力語節を形態素に分割して形態素候補を生成する（Ｓ１１０）。

その後、形態素分割部１２０は、生成される形態素候補に対して形態素辞書１１１をチェックし（Ｓ１２０）、形態素辞書１１１にある場合、接続情報チェック部１３０に伝達して、当該形態素に対する接続情報がチェックされるようにする（Ｓ１３０）。

このように、接続情報がチェックされた後には、原形復元部１４０が、当該形態素に対する原形復元を行って（Ｓ１４０）、最終分析結果を出力する。

しかし、この時、入力語節が破壊表現に相当する場合には、前記段階Ｓ１２０で形態素候補が形態素辞書１１１にないので、形態素分割部１２０は、当該形態素候補に対して破壊表現−正常表現整列コーパス１１３をチェックする（Ｓ１５０）。

仮に、入力語節の破壊表現が前の自律学習ベースの最適整列により破壊表現−正常表現整列コーパス１１３内にある場合、形態素分割部１２０は、当該破壊表現に対応する正常表現を確認した後（Ｓ１６０）、確認される正常表現に対して前記形態素候補を生成する段階Ｓ１１０から繰り返し行う。この時、確認される正常表現に対して生成される形態素候補はすでに形態素辞書１１１にあるので、前記形態素辞書１１１をチェックする段階で当該形態素があるとチェックされ、その後の段階Ｓ１３０、Ｓ１４０が継続して行われて、最終分析結果が出力できるようになる。

一方、入力語節が破壊表現や前記のような自律学習ベースの最適整列により破壊表現−正常表現整列コーパス１１３に生成されていなかったり、またはその他エラーの語節に相当する場合には、前記段階Ｓ１５０で当該語節が破壊表現−正常表現整列コーパス１１３にないので、これらの語節については、形態素辞書１１１に登録されていない単語（Ｏｕｔ−ｏｆｄｉｃｔｉｏｎａｒｙｗｏｒｄまたはＯｕｔ−ｏｆ−Ｖｏｃａｂｕｌａｒｙ（ＯＯＶ））として認識したり、または有効でない形態素として認識して、形態素分析失敗と処理される（Ｓ１７０）。

このように、既存の形態素分析では、破壊表現が含まれている破壊文章に対して、形態素分析時、当該形態素が形態素辞書にないとの理由でＯＯＶ単語と判断されて破壊表現に対して誤認識されるが、本発明の実施形態では、破壊表現に対して、自律学習ベースの最適整列により破壊表現に対応する正常表現を破壊表現−正常表現整列コーパス１１３の形態に構築しておくことで、これらの破壊表現に対して、形態素辞書１１１になくても破壊表現−正常表現整列コーパス１１３に対する破壊表現のチェックを行って、対応する正常表現を探し、正確な形態素分析を行うことができる。

一方、本発明の実施形態では、破壊表現に対応する正常表現への復原のために、破壊表現−正常表現整列コーパス１１３の構築時に破壊文章内の破壊表現と正常表現の最適整列を自律学習して確率値として求め、破壊表現と正常表現に対する相関確率として提供することによって、破壊表現の多様性を数値化することができる。つまり、形態素分析時、形態素辞書１１１を介して形態素があるか否かを判断する時に、各文字列が形態素である確率として数値化して表現する。例えば、形態素があるかないかで判断していたものを、０（ない）と１（ある）との間の数値で表現して、形態素分析時、多義性解決のための数値化された情報を提供することができる。

一方、上記では、韓国語に対する形態素分析について説明したが、英語等その他の言語においても、韓国語と同様に破壊表現が頻繁に用いられており、破壊表現が含まれている破壊文章の処理にあたり、既存の正常文章ベースの言語処理方法論では明確に限界がある。例えば、添付した図８に示されているように、一般的な形態素分析装置の場合、形態素分析を行う形態素分析器３００が形態素分析に参照する知識４００を参照して、当該言語に対する形態素分析を行う。この時、形態素分析に参照する知識４００としては、例えば、形態素辞書が含まれる。

言語と言語との間の形態論的違いによって、言語毎の形態素分析において具体的な分析過程および各分析過程に必要な知識は互いに異なりうる。例えば、韓国語の場合には、上記の図１のように、形態素分割、接続情報チェックおよび原形復元などの構成要素または過程に分けられ、参照知識４００も形態素辞書１１−１のように具体化できる。

したがって、英語等その他の言語に対しても、韓国語について上記で説明したような内容を参照して対応させる場合、図９に示されているように、破壊文章と正常文章の並列コーパスを構築した後、構築された破壊文章と正常文章の並列コーパスに対して自律学習ベースの最適整列を行って、破壊表現−正常表現整列コーパス６２０を生成して適用することによって、形態素分析器５００が、形態素辞書６１０にない破壊表現に対して破壊表現−正常表現整列コーパス６２０をチェックし、破壊表現に相当する正常表現を探し、正常な形態素分析を行うことができる。

以上、本発明の実施形態について詳細に説明したが、本発明の権利範囲はこれに限定されるものではなく、以下の請求の範囲で定義している本発明の基本概念を利用した当業者の様々な変形および改良形態も本発明の権利範囲に属する。

Claims

正常表現に対応する形態素情報を格納する形態素辞書にない形態素を含む表現である破壊表現が含まれている破壊文章と、該破壊文章に対応する、前記正常表現から構成された文章である正常文章とからなる対が格納された並列コーパスを構築する段階と、
前記並列コーパスに対して自律学習ベースの整列を行って、前記破壊表現および該破壊表現に対応する前記正常表現に整列された整列コーパスを生成する段階と、を含み、
前記並列コーパスを構築する段階は、
ネットワークを介して多数の前記破壊文章を収集する段階と、
収集される前記破壊文章に含まれる前記破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する段階と、
収集される前記破壊文章が普遍性を有すると判断される場合、当該破壊文章に含まれる前記破壊表現に対して対応する前記正常表現を生成し、生成された当該正常表現を含む前記正常文章を生成する段階と、
生成される前記正常文章と、これに対応する前記破壊文章とを一対に形成して、前記並列コーパスを構築する段階と、を含み、
前記整列コーパスを生成する段階は、
前記並列コーパスから与えられた前記破壊文章と前記正常文章の対のうちの一つに該当する破壊文字列と正常文字列との各一部から構成される付属文字列の対を求める段階と、
前記付属文字列の対の前記並列コーパスでの出現回数に基づいて前記付属文字列の対の整列確率を算出する段階と、
自律学習の停止条件が満足されるまで前記付属文字列の対を求める段階および前記整列確率を算出する段階を繰り返して行い、前記停止条件が満足される場合、前記付属文字列の対とそれに対応する前記整列確率を、前記破壊表現、前記正常表現、および相関確率として前記整列コーパスに格納する段階と、を含むことを特徴とするコンピュータで実行される整列コーパス生成方法。
前記普遍性を判断する段階において、
前記クエリに基づく検索の結果物の量を基準として基準量を超える場合、当該破壊表現が普遍性を有すると判断し、
前記普遍性の判断は、多数のポータルサイトを介したウェブ検索により自動的に実行されることを特徴とする請求項１に記載の整列コーパス生成方法。
前記整列コーパスを生成すべく行われる自律学習ベースで整列を求め、整列の確率値を設定していくために、ＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ−Ｍａｘｉｍｉｚａｔｉｏｎ）アルゴリズムが用いられることを特徴とする請求項１に記載の整列コーパス生成方法。
正常表現に対応する形態素情報を格納する形態素辞書にない形態素を含む表現である破壊表現が含まれている破壊文章と、該破壊文章に対応する、前記正常表現から構成された文章である正常文章とからなる対が格納された並列コーパスを構築する並列コーパス構築部と、
前記並列コーパス構築部により構築される並列コーパスに対して自律学習ベースの整列を行って、前記破壊表現および該破壊表現に対応する前記正常表現に整列された整列コーパスを生成する自律学習部と、を含み、
前記並列コーパス構築部は、
ネットワークを介して多数の前記破壊文章を収集する破壊文章収集器と、
前記破壊文章収集器により収集される前記破壊文章に含まれる前記破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する普遍性判断器と、
収集される前記破壊文章が普遍性を有すると判断される場合、当該破壊文章に含まれる前記破壊表現に対して対応する前記正常表現を生成し、生成された当該正常表現を含む前記正常文章を生成する正常文章生成器と、
前記正常文章生成器により生成される前記正常文章と、これに対応する前記破壊文章とを一対に形成して、前記並列コーパスを構築する構築器とを含み、
前記自律学習部は、
前記並列コーパス構築部により構築される並列コーパスと、
前記並列コーパスに対して、自律学習方法を用いて前記破壊表現と前記正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、前記整列コーパスを生成する自律学習整列部と、を含み、
前記自律学習整列部は、
前記並列コーパスから与えられた前記破壊文章と前記正常文章の対のうちの一つに該当する破壊文字列と正常文字列の各一部から構成される付属文字列の対を求めるＥ−ステップ処理器と、
前記付属文字列の対の前記並列コーパスでの出現回数に基づいて前記付属文字列の対の整列確率を算出するＭ−ステップ処理器と、
前記並列コーパスに構築されている前記破壊文章と前記正常文章の文字列を前記Ｅ−ステップ処理器に入力させ、前記Ｍ−ステップ処理器による整列確率の計算後、自律学習の停止条件が満足されるまで前記Ｅ−ステップ処理器および前記Ｍ−ステップ処理器の繰り返し実行を制御し、前記停止条件が満足される場合、前記付属文字列の対とそれに対応する整列確率を、前記破壊表現、前記正常表現、および相関確率として前記整列コーパスに格納する制御器と、を含むことを特徴とする整列コーパス生成装置。
請求項４に記載の整列コーパス生成装置と、
言語毎の形態素分析に用いられる多数の知識情報を格納するが、正常表現に対応する形態素情報を格納する形態素辞書と、前記整列コーパス生成装置によって生成された整列コーパスと、を含む知識データベースと、
入力される語節に対して、前記知識データベースを用いて形態素分析を行って分析結果を出力するが、入力語節に対する形態素が前記形態素辞書にない場合、前記入力語節に含まれている破壊表現に対して、前記整列コーパスを用いて前記破壊表現に対応する正常表現を探し、形態素分析を行う分析器と、を含むことを特徴とする形態素分析装置。
前記知識データベースが、形態素毎の接続情報を格納する既分析辞書をさらに含み、
前記分析器は、
前記形態素辞書を用いて、前記入力語節をなしている形態素を分割するが、前記入力語節をなしている形態素が前記形態素辞書にない場合、前記整列コーパスを用いて、対応する正常表現を用いて形態素分割を行う形態素分割部と、
前記既分析辞書を用いて、前記形態素分割部により分割された形態素に対して組み合わせ可能な形態素を抽出する接続情報チェック部と、
前記接続情報チェック部により抽出される形態素を用いて前記入力語節に対応する正常文章である原形の文章に復元を行って、形態素分析結果として出力する原形復元部と、を含むことを特徴とする請求項５に記載の形態素分析装置。
前記形態素分割部は、
前記入力語節を分割して形態素候補を生成する候補群生成器と、
前記候補群生成器で生成される形態素候補に対して、前記形態素辞書を用いて当該形態素候補の存在の有無をチェックする正常表現チェック器と、
前記正常表現チェック器により形態素候補が前記形態素辞書に存在しないと判断される場合、当該形態素候補に対して、前記整列コーパスを用いて前記入力語節の破壊表現の存在の有無をチェックする破壊表現チェック器と、
前記正常表現チェック器により形態素候補が前記形態素辞書に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する分割処理器と、
前記候補群生成器、前記正常表現チェック器、前記破壊表現チェック器および前記分割処理器を制御して、前記入力語節に対する形態素分割が行われるようにするが、前記候補群生成器で生成される形態素候補が前記正常表現チェック器により前記形態素辞書に存在しないと判断される場合、前記破壊表現チェック器により対応する正常表現を探し、前記候補群生成器に再入力制御する制御器と、を含むことを特徴とする請求項６に記載の形態素分析装置。
請求項１〜３のいずれか一項に記載の整列コーパス生成方法に基づいて整列コーパスを生成する段階と、
入力される語節を分割して形態素候補を生成する段階と、
形態素候補が正常表現に対応する形態素情報を格納する辞書である形態素辞書に存在するか否かを判断する段階と、
形態素候補が前記形態素辞書に存在する場合、当該形態素分析を行う段階と、
形態素候補が前記形態素辞書に存在しない場合、前記入力される語節に含まれる、前記形態素辞書にない形態素を含む表現である破壊表現が、前記整列コーパスに存在するか否かを判断する段階と、
前記破壊表現が前記整列コーパスに存在する場合、当該破壊表現に対応する正常表現を探し、形態素分析を行う段階と、を含むことを特徴とするコンピュータで実行される形態素分析方法。
前記形態素分析を行う段階は、
形態素毎の接続情報を格納する既分析辞書を用いて、形態素に対して組み合わせ可能な形態素を抽出する段階と、
抽出される形態素を用いて前記入力語節に対応する正常文章である原形の文章に復元を行って、形態素分析結果として出力する段階とを含むことを特徴とする請求項８に記載の形態素分析方法。