JP6532088B2 - 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 - Google Patents

自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 Download PDF

Info

Publication number
JP6532088B2
JP6532088B2 JP2016546716A JP2016546716A JP6532088B2 JP 6532088 B2 JP6532088 B2 JP 6532088B2 JP 2016546716 A JP2016546716 A JP 2016546716A JP 2016546716 A JP2016546716 A JP 2016546716A JP 6532088 B2 JP6532088 B2 JP 6532088B2
Authority
JP
Japan
Prior art keywords
morpheme
expression
normal
corpus
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016546716A
Other languages
English (en)
Other versions
JP2016538666A (ja
Inventor
ジ,チャン・ジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Llsollu Co Ltd
Original Assignee
Llsollu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Llsollu Co Ltd filed Critical Llsollu Co Ltd
Publication of JP2016538666A publication Critical patent/JP2016538666A/ja
Application granted granted Critical
Publication of JP6532088B2 publication Critical patent/JP6532088B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Description

本発明は、自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法に関する。
近年、ブログ、特にフェイスブックおよびツイッターに代表されるソーシャル、カカオトークのようなモバイルメッセージは、コンピュータのみならず、スマートフォンにおいても日常になっており、その使用が日増しに増える傾向にある。
しかし、このようなメッセージの使用において、正書法に合わないエラーの含まれている破壊表現が大量流通している。ここで、破壊表現とは、正書法として間違っているか、正規化および標準化されていない表現をいい、このような破壊表現が含まれている文章を破壊文章という。このような破壊文章は、インターネットの活性化とスマートフォンの普及により発生した新たな言語使用のパラダイムである。
破壊文章は、正常表現でない破壊表現を含んでいるが、文章の意を伝えるには支障がない。
一方、機械翻訳などの自然言語情報処理、検索、データマイニングなどで用いられる形態素分析の場合、破壊表現がない正常文章を対象としている。つまり、既存の形態素分析は、形態素分析時に用いられる形態素知識や形態素情報が格納されている形態素辞書を使用しているが、前記のような破壊文章に含まれている破壊された形態素は、その特徴上、正常な形態素辞書に収録が不可能であり、また、単純に破壊された形態素を形態素辞書に追加する方式にも限界があり、破壊表現が含まれている破壊文章に対する形態素分析が難しい問題を抱えている。
本発明がなそうとする技術的課題は、破壊表現が含まれている破壊文章を正確に形態素分析可能な自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法を提供することである。
本発明の一特徴による整列コーパス生成方法は、
破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する段階と、前記並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する段階とを含む。
ここで、前記並列コーパスを構築する段階は、ネットワークを介して多数の破壊文章を収集する段階と、収集される破壊文章に含まれる破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する段階と、収集される破壊文章が普遍性を有すると判断される場合、当該破壊文章に対応する正常文章を生成する段階と、生成される正常文章と、これに対応する破壊文章とを一対に形成して、前記並列コーパスを構築する段階とを含む。
また、前記普遍性を判断する段階において、前記クエリに基づく検索の結果物の量を基準として基準量を超える場合、当該破壊表現が普遍性を有すると判断し、前記普遍性の判断は、多数のポータルサイトを介したウェブ検索により自動的に実行されることを特徴とする。
また、前記整列コーパスを生成する段階は、前記並列コーパスから与えられた文字列から、付属文字列の対(sub−string pair)をランダムや初期化方法論で設定し、関連性確率を初期化する段階と、文字列マッチおよび当該マッチ確率値に応じて破壊文章と正常文章との間が最適化できるように、破壊表現と正常表現との間のマッチを行う段階と、新たな整列による各付属文字列の対間の確率を再び計算する段階と、自律学習の停止条件が満足されるまで前記マッチを行う段階および計算する段階を繰り返し行い、前記停止条件が満足される場合、最終出力の破壊表現、正常表現および相関確率−ここで、相関確率は、前記破壊表現および正常表現の整列確率値である−を前記整列コーパスに格納する段階と、を含む。
また、前記整列コーパスを生成すべく行われる自律学習ベースで整列を求め、整列の確率値を設定していくために、EM(Expectation−Maximization)アルゴリズムが用いられることを特徴とする。
本発明の他の特徴による整列コーパス生成装置は、
破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する並列コーパス構築部と、前記並列コーパス構築部により構築される並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する自律学習部とを含む。
ここで、前記自律学習部は、前記並列コーパス構築部により構築される並列コーパスと、前記並列コーパスに対して、自律学習方法を用いて破壊表現と正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、前記整列コーパスを生成する自律学習整列部とを含む。
また、前記並列コーパス構築部は、ネットワークを介して多数の破壊文章を収集する破壊文章収集器と、前記破壊文章収集器により収集される破壊文章に含まれる破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する普遍性判断器と、収集される破壊文章が普遍性を有すると判断される場合、当該破壊文章に対応する正常文章を生成する正常文章生成器と、前記正常文章生成器により生成される正常文章と、これに対応する破壊文章とを一対に形成して、前記並列コーパスを構築する構築器とを含む。
また、前記自律学習整列部は、前記並列コーパスから与えられた文字列から、付属文字列の対(sub−string pair)をランダムや初期化方法論で設定し、関連性確率を初期化する初期化器と、文字列マッチおよび当該マッチ確率値に応じて破壊文章と正常文章との間が最適化できるように、破壊表現と正常表現との間のマッチを行うE−ステップ処理器と、新たな整列による各付属文字列の対間の確率を再び計算するM−ステップ処理器と、前記並列コーパスに構築されている破壊文章と正常文章の文字列を前記初期化器に入力させ、前記M−ステップ処理器の確率計算後、自律学習の停止条件が満足されるまで前記E−ステップ処理器およびM−ステップ処理器の繰り返し実行を制御し、前記停止条件が満足される場合、最終出力の破壊表現、正常表現および相関確率が格納される前記整列コーパスを生成する制御器と、を含む。
本発明のさらに他の特徴による形態素分析装置は、
言語毎の形態素分析に用いられる多数の知識情報を格納するが、正常表現に対応する形態素情報を格納する形態素辞書と、破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−に対応する正常表現情報を格納する整列コーパスとを含む知識データベースと、入力される語節に対して、前記知識データベースを用いて形態素分析を行って分析結果を出力するが、入力語節に対する形態素が前記形態素辞書にない場合、前記入力語節に含まれている破壊表現に対して、前記整列コーパスを用いて前記破壊表現に対応する正常表現を探し、形態素分析を行う分析器と、を含む。
ここで、前記知識データベースが、形態素毎の接続情報を格納する既分析辞書をさらに含み、前記分析器は、前記形態素辞書を用いて、前記入力語節をなしている形態素を分割するが、前記入力語節をなしている形態素が前記形態素辞書にない場合、前記整列コーパスを用いて、対応する正常表現を用いて形態素分割を行う形態素分割部と、前記既分析辞書を用いて、前記形態素分割部により分割された形態素に対して組み合わせ可能な形態素を抽出する接続情報チェック部と、前記接続情報チェック部により抽出される形態素に対して原形復元を行って、形態素分析結果として出力する原形復元部と、を含む。
また、前記形態素分割部は、前記入力語節を形態素に分割して形態素候補を生成する候補群生成器と、前記候補群生成器で生成される形態素候補に対して、前記形態素辞書を用いて当該形態素候補の存在の有無をチェックする正常表現チェック器と、前記正常表現チェック器により形態素候補が前記形態素辞書に存在しないと判断される場合、当該形態素候補に対して、前記整列コーパスを用いて前記入力語節の破壊表現の存在の有無をチェックする破壊表現チェック器と、前記正常表現チェック器により形態素候補が前記形態素辞書に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する分割処理器と、前記候補群生成器、前記正常表現チェック器、前記破壊表現チェック器および前記分割処理器を制御して、前記入力語節に対する形態素分割が行われるようにするが、前記候補群生成器で生成される形態素候補が前記正常表現チェック器により前記形態素辞書に存在しないと判断される場合、前記破壊表現チェック器により対応する正常表現を探し、前記候補群生成器に再入力制御する制御器とを含む。
また、前記整列コーパスは、破壊表現が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列して生成されたことを特徴とする。
また、前記整列コーパスは、破壊表現と該破壊表現に対応する正常表現との間の整列確率値である相関確率を含むことを特徴とする。
また、形態素分析時、前記形態素辞書を介して形態素の存在の有無を判断する時に、前記相関確率を用いて当該各文字列が形態素である確率として数値化して表現することを特徴とする。
また、前記整列コーパスは、EM(Expectation−Maximization)アルゴリズムベースで生成されることを特徴とする。
本発明のさらに他の特徴による形態素分析方法は、
入力される語節を形態素に分割して形態素候補を生成する段階と、形態素候補が形態素辞書−ここで、形態素辞書は、正常表現に対応する形態素情報を格納する辞書である−に存在するか否かを判断する段階と、形態素候補が前記形態素辞書に存在する場合、当該形態素分析を行う段階と、形態素候補が前記形態素辞書に存在しない場合、前記入力される語節に含まれる破壊表現−ここで、破壊表現は、正書法として間違っているか、正規化および標準化されていない表現である−が整列コーパス−ここで、整列コーパスは、破壊表現に対応する正常表現情報を格納するコーパスである−に存在するか否かを判断する段階と、破壊表現が前記整列コーパスに存在する場合、当該破壊表現に対応する正常表現を探し、形態素分析を行う段階と、を含む。
ここで、前記形態素分析を行う段階は、形態素毎の接続情報を格納する既分析辞書を用いて、形態素に対して組み合わせ可能な形態素を抽出する段階と、抽出される形態素に対して原形復元を行って、形態素分析結果として出力する段階とを含む。
また、前記形態素候補が形態素辞書に存在するか否かを判断する段階の前に、前記整列コーパスを生成する段階をさらに含む。
また、前記整列コーパスを生成する段階は、破壊表現が含まれている破壊文章と、該破壊文章に対応する正常文章とからなる対が格納された並列コーパスを構築する段階と、前記並列コーパスに対して自律学習ベースの整列を行って、破壊表現および該破壊表現に対応する正常表現に整列された整列コーパスを生成する段階とを含む。
本発明によれば、破壊表現が含まれている破壊文章を正確に形態素分析することができる。
また、破壊表現と正常表現の整列情報を補助形態素辞書として用いることによって、一般的な形態素分析器が、破壊文章の形態素分析だけでなく、正常な表現に変える機能まで可能にする効果がある。
さらに、破壊表現と正常表現の整列情報および自律学習を通した整列により破壊表現と正常表現の多様な関係を数値化することによって、様々な種類の破壊に対する対応を可能にする。
一般的な形態素分析装置を概略的に示すブロック図である。 一般的な形態素分析方法のフローチャートである。 本発明の実施形態に係る形態素分析装置の構成ブロック図である。 図3に示された形態素分割部の具体的な構成ブロック図である。 図3に示された破壊表現−正常表現整列コーパスを生成する装置の構成ブロック図である。 図5に示された並列コーパス構築部の構成ブロック図である。 本発明の実施形態に係る形態素分析方法のフローチャートである。 多数の言語に通用する汎用の形態素分析装置の構造を概略的に示す図である。 図8に示された形態素分析装置に、本発明の実施形態に係る破壊表現−正常表現整列コーパスが適用された例を示す図である。
以下、添付した図面を参照して、本発明の実施形態について本発明の属する技術分野における通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本発明は、種々の異なる形態で実現可能であり、ここで説明する実施形態に限定されない。そして、図面において、本発明を明確に説明するために説明上不必要な部分は省略し、明細書全体にわたって類似の部分については類似の図面符号を付した。
明細書全体において、ある部分がある構成要素を「含む」とする時、これは特に反対となる記載がない限り、他の構成要素を除くのではなく、他の構成要素をさらに包含できることを意味する。また、明細書に記載された「…部」、「…器」、「モジュール」などの用語は、少なくとも1つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェアまたはハードウェアおよびソフトウェアの結合で実現可能である。
まず、一般的な形態素分析装置について説明する。
図1は、一般的な形態素分析装置を概略的に示すブロック図である。
図1を参照すれば、一般的な形態素分析装置10において、形態素分割器13は、辞書DB11の形態素辞書11−1を参照して、入力される語節をなしている全ての可能な形態素を分割し、接続情報チェック器15は、辞書DB11の既分析辞書11−3を参照して、形態素分割器13により分割された形態素に対して組み合わせ可能な形態素を抽出し、最終形態素分析結果として出力する。
図2は、一般的な形態素分析方法のフローチャートである。
図2を参照すれば、形態素分割器13が、入力語節を形態素に分割して形態素候補を生成し(S10)、生成される形態素候補に対して形態素辞書11−1をチェックし(S20)、形態素辞書11−1にある場合、接続情報チェック器15が、接続情報をチェックして最終分析結果を出力する(S30)。
しかし、この時、前記段階S20において、形態素候補が形態素辞書11−1にない場合には、形態素辞書11−1に登録されていない単語(Out−of dictionary wordまたはOut−of−Vocabulary(OOV))として認識したり、または有効でない形態素として認識して、形態素分析失敗と処理される(S40)。
本発明の実施形態において、対象となる破壊表現が、前記一般的な形態素分析装置10で登録されていない単語、または有効でない形態素として認識されうる。
以下、本発明の実施形態において、対象となる破壊表現について説明する。
韓国語メッセージの使用において、正書法エラーの含まれている韓国語破壊表現が大量流通しており、ネチズン、特に小学生らの間で新しく作られ流行っている「外界語」の使用が日常で、韓国語破壊現象は学者らが憂慮する水準にまで至っている。
以下、前記韓国語破壊文章の破壊類型について説明する。
(1)正書法エラー
多くの破壊文章は綴りエラーを含んでいる。綴りエラーは、正確な綴りを知らずに犯すエラー、または正確な綴りを無視して犯すエラーである。例えば、
Figure 0006532088

Figure 0006532088
に、
Figure 0006532088

Figure 0006532088


Figure 0006532088


Figure 0006532088

Figure 0006532088

Figure 0006532088
に表現する破壊表現がある。この種類のエラーは、音に従って表記する特徴を見せており、時には、音に従って表記することによって、新たなニュアンスを示す手段として用いられる。
他の種類の綴りエラーは、打ち間違いで引き起こされたエラーである。特に、スマートフォンのように相対的に小さい画面への、移動中の文字入力で打ち間違いが頻繁に発生する。このようなエラーは、タイピングするキーに隣接したキーが入力される特徴を見せている。例えば、
Figure 0006532088

Figure 0006532088
に間違って入力するもので、これは
Figure 0006532088

Figure 0006532088
に間違ってタイピングした場合であり、
Figure 0006532088

Figure 0006532088
と入力して、
Figure 0006532088

Figure 0006532088
に間違ってタイピングした場合である。特に、
Figure 0006532088

Figure 0006532088

Figure 0006532088

Figure 0006532088

Figure 0006532088

Figure 0006532088

Figure 0006532088

Figure 0006532088
は互いに打ち間違いとして入力される確率が高い。
(2)新造語
新造語の一種類は新生略語である。例えば、
Figure 0006532088

Figure 0006532088
の略語であり、
Figure 0006532088

Figure 0006532088
の略語であり、
Figure 0006532088

Figure 0006532088
の略語であり、
Figure 0006532088

Figure 0006532088
の略語であり、そして、
Figure 0006532088

Figure 0006532088
の略語で、ネチズンの間で通用している。
他の種類の新造語として、
Figure 0006532088

Figure 0006532088
のように
Figure 0006532088
をくっつけて、よりかわいらしい、あるいはハツラツな感じを伝えるのに用いられる。
前記2つの類型ではないものの、既存の正常文章ベースの自然言語処理システムがさらされている他の問題は、外国語の音域の様々なバージョンの通用である。例えば、
Figure 0006532088

Figure 0006532088
などの使用がある。
外国語と韓国語の発音の差から1:1の音域が難しくて、上のように様々な音域バージョンが存在し、また、この状況で音域標準の設定が難しいだけでなく、標準が設定されていても実生活で守られない可能性がさらに高い。
このように、前記破壊表現が含まれている破壊文章が、前記一般的な形態素分析装置10を通して形態素分析が行われる場合、形態素辞書11−1になくて形態素分析が行われなくなることによって、既存の自然言語処理技術や機械翻訳などが順調に行われなくなる。
以下、上記の問題を解決するための、本発明の実施形態について説明する。
図3は、本発明の実施形態に係る形態素分析装置の構成ブロック図である。
図3に示されているように、本発明の実施形態に係る形態素分析装置100は、辞書データベース(DB)110と、形態素分割部120と、接続情報チェック部130と、原形復元部140とを含む。
辞書DB110は、入力語節に対する形態素分析時に用いられる各種の辞書情報を格納する。このような辞書DB110には、形態素分析時に用いられる形態素辞書111と、破壊表現、これに対応する正常表現、そして破壊表現と正常表現の関連性を数値化した値である相関確率を格納し、形態素分析時に用いられる破壊表現−正常表現整列コーパス113と、接続情報チェックおよび原形復元時に用いられる既分析辞書115とが含まれる。その他にも、言語毎に形態素分析に用いられる多様な形態の辞書情報が格納できる。ここで、破壊表現−正常表現整列コーパス(corpus)113は、普遍的に用いられる破壊表現を含む破壊文章と、これに対応する正常文章とを含む並列コーパスを構築し、構築された並列コーパスの各文章内の破壊表現と正常表現の最適整列を自律学習して生成される。これについては、以後に具体的に説明する。一方、言語処理で用いられるコーパス(corpus)と形態素分析の意味についてはよく知られているので、ここでは具体的な説明を省略する。
形態素分割部120は、辞書DB110の形態素辞書111と破壊表現−正常表現整列コーパス113を参照して、入力される語節をなしている全ての可能な形態素を分割する。この時、形態素分割部120は、入力語節から分割される形態素が形態素辞書111にはないものの破壊表現−正常表現整列コーパス113にはある場合、当該形態素に対応する正常表現を用いて形態素分割を行う。
接続情報チェック部130は、辞書DB110の既分析辞書115を参照して、形態素分割部120により分割された形態素に対して組み合わせ可能な形態素を抽出する。
原形復元部140は、接続情報チェック部130により抽出される形態素に対して原形復元を行って、形態素分析結果として出力する。
図4は、図3に示された形態素分割部120の具体的な構成ブロック図である。
図4に示されているように、形態素分割部120は、候補群生成器121と、正常表現チェック器122と、破壊表現チェック器123と、分割処理器124と、制御器125とを含む。
候補群生成器121は、入力語節を形態素に分割して形態素候補を生成する。
正常表現チェック器122は、候補群生成器121で生成される形態素候補に対して、形態素辞書111を参照して当該形態素候補の存在の有無をチェックする。
破壊表現チェック器123は、正常表現チェック器122により形態素候補が形態素辞書111に存在しないと判断される場合、入力語節の破壊表現に対して、破壊表現−正常表現整列コーパス113を参照して当該破壊表現に対応する正常表現の存在の有無をチェックする。
分割処理器124は、正常表現チェック器122により形態素候補が形態素辞書111に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する。
制御器125は、候補群生成器121、正常表現チェック器122、破壊表現チェック器123および分割処理器124を制御して、入力語節を形態素に分割処理し、最終分割処理された形態素を接続情報チェック部130に伝達する。特に、制御器125は、破壊表現チェック器123により破壊表現に対応する正常表現が存在するとチェックされる場合、当該正常表現を用いて候補群生成器121が再び形態素候補を生成し、生成される形態素候補に対して、正常表現チェック器122が形態素候補の存在の有無をチェックするように制御を行う。
次に、図3に示された破壊表現−正常表現整列コーパス113を生成する内容について説明する。
図5は、図3に示された破壊表現−正常表現整列コーパス113を生成する装置200の構成ブロック図である。
図5に示されているように、破壊表現−正常表現整列コーパス113を生成する装置200は、並列コーパス構築部210と、自律学習部220とを含む。
並列コーパス構築部210は、普遍的に用いられる破壊表現が含まれている破壊文章を収集して破壊文章に対応する正常文章を生成し、破壊文章と正常文章の対を格納する破壊文章−正常文章並列コーパス221を構築する。
自律学習部220は、並列コーパス構築部210により構築される破壊文章−正常文章並列コーパス221と、該破壊文章−正常文章並列コーパス221に対して、自律機械学習方法を用いて破壊表現と正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、破壊表現−正常表現整列コーパス113を生成する自律学習整列部222とを含む。
このような自律学習整列部222は、初期化器2221と、E(Expectation)−ステップ処理器2222と、M(Maximization)−ステップ処理器2223と、制御器2224とを含む。
初期化器2221は、破壊文章−正常文章並列コーパス221から与えられた文字列から、関連付属文字列の対(sub−string pair)をランダムやその他の初期化方法論で設定し、関連性確率を初期化する。
E−ステップ処理器2222は、デコーディングを行い、文字列マッチおよび当該マッチ確率値に応じて破壊文章と正常文章との間が最適化できるように、破壊表現と正常表現との間のマッチを行う。
M−ステップ処理器2223は、確率計算を行い、新たな整列による各付属文字列の対間の確率を再び計算する。
制御器2224は、破壊文章−正常文章並列コーパス221に構築されている破壊文章と正常文章の文字列を初期化器2221に入力させ、M−ステップ処理器2223の確率計算後、自律学習の停止条件が満足されるまでE−ステップ処理器2222およびM−ステップ処理器2223の繰り返し実行(iteration)を制御し、停止条件が満足される場合、最終出力の文字列、つまり、破壊表現、正常表現および相関確率からなる結果を破壊表現−正常表現整列コーパス113に格納する。
前記E−ステップ処理器2222とM−ステップ処理器2223がそれぞれ行うE−ステップ処理およびM−ステップ処理については、以後に具体的に説明する。
次に、図5に示された並列コーパス構築部210が、破壊文章−正常文章並列コーパス221を構築する内容について説明する。
図6は、図5に示された並列コーパス構築部210の構成ブロック図である。
図6に示されているように、並列コーパス構築部210は、破壊文章収集器211と、普遍性判断器212と、正常文章生成器213と、構築器214とを含む。
破壊文章収集器211は、モバイルのSMS(Short Message Service)、カカオトークのメッセージおよびインターネットのツイッターなどを介して一定量の破壊文章を収集する。このような破壊文章として、例えば、100万個の破壊文章が収集されて用いられる。また、破壊文章は、オンラインを介して収集されたり、または運用者によって収集された破壊文章が入力手段を介した入力により収集されてもよい。
普遍性判断器212は、破壊文章収集器211により収集された破壊文章に含まれている破壊表現をクエリとしてオンラインを介した検索を行い、このようなクエリに基づく結果物の量を基準として普遍的に用いられる破壊表現であるか否かを判断して、当該破壊表現に対する普遍性を判断する。このような破壊表現の普遍性判断は、ネイバー、ダウム、グーグルなどのウェブ検索により自動的に実行できる。
正常文章生成器213は、普遍性判断器212により普遍性があると判断された破壊表現に対して対応する正常表現を生成する。このような正常表現の生成は、ウェブ検索により自動的に行われてもよく、または運用者によって直接行われてもよい。
構築器214は、正常文章生成器213により生成される正常文章を、対応する破壊文章と共に一対に形成して、破壊文章−正常文章並列コーパス221として構築する。
以下、図5に示された自律学習整列部222が、破壊文章−正常文章並列コーパス221に対して自律学習整列を行って、破壊表現−正常表現整列コーパス113を生成する方法について具体的に説明する。
まず、本発明の実施形態に係る破壊文章と正常文章の整列は、自律機械学習方法により自律的に行われ、全体コーパスの値が最高となる整列を求め、整列の確率値を設定していく方法が用いられる。この時、最適な整列を求め、整列の確率値を設定していく方法として、本発明の実施形態ではEM(Expectation−Maximization)アルゴリズムを用いるが、その他の自律および半自律ベースの他の方法を用いて行われてもよい。
まず、本発明の実施形態では、Ui,jが文字列u,ui+1,…,uを示し、Vm,lが文字列v,vi+1,…,vを示すと仮定する。
EMアルゴリズムを用いて整列作業を行うために、破壊表現との最適な正常表現文字列を探すデコーディング段階(E−ステップ)と各文字列間の確率を学習する段階(M−ステップ)が必要である。この過程は下記のように3つの段階で進行する。
1)初期化段階(ステップ−1)
与えられた破壊文字列から、関連付属文字列の対をランダムやその他の初期化方法論で設定し、関連性確率値は0に初期化する。つまり、任意破壊文字列Un,i−hと正常文字列Vm,j−kの整列確率値P(Vm,j−k|Un,i−h)=0に設定する。
2)期待(Expectation)段階(ステップ−2)
この段階は、入力された破壊文章と正常文章から、破壊文字列と正常文字列の対を求める段階である。
この段階では、現在の確率値に応じて動的プログラミングデコーディング方法により、与えられた文字列の対Un,1=u,u,…,uとVm,1=v,v,…,vから、それぞれ対応する付属文字列の対を求める。
具体的なデコーディング過程は以下の通りである。
破壊表現文字列Un,1と正常表現文字列Vm,1に対して、S(i,j)は、破壊表現文字列Ui,1と正常表現文字列Vm,1までの整列スコアを意味する。この場合、破壊表現Un,1と正常表現Vm,1の対応する付属文字列の対を求める過程は、下記の付属段階1から3により行われる。
<付属段階1>
S(0,0)=0
初期化段階であって、いずれの文字列も含まれないS(0,0)の値を0に設定する。
<付属段階2>
S(i,j)=maxh,k[S(i−h,j−k)+logP(Vm,j−k|Un,i−h)]
0≦i≦n,0≦j≦m
破壊表現文字列Ui,1と正常表現文字列Vj,1までの整列スコアS(i,j)は、破壊表現文字列Ui−h,1と正常表現文字列Vj−k,1までの整列スコアS(i−h,j−k)と、破壊表現文字列Ui,i−hと正常表現文字列Vj,j−kまでの整列重み値logP(Vi,j−k|Ui,i−h)との合計の最大値(max)である。
ここで、logP(Vi,j−k|Ui,i−h)は、Vj,j−kとUi,i−hの整列確率P(Vi,j−k|Ui,i−h)のログ(log)値であり、P(Vi,j−k|Ui,i−h)は、EMアルゴリズムの前記ステップ−1段階と後述するステップ−3段階で計算された値である。
<付属段階3>
前記付属段階2により、破壊表現文字列に対して1からnまで、そして、正常表現文字列に対して1からmまで順次に計算された整列スコアS(n,m)は、破壊表現文字列Ui,1と正常表現文字列Vj,1までの最高整列値である。
3)最大化(Maximization)段階(ステップ−3)
この段階は、前記ステップ−2段階で整列された破壊表現文字列と正常表現文字列の対の統計に応じた確率値を求める段階であって、最高値となるように整列された各付属文字列の対に対してバックトラッキング(back−tracking)する方法で破壊表現文字列に対応する正常表現文字列を探す。
具体的には、ステップ−2段階それぞれの付属文字列の対をカウントして、P(Vj,1|Ui,1)=count(Ui,1,Vj,1)/count(Ui,1)により現時点で対応する文字列の確率値を推定する。ここで、count(Ui,1、Vj,1)は、全体並列コーパスにおいてUi,1とVj,1が共に出現する回数を示し、count(Ui,1)は、全体並列コーパスにおいてUi,1が出現する回数を示す。
前記ステップ−3段階の後、終了条件が満足されない場合、終了条件が満足されるまで前記ステップ−2段階とステップ−3段階が繰り返し行われる。この時の繰り返しは、前のステップ−3の結果値が反映されて行われる。
前記終了条件が満足されて破壊表現と正常表現の整列が完了すると、当該破壊表現と正常表現、そしてこれらの間の相関確率を表現−正常表現整列コーパス113に格納する。
例として、破壊文章−正常文章並列コーパス221に記載された破壊文章が「知らない人からきもいと言われます。」であり、これに対応して記載された正常文章が「知らない人から気持ち悪いと言われます。」の場合、前記過程により、破壊表現−正常表現整列コーパス113には、「きもい::気持ち悪い::0.5947」、「もい::持ち悪い::0.1201」などが生成されて格納されるとよい。この時、破壊表現−正常表現整列コーパス113に記載される形式は、「破壊表現::正常表現::相関確率」である。ここで、相関確率は、前記ステップ−1およびステップ−3で求められた破壊表現と正常表現の整列確率値が相当しうる。
以下、図7を参照して、本発明の実施形態に係る形態素分析方法について説明する。
図7は、本発明の実施形態に係る形態素分析方法のフローチャートである。
説明に先立ち、まず、装置200の並列コーパス構築部210により破壊文章−正常文章並列コーパス221が構築された後、構築された破壊文章−正常文章並列コーパス221に対して、自律学習部220が、自律学習ベースの最適整列を行って、破壊表現−正常表現整列コーパス113を予め生成した状態であることを仮定する。
図7を参照すれば、形態素分析のための語節が入力されると(S100)、形態素分割部120は、入力語節を形態素に分割して形態素候補を生成する(S110)。
その後、形態素分割部120は、生成される形態素候補に対して形態素辞書111をチェックし(S120)、形態素辞書111にある場合、接続情報チェック部130に伝達して、当該形態素に対する接続情報がチェックされるようにする(S130)。
このように、接続情報がチェックされた後には、原形復元部140が、当該形態素に対する原形復元を行って(S140)、最終分析結果を出力する。
しかし、この時、入力語節が破壊表現に相当する場合には、前記段階S120で形態素候補が形態素辞書111にないので、形態素分割部120は、当該形態素候補に対して破壊表現−正常表現整列コーパス113をチェックする(S150)。
仮に、入力語節の破壊表現が前の自律学習ベースの最適整列により破壊表現−正常表現整列コーパス113内にある場合、形態素分割部120は、当該破壊表現に対応する正常表現を確認した後(S160)、確認される正常表現に対して前記形態素候補を生成する段階S110から繰り返し行う。この時、確認される正常表現に対して生成される形態素候補はすでに形態素辞書111にあるので、前記形態素辞書111をチェックする段階で当該形態素があるとチェックされ、その後の段階S130、S140が継続して行われて、最終分析結果が出力できるようになる。
一方、入力語節が破壊表現や前記のような自律学習ベースの最適整列により破壊表現−正常表現整列コーパス113に生成されていなかったり、またはその他エラーの語節に相当する場合には、前記段階S150で当該語節が破壊表現−正常表現整列コーパス113にないので、これらの語節については、形態素辞書111に登録されていない単語(Out−of dictionary wordまたはOut−of−Vocabulary(OOV))として認識したり、または有効でない形態素として認識して、形態素分析失敗と処理される(S170)。
このように、既存の形態素分析では、破壊表現が含まれている破壊文章に対して、形態素分析時、当該形態素が形態素辞書にないとの理由でOOV単語と判断されて破壊表現に対して誤認識されるが、本発明の実施形態では、破壊表現に対して、自律学習ベースの最適整列により破壊表現に対応する正常表現を破壊表現−正常表現整列コーパス113の形態に構築しておくことで、これらの破壊表現に対して、形態素辞書111になくても破壊表現−正常表現整列コーパス113に対する破壊表現のチェックを行って、対応する正常表現を探し、正確な形態素分析を行うことができる。
一方、本発明の実施形態では、破壊表現に対応する正常表現への復原のために、破壊表現−正常表現整列コーパス113の構築時に破壊文章内の破壊表現と正常表現の最適整列を自律学習して確率値として求め、破壊表現と正常表現に対する相関確率として提供することによって、破壊表現の多様性を数値化することができる。つまり、形態素分析時、形態素辞書111を介して形態素があるか否かを判断する時に、各文字列が形態素である確率として数値化して表現する。例えば、形態素があるかないかで判断していたものを、0(ない)と1(ある)との間の数値で表現して、形態素分析時、多義性解決のための数値化された情報を提供することができる。
一方、上記では、韓国語に対する形態素分析について説明したが、英語等その他の言語においても、韓国語と同様に破壊表現が頻繁に用いられており、破壊表現が含まれている破壊文章の処理にあたり、既存の正常文章ベースの言語処理方法論では明確に限界がある。例えば、添付した図8に示されているように、一般的な形態素分析装置の場合、形態素分析を行う形態素分析器300が形態素分析に参照する知識400を参照して、当該言語に対する形態素分析を行う。この時、形態素分析に参照する知識400としては、例えば、形態素辞書が含まれる。
言語と言語との間の形態論的違いによって、言語毎の形態素分析において具体的な分析過程および各分析過程に必要な知識は互いに異なりうる。例えば、韓国語の場合には、上記の図1のように、形態素分割、接続情報チェックおよび原形復元などの構成要素または過程に分けられ、参照知識400も形態素辞書11−1のように具体化できる。
したがって、英語等その他の言語に対しても、韓国語について上記で説明したような内容を参照して対応させる場合、図9に示されているように、破壊文章と正常文章の並列コーパスを構築した後、構築された破壊文章と正常文章の並列コーパスに対して自律学習ベースの最適整列を行って、破壊表現−正常表現整列コーパス620を生成して適用することによって、形態素分析器500が、形態素辞書610にない破壊表現に対して破壊表現−正常表現整列コーパス620をチェックし、破壊表現に相当する正常表現を探し、正常な形態素分析を行うことができる。
以上、本発明の実施形態について詳細に説明したが、本発明の権利範囲はこれに限定されるものではなく、以下の請求の範囲で定義している本発明の基本概念を利用した当業者の様々な変形および改良形態も本発明の権利範囲に属する。

Claims (9)

  1. 正常表現に対応する形態素情報を格納する形態素辞書にない形態素を含む表現である破壊表現が含まれている破壊文章と、該破壊文章に対応する、前記正常表現から構成された文章である正常文章とからなる対が格納された並列コーパスを構築する段階と、
    前記並列コーパスに対して自律学習ベースの整列を行って、前記破壊表現および該破壊表現に対応する前記正常表現に整列された整列コーパスを生成する段階と、を含み、
    前記並列コーパスを構築する段階は、
    ネットワークを介して多数の前記破壊文章を収集する段階と、
    収集される前記破壊文章に含まれる前記破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する段階と、
    収集される前記破壊文章が普遍性を有すると判断される場合、当該破壊文章に含まれる前記破壊表現に対して対応する前記正常表現を生成し、生成された当該正常表現を含む前記正常文章を生成する段階と、
    生成される前記正常文章と、これに対応する前記破壊文章とを一対に形成して、前記並列コーパスを構築する段階と、を含み、
    前記整列コーパスを生成する段階は、
    前記並列コーパスから与えられた前記破壊文章と前記正常文章の対のうちの一つに該当する破壊文字列と正常文字列との各一部から構成される付属文字列の対を求める段階と、
    前記付属文字列の対の前記並列コーパスでの出現回数に基づいて前記付属文字列の対の整列確率を算出する段階と、
    自律学習の停止条件が満足されるまで前記付属文字列の対を求める段階および前記整列確率を算出する段階を繰り返して行い、前記停止条件が満足される場合、前記付属文字列の対とそれに対応する前記整列確率を、前記破壊表現、前記正常表現、および相関確率として前記整列コーパスに格納する段階と、を含むことを特徴とするコンピュータで実行される整列コーパス生成方法。
  2. 前記普遍性を判断する段階において、
    前記クエリに基づく検索の結果物の量を基準として基準量を超える場合、当該破壊表現が普遍性を有すると判断し、
    前記普遍性の判断は、多数のポータルサイトを介したウェブ検索により自動的に実行されることを特徴とする請求項1に記載の整列コーパス生成方法。
  3. 前記整列コーパスを生成すべく行われる自律学習ベースで整列を求め、整列の確率値を設定していくために、EM(Expectation−Maximization)アルゴリズムが用いられることを特徴とする請求項1に記載の整列コーパス生成方法。
  4. 正常表現に対応する形態素情報を格納する形態素辞書にない形態素を含む表現である破壊表現が含まれている破壊文章と、該破壊文章に対応する、前記正常表現から構成された文章である正常文章とからなる対が格納された並列コーパスを構築する並列コーパス構築部と、
    前記並列コーパス構築部により構築される並列コーパスに対して自律学習ベースの整列を行って、前記破壊表現および該破壊表現に対応する前記正常表現に整列された整列コーパスを生成する自律学習部と、を含み、
    前記並列コーパス構築部は、
    ネットワークを介して多数の前記破壊文章を収集する破壊文章収集器と、
    前記破壊文章収集器により収集される前記破壊文章に含まれる前記破壊表現をクエリとしてネットワークを介した検索を行って、当該破壊文章に対する普遍性を判断する普遍性判断器と、
    収集される前記破壊文章が普遍性を有すると判断される場合、当該破壊文章に含まれる前記破壊表現に対して対応する前記正常表現を生成し、生成された当該正常表現を含む前記正常文章を生成する正常文章生成器と、
    前記正常文章生成器により生成される前記正常文章と、これに対応する前記破壊文章とを一対に形成して、前記並列コーパスを構築する構築器とを含み、
    前記自律学習部は、
    前記並列コーパス構築部により構築される並列コーパスと、
    前記並列コーパスに対して、自律学習方法を用いて前記破壊表現と前記正常表現の単一音節、多音節または単語間の最適整列確率値を学習して、前記整列コーパスを生成する自律学習整列部と、を含み、
    前記自律学習整列部は、
    前記並列コーパスから与えられた前記破壊文章と前記正常文章の対のうちの一つに該当する破壊文字列と正常文字列の各一部から構成される付属文字列の対を求めるE−ステップ処理器と、
    前記付属文字列の対の前記並列コーパスでの出現回数に基づいて前記付属文字列の対の整列確率を算出するM−ステップ処理器と、
    前記並列コーパスに構築されている前記破壊文章と前記正常文章の文字列を前記E−ステップ処理器に入力させ、前記M−ステップ処理器による整列確率の計算後、自律学習の停止条件が満足されるまで前記E−ステップ処理器および前記M−ステップ処理器の繰り返し実行を制御し、前記停止条件が満足される場合、前記付属文字列の対とそれに対応する整列確率を、前記破壊表現、前記正常表現、および相関確率として前記整列コーパスに格納する制御器と、を含むことを特徴とする整列コーパス生成装置。
  5. 請求項4に記載の整列コーパス生成装置と、
    言語毎の形態素分析に用いられる多数の知識情報を格納するが、正常表現に対応する形態素情報を格納する形態素辞書と、前記整列コーパス生成装置によって生成された整列コーパスと、を含む知識データベースと、
    入力される語節に対して、前記知識データベースを用いて形態素分析を行って分析結果を出力するが、入力語節に対する形態素が前記形態素辞書にない場合、前記入力語節に含まれている破壊表現に対して、前記整列コーパスを用いて前記破壊表現に対応する正常表現を探し、形態素分析を行う分析器と、を含ことを特徴とする形態素分析装置。
  6. 前記知識データベースが、形態素毎の接続情報を格納する既分析辞書をさらに含み、
    前記分析器は、
    前記形態素辞書を用いて、前記入力語節をなしている形態素を分割するが、前記入力語節をなしている形態素が前記形態素辞書にない場合、前記整列コーパスを用いて、対応する正常表現を用いて形態素分割を行う形態素分割部と、
    前記既分析辞書を用いて、前記形態素分割部により分割された形態素に対して組み合わせ可能な形態素を抽出する接続情報チェック部と、
    前記接続情報チェック部により抽出される形態素を用いて前記入力語節に対応する正常文章である原形の文章に復元を行って、形態素分析結果として出力する原形復元部と、を含むことを特徴とする請求項5に記載の形態素分析装置。
  7. 前記形態素分割部は、
    前記入力語節を分割して形態素候補を生成する候補群生成器と、
    前記候補群生成器で生成される形態素候補に対して、前記形態素辞書を用いて当該形態素候補の存在の有無をチェックする正常表現チェック器と、
    前記正常表現チェック器により形態素候補が前記形態素辞書に存在しないと判断される場合、当該形態素候補に対して、前記整列コーパスを用いて前記入力語節の破壊表現の存在の有無をチェックする破壊表現チェック器と、
    前記正常表現チェック器により形態素候補が前記形態素辞書に存在すると判断される場合、当該形態素候補を入力語節から形態素分割処理する分割処理器と、
    前記候補群生成器、前記正常表現チェック器、前記破壊表現チェック器および前記分割処理器を制御して、前記入力語節に対する形態素分割が行われるようにするが、前記候補群生成器で生成される形態素候補が前記正常表現チェック器により前記形態素辞書に存在しないと判断される場合、前記破壊表現チェック器により対応する正常表現を探し、前記候補群生成器に再入力制御する制御器と、を含むことを特徴とする請求項6に記載の形態素分析装置。
  8. 請求項1〜3のいずれか一項に記載の整列コーパス生成方法に基づいて整列コーパスを生成する段階と、
    入力される語節を分割して形態素候補を生成する段階と、
    形態素候補が正常表現に対応する形態素情報を格納する辞書である形態素辞書に存在するか否かを判断する段階と、
    形態素候補が前記形態素辞書に存在する場合、当該形態素分析を行う段階と、
    形態素候補が前記形態素辞書に存在しない場合、前記入力される語節に含まれる、前記形態素辞書にない形態素を含む表現である破壊表現が、前記整列コーパスに存在するか否かを判断する段階と、
    前記破壊表現が前記整列コーパスに存在する場合、当該破壊表現に対応する正常表現を探し、形態素分析を行う段階と、を含ことを特徴とするコンピュータで実行される形態素分析方法。
  9. 前記形態素分析を行う段階は、
    形態素毎の接続情報を格納する既分析辞書を用いて、形態素に対して組み合わせ可能な形態素を抽出する段階と、
    抽出される形態素を用いて前記入力語節に対応する正常文章である原形の文章に復元を行って、形態素分析結果として出力する段階とを含むことを特徴とする請求項8に記載の形態素分析方法。
JP2016546716A 2013-10-02 2014-08-27 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 Active JP6532088B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR10-2013-0118062 2013-10-02
KR20130118062A KR101509727B1 (ko) 2013-10-02 2013-10-02 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
PCT/KR2014/007959 WO2015050321A1 (ko) 2013-10-02 2014-08-27 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법

Publications (2)

Publication Number Publication Date
JP2016538666A JP2016538666A (ja) 2016-12-08
JP6532088B2 true JP6532088B2 (ja) 2019-06-19

Family

ID=52778882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016546716A Active JP6532088B2 (ja) 2013-10-02 2014-08-27 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法

Country Status (5)

Country Link
US (1) US10282413B2 (ja)
JP (1) JP6532088B2 (ja)
KR (1) KR101509727B1 (ja)
CN (1) CN105593845B (ja)
WO (1) WO2015050321A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
KR101702055B1 (ko) 2015-06-23 2017-02-13 (주)아크릴 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
KR101839121B1 (ko) * 2015-09-14 2018-04-26 네이버 주식회사 사용자 질의 교정 시스템 및 방법
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
US10635862B2 (en) * 2017-12-21 2020-04-28 City University Of Hong Kong Method of facilitating natural language interactions, a method of simplifying an expression and a system thereof
CN109815476B (zh) * 2018-12-03 2023-03-24 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
KR102199835B1 (ko) * 2018-12-31 2021-01-07 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR102352163B1 (ko) 2019-11-26 2022-01-19 고려대학교 산학협력단 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477448A (en) * 1994-06-01 1995-12-19 Mitsubishi Electric Research Laboratories, Inc. System for correcting improper determiners
US6708311B1 (en) * 1999-06-17 2004-03-16 International Business Machines Corporation Method and apparatus for creating a glossary of terms
US7010479B2 (en) * 2000-07-26 2006-03-07 Oki Electric Industry Co., Ltd. Apparatus and method for natural language processing
GB2366893B (en) * 2000-09-08 2004-06-16 Roke Manor Research Improvements in or relating to word processor systems or the like
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
FR2841355B1 (fr) * 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
JP2005100335A (ja) 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
US7406416B2 (en) 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
KR100735308B1 (ko) * 2005-08-30 2007-07-03 경북대학교 산학협력단 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
US8332207B2 (en) 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
KR100911834B1 (ko) * 2007-12-11 2009-08-13 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
US8229728B2 (en) * 2008-01-04 2012-07-24 Fluential, Llc Methods for using manual phrase alignment data to generate translation models for statistical machine translation
JP2009245308A (ja) * 2008-03-31 2009-10-22 Fujitsu Ltd 文書校正支援プログラム、文書校正支援方法および文書校正支援装置
KR101496885B1 (ko) * 2008-04-07 2015-02-27 삼성전자주식회사 문장 띄어쓰기 시스템 및 방법
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US20100076764A1 (en) * 2008-09-19 2010-03-25 General Motors Corporation Method of dialing phone numbers using an in-vehicle speech recognition system
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5436868B2 (ja) 2009-01-13 2014-03-05 Kddi株式会社 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム
US8880400B2 (en) * 2009-03-03 2014-11-04 Mitsubishi Electric Corporation Voice recognition device
JP2010257021A (ja) 2009-04-22 2010-11-11 Kddi Corp 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
KR101027791B1 (ko) * 2009-08-11 2011-04-07 주식회사 케피코 직분식 연료레일의 마운트 구조체
KR101250900B1 (ko) 2009-08-17 2013-04-04 한국전자통신연구원 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
KR20110061209A (ko) * 2009-12-01 2011-06-09 한국전자통신연구원 후처리 지식 생성 장치
US9020805B2 (en) * 2010-09-29 2015-04-28 International Business Machines Corporation Context-based disambiguation of acronyms and abbreviations
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US9164983B2 (en) * 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
US9311286B2 (en) * 2012-01-25 2016-04-12 International Business Machines Corporation Intelligent automatic expansion/contraction of abbreviations in text-based electronic communications
US9785631B2 (en) * 2012-03-16 2017-10-10 Entit Software Llc Identification and extraction of acronym/definition pairs in documents
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9659059B2 (en) * 2012-07-20 2017-05-23 Salesforce.Com, Inc. Matching large sets of words
KR20150024188A (ko) * 2013-08-26 2015-03-06 삼성전자주식회사 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치

Also Published As

Publication number Publication date
CN105593845A (zh) 2016-05-18
WO2015050321A1 (ko) 2015-04-09
US10282413B2 (en) 2019-05-07
KR101509727B1 (ko) 2015-04-07
WO2015050321A8 (ko) 2015-05-14
CN105593845B (zh) 2018-04-17
JP2016538666A (ja) 2016-12-08
US20160217122A1 (en) 2016-07-28

Similar Documents

Publication Publication Date Title
JP6532088B2 (ja) 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
Martschat et al. Latent structures for coreference resolution
US9176936B2 (en) Transliteration pair matching
Pang et al. Syntax-based alignment of multiple translations: Extracting paraphrases and generating new sentences
Lawrie et al. Normalizing source code vocabulary
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
WO2019060353A1 (en) SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
JP5497048B2 (ja) コンパラブルコーパスを使用する固有表現の翻字
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
Li et al. Spelling error correction using a nested RNN model and pseudo training data
Eger et al. A comparison of four character-level string-to-string translation models for (OCR) spelling error correction
Li et al. Improving text normalization using character-blocks based models and system combination
CN104239289A (zh) 音节划分方法和音节划分设备
US11568150B2 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
El Kahki et al. Improved transliteration mining using graph reinforcement
Pârtachi et al. Posit: Simultaneously tagging natural and programming languages
Agic et al. Improving part-of-speech tagging accuracy for Croatian by morphological analysis
Dickinson et al. Detecting dependency parse errors with minimal resources
JP2015060458A (ja) 機械翻訳装置、方法、及びプログラム
Muhamad et al. Proposal: A hybrid dictionary modelling approach for malay tweet normalization
US8977538B2 (en) Constructing and analyzing a word graph

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170501

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180306

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181227

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190515

R150 Certificate of patent or registration of utility model

Ref document number: 6532088

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250