JP2005092849A - ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法並びにそのコンピュータ読み取り可能な記録媒体 - Google Patents

ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法並びにそのコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2005092849A
JP2005092849A JP2003431457A JP2003431457A JP2005092849A JP 2005092849 A JP2005092849 A JP 2005092849A JP 2003431457 A JP2003431457 A JP 2003431457A JP 2003431457 A JP2003431457 A JP 2003431457A JP 2005092849 A JP2005092849 A JP 2005092849A
Authority
JP
Japan
Prior art keywords
pattern
translation
syntax
partial
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003431457A
Other languages
English (en)
Other versions
JP3971373B2 (ja
Inventor
Yoon Hyung Roh
ヨンヒュン ロ
Sung Kwon Choi
スンクォン チョイ
Kiyoung Lee
キヨン リ
Munpyo Hong
ムンピョ ホン
Cheol Ryu
チェオル リュウ
Sang Kyu Park
サンキュ パク
Young Kil Kim
ヨンキル キム
Chang Hyun Kim
チャンヒュン キム
Young Ae Seo
ヨンエ ソ
Seong Il Yang
ソンイル ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2005092849A publication Critical patent/JP2005092849A/ja
Application granted granted Critical
Publication of JP3971373B2 publication Critical patent/JP3971373B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 ルールベース方式での曖昧性の問題と翻訳パターン方式とでのパターン生成及びカバレージの問題を解決する。
【解決手段】 本発明による自動翻訳装置は、入力原文に対して形態素を解析し品詞を決める形態素解析及びタギングの手段、タギングの結果に対して構文解析を遂行し構文解析木(パース ツリー)を出力する構文解析手段、構文解析木でサブカテゴリの句チャンキングの結果のみを抽出し構文パターンを生成する構文パターンの生成手段、翻訳パターンを利用して上記構文パターンに対する翻訳を試みる構文パターンの翻訳手段、上記構文パターンに対する翻訳パターンのマッチングに失敗した場合、節構造の解析をする節構造の解析手段及び節構造の解析結果により部分構文パターンのパターン翻訳を遂行し最終の翻訳結果を出力する部分パターンの翻訳手段を含むことを特徴とする。
【選択図】 図1

Description

本発明は自動翻訳装置及び方法とその記録媒体に関するものであって、より詳しくは、従来のルールベース(rule-based)方式での曖昧性の問題と翻訳パターン方式とでのパターン生成及びカバレージ(coverage)の問題を解決するためにルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法とこれを実現させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体に関するものである。
従来のルールベースの機械翻訳の方法では、殊に文章が長くなることに従って、構文解析の持つ曖昧性の急増及び対訳構文の無制限の生成により速度及び翻訳性能が低下される問題があった。
これを解決するためのものとして、翻訳パターンベースの自動翻訳の方法があり、これは予め定められた翻訳パターンを見つける方法であって、対訳構文の無制限の生成を防止し、翻訳の品質を大きく向上させる長所がある。
ところが、従来の翻訳パターンベースの自動翻訳の方法は、タギング(tagging)、部分パーシング(parsing)などのみでは翻訳のための構文パターンを生成するまで発生する曖昧性を処理することができず、正しい構文パターン自体を生成することができないことにより、翻訳パターンベースの長所を発揮するのに制限があった。
さらに、文章の長さが長くなるにつれ、構築すべき翻訳パターンの数が急激に増加することになり、翻訳パターンに対するマッチングの成功率が落ち深刻なカバレージの問題を持つことになる。
なお、このようなカバレージの問題を解決するための既存の代表的な長文の処理方法は構文解析をする前に長文を分割してもっと小さな単位に分けて処理するものであるが、既存の長文分割方法は構文解析が成される前の限られた情報をもって遂行することによって、性能の限界及び副作用が多かった。
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている(例えば、特許文献1、2参照)。
米国特許第5,640,575号明細書 米国特許第5,895,446号明細書
従って、上記した従来の問題点を解決するためにさらなる改善が望まれている。
本発明は、このような状況に鑑みてなされたもので、その目的とするところは、翻訳パターン方式で入力文章に対する構文パターンを構文解析の結果から句チャンキング(chunking)の結果のみを抽出して生成することによって、ルールベース方式の曖昧性の問題を避けながら構文パターンの生成の正確性を高め、またパターン翻訳に失敗した場合、節構造の解析のみを再び遂行し、その結果にしたがって部分パターン翻訳を遂行することによって翻訳パターンベースの自動翻訳において文章の長さが長くなるにつれて発生する翻訳のカバレージの問題を解決し、高いカバレージの高品質な自動翻訳の結果を生成することができる、ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法並びにそのコンピュータ読み取り可能な記録媒体を提供することにある。
前記本発明の目的を達成するためのルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置は、入力原文に対して形態素解析を遂行する形態素解析部と、前記形態素解析の結果に対して各々の品詞を決定するタギング部と、前記タギングの結果に対して構文解析をし構文解析木を出力する構文解析部と、前記構文解析木で動詞のサブカテゴリに属する句等のチャンキングの結果のみを抽出して構文パターンを生成する構文パターンの生成部と、翻訳パターンを利用して前記構文パターンに対する翻訳を遂行する構文パターンの翻訳部と、前記構文パターンに対する翻訳パターンのマッチングに失敗した場合、その構文に対する節単位の構造を把握する節構造の解析部と、前記節構造の解析結果を参照して各下位節に対する部分構文パターンを認識し、部分翻訳パターンを利用して翻訳を遂行する部分パターンの翻訳部とで構成される。
また、前記本発明の目的を達成するためのルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法は、入力原文に対して形態素解析及び前処理のチャンキングを遂行して、その解析結果に対してタギングする形態素解析及びタギングのステップと、前記タギングの結果に対して構文解析をし構文解析木を出力する構文解析のステップと、前記構文解析木で動詞のサブカテゴリに属する句等のチャンキングの結果のみを抽出して構文パターンを生成する構文パターンの生成のステップと、翻訳パターンを利用して前記構文パターンに対する翻訳を遂行する構文パターンの翻訳のステップと、前記構文パターンに対する翻訳パターンのマッチングに失敗した場合、その構文に対する節単位の構造を解析する節構造の解析のステップと、前記節構造の解析結果を参照し翻訳失敗ノードの下位節に対する部分構文パターンを生成して、その部分構文パターンに対するパターン翻訳を遂行し、これを組み合わせて最終の翻訳結果を出力する部分パターンの翻訳のステップとで構成される。
また、前記部分パターンの翻訳のステップは、前記節構造の解析結果を参照し翻訳失敗ノードの下位節に対する部分構文パターンを生成して、その部分構文パターンに対してパターン翻訳を遂行し、前記部分構文パターンの翻訳結果を文章のシンボルSに置換し、そのパターン置換によって縮小された構文パターンに対してパターン翻訳を遂行し、前記構文パターンの縮小によるパターン翻訳が失敗した場合、各構文要素別に翻訳を遂行して最終の翻訳結果を生成することが好ましい。
また、前記本発明の目的を達成するために、本発明によるルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法を実現することのできるプログラムを記録した、コンピュータ読み取り可能な記録媒体を提供する。
以上説明したように本発明によれば、構造解析の処理の単位を句単位と節単位とで区分して、構文解析の結果から句単位の結果のみを抽出することによって、構文解析の曖昧性の問題、文章分割の副作用の問題を最小化し、翻訳パターンのマッチングのための構文パターンの正確性を高めることができる。
また、節構造の解析結果からトップダウン式の方式で部分パターンの翻訳を遂行することによって、高いカバレージの高品質な翻訳結果を得ることができる。
以下、本発明による実施形態を、添付した図面を参照しながら詳しく説明する。
図1は、本発明によるハイブリッド自動翻訳装置の各構成要素及び処理の流れを示す全体的なブロック構成図である。
図1で、本発明の自動翻訳装置に対する全体的な流れを見ると、入力文章に対して形態素の解析及びタギング(tagging)を遂行し(図中符号101、102)、タギングの結果から入った入力文章に対して構文解析(parsing)を遂行する(103)。そして、構文解析の結果、生成された構文解析木(parse tree)から構文パターンを生成した後(104)、翻訳パターンによって翻訳を遂行する(105)。
ここで、構文パターンは、入力文章で文章の中心となる動詞(V)、助動詞(X)、接続詞(C)等の品詞と、それに依存する構文要素からなる全体文章を表すパターンのことを言う。また、構文要素としては名詞句(N)、前置詞句(PP)、形容詞句(AP)、孤立した前置詞句(IPREP)等があり、各々はn(名詞句)、p(前置詞句)、a(形容詞句)、i(孤立した前置詞句)のシンボルで表す。
本発明における構文パターンは上記の品詞或いは構文要素からなる文章単位のパターンを意味するものであって、句単位のパターンを使う一般的なパターンベース方式の翻訳でのパターンと区別されるものである。なお、このような構文パターンに対応する対訳文の対訳構文パターンを記述することによって、入力文章に必ず適切な対訳文の生成が可能になるようにすることができるが、このような文章範囲の翻訳情報を持っている構文単位のパターンを翻訳パターンと言う。このような翻訳パターンによる翻訳方式は、徹底した構文構造を把握すればこそ翻訳性能が保障されるから、翻訳の難しい英語―韓国語のような異種の言語間で高い性能を発揮することができる。
なお、本発明は、上記翻訳パターンによる翻訳で翻訳パターンのマッチングに失敗した場合、節構造解析を遂行し(106)、節構造解析の結果に従って部分パターン翻訳を遂行することになる(105−1)。
このような部分パターンの翻訳は、文章全体に対する翻訳パターンが存在しない場合、下位節(sub-clause)に該当する部分構文パターンで分けて処理し、その結果を結んで最終の結果を生成することによって翻訳パターンのカバレージを高めるために遂行するのである。
以下では、図1乃至図4を参照しながら、本発明による自動翻訳装置を各細部のブロック別により詳しく説明する。
図1で、形態素解析部101は、入力される原文に対して形態素解析及び前処理のチャンキングを遂行する。前処理のチャンキングは固有名詞、時間の副詞句、語彙の固定表現等を前もって結合する(combine)ことによって文章の長さを縮め、タギングの性能を高めることができる。
なお、タギング部102は、前記形態素解析に対してタギングを遂行し、そのタギングの結果はタギング自体の性能及びパーシングの効率性を考慮し各単語に対して最適の候補2個を出力する。従ってタギングのみでは区別がつかない曖昧性がある場合、パーシングを通じ広い範囲の構文解析情報を反映することによるタギング性能の向上を期待することができる。
一方、図2は、構文解析部103の細部のブロック構成を示す図面である。
図2で、構文解析部103はタギング部102から入力される二つのタギングの最適候補に対してパーシング(parsing)を遂行し(S201)、入力文章の長さが特定値(N)以上の長文である場合、文章分割によるパーシングを遂行する。この時、長文の判定は前処理のチャンキングが成された状態での文章の長さで成り立つ。
本発明における文章分割によるパーシングは次のような過程で成される。
まず、文章の句読点、接続詞、関係詞、疑問詞等の分割点の構文端緒(syntactic clue)に基づいて多数の文章の分割点候補を選定した後、選ばれた候補中で各分割文の両側に本動詞(即ち、時制を有する動詞)が存在しているか否か及び分割文の長さを考慮して2〜3個の分割点候補を選び出す(S202)。
そして、各候補別にその分割点による分割文等に対してパーシングを遂行する(S203)。もし分割文自体が長文である場合、上記S202のステップ及びS203のステップを再帰的に適用してパーシングを遂行する。このように分割文自体の長さが特定値以上の分割文に対して再び長文分割を再帰的に遂行することによって任意の長文に対しても自由に分割を遂行することができる。
そして、各分割文のパーシングの結果にパーシングの加重値を適用して加重値(weight)が高い最適の分割点を選定し、選ばれた分割点によるパーシングの結果及び構文解析木を出力する(S204)。
なお、挿入節のように分割してはならない地点を見つけるためには非常に広い範囲の文脈と深い解析を必要とするが、本発明は各候補別にパーシングを遂行した後、最適の分割点を決めるため、最適の分割点をより正確に判定することができる。
次は以下の入力文章(英文)に対する本発明における文章分割によるパーシングの実施例の一つを示す。
[入力文章]: "We're told to look for an announcement under which the Russians would temporarily participate in the NATO command structure while the political leaders, including the two presidents when they speak today, try to work out the arrangements for a much broader Russian participation in the peacekeeping force."
[分割点候補]: ... in the NATO command structure /while the political leaders, including the two presidents /when they speak today, try to ....
[各分割点候補別の分割文]
while: (We're told to look for ... NATO command structure) (while the political leaders, including the two presidents when they speak today, try to ... the peacekeeping force.)
when: (We're told to look for ... NATO command structure while the political leaders, including the two presidents) (when they speak today, try to ... in the peacekeeping force.)
分割点候補 'when'の場合、その分割文 "We're told to look for an announcement under which the Russians would temporarily participate in the NATO command structure while the political leaders, including the two presidents" は、非文(abnormal sentence)であるので、パーシングの加重値によって 'when'は分割点候補から外れる。
[最終的に選ばれた分割文のパーシングの結果]
(S (NP We) (VP 're (VP told (TOINF (VP to (VP look_for (NP an announcement) (PP under)))))) (SBAR (WHNP which) (SS (NP the Russians) (VP would temporarily (VP participate (PP in (NP the NATO command structure)))))))
(S (NP (NP the political leaders) -COMMA- (PP including (NP (NP the two presidents) (SBAR (WHADVP when) (SS (NP they) (VP speak today))))) -COMMA-) (VP try (TOINF to (VP work_out) (NP the arrangements) (PP for (NP (NP a (ADJP much broader) Russian participation) (PP in (NP the peacekeeping force)))))))
構文パターンの生成部104は、上記最終的に選ばれた分割点候補に対する構文解析木でNP,AP,PP,IPREPのように動詞のサブカテゴリに属する句(phrase)のチャンキングの範囲を認識することによって構文パターンを抽出する。
本発明で動詞のサブカテゴリとは構文解析木でのNP,AP,PP,IPREPの中で動詞に依存する句のことを言う。 構文解析木で主に上位に行くほど曖昧性が増加するため、本発明はこのようにサブカテゴリの句チャンキングの結果のみで構文パターンを抽出することによって構文解析の曖昧性の問題を減らすことができた。
次は上記の入力例文に対する句チャンキングの抽出結果及び構文パターンである。
[句チャンキングの抽出結果]
(NP We) 're told (IPREP to) look_for (NP an announcement) (IPREP under) which (NP the Russians) would temporarily participate (PP in the NATO command structure) (NP the political leaders) -COMMA- (PP including the two presidents) when (NP they) speak today -COMMA- try (IPREP to) work_out (NP the arrangements) (PP for a much broader Russian participation in the peacekeeping force)
[構文パターン]: nViVniCnVpCnTpCnVTViVnp
以上から見ると、'while'は、実際に'under which'の関係節の中の接続詞として、分割してはならない分割点である。従って、'while'によって分割された状態で従来の方式に従い翻訳を遂行すると、誤った翻訳結果を生成することになる筈である。すなわち、従来の方式の場合、分割点の選定によって翻訳結果が決まってしまうことになる。
ところが、本発明は、選ばれたパーシングの結果の中からサブカテゴリの句単位チャンキングの結果のみを使って構文パターンを抽出するので、分割点の選定が構文パターンの結果に大きな影響を及ばなくなり、正しい節構造は再び節構造の解析を通じて得られるようになる。結果的に文章分割の失敗による危険性が減少することになる。
一方、構文パターンの翻訳部105は、上記の抽出された構文パターンに対して翻訳パターンDB107でパターンのマッチングを遂行する。もし、全構文に対する翻訳パターンのマッチングが成功すれば、その翻訳パターンによって翻訳を遂行しその結果を出力する。
しかし、上記構文パターンに対する翻訳パターンのマッチングが失敗した場合、節構造の解析部106は、その構文パターンに対して節構造の解析を遂行する。
節構造の解析は文章内の本動詞を含む節単位の構造を把握するものであって、入力例文に対して次のような節構造の解析結果が出ることになる。
[節構造の解析結果]
(s nViVniC(s (s nVp)C(s nT(p pC(s nV))TViVnp)))
そして、部分パターンの翻訳部105−1で、節構造の解析結果に基づいて部分翻訳パターンを用いた翻訳を遂行する。
図3は、本発明によるパターン翻訳の処理の流れを示す。
図3で、本発明の構文パターンの翻訳は、先に入力される構文パターンに対して翻訳パターンのマッチング及び翻訳を遂行する(S301)。この時、パターン翻訳に成功すれば、その翻訳結果を出力して終了する。
しかし、構文パターンの翻訳に失敗した場合、節構造の解析を遂行し、その節構造の解析ツリーから現在の下位ノードに該当する範囲に対する部分構文パターンを生成する。この時、関係節と疑問詞節等の場合には移動された本来の構文要素を復元させて既存の翻訳パターンによって翻訳することができるように文章の復元を遂行する。
そして、上記の生成された下位の部分構文パターンに対して上記パターン翻訳DB(database)107を参照しパターン翻訳を遂行する(S302)。この時、部分構文パターンに対するパターン翻訳に失敗した場合、再び節構造の解析結果を参照し、その下位節に対する部分パターンの翻訳を遂行することになる。
そして、各下位節に該当する部分構文パターンに対する翻訳結果が出ると、該当範囲の翻訳結果を含んでいる文章シンボルSで置換し、そのパターン置換によって縮小された構文パターンに対して翻訳パターンのマッチング及び翻訳を遂行することによって最終の翻訳結果を生成することになる。
もし、上記の縮小された構文パターンによる翻訳も失敗した場合、NP、Verb、S(翻訳された下位節)、AP等のような構文パターンを成す各構文要素別に翻訳を遂行し、これらを組み合わせて最終の翻訳結果を生成する(S304)。
一方、図4は、上記の入力例文に対する節構造の解析結果及び部分パターンの翻訳の実施例の一つを示す。
図4で、まずs1に対するパターン翻訳を試み、これに失敗した場合、その節構造の解析結果から下位節のs2を認識し、1.1)でs2の翻訳を試みる。この時、s2に対する翻訳に成功すれば、1.2)のように縮小された構文パターンに対して翻訳することによって全体の翻訳が成り立つわけである。
もし、s2の部分構文パターンに対する直接の翻訳が失敗した場合、再び節構造の解析結果からその下位節のs3、s4を認識した後、1.1.1)、1.1.2)、1.1.3)のように下位部分パターンの翻訳を試みて、下位翻訳パターンに対してもパターン翻訳が失敗した場合、その下位に対して同じ過程を繰り返すことになる。また、最終の下位節に対するパターン翻訳に失敗した場合には、各構文要素別に翻訳を試みる。
本発明はこのようにトップダウン式で部分パターンの翻訳を遂行するので、もし節構造の解析上でエラーが発生したとしてもその上位の構造でパターン翻訳が存在すれば、翻訳パターンによって正しい翻訳が遂行されるので節構造の解析上のエラーによる副作用を最小化することができる。
また、構文全体に対する翻訳パターンがない場合、下位節の部分構文パターン及び縮小された構文パターンでマッチングするので、マッチングされるパターンの長さが縮まることになり、翻訳パターンのカバレージを効果的に高めることができる。
以上で説明したことは、本発明によるルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置及び方法を実施するための一つの実施形態に過ぎないものであって、本発明は上記の実施形態に限ることなく、当該技術分野における当業者には、特許請求の範囲に記載された本発明の思想及び領域から離れない範囲内で本発明を多様に修正及び変更が可能であることが理解できるであろう。
本発明の実施形態によるハイブリッド自動翻訳装置の構成要素及び処理の流れを示すブロック図である。 本発明の実施形態による構文解析部の構成及び処理の流れを示すブロック図である。 本発明の実施形態による部分パターンの翻訳過程に対する処理のフローチャートである。 本発明の実施形態による部分パターンの翻訳過程の一つの実施例を示す図である。
符号の説明
101 形態素解析部
102 タギング部
103 構文解析部
104 構文パターンの生成部
105 構文パターンの翻訳部
105−1 部分パターンの翻訳部
106 節構造の解析部
107 翻訳パターンのDB

Claims (11)

  1. 入力原文に対して形態素解析を遂行する形態素解析部と、
    前記形態素解析の結果に対して各々の品詞を決定するタギング部と、
    前記タギングの結果に対して構文解析をし構文解析木を出力する構文解析部と、
    前記構文解析木で動詞のサブカテゴリに属する句等のチャンキングの結果のみを抽出して構文パターンを生成する構文パターンの生成部と、
    翻訳パターンを利用して前記構文パターンに対する翻訳を遂行する構文パターンの翻訳部と、
    前記構文パターンに対する翻訳パターンのマッチングに失敗した場合、その構文に対する節単位の構造を把握する節構造の解析部と、
    前記節構造の解析結果を参照して各下位節に対する部分構文パターンを認識し、部分翻訳パターンを利用して翻訳を遂行する部分パターンの翻訳部と
    を備えたことを特徴とするルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置。
  2. 前記形態素解析部は、入力原文に対する形態素解析の時に前処理のチャンキングを遂行する
    ことを特徴とする請求項1に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置。
  3. 前記タギング部は、そのタギングの結果として最適の候補2個を出力して前記構文解析部へ提供する
    ことを特徴とする請求項1に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置。
  4. 前記構文解析部は、
    入力文章の長さが特定値以上の長文である場合、分割点の構文端緒、本動詞の存在、分割文の長さに基づいて2〜3個の分割点候補を選定し、
    各候補別にその分割文等に対する構文解析を遂行し、
    各分割文の構文解析結果にパーシングの加重値を適用して最適の分割点を選定し、
    選定された分割点による構文解析結果を出力する
    ことを特徴とする請求項1に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置。
  5. 前記部分パターンの翻訳部は、
    前記節構造の解析結果を参照して、翻訳失敗ノードの下位節に対する部分構文パターンを生成し、
    その部分構文パターンに対してパターン翻訳を遂行し、
    前記部分構文パターンの翻訳結果を文章のシンボルSで置換し、
    そのパターン置換によって縮小された構文パターンに対してパターン翻訳を遂行し、
    前記構文パターンの縮小によるパターン翻訳が失敗した場合、各構文要素別に翻訳を遂行して最終の翻訳結果を生成する
    ことを特徴とする請求項1に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置。
  6. 前記部分パターンの翻訳部は、
    前記下位節に対する部分パターンの翻訳が失敗した場合、再び節構造の解析結果を参照して前記下位節に対する部分パターンの翻訳をするトップダウン式の部分パターンの翻訳を遂行する
    ことを特徴とする請求項5に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置。
  7. 入力原文に対して形態素解析及び前処理のチャンキングを遂行して、その解析結果に対してタギングする形態素解析及びタギングのステップと、
    前記タギングの結果に対して構文解析をし構文解析木を出力する構文解析のステップと、
    前記構文解析木で動詞のサブカテゴリに属する句等のチャンキングの結果のみを抽出して構文パターンを生成する構文パターンの生成のステップと、
    翻訳パターンを利用して前記構文パターンに対する翻訳を遂行する構文パターンの翻訳のステップと、
    前記構文パターンに対する翻訳パターンのマッチングに失敗した場合、その構文に対する節単位の構造を解析する節構造の解析のステップと、
    前記節構造の解析結果を参照し翻訳失敗ノードの下位節に対する部分構文パターンを生成して、その部分構文パターンに対するパターン翻訳を遂行し、これを組み合わせて最終の翻訳結果を出力する部分パターンの翻訳のステップと
    を備えたことを特徴とするルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法。
  8. 前記構文解析のステップは、入力文章の長さが特定値以上の長文である場合、
    分割点の構文端緒、本動詞の存在、分割文の長さに基づいて2〜3個の分割点候補を選定し、
    各候補別にその分割文等に対する構文解析を遂行し、
    各分割文の構文解析結果にパーシングの加重値を適用して最適の分割点を選定し、選定された分割点による構文解析結果を出力する
    ことを特徴とする請求項7に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法。
  9. 前記部分パターンの翻訳のステップは、
    前記節構造の解析結果を参照し翻訳失敗ノードの下位節に対する部分構文パターンを生成して、その部分構文パターンに対してパターン翻訳を遂行し、
    前記部分構文パターンの翻訳結果を文章のシンボルSで置換し、そのパターン置換によって縮小された構文パターンに対してパターン翻訳を遂行し、
    前記構文パターンの縮小によるパターン翻訳が失敗した場合、各構文要素別に翻訳を遂行して最終の翻訳結果を生成する
    ことを特徴とする請求項7に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法。
  10. 前記部分パターンの翻訳のステップは、
    前記下位節に対する部分パターン翻訳が失敗した場合、再び節構造の解析結果を参照して前記下位節に対する部分パターンの翻訳をするトップダウン式の部分パターンの翻訳を遂行する
    ことを特徴とする請求項9に記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法。
  11. 請求項7乃至10のいずれかに記載のルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳方法をコンピュータで実行させるためのプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2003431457A 2003-09-15 2003-12-25 ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置 Expired - Fee Related JP3971373B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030063517A KR100542755B1 (ko) 2003-09-15 2003-09-15 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체

Publications (2)

Publication Number Publication Date
JP2005092849A true JP2005092849A (ja) 2005-04-07
JP3971373B2 JP3971373B2 (ja) 2007-09-05

Family

ID=34270695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003431457A Expired - Fee Related JP3971373B2 (ja) 2003-09-15 2003-12-25 ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置

Country Status (3)

Country Link
US (1) US20050060160A1 (ja)
JP (1) JP3971373B2 (ja)
KR (1) KR100542755B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9472189B2 (en) 2012-11-02 2016-10-18 Sony Corporation Language processing method and integrated circuit

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
KR100792204B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
US9122674B1 (en) * 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
KR101301535B1 (ko) * 2009-12-02 2013-09-04 한국전자통신연구원 하이브리드 번역 장치 및 그 방법
KR101301536B1 (ko) 2009-12-11 2013-09-04 한국전자통신연구원 외국어 작문 서비스 방법 및 시스템
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
CN102270242B (zh) * 2011-08-16 2013-01-09 上海交通大学出版社有限公司 计算机辅助语料提取方法
KR101870729B1 (ko) 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
KR20170107808A (ko) * 2016-03-16 2017-09-26 이시용 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
WO2017163346A1 (ja) * 2016-03-23 2017-09-28 株式会社野村総合研究所 文章解析システム及びプログラム
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10346547B2 (en) * 2016-12-05 2019-07-09 Integral Search International Limited Device for automatic computer translation of patent claims
WO2021182828A1 (ko) * 2020-03-08 2021-09-16 주식회사 미리내 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418716A (en) * 1990-07-26 1995-05-23 Nec Corporation System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
US6077085A (en) * 1998-05-19 2000-06-20 Intellectual Reserve, Inc. Technology assisted learning
US6285978B1 (en) * 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6330530B1 (en) * 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9472189B2 (en) 2012-11-02 2016-10-18 Sony Corporation Language processing method and integrated circuit

Also Published As

Publication number Publication date
KR100542755B1 (ko) 2006-01-20
JP3971373B2 (ja) 2007-09-05
KR20050027298A (ko) 2005-03-21
US20050060160A1 (en) 2005-03-17

Similar Documents

Publication Publication Date Title
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
JPS62163173A (ja) 機械翻訳方法
JP2004038969A (ja) 文書のコロケーション誤りを自動的に検出するシステムおよび方法
JP2003196274A (ja) 構文解析方法及び装置
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
US20010029443A1 (en) Machine translation system, machine translation method, and storage medium storing program for executing machine translation method
KR101794274B1 (ko) 계층적 구문 기반의 통계적 기계 번역에서의 번역규칙 필터링과 목적단어 생성을 위한 방법 및 장치
US20050267735A1 (en) Critiquing clitic pronoun ordering in french
Zhou et al. Constrained phrase-based translation using weighted finite-state transducers
Mohaghegh et al. Improved language modeling for English-Persian statistical machine translation
JP2007323476A (ja) 機械翻訳装置及びコンピュータプログラム
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
JP2007133905A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Paggio Spelling and grammar correction for Danish in SCARRIE
Germann Making semantic interpretation parser-independent
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Turcato et al. Pre-processing closed captions for machine translation
AlGahtani et al. Joint Arabic segmentation and part-of-speech tagging
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2994539B2 (ja) 機械翻訳装置
JP2006139463A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
JP5087844B2 (ja) 照応解析システム、照応解析方法及び照応解析プログラム
JP2856736B2 (ja) 辞書参照装置及び辞書参照方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070607

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100615

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110615

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120615

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130615

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees