JP7278309B2 - 文章レベルテキストの翻訳方法及び装置 - Google Patents

文章レベルテキストの翻訳方法及び装置 Download PDF

Info

Publication number
JP7278309B2
JP7278309B2 JP2020563948A JP2020563948A JP7278309B2 JP 7278309 B2 JP7278309 B2 JP 7278309B2 JP 2020563948 A JP2020563948 A JP 2020563948A JP 2020563948 A JP2020563948 A JP 2020563948A JP 7278309 B2 JP7278309 B2 JP 7278309B2
Authority
JP
Japan
Prior art keywords
text
translated
encoding
sentence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020563948A
Other languages
English (en)
Other versions
JP2021524095A (ja
Inventor
マー,チーチャン
リュウ,ジュンファ
ウェイ,スー
フー,グォピン
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2021524095A publication Critical patent/JP2021524095A/ja
Application granted granted Critical
Publication of JP7278309B2 publication Critical patent/JP7278309B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

相互参照
本出願は2018年5月15日に中国特許局へ提出された出願番号201810463138.3、出願名称「文章レベルテキストの翻訳方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
本出願は、テキスト翻訳技術分野に関し、特に文章レベルテキストの翻訳方法及び装置に関する。
文章レベルテキストは一連の文から構成されるものであり、例えば、文章レベルテキストとしては、スピーチ原稿、雑誌記事、文学作品などが挙げられる。文章レベルテキストの最も重要な特徴は、文間の連接性と一貫性であるため、文章レベルテキストはただ一連の文の集合であるだけでなく、完全な構造、明確的な機能を備えた意味統一体である。
文章レベルテキストについては、文章レベルテキストの翻訳方法を用いて翻訳しなければならない。従来の文章レベルテキストの翻訳方法では、通常、翻訳の対象となる文章レベルテキスト全体を翻訳対象として直接翻訳しているが、翻訳の効果はよくなく、つまり翻訳結果の精度が高くないので、ユーザーエクスペリエンスが低下している。
本出願の実施例の主要目的は、文章レベルテキストを翻訳する時に、翻訳結果の精度を向上させるための文章レベルテキストの翻訳方法及び装置を提供することである。
本出願の実施例は、文章レベルテキスト翻訳方法を提供する。当該方法は、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含む。
選択肢として、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップを含む。
選択肢として、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処
理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得るステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む。
選択肢として、前記翻訳対象テキストを符号化して初期符号化結果を得るステップは、
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
それに対し、前記関連テキストを符号化して関連符号化結果を得るステップは、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む。
選択肢として、前記翻訳対象テキスト内の各単語を符号化した後のステップは、
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップをさらに含み、
それに対し、前記関連テキスト内の各テキスト単位の各単語を符号化した後のステップは、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む。
選択肢として、前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む。
選択肢として、決定された符号化結果に応じて、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理するステップとを含む。
選択肢として、前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化す
るステップを含む。
選択肢として、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップは、
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化するステップとを含む。
選択肢として、前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップは、
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするステップを含む。
本出願の実施例はさらに、文章レベルテキスト翻訳装置を提供する。当該装置は、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニットと、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する関連テキスト取得ユニットと、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニットとを含む。
選択肢として、前記翻訳対象テキスト翻訳ユニットは具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するために用いられる。
選択肢として、前記翻訳対象テキスト翻訳ユニットは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第1符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第2符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む。
選択肢として、前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる。
また、本出願の実施例は、プロセッサと、メモリと、システムバスとを含む文章レベルテキスト翻訳装置を提供し、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
前記メモリは1つ又は複数のプログラムを格納するために使用され、前記1つ又は複数のプログラムは命令を含み、前記命令は前記プロセッサで実行された時に、前記プロセッサに上記の文章レベルテキスト翻訳方法のうちいずれかの1つの実現方式を実行させる。
また、本出願の実施例は、命令を格納するコンピュータ可読記憶媒体を提供し、上記命令はコンピュータで実行される時に、コンピュータに上記の文章レベルテキスト翻訳方法のうちいずれかの1つの実現方式を実行させる。
また、本出願の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の文章レベルテキスト翻訳方法のうち、いずれかの実現方式を実行させる。
また、本実施例に係る文章レベルテキストの翻訳方法及び装置は、翻訳の対象となる文章レベルテキスト内の各テキスト単位を、それぞれ翻訳対象テキストとし、その後、文章レベルテキストから翻訳対象テキストの関連テキストを取得し、当該関連テキストに応じて翻訳対象テキストを翻訳する。このように、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。
本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下に説明される図面は、本出願の実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
図1は本出願の実施例に係る文章レベルテキスト翻訳方法のフローチャートである。 図2は本出願の実施例に係る文章レベルテキストの概略図である。 図3は本出願の実施例に係る符号化復号化モデルのトポロジー概略図である。 図4は本出願の実施例に係る符号化復号化モデルを用いた翻訳フローチャートである。 図5は本出願の実施例に係る初期符号化結果の処理フローチャートである。 図6は本出願の実施例に係るGate Networkのネットワーク構造概略図である。 図7は本出願の実施例に係る文章レベルテキスト翻訳装置の構成図である。 図8は本出願の実施例に係る文章レベルテキスト翻訳装置のハードウェア構成図である。
一部の文章レベルテキストの翻訳方法では、翻訳の対象となる文章レベルテキスト全体を翻訳対象として、翻訳モデルを利用し直接にそれを翻訳するが、この方法では、文章レベルテキストの各文を翻訳する時に、翻訳対象文の上下文情報を考慮していないため、翻訳結果の精度が低下し、ユーザーエクスペリエンスも低下する。また、翻訳対象文を翻訳する時に、翻訳モデルの受信情報には冗長な情報が含まれる可能性があり、具体的には、翻訳対象文前の文又は翻訳対象文後の文は翻訳対象文と関連していない場合、文章レベルテキスト全体を翻訳対象とすると、翻訳対象文にとって、翻訳対象文と関係のない前文或いは後文は冗長な情報に相当する。
上記の欠陥を解決するために、本出願の実施例は、文章レベルテキスト翻訳方法を提供する。当該方法は、文章レベルテキスト内の各翻訳対象テキスト、例えば、当該翻訳対象テキストを文とすると、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの上下文情報も考慮することから、翻訳対象テキストの
翻訳結果の精度を高め、ユーザーエクスペリエンスも向上させる。さらに、翻訳対象テキストを翻訳する時に、本出願の実施例は、翻訳対象テキストと上下文情報の関連性に応じて、上下文情報を動的に選択することで、翻訳モデルの受信情報内の冗長な情報を低減させるだけでなく、翻訳対象テキストの翻訳結果の精度もより一層高める。さらに、翻訳対象テキストを翻訳する時に、本出願の実施例は、翻訳対象テキストの上文翻訳結果を考慮するため、翻訳対象テキストの翻訳結果を上文の翻訳結果に結びつけることで、翻訳対象テキストの翻訳結果の精度がより向上し、翻訳テキストの流暢さも向上する。つまり、翻訳後の文章レベルテキストの各文間の連接性と一貫性が保証される。
本出願の実施例の目的、技術案及び利点をより明確にするために、以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術案を明確且つ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本出願の一部の実施例である。本出願の実施例に基づき、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。
<第1実施例>
図1は本出願の実施例に係る文章レベルテキスト翻訳方法のフローチャートであり、当該方法は以下のステップを含む。
S101:翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する。
翻訳の対象となる文章レベルテキスト、すなわち、翻訳前の文章レベルテキストは、便益を図るため、以下、文章レベルテキストと略す。本実施例は文章レベルテキストのタイプを制限するものではない。例えば、当該文章レベルテキストとしては、スピーチ原稿、雑誌記事、文学作品などが挙げられる。
文章レベルテキストはただ一連の文の集合であり、文章レベルテキストを翻訳する時に、本実施例は、文又はその他のテキスト長さを単位に順次翻訳することができる。文単位で翻訳すると、文章レベルテキストの各文の順位により各文を順次取得し、現在取得した文を翻訳対象テキストとして、次のステップで翻訳する。
説明すべき点については、本実施例は文章レベルテキストの翻訳元言語と翻訳先言語を制限するものではない。例えば、翻訳元言語は中国語であり、翻訳先言語は英語である。
S102:前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する。
本実施例では、前記上文原テキストは、文章レベルテキスト内における翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、文章レベルテキスト内における翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストである。
具体的には、文を単位に翻訳すると、翻訳対象テキストの上文原テキストとして、文章レベルテキストから翻訳対象テキストの前の1つ又は複数の文を取得することができる。翻訳対象テキストの下文原テキストとして、文章レベルテキストから翻訳対象テキストの後の1つ又は複数の文を取得することができる。また、文章レベルテキストの各文を順次翻訳するため、翻訳対象テキストを翻訳する時に、上文原テキストはすでに翻訳されることで、上文原テキストの翻訳テキスト(すなわち、上文目標テキスト)を直接取得することができる。
説明すべき点については、上文原テキストと下文原テキストの文の件数は同じ場合もあり、異なる場合もある。翻訳対象テキストの前のk個の文を上文原テキストとして使用すると、翻訳対象テキストの後のk個又はl個の文を下文原テキストとして使用することができる。ここで、k、lは整数、k≠l、k≧1、l≧1とする。
例えば、図2に示す文章レベルテキストでは、翻訳対象テキストをXで表すと、X前の1つの文X-1を上文原テキストとしてもよいし、X前の複数の文、例えば、文X-1と文X-2を上文原テキストとしてもよい。同様に、X後の1つの文Xを上文原テキストとしてもよいし、X後の複数の文、例えば、文X、文Xおよび文Xを下文原テキストとしてもよい。
S103:前記関連テキストに応じて前記翻訳対象テキストを翻訳する。
翻訳対象テキストを翻訳する時に、本実施例は翻訳対象テキストの関連テキスト、すなわち、翻訳対象テキストの上文原テキスト、下文原テキスト及び上文目標テキストのうち少なくとも1つの意味情報を考慮しながら、翻訳対象テキストを翻訳し、翻訳対象テキストの翻訳結果を得る。また、翻訳対象テキストと上文原テキストとの関連性、翻訳対象テキストと下文原テキストとの関連性、及び翻訳対象テキストと上文目標テキストとの関連性を考慮してもよい。このように、翻訳対象テキストと関連テキストの意味内容及び両者間の関連性を考慮することにより、翻訳対象テキストの翻訳結果がより正確になる。
説明すべき点については、関連テキストに上文目標テキスト(上文原テキストの翻訳結果)が含まれた場合、すなわち、上文目標テキストを利用して翻訳対象テキストに対し補助翻訳を行う時、翻訳対象テキストの翻訳結果の精度を高めるだけでなく、翻訳対象テキストの翻訳結果を上文原テキストの翻訳結果に結びつけることができる。つまり、翻訳対象テキストの翻訳結果を、意味的に上文翻訳結果によりよく結びつけることで、翻訳後の文章レベルテキストの各文間の連接性と一貫性を保証する。
また説明すべき点については、ステップS103の具体的な実現方式は第2実施例を参照する。
以上のように、本実施例に係る文章レベルテキストの翻訳方法は、翻訳の対象となる文章レベルテキスト内の各テキスト単位を、それぞれ翻訳対象テキストとし、その後、文章レベルテキストから翻訳対象テキストの関連テキストを取得し、当該関連テキストに応じて翻訳対象テキストを翻訳する。このように、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。
<第2実施例>
本実施例は第1実施例のS103の具体的な実施形態を説明する。
本実施例では、符号化復号化モデルを文章レベルテキストの翻訳モデルとして予め構築することができる。すなわち、符号化復号化モデルが先に符号化して次に復号化するという方式で、文章レベルテキストの翻訳を実現することを可能にする。これに基づいて、上記のステップS103は具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップを含む。
説明すべき点については、次に、本実施例は図3に示す符号化復号化モデルのトポロジー概略図を参照しながら、どのように符号化復号化モデルを利用して翻訳対象テキストを
翻訳するかを説明する。
図3を参照して説明するためには、ここで文を単位に翻訳し、翻訳対象テキストの前のk個の文を上文原テキストとし、翻訳対象テキストの後のk個の文を下文原テキストとすることを例に、説明する。まず、次のように定義する。
1.翻訳前の文章レベルテキストを{X-k,…,X-1,X,X,…,X}で表す。ここで、Xは翻訳対象テキストを表し、X-1…X-kは順にX前の1番目の文、…k番目の文を表し、X…Xは順にX後の1番目の文…k番目の文を表す。ここで、X-1…X-kを翻訳対象テキストXの上文原テキストとし、X…Xを翻訳対象テキストXの下文原テキストとする。
簡単に説明するために、ここで各文にn個の単語(実際の応用において単語の実個数に基づく)。図3に示すように、翻訳対象テキストXの各単語を{x,x,…,x}で表し、ここで、x,x,…,xは順に翻訳テキストXの1番目の単語、2番目の単語…n番目の単語を表す。同様に、上文原テキスト内の文X-kの各単語を
Figure 0007278309000001

で表し、ここで、
Figure 0007278309000002

は順に文X-kの1番目の単語、2番目の単語…n番目の単語を表し、上文原テキストの他の文を類似の形式で表す。下文原テキスト内の文Xの各単語を
Figure 0007278309000003

で表し、ここで、
Figure 0007278309000004

は順に文Xの1番目の単語、2番目の単語…n番目の単語を表し、下文原テキストの他の文を類似の形式で表す。
2.翻訳後の文章レベルテキストを{Y-k,…,Y-1,Y,Y,…,Y}で表し、ここで、Yは翻訳対象テキストXの翻訳テキストを表し、Y-1…Y-kは順に上文原テキストX-1…X-kの翻訳テキストを表し、Y…Yは順に下文原テキストX…Xの翻訳テキストを表す。ここで、Y-1…Y-kを共に上文目標テキストとする。
翻訳対象テキストXの翻訳テキストY内の各単語を{y,y,…,y}で表し、ここで、y,y,…,yは順にYの1番目の単語、2番目の単語…n番目の単語を表す。図3に示すように、上文目標テキスト内の文Y-kの各単語を
Figure 0007278309000005

で表し、ここで、
Figure 0007278309000006

は順に文Y-kの1番目の単語、2番目の単語…n番目の単語を表す。上文目標テキスト内の文Y-1の各単語を
Figure 0007278309000007

で表し、ここで、
Figure 0007278309000008

は順に文Y-1の1番目の単語、2番目の単語…n番目の単語を表す。下文目標テキストの他の文を類似の形式で表す。
図3を参照しながら、どのように符号化復号化モデルを利用して翻訳対象テキストを翻訳することを説明する。
本実施例の一実現方式において、図4に示す符号化復号化モデルを用いた翻訳フローチャートを参照し、具体的には以下のステップを含むことができる。
S401:前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る。
一実現方式において、本ステップS401は具体的に、双方向の回帰型ニューラルネットワーク(Recurrent Neural Networks、略称RNN)を利用し、前記翻訳対象テキスト
を符号化し、初期符号化結果を得ることが含むことができる。
本ステップS401又は本ステップS401の具体的な実現方式において、前記翻訳対象テキストを符号化し、具体的に前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得る。
具体的には、図3に示すように、翻訳対象テキストXの各単語、すなわち{x,x,…,x}を、単語ベクトルの形で双方向RNNに入力し、本実施例は既存又は将来現れた方法を用いて各単語を向量化する。
双方向RNNの各隠れ層状態の計算式は次の通りである。
Figure 0007278309000009
ここで、i=1、2、…n;fは非線形関数であり、例えば、sigmoid関数又は長・短期記憶ネットワーク(Long Short-Term Memory、略称LSTM)である。WとUは、双方向RNNのトレーニングパラメーターである。
Figure 0007278309000010

は、単語xの単語ベクトルを表す。hi-1はi-1番目の隠れ層状態を示し、単語xi-1の意味情報を表す。hiはi番目の隠れ層状態を示し、単語xiの意味情報を表す。
双方向RNNは、順方向RNNと逆方向RNNを含み、順方向RNNは翻訳対象テキストXの各単語の単語ベクトルを順次読み込んだ後、順方向の隠れ層シーケンス
Figure 0007278309000011

を生成し、ここで、
Figure 0007278309000012

Figure 0007278309000013

は翻訳対象テキストXの順方向情報を表す。逆方向RNNは、翻訳対象テキストXの各単語の単語ベクトルを逆順に読み込んだ後、逆方向の隠れ層シーケンス
Figure 0007278309000014

を生成し、ここで、
Figure 0007278309000015

Figure 0007278309000016

は翻訳対象テキストXの逆方向情報を表す。
順方向の隠れ層シーケンス
Figure 0007278309000017

と逆方向の隠れ層シーケンス
Figure 0007278309000018

において、位置が互いに対応する隠れ層状態のユニットをつなぎ合わせて当該位置の単語に対応する状態のシーケンスを構成する。つまり、{x,x,…,x}の各単語に対応する状態のシーケンスはそれぞれ、xに対応する状態のシーケンスは
Figure 0007278309000019

に対応する状態のシーケンスは
Figure 0007278309000020

…xに対応する状態のシーケンスは
Figure 0007278309000021

である。これに基づいて、翻訳対象テキストXの意味情報はH={h,h,…,h}で表され、Hは翻訳対象テキストを符号化して得られた初期符号化結果である。
さらに、一実現方式において、翻訳対象テキスト内の各単語を符号化した後には、前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップも含むことができる。この実現方式において、翻訳対象テキストXの符号化結果Hを得た後、Hの各状態シーケンスの累積結果
Figure 0007278309000022

を、新しい初期符号化結果とし、翻訳対象テキストXの意味情報を特徴付ける。ここで、
Figure 0007278309000023

である。
S402:前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る。
一実現方式において、本ステップS402は具体的に、双方向RNNネットワークを利用して前記関連テキストを符号化し、関連符号化結果を得るステップを含む。
本ステップS402又は本ステップS402の具体的な実現方式において、前記関連テキストを符号化する時に、具体的に、前記関連テキスト内の各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とする。
具体的には、図3に示すように、前記関連テキストは上文原テキスト、すなわち、翻訳対象テキストX前のK個の文X-1…X-kを含む場合、ステップS401における翻訳対象テキストに対する符号化の類似の処理方式に従って、X-1…X-kを符号化することができ、翻訳対象テキストXをそれぞれX-1…X-kに切り替えればよい。そのため、文X-1の意味情報を
Figure 0007278309000024

で表し、…文X-kの意味情報を
Figure 0007278309000025

で表し、H-1、…H-kは上文原テキストを符号化して得られた符号化結果である。ここで、
Figure 0007278309000026

において、
Figure 0007278309000027

であり、
Figure 0007278309000028

において、
Figure 0007278309000029
である。
前記関連テキストは下文原テキスト、すなわち、翻訳対象テキストX後のK個の文X…Xを含む場合、ステップS401における翻訳対象テキストXに対する符号化の類似の処理方式に従って、X…Xを符号化することができ、翻訳対象テキストXをそれぞれX…Xに切り替えればよい。そのため、文Xの意味情報を
Figure 0007278309000030

で表し、…文Xの意味情報を
Figure 0007278309000031

で表し、H、…Hは下文原テキストを符号化して得られた符号化結果である。ここで
Figure 0007278309000032

において、
Figure 0007278309000033

であり、
Figure 0007278309000034

において、
Figure 0007278309000035

である。
前記関連テキストは上文目標テキスト、すなわち、翻訳対象テキストX前のK個の文X-1…X-kの翻訳テキストY-1…Y-kを含む場合、ステップS401における翻訳対象テキストXに対する符号化の類似の処理方式に従って、Y-1…Y-kに切り替えればよい。そのため、文Y-1の意味情報を
Figure 0007278309000036

で表し、…文X-kの意味情報を
Figure 0007278309000037

で表し、
Figure 0007278309000038

は上文目標テキストを符号化して得られた符号化結果である。ここで、
Figure 0007278309000039

において、
Figure 0007278309000040

であり、
Figure 0007278309000041

において、
Figure 0007278309000042

である。
さらに、一実現方式において、関連テキスト内の各テキスト単位の各単語を符号化した後、ステップA1~C1も含むことができる。
ステップA1:前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る。
上文原テキストの符号化結果、H-1…H-kを得た後、H-1の各状態シーケンスの累積結果
Figure 0007278309000043

を用いて文X-1の意味情報を特徴付け、…H-kの各状態シーケンスの累積結果
Figure 0007278309000044

を用いて文X-kの意味情報を特徴付け、
Figure 0007278309000045

を共に上文原テキストの符号化結果とし、ここで
Figure 0007278309000046

である。
ステップB1:前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る。
下文原テキストの符号化結果、H…Hを得た後、Hの各状態シーケンスの累積結果
Figure 0007278309000047

を用いて文Xの意味情報を特徴付け、…Hの各状態シーケンスの累積結果
Figure 0007278309000048

を用いて文Xの意味情報を特徴付け、
Figure 0007278309000049

を共に下文原テキストの符号化結果とし、ここで、
Figure 0007278309000050

である。
ステップC1:前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む。
上文目標テキストの符号化結果、
Figure 0007278309000051

を得た後、
Figure 0007278309000052

の各状態シーケンスの累積結果
Figure 0007278309000053

を用いて文Y-1の意味情報を特徴付け、…
Figure 0007278309000054

の各状態シーケンスの累積結果
Figure 0007278309000055

を用いて文Y-kの意味情報を特徴付け、
Figure 0007278309000056

を共に上文目標テキストの符号化結果とし、ここで、
Figure 0007278309000057

である。
説明すべき点については、本実施例はステップS401とS402の実行順序を制限しなく、同時にS401とS402を実行することができるだけでなく、まずステップS401を実行し、次にステップS402を実行することもでき、又はまずステップS402を実行してからステップS401を実行することもできる。
S403:前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、目標符号化結果を得る。ここで、前記目標符号化結果は前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める。
本実施例において、上文原テキストの符号化結果H-1、…H―k、下文原テキストの符号化結果H、…H、及び上文目標テキストの符号化結果
Figure 0007278309000058

については、そのいずれか1つ又は複数の符号化結果を用いて、翻訳対象テキストの初期符号化結果Hを処理し、処理後の符号化結果を目標符号化結果とする。
又は、上文原テキストの符号化結果
Figure 0007278309000059

、下文原テキストの符号化結果
Figure 0007278309000060

、及び上文目標テキストの符号化結果
Figure 0007278309000061

については、そのいずれか1つ又は複数の符号化結果を用いて、翻訳対象テキストの初期符号化結果Hを処理し、処理後の符号化結果を目標符号化結果Hとする。
説明すべき点については、初期符号化結果を処理する時に、翻訳対象テキストと関連テキストの関連度に応じて、異なる関連度のある関連テキスト内のテキスト単位の意味情報を選択することにより、目標符号化結果にこれらの異なる関連度のある意味情報を含めると同時に、目標符号化結果で翻訳対象テキストの意味情報Hを表すことができる。
また説明すべき点については、ステップS403の具体的な実現方式は第3実施例を参照する。
S404:前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する。
目標符号化結果を復号化する時に、既存のアテンションモデル(図3を参照する)を含む復号化方法又は将来現れる復号化方法を用いて、目標符号化結果Hを復号化することにより、翻訳対象テキストの翻訳結果を得ることができる。
また説明すべき点については、ステップS404の具体的な実現方式は第4実施例を参照する。
以上をまとめると、本実施例は、符号化復号化モデルを用いて、翻訳対象テキスト、関連テキストを符号化・復号化し、符号化・復号化方式で翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。
<第3実施例>
本実施例は第2実施例のS403の具体的な実施形態を説明する。
図5に示す初期符号化結果の処理フローチャートを参照しながら、上記にステップS403の「前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理する」は、具体的に以下のステップを含むことができる。
S501:前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定する。
本実施例において、上文原テキストの符号化結果は、第2実施例のH-1…H-k又は
Figure 0007278309000062

であってもよい。
S502:前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定する。
本実施例において、上文原テキストの符号化結果はH-1…H-kである場合、下文原テキストの符号化結果は第2実施例内のH…Hであってもよい。同様に、上文原テキストの符号化結果は
Figure 0007278309000063

である場合、下文原テキストの符号化結果は第2実施例の
Figure 0007278309000064

であってもよい。
S503:決定された符号化結果に応じて、前記初期符号化結果を処理する。
一実現方式において、ステップS503は具体的に、以下のステップA2~C2を含むことができる。
ステップA2:前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定する。
翻訳対象テキストと上文原テキスト内の各文(以下、「上文の文」という)の関連性は不確定であるため、翻訳対象テキストとある上文の文とは全く関連していない場合、翻訳対象テキストに対し、当該上文の文は冗長であり、当該上文の文に基づいて、翻訳対象テキストを翻訳すると、逆に翻訳対象テキストの翻訳結果の精度に悪い影響を与え、つまり、翻訳結果の精度を低下させるといえる。したがって、より合理的に上文原テキストの符号化結果を利用するために、本実施例はそれぞれ翻訳対象テキストと各上文の文との関連度を決定することにより、関連度の決定結果を用いて、対応する上文の文の意味情報を動的に使用し、上文の文による情報の冗長を防止する。
このステップにおいて、翻訳対象テキストの初期符号化結果は
Figure 0007278309000065

であってもよく、上文原テキスト内の各上文の文の符号化結果はそれぞれ、
Figure 0007278309000066

であってもよく、ニューラルネットワーク構造Gate Networkを用いて、各上文の文に対応する相関係数を生成し、当該相関係数は、翻訳対象テキストと対応する上文の文との関連度を表す。
図6に示すGate Networkネットワーク構造の概略図は、具体的に実現する時に、翻訳対象テキストの初期符号化結果
Figure 0007278309000067

、及び各上文の文に対応する符号化結果
Figure 0007278309000068

、をGate Networkの入力とする。その後、Gate Networkで各上文の文に対応する相関係数λ-iを計算し、計算式は次の通りである。
Figure 0007278309000069
ここで、i=1、2…kとする。
Figure 0007278309000070

は翻訳対象テキストの初期符号化結果である。
Figure 0007278309000071

は翻訳対象テキストの前のi番目の文の符号化結果である。λ-iは翻訳対象テキストの
前のi番目の文に対応する相関係数であり、翻訳対象テキストと翻訳対象テキストの前のi番目の文との間の関連度を表す。UとVはGate Networkのトレーニングパラメーターであり、予め大量のデータを収集し、トレーニングして得られ、その次元はすべてd×1である。
説明すべき点については、
Figure 0007278309000072


Figure 0007278309000073

は次元が1×dの行列であり、dは双方向RNNを符号化する時に隠れ層のノード数を指し、予め設定される。したがって、式(2)は行列の乗算で次元が1であるスカラー値が得られ、次に非線形関数(すなわち、sigmoid関数)で変換し、数値範囲が0~1のスカ
ラー値λ-iを得る。ここで、λ-iの値が大きいほど、翻訳対象テキストと翻訳対象テキストの前のi番目の文間の関連度が大きくなり、その逆も同様である。
このように、上記の式(2)により、上文原テキスト内の各上文の文に対応する相関係数{λ-k,λ-k-1,…,λ-1}を算出することができる。
ステップB2:前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定する。
翻訳対象テキストと下文原テキスト内の各文(以下、「下文の文」という)の関連性は不確定であるため、翻訳対象テキストとある下文の文とは全く関連していない場合、翻訳対象テキストに対し、当該下文の文は冗長な的ものであり、当該下文の文に基づき、翻訳対象テキストを翻訳すると、逆に翻訳対象テキストの翻訳結果の精度に悪い影響を与え、つまり、翻訳結果の精度を低下させるといえる。したがって、より合理的に下文原テキストの符号化結果を利用するために、本実施例はそれぞれ翻訳対象テキストと各下文の文と
の関連度を決定することにより、関連度の決定結果を用いて、対応する下文の文の意味情報を動的に使用し、下文の文による情報の冗長を防止する。
このステップにおいて、翻訳対象テキストの初期符号化結果は
Figure 0007278309000074

であってもよく、下文原テキスト内の各上文の文の符号化結果はそれぞれ
Figure 0007278309000075

であってもよく、ニューラルネットワーク構造Gate Networkを用いて、各上文の文に対応する相関係数を生成し、当該相関係数は、翻訳対象テキストと対応する上文の文との関連度を表す。
図6に示すように、具体的に実現する時に、翻訳対象テキストの初期符号化結果
Figure 0007278309000076

、及び各上文の文に対応する符号化結果
Figure 0007278309000077

、をGate Networkの入力とする。その後、Gate Networkで各上文の文に対応する相関係数λを計算し、計算式は次の通りである。
Figure 0007278309000078
ここで、i=1、2…kとする。
Figure 0007278309000079

は翻訳対象テキストの初期符号化結果である。
Figure 0007278309000080

は翻訳対象テキストの後のi番目の文の符号化結果である。λは翻訳対象テキストの後
のi番目の文に対応する相関係数であり、翻訳対象テキストと翻訳対象テキストの後のi番目の文との間の関連度を表す。UとVはGate Networkのトレーニングパラメーターであり、予め大量のデータを収集し、トレーニングして得られ、その次元はすべてd×1である。
説明すべき点については、
Figure 0007278309000081


Figure 0007278309000082
は次元が1×dの行列であり、dは双方向RNNを符号化する時に隠れ層のノード数を指し、予め設定される。したがって、式(3)は行列の乗算で次元が1であるスカラー値が得られ、次に非線形関数(すなわち、sigmoid関数)で変換し、数値範囲が0~1のスカ
ラー値λを得る。ここで、λの値が大きいほど、翻訳対象テキストと翻訳対象テキストの後のi番目の文間の関連度が大きくなり、その逆も同様である。
このように、上記の式(3)により、下文原テキスト内の各下文の文に対応する相関係数{λ,λ,…,λ}を算出することができる。
ステップC2:決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理して目標符号化結果を得る。
上文原テキスト内の各上文の文に対する相関係数{λ-k,λ-k-1,…,λ-1}を算出した後、これらの相関係数に基づき、上文の文を動的に選択することができる。同様に、下文原テキスト内の各下文の文に対応する相関係数{λ,λ,…,λ}を算出した後、これらの相関係数に基づき、下文の文を動的に選択することができる。具体的なプロセスは以下の通りである。
第2実施例のステップS401で得られた翻訳対象テキストの初期符号化結果H={h,h,…,h}に応じて、翻訳対象テキストの各単語に対応するh(i=1,2…,n)に上下文情報を動的に導入することができ、計算式は次の通りである。
Figure 0007278309000083
ここで、{λ-k,λ-k-1,…,λ-1}はGate Networkを通じて得られた各上文の文に対応する相関係数である。{λ,λ,…,λ}はGate Networkを通じて得られた各下文の文に対応する相関係数である。
Figure 0007278309000084

は各上文の文の符号化結果である。
Figure 0007278309000085

は各下文の文の符号化結果である。
このように、式(3)により、翻訳対象テキストの各単語にそれぞれ上下文情報を導入することができ、上記の符号化過程を経て、翻訳対象テキストの意味情報の表示はH={h’,h’,…,h’}となり、すなわち、図3に示す符号化部分の出力Hである。
説明すべき点については、Hは翻訳対象テキストの意味情報を含むだけでなく、{λ-k,λ-k-1,…,λ-1}、{λ,λ,…,λ}を利用して上下文情報を動的に選択、使用することで、情報の重畳による情報の冗長性を避け、翻訳結果の精度を高める。
以上をまとめると、本実施例に係る符号化方式は、符号化側に関連テキスト内の意味情報の全部又は一部を導入し、さらに翻訳対象テキストと導入される関連テキスト間の関連度情報を導入することにより、翻訳対象テキストの上下文情報を動的に選択するため、符
号化復号化モデルの受信情報内の冗長な情報を低減するとともに、翻訳対象テキストの翻訳結果の精度をさらに高めた。
<第4実施例>
本実施例は第2実施例のS404の具体的な実施形態を説明する。
本実施例において、上記のステップS404の「前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する」は、具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化することを含む。ここで、上文目標テキストの符号化結果は、第2実施例S402内の
Figure 0007278309000086

又は、
Figure 0007278309000087

であってもよく、これらの符号化結果を利用し、目標符号化結果Hを補助的に復号化することにより、翻訳対象テキストの翻訳結果を得ることができる。
本実施例の一実現方式において、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化する時に、以下のステップを含むことができる。
ステップA3:前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定する。
上文目標テキストは上文原テキスト内の各上文の文の翻訳結果(以下、翻訳後の文)を含み、それぞれ各翻訳后の文と翻訳対象テキスト間の関連度を決定することができる。
一実現方式において、ステップA3は具体的に、前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とする。この実現方式において、第3実施例のステップA2で算出された上文原テキスト内の各上文の文に対応する相関係数{λ-k,λ-k-1,…,λ-1}で、それぞれ翻訳対象テキストと上文目標テキスト内の各翻訳後の文との間の関連度を特徴付けることができ、例えば、λ-kは翻訳対象テキストと翻訳対象テキストの前のk番目の文の翻訳結果との間の関連性を表す。
ステップB3:決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化する。
ステップでは、相関係数{λ-k,λ-k-1,…,λ-1}と上文目標テキストの符号化結果
Figure 0007278309000088

(第2実施例のステップC1を参照する)を用いて、次の式により計算することができる。
Figure 0007278309000089
図3に示すように、
Figure 0007278309000090

は復号化で使用される上文目標テキストの符号化結果を表し、目標符号化結果Hを復号化する時に、RNNネットワークを用いて順次復号化し、本案は復号化の各時刻に
Figure 0007278309000091

を加え、計算式は次の通りである。
Figure 0007278309000092
ここで、gは非線形関数であり、例えば、sigmoid関数又はLSTMネットワークであ
る。W、U、Vは既存の復号化ネットワークのトレーニングパラメーターであってもよく、Pは本実施例における復号化ネットワークに追加されたトレーニングパラメーターである。sは現在時刻jの隠れ層状態を表す。sj-1は前時刻j-1の隠れ層状態を表す。yj-1は前時刻の復号化結果の単語ベクトルである。cはアテンションモデルの出力情報であり、アテンションモデルは共通の符号化復号化構造で使用されるネットワーク構造であってもよく、具体的な復号化計算方法は従来技術と同じであってもよい。
復号化して現在時刻jの隠れ層状態sを得た後、共通の符号化復号化構造内の関数softmaxを用いて、現在時刻jに対応する翻訳対象単語の翻訳結果の確率分布を推定することができ、当該確率分布により、翻訳対象単語の翻訳結果を得る。
以上をまとめると、本実施例に係る復号化方式は、復号化側に上文原テキストの翻訳結果(すなわち、上文目標テキスト)を導入し、さらに、翻訳対象テキストと上文目標テキスト間の関連度情報を導入するため、翻訳対象テキストの翻訳結果を上文翻訳結果に結びつけることで、翻訳対象テキストの翻訳結果の精度がより向上し、翻訳テキストの流暢さも向上する。つまり、翻訳後の文章レベルテキストの各文間の連接性と一貫性を保証する。
<第5実施例>
本実施例では文章レベルテキスト翻訳装置を説明し、関連内容については、上記方法の実施例を参照する。
図7は本出願の実施例に係る文章レベルテキスト翻訳装置の構成図であり、当該装置700は、翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニット701と、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する関連テキスト取得ユニット702と、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニ
ット703とを含む。
本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット703は具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するために用いられることができる。
本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット703は、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第1符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第2符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む。
本実施例の一実現方式において、前記第1符号化サブユニットは、具体的に、前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るために用いられ、
それに対し、前記第2符号化サブユニットは、具体的に、前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするために用いられる。
本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット703は、
翻訳対象テキスト内の各単語を符号化した後、前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得る第1累積サブユニットと、
前記関連テキスト内の各テキスト単位の各単語を符号化した後は、前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得て、前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得て、前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る第2累積サブユニットとをさらに含むことができる。
本実施例の一実現方式において、前記結果処理サブユニットは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定する第1決定サブユニットと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定する第2決定サブユニットと、
決定された符号化結果に応じて、前記初期符号化結果を処理し、目標符号化結果を得る結果取得サブユニットとを含む。
本実施例の一実現方式において、前記結果取得サブユニットは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定する第1関連度決定サブユニットと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期
符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定する第2関連度決定サブユニットと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理して目標符号化結果を得る目標結果取得サブユニットとを含む。
本実施例の一実現方式において、前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる。
本実施例の一実現方式において、前記結果実現サブユニットは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記翻訳対象テキストと前記上文目標テキスト間の関連度を決定する第3関連度決定サブユニットと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化する符号化結果処理サブユニットとを含む。
本実施例の一実現方式において、前記第3関連度決定サブユニットは具体的に、前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするために用いられる。
<第6実施例>
本実施例では別の文章レベルテキスト翻訳装置を説明し、関連内容については、上記方法の実施例を参照する。
図8は、本実施例に係る文章レベルテキスト翻訳装置のハードウェア構成図であり、前記音声対話装置800は、メモリ801と、受信機802と、それぞれ前記メモリ801及び前記受信機802に接続されているプロセッサ803とを含み、前記メモリ801は一連のプログラム命令を格納するために用いられ、前記プロセッサ803は前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳する。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得るステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理する
ステップとを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップを含む。
実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化するステップとを含む。
本実施例の一実現方式において、前記プロセッサ803はさらに、前記メモリ801に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とする。
一部の実施形態において、前記プロセッサ803は中央処理装置(Central Processing
Unit、CPU)であってもよく、前記メモリ801はランダムアクセスメモリ(Random Access Memory、RAM)型の内部メモリであってもよく、前記受信機802は通常の物
理インターフェースを含め、前記物理インターフェースはイーサネット(Ethernet)インターフェース又は非同期転送モード(Asynchronous Transfer Mode、ATM)インターフェースであってもよい。前記プロセッサ803、受信機802およびメモリ801は、1つ又は複数の独立した回路又はハードウェアに統合されることができ、例えば、特定用途向けの集積回路(Application Specific Integrated Circuit、ASIC)である。
さらに、本実施例は、コンピュータで実行される時に、コンピュータに上記の文章レベルテキスト翻訳方法のうちいずれかの1つの実現方式を実行させる命令を記憶するコンピュータ可読記憶媒体を提供する。
さらに、本実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の文章レベルテキスト翻訳方法のうち、いずれかの実現方式を実行させる。
以上の実施形態の説明から分かるように、当業者は、上記の実施例方法における全部又は一部のステップがソフトウェアに必要な汎用ハードウェアプラットフォームを加えた方式で実現され得ることを明確に理解することができる。このような理解に基づいて、本出願の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピューターソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に格納されることができ、1台のコンピュータ装置(パーソナルパソコン、サーバ、又はメディアゲートウェイのようなネットワーク通信機器などであってもよい)に本明細書の各実施例または実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。
説明すべき点については、本明細書の各実施例はプログレッシブな方式で記載され、各実施例はその他の実施形態との相違点について重点を置いて記載され、各実施例の間の同
じまたは類似の部分は互いに参照することがある。実施例で開示された装置にとっては、実施例で開示された方法に対応するため、簡単に記載され、関連部分について方法の説明を参照すればよい。
また、説明すべき点については、本明細書で、「第1」及び「第2」のような関係用語は1つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの実体或いは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「1つの…を含む」という文言によって限定される要素は、それ以上の制限がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。
開示された実施例の上記の説明から、当業者が本出願を実現または使用することを可能にする。これらの実施例のさまざまな修正は当業者に明らかであり、本明細書で定義された一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は本明細書で示されたこれらの実施例に限定されなく、本明細書で公開されている原理や新規特徴と一致する最も広い範囲と一致しなければならない。

Claims (15)

  1. コンピュータにより実行される文章レベルテキスト翻訳方法であって、
    翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
    前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも1つを含む関連テキストを取得するステップと、
    前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
    前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含み、
    前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
    前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するステップを含み、
    前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
    前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
    前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
    前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得、前記処理とは、前記関連符号化結果内の符号化結果の全部又は一部を対応する前記関連テキストと前記翻訳対象テキストとの前記関連度に応じて前記初期符号化結果に導入することであるステップと、
    前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含
    ことを特徴とする文章レベルテキスト翻訳方法。
  2. 前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
    予め構築された符号化復号化モデルを利用し、前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記
    翻訳対象テキストを翻訳するステップを含む
    ことを特徴とする請求項1に記載の文章レベルテキスト翻訳方法。
  3. 前記翻訳対象テキストを符号化して初期符号化結果を得るステップは、
    前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
    それに対し、前記関連テキストを符号化して関連符号化結果を得るステップは、
    前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む
    ことを特徴とする請求項に記載の文章レベルテキスト翻訳方法。
  4. 前記翻訳対象テキスト内の各単語を符号化した後のステップは、
    前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップをさらに含み、
    それに対し、前記関連テキスト内の各テキスト単位の各単語を符号化した後のステップは、
    前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
    前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
    前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む
    ことを特徴とする請求項に記載の文章レベルテキスト翻訳方法。
  5. 前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理するステップは、
    前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
    前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
    決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む
    ことを特徴とする請求項に記載の文章レベルテキスト翻訳方法。
  6. 決定された符号化結果に応じて、前記初期符号化結果を処理するステップは、
    前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
    前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
    決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理するステップとを含む
    ことを特徴とする請求項に記載の文章レベルテキスト翻訳方法。
  7. 前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップは、
    前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち
    、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップを含み、
    前記目標符号化結果を復号化する時に、復号化の各時刻に前記上文目標テキストに該当する符号化結果を加える
    ことを特徴とする請求項ないしのいずれかの1項に記載の文章レベルテキスト翻訳方法。
  8. 前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップは、
    前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
    決定された関連度に応じて、動的に前記上文目標テキストの符号化結果を選択して用いて復号化で使用される上文目標テキストの符号化結果を得、得られた復号化で使用される上文目標テキストの符号化結果を用いて前記目標符号化結果を復号化するステップとを含む
    ことを特徴とする請求項に記載の文章レベルテキスト翻訳方法。
  9. 前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップは、
    前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするステップとを含む
    ことを特徴とする請求項に記載の文章レベルテキスト翻訳方法。
  10. 翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニットと、
    前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも1つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも1つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも1つを含む関連テキストを取得する関連テキスト取得ユニットと、
    前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニットとを含み、
    前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
    前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するステップを含み、
    前記翻訳対象テキスト翻訳ユニットは、
    前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第1符号化サブユニットと、
    前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第2符号化サブユニットと、
    前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットであって、前記処理とは、前記関連符号化結果内の符号化結果の全部又は一部を対応する前記関連テキストと前記翻訳対象テキストとの前記関連度に応じて前記初期符号化結果に導入することである結果処理サブユニットと、
    前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含
    ことを特徴とする文章レベルテキスト翻訳装置。
  11. 前記翻訳対象テキスト翻訳ユニットは具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応
    じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するために用いられる
    ことを特徴とする請求項10に記載の文章レベルテキスト翻訳装置。
  12. 前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる
    ことを特徴とする請求項10に記載の文章レベルテキスト翻訳装置。
  13. プロセッサと、メモリと、システムバスとを含む文章レベルテキスト翻訳装置であって、
    前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
    前記メモリは、1つ又は複数のプログラムを記憶し、前記プログラムは前記プロセッサによって実行された時に、前記プロセッサに請求項1ないしのいずれかの1項に記載の方法を実行させる命令を含む
    ことを特徴とする文章レベルテキスト翻訳装置。
  14. コンピュータで実行される時に、コンピュータに請求項1ないしのいずれかの1項に記載の方法を実行させる命令を記憶する
    ことを特徴とするコンピュータ可読記憶媒体。
  15. 端末装置で実行される時に、前記端末装置に請求項1ないしのいずれかの1項に記載の方法を実行させる
    ことを特徴とするコンピュータプログラム。
JP2020563948A 2018-05-15 2019-04-10 文章レベルテキストの翻訳方法及び装置 Active JP7278309B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810463138.3 2018-05-15
CN201810463138.3A CN110489761B (zh) 2018-05-15 2018-05-15 一种篇章级文本翻译方法及装置
PCT/CN2019/082039 WO2019218809A1 (zh) 2018-05-15 2019-04-10 一种篇章级文本翻译方法及装置

Publications (2)

Publication Number Publication Date
JP2021524095A JP2021524095A (ja) 2021-09-09
JP7278309B2 true JP7278309B2 (ja) 2023-05-19

Family

ID=68539405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563948A Active JP7278309B2 (ja) 2018-05-15 2019-04-10 文章レベルテキストの翻訳方法及び装置

Country Status (8)

Country Link
US (1) US11694041B2 (ja)
EP (1) EP3796191A4 (ja)
JP (1) JP7278309B2 (ja)
KR (1) KR102550340B1 (ja)
CN (1) CN110489761B (ja)
AU (1) AU2019270109B2 (ja)
NZ (1) NZ770794A (ja)
WO (1) WO2019218809A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597830A (zh) * 2020-05-20 2020-08-28 腾讯科技(深圳)有限公司 基于多模态机器学习的翻译方法、装置、设备及存储介质
CN111859998A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 篇章翻译的方法、装置、电子设备和可读存储介质
CN116882423B (zh) * 2023-09-06 2023-11-17 中国科学院自动化研究所 文本翻译方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014098640A1 (en) 2012-12-19 2014-06-26 Abbyy Infopoisk Llc Translation and dictionary selection by context
US20170060855A1 (en) 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for generation of candidate translations

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3952216B2 (ja) 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
EP1483687A4 (en) * 2002-03-11 2008-08-06 Univ Southern California TRANSLATION OF CALLED ENTITIES
CA2612404C (en) 2005-06-17 2014-05-27 National Research Council Of Canada Means and method for adapted language translation
US9053090B2 (en) * 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US8606607B2 (en) * 2007-01-03 2013-12-10 Vistaprint Schweiz Gmbh Translation processing using a translation memory
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
RU2518946C1 (ru) 2012-11-27 2014-06-10 Александр Александрович Харламов Способ автоматизированной семантической индексации текста на естественном языке
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9836457B2 (en) 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
RU2628202C1 (ru) 2016-04-11 2017-08-15 Михаил Маркович Гольдреер Адаптивный контекстно-тематический машинный перевод
CN105912533B (zh) 2016-04-12 2019-02-12 苏州大学 面向神经机器翻译的长句切分方法及装置
CN106126507B (zh) 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
RU172882U1 (ru) 2016-07-20 2017-07-28 Общество с ограниченной ответственностью "Технологии управления переводом" Устройство для автоматического перевода текста
KR102577584B1 (ko) 2016-08-16 2023-09-12 삼성전자주식회사 기계 번역 방법 및 장치
US10706351B2 (en) 2016-08-30 2020-07-07 American Software Safety Reliability Company Recurrent encoder and decoder
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
US11113480B2 (en) * 2016-09-26 2021-09-07 Google Llc Neural machine translation systems
CN107943794A (zh) * 2016-10-12 2018-04-20 阿里巴巴集团控股有限公司 一种翻译方法及系统
CN107368476B (zh) * 2017-07-25 2020-11-03 深圳市腾讯计算机系统有限公司 一种翻译的方法、目标信息确定的方法及相关装置
KR20190041790A (ko) * 2017-10-13 2019-04-23 한국전자통신연구원 신경망 번역 모델 구축 장치 및 방법
WO2019079922A1 (zh) * 2017-10-23 2019-05-02 腾讯科技(深圳)有限公司 会话信息处理方法及其装置、存储介质
KR102069692B1 (ko) * 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014098640A1 (en) 2012-12-19 2014-06-26 Abbyy Infopoisk Llc Translation and dictionary selection by context
US20170060855A1 (en) 2015-08-25 2017-03-02 Alibaba Group Holding Limited Method and system for generation of candidate translations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J▲o▼rg Tiedemann 他1名,Neural Machine Translation with Extended Context[online],2017年08月20日,(検索日2022年03月25日),URL:https://arxiv.org/pdf/1708.05943/pdf

Also Published As

Publication number Publication date
EP3796191A1 (en) 2021-03-24
WO2019218809A1 (zh) 2019-11-21
JP2021524095A (ja) 2021-09-09
KR20210003284A (ko) 2021-01-11
CN110489761B (zh) 2021-02-02
EP3796191A4 (en) 2022-03-02
AU2019270109A1 (en) 2021-02-04
NZ770794A (en) 2022-10-28
US20210150154A1 (en) 2021-05-20
AU2019270109B2 (en) 2022-10-20
US11694041B2 (en) 2023-07-04
CN110489761A (zh) 2019-11-22
KR102550340B1 (ko) 2023-06-30

Similar Documents

Publication Publication Date Title
JP7278309B2 (ja) 文章レベルテキストの翻訳方法及び装置
JP7278477B2 (ja) 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
JP2021152963A (ja) 語義特徴の生成方法、モデルトレーニング方法、装置、機器、媒体及びプログラム
CN109190134B (zh) 一种文本翻译方法及装置
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
JP7457125B2 (ja) 翻訳方法、装置、電子機器及びコンピュータプログラム
CN111144140B (zh) 基于零次学习的中泰双语语料生成方法及装置
WO2022141706A1 (zh) 语音识别方法、装置及存储介质
JP2021033995A (ja) テキスト処理装置、方法、デバイス及びコンピューター読み取り可能な記憶媒体
CN114385178A (zh) 基于抽象语法树结构信息增强的代码生成方法
CN112417864B (zh) 基于门控拷贝和掩码的多轮对话省略恢复方法
CN110913229B (zh) 基于rnn的解码器隐状态确定方法、设备和存储介质
WO2020155769A1 (zh) 关键词生成模型的建模方法和装置
CN109979461B (zh) 一种语音翻译方法及装置
Wang et al. Data augmentation for internet of things dialog system
CN111723194A (zh) 摘要生成方法、装置和设备
WO2021082518A1 (zh) 机器翻译方法、机器翻译模型训练方法、装置及存储介质
CN116432662A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN112989794A (zh) 模型训练方法、装置、智能机器人和存储介质
Jabaian et al. A unified framework for translation and understanding allowing discriminative joint decoding for multilingual speech semantic interpretation
RU2779526C2 (ru) Способ и устройство для перевода текста на уровне дискурса
CN111078886A (zh) 基于dmcnn的特殊事件提取系统
RU2796047C1 (ru) Способ построения сети декодирования, способ и устройство для распознавания речи, а также носитель данных

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230126

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230214

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230509

R150 Certificate of patent or registration of utility model

Ref document number: 7278309

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150