JP7278309B2

JP7278309B2 - 文章レベルテキストの翻訳方法及び装置

Info

Publication number: JP7278309B2
Application number: JP2020563948A
Authority: JP
Inventors: マー，チーチャン; リュウ，ジュンファ; ウェイ，スー; フー，グォピン
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2018-05-15
Filing date: 2019-04-10
Publication date: 2023-05-19
Anticipated expiration: 2039-04-10
Also published as: EP3796191A1; WO2019218809A1; JP2021524095A; KR20210003284A; CN110489761B; EP3796191A4; AU2019270109A1; NZ770794A; US20210150154A1; AU2019270109B2; US11694041B2; CN110489761A; KR102550340B1

Description

相互参照

本出願は２０１８年５月１５日に中国特許局へ提出された出願番号２０１８１０４６３１３８．３、出願名称「文章レベルテキストの翻訳方法及び装置」である中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。

本出願は、テキスト翻訳技術分野に関し、特に文章レベルテキストの翻訳方法及び装置に関する。

文章レベルテキストは一連の文から構成されるものであり、例えば、文章レベルテキストとしては、スピーチ原稿、雑誌記事、文学作品などが挙げられる。文章レベルテキストの最も重要な特徴は、文間の連接性と一貫性であるため、文章レベルテキストはただ一連の文の集合であるだけでなく、完全な構造、明確的な機能を備えた意味統一体である。

文章レベルテキストについては、文章レベルテキストの翻訳方法を用いて翻訳しなければならない。従来の文章レベルテキストの翻訳方法では、通常、翻訳の対象となる文章レベルテキスト全体を翻訳対象として直接翻訳しているが、翻訳の効果はよくなく、つまり翻訳結果の精度が高くないので、ユーザーエクスペリエンスが低下している。

本出願の実施例の主要目的は、文章レベルテキストを翻訳する時に、翻訳結果の精度を向上させるための文章レベルテキストの翻訳方法及び装置を提供することである。

本出願の実施例は、文章レベルテキスト翻訳方法を提供する。当該方法は、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも１つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも１つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも１つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含む。

選択肢として、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップを含む。

選択肢として、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処
理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得るステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む。

選択肢として、前記翻訳対象テキストを符号化して初期符号化結果を得るステップは、
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
それに対し、前記関連テキストを符号化して関連符号化結果を得るステップは、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む。

選択肢として、前記翻訳対象テキスト内の各単語を符号化した後のステップは、
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップをさらに含み、
それに対し、前記関連テキスト内の各テキスト単位の各単語を符号化した後のステップは、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む。

選択肢として、前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む。

選択肢として、決定された符号化結果に応じて、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理するステップとを含む。

選択肢として、前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化す
るステップを含む。

選択肢として、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップは、
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化するステップとを含む。

選択肢として、前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップは、
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするステップを含む。

本出願の実施例はさらに、文章レベルテキスト翻訳装置を提供する。当該装置は、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニットと、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも１つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも１つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも１つを含む関連テキストを取得する関連テキスト取得ユニットと、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニットとを含む。

選択肢として、前記翻訳対象テキスト翻訳ユニットは具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するために用いられる。

選択肢として、前記翻訳対象テキスト翻訳ユニットは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第１符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第２符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む。

選択肢として、前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる。

また、本出願の実施例は、プロセッサと、メモリと、システムバスとを含む文章レベルテキスト翻訳装置を提供し、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
前記メモリは１つ又は複数のプログラムを格納するために使用され、前記１つ又は複数のプログラムは命令を含み、前記命令は前記プロセッサで実行された時に、前記プロセッサに上記の文章レベルテキスト翻訳方法のうちいずれかの１つの実現方式を実行させる。

また、本出願の実施例は、命令を格納するコンピュータ可読記憶媒体を提供し、上記命令はコンピュータで実行される時に、コンピュータに上記の文章レベルテキスト翻訳方法のうちいずれかの１つの実現方式を実行させる。

また、本出願の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の文章レベルテキスト翻訳方法のうち、いずれかの実現方式を実行させる。

また、本実施例に係る文章レベルテキストの翻訳方法及び装置は、翻訳の対象となる文章レベルテキスト内の各テキスト単位を、それぞれ翻訳対象テキストとし、その後、文章レベルテキストから翻訳対象テキストの関連テキストを取得し、当該関連テキストに応じて翻訳対象テキストを翻訳する。このように、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。

本出願の実施例又は従来技術の技術案をより明確に説明するためには、以下、実施例又は従来技術を説明するために必要な図面を簡単に説明する。明らかに、以下に説明される図面は、本出願の実施例の一部に過ぎず、当業者であれば、創造的な労力を払うことなくこれらの図面に従って他の図面を得ることができる。
図１は本出願の実施例に係る文章レベルテキスト翻訳方法のフローチャートである。図２は本出願の実施例に係る文章レベルテキストの概略図である。図３は本出願の実施例に係る符号化復号化モデルのトポロジー概略図である。図４は本出願の実施例に係る符号化復号化モデルを用いた翻訳フローチャートである。図５は本出願の実施例に係る初期符号化結果の処理フローチャートである。図６は本出願の実施例に係るＧａｔｅＮｅｔｗｏｒｋのネットワーク構造概略図である。図７は本出願の実施例に係る文章レベルテキスト翻訳装置の構成図である。図８は本出願の実施例に係る文章レベルテキスト翻訳装置のハードウェア構成図である。

一部の文章レベルテキストの翻訳方法では、翻訳の対象となる文章レベルテキスト全体を翻訳対象として、翻訳モデルを利用し直接にそれを翻訳するが、この方法では、文章レベルテキストの各文を翻訳する時に、翻訳対象文の上下文情報を考慮していないため、翻訳結果の精度が低下し、ユーザーエクスペリエンスも低下する。また、翻訳対象文を翻訳する時に、翻訳モデルの受信情報には冗長な情報が含まれる可能性があり、具体的には、翻訳対象文前の文又は翻訳対象文後の文は翻訳対象文と関連していない場合、文章レベルテキスト全体を翻訳対象とすると、翻訳対象文にとって、翻訳対象文と関係のない前文或いは後文は冗長な情報に相当する。

上記の欠陥を解決するために、本出願の実施例は、文章レベルテキスト翻訳方法を提供する。当該方法は、文章レベルテキスト内の各翻訳対象テキスト、例えば、当該翻訳対象テキストを文とすると、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの上下文情報も考慮することから、翻訳対象テキストの
翻訳結果の精度を高め、ユーザーエクスペリエンスも向上させる。さらに、翻訳対象テキストを翻訳する時に、本出願の実施例は、翻訳対象テキストと上下文情報の関連性に応じて、上下文情報を動的に選択することで、翻訳モデルの受信情報内の冗長な情報を低減させるだけでなく、翻訳対象テキストの翻訳結果の精度もより一層高める。さらに、翻訳対象テキストを翻訳する時に、本出願の実施例は、翻訳対象テキストの上文翻訳結果を考慮するため、翻訳対象テキストの翻訳結果を上文の翻訳結果に結びつけることで、翻訳対象テキストの翻訳結果の精度がより向上し、翻訳テキストの流暢さも向上する。つまり、翻訳後の文章レベルテキストの各文間の連接性と一貫性が保証される。

本出願の実施例の目的、技術案及び利点をより明確にするために、以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術案を明確且つ完全に説明する。明らかに、説明される実施例は、すべての実施例ではなく、本出願の一部の実施例である。本出願の実施例に基づき、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。

＜第１実施例＞
図１は本出願の実施例に係る文章レベルテキスト翻訳方法のフローチャートであり、当該方法は以下のステップを含む。

Ｓ１０１：翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する。
翻訳の対象となる文章レベルテキスト、すなわち、翻訳前の文章レベルテキストは、便益を図るため、以下、文章レベルテキストと略す。本実施例は文章レベルテキストのタイプを制限するものではない。例えば、当該文章レベルテキストとしては、スピーチ原稿、雑誌記事、文学作品などが挙げられる。

文章レベルテキストはただ一連の文の集合であり、文章レベルテキストを翻訳する時に、本実施例は、文又はその他のテキスト長さを単位に順次翻訳することができる。文単位で翻訳すると、文章レベルテキストの各文の順位により各文を順次取得し、現在取得した文を翻訳対象テキストとして、次のステップで翻訳する。

説明すべき点については、本実施例は文章レベルテキストの翻訳元言語と翻訳先言語を制限するものではない。例えば、翻訳元言語は中国語であり、翻訳先言語は英語である。

Ｓ１０２：前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも１つを含む関連テキストを取得する。

本実施例では、前記上文原テキストは、文章レベルテキスト内における翻訳対象テキストの前の少なくとも１つの単位テキストであり、前記下文原テキストは、文章レベルテキスト内における翻訳対象テキストの後の少なくとも１つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストである。

具体的には、文を単位に翻訳すると、翻訳対象テキストの上文原テキストとして、文章レベルテキストから翻訳対象テキストの前の１つ又は複数の文を取得することができる。翻訳対象テキストの下文原テキストとして、文章レベルテキストから翻訳対象テキストの後の１つ又は複数の文を取得することができる。また、文章レベルテキストの各文を順次翻訳するため、翻訳対象テキストを翻訳する時に、上文原テキストはすでに翻訳されることで、上文原テキストの翻訳テキスト（すなわち、上文目標テキスト）を直接取得することができる。

説明すべき点については、上文原テキストと下文原テキストの文の件数は同じ場合もあり、異なる場合もある。翻訳対象テキストの前のｋ個の文を上文原テキストとして使用すると、翻訳対象テキストの後のｋ個又はｌ個の文を下文原テキストとして使用することができる。ここで、ｋ、ｌは整数、ｋ≠ｌ、ｋ≧１、ｌ≧１とする。

例えば、図２に示す文章レベルテキストでは、翻訳対象テキストをＸで表すと、Ｘ前の１つの文Ｘ_－１を上文原テキストとしてもよいし、Ｘ前の複数の文、例えば、文Ｘ_－１と文Ｘ_－２を上文原テキストとしてもよい。同様に、Ｘ後の１つの文Ｘ_１を上文原テキストとしてもよいし、Ｘ後の複数の文、例えば、文Ｘ_１、文Ｘ_２および文Ｘ_３を下文原テキストとしてもよい。

Ｓ１０３：前記関連テキストに応じて前記翻訳対象テキストを翻訳する。

翻訳対象テキストを翻訳する時に、本実施例は翻訳対象テキストの関連テキスト、すなわち、翻訳対象テキストの上文原テキスト、下文原テキスト及び上文目標テキストのうち少なくとも１つの意味情報を考慮しながら、翻訳対象テキストを翻訳し、翻訳対象テキストの翻訳結果を得る。また、翻訳対象テキストと上文原テキストとの関連性、翻訳対象テキストと下文原テキストとの関連性、及び翻訳対象テキストと上文目標テキストとの関連性を考慮してもよい。このように、翻訳対象テキストと関連テキストの意味内容及び両者間の関連性を考慮することにより、翻訳対象テキストの翻訳結果がより正確になる。

説明すべき点については、関連テキストに上文目標テキスト（上文原テキストの翻訳結果）が含まれた場合、すなわち、上文目標テキストを利用して翻訳対象テキストに対し補助翻訳を行う時、翻訳対象テキストの翻訳結果の精度を高めるだけでなく、翻訳対象テキストの翻訳結果を上文原テキストの翻訳結果に結びつけることができる。つまり、翻訳対象テキストの翻訳結果を、意味的に上文翻訳結果によりよく結びつけることで、翻訳後の文章レベルテキストの各文間の連接性と一貫性を保証する。

また説明すべき点については、ステップＳ１０３の具体的な実現方式は第２実施例を参照する。

以上のように、本実施例に係る文章レベルテキストの翻訳方法は、翻訳の対象となる文章レベルテキスト内の各テキスト単位を、それぞれ翻訳対象テキストとし、その後、文章レベルテキストから翻訳対象テキストの関連テキストを取得し、当該関連テキストに応じて翻訳対象テキストを翻訳する。このように、翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。

＜第２実施例＞
本実施例は第１実施例のＳ１０３の具体的な実施形態を説明する。

本実施例では、符号化復号化モデルを文章レベルテキストの翻訳モデルとして予め構築することができる。すなわち、符号化復号化モデルが先に符号化して次に復号化するという方式で、文章レベルテキストの翻訳を実現することを可能にする。これに基づいて、上記のステップＳ１０３は具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップを含む。

説明すべき点については、次に、本実施例は図３に示す符号化復号化モデルのトポロジー概略図を参照しながら、どのように符号化復号化モデルを利用して翻訳対象テキストを
翻訳するかを説明する。

図３を参照して説明するためには、ここで文を単位に翻訳し、翻訳対象テキストの前のｋ個の文を上文原テキストとし、翻訳対象テキストの後のｋ個の文を下文原テキストとすることを例に、説明する。まず、次のように定義する。

１．翻訳前の文章レベルテキストを｛Ｘ_－ｋ，…，Ｘ_－１，Ｘ，Ｘ_１，…，Ｘ_ｋ｝で表す。ここで、Ｘは翻訳対象テキストを表し、Ｘ_－１…Ｘ_－ｋは順にＸ前の１番目の文、…ｋ番目の文を表し、Ｘ_１…Ｘ_ｋは順にＸ後の１番目の文…ｋ番目の文を表す。ここで、Ｘ_－１…Ｘ_－ｋを翻訳対象テキストＸの上文原テキストとし、Ｘ_１…Ｘ_ｋを翻訳対象テキストＸの下文原テキストとする。

簡単に説明するために、ここで各文にｎ個の単語（実際の応用において単語の実個数に基づく）。図３に示すように、翻訳対象テキストＸの各単語を｛ｘ_１，ｘ_２，…，ｘ_ｎ｝で表し、ここで、ｘ_１，ｘ_２，…，ｘ_ｎは順に翻訳テキストＸの１番目の単語、２番目の単語…ｎ番目の単語を表す。同様に、上文原テキスト内の文Ｘ_－ｋの各単語を

で表し、ここで、

は順に文Ｘ_－ｋの１番目の単語、２番目の単語…ｎ番目の単語を表し、上文原テキストの他の文を類似の形式で表す。下文原テキスト内の文Ｘ_ｋの各単語を

で表し、ここで、

は順に文Ｘ_ｋの１番目の単語、２番目の単語…ｎ番目の単語を表し、下文原テキストの他の文を類似の形式で表す。

２．翻訳後の文章レベルテキストを｛Ｙ_－ｋ，…，Ｙ_－１，Ｙ，Ｙ_１，…，Ｙ_ｋ｝で表し、ここで、Ｙは翻訳対象テキストＸの翻訳テキストを表し、Ｙ_－１…Ｙ_－ｋは順に上文原テキストＸ_－１…Ｘ_－ｋの翻訳テキストを表し、Ｙ_１…Ｙ_ｋは順に下文原テキストＸ_１…Ｘ_ｋの翻訳テキストを表す。ここで、Ｙ_－１…Ｙ_－ｋを共に上文目標テキストとする。

翻訳対象テキストＸの翻訳テキストＹ内の各単語を｛ｙ_１，ｙ_２，…，ｙ_ｎ｝で表し、ここで、ｙ_１，ｙ_２，…，ｙ_ｎは順にＹの１番目の単語、２番目の単語…ｎ番目の単語を表す。図３に示すように、上文目標テキスト内の文Ｙ_－ｋの各単語を

で表し、ここで、

は順に文Ｙ_－ｋの１番目の単語、２番目の単語…ｎ番目の単語を表す。上文目標テキスト内の文Ｙ_－１の各単語を

で表し、ここで、

は順に文Ｙ_－１の１番目の単語、２番目の単語…ｎ番目の単語を表す。下文目標テキストの他の文を類似の形式で表す。

図３を参照しながら、どのように符号化復号化モデルを利用して翻訳対象テキストを翻訳することを説明する。

本実施例の一実現方式において、図４に示す符号化復号化モデルを用いた翻訳フローチャートを参照し、具体的には以下のステップを含むことができる。

Ｓ４０１：前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る。

一実現方式において、本ステップＳ４０１は具体的に、双方向の回帰型ニューラルネットワーク（Recurrent Neural Networks、略称ＲＮＮ）を利用し、前記翻訳対象テキスト
を符号化し、初期符号化結果を得ることが含むことができる。

本ステップＳ４０１又は本ステップＳ４０１の具体的な実現方式において、前記翻訳対象テキストを符号化し、具体的に前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得る。

具体的には、図３に示すように、翻訳対象テキストＸの各単語、すなわち｛ｘ_１，ｘ_２，…，ｘ_ｎ｝を、単語ベクトルの形で双方向ＲＮＮに入力し、本実施例は既存又は将来現れた方法を用いて各単語を向量化する。
双方向ＲＮＮの各隠れ層状態の計算式は次の通りである。

ここで、ｉ＝１、２、…ｎ；fは非線形関数であり、例えば、sigmoid関数又は長・短期記憶ネットワーク（Long Short-Term Memory、略称ＬＳＴＭ）である。ＷとＵは、双方向ＲＮＮのトレーニングパラメーターである。

は、単語ｘ_ｉの単語ベクトルを表す。ｈ_i－１はｉ－１番目の隠れ層状態を示し、単語ｘ_i－１の意味情報を表す。ｈ_iはi番目の隠れ層状態を示し、単語ｘ_iの意味情報を表す。

双方向ＲＮＮは、順方向ＲＮＮと逆方向ＲＮＮを含み、順方向ＲＮＮは翻訳対象テキストＸの各単語の単語ベクトルを順次読み込んだ後、順方向の隠れ層シーケンス

を生成し、ここで、

は翻訳対象テキストＸの順方向情報を表す。逆方向ＲＮＮは、翻訳対象テキストＸの各単語の単語ベクトルを逆順に読み込んだ後、逆方向の隠れ層シーケンス

を生成し、ここで、

は翻訳対象テキストＸの逆方向情報を表す。

順方向の隠れ層シーケンス

と逆方向の隠れ層シーケンス

において、位置が互いに対応する隠れ層状態のユニットをつなぎ合わせて当該位置の単語に対応する状態のシーケンスを構成する。つまり、｛ｘ_１，ｘ_２，…，ｘ_ｎ｝の各単語に対応する状態のシーケンスはそれぞれ、ｘ_１に対応する状態のシーケンスは

ｘ_２に対応する状態のシーケンスは

…ｘ_ｎに対応する状態のシーケンスは

である。これに基づいて、翻訳対象テキストＸの意味情報はＨ＝｛ｈ_１，ｈ_２，…，ｈ_ｎ｝で表され、Ｈは翻訳対象テキストを符号化して得られた初期符号化結果である。

さらに、一実現方式において、翻訳対象テキスト内の各単語を符号化した後には、前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップも含むことができる。この実現方式において、翻訳対象テキストＸの符号化結果Ｈを得た後、Ｈの各状態シーケンスの累積結果

を、新しい初期符号化結果とし、翻訳対象テキストＸの意味情報を特徴付ける。ここで、

である。

Ｓ４０２：前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る。

一実現方式において、本ステップＳ４０２は具体的に、双方向ＲＮＮネットワークを利用して前記関連テキストを符号化し、関連符号化結果を得るステップを含む。

本ステップＳ４０２又は本ステップＳ４０２の具体的な実現方式において、前記関連テキストを符号化する時に、具体的に、前記関連テキスト内の各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とする。

具体的には、図３に示すように、前記関連テキストは上文原テキスト、すなわち、翻訳対象テキストＸ前のＫ個の文Ｘ_－１…Ｘ_－ｋを含む場合、ステップＳ４０１における翻訳対象テキストに対する符号化の類似の処理方式に従って、Ｘ_－１…Ｘ_－ｋを符号化することができ、翻訳対象テキストＸをそれぞれＸ_－１…Ｘ_－ｋに切り替えればよい。そのため、文Ｘ_－１の意味情報を

で表し、…文Ｘ_－ｋの意味情報を

で表し、Ｈ_－１、…Ｈ_－ｋは上文原テキストを符号化して得られた符号化結果である。ここで、

において、

であり、

において、

である。

前記関連テキストは下文原テキスト、すなわち、翻訳対象テキストＸ後のＫ個の文Ｘ_１…Ｘ_ｋを含む場合、ステップＳ４０１における翻訳対象テキストＸに対する符号化の類似の処理方式に従って、Ｘ_１…Ｘ_ｋを符号化することができ、翻訳対象テキストＸをそれぞれＸ_１…Ｘ_ｋに切り替えればよい。そのため、文Ｘ_１の意味情報を

で表し、…文Ｘ_ｋの意味情報を

で表し、Ｈ_１、…Ｈ_ｋは下文原テキストを符号化して得られた符号化結果である。ここで

において、

であり、

において、

である。

前記関連テキストは上文目標テキスト、すなわち、翻訳対象テキストＸ前のＫ個の文Ｘ_－１…Ｘ_－ｋの翻訳テキストＹ_－１…Ｙ_－ｋを含む場合、ステップＳ４０１における翻訳対象テキストＸに対する符号化の類似の処理方式に従って、Ｙ_－１…Ｙ_－ｋに切り替えればよい。そのため、文Ｙ_－１の意味情報を

で表し、…文Ｘ_－ｋの意味情報を

で表し、

は上文目標テキストを符号化して得られた符号化結果である。ここで、

において、

であり、

において、

である。

さらに、一実現方式において、関連テキスト内の各テキスト単位の各単語を符号化した後、ステップＡ１～Ｃ１も含むことができる。

ステップＡ１：前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る。

上文原テキストの符号化結果、Ｈ_－１…Ｈ_－ｋを得た後、Ｈ_－１の各状態シーケンスの累積結果

を用いて文Ｘ_－１の意味情報を特徴付け、…Ｈ_－ｋの各状態シーケンスの累積結果

を用いて文Ｘ_－ｋの意味情報を特徴付け、

を共に上文原テキストの符号化結果とし、ここで

である。

ステップＢ１：前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る。

下文原テキストの符号化結果、Ｈ_１…Ｈ_ｋを得た後、Ｈ_１の各状態シーケンスの累積結果

を用いて文Ｘ_１の意味情報を特徴付け、…Ｈ_ｋの各状態シーケンスの累積結果

を用いて文Ｘ_ｋの意味情報を特徴付け、

を共に下文原テキストの符号化結果とし、ここで、

である。

ステップＣ１：前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む。

上文目標テキストの符号化結果、

を得た後、

の各状態シーケンスの累積結果

を用いて文Ｙ_－１の意味情報を特徴付け、…

の各状態シーケンスの累積結果

を用いて文Ｙ_－ｋの意味情報を特徴付け、

を共に上文目標テキストの符号化結果とし、ここで、

である。

説明すべき点については、本実施例はステップＳ４０１とＳ４０２の実行順序を制限しなく、同時にＳ４０１とＳ４０２を実行することができるだけでなく、まずステップＳ４０１を実行し、次にステップＳ４０２を実行することもでき、又はまずステップＳ４０２を実行してからステップＳ４０１を実行することもできる。

Ｓ４０３：前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、目標符号化結果を得る。ここで、前記目標符号化結果は前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める。

本実施例において、上文原テキストの符号化結果Ｈ_－１、…Ｈ_―ｋ、下文原テキストの符号化結果Ｈ_１、…Ｈ_ｋ、及び上文目標テキストの符号化結果

については、そのいずれか１つ又は複数の符号化結果を用いて、翻訳対象テキストの初期符号化結果Ｈを処理し、処理後の符号化結果を目標符号化結果とする。

又は、上文原テキストの符号化結果

、下文原テキストの符号化結果

、及び上文目標テキストの符号化結果

については、そのいずれか１つ又は複数の符号化結果を用いて、翻訳対象テキストの初期符号化結果Ｈを処理し、処理後の符号化結果を目標符号化結果Ｈ_ｃとする。

説明すべき点については、初期符号化結果を処理する時に、翻訳対象テキストと関連テキストの関連度に応じて、異なる関連度のある関連テキスト内のテキスト単位の意味情報を選択することにより、目標符号化結果にこれらの異なる関連度のある意味情報を含めると同時に、目標符号化結果で翻訳対象テキストの意味情報Ｈ_ｃを表すことができる。

また説明すべき点については、ステップＳ４０３の具体的な実現方式は第３実施例を参照する。

Ｓ４０４：前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する。

Ｈ_ｃ目標符号化結果を復号化する時に、既存のアテンションモデル（図３を参照する）を含む復号化方法又は将来現れる復号化方法を用いて、目標符号化結果Ｈ_ｃを復号化することにより、翻訳対象テキストの翻訳結果を得ることができる。

また説明すべき点については、ステップＳ４０４の具体的な実現方式は第４実施例を参照する。

以上をまとめると、本実施例は、符号化復号化モデルを用いて、翻訳対象テキスト、関連テキストを符号化・復号化し、符号化・復号化方式で翻訳対象テキストを翻訳する時に、翻訳対象テキストの現在の文脈だけでなく、翻訳対象テキストの関連テキスト内容も考慮するため、翻訳対象テキストの翻訳結果の精度を高めることができ、ユーザーエクスペリエンスを向上させた。

＜第３実施例＞
本実施例は第２実施例のＳ４０３の具体的な実施形態を説明する。

図５に示す初期符号化結果の処理フローチャートを参照しながら、上記にステップＳ４０３の「前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理する」は、具体的に以下のステップを含むことができる。

Ｓ５０１：前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定する。

本実施例において、上文原テキストの符号化結果は、第２実施例のＨ_－１…Ｈ_－ｋ又は

であってもよい。

Ｓ５０２：前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定する。

本実施例において、上文原テキストの符号化結果はＨ_－１…Ｈ_－ｋである場合、下文原テキストの符号化結果は第２実施例内のＨ_１…Ｈ_ｋであってもよい。同様に、上文原テキストの符号化結果は

である場合、下文原テキストの符号化結果は第２実施例の

であってもよい。

Ｓ５０３：決定された符号化結果に応じて、前記初期符号化結果を処理する。
一実現方式において、ステップＳ５０３は具体的に、以下のステップＡ２～Ｃ２を含むことができる。

ステップＡ２：前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定する。

翻訳対象テキストと上文原テキスト内の各文（以下、「上文の文」という）の関連性は不確定であるため、翻訳対象テキストとある上文の文とは全く関連していない場合、翻訳対象テキストに対し、当該上文の文は冗長であり、当該上文の文に基づいて、翻訳対象テキストを翻訳すると、逆に翻訳対象テキストの翻訳結果の精度に悪い影響を与え、つまり、翻訳結果の精度を低下させるといえる。したがって、より合理的に上文原テキストの符号化結果を利用するために、本実施例はそれぞれ翻訳対象テキストと各上文の文との関連度を決定することにより、関連度の決定結果を用いて、対応する上文の文の意味情報を動的に使用し、上文の文による情報の冗長を防止する。

このステップにおいて、翻訳対象テキストの初期符号化結果は

であってもよく、上文原テキスト内の各上文の文の符号化結果はそれぞれ、

であってもよく、ニューラルネットワーク構造ＧａｔｅＮｅｔｗｏｒｋを用いて、各上文の文に対応する相関係数を生成し、当該相関係数は、翻訳対象テキストと対応する上文の文との関連度を表す。

図６に示すＧａｔｅＮｅｔｗｏｒｋネットワーク構造の概略図は、具体的に実現する時に、翻訳対象テキストの初期符号化結果

、及び各上文の文に対応する符号化結果

、をＧａｔｅＮｅｔｗｏｒｋの入力とする。その後、ＧａｔｅＮｅｔｗｏｒｋで各上文の文に対応する相関係数λ_－ｉを計算し、計算式は次の通りである。

ここで、ｉ＝１、２…ｋとする。

は翻訳対象テキストの初期符号化結果である。

は翻訳対象テキストの前のi番目の文の符号化結果である。λ_－ｉは翻訳対象テキストの
前のi番目の文に対応する相関係数であり、翻訳対象テキストと翻訳対象テキストの前のi番目の文との間の関連度を表す。ＵとＶはＧａｔｅＮｅｔｗｏｒｋのトレーニングパラメーターであり、予め大量のデータを収集し、トレーニングして得られ、その次元はすべてｄ×１である。

説明すべき点については、

と

は次元が１×ｄの行列であり、ｄは双方向ＲＮＮを符号化する時に隠れ層のノード数を指し、予め設定される。したがって、式（２）は行列の乗算で次元が１であるスカラー値が得られ、次に非線形関数（すなわち、sigmoid関数）で変換し、数値範囲が０～１のスカ
ラー値λ_－ｉを得る。ここで、λ_－ｉの値が大きいほど、翻訳対象テキストと翻訳対象テキストの前のi番目の文間の関連度が大きくなり、その逆も同様である。

このように、上記の式（２）により、上文原テキスト内の各上文の文に対応する相関係数｛λ_－ｋ，λ_－ｋ－１，…，λ_－１｝を算出することができる。

ステップＢ２：前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定する。

翻訳対象テキストと下文原テキスト内の各文（以下、「下文の文」という）の関連性は不確定であるため、翻訳対象テキストとある下文の文とは全く関連していない場合、翻訳対象テキストに対し、当該下文の文は冗長な的ものであり、当該下文の文に基づき、翻訳対象テキストを翻訳すると、逆に翻訳対象テキストの翻訳結果の精度に悪い影響を与え、つまり、翻訳結果の精度を低下させるといえる。したがって、より合理的に下文原テキストの符号化結果を利用するために、本実施例はそれぞれ翻訳対象テキストと各下文の文と
の関連度を決定することにより、関連度の決定結果を用いて、対応する下文の文の意味情報を動的に使用し、下文の文による情報の冗長を防止する。

であってもよく、下文原テキスト内の各上文の文の符号化結果はそれぞれ

図６に示すように、具体的に実現する時に、翻訳対象テキストの初期符号化結果

、及び各上文の文に対応する符号化結果

、をＧａｔｅＮｅｔｗｏｒｋの入力とする。その後、ＧａｔｅＮｅｔｗｏｒｋで各上文の文に対応する相関係数λ_ｉを計算し、計算式は次の通りである。

ここで、ｉ＝１、２…ｋとする。

は翻訳対象テキストの初期符号化結果である。

は翻訳対象テキストの後のi番目の文の符号化結果である。λ_ｉは翻訳対象テキストの後
のi番目の文に対応する相関係数であり、翻訳対象テキストと翻訳対象テキストの後のi番目の文との間の関連度を表す。ＵとＶはＧａｔｅＮｅｔｗｏｒｋのトレーニングパラメーターであり、予め大量のデータを収集し、トレーニングして得られ、その次元はすべてｄ×１である。

説明すべき点については、

と

は次元が１×ｄの行列であり、ｄは双方向ＲＮＮを符号化する時に隠れ層のノード数を指し、予め設定される。したがって、式（３）は行列の乗算で次元が１であるスカラー値が得られ、次に非線形関数（すなわち、sigmoid関数）で変換し、数値範囲が０～１のスカ
ラー値λ_ｉを得る。ここで、λ_ｉの値が大きいほど、翻訳対象テキストと翻訳対象テキストの後のi番目の文間の関連度が大きくなり、その逆も同様である。

このように、上記の式（３）により、下文原テキスト内の各下文の文に対応する相関係数｛λ_１，λ_２，…，λ_ｋ｝を算出することができる。

ステップＣ２：決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理して目標符号化結果を得る。

上文原テキスト内の各上文の文に対する相関係数｛λ_－ｋ，λ_－ｋ－１，…，λ_－１｝を算出した後、これらの相関係数に基づき、上文の文を動的に選択することができる。同様に、下文原テキスト内の各下文の文に対応する相関係数｛λ_１，λ_２，…，λ_ｋ｝を算出した後、これらの相関係数に基づき、下文の文を動的に選択することができる。具体的なプロセスは以下の通りである。

第２実施例のステップＳ４０１で得られた翻訳対象テキストの初期符号化結果Ｈ＝｛ｈ_１，ｈ_２，…，ｈ_ｎ｝に応じて、翻訳対象テキストの各単語に対応するｈ_１（ｉ＝１，２…，ｎ）に上下文情報を動的に導入することができ、計算式は次の通りである。

ここで、｛λ_－ｋ，λ_－ｋ－１，…，λ_－１｝はＧａｔｅＮｅｔｗｏｒｋを通じて得られた各上文の文に対応する相関係数である。｛λ_１，λ_２，…，λ_ｋ｝はＧａｔｅＮｅｔｗｏｒｋを通じて得られた各下文の文に対応する相関係数である。

は各上文の文の符号化結果である。

は各下文の文の符号化結果である。

このように、式（３）により、翻訳対象テキストの各単語にそれぞれ上下文情報を導入することができ、上記の符号化過程を経て、翻訳対象テキストの意味情報の表示はＨ_ｃ＝｛ｈ_１’，ｈ_２’，…，ｈ_ｎ’｝となり、すなわち、図３に示す符号化部分の出力Ｈ_ｃである。

説明すべき点については、Ｈ_ｃは翻訳対象テキストの意味情報を含むだけでなく、｛λ_－ｋ，λ_－ｋ－１，…，λ_－１｝、｛λ_１，λ_２，…，λ_ｋ｝を利用して上下文情報を動的に選択、使用することで、情報の重畳による情報の冗長性を避け、翻訳結果の精度を高める。

以上をまとめると、本実施例に係る符号化方式は、符号化側に関連テキスト内の意味情報の全部又は一部を導入し、さらに翻訳対象テキストと導入される関連テキスト間の関連度情報を導入することにより、翻訳対象テキストの上下文情報を動的に選択するため、符
号化復号化モデルの受信情報内の冗長な情報を低減するとともに、翻訳対象テキストの翻訳結果の精度をさらに高めた。

＜第４実施例＞
本実施例は第２実施例のＳ４０４の具体的な実施形態を説明する。

本実施例において、上記のステップＳ４０４の「前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する」は、具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化することを含む。ここで、上文目標テキストの符号化結果は、第２実施例Ｓ４０２内の

又は、

であってもよく、これらの符号化結果を利用し、目標符号化結果Ｈ_ｃを補助的に復号化することにより、翻訳対象テキストの翻訳結果を得ることができる。

本実施例の一実現方式において、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化する時に、以下のステップを含むことができる。

ステップＡ３：前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定する。

上文目標テキストは上文原テキスト内の各上文の文の翻訳結果（以下、翻訳後の文）を含み、それぞれ各翻訳后の文と翻訳対象テキスト間の関連度を決定することができる。

一実現方式において、ステップＡ３は具体的に、前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とする。この実現方式において、第３実施例のステップＡ２で算出された上文原テキスト内の各上文の文に対応する相関係数｛λ_－ｋ，λ_－ｋ－１，…，λ_－１｝で、それぞれ翻訳対象テキストと上文目標テキスト内の各翻訳後の文との間の関連度を特徴付けることができ、例えば、λ_－ｋは翻訳対象テキストと翻訳対象テキストの前のｋ番目の文の翻訳結果との間の関連性を表す。

ステップＢ３：決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化する。

ステップでは、相関係数｛λ_－ｋ，λ_－ｋ－１，…，λ_－１｝と上文目標テキストの符号化結果

（第２実施例のステップＣ１を参照する）を用いて、次の式により計算することができる。

図３に示すように、

は復号化で使用される上文目標テキストの符号化結果を表し、目標符号化結果Ｈ_ｃを復号化する時に、ＲＮＮネットワークを用いて順次復号化し、本案は復号化の各時刻に

を加え、計算式は次の通りである。

ここで、ｇは非線形関数であり、例えば、sigmoid関数又はＬＳＴＭネットワークであ
る。Ｗ、Ｕ、Ｖは既存の復号化ネットワークのトレーニングパラメーターであってもよく、Ｐは本実施例における復号化ネットワークに追加されたトレーニングパラメーターである。ｓ_ｊは現在時刻ｊの隠れ層状態を表す。ｓ_ｊ－１は前時刻ｊ－１の隠れ層状態を表す。ｙ_ｊ－１は前時刻の復号化結果の単語ベクトルである。ｃ_ｊはアテンションモデルの出力情報であり、アテンションモデルは共通の符号化復号化構造で使用されるネットワーク構造であってもよく、具体的な復号化計算方法は従来技術と同じであってもよい。

復号化して現在時刻ｊの隠れ層状態ｓ_ｊを得た後、共通の符号化復号化構造内の関数softmaxを用いて、現在時刻jに対応する翻訳対象単語の翻訳結果の確率分布を推定することができ、当該確率分布により、翻訳対象単語の翻訳結果を得る。

以上をまとめると、本実施例に係る復号化方式は、復号化側に上文原テキストの翻訳結果（すなわち、上文目標テキスト）を導入し、さらに、翻訳対象テキストと上文目標テキスト間の関連度情報を導入するため、翻訳対象テキストの翻訳結果を上文翻訳結果に結びつけることで、翻訳対象テキストの翻訳結果の精度がより向上し、翻訳テキストの流暢さも向上する。つまり、翻訳後の文章レベルテキストの各文間の連接性と一貫性を保証する。

＜第５実施例＞
本実施例では文章レベルテキスト翻訳装置を説明し、関連内容については、上記方法の実施例を参照する。

図７は本出願の実施例に係る文章レベルテキスト翻訳装置の構成図であり、当該装置７００は、翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニット７０１と、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも１つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも１つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも１つを含む関連テキストを取得する関連テキスト取得ユニット７０２と、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニ
ット７０３とを含む。

本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット７０３は具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳するために用いられることができる。

本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット７０３は、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第１符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第２符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む。

本実施例の一実現方式において、前記第１符号化サブユニットは、具体的に、前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るために用いられ、
それに対し、前記第２符号化サブユニットは、具体的に、前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするために用いられる。

本実施例の一実現方式において、前記翻訳対象テキスト翻訳ユニット７０３は、
翻訳対象テキスト内の各単語を符号化した後、前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得る第１累積サブユニットと、
前記関連テキスト内の各テキスト単位の各単語を符号化した後は、前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得て、前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得て、前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得る第２累積サブユニットとをさらに含むことができる。

本実施例の一実現方式において、前記結果処理サブユニットは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定する第１決定サブユニットと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定する第２決定サブユニットと、
決定された符号化結果に応じて、前記初期符号化結果を処理し、目標符号化結果を得る結果取得サブユニットとを含む。

本実施例の一実現方式において、前記結果取得サブユニットは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定する第１関連度決定サブユニットと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期
符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定する第２関連度決定サブユニットと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理して目標符号化結果を得る目標結果取得サブユニットとを含む。

本実施例の一実現方式において、前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる。
本実施例の一実現方式において、前記結果実現サブユニットは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記翻訳対象テキストと前記上文目標テキスト間の関連度を決定する第３関連度決定サブユニットと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化する符号化結果処理サブユニットとを含む。

本実施例の一実現方式において、前記第３関連度決定サブユニットは具体的に、前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするために用いられる。

＜第６実施例＞
本実施例では別の文章レベルテキスト翻訳装置を説明し、関連内容については、上記方法の実施例を参照する。

図８は、本実施例に係る文章レベルテキスト翻訳装置のハードウェア構成図であり、前記音声対話装置８００は、メモリ８０１と、受信機８０２と、それぞれ前記メモリ８０１及び前記受信機８０２に接続されているプロセッサ８０３とを含み、前記メモリ８０１は一連のプログラム命令を格納するために用いられ、前記プロセッサ８０３は前記メモリ８０１に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも１つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも１つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも１つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含む。

本実施例の一実現方式において、前記プロセッサ８０３はさらに、前記メモリ８０１に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
予め構築された符号化復号化モデルを利用し、前記関連テキストに応じて前記翻訳対象テキストを翻訳する。

本実施例の一実現方式において、前記プロセッサ８０３はさらに、前記メモリ８０１に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、

前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得るステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む。

本実施例の一実現方式において、前記プロセッサ８０３はさらに、前記メモリ８０１に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。

前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む。

前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、

前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとを含む。

前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、

前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む。

前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理する
ステップとを含む。

前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップを含む。

実施例の一実現方式において、前記プロセッサ８０３はさらに、前記メモリ８０１に格納されたプログラム命令を呼び出して次の操作を実行するために用いられる。
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度及び前記上文目標テキストの符号化結果に応じて、前記目標符号化結果を復号化するステップとを含む。

前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とする。

一部の実施形態において、前記プロセッサ８０３は中央処理装置（Central Processing
Unit、ＣＰＵ）であってもよく、前記メモリ８０１はランダムアクセスメモリ（Random Access Memory、ＲＡＭ）型の内部メモリであってもよく、前記受信機８０２は通常の物
理インターフェースを含め、前記物理インターフェースはイーサネット（Ethernet）インターフェース又は非同期転送モード（Asynchronous Transfer Mode、ＡＴＭ）インターフェースであってもよい。前記プロセッサ８０３、受信機８０２およびメモリ８０１は、１つ又は複数の独立した回路又はハードウェアに統合されることができ、例えば、特定用途向けの集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）である。

さらに、本実施例は、コンピュータで実行される時に、コンピュータに上記の文章レベルテキスト翻訳方法のうちいずれかの１つの実現方式を実行させる命令を記憶するコンピュータ可読記憶媒体を提供する。

さらに、本実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の文章レベルテキスト翻訳方法のうち、いずれかの実現方式を実行させる。

以上の実施形態の説明から分かるように、当業者は、上記の実施例方法における全部又は一部のステップがソフトウェアに必要な汎用ハードウェアプラットフォームを加えた方式で実現され得ることを明確に理解することができる。このような理解に基づいて、本出願の技術案は本質的に、又は現有技術に貢献する部分はソフトウェア製品の形式で具現化することができ、当該コンピューターソフトウェア製品は、ＲＯＭ／ＲＡＭ、磁気ディスク、光ディスクなどの記憶媒体に格納されることができ、１台のコンピュータ装置（パーソナルパソコン、サーバ、又はメディアゲートウェイのようなネットワーク通信機器などであってもよい）に本明細書の各実施例または実施例の一部に記載の方法を実行させるためのいくつかの命令を含む。

説明すべき点については、本明細書の各実施例はプログレッシブな方式で記載され、各実施例はその他の実施形態との相違点について重点を置いて記載され、各実施例の間の同
じまたは類似の部分は互いに参照することがある。実施例で開示された装置にとっては、実施例で開示された方法に対応するため、簡単に記載され、関連部分について方法の説明を参照すればよい。

また、説明すべき点については、本明細書で、「第１」及び「第２」のような関係用語は１つの実体或いは操作を、別の実体或いは操作から区別するために使用され、これらの実体或いは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「１つの…を含む」という文言によって限定される要素は、それ以上の制限がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。

開示された実施例の上記の説明から、当業者が本出願を実現または使用することを可能にする。これらの実施例のさまざまな修正は当業者に明らかであり、本明細書で定義された一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は本明細書で示されたこれらの実施例に限定されなく、本明細書で公開されている原理や新規特徴と一致する最も広い範囲と一致しなければならない。

Claims

コンピュータにより実行される文章レベルテキスト翻訳方法であって、
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得するステップと、
前記翻訳対象テキストの、上文原テキストと、下文原テキストと、上文目標テキストとのうち少なくとも１つを含む関連テキストを取得するステップと、
前記上文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも１つの単位テキストであり、前記下文原テキストは、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも１つの単位テキストであり、前記上文目標テキストは、前記上文原テキストを翻訳した後のテキストであり、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップとを含み、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するステップを含み、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得るステップと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得るステップと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキストの意味情報の全部又は一部を含める目標符号化結果を得、前記処理とは、前記関連符号化結果内の符号化結果の全部又は一部を対応する前記関連テキストと前記翻訳対象テキストとの前記関連度に応じて前記初期符号化結果に導入することであるステップと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップとを含む
ことを特徴とする文章レベルテキスト翻訳方法。
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
予め構築された符号化復号化モデルを利用し、前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記
翻訳対象テキストを翻訳するステップを含む
ことを特徴とする請求項１に記載の文章レベルテキスト翻訳方法。
前記翻訳対象テキストを符号化して初期符号化結果を得るステップは、
前記翻訳対象テキストの各単語を符号化し、初期符号化結果を得るステップを含み、
それに対し、前記関連テキストを符号化して関連符号化結果を得るステップは、
前記関連テキスト内における各テキスト単位の各単語を符号化し、それぞれ各テキスト単位に対応する符号化結果を得て、これらの符号化結果を関連符号化結果とするステップを含む
ことを特徴とする請求項１に記載の文章レベルテキスト翻訳方法。
前記翻訳対象テキスト内の各単語を符号化した後のステップは、
前記翻訳対象テキストの各単語の符号化結果を累積し、前記翻訳対象テキストに対応する累積結果を得るステップをさらに含み、
それに対し、前記関連テキスト内の各テキスト単位の各単語を符号化した後のステップは、
前記関連テキストに前記上文原テキストが含まれている場合、前記上文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記下文原テキストが含まれている場合、前記下文原テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップと、
前記関連テキストに前記上文目標テキストが含まれている場合、前記上文目標テキスト内における各単位テキストの各単語の符号化結果をそれぞれ累積し、各単位テキストに対応する累積結果を得るステップとをさらに含む
ことを特徴とする請求項３に記載の文章レベルテキスト翻訳方法。
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記関連符号化結果のうち、前記上文原テキストに該当する符号化結果を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記関連符号化結果のうち、前記下文原テキストに該当する符号化結果を決定するステップと、
決定された符号化結果に応じて、前記初期符号化結果を処理するステップとを含む
ことを特徴とする請求項１に記載の文章レベルテキスト翻訳方法。
決定された符号化結果に応じて、前記初期符号化結果を処理するステップは、
前記関連テキストに前記上文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記上文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記上文原テキストの間の関連度を決定するステップと、
前記関連テキストに前記下文原テキストが含まれた場合、前記翻訳対象テキストの初期符号化結果と前記下文原テキストの符号化結果に応じて、前記翻訳対象テキストと前記下文原テキストの間の関連度を決定するステップと、
決定された符号化結果及び決定された関連度に応じて、前記初期符号化結果を処理するステップとを含む
ことを特徴とする請求項５に記載の文章レベルテキスト翻訳方法。
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現するステップは、
前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち
、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップを含み、
前記目標符号化結果を復号化する時に、復号化の各時刻に前記上文目標テキストに該当する符号化結果を加える
ことを特徴とする請求項１ないし６のいずれかの１項に記載の文章レベルテキスト翻訳方法。
前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するステップは、
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップと、
決定された関連度に応じて、動的に前記上文目標テキストの符号化結果を選択して用いて復号化で使用される上文目標テキストの符号化結果を得、得られた復号化で使用される上文目標テキストの符号化結果を用いて前記目標符号化結果を復号化するステップとを含む
ことを特徴とする請求項７に記載の文章レベルテキスト翻訳方法。
前記翻訳対象テキストと前記上文目標テキストの間の関連度を決定するステップは、
前記翻訳対象テキストと前記上文原テキストの間の関連度を、前記翻訳対象テキストと前記上文目標テキストの間の関連度とするステップとを含む
ことを特徴とする請求項８に記載の文章レベルテキスト翻訳方法。
翻訳の対象となる文章レベルテキスト内の単位テキストである翻訳対象テキストを取得する翻訳対象テキスト取得ユニットと、
前記翻訳対象テキストの、前記文章レベルテキスト内における前記翻訳対象テキストの前の少なくとも１つの単位テキストである上文原テキストと、前記文章レベルテキスト内における前記翻訳対象テキストの後の少なくとも１つの単位テキストである下文原テキストと、前記上文原テキストを翻訳した後のテキストである上文目標テキストとのうち少なくとも１つを含む関連テキストを取得する関連テキスト取得ユニットと、
前記関連テキストに応じて前記翻訳対象テキストを翻訳する翻訳対象テキスト翻訳ユニットとを含み、
前記関連テキストに応じて前記翻訳対象テキストを翻訳するステップは、
前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するステップを含み、
前記翻訳対象テキスト翻訳ユニットは、
前記翻訳対象テキストを符号化することにより、前記翻訳対象テキストの意味情報を表現するために用いられる初期符号化結果を得る第１符号化サブユニットと、
前記関連テキストを符号化することにより、前記関連テキストの意味情報を表現するために用いられる関連符号化結果を得る第２符号化サブユニットと、
前記関連符号化結果内の符号化結果の全部又は一部を利用し、前記初期符号化結果を処理することにより、前記翻訳対象テキストの意味情報を表現するために用いられ、かつ前記関連テキスト内の意味情報の全部又は一部を含める目標符号化結果を得る結果処理サブユニットであって、前記処理とは、前記関連符号化結果内の符号化結果の全部又は一部を対応する前記関連テキストと前記翻訳対象テキストとの前記関連度に応じて前記初期符号化結果に導入することである結果処理サブユニットと、
前記目標符号化結果を復号化することにより、前記翻訳対象テキストの翻訳を実現する復号化実現サブユニットとを含む
ことを特徴とする文章レベルテキスト翻訳装置。
前記翻訳対象テキスト翻訳ユニットは具体的に、予め構築された符号化復号化モデルを利用し、前記関連テキストと前記翻訳対象テキストとの関連度を決定し、前記関連度に応
じて前記関連テキストの意味情報を用いて、前記翻訳対象テキストを翻訳するために用いられる
ことを特徴とする請求項１０に記載の文章レベルテキスト翻訳装置。
前記復号化実現サブユニットは具体的に、前記関連テキストに前記上文目標テキストが含まれた場合、前記関連符号化結果のうち、前記上文目標テキストに該当する符号化結果を利用し、前記目標符号化結果を復号化するために用いられる
ことを特徴とする請求項１０に記載の文章レベルテキスト翻訳装置。
プロセッサと、メモリと、システムバスとを含む文章レベルテキスト翻訳装置であって、
前記プロセッサ及び前記メモリは、前記システムバスを介して接続され、
前記メモリは、１つ又は複数のプログラムを記憶し、前記プログラムは前記プロセッサによって実行された時に、前記プロセッサに請求項１ないし９のいずれかの１項に記載の方法を実行させる命令を含む
ことを特徴とする文章レベルテキスト翻訳装置。
コンピュータで実行される時に、コンピュータに請求項１ないし９のいずれかの１項に記載の方法を実行させる命令を記憶する
ことを特徴とするコンピュータ可読記憶媒体。
端末装置で実行される時に、前記端末装置に請求項１ないし９のいずれかの１項に記載の方法を実行させる
ことを特徴とするコンピュータプログラム。