JP7457125B2

JP7457125B2 - 翻訳方法、装置、電子機器及びコンピュータプログラム

Info

Publication number: JP7457125B2
Application number: JP2022539180A
Authority: JP
Inventors: ラン，チウ; リン，ヤンカイ; リー，ペン; ジョウ，ジエ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-05-25
Filing date: 2021-05-07
Publication date: 2024-03-27
Anticipated expiration: 2041-05-07
Also published as: US20220222447A1; CN111611811B; WO2021238604A1; CN111611811A; JP2023509405A

Description

［関連出願の相互参照］
本願は、２０２０年０５月２５日に中国特許庁に提出され、出願番号が２０２０１０４５０９５７．１であり、出願の名称が「翻訳方法、装置、電子機器及びコンピュータ可読記憶媒体」である中国特許出願の優先権を主張する。

［技術分野］
本出願は、言語翻訳処理技術分野に関し、具体的には、本出願は、翻訳方法、装置、電子機器及びコンピュータ可読記憶媒体に関する。

従来の技術では、通常、自己回帰ＮＭＴ（ｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ、ニューラルマシン翻訳）技術を採用して翻訳対象文句を翻訳し、即ち翻訳対象文句の各単語を一単語ずつ翻訳し、このような翻訳方法は、翻訳速度が遅い。

本出願の実施例の主な目的は、翻訳方法、装置、電子機器及びコンピュータ記憶媒体を提供することであり、本出願の実施例の方案によって、文句翻訳の品質を向上させ、ユーザ体験を向上させることができる。

一方、本出願の実施例は、電子機器により実行される翻訳方法を提供した。該方法は、
翻訳対象文句を取得するステップと、
予め設定された数に基づき、前記翻訳対象文句を区分し、前記予め設定された数のサブ文句を獲得するステップと、
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するステップと、
意味に基づいて各サブ文句に対応する翻訳結果を融合させ、前記翻訳対象文句に対応するターゲット翻訳文句を獲得するステップと、を含む。

もう一方、本出願は、翻訳装置を提供した。該装置は、
翻訳対象文句を取得するための翻訳対象文句取得モジュールと、
予め設定された数に基づき、前記翻訳対象文句を区分し、前記予め設定された数のサブ文句を獲得するためのサブ文句決定モジュールと、
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するための翻訳モジュールと、
意味に基づいて各サブ文句に対応する翻訳結果を融合させ、前記翻訳対象文句に対応するターゲット翻訳文句を獲得するためのターゲット翻訳文句決定モジュールと、を含む。

もう一方、本出願の実施例は、プロセッサとメモリとを含む電子機器を提供した。メモリには、可読命令が記憶されており、可読命令がプロセッサによってローディングされて実行される時、上記翻訳方法を実現する。

もう一方、本出願の実施例は、コンピュータ可読記憶媒体を提供した。記憶媒体には、可読命令が記憶されており、可読命令がプロセッサによってローディングされて実行される時、上記翻訳方法を実現する。

もう一方、本出願の実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供した。このコンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、このコンピュータ命令は、コンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体からこのコンピュータ命令を読み取り、プロセッサは、このコンピュータ命令を実行し、このコンピュータ機器に上記翻訳方法を実行させる。

本出願の実施例における技術案をより明瞭に説明するために、以下、本出願の実施例の説明に使用される図面を簡単に説明する。
本出願の実施例の技術案を適用することができる例示的なシステムアーキテクチャの概略図を示した。本出願の実施例による翻訳方法のフロー概略図を示した。本出願の実施例による翻訳モデルのトレーニングフロー概略図を示した。本出願の実施例による重複翻訳単語を含むサンプル翻訳文句概略図を示した。本出願の実施例による翻訳装置の構造概略図を示した。本出願の実施例による電子機器の構造概略図を示した。

本出願の発明目的、特徴、利点をより明確且つ分かりやすくするために、以下は、本出願の実施例における図面を参照しながら、本出願の実施例における技術案を明瞭且つ完全に記述する。明らかに、記述された実施例は、ただ本出願の一部の実施例に過ぎず、全ての実施例ではない。本出願における実施例に基づき、当業者が創造的な作業をせずに獲得された全ての他の実施例は、いずれも本出願の保護範囲に属する。

以下、本出願の実施例を詳細に記述し、該実施例の例は、図面に示されており、ここで、最初から最後まで同じ又は類似する符号は、同じ又は類似する素子、又は同じ又は類似する機能を有する素子を示す。以下、図面を参照して記述される実施例は、例示的であり、本出願の解釈にのみ用いられ、本出願を制限しない。

当業者が理解できるように、特に宣言しない限り、ここで使用されている単数形式「一」、「一つ」及び「該」は、複数の形式を含んでもよい。さらに理解できることは、本出願の明細書において使用される用語である「含む」とは、特徴、整数、ステップ、操作、素子及び／又はコンポーネントが存在しているが、一つ又は複数の他の特徴、整数、ステップ、操作、素子、コンポーネント及び／又はそれらのグループが存在し、又は追加することは除外されない。理解すべきことは、素子が別の素子に「接続」又は「結合」されると呼ばれる時、それは、他の素子に直接接続又は結合されてもよく、又は中間素子が存在してもよい。なお、ここに使用されている「接続」又は「結合」は、無線接続又は無線結合を含んでもよい。ここに使用されている用語である「及び／又は」は、一つ又は複数の関連するリスト項目の全て又はいずれか一つのユニットと全ての組み合わせを含む。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータにより制御される機械シミュレーションを利用して、人の知能を延長し拡張し、環境を感知して、知識を取得し、且つ知識を使用して最適な結果を獲得する理論、方法、技術及び応用システムである。言い換えれば、人工知能は、コンピュータ科学の一つの総合技術であり、知能の実質を理解し、人間の知能に似ている方法で反応できる新たな知能機械を生産することを意図している。人工知能とは、様々な知能機械の設計原理と実現方法を研究し、機械に感知、推理と意思決定の機能を有させるものである。

人工知能技術は、一つの総合学科であり、関連する分野が広く、ハードウェアレベルの技術もあれば、ソフトウェアレベルの技術もある。人工知能基礎技術は、一般的には、例えば、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、操作／インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は主に、コンピュータビジョン技術、ボイス処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかの方向を含む。

ここで、機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）は、概率論、統計学、近似論、凸解析、アルゴリズム複雑度理論などの複数の学科に関する多分野交差学科である。コンピュータがどのように人類の学習行為をシミュレートするか、又は実現するかを研究して、新しい知識又は技能を取得し、既存の知識構造を再組織して自体の性能を絶えずに改善させる。機械学習は、人工知能の中核であり、コンピュータに知能を有させる根本的な道であり、その応用は、人工知能の各分野に及んでいる。機械学習と深層学習は、通常、人工ニューラルネットワーク、信頼ネットワーク、強化学習、移行学習、帰納学習、対抗学習などの技術を含む。

人工知能技術の研究と進歩に伴い、人工知能技術は、複数の分野で、例えばよく見られる知能ホーム、知能ウェアラブルデバイス、仮想アシスタント、知能スピーカー、知能マーケティング、無人運転、自動運転、ドローン、ロボット、知能医療、知能カスタマーサービスなどで研究と応用を展開し、技術の発展に伴い、人工知能技術は、より多くの分野で応用され、ますます重要な価値を発揮すると信じている。

以下、具体的な実施例を用いて、本出願の技術案及び本出願の技術案が上記技術課題をどのように解决するかを詳細に説明する。以下のこのいくつの具体的な実施例は、互いに結び付けられてもよく、同じ又は類似する概念又は過程に対し、ある実施例では、これ以上説明しない可能性がある。以下、図面を参照しながら、本出願の実施例を記述する。

本出願の実行主体は、任意の電子機器であってもよく、サーバであってもよく、ユーザ端末などであってもよく、本出願の方案は、機械翻訳のアプリケーションシナリオ、例えば、オンライン翻訳、特に翻訳速度が要求されるアプリケーションシナリオに適用され、本出願の方案を採用して、翻訳速度に対するユーザの需要を満たすことができる。

図１Ａは、本出願の実施例の技術案を適用することができる例示的なシステムアーキテクチャの概略図を示した。図１Ａに示すように、翻訳システム１００は、サーバ１０１と、ネットワーク１０２と、端末１０４とユーザ１０５とを含む。端末１０４には翻訳装置１０３が取り付けされ、ユーザ１０５は、翻訳装置１０３を起動して、且つ翻訳装置１０３に翻訳対象文句を入力し、端末１０４は、翻訳対象文句をサーバ１０１に送信して翻訳するようにする。

本出願の実施例による方法に基づき、サーバ１０１は、翻訳対象文句を取得し、予め設定された数に基づき、前記翻訳対象文句を区分し、前記予め設定された数のサブ文句を獲得して、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得して、及び、各サブ文句に対応する翻訳結果を融合させ、各翻訳が完了した単語の意味を前記翻訳対象文句における各単語の意味に対応させ、前記翻訳対象文句に対応するターゲット翻訳文句を獲得する。

そして、サーバ１０１は、ターゲット翻訳文句を端末１０４に返信し、ユーザ１０５に表示させる。

このように、複数のサブ文句に対して並列処理を実行すると同時に翻訳し、そして、一つのターゲット翻訳文句として最終的に融合させることができ、それによって翻訳の速度を向上させた。

図１Ｂは、本出願の実施例による翻訳方法のフロー概略図を示した。図に示すように、本出願は、サーバ、例えば図１Ａにおけるサーバ１０１が実行主体であることを例にして説明し、該方法は、ステップＳ１１０からステップＳ１４０を含んでもよい。

ステップＳ１１０：翻訳対象文句を取得する。

ここで、翻訳対象文句は、ユーザが翻訳プラットフォームにアップロードした文句であってもよく、指定されるデータベースから選択した文句であってもよく、本出願の実施例では、翻訳対象文句の具体的な出所を限定しない。翻訳対象文句は、任意の言語種類の言語、例えば、中国語、英語などであってもよく、本出願の実施例では、翻訳対象文句の言語種類を限定しない。

翻訳対象文句は、文字であってもよく、ボイスであってもよく、又はボイスを指定される言語種類の言語に従って翻訳したテキストであってもよく、翻訳対象文句は、すでに翻訳された文句であってもよく、本出願の実施例では、翻訳対象文句の具体的な表現形式を限定しない。

実際の応用では、取得された翻訳対象の情報がテキスト又は段落である場合、翻訳対象テキスト又は翻訳対象の段落に対して文句区切りを行い、各文句区切りを翻訳対象文句としてもよい。

ステップＳ１２０：予め設定された数に基づき、翻訳対象文句を区分し、予め設定された数のサブ文句を獲得する。

ステップＳ１３０：各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得する。

ここで、予め設定された数は、実際の需要、例えば翻訳速度要求に応じて設置されてもよく、要求される翻訳速度が比較的に速い場合、予め設定された数を大きく設置してもよく、要求される翻訳速度が比較的に遅い場合、予め設定された数を小さく設置してもよい。

ここで、各サブ文句に対応する内容は、翻訳対象文句における少なくとも二つの単語であり、一例として、翻訳対象文句が１２個の単語を含む場合、予め設定された数は、３であり、各サブ文句に対応する文句の長さが同じであり、即ち含まれる単語の数が同じである場合、各サブ文句に対応する含まれる単語の数は、４であり、即ち、翻訳対象文句における４個の単語ごとに一つのサブ文句に区分され、３つのサブ文句を獲得することであり、翻訳対象文句を翻訳する時、この３つのサブ文句に対応する一番目の単語から並行して翻訳を開始し、この３つのサブ文句にそれぞれ含まれる４個の単語に対応する翻訳結果を獲得してもよい。

本出願の一つの好ましい方案では、各サブ文句のうちの少なくとも二つのサブ文句に含まれる単語の数は、同じであってもよく、異なってもよい。このように、翻訳対象文句に含まれる単語の数とサブ文句数が整数に比例しない場合にも、翻訳対象文句を合理的に区分することができる。

ステップＳ１４０：意味に基づいて各サブ文句に対応する翻訳結果を融合させ、翻訳対象文句に対応するターゲット翻訳文句を獲得する。

ここで、各サブ文句に対応する翻訳結果を決定した後、各サブ文句に対応する翻訳結果を融合させ、翻訳結果における各翻訳が完了した単語の意味を翻訳対象文句における各単語の意味に対応させ、該翻訳対象文句に対応するターゲット翻訳文句を獲得する。

実際の応用では、各サブ文句に対応する翻訳結果を融合させる時、各翻訳結果における各単語の意味に従って融合させて、融合後の文句が表した意味が翻訳対象文句が表した意味に一致するように確保することができる。

本出願の方案では、翻訳対象文句を翻訳する時、予め設定された数に基づき、翻訳対象文句を区分し、予め設定された数のサブ文句を獲得して、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得することができ、本出願の方案に基づき、各サブ文句が翻訳対象文句における少なくとも二つの単語を含むため、各サブ文句を翻訳する時、即ち、翻訳対象文句における少なくとも二つの単語を並列に翻訳することができ、翻訳対象文句を一単語ずつ翻訳するのではないので、翻訳文句に対応するターゲット翻訳文句を獲得する過程で、翻訳速度を速めることができる。

本出願の方案では、翻訳対象文句に対し、まず、翻訳対象文句をエンコーダによってコーディングし、該翻訳対象文句に対応するコーディング情報を得て、そして予め設置されるサブ文句数に基づき、各サブ文句に対応するコーディング情報を翻訳して、翻訳対象文句のターゲット翻訳文句を獲得することができる。

本出願の好ましい方案では、各サブ文句のうちの少なくとも二つのサブ文句の文句の長さが異なり、即ち、各サブ文句のうちの少なくとも二つのサブ文句に含まれる単語の数が異なる場合、ここで、
予め設定された数と翻訳対象文句の文句の長さに基づき、各サブ文句における第一の設定割合を満たす第一のサブ文句の文句の長さを第一の長さに設置し、各サブ文句における第二の設定割合を満たす第二のサブ文句の文句の長さを第二の長さに設置することによって各サブ文句に対応する文句の長さを決定してもよい。

ここで、第一の設定割合と第二の設定割合の和は、１である。

ここで、第一の設定割合と第二の設定割合は、実際の需要に応じて設置されてもよく、第一の設定割合と第二の設定割合は、同じであってもよく、異なってもよい。第一の設定割合と第二の設定割合の和が１であることは、第一の設定割合の各サブ文句の数と第二の設定割合の各サブ文句の数の和が予め設置されたサブ文句数に等しいことを示す。

第一の設定割合と第二の設定割合の設置は、翻訳対象文句に含まれる単語の数に関連しなくてもよく、即ち、翻訳対象文句がいくつかの単語を含んでも、いずれも予め設置されたサブ文句数、第一の設定割合、第二の設定割合に応じて翻訳対象文句に対してサブ文句を生成する。

第一の長さは、第二の長さと異なり、第一の長さは、各第一のサブ文句に対応する文句の長さを特徴づけており、各第一のサブ文句に含まれる単語の数は、同じである。同様に、第二の長さは、各第二のサブ文句に対応する文句の長さを特徴づけており、各第二のサブ文句に含まれる単語の数は、同じである。

理解できるように、予め設置されたサブ文句数、第一の設定割合、第二の設定割合に基づき、翻訳対象文句に対してサブ文句区分を生成する。翻訳対象文句に含まれる単語の数が各第一のサブ文句に対応する単語の数と各第二のサブ文句に対応する単語の数の和に等しくない場合、翻訳対象文句に対してサブ文句区分を生成する時、文句の長さを満たさないサブ文句に特定の識別子で埋め込んでもよく、該特定の識別子は、翻訳時に翻訳される必要がない。

実際の応用では、各サブ文句に対応する翻訳対象文句は、連続しており、即ち、前のサブ文句の最後の単語と次のサブ文句の一番目の単語とは連続している。

本出願の好ましい方案では、いずれか一つのサブ文句に対して、自己回帰ＮＭＴ技術に基づいて該サブ文句を翻訳し、即ち一単語ずつ翻訳してもよい。自己回帰ＮＭＴ方式を採用して翻訳し、ここで、各単語に対応する翻訳結果は、いずれもこの前に翻訳した単語の翻訳結果に基づいて翻訳されて、各単語間の連続性を確保する。

一例として、例えば、予め配置されたサブ文句数が４であり、第一の設定割合が０．２５であり、第二の設定割合が０．７５であり、翻訳対象文句に含まれる単語の数が１３である場合、０．２５＊４＝１個のサブ文句に対応する文句の長さを第一の長さに設置し、０．７５＊４＝３個のサブ文句に対応する文句の長さを第二の長さに設置する。このように、この１３個の単語では、そのうちの４個の単語を一セグメントに区分し、第一の長さは、４個の単語であり、各残り単語のうちの３個の単語ごとに１セグメントとして区分して、合計で３つのサブ文句に区分し、第二の長さは、３個の単語である。

上記例では、翻訳対象文句に含まれる単語の数が１２又は１５である場合、第一の長さ又は第二の長さを満たさないサブ文句に特定の識別子を埋め込んで、埋め込んだ後のサブ文句に対応する翻訳対象文句の長さが第一の長さ又は第二の長さを満たすようにし、例えば、１２個の単語を含む翻訳対象文句に対し、最後の一つのサブ文句に一つの特定の識別子を埋め込んで、埋め込む後のサブ文句が３個の単語を含むようにすることができる。

本出願の好ましい方案では、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するステップは、
候補翻訳単語セットから各サブ文句に対応する翻訳結果を獲得するステップを含む。

ここで、候補翻訳単語セットには様々な単語に対応する候補翻訳単語が含まれ、一単語は、少なくとも一つの候補翻訳単語に対応してもよく、該候補翻訳単語は、異なる言語種類の単語であってもよい。翻訳対象文句を翻訳する時、各サブ文句に対応する各単語を翻訳して、各サブ文句に対応する翻訳結果を得てもよい。

実際の応用では、一つの翻訳対象単語が少なくとも二つの候補翻訳単語に対応する場合、この少なくとも二つの候補翻訳単語の概率を決定することによって、そのうちの概率が最大の候補翻訳単語を該翻訳単語のターゲット翻訳単語としてもよい。

実際の応用では、各翻訳対象単語に対応する候補翻訳単語は、一つのサブセットに対応してもよく、即ち、候補翻訳単語セットには各翻訳対象単語に対応するサブセットが含まれる。

本出願の好ましい方案では、候補翻訳単語セットには翻訳終了識別子が含まれ、いずれか一つのサブ文句に対して、該サブ文句に対応する文句の長さは、
候補翻訳単語セットから該サブ文句における各単語に対応する候補翻訳単語を決定し、
決定された各候補翻訳単語と翻訳終了識別子に基づき、該サブ文句に対応する文句の長さを決定することによって決定されたものである。

ここで、本出願の方案では、各サブ文句に対応する文句の長さは、予め配置されてもよいが、翻訳過程において、複数のセグメントに対応する翻訳対象文句を同時に翻訳する時、翻訳エラー（重複翻訳単語と漏れ単語）が現れやすいことを考慮して、翻訳過程において、各サブ文句に対応する各候補翻訳単語と翻訳終了識別子に基づき、各サブ文句に対応する文句の長さを決定し、翻訳エラーの発生を回避することができる。

また、各サブ文句に対応する文句の長さが該セグメントに対応する翻訳速度に正比例する場合、各サブ文句に対応する文句の長さは、翻訳対象文句の翻訳速度に直接的に影響を与え、各サブ文句を翻訳する時、異なる長さの単語に対応する情報量が異なり、翻訳速度も異なる可能性があり、そのため、翻訳速度の問題と翻訳精度の問題を考慮して、各サブ文句に対応する文句の長さを決定する時、文句の長さを動的に決定する方式を採用してもよく、具体的な決定方式は、以下の通りである。

候補翻訳単語セットに翻訳終了識別子を補填し、各サブ文句を翻訳する時、該翻訳対象文句におけるいずれか一つの翻訳対象単語に対し、候補翻訳単語セットから該翻訳対象単語に対応する候補翻訳単語を決定し、該候補翻訳単語が翻訳終了識別子である場合、該サブ文句に対する翻訳を停止し、それと同時に該サブ文句に対応する文句の長さを獲得する。該候補翻訳単語が翻訳終了識別子でない場合、候補翻訳単語が翻訳終了識別子であるまで該サブ文句を翻訳し続け、該サブ文句に対応する文句の長さを決定する。該文句の長さは、即ち翻訳終了時に対応する翻訳対象単語及び該翻訳対象単語の前の翻訳対象単語に対応する文句の長さである。上述した文句の長さを動的に決定する方式によって、各サブ文句を翻訳する時、各サブ文句に対応する文句の長さを動的に決定して、翻訳速度をさらに向上させることができる。

ここで、翻訳終了識別子は、文字列を設定することによって表されてもよく、本出願の方案では、翻訳終了識別子の具体的な表現形式を限定しない。一例として、該翻訳終了識別子は、ＥＯＳであってもよい。

本出願の好ましい方案では、候補翻訳単語セットには翻訳開始識別子と翻訳終了識別子とが含まれ、
候補翻訳単語セットから各サブ文句に対応する翻訳結果を獲得するステップは、
いずれか一つのサブ文句に対して、候補翻訳単語セットから該サブ文句における各翻訳対象単語に対応する候補翻訳単語を決定するステップと、
候補翻訳単語が翻訳開始識別子である場合、該サブ文句に対する翻訳を開始するステップと、
候補翻訳単語が翻訳開始識別子でなく、且つ翻訳終了識別子でない場合、候補翻訳単語が翻訳終了識別子であるまで該サブ文句を翻訳し続け、該サブ文句に対する翻訳を終了し、該サブ文句に対応する翻訳結果を獲得するステップと、を含む。

ここで、各サブ文句を翻訳する時、いずれか一つのサブ文句に対して、該サブ文句に対応する翻訳開始識別子に基づいて該サブ文句に対する翻訳をいつ開始するかを判断し、該サブ文句に対応する翻訳終了識別子に基づいて該サブ文句に対する翻訳をいつ終了するかを判断することができる。具体的に、一つのサブ文句を翻訳する時、該サブ文句における各単語を一つずつ翻訳し、そのうちの一単語に対して、該単語の候補翻訳単語を決定することができ、該候補翻訳単語が翻訳開始識別子である場合、該サブ文句に対する翻訳を開始する。該候補翻訳単語が翻訳開始識別子でなく、翻訳終了識別子でもない場合、候補翻訳単語が翻訳終了識別子であるまで該単語の後の単語を翻訳し続け、該サブ文句に対する翻訳を終了し、該サブ文句に対応する翻訳結果を獲得する。

本出願の好ましい方案では、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するステップは、
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する初歩的な翻訳結果を獲得するステップと、
各初歩的な翻訳結果のうちのいずれか一つの初歩的な翻訳結果に翻訳エラーがある場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行い、修正後の初歩的な翻訳結果と他の未修正の初歩的な翻訳結果に基づき、各サブ文句に対応する翻訳結果を獲得するステップとを含む。

各初歩的な翻訳結果にいずれも翻訳エラーがない場合、各初歩的な翻訳結果を各サブ文句に対応する翻訳結果とする。

ここで、翻訳過程において、翻訳エラーがある可能性がある。例えば、重複翻訳の単語があるか、又は翻訳対象文句に翻訳されない単語、即ち翻訳が漏れている単語がある。この場合、各サブ文句に対応する翻訳結果を決定する前に、初歩的な翻訳結果における翻訳エラーを修正して、翻訳結果の精度を確保する必要がある。

具体的に、いずれか一つのサブ文句を翻訳する時、まず、該サブ文句の初歩的な翻訳結果を決定して、該初歩的な翻訳結果に翻訳エラーがある場合、該初歩的な翻訳結果を修正し、修正後の初歩的な翻訳結果を該サブ文句に対応する翻訳結果とする。該初歩的な翻訳結果に翻訳エラーがない場合、該初歩的な翻訳結果を該サブ文句に対応する翻訳結果とする。

本出願の好ましい方案では、翻訳エラーは、漏れ単語又は重複翻訳単語のうちの少なくとも一つを含み、該方法は、
いずれか一つのサブ文句に対して、該サブ文句に対応する初歩的な翻訳結果における各単語に基づき、該サブ文句に翻訳エラーがあるか否かを決定するステップ、
及び／又は、
各サブ文句のうちのいずれか二つの隣接するサブ文句に対して、前記二つの隣接するサブ文句のうちの一番目のサブ文句に対応する初歩的な翻訳結果における最後の単語と前記二つの隣接するサブ文句のうちの二番目のサブ文句に対応する初歩的な翻訳結果における一番目の単語に基づき、前記二つの隣接するサブ文句に前記翻訳エラーがあるか否かを決定するステップをさらに含む。

翻訳エラーが漏れ単語を含む場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行うステップは、
漏れ単語を翻訳するステップを含み、
翻訳エラーが重複翻訳単語を含む場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行うステップは、
翻訳エラーがある初歩的な翻訳結果から、重複翻訳単語を削除するステップを含む。

ここで、上記初歩的な翻訳結果に翻訳エラーがあるか否かをどのように決定するかについては、一つのサブ文句に対応する初歩的な翻訳結果における各単語に基づいて該初歩的な翻訳結果に翻訳エラーがあるか否か、即ち、該サブ文句に重複翻訳単語及び／又は漏れ単語があるか否かを決定することができる。

二つの隣接するサブ文句間の単語の連続性を考慮して、該二つのサブ文句にそれぞれ対応する初歩的な翻訳結果に基づき、この二つの初歩的な翻訳結果に翻訳エラーがあるか否かを決定することもできる。例えば、二つのサブ文句のうちの前の一つのサブ文句に対応する初歩的な翻訳結果における最後の単語は、後の一つのサブ文句に対応する初歩的な翻訳結果における一番目の単語に接続されていない場合、即ち、この二つの初歩的な翻訳結果に漏れ単語、即ち翻訳されていない単語が存在する。又は、二つのサブ文句のうちの前の一つのサブ文句に対応する初歩的な翻訳結果における最後の単語は、後の一つのサブ文句に対応する初歩的な翻訳結果における一番目の単語との間に同じ単語である場合、即ち、重複翻訳単語が存在する。

漏れ単語が存在する場合、漏れ単語を翻訳し、該漏れ単語を含む対応する翻訳単語を獲得することによって、該翻訳エラーに対する修正を実現させる。重複翻訳単語が存在する場合、該重複翻訳単語を削除して、該翻訳エラーに対する修正を実現させる。

本出願の好ましい方案では、各サブ文句に対応する翻訳結果は、候補翻訳単語セットから決定されたものであり、候補翻訳単語セットには、削除識別子がさらに含まれ、削除識別子は、対応するサブ文句の翻訳結果が重複翻訳単語であることを標識するために用いられる。

翻訳エラーがある初歩的な翻訳結果から、重複翻訳単語を削除するステップは、
翻訳エラーがある初歩的な翻訳結果から、削除識別子に対応する重複翻訳単語を削除するステップを含む。

ここで、翻訳エラーが重複翻訳単語である場合、該翻訳エラーを修正するには、対応するサブ文句の翻訳結果が重複翻訳単語であることを標識するための削除識別子に基づいてもよく、即ち、あるサブ文句に対応する初歩的な翻訳結果に削除識別子が存在する場合、該サブ文句に対応する初歩的な翻訳結果が重複していることを意味し、さらに、該削除識別子に基づき、該識別子に対応する該サブ文句の初歩的な翻訳結果（一つのサブ文句に対応する初歩的な翻訳結果）を削除して、該サブ文句に対応する翻訳エラーに対する修正を実現させることができる。

ここで、削除識別子は、文字列を設定することによって表されてもよく、本出願の方案では、削除識別子の具体的な表現形式を限定しない。一例として、該削除識別子は、ＤＥＬであってもよい。

理解できるように、各サブ文句を翻訳する過程で、候補翻訳単語が該削除識別子である場合、同様に該サブ文句に対応する翻訳対象文句に対する翻訳を停止することができ、それによって翻訳時間を節約することができる。

本出願の好ましい方案では、予め設定された数に基づき、翻訳対象文句を区分し、予め設定された数のサブ文句を獲得して、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得することは、翻訳モデルによって得たものである。

ここで、翻訳モデルは、
各トレーニングサンプルを取得し、前記トレーニングサンプルにはサンプルの翻訳対象文句と前記サンプルの翻訳対象文句に対応するサンプル翻訳文句とが含まれ、前記サンプル翻訳文句にはサンプルサブ文句数に応じて前記サンプル翻訳文句を区分して獲得された各サブサンプル文句が含まれ、各サブサンプル文句にタグが付帯されており、前記タグは、前記サブサンプル文句に対応するサンプルの翻訳対象文句の翻訳タグ結果を特徴づけていること、
各トレーニングサンプルに基づき、初期ニューラルネットワークモデルの損失関数が収束されるまで前記初期ニューラルネットワークモデルをトレーニングし、トレーニング終了時の初期ニューラルネットワークモデルを前記翻訳モデルとすることによってトレーニングして獲得されたものである。

ここで、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ、ＮＮ）は、動物のニューラルネットワークの行為特徴を模倣し、分散並列情報処理を行うアルゴリズム数学モデルである。このようなネットワークは、システムの複雑さに依存し、内部の大量のノード間の相互接続の関係を調整することによって、情報処理の目的に達する。

初期ニューラルネットワークモデルの出力は、サンプルの翻訳対象文句に対応する各サブ文句の翻訳予測結果であり、損失関数の値は、サンプルの翻訳対象文句に対応する翻訳タグ結果と翻訳予測結果との間の相違を特徴づけている。

ここで、一つのトレーニングサンプルには一つのサンプルの翻訳対象文句と該サンプルの翻訳対象文句に対応するサンプル翻訳文句（該サンプルの翻訳対象文句に対応するターゲット翻訳文句）が含まれ、サンプルサブ文句数に基づいて該サンプル翻訳文句を区分し、該サンプル翻訳文句に対応する各サブサンプル文句を獲得する。

各サブサンプル文句にタグが付帯されており、該タグは、サブサンプル文句に対応するサンプルの翻訳対象文句の翻訳タグ結果を特徴づけており、翻訳タグ結果は、該サブサンプル文句に対応する正確な翻訳文句を特徴づけている。該タグは、人工の方式によって表記されてもよく、該タグは、文字列、文字、数字などであってもよく、本出願では、タグの具体的な表現形式を限定しない。

本出願の方案では、翻訳モデルの入力は、各トレーニングサンプルであり、出力は、トレーニングサンプルのサンプルの翻訳対象文句に対応する各サブ文句の翻訳予測結果、即ち該サンプルの翻訳対象文句における各サブサンプル文句の翻訳予測結果である。

トレーニングされた翻訳モデルが翻訳対象文句を迅速に翻訳することができるだけでなく、翻訳対象文句を正確に翻訳することができ、即ち、翻訳して得たターゲット翻訳文句に翻訳エラーがないように、該翻訳モデルをトレーニングする時、翻訳エラーを含むトレーニングサンプルをトレーニングサンプルとすることができ、翻訳エラーを含む該トレーニングサンプルに基づいてトレーニングされた翻訳モデルに基づき、翻訳結果における翻訳エラーを修正し、正確な翻訳結果を獲得することができる。

一例として、図２に示される翻訳モデルトレーニング概略図では、デコーダ（ｄｅｃｏｄｅｒ）により生成されたセグメント（ｓｅｇｍｅｎｔ）２における一番目の単語が「ｏｆ」である場合、デコーダはセグメント１を予測する時、ＥＯＳ前に、一つの「ｌｏｔｓ」をさらに生成して欠落単語（漏れ単語）エラーから回復（修正）する必要があるだけである。逆に、生成されたセグメント２の一番目の単語が「ａｒｅ」である場合、モデルは、セグメント１を予測する時、一つの単語（即ち「ａｒｅ」を生成しない）を少なく生成して、それによって重複翻訳単語のエラーを修正する必要があるだけである。

本出願の好ましい方案では、いずれか一つのトレーニングサンプルは、トレーニングサンプルに、重複翻訳単語を含むサンプル翻訳文句がさらに含まれ、重複翻訳単語を含むサンプル翻訳文句は、
サンプル翻訳文句をサンプルサブ文句数よりも小さい第一の数のサブ文句に分割すること、
第一の数のサブ文句のうちの少なくとも一つのサブ文句を対応し、重複翻訳単語として決定すること、
重複翻訳単語をサンプル翻訳文句に插入し、重複翻訳単語を含むサンプル翻訳文句を獲得することによって決定されて得られたものである。

ここで、重複翻訳単語を含むトレーニングサンプルを獲得するために、サンプル翻訳文句を第一の数のサブ文句に分割し、この第一の数のサブ文句において、そのうちの少なくとも一つのサブ文句を重複翻訳単語として選択し、該重複翻訳単語をサンプル翻訳文句に插入して、サンプル翻訳文句が依然としてサンプルサブ文句数のサブ文句を含むようにして、重複翻訳単語を含むサンプル翻訳文句をさらに獲得することができる。

一例として、サンプルサブ文句数は、Ｋであり、サンプル翻訳文句をＫ－１個（第一の数）のサブ文句、それぞれＳ¹、Ｓ²・・・、Ｓ^K-1に分割し、このＫ－１（第一の数）個のサブ文句から一つのサブ文句をランダムに選択し、該サブ文句、又は、該サブ文句におけるｍ個（ｍが該サブ文句に含まれる単語の数よりも小さくない）の単語をコピーする。そして、コピーした後の該単語に一つの削除識別子ＤＥＬを追加して、重複翻訳単語を得て、

と示され、該重複翻訳単語をＳ¹、Ｓ²・・・、Ｓ^K-1のうちのいずれか一つであるＳⁱの右側に插入し、最終的にＫ個のセグメント、それぞれ

を獲得する。

具体的な例は、以下の通りである。図３に示される重複翻訳単語を含むサンプル翻訳文句、異なる階調に対応する単語は、異なるセグメントに対応する。該例では、Ｋ＝４、ｍ＝２（コピーされた単語の個数が２つであり）であり、ここで、サンプル翻訳文句（ＴａｒｇｅｔＳｅｎｔｅｎｃｅ）は、「ｔｈｅｒｅａｒｅｌｏｔｓｏｆｆａｒｍｅｒｓｄｏｉｎｇｔｈｉｓｔｏｄａｙ」であり、重複翻訳単語は、「ｌｏｔｓｏｆ」であり、重複翻訳単語を含むサンプル翻訳文句（＋ＰｓｅｕｄｏＲｅｄｕｎｄａｎｔＳｅｇｍｅｎｔ）は、「ｔｈｅｒｅａｒｅｌｏｔｓｏｆｆａｒｍｅｒｓｌｏｔｓｏｆＤＥＬｄｏｉｎｇｔｈｉｓｔｏｄａｙ」である。

本出願の好ましい方案では、モデルに重複翻訳単語の削除を習得させる一つの方法は、トレーニングサンプルに重複翻訳単語を追加することである。しかし、トレーニングサンプルに重複翻訳単語を追加すると、モデルは、まず一つの重複翻訳単語を生成し、それから、削除することが必要な行為であると勘違いし、これは、本出願の方法が望むものではない。そのため、本出願の方案では、一定の概率ｑに従って一つのトレーニングサンプルのサンプル翻訳文句に重複翻訳単語を追加するか否かをランダムに決定する。

本出願の好ましい方案では、いずれか一つのトレーニングサンプルは、トレーニングサンプルにおける各サブサンプル文句のサンプル長さは、
離散型確率分布、サンプル翻訳文句の文句の長さ、サンプルサブ文句数及び分割方式に基づき、分割方式に対応する選択概率を決定することであって、ランダム分割方式と均一等分分割方式の二種類の分割方式があってもよいこと、
分割方式に対応する選択概率とサンプル翻訳文句の文句の長さに基づき、各サブサンプル文句のサンプル長さを決定することによって決定されたものである。

ここで、モデルをトレーニングする過程で、各サブ文句における最大の文句の長さは、翻訳速度に正比例し、トレーニングする時に、各トレーニングサンプルのサンプル翻訳文句を等長（同じサンプル長さ）のセグメントに分割してモデルが予測過程で等長のセグメントを生成するように激励すべきであり、もう一方、モデルは、トレーニングフェーズでマルチモードに関連するエラー（重複翻訳単語と漏れ単語）に接触して、モデルがこのようなエラーから回復する能力を拡張し、即ち、翻訳結果における翻訳エラーを修正すべきであり、それによって、ランダムの方式を採用して各サブ文句に対応する文句の長さを決定してもよく、即ち、各サブ文句に対応する文句の長さは、異なってもよい。

これにより、翻訳速度とエラーから回復する能力のバランスを取るために、どのようにサンプル翻訳文句を分割するか、各サブ文句に対応する文句の長さを決定するか、即ち、どのセグメントに対応するサンプル翻訳文句の文句の長さが第一の長さであるか、どのセグメントに対応するサンプル翻訳文句の文句の長さが第二の長さであるかを考慮する必要がある。

本出願の方案では、離散型確率分布は、バーヌリー分布であってもよく、バーヌリー分布によって二つの異なる分割方式に対応する選択概率を決定する。

本出願の方案では、一例として、モデルトレーニング過程で、以下の方式によってトレーニングサンプルにおけるサンプル翻訳文句を均一に等分して分割するか、それともランダムに分割するかを決定する。式は、

の通りである。

ここで、Ｔは、サンプル翻訳文句の長さであり、Ｂｅｒｎｏｕｌｌｉ（ｐ）は、パラメータがｐであるバーヌリー分布を示し、ｒは、分割したインデックスセット、即ちランダム分割方式と均一等分分割方式の二種類の分割方式を示す。ここで、

ＲＡＮＤ（ｍ、ｎ）は、区間［１、ｎ］内にｍ個の重複していない整数をランダムにサプリングすることを示す。ここで、ｎは、Ｔであり、ｍは、Ｋ－１であり、ｓ＝０である場合、対応する分割方式が均一等分方式であることを示し、ｓ＝１である場合、対応する分割方式がランダム分割であることを示し、ｐは、選択概率である。

Ｐが比較的に大きい値である場合、トレーニングしたモデルは、より良いエラー回復能力を有し、それに対し、ｐが比較的に小さい値である場合、長さが近いセグメントを生成するようにモデルを激励することができ、即ち、翻訳速度は、より速いことである。両者のバランスを取るために、本出願は、トレーニング過程で、ｐを１から０に徐々に下げて、選択概率ｐによってランダム分割方式と均一等分分割方式にそれぞれ対応する比重を決定し、翻訳速度とエラー回復能力のバランスが比較的に良く取られるようにする。

予め指定されたサンプル長さに基づくことなく、上記方式によって各サブ文句に対応するサンプル長さを動的に決定することで、モデルの翻訳能力をより強くすることができる。

実際の応用では、トレーニングで得た選択概率に基づき、どの分割方式で文句の長さを決定するかを選択することができ、一例として、選択概率（１－ｐ）で均一等分分割方式を選択し、選択概率ｐでランダム分割方式を選択し、予め設置されたサブ文句数に従って、翻訳対象文句を分割することができる。

一例として、上記の選択概率を決定した後、即ち、概率１－ｐで均一等分分割方式を選択し、概率ｐでランダム分割方式を選択してサンプル翻訳文句を分割することが決定されており、該示例では、一つのトレーニングサンプルにおけるサンプル翻訳文句は、ｙであり、サブ文句数Ｋに基づき、該サンプル翻訳文句ｙを複数のサブ文句セグメント、それぞれＳ¹、Ｓ²・・・、Ｓ^Kに分け、予め設置されたサブ文句数Ｋと翻訳終了識別子に基づき、各セグメントに対応するサンプル長さＬを動的に決定することができ、具体的には、以下の通りである。

例えば、一つのサブサンプル文句は、Ｓⁱであり、該Ｓⁱにおけるｔ番目の単語に対応する翻訳結果が候補翻訳単語セットＶにおけるどの単語である可能性が一番大きいかは、以下の式によって決定されてもよい。

ここで、

は、Ｓⁱにおけるｔ番目の単語に対応する翻訳結果において可能性が一番大きい単語であり、候補翻訳単語セットには削除識別子と翻訳終了識別子とが含まれる。

には、以下の三つの可能性がある。
（１）

が完全でなく、Ｓⁱにおいて対応する翻訳対象単語がまだ完全に翻訳されていなく、該セグメント生成過程が継続され、即ち、該Ｓⁱに対応するサンプルの翻訳対象文句を翻訳し続けることを示す。
（２）

が完全であり、Ｓⁱにおいて対応する翻訳対象単語が全て翻訳されており、該セグメント生成過程が停止され、即ち、Ｓⁱに対応するサンプルの翻訳対象文句に対する翻訳を終了することを示す。
（３）

が冗長であり、該セグメントが削除されるべきであり、該セグメントの生成過程が停止されるべきであり、該セグメントが削除される以上、該セグメントに対応するサンプルの翻訳対象文句を翻訳する必要がないことを示す。

全てのセグメントの生成が停止されると、翻訳過程全体は、停止される。各セグメントに対応するサンプルの翻訳対象文句の文句の長さＬを決定する。

図２及び以下の具体的な例に基づいて、本出願の翻訳モデルのトレーニング過程を詳細に記述し、具体的な方案は、以下の通りである。

図２に示される翻訳モデルトレーニング概略図を参照し、該例では、一つのトレーニングサンプルにおけるサンプル翻訳文句は、ｙであり、サブ文句数は、Ｋであり、サブ文句数Ｋに基づき、該サンプル翻訳文句ｙを複数のサブ文句セグメント、それぞれＳ¹、Ｓ²・・・、Ｓ^Kに分け、記述を簡単にするために、該例では、各サブ文句に対応する文句の長さは、同じであり、いずれもＬと表記される。

各トレーニングサンプルに基づき、初期ニューラルネットワークモデルをトレーニングし、初期ニューラルネットワークモデルは、

という概率式によって示されてもよい。

該式では、ｘは、サンプルの翻訳対象文句であり、

は、ｉ番目のセグメントのｔ番目の単語を示し、

は、ｉ番目のセグメントのｔ番目の前の翻訳結果を示す。

該例では、サンプルの翻訳対象文句は、図２に示されるドイツ語である「ｅｓｇｉｂｔ……Ａｎｓａｔｚ」であり、該初期ニューラルネットワークモデルにはエンコーダ（Ｅｎｃｏｄｅｒ）とデコーダ（Ｄｅｃｏｄｅｒ）とが含まれ、まず、該サンプルの翻訳対象文句をエンコーダに入力し、そして、エンコーダの出力をデコーダの入力として、この例では、Ｋは、４であり、各サブ文句は、それぞれセグメント１、セグメント２、セグメント３、セグメント４である。該例では、セグメント１に対応する文句の長さＬは、２であり、セグメント２に対応する文句の長さＬは、３であり、セグメント３に対応する文句の長さＬは、２であり、セグメント４に対応する文句の長さＬは、３である。翻訳開始識別子は、ＢＯＳであり、翻訳終了識別子は、ＥＯＳであり、削除識別子は、ＤＥＬである。

各サブサンプル文句を同時に翻訳する時、各サブ文句に対応する文句に対して、一単語ずつ翻訳し、翻訳する時、候補翻訳単語セットＶから各サブ文句における一番目の単語の候補翻訳単語を決定し、該候補翻訳単語が翻訳開始識別子である場合、各サブサンプル文句の一番目の単語を同時に翻訳し、セグメント１における一番目の単語に対応する翻訳結果は、「ｔｈｅｒｅ」であり、セグメント２における一番目の単語に対応する翻訳結果は、「ｌｏｔｓ」であり、セグメント３における一番目の単語に対応する翻訳結果は、「ａ」であり、セグメント４における一番目の単語に対応する翻訳結果は、「ｄｏｉｎｇ」である。

各サブサンプル文句における一番目の単語を翻訳した後、図２に示される各サブ文句における太い線枠に示される内容のように、各太い線枠に対応する内容は、翻訳されていた。これにより、各太い線枠に対応する内容に基づき、後続の翻訳過程で、各隣接する二つのサブ文句間の翻訳の正確性を確保し、翻訳エラーが現れないようにすることができる。各サブサンプル文句における一番目の単語を翻訳した後、候補翻訳単語セットに基づいて各サブ文句にそれぞれ対応する二番目の単語を翻訳し続け、該二番目の単語に対応する候補翻訳単語が翻訳終了識別子ＥＯＳである場合、該セグメントサンプル文句に対する翻訳を終了する。

図２に示されるように、各サブサンプル文句には、いずれも翻訳開始識別子と翻訳終了識別子とが含まれており、翻訳開始識別子に基づいていつ翻訳を開始するかを判断し、翻訳終了識別子に基づいていつ翻訳を終了するかを判断する。

翻訳過程において、翻訳終了識別子に基づいて各サブ文句に対応するサンプルの翻訳対象文句をそれぞれ翻訳してもよく、具体的には、以下の通りである。

一つのセグメント、例えば、サブサンプル文句Ｓⁱに対し、該Ｓⁱにおいてｔ番目の単語に対応する翻訳結果が候補翻訳単語セットＶにおけるどの単語である可能性が一番大きいかは、

という式によって決定されてもよい。

ここで、

には、以下の三種類の可能性がある。
（１）

が完全でなく、Ｓⁱにおいて対応する翻訳対象単語がまだ完全に翻訳されていなく、該セグメント生成過程が継続され、即ち該Ｓⁱに対応するサンプルの翻訳対象文句を翻訳し続けることを示す。
（２）

全てのセグメントの生成が停止されると、翻訳過程全体は、停止される。

翻訳過程全体が停止された後、得た各サブ文句に対応する初期翻訳結果には、削除識別子ＤＥＬが含まれる場合、該サブ文句に対応する初期翻訳結果が重複翻訳結果であることを示し、該重複翻訳結果を削除してもよい。

削除した後、サンプルの翻訳対象文句に対応する翻訳予測結果、図２に示される「ｔｈｅｒｅａｒｅｌｏｔｓｏｆｆａｒｍｅｒｓｄｏｉｎｇｔｈｉｓｔｏｄａｙ」を獲得することができる。そして、翻訳予測結果と該サンプルの翻訳対象文句に対応する翻訳タグ結果に基づき、初期ニューラルネットワークモデルの損失関数が収束されるか否かを決定し、該損失関数が収束された時、トレーニングを終了し、トレーニング終了時の初期ニューラルネットワークモデルを翻訳モデルとする。

図１Ｂに示される方法と同じ原理に基づき、本出願の実施例はさらに、翻訳装置２０を提供した。図４に示すように、該翻訳装置２０は、翻訳対象文句取得モジュール２１０、サブ文句決定モジュール２２０、翻訳モジュール２３０、ターゲット翻訳文句決定モジュール２４０を含んでもよく、ここで、
翻訳対象文句取得モジュール２１０は、翻訳対象文句を取得するために用いられ、
サブ文句決定モジュール２２０は、予め設定された数に基づき、翻訳対象文句を区分し、予め設定された数のサブ文句を獲得するために用いられ、
翻訳モジュール２３０は、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するために用いられ、
ターゲット翻訳文句決定モジュール２４０は、意味に基づいて各サブ文句に対応する翻訳結果を融合させ、翻訳対象文句に対応するターゲット翻訳文句を獲得するために用いられる。

好ましくは、各サブ文句のうちの少なくとも二つのサブ文句に対応する文句の長さは異なり、文句の長さは、該当するサブ文句に含まれる単語の数を特徴づけている。

好ましくは、該装置は、
予め設定された数と翻訳対象文句の文句の長さに基づき、各サブ文句における第一の設定割合を満たす第一のサブ文句の文句の長さを第一の長さに設置し、各サブ文句における第二の設定割合を満たす第二のサブ文句の文句の長さを第二の長さに設置することをさらに含み、
ここで、第一の設定割合と第二の設定割合の和は、１である。

好ましくは、翻訳モジュール２３０は、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得する時、具体的には、
候補翻訳単語セットから各サブ文句に対応する翻訳結果を獲得するために用いられる。

好ましくは、候補翻訳単語セットには翻訳終了識別子が含まれ、いずれか一つのサブ文句に対して、該サブ文句に対応する文句の長さは、
候補翻訳単語セットから該サブ文句における各単語に対応する候補翻訳単語を決定すること、
決定した各候補翻訳単語と翻訳終了識別子に基づき、該サブ文句に対応する文句の長さを決定することによって決定されたものである。

好ましくは、候補翻訳単語セットには翻訳開始識別子と翻訳終了識別子とが含まれる。

翻訳モジュール２３０は、候補翻訳単語セットから各サブ文句に対応する翻訳結果を獲得する時、具体的には、
いずれか一つのサブ文句に対して、候補翻訳単語セットから該サブ文句における各翻訳対象単語に対応する候補翻訳単語を決定すること、
候補翻訳単語が翻訳開始識別子である場合、該サブ文句に対する翻訳を開始すること、
候補翻訳単語が翻訳開始識別子でなく、且つ翻訳終了識別子でない場合、候補翻訳単語が翻訳終了識別子であるまで該サブ文句を翻訳し続け、該サブ文句に対する翻訳を終了し、該サブ文句に対応する翻訳結果を獲得することに用いられる。

好ましくは、翻訳モジュール２３０は、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得する時、具体的には、
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する初歩的な翻訳結果を獲得すること、
各初歩的な翻訳結果のうちのいずれか一つの初歩的な翻訳結果に翻訳エラーがある場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行い、修正後の初歩的な翻訳結果と他の未修正の初歩的な翻訳結果に基づき、各サブ文句に対応する翻訳結果を獲得することに用いられる。

好ましくは、翻訳エラーは、漏れ単語又は重複翻訳単語のうちの少なくとも一つを含み、該装置は、翻訳エラー決定モジュールをさらに含む。

翻訳エラー決定モジュールは、いずれか一つのサブ文句に対して、該サブ文句に対応する初歩的な翻訳結果における各単語に基づき、該サブ文句に翻訳エラーがあるか否かを決定するために用いられ、
及び／又は、
翻訳エラー決定モジュールは、各サブ文句のうちのいずれか二つの隣接するサブ文句に対して、前記二つの隣接するサブ文句のうちの一番目のサブ文句に対応する初歩的な翻訳結果における最後の単語と前記二つの隣接するサブ文句のうちの二番目のサブ文句に対応する初歩的な翻訳結果における一番目の単語に基づき、前記二つの隣接するサブ文句に前記翻訳エラーがあるか否かを決定するために用いられる。

翻訳エラーが漏れ単語を含む場合、サブ文句翻訳モジュール２２０は、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行う時、具体的には、漏れ単語を翻訳するために用いられる。

翻訳エラーが重複翻訳単語を含む場合、サブ文句翻訳モジュール２２０は、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行う時、具体的には、
翻訳エラーがある初歩的な翻訳結果から、重複翻訳単語を削除するために用いられる。

好ましくは、各サブ文句に対応する翻訳結果は、候補翻訳単語セットから決定されたものであり、候補翻訳単語セットには、削除識別子がさらに含まれ、削除識別子は、対応するサブ文句の翻訳結果が重複翻訳単語であることを標識するために用いられる。

翻訳モジュール２３０は、翻訳エラーがある初歩的な翻訳結果から、重複翻訳単語を削除する時、具体的には、
翻訳エラーがある初歩的な翻訳結果から、削除識別子に対応する重複翻訳単語を削除するために用いられる。

好ましくは、予め設定された数に基づき、翻訳対象文句を区分し、予め設定された数のサブ文句を得て、及び各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得することは、翻訳モデルによって得たものである。

該装置は、翻訳モデルをトレーニングするためのモデルトレーニングモジュールをさらに含み、ここで、翻訳モデルは、
各トレーニングサンプルを取得し、前記トレーニングサンプルにはサンプルの翻訳対象文句と前記サンプルの翻訳対象文句に対応するサンプル翻訳文句とが含まれ、前記サンプル翻訳文句にはサンプルサブ文句数に応じて前記サンプル翻訳文句を区分して得た各サブサンプル文句が含まれ、各サブサンプル文句にタグが付帯されており、前記タグは、前記サブサンプル文句に対応するサンプルの翻訳対象文句の翻訳タグ結果を特徴づけていること、
各トレーニングサンプルに基づき、初期ニューラルネットワークモデルの損失関数が収束されるまで前記初期ニューラルネットワークモデルをトレーニングし、トレーニング終了時の初期ニューラルネットワークモデルを前記翻訳モデルとすることによってトレーニングして得たものである。

好ましくは、いずれか一つのトレーニングサンプルは、トレーニングサンプルにおける各サブサンプル文句のサンプル長さは、
離散型確率分布、前記サンプル翻訳文句の文句の長さ、前記サンプルサブ文句数と分割方式に基づき、前記分割方式に対応する選択概率を決定すること、
前記分割方式に対応する選択概率と前記サンプル翻訳文句の文句の長さに基づき、各サブサンプル文句のサンプル長さを決定することによって決定されたものである。

好ましくは、いずれか一つのトレーニングサンプルは、トレーニングサンプルには、重複翻訳単語を含むサンプル翻訳文句がさらに含まれ、重複翻訳単語を含むサンプル翻訳文句は、
サンプル翻訳文句をサンプルサブ文句数よりも小さい第一の数のサブ文句に分割すること、
第一の数のサブ文句のうちの少なくとも一つのサブ文句を、重複翻訳単語として決定すること、
重複翻訳単語をサンプル翻訳文句に插入し、重複翻訳単語を含むサンプル翻訳文句を獲得することによって決定されて得られたものである。

本出願の実施例による翻訳装置が本出願の実施例における翻訳方法を実行可能な装置であるため、本出願の実施例による翻訳方法に基づき、当業者は、本出願の実施例の翻訳装置の具体的な実施の形態及びその様々な変化形式を知ることができ、そのため、ここでは、該翻訳装置がどのように本出願の実施例における翻訳方法を実現するかについては、さらに詳細に紹介しない。当業者が本出願の実施例における翻訳方法によって採用される翻訳装置を実施すれば、いずれも本出願が保護しようとする範囲に属するものとする。

本出願の実施例による翻訳方法と翻訳装置と同じである原理に基づき、本出願の実施例はさらに、電子機器を提供した。該電子機器は、プロセッサとメモリとを含んでもよい。ここで、メモリには、可読命令が記憶されており、可読命令がプロセッサによってローディングされて実行される時、本出願のいずれか一つの実施例に示す方法を実現させることができる。

一例として、図５は、本出願の実施例の方案に適用される電子機器４０００の構造概略図を示した。図５に示されるように、該電子機器４０００は、プロセッサ４００１とメモリ４００３とを含んでもよい。ここで、プロセッサ４００１は、メモリ４００３に接続され、例えば、バス４００２によって接続される。好ましくは、電子機器４０００は、送受信器４００４をさらに含んでもよい。なお、実際の応用では、送受信器４００４は、一つに限定されず、該電子機器４０００の構造は、本出願の実施例に対する限定を構成しない。

プロセッサ４００１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、中央プロセッサ）、汎用プロセッサ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、データ信号プロセッサ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、特定用途向け集積回路）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、フィールドプログラマブルゲートアレイ）又は他のプログラマブル論理デバイス、トランジスタ論理デバイス、ハードウェア部品又はその任意の組み合わせであってもよい。それは、本出願の開示内容を結びつけて記述されている様々な例示的な論理ブロック、モジュールと回路を実現させるか、又は実行させることができる。プロセッサ４００１は、計算機能を実現する組み合わせであってもよく、例えば、一つ又は複数のマイクロプロセッサの組み合わせ、ＤＳＰとマイクロプロセッサの組み合わせなどを含む。

バス４００２は、上記コンポーネント間で情報を伝送する一つの経路を含んでもよい。バス４００２は、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ、外付け部品相互接続仕様）バス又はＥＩＳＡ（ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、拡張業界標準アーキテクチャ）バスなどであってもよい。バス４００２は、アドレスバス、データバス、制御バスなどに分けてもよい。表示を容易にするために、図５には、一本の太い線のみで示されるが、一本のバス又は一種類のタイプのバスのみあることが示されていない。

メモリ４００３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ、リードオンリーメモリ）又は静的情報と命令を記憶可能な他のタイプの静的記憶機器、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ランダムアクセスメモリ）又は情報と命令を記憶可能な他のタイプの動的記憶機器であってもよく、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、電気的消去可能プログラマブルリードオンリーメモリ）、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、リードオンリーディスク）又は他のディスク記憶、ディスク記憶（圧縮ディスク、エキサイティングディスク、ディスク、デジタル汎用ディスク、ブルーレイディスクなどを含み）、磁気ディスク記憶媒体又は他の磁記憶機器、又は命令又はデータ構造形式を有する望ましいプログラムコードを付帯又は記憶するために用いることができ、且つコンピュータによって記憶可能な任意の他の媒体であってもよく、しかしそれに限らない。

メモリ４００３は、本出願方案を実行するアプリケーションプログラムコードを記憶するために用いられ、且つプロセッサ４００１によって実行される。プロセッサ４００１は、メモリ４００３に記憶されたアプリケーションプログラムコードを実行するために用いられ、前述したいずれか一つの方法の実施例に示される方案を実現させる。

理解すべきことは、図面のフローチャートにおける各ステップが矢印の指示に従って順に表示されるが、これらのステップ、必ず矢印により指示される順序で順に実行されなければならない。本明細書に明確な説明がない限り、これらのステップの実行には、厳しい順序制限がなく、他の順序で実行されてもよい。そして、図面のフローチャートにおける少なくとも一部のステップは、複数のサブステップ又は複数のフェーズを含んでもよく、これらのサブステップ又はフェーズは、必ずしも同じ時点で実行が完了しているわけではなく、異なる時点で実行されてもよく、その実行順序は、必ずしも順次でなく、他のステップ又は他のステップのサブステップ又はフェーズの少なくとも一部と順番に又は交互に実行されてもよい。

以上は、本出願の一部の実施の形態に過ぎず、指摘すべきなのは、当業者にとって、本出願の原理から逸脱しない前提で、若干の改良と修正を行ってもよく、これらの改良と修正は、いずれも本出願の保護範囲と見なすべきである。

Claims

電子機器により実行される翻訳方法であって、
翻訳対象文句を取得するステップと、
翻訳モデルを用いて、予め設定された数に基づき、前記翻訳対象文句を区分し、前記予め設定された数のサブ文句を獲得するステップと、
前記翻訳モデルを用いて、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するステップと、
各サブ文句に対応する翻訳結果を融合させ、前記翻訳対象文句に対応するターゲット翻訳文句を獲得するステップと、を含み、
前記翻訳モデルは、各トレーニングサンプルを用いてトレーニングを行うことによって獲得され、
前記トレーニングサンプルにはサンプルの翻訳対象文句と前記サンプルの翻訳対象文句に対応するサンプル翻訳文句とが含まれ、前記サンプル翻訳文句にはサンプルサブ文句数に応じて前記サンプル翻訳文句を区分して獲得された各サブサンプル文句が含まれ、各サブサンプル文句にタグが付帯されており、前記タグは、前記サブサンプル文句に対応するサンプルの翻訳対象文句の翻訳タグ結果を特徴づけており、
いずれか一つのトレーニングサンプルに対して、該トレーニングサンプルにおける各サブサンプル文句のサンプル長さを決定する際に、
離散型確率分布、前記サンプル翻訳文句の文句の長さ、前記サンプルサブ文句数及び分割方式に基づき、前記分割方式に対応する選択概率を決定し、
前記分割方式に対応する選択概率と前記サンプル翻訳文句の文句の長さに基づき、各サブサンプル文句のサンプル長さを決定する、ことを特徴とする翻訳方法。
各サブ文句のうちの少なくとも二つのサブ文句に対応する文句の長さは異なり、前記文句の長さは、該当するサブ文句に含まれる単語の数を特徴づけている、請求項１に記載の方法。
各サブ文句のうちの第一の設定割合に対応する数の第一のサブ文句の文句の長さを第一の長さに設置するステップと、各サブ文句のうちの第二の設定割合に対応する数の第二のサブ文句の文句の長さを第二の長さに設置するステップとをさらに含み、
前記第一の設定割合と前記第二の設定割合の和は、１である、請求項２に記載の方法。
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得する前記ステップは、
候補翻訳単語セットから各サブ文句に対応する翻訳結果を獲得するステップを含む、請求項１から３のいずれか１項に記載の方法。
前記候補翻訳単語セットには翻訳終了識別子が含まれ、前記方法は、
いずれか一つのサブ文句に対して、
前記候補翻訳単語セットから該サブ文句における各単語に対応する候補翻訳単語を決定し、
前記候補翻訳単語が前記翻訳終了識別子である場合、該サブ文句に対する翻訳を終了し、翻訳終了時に翻訳済みの前記候補翻訳単語の数に基づき、該サブ文句に対応する文句の長さを決定することをさらに含む、請求項４に記載の方法。
前記候補翻訳単語セットには翻訳開始識別子と翻訳終了識別子とが含まれ、
候補翻訳単語セットから各サブ文句に対応する翻訳結果を獲得する前記ステップは、
いずれか一つのサブ文句に対して、前記候補翻訳単語セットから該サブ文句における各翻訳対象単語に対応する候補翻訳単語を決定するステップと、
前記候補翻訳単語が前記翻訳開始識別子である場合、前記翻訳開始識別子の直後の候補翻訳単語から該サブ文句に対する翻訳を開始するステップと、
前記候補翻訳単語が前記翻訳開始識別子でなく、且つ前記翻訳終了識別子でない場合、前記候補翻訳単語が前記翻訳終了識別子となるまで該サブ文句における各単語を一つずつ翻訳するように該サブ文句を翻訳し続け、前記候補翻訳単語が前記翻訳終了識別子である場合、該サブ文句に対する翻訳を終了し、該サブ文句に対応する翻訳結果を獲得するステップと、を含む、請求項４に記載の方法。
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得する前記ステップは、
各サブ文句をそれぞれ翻訳し、各サブ文句に対応する初歩的な翻訳結果を獲得するステップと、
各初歩的な翻訳結果のうちのいずれか一つの初歩的な翻訳結果に翻訳エラーがある場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行い、修正後の初歩的な翻訳結果と他の未修正の初歩的な翻訳結果に基づき、各サブ文句に対応する翻訳結果を獲得するステップと、を含む、請求項１から３のいずれか１項に記載の方法。
前記翻訳エラーは、漏れ単語又は重複翻訳単語のうちの少なくとも一つを含み、前記方法は、
いずれか一つのサブ文句に対して、該サブ文句に対応する初歩的な翻訳結果における各単語に基づき、該サブ文句に前記翻訳エラーがあるか否かを決定するステップをさらに含む、請求項７に記載の方法。
前記翻訳エラーは、漏れ単語又は重複翻訳単語のうちの少なくとも一つを含み、前記方法は、
各サブ文句のうちのいずれか二つの隣接するサブ文句に対して、前記二つの隣接するサブ文句のうちの一番目のサブ文句に対応する初歩的な翻訳結果における最後の単語と前記二つの隣接するサブ文句のうちの二番目のサブ文句に対応する初歩的な翻訳結果における一番目の単語に基づき、前記二つの隣接するサブ文句に前記翻訳エラーがあるか否かを決定するステップをさらに含む、請求項７に記載の方法。
前記翻訳エラーが漏れ単語を含む場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行う前記ステップは、
前記漏れ単語を翻訳するステップを含む、請求項７に記載の方法。
前記翻訳エラーが重複翻訳単語を含む場合、翻訳エラーがある初歩的な翻訳結果に対してエラー修正を行う前記ステップは、
前記翻訳エラーがある初歩的な翻訳結果から、前記重複翻訳単語を削除するステップを含む、請求項７に記載の方法。
各サブ文句に対応する翻訳結果は、候補翻訳単語セットから決定されたものであり、前記候補翻訳単語セットには削除識別子が含まれ、前記削除識別子は、対応するサブ文句の翻訳結果が重複翻訳単語であることを標識するために用いられ、
前記翻訳エラーがある初歩的な翻訳結果から、前記重複翻訳単語を削除する前記ステップは、
前記翻訳エラーがある初歩的な翻訳結果から、前記削除識別子に対応する重複翻訳単語を削除するステップを含む、請求項１１に記載の方法。
各トレーニングサンプルに基づき、初期ニューラルネットワークモデルの損失関数が収束されるまで前記初期ニューラルネットワークモデルをトレーニングし、トレーニング終了時の初期ニューラルネットワークモデルを前記翻訳モデルとすることとによって、前記翻訳モデルを獲得する、請求項１に記載の方法。
いずれか一つのトレーニングサンプルは、前記トレーニングサンプルに、重複翻訳単語を含むサンプル翻訳文句がさらに含まれ、前記方法は、
前記サンプル翻訳文句を前記サンプルサブ文句数よりも小さい第一の数のサブ文句に分割すること、
前記第一の数のサブ文句のうちの少なくとも一つのサブ文句を、前記重複翻訳単語として決定すること、
前記重複翻訳単語を前記サンプル翻訳文句に插入し、前記重複翻訳単語を含むサンプル翻訳文句を獲得することによって前記重複翻訳単語を含むサンプル翻訳文句を決定することをさらに含む、請求項１３に記載の方法。
翻訳装置であって、
翻訳対象文句を取得するための翻訳対象文句取得モジュールと、
翻訳モデルを用いて、予め設定された数に基づき、前記翻訳対象文句を区分し、前記予め設定された数のサブ文句を獲得するためのサブ文句決定モジュールと、
前記翻訳モデルを用いて、各サブ文句をそれぞれ翻訳し、各サブ文句に対応する翻訳結果を獲得するための翻訳モジュールと、
各サブ文句に対応する翻訳結果を融合させ、前記翻訳対象文句に対応するターゲット翻訳文句を獲得するためのターゲット翻訳文句決定モジュールと、を含み、
前記翻訳モデルは、各トレーニングサンプルを用いてトレーニングを行うことによって獲得され、
前記トレーニングサンプルにはサンプルの翻訳対象文句と前記サンプルの翻訳対象文句に対応するサンプル翻訳文句とが含まれ、前記サンプル翻訳文句にはサンプルサブ文句数に応じて前記サンプル翻訳文句を区分して獲得された各サブサンプル文句が含まれ、各サブサンプル文句にタグが付帯されており、前記タグは、前記サブサンプル文句に対応するサンプルの翻訳対象文句の翻訳タグ結果を特徴づけており、
いずれか一つのトレーニングサンプルに対して、該トレーニングサンプルにおける各サブサンプル文句のサンプル長さを決定する際に、
離散型確率分布、前記サンプル翻訳文句の文句の長さ、前記サンプルサブ文句数及び分割方式に基づき、前記分割方式に対応する選択概率を決定し、
前記分割方式に対応する選択概率と前記サンプル翻訳文句の文句の長さに基づき、各サブサンプル文句のサンプル長さを決定する、ことを特徴とする翻訳装置。
メモリとプロセッサとを含む電子機器であって、
前記メモリには、コンピュータプログラムが記憶されており、
前記プロセッサは、前記コンピュータプログラムを実行して請求項１から１４のいずれか１項に記載の方法を実現する、ことを特徴とする電子機器。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項１から１４のいずれか１項に記載の方法を実現する、ことを特徴とするコンピュータプログラム。