JP7395553B2

JP7395553B2 - 文章翻訳方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7395553B2
Application number: JP2021194225A
Authority: JP
Inventors: ▲伝強▼ ▲張▼; 睿卿 ▲張▼; 芝李; 中▲軍▼ 何; ▲華▼ ▲呉▼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2021-11-30
Publication date: 2023-12-11
Anticipated expiration: 2041-11-30
Also published as: JP2022028897A; US20210326538A1; CN112287698B; CN112287698A

Description

本出願は、コンピュータ技術の分野における音声、自然言語処理、深層学習技術の分野に関し、特に文章翻訳方法、装置、電子機器、記憶媒体及びコンピュータープログラム製品に関する。

現在、人工知能、自然言語処理などの技術の発展に伴い、音声翻訳技術は同時通訳、外国語教育などのシナリオで広く応用されておる。例えば、同時通訳シナリオでは、音声翻訳技術により、話者の言語タイプを異なる言語タイプに同期的に変換できるため、人々のコミュニケーションを容易にする。しかしながら、関連技術における音声翻訳方法は、翻訳結果に翻訳の一貫性がない、コンテキストの翻訳が一致しないなどの問題を引き起こしやすい。

文章翻訳方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品を提供する。

第１態様によれば、文章翻訳方法を提供し、
翻訳対象の文章を取得するステップと、
前記翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、前記文章翻訳モデルによって前記翻訳対象の文章を複数のセマンティックユニットに分割し、現在のセマンティックユニットの前のＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットと前記グローバルコンテキストセマンティックユニットとに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するステップであって、前記Ｎは整数であり、前記Ｍは整数であるステップと、を含む。

第２態様によれば、文章翻訳装置を提供し、翻訳対象の文章を取得するための取得モジュールと、前記翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、前記文章翻訳モデルによって前記翻訳対象の文章を複数のセマンティックユニットに分割し、現在のセマンティックユニットの前のＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットと前記グローバルコンテキストセマンティックユニットとに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するための入力モジュールであって、前記Ｎは整数であり、前記Ｍは整数である入力モジュールと、を含む。

第３態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが本出願の第１態様に記載の文章翻訳方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の第１態様に記載の文章翻訳方法を実行させる。

第５態様によれば、コンピュータプログラムが含まれるコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本出願の第１態様に記載の文章翻訳方法が実現される。
第６態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本出願の第１態様に記載の文章翻訳方法が実現される。

なお、この部分に記載されている内容は、本出願の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の第１実施例に係る文章翻訳方法の概略フローチャートである。本出願の第２実施例に係る文章翻訳方法における現在のセマンティックユニットの翻訳結果を生成することの概略フローチャートである。本出願の第３実施例に係る文章翻訳方法における現在のセマンティックユニットのベクトル表現を生成することの概略フローチャートである。本出願の第４実施例に係る文章翻訳方法における単語セグメンテーションのグローバル融合ベクトル表現を生成することの概略図である。本出願の第１実施例に係る文章翻訳装置のブロック図である。本出願の第２実施例に係る文章翻訳装置のブロック図である。本出願の実施例に係る文章翻訳方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

音声は、音声認識、音声インタラクションなどの技術分野を含むことができ、人工知能の分野の重要な方向の１つである。

音声認識（ＶｏｉｃｅＲｅｃｏｇｎｉｔｉｏｎ）は、機器に認識と理解のプロセスを通じて音声信号を対応するテキストまたは命令に変換させる技術であり、主に特徴抽出技術、モードマッチング基準及びモデルトレーニング技術の３つの側面を含む。

音声インタラクション（ＶｏｉｃｅＩｎｔｅｒａｃｔｉｏｎ）は、機械とユーザが音声を情報媒体としてインタラクション、コミュニケーション、情報交換などのインタラクション動作を行う技術であり、従来のヒューマンマシンインタラクションと比較して、便利で迅速で、ユーザの快適性が高いという利点がある。

自然言語処理（Ｎａｔｕｒａl ＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、ＮＬＵ）は、自然言語通信を効果的に実現できるコンピュータシステム、特にその中のソフトウェアシステムを研究する科学であり、コンピュータ科学の分野と人工知能の分野の重要な方向の１つである。

深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ、ＤＬ）は、機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＭＬ）分野における新しい研究方向であり、サンプルデータの固有規則と表示レベルを学習することで、機械が人間のように分析と学習能力を有し、文字、画像及び音声などのデータを認識できるようにする科学であり、音声と画像認識に広く応用されておる。

図１は、本出願の第１実施例に係る文章翻訳方法の概略フローチャートである。

図１に示すように、本出願の第１実施例に係る文章翻訳方法は、以下のステップ１０１～１０２を含む。

ステップ１０１において、翻訳対象の文章を取得する。

なお、本出願の実施例に係る文章翻訳方法の実行主体はデータ情報処理能力を有すハードウェア機器及び／又は当該ハードウェア機器の動作を駆動するために必要なソフトウェアであってもよい。選択的に、実行主体は、ワークステーション、サーバ、コンピュータ、ユーザ端末及び他のデバイスを含むことができる。ここで、ユーザ端末は、携帯電話、コンピュータ、インテリジェント音声インタラクティブデバイス、インテリジェント家電、車載端末などを含むが、これらに限定されない。

本出願の実施例では、翻訳対象の文章を取得することができる。なお、翻訳対象の文章は、複数の文で構成されてもよい。

選択的に、翻訳対象の文章は、録画、ネットワーク伝送などの方式によって取得されることができる。

例えば、録画の方式を用いて翻訳対象の文章を取得する場合、デバイス上に音声収集装置があり、音声収集装置はマイクロフォン（Ｍｉｃｒｏｐｈｏｎｅ）、マイクロフォンアレイ（ＭｉｃｒｏｐｈｏｎｅＡｒｒａｙ）などであってもよい。または、ネットワーク伝送の方式を用いて翻訳対象の文章を取得する場合、デバイス上にネットワーク装置があり、ネットワーク装置を介して他のデバイスまたはサーバとネットワーク伝送を行うことができる。

なお、翻訳対象の文章は、オーディオ、テキストなどの形式であってもよく、ここではあまり限定されない。

なお、本出願の実施例では、翻訳対象の文章の言語タイプも翻訳結果の言語タイプも限定されない。

ステップ１０２において、翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、文章翻訳モデルによって翻訳対象の文章を複数のセマンティックユニットに分割し、現在のセマンティックユニットの前のＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、ローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニットの翻訳結果を生成し、Ｎは整数であり、Ｍは整数である。

関連技術では、文レベルのバイリンガル文のペアに基づいて翻訳モデルをトレーニングし、翻訳モデルの翻訳結果が柔軟でない。例えば、文章翻訳シナリオに対して、翻訳対象のテキストは複数の文で構成される文章であり、この時翻訳モデルの翻訳結果には翻訳の一貫性がなく、コンテキストの翻訳が一致しないという問題がある。例えば、文章翻訳シナリオがアニメーションレンダリングというテーマ講演である場合、翻訳対象のテキストが「Ｉｔｓｔａｒｔｓｗｉｔｈｍｏｄｅlｉｎｇ」である場合、この時翻訳モデルの翻訳結果は「造形から始まる」であるが、この時翻訳対象のテキストの「ｍｏｄｅlｉｎｇ」について、コンテキストと組合わせてそのセマンティックが造形ではなく、モデリングを意味し、翻訳結果が「モデリングから始まる」であることは話者の本当の意図により一致している。

この問題を解決するために、本出願では、翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、文章翻訳モデルによって翻訳対象の文章を複数のセマンティックユニットに分割し、現在のセマンティックユニットの前のＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、ローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニットの翻訳結果を生成でき、Ｎは整数であり、Ｍは整数である。

なお、文章翻訳モデルは、翻訳対象の文章を複数のセマンティックユニットに分割し、ローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニットの翻訳結果を生成することができ、関連技術における翻訳に一貫性がなく、コンテキストの翻訳が一致しないという問題を解決でき、同時通訳シナリオなどの文章翻訳シナリオに適応する。

選択的に、Ｎ、Ｍはいずれも実際の状況に応じて設定されてもよい。

本出願の一実施例では、現在のセマンティックユニットの前に合計で（Ｎ＋Ｍ）個のセマンティックユニットがあり、この時に決定されたローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとが現在のセマンティックユニットの前のすべてのセマンティックユニットを構成し、この時現在のセマンティックユニットの前のすべてのセマンティックユニットを使用して現在のセマンティックユニットの翻訳結果を生成することができる。

本出願の一実施例では、現在のセマンティックユニットが翻訳対象の文章の１番目のセマンティックユニットである場合、即ち現在のセマンティックユニットの前に他のセマンティックユニットが存在しない場合、Ｎ＝０で、Ｍ＝０である。

例えば、翻訳対象の文章が

である場合、上記翻訳対象の文章を、

などの複数のセマンティックユニットに分割することができる。

現在のセマンティックユニットが

である場合、現在のセマンティックユニット

の前の２つのセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、即ち、

をローカルコンテキストセマンティックユニットとして決定でき、ローカルコンテキストセマンティックユニットの前の４つのセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、即ち、

をグローバルコンテキストセマンティックユニットとして決定でき、上記決定されたローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニット

の翻訳結果を生成する。当該実施例では、Ｎは２であり、Ｍは４である。

または、現在のセマンティックユニットが

である場合、現在のセマンティックユニット

は、翻訳対象の文章の１番目のセマンティックユニットであり、この時ローカルコンテキストセマンティックユニット及びグローバルコンテキストセマンティックユニットが存在せず、即ち、Ｎ＝０で、Ｍ＝０である。

以上のように、本出願の実施例に係る文章翻訳方法によれば、翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、ローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて現在のセマンティックユニットの翻訳結果を生成することで、関連技術における翻訳に一貫性がなく、コンテキストの翻訳が一致しないという問題を解決でき、翻訳結果の精度を向上させ、文章翻訳シナリオに適応する。

上記任意の実施例に基づいて、図２に示すように、ステップ１０２におけるローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニットの翻訳結果を生成するステップは、以下のステップ２０１～２０３を含むことができる。

ステップ２０１において、グローバルコンテキストセマンティックユニットのベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成する。

本出願の実施例では、各セマンティックユニットが１つのベクトル表現に対応することができる。

なお、まず、グローバルコンテキストセマンティックユニットのベクトル表現を取得し、グローバルコンテキストセマンティックユニットのベクトル表現がローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットのベクトル表現を含み、そしてグローバルコンテキストセマンティックユニットのベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成することができる。

ステップ２０２において、現在のセマンティックユニットのベクトル表現とローカルコンテキストセマンティックユニットのベクトル表現とに基づいて、現在のセマンティックユニットとローカルコンテキストセマンティックユニットに対応するローカル翻訳結果を生成する。

なお、まず、ローカルコンテキストセマンティックユニットのベクトル表現を取得し、ローカルコンテキストセマンティックユニットのベクトル表現が現在のセマンティックユニットの前のＮ個のセマンティックユニットのベクトル表現を含み、そして現在のセマンティックユニットのベクトル表現とローカルコンテキストセマンティックユニットのベクトル表現とに基づいて、現在のセマンティックユニットとローカルコンテキストセマンティックユニットに対応するローカル翻訳結果を生成することができる。

例えば、現在のセマンティックユニットが

であり、ローカルセマンティックユニットが

を含む場合、対応するローカル翻訳結果は、「Ｔｏｄａｙ’ｓｉｎｔｒｏｄｕｃｔｉｏｎｉｓｍａｉｎlｙｄｉｖｉｄｅｄｉｎｔｏ」である。

ステップ２０３において、ローカル翻訳結果とローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、現在のセマンティックユニットの翻訳結果を生成する。

本出願の実施例では、ローカル翻訳結果とローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、現在のセマンティックユニットの翻訳結果を生成するステップは、ローカルコンテキストセマンティックユニットの翻訳結果を取得し、ローカル翻訳結果からローカルコンテキストセマンティックユニットの翻訳結果を除去して、現在のセマンティックユニットの翻訳結果を取得するステップを含むことができる。

なお、現在のセマンティックユニットとローカルコンテキストセマンティックユニットに対応するローカル翻訳結果は、現在のセマンティックユニットの翻訳結果とローカルコンテキストセマンティックユニットの翻訳結果で構成される。

例えば、現在のセマンティックユニットが

であり、ローカルセマンティックユニットが

を含む場合、対応するローカル翻訳結果は「Ｔｏｄａｙ’ｓｉｎｔｒｏｄｕｃｔｉｏｎｉｓｍａｉｎlｙｄｉｖｉｄｅｄｉｎｔｏ」であり、その後ローカルセマンティックユニット

の翻訳結果「Ｔｏｄａｙ’ｓｉｎｔｒｏｄｕｃｔｉｏｎ」を取得でき、上記ローカル翻訳結果「Ｔｏｄａｙ’ｓｉｎｔｒｏｄｕｃｔｉｏｎｉｓｍａｉｎlｙｄｉｖｉｄｅｄｉｎｔｏ」から「Ｔｏｄａｙ’ｓｉｎｔｒｏｄｕｃｔｉｏｎ」を除去して、現在のセマンティックユニット

の翻訳結果である「ｉｓｍａｉｎlｙｄｉｖｉｄｅｄｉｎｔｏ」を取得することができる。

これによって、当該方法は、グローバルコンテキストセマンティックユニットのベクトル表現に基づいて現在のセマンティックユニットのベクトル表現を生成し、その後現在のセマンティックユニットのベクトル表現とローカルコンテキストセマンティックユニットのベクトル表現とに基づいて、現在のセマンティックユニットとローカルコンテキストセマンティックユニットに対応するローカル翻訳結果を生成し、ローカル翻訳結果とローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、現在のセマンティックユニットの翻訳結果を生成することができる。

上記任意の実施例に基づいて、図３に示すように、ステップ２０１におけるグローバルコンテキストセマンティックユニットのベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成するステップは、以下のステップ３０１～３０３を含む。

ステップ３０１において、現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割する。

なお、各セマンティックユニットに少なくとも１つの単語セグメンテーションが含まれる場合、現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割することができる。

選択的に、予め設定された単語セグメンテーション単位に従って、現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割できる。ここで、単語セグメンテーション単位には字、文字、単語、語句などが含まれるが、これに限定されない。

例えば、現在のセマンティックユニットが

であり、単語セグメンテーション単位が字である場合、

という４つの単語セグメンテーションに分割されてもよい。

ステップ３０２において、単語セグメンテーションのベクトル表現とグローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、単語セグメンテーションのグローバル融合ベクトル表現を生成する。

なお、各単語セグメンテーションが１つのベクトル表現に対応する場合、単語セグメンテーションのベクトル表現とグローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、単語セグメンテーションのグローバル融合ベクトル表現を生成することができる。

選択的に、単語セグメンテーションのベクトル表現とグローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、単語セグメンテーションのグローバル融合ベクトル表現を生成するステップは、単語セグメンテーションのベクトル表現に対して線性変換を行って、セマンティックユニットレベルの単語セグメンテーションのセマンティックユニットベクトル表現を生成し、単語セグメンテーションのセマンティックユニットベクトル表現に基づいて、グローバルコンテキストセマンティックユニットのベクトル表現に対して特徴抽出を行って、グローバル特徴ベクトルを生成し、グローバル特徴ベクトルと単語セグメンテーションのベクトル表現とを融合させて、単語セグメンテーションのグローバル融合ベクトル表現を生成することを含むことができる。

選択的に、上記単語セグメンテーションのグローバル融合ベクトル表現を生成するプロセスは、以下の式によって実現することができる。
ｑ_ｓ＝ｆ_ｓ（ｈ_ｔ）
ｄ_ｔ＝ＭｕｔｉＨｅａｄＡｔｔｅｎｔｉｏｎ（ｑ_ｓ、Ｓ_ｉ）（１≦ｉ≦Ｍ）
λ_ｔ＝σ（Ｗｈ_ｔ＋Ｕｄ_ｔ）
ｈ_ｔ ^’
＝λ_ｔｈ_ｔ＋（１-λ_ｔ）ｄ_ｔ

ここで、ｈ_ｔは、単語セグメンテーションのベクトル表現であり、ｆ_ｓ（．）は、線性変換関数であり、ｑ_ｓは、単語セグメンテーションのセマンティックユニットベクトル表現であり、ＭｕｔｉＨｅａｄＡｔｔｅｎｔｉｏｎ（．）は、注意力関数であり、ｄ_ｔは、グローバル特徴ベクトルであり、ｈ_ｔ ^’は、単語セグメンテーションのグローバル融合ベクトル表現である。

ここで、Ｓ_ｉ（１≦ｉ≦Ｍ）は、グローバルコンテキストセマンティックユニットのベクトル表現であり、Ｓ_１は、グローバルコンテキストセマンティックユニットの１番目のセマンティックユニットのベクトル表現であり、Ｓ_２は、グローバルコンテキストセマンティックユニットの２番目のセマンティックユニットのベクトル表現であり、このように類推して、Ｓ_Ｍは、グローバルコンテキストセマンティックユニットのＭ番目のセマンティックユニットのベクトル表現である。

ここで、Ｗ、Ｕ、σはいずれも係数であり、実際の状況に応じて設定されてもよい。

例えば、図４に示すように、現在のセマンティックユニットが

であり、ローカルコンテキストセマンティックユニットが

であり、グローバルコンテキストセマンティックユニットが

である。現在のセマンティックユニット

を

という４つの単語セグメンテーションに分割でき、そのうちの任意の１つの単語セグメンテーションのベクトル表現ｈ_ｔに対して線性変換を行って、セマンティックユニットレベルの単語セグメンテーションのセマンティックユニットベクトル表現ｑ_ｓを生成し、そして単語セグメンテーションのセマンティックユニットベクトル表現ｑ_ｓに基づいて、グローバルコンテキストセマンティックユニットのベクトル表現Ｓ_ｉ（１≦ｉ≦４）に対して特徴抽出を行って、グローバル特徴ベクトルｄ_ｔを生成し、その後グローバル特徴ベクトルｄ_ｔと単語セグメンテーションのベクトル表現ｈ_ｔとを融合させて、単語セグメンテーションのグローバル融合ベクトル表現ｈ_ｔ ^’を生成することができる。なお、本実施例では、Ｓ_１はセマンティックユニット

に対応するベクトル表現であり、Ｓ_２はセマンティックユニット

に対応するベクトル表現であり、Ｓ_３はセマンティックユニット

に対応するベクトル表現であり、Ｓ_４はセマンティックユニット

に対応するベクトル表現である。

なお、当該方法は、グローバルコンテキストセマンティックユニットのベクトル表現に対して特徴抽出を行って、グローバル特徴ベクトルを生成し、その後グローバル特徴ベクトルと単語セグメンテーションのベクトル表現とを融合させて、単語セグメンテーションのグローバル融合ベクトル表現を生成することができ、グローバル融合ベクトル表現は、グローバルコンテキストセマンティックユニットのベクトル表現の特徴を学習できる。

ステップ３０３において、単語セグメンテーションのグローバル融合ベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成する。

なお、現在のセマンティックユニットは少なくとも１つの単語セグメンテーションに分割されてもよく、各単語セグメンテーションが１つのグローバル融合ベクトル表現に対応する場合、現在のセマンティックユニットから分割されたすべての単語セグメンテーションのグローバル融合ベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成することができる。

選択的に、単語セグメンテーションのグローバル融合ベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成するステップは、単語セグメンテーションのグローバル融合ベクトル表現に対応する重みを決定し、単語セグメンテーションのグローバル融合ベクトル表現と対応する重みとに基づいて、現在のセマンティックユニットのベクトル表現を算出することを含むことができる。当該方法は、加重平均法を用いて現在のセマンティックユニットのベクトル表現を取得することができる。

これにより、当該方法は、現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割し、その後単語セグメンテーションのベクトル表現とグローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、単語セグメンテーションのグローバル融合ベクトル表現を生成し、単語セグメンテーションのグローバル融合ベクトル表現に基づいて、現在のセマンティックユニットのベクトル表現を生成することができる。

上記任意の実施例に基づいて、ステップ１０２におけるトレーニング済みの文章翻訳モデルの取得は、サンプル文章とサンプル文章に対応するサンプル翻訳結果とを取得し、サンプル文章とサンプル翻訳結果とに基づいて、トレーニング対象の文章翻訳モデルをトレーニングして、トレーニング済みの文章翻訳モデルを取得することを含むことができる。

なお、文章翻訳モデルの性能を向上させるために、大量のサンプル文章とサンプル文章に対応するサンプル翻訳結果とを取得する。

具体的な実施では、サンプル文章をトレーニング対象の文章翻訳モデルに入力して、トレーニング対象の文章翻訳モデルから出力された第１サンプル翻訳結果を取得し、第１サンプル翻訳結果とサンプル翻訳結果との間に大きな誤差がある可能性があり、第１サンプル翻訳結果とサンプル翻訳結果との間の誤差に基づいて、トレーニング対象の文章翻訳モデルを、トレーニング対象の文章翻訳モデルが収束するか、または反復回数が予め設定された反復回数閾値に達するか、またはモデル精度が予め設定された精度閾値に達するまでトレーニングし、モデルのトレーニングを終了し、最後のトレーニングによって取得された文章翻訳モデルをトレーニング済みの文章翻訳モデルとすることができる。ここで、反復回数閾値、精度閾値は実際の状況に応じて設定されてもよい。

これにより、当該方法は、サンプル文章とサンプル翻訳結果とに基づいて、トレーニング対象の文章翻訳モデルをトレーニングして、トレーニング済みの文章翻訳モデルを取得することができる。

図５は、本出願の第１実施例に係る文章翻訳装置のブロック図である。

図５に示すように、本出願の実施例に係る文章翻訳装置５００は、取得モジュール５０１と入力モジュール５０２とを含む。

取得モジュール５０１は、翻訳対象の文章を取得する。

入力モジュール５０２は、前記翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、前記文章翻訳モデルによって前記翻訳対象の文章を複数のセマンティックユニットに分割し、現在のセマンティックユニットの前のＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットと前記グローバルコンテキストセマンティックユニットとに基づいて、前記現在のセマンティックユニットの翻訳結果を生成し、前記Ｎは整数であり、前記Ｍは整数である。

以上のように、本出願の実施例に係る文章翻訳装置は、翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、ローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニットの翻訳結果を生成することで、関連技術における翻訳に一貫性がなく、コンテキストの翻訳が一致しないという問題を解決でき、翻訳結果の精度を向上させ、文章翻訳シナリオに適応する。

図６は、本出願の第２実施例に係る文章翻訳装置のブロック図である。

図６に示すように、本出願の実施例に係る文章翻訳装置６００は、取得モジュール６０１、入力モジュール６０２及びトレーニングモジュール６０３を含む。

ここで、取得モジュール６０１は、取得モジュール５０１と同じ機能及び構造を有する。

本出願の一実施例では、前記入力モジュール６０２は、前記グローバルコンテキストセマンティックユニットのベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するための第１生成ユニット６０２１と、前記現在のセマンティックユニットのベクトル表現と前記ローカルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記現在のセマンティックユニットと前記ローカルコンテキストセマンティックユニットに対応するローカル翻訳結果を生成するための第２生成ユニット６０２２と、前記ローカル翻訳結果と前記ローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するための第３生成ユニット６０２３と、を含む。

本出願の一実施例では、前記第１生成ユニット６０２１は、前記現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割するための分割サブユニットと、前記単語セグメンテーションのベクトル表現と前記グローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成するための第１生成サブユニットと、前記単語セグメンテーションのグローバル融合ベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するための第２生成サブユニットと、を含む。

本出願の一実施例では、前記第１生成サブユニットは、前記単語セグメンテーションのベクトル表現に対して線性変換を行って、セマンティックユニットレベルの前記単語セグメンテーションのセマンティックユニットベクトル表現を生成し、前記単語セグメンテーションのセマンティックユニットベクトル表現に基づいて、前記グローバルコンテキストセマンティックユニットのベクトル表現に対して特徴抽出を行って、グローバル特徴ベクトルを生成し、前記グローバル特徴ベクトルと前記単語セグメンテーションのベクトル表現とを融合させて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成する。

本出願の一実施例では、前記第２生成サブユニットは、前記単語セグメンテーションのグローバル融合ベクトル表現に対応する重みを決定し、前記単語セグメンテーションのグローバル融合ベクトル表現と対応する重みとに基づいて、前記現在のセマンティックユニットのベクトル表現を算出する。

本出願の一実施例では、前記トレーニングモジュール６０３は、サンプル文章と前記サンプル文章に対応するサンプル翻訳結果とを取得するための取得ユニット６０３１と、前記サンプル文章と前記サンプル翻訳結果とに基づいて、トレーニング対象の文章翻訳モデルをトレーニングして、前記トレーニング済みの文章翻訳モデルを取得するためのトレーニングユニット６０３２と、を含む。

本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本出願によって提供される文章翻訳方法が実現される。

図７に示すように、それは本出願の実施例に係る文章翻訳方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、インテリジェント音声インタラクティブデバイス、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形式のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図７示すように、当該電子機器は、１つ又は複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられてもよいし、又は必要に応じて他の方式で取り付けられてもよい。プロセッサ７０１は、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供する。図７では、１つのプロセッサ７０１を例とする。

メモリ７０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中、前記メモリには、少なくとも１つのプロセッサによって実行される命令を記憶して、前記少なくとも１つのプロセッサが本出願により提供される文章翻訳方法を実行することができるようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される文章翻訳方法を実行させるためのコンピュータ命令が記憶されている。

メモリ７０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における文章翻訳方法に対応するプログラム命令／モジュール（例えば、図５に示す取得モジュール５０１及び入力モジュール５０２）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ７０１は、メモリ７０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち上記の方法の実施例における文章翻訳方法を実現する。

メモリ７０２は、プログラムストレージ領域とデータストレージ領域とを含むことができ、その中、プログラムストレージ領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができ、データストレージ領域は、文章翻訳方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ７０２は、高速ランダムアクセスメモリを含むことができ、不揮発性メモリ、例えば少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスをさらに含むことができる。いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して文章翻訳方法の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。

文章翻訳方法の電子機器は、入力装置７０３と出力装置７０４とをさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス又は他の方式を介して接続することができ、図７では、バスを介して接続することを例とする。

入力装置７０３は、入力された数字又は文字情報を受信することができ、文章翻訳方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、指示杆、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置７０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又は対象指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバーはクラウドサーバであっても良く、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「Ｖｉｒｔｕａl ＰｒｉｖａｔｅＳｅｒｖｅｒ」，または「ＶＰＳ」と省略する）に存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバーは分散システムのサーバであってもよく、またはブロックチェーンと組合わせたサーバであってもよい。

本出願の実施例によれば、本出願は、コンピュータプログラムが含まれるコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本出願の上記実施例の文章翻訳方法が実現される。

本出願の実施例の技術案によれば、翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、ローカルコンテキストセマンティックユニットとグローバルコンテキストセマンティックユニットとに基づいて、現在のセマンティックユニットの翻訳結果を生成することで、関連技術における翻訳に一貫性がなく、コンテキストの翻訳が一致しないという問題を解決でき、翻訳結果の精度を向上させ、文章翻訳シナリオに適応する。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

コンピュータによって実行される文章翻訳方法であって、
翻訳対象の文章を取得するステップと、
前記翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、前記文章翻訳モデルによって前記翻訳対象の文章を複数のセマンティックユニットに分割し、前記複数のセマンティックユニットの前記翻訳対象の文章における前後順に従って現在のセマンティックユニットを順次選択し、現在のセマンティックユニットの前のすでに翻訳されているＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットと前記グローバルコンテキストセマンティックユニットとに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するステップであって、前記Ｎは整数であり、前記Ｍは整数であるステップと、を含み、
前記ローカルコンテキストセマンティックユニットと前記グローバルコンテキストセマンティックユニットとに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するステップが、
前記グローバルコンテキストセマンティックユニットのベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するステップと、
前記現在のセマンティックユニットのベクトル表現と前記ローカルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記現在のセマンティックユニットと前記ローカルコンテキストセマンティックユニットに対応するローカル翻訳結果を生成するステップと、
前記ローカルコンテキストセマンティックユニットの翻訳結果を取得し、前記ローカル翻訳結果と前記ローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するステップと、を含み、
前記ローカル翻訳結果と前記ローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、前記現在のセマンティックユニットの翻訳結果を生成することは、
前記ローカル翻訳結果から前記ローカルコンテキストセマンティックユニットの翻訳結果を除去して、前記現在のセマンティックユニットの翻訳結果を取得することを含み、
前記グローバルコンテキストセマンティックユニットのベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するステップが、
前記現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割するステップと、
前記単語セグメンテーションのベクトル表現と前記グローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成するステップと、
前記単語セグメンテーションのグローバル融合ベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するステップと、を含む、
ことを特徴とする文章翻訳方法。
前記単語セグメンテーションのベクトル表現と前記グローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成するステップは、
前記単語セグメンテーションのベクトル表現に対して線性変換を行って、セマンティックユニットレベルの前記単語セグメンテーションのセマンティックユニットベクトル表現を生成するステップと、
前記単語セグメンテーションのセマンティックユニットベクトル表現に基づいて、前記グローバルコンテキストセマンティックユニットのベクトル表現に対して特徴抽出を行って、グローバル特徴ベクトルを生成するステップと、
前記グローバル特徴ベクトルと前記単語セグメンテーションのベクトル表現とを融合させて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成するステップと、を含む、
ことを特徴とする請求項１に記載の文章翻訳方法。
前記単語セグメンテーションのグローバル融合ベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するステップは、
前記単語セグメンテーションのグローバル融合ベクトル表現に対応する重みを決定するステップと、
前記単語セグメンテーションのグローバル融合ベクトル表現と対応する重みとに基づいて、前記現在のセマンティックユニットのベクトル表現を算出するステップと、を含む、
ことを特徴とする請求項１に記載の文章翻訳方法。
サンプル文章と前記サンプル文章に対応するサンプル翻訳結果とを取得するステップと、
前記サンプル文章と前記サンプル翻訳結果とに基づいて、トレーニング対象の文章翻訳モデルをトレーニングして、前記トレーニング済みの文章翻訳モデルを取得するステップと、をさらに含む、
ことを特徴とする請求項１に記載の文章翻訳方法。
文章翻訳装置であって、
翻訳対象の文章を取得するための取得モジュールと、
前記翻訳対象の文章をトレーニング済みの文章翻訳モデルに入力し、前記文章翻訳モデルによって前記翻訳対象の文章を複数のセマンティックユニットに分割し、前記複数のセマンティックユニットの前記翻訳対象の文章における前後順に従って現在のセマンティックユニットを順次選択し、現在のセマンティックユニットの前のすでに翻訳されているＮ個のセマンティックユニットをローカルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットの前のＭ個のセマンティックユニットをグローバルコンテキストセマンティックユニットとして決定し、前記ローカルコンテキストセマンティックユニットと前記グローバルコンテキストセマンティックユニットとに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するための入力モジュールであって、前記Ｎは整数であり、前記Ｍは整数である入力モジュールと、を含み、
前記入力モジュールが、
前記グローバルコンテキストセマンティックユニットのベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するための第１生成ユニットと、
前記現在のセマンティックユニットのベクトル表現と前記ローカルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記現在のセマンティックユニットと前記ローカルコンテキストセマンティックユニットに対応するローカル翻訳結果を生成するための第２生成ユニットと、
前記ローカルコンテキストセマンティックユニットの翻訳結果を取得し、前記ローカル翻訳結果と前記ローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、前記現在のセマンティックユニットの翻訳結果を生成するための第３生成ユニットと、を含み、
前記ローカル翻訳結果と前記ローカルコンテキストセマンティックユニットの翻訳結果とに基づいて、前記現在のセマンティックユニットの翻訳結果を生成することは、
前記ローカル翻訳結果から前記ローカルコンテキストセマンティックユニットの翻訳結果を除去して、前記現在のセマンティックユニットの翻訳結果を取得することを含み、
前記第１生成ユニットが、
前記現在のセマンティックユニットを少なくとも１つの単語セグメンテーションに分割するための分割サブユニットと、
前記単語セグメンテーションのベクトル表現と前記グローバルコンテキストセマンティックユニットのベクトル表現とに基づいて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成するための第１生成サブユニットと、
前記単語セグメンテーションのグローバル融合ベクトル表現に基づいて、前記現在のセマンティックユニットのベクトル表現を生成するための第２生成サブユニットと、を含む、
ことを特徴とする文章翻訳装置。
前記第１生成サブユニットが、
前記単語セグメンテーションのベクトル表現に対して線性変換を行って、セマンティックユニットレベルの前記単語セグメンテーションのセマンティックユニットベクトル表現を生成し、
前記単語セグメンテーションのセマンティックユニットベクトル表現に基づいて、前記グローバルコンテキストセマンティックユニットのベクトル表現に対して特徴抽出を行って、グローバル特徴ベクトルを生成し、
前記グローバル特徴ベクトルと前記単語セグメンテーションのベクトル表現とを融合させて、前記単語セグメンテーションのグローバル融合ベクトル表現を生成する、
ことを特徴とする請求項５に記載の文章翻訳装置。
前記第２生成サブユニットが、
前記単語セグメンテーションのグローバル融合ベクトル表現に対応する重みを決定し、
前記単語セグメンテーションのグローバル融合ベクトル表現と対応する重みとに基づいて、前記現在のセマンティックユニットのベクトル表現を算出する、
ことを特徴とする請求項５に記載の文章翻訳装置。
前記装置は、トレーニングモジュールをさらに含み、
前記トレーニングモジュールが、
サンプル文章と前記サンプル文章に対応するサンプル翻訳結果とを取得するための取得ユニットと、
前記サンプル文章と前記サンプル翻訳結果とに基づいて、トレーニング対象の文章翻訳モデルをトレーニングして、前記トレーニング済みの文章翻訳モデルを取得するためのトレーニングユニットと、を含む、
ことを特徴とする請求項５に記載の文章翻訳装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～４のいずれかに記載の文章翻訳方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～４のいずれかに記載の文章翻訳方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～４のいずれかに記載の文章翻訳方法が実現される、
ことを特徴とするコンピュータプログラム。