JP2023522469A

JP2023522469A - ビデオ翻訳方法、装置、記憶媒体及び電子機器

Info

Publication number: JP2023522469A
Application number: JP2022564506A
Authority: JP
Inventors: ドゥ，ユイジャン; ジュ，ペイハオ; チェン，イミン; ジョウ，チョンシン; ワン，ミンシュアン; リ，レイ
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-06-23
Filing date: 2021-06-22
Publication date: 2023-05-30
Also published as: EP4170543A4; US20220383000A1; EP4170543A1; KR20220127361A; CN111753558B; CN111753558A; WO2021259221A1; US11763103B2

Abstract

本開示は、ビデオ翻訳方法、装置、記憶媒体及び電子機器を開示している。方法は、翻訳対象となるビデオの音声をテキストに変換するステップと、テキストと、テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示するステップと、ユーザーによるテキスト又は参照翻訳の操作に応答して、ユーザーが翻訳を入力することをサポートする編集領域を提示するステップと、編集領域でのユーザーによる入力に従って、参照翻訳からの翻訳提案を提供するステップと、を含み、ユーザーによる翻訳提案の確認操作を検出した場合、翻訳提案を翻訳結果として編集領域に表示し、ユーザーの翻訳提案に対する非確認操作を検出した場合、ユーザーによって入力された、翻訳提案とは異なる翻訳を受信し、ユーザーによって入力された翻訳を翻訳結果として編集領域に表示し、ユーザーによって入力された翻訳に基づいて、翻訳領域における参照翻訳を更新する。本開示は、翻訳の効率及び品質を高めることができる。

Description

［関連出願への相互参照］
本出願は、２０２０年０６月２３日付けで中国国家知識産権局に提出され、出願番号が２０２０１０５８３１７７．４であり、出願名称が「ビデオ翻訳方法、装置、記憶媒体及び電子機器」である中国特許出願に基づく優先権を主張し、その全内容を援用により本出願に組み込む。

［技術分野］
本開示は、機械翻訳の分野に関し、特に、ビデオ翻訳方法、装置、記憶媒体及び電子機器に関する。

機械翻訳が発達した今日では、簡単な翻訳タスクは、既に、機械翻訳と人間とによる校正の方式、つまり、機械翻訳後編集（ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｐｏｓｔ―ｅｄｉｔｔｉｎｇ、ＭＴＰＥ）モードで行われることができる。しかし、現在のＭＴＰＥ技術では、人間による修正と機械翻訳とはあまり互換性がないため、翻訳の品質は相変わらず人間による翻訳に及ばず、これらの問題はＭＴＰＥの発展を大幅に制限し、翻訳結果の精度に対する要求が高い翻訳シーンでは、一般的に、人間による翻訳の方式で翻訳を行うが、人間による翻訳は効率が低くかつ速度が遅いという問題はまだ解决できていない。さらに、ビデオを翻訳する必要がある場合には、ビデオのコンテンツを手動で文ごとに聞き取って翻訳する必要があり、このような翻訳方法は、効率が低く、現在、グローバル化を背景とした大量のビデオ翻訳のニーズを満たすことができない。

当該発明の概要の部分を提出することで、その構想を概略的な形態で紹介し、これらの構想について、以下の発明を実施するための形態の部分で詳しく記載する。当該発明の概要の部分は、保護を請求する技術案の主要な特徴又は必要な特徴を示するものではなく、保護を請求する技術案の範囲も限定していない。

第１の態様によれば、本開示は、ビデオ翻訳方法を提供し、
翻訳対象となるビデオの音声をテキストに変換するステップと、
前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示するステップであって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間であるステップと、
ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するステップと、
前記編集領域での前記ユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するステップと、を含み、
前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、
前記ユーザーの前記翻訳提案に対する非確認操作を検出した場合、前記ユーザーによって入力された、前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新する。

第２の態様によれば、本開示はビデオ翻訳装置を提供し、
翻訳対象となるビデオの音声をテキストに変換するための変換モジュールと、
前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示し、さらに、前記ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するための提示モジュールであって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間である提示モジュールと、
前記編集領域でのユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するための提案モジュールと、を含み、
前記提示モジュールはさらに、前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、前記ユーザーの前記翻訳提案に対する非確認操作を検出した場合、前記ユーザーによって入力された、前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新する。

第３の態様によれば、本開示はコンピュータプログラムが記憶されたコンピュータ可読媒体を提供し、当該プログラムは処理装置によって実行されるとき、本開示の第１の態様に記載の方法のステップを実現する。

第４の態様によれば、本開示は電子機器を提供し、
コンピュータプログラムが記憶された記憶装置と、
前記記憶装置における前記コンピュータプログラムを実行して、本開示の第１の態様に記載の方法のステップを実現するための処理装置と、を含む。

上記の技術案に基づいて、少なくとも以下の技術効果を達成することができ、即ち、翻訳対象となるビデオの音声をテキストに変換し、当該テキストの第１の時間情報、第２の時間情報及び参照翻訳を提供し、編集領域でのユーザーによる入力に従って、参照翻訳からの翻訳提案を提供し、ユーザーによる確認操作に応答して翻訳提案を翻訳結果とすることで、ユーザーの入力時間を節約することができ、手作業の精度及び機械の効率性を結合して、ビデオ翻訳の効率及び品質を高める。

本開示の他の特徴及び利点について、以下の発明を実施するための形態の部分で詳しく記載する。

本開示の各実施例の上記及び他の特徴、利点、並びに態様は、添付の図面と併せて以下の具体的な実施形態を参照することによってより明らかになる。図面全体を通して、同一又は類似の符号は、同一又は類似の要素を示す。ここで、図面は、概略的なものであり、部品及び要素は必ずしも一定の縮尺で描かれているわけではない。

例示的な開示実施例に示されるビデオ翻訳方法のフローチャートである。例示的な開示実施例に示される翻訳インターフェースの概略図である。例示的な開示実施例に示されるテキスト分割方式の概略図である。例示的な開示実施例に示されるビデオ翻訳装置のブロック図である。例示的な開示実施例に示される電子機器のブロック図である。

以下、図面を参照しながら本開示の実施例についてより詳しく説明する。本開示のいくつかの実施例は図面に示されているが、本開示は様々な形態で実現されることができ、本明細書に記載の実施例に制限されるものと解釈されるべきではなく、むしろこれらの実施例は本開示をより深くかつ完全に理解するために提供されることを理解されたい。また、本開示の図面及び実施例は、例示的な目的のためにのみ使用され、本開示の保護範囲を制限することを意図するものではないことが理解されるべきである。

本開示の方法の実施形態に記載される各ステップは、異なる順序に従って実行され、及び／又は並行して実行されることが理解されるべきである。また、方法の実施形態は、追加のステップを含み、及び／又は図示されるステップの実行を省略し得る。本開示の範囲はこの点に関して限定されない。

本明細書で使用される「含む」という用語及びその変形は、非限定的な包含、即ち、「含むがこれらに限定されない」という意味である。「に基づく」という用語は、「少なくとも部分的に基づく」という意味である。「一実施例」という用語は、「少なくとも１つの実施例」を意味し、「別の実施例」という用語は、「少なくとも１つの別の実施例」を意味し、「いくつかの実施例」という用語は、「少なくともいくつかの実施例」を意味する。他の用語の関連する定義は、以下で説明される。

なお、本開示で言及される「第１」、「第２」などの概念は、異なる装置、モジュール又はユニットを区別するためにのみ使用され、これらの装置、モジュール、又はユニットによって実行される機能の順序又は相互依存関係を限定することを意図するものではない。

なお、本開示で言及される「１つ」、「複数」の修飾は限定ではなく、例示的なものであり、当業者であれば理解できるように、本明細書において特に指摘されない限り、「１つ又は複数」として理解されるべきである。

本開示の実施形態における複数の装置の間で交換されるメッセージ又は情報の名称は、例示の目的のためだけであり、これらのメッセージまたは情報の範囲を制限することを意図するものではない。

図１は、例示的な開示実施例に示されるビデオ翻訳方法のフローチャートであり、当該方法は、端末、サーバー及び他の独立した電子機器に適用されてもよいし、翻訳システムにも適用されてもよく、この場合、方法における各ステップは、翻訳システムの複数の装置が協働して完了してもよく、例えば、図１のＳ１２及びＳ１４は端末によって実行され、Ｓ１１及びＳ１３はサーバーによって実行されてもよい。図１に示すように、前記ビデオ翻訳方法は、以下のステップを含む。
Ｓ１１：翻訳対象となるビデオの音声をテキストに変換する。

翻訳対象となるビデオにおける音声コンテンツ、例えばオーディオトラックなどを抽出し、音声認識技術を利用して、当該音声コンテンツをテキストコンテンツに変換することができる。なお、音声コンテンツをテキストコンテンツに変換する場合、音声コンテンツにおける節に応じて、テキストコンテンツを複数の文に分割し、各文のテキストコンテンツは、当該節の音声コンテンツが抽出された１つの時点情報に対応し、それを当該文のテキストコンテンツの時間軸情報とすることができる。

例えば、翻訳対象となるビデオの音声コンテンツは複数の文として認識され、１番目の文は、「まず、ホットスポットについて紹介します」であり、当該文はビデオの第２秒～第５秒の間にあり、この場合、当該文のテキストコンテンツに対応する時間軸情報は「００：００：０２―００：００：０５」であり、２番目の文は「ｐｐｔの右側から見える」であり、当該文はビデオの第５秒～第７秒の間にあり、この場合、当該文のテキストコンテンツに対応する時間軸情報は「００：００：０５―００：００：０７」である。

翻訳対象となるビデオの音声コンテンツをテキストコンテンツに変換する場合、前記テキストの前記ビデオにおける対応する時点情報及び／又は画面フレームに基づいて、前記テキストを区切って、複数の節テキストを取得し、例えば、連続的な複数秒内の音声の認識テキストを１つの節とし、又は連続的な複数の画面フレーム内に出現した音声の認識テキストを１つの節とし、また、音声コンテンツにおける停頓に基づいて区切ってもよく、例えば、１つの停頓閾値を設定し、当該停頓閾値内において人の声のコンテンツが認識されていない場合、人の声のコンテンツが認識されていない任意の位置で区切って、また、音声コンテンツの意味に応じて区切って、区切り詞の前後で区切って、例えば、完全な「主語＋述語＋目的語」構造の「目的語」を区切り詞として設定し、音声コンテンツを区切ることができ、また、時間助詞、停頓詞などを区切り詞として、これらの詞の前後で区切ってもよい。具体的に、区切りモデルにより、認識されたテキストコンテンツを区切って、区切られたテキストコンテンツを取得することができる。

Ｓ１２：前記テキストと、前記テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示する。

前記第１の時間情報は、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報は、前記ビデオにおける前記テキストの終了時間である。

テキストは、既に区切られたテキストであってもよく、第１の時間情報は、区切られたテキストの現在節のビデオにおける開始時間であり、第２の時間情報は、区切られたテキストの現在節のビデオにおける終了時間である。節ごとに、前記節テキストと、前記節テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示してもよい。

Ｓ１３：ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、編集領域を提示する。

ユーザーがテキスト又は参照翻訳に対応する領域を選択した後、当該テキストの参照翻訳の上方に編集領域を提示することができ、編集領域は、ユーザーが翻訳を入力することをサポートし、ユーザーは、編集領域において編集操作を行って、当該テキストの翻訳結果を取得することができる。編集領域は、ユーザーが比較して修正することができるように、参照翻訳の上方に表示され得る。

テキストは、既に区切られたテキストであってもよく、各節テキストは、異なる領域内に提示され、節テキストごとに、当該節テキストの第１の時間情報、第２の時間情報及び参照翻訳を提示する。

可能な実施形態において、前記テキストは、複数の節テキストを含み、各前記節テキストは、異なる領域に提示され、さらに、前記ユーザーが前記節テキストを分割するための分割機能バーを提示して提供してもよく、前記ユーザーによるいずれか１つの前記節テキストに対する分割操作に応答し、前記節テキストを少なくとも２つの節サブテキストに分割し、各前記節サブテキストについて、前記節サブテキストと、前記節サブテキストの第１の時間情報、第２の時間情報及び前記節サブテキストの参照翻訳とを関連付けて表示する。任意選択で、分割機能バーは、ユーザーによる前記節テキスト又は参照翻訳の操作に応答して提供され、ユーザーが当該節テキスト又は参照テキストを選択する前は、分割機能バーを非表示にしてもよい。

例えば、
（外１）

という１段のテキストコンテンツについて、当該テキストコンテンツの時間軸情報は「００：００：１５―００：００：１８」であり、第１の時間情報は００：００：１５であり、第２の時間情報は００：００：１８であり、ユーザーは当該テキストコンテンツを
（外２）

及び
（外３）

という２つの節に分割する場合、編集前のテキストの長さ及び編集後の各節のテキストの長さに基づいて、各節に時間軸を設定し、例えば、元の時間軸を同じ長さの２つの段に分割し、
（外４）

という１番目のサブ段の時間軸を「００：００：１５―００：００：１６」に設定し、
（外５）

という２番目のサブ段の時間軸情報を「００：００：１７―００：００：１８」に設定する。

また、テキストコンテンツの文字数に基づいて、当該段のテキストコンテンツの各文字に時間軸を割り当て、区切った後、区切られたサブ段に、対応する文字数の時間軸を割り当てることもできる。

図３は、可能なテキスト分割方式の概略図であり、図面に示すように、ユーザーは、カーソルによって、区切る必要のある位置を選択し、区切りボタンをクリックすることができ、区切り前のテキストは、２つの節に分割され、順に表示され、各節の第１の時間情報及び第２の時間情報はいずれも区切り前の第１の時間情報及び第２の時間情報から分割されて得られる。図３において、分割前の点線枠における１段のテキストコンテンツは、点線枠における２つのサブ段に分割される。

可能な実施形態において、前記テキストは、複数の節テキストを含み、各前記節テキストは、異なる領域に提示され、前記ユーザーが前記節をマージするためのマージ機能バーを提示して提供し、前記ユーザーによる任意の隣接する２つの節テキストに対するマージ操作に応答して、前記隣接する２つの節テキストを１段の新たな節テキストにマージし、前記新たな節テキストについて、前記新たな節テキストと、前記新たな節テキストの第１の時間情報、第２の時間情報及び前記新たな節テキストの参照翻訳とを関連付けて表示する。任意選択で、マージ機能バーは、ユーザーによる前記節テキスト又は参照翻訳の操作に応答して提供され、ユーザーが当該節テキスト又は参照テキストを選択する前は、マージ機能バーを非表示にしてもよい。

可能な実施形態において、前記テキストは、複数の節テキストを含み、各前記節テキストは、異なる領域に提示され、前記ユーザーが前記節テキストを再生するための再生機能バーを提示して提供してもよく、前記ユーザーによる前記再生機能バーの操作に応答して、前記節テキストに対応する音声を再生する。任意選択で、再生機能バーは、ユーザーによる前記節テキスト又は参照翻訳の操作に応答して提供され、ユーザーが当該節テキスト又は参照テキストを選択する前は、再生機能バーを非表示にしてもよい。可能な実施形態において、ユーザーが翻訳字幕の効果を確認するように、参照翻訳又は翻訳結果を字幕として、当該節テキストに対応するビデオを再生する。

図２は、可能な翻訳インターフェースの概略図であり、点線枠の内部は、ユーザーによって選択された１段のテキストコンテンツの翻訳インターフェースである。図２において、合計で３段の異なるテキストコンテンツがあり、ユーザーによって選択されたテキストコンテンツは、編集領域、及び再生機能バー、マージ機能バー、分割機能バーを提示する。翻訳対象となるビデオのテキストコンテンツは参照翻訳の上方に表示され、異なる節について、異なる提示領域を有し、各提示領域は個別に翻訳可能であり、他の領域の修正によって更新されることはない。ユーザーは、編集領域に文字を入力したり、翻訳対象となるテキストの文字を修正したりすることができる。翻訳インターフェースは、開始時点を表す第１の時間情報及び終了時点を表す第２の時間情報が含まれた時間軸情報を含む。図２において、参照翻訳は灰色文字であり、翻訳提案は黒文字であり、図２に示すように、ユーザーが１段のテキストコンテンツを選択した後、参照翻訳は、機能バーと同じ行に位置するように、１行だけ下に移動し、元の参照翻訳が所在する領域は、編集領域になり、翻訳提案を提示して、ユーザーの修正を受けることができる。

Ｓ１４：前記編集領域でのユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供する。

翻訳提案に基づいて、本開示の実施例によって提供される方法は、以下のステップを含み、即ち、ユーザーによる当該翻訳提案の確認操作を検出した場合には、当該翻訳提案を翻訳結果として、編集領域に表示し、ユーザーの当該翻訳提案に対する非確認操作を検出した場合には、ユーザーによって入力された当該翻訳提案とは異なる翻訳を受信し、ユーザーによって入力された翻訳に基づいて、翻訳領域における参照翻訳を更新する。

具体的に実施する場合、上記の確認操作は、ユーザーによる予め設定されたショートカットキーの操作であってもよく、例えば、ユーザーは、当該ショートカットキーをクリックすることで、翻訳提案を受け入れる意図を表明し、従って、ユーザーがショートカットキーをクリックする操作を検出した場合、翻訳提案を翻訳結果として、編集領域に表示する。なお、翻訳提案を翻訳結果として編集領域に表示するという動作は、ステップＳ１４で説明された、編集領域内でのユーザーによる入力になることに注意する必要がある。つまり、この場合、ステップＳ１４は、以下のことを示し、即ち、本開示の実施例によって提供される方法は、今回提供した翻訳提案を翻訳結果として編集領域に表示することに応答し、参照翻訳からの次の翻訳提案を提供する（当該次の翻訳提案は、提供された翻訳提案の、参照翻訳における後続の翻訳であってもよい）。

任意選択で、上記のユーザーの翻訳提案に対する非確認操作を検出した場合は、ユーザーによって入力された翻訳が、今回提供した翻訳提案と一致しないことを検出した場合であり、この場合、本開示の実施例によって提供される方法は、ユーザーによって入力された、翻訳提案とは異なる翻訳を受信し、ユーザーによって入力された翻訳に基づいて、翻訳領域における参照翻訳を更新することができる。なお、ユーザーによって入力された、翻訳提案とは異なる翻訳は、ステップＳ１４で説明された、編集領域内でのユーザーによる入力になることに注意する必要がある。つまり、この場合、ステップＳ１４は、以下のことを示し、即ち、本開示の実施例によって提供される方法は、ユーザーが翻訳提案とは異なる翻訳を編集領域に入力することに応答して、ユーザーによって入力された翻訳に基づいて更新された参照翻訳からの次の翻訳提案を提供することができる。例えば、今回提供した翻訳提案は「ｍｙ」であり、ユーザーによって入力された翻訳が、「Ｉ」という、翻訳提案「ｍｙ」とは異なる翻訳であることを検出した場合、翻訳「Ｉ」に基づいて参照翻訳を更新し、更新された参照翻訳から翻訳「Ｉ」の次の翻訳提案を提供する。

上記の方法によれば、ユーザーの入力に基づいて、参照翻訳からの翻訳提案を提供することができ、また、ユーザーは、確認操作によって翻訳提案をそのまま翻訳結果とすることができ、ユーザーの入力時間を減少させ、本開示は、手作業の精度及び機械の効率性を結合して、翻訳の効率及び品質を高める。

当業者は、本開示の実施例によって提供される技術案をよりよく理解するために、以下、本開示の実施例によって提供されるドキュメント翻訳方法を詳しく説明する。

任意選択で、ステップＳ１４で説明された翻訳提案を提供することは、参照翻訳からの翻訳提案を翻訳領域に強調表示するステップを含むことができる。この場合、ユーザーによる翻訳提案の確認操作を検出した場合、前記翻訳提案の、翻訳領域での強調表示をキャンセルしてもよい。強調表示は、太字フォント、ハイライトフォント、異色文字、異色背景、地紋効果などの、翻訳提案を強調表示できる形態であってもよい。

可能な実施形態において、強調表示は、入力された翻訳の表示形態とは異なる表示形態であってもよく、例えば、入力された翻訳は、太字フォントであり、翻訳提案は、正常フォントであってもよいし、又は、入力された翻訳は、黒文字であり、翻訳提案は、灰色文字などであってもよい。ユーザーによる翻訳提案の確認操作を検出した場合、入力された翻訳の表示形態を、翻訳提案の表示形態と同じになるように調整することができる。例えば、入力された翻訳は、太字フォントであり、翻訳提案は、正常フォントであり、ユーザーによる確認操作を検出した場合、当該翻訳提案を太字フォントに調整して表示する。

可能な実施形態において、確認操作は、ユーザーによる電子機器のショートカットキーに対する入力操作であってもよく、例えば、電子機器は、携帯電話であってもよく、ショートカットキーは、携帯電話の表示領域上の仮想キー又は実体キー（例えば、音量キー）であってもよく、ユーザーは、上記のショートカットキーを操作して、翻訳提案を受け入れることができ、ユーザーによる上記のショートカットキーに対する入力操作を検出した場合、翻訳提案を疑問結果として編集領域に表示してもよく、電子機器はパソコンであってもよく、ショートカットキーはパソコンのキーボード又はマウス上の指定又はカスタムキー（例えば、キーボードａｌｔキー、マウス側キーなど）であってもよい。

確認操作は、例えば、頷き、ウィンク、所定のジェスチャーをするなどの、カメラによって取得された後に認識された姿勢確認操作であってもよく、また、マイクによって取得された後に認識された音声操作であってもよい。

可能な実施形態において、前記参照翻訳からの翻訳提案は、詞、フレーズ、文のうちの少なくとも１つを含む。

以下、翻訳提案の提供形態について詳しく説明する。
ユーザーがテキストコンテンツに対して翻訳を行う際に、翻訳領域に表示される参照翻訳を参照して、編集領域内で入力し（ここで、入力は、例えば字母や単語のキー入力などの文字の入力を含み、編集領域のクリックなどのボタン操作入力も含む）、参照翻訳からの翻訳提案を提供することができる。

翻訳提案は、節の全文に対する翻訳提案であってもよいし、詞やフレーズを単位として提供されるより細粒度の翻訳提案であってもよい。

例えば、テキストは、
（外６）

であり、その参照翻訳は「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｗｉｔｈｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｐｅｒｆｅｃｔｈｉｇｈ―ｓｐｅｅｄｒａｉｌｎｅｔｗｏｒｋ」である場合、ユーザーが編集領域をクリックしたり、編集領域に文字「Ｓ」を入力したりした後、参照翻訳からの翻訳提案「Ｓｏｍｅ」（又は「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅ」などのより粗粒度の翻訳提案）を提供することができる。

ユーザーは、確認操作によって翻訳提案を受け入れ、そして、確認操作を編集領域での入力操作として用いて、参照翻訳からの翻訳提案が引き続いて提供され、例えば、ユーザーによる「Ｓｏｍｅ」の確認操作を検出した場合、「Ｓｏｍｅ」を翻訳結果として編集領域に表示し、ユーザーに次の翻訳提案「ｃｉｔｉｅｓ」を提供する。

ユーザーの翻訳提案に対する非確認操作を検出した場合、ユーザーによって入力された、翻訳提案とは異なる翻訳を受信し、ユーザーによって入力された翻訳に基づいて、翻訳領域における参照翻訳を更新する。当該非確認操作は、非確認を代表する予め設定された操作（予め設定されたキーのクリック、予め設定された動作など）であってもよいし、上記の確認操作を除いた他の場合を指してもよく、例えば、予め設定された時間内に確認操作をしなかったり、又は入力を継続する操作を行ったりすることであってよい。

例えば、テキストコンテンツである
（外７）

の参照翻訳は、「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｗｉｔｈｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｐｅｒｆｅｃｔｈｉｇｈ―ｓｐｅｅｄｒａｉｌｎｅｔｗｏｒｋ.」であり、ユーザーの編集領域に対するクリック入力操作を受信した後、参照翻訳からの翻訳提案「Ｓｏｍｅ」を提供し、ユーザーによる確認操作に基づいて、翻訳提案「Ｓｏｍｅ」を翻訳結果として編集領域に表示し、ユーザーに次の翻訳提案「ｃｉｔｉｅｓ」を引き続いて提供する。翻訳提案「ｗｉｔｈ」を提供する際に、ユーザーから翻訳提案とは異なる入力「ｂ」を受信した場合、ユーザーによって入力された翻訳に基づいて、参照翻訳を「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｂｅｃａｕｓｅｏｆｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｐｅｒｆｅｃｔｈｉｇｈ―ｓｐｅｅｄｒａｉｌｎｅｔｗｏｒｋ.」に更新し、ユーザーに翻訳提案「ｂｅｃａｕｓｅ」を提供する。

なお、翻訳提案が、節の全文参照翻訳である場合、ユーザーは直接的に、編集領域において翻訳提案を編集することができ、例えば、翻訳提案に単語を挿入したり、翻訳提案における単語を削除したり、翻訳提案における単語を変更したりすることなどである。

例えば、テキストコンテンツである「一部の都市は完璧な高速鉄道網の利点を活用して引き続き発展しています」の翻訳提案が、参照翻訳と同様に、「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｗｉｔｈｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｐｅｒｆｅｃｔｈｉｇｈ―ｓｐｅｅｄｒａｉｌｎｅｔｗｏｒｋ.」である場合、ユーザーは直接的に、翻訳提案において、「ｗｉｔｈ」を「ｂｅｃａｕｓｅｏｆ」に修正し、ユーザーの修正に基づいて、参照翻訳を「ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｂｅｃａｕｓｅｏｆｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｐｅｒｆｅｃｔｈｉｇｈ―ｓｐｅｅｄｒａｉｌｎｅｔｗｏｒｋ.」に更新し、当該参照翻訳からの翻訳提案をユーザーに提供し、ユーザーは、確認操作によって、当該翻訳提案を翻訳結果とすることができる。

参照翻訳及び翻訳提案は、機械翻訳（例えば、深層学習翻訳モデルなど）によって提供される。なお、ユーザーが編集領域に入力した翻訳に基づいて、テキストコンテンツに応じた参照翻訳を生成できない場合、事前記憶された辞典コンテンツに基づいて、ユーザーによって入力された翻訳文字を誤り訂正し、誤り訂正後の翻訳に基づいて当該参照翻訳を更新してもよい。

なお、本開示において、翻訳言語が英語、原文が中国語である場合を例とするが、本開示は、翻訳及び原文の言語を限定しておらず、本開示における原文は、中国語の文語文、翻訳は中国語の白話文であってもよいし、又は、原文は日本語、翻訳は英語であるなどの様々な組み合わせであってもよい。

可能な実施形態において、原文表示領域は、編集可能な領域であり、前記原文表示領域におけるテキストコンテンツに対するユーザーの修正操作に応答して、翻訳領域内の参照翻訳を更新することができる。

ユーザーが翻訳領域に翻訳を入力する前又は後でも、ユーザーは、テキストのコンテンツ、即ち、翻訳原文を編集することができ、そして、入力された翻訳は、原文の修正によって上書きされることがなく、ユーザーによる修正後のテキストコンテンツ及び入力された翻訳文字に基づいて、翻訳結果を更新する。

例えば、編集前のテキストコンテンツは
（外８）

であり、対応する翻訳提案は「ＳｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｗｉｔｈｔｈｅａｄｖａｎｔａｇｅｏｆａｐｅｒｆｅｃｔＱｕａｌｃｏｍｍｎｅｔｗｏｒｋ.」であり、ユーザーが編集領域に入力した翻訳結果は、「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｂ」であり、翻訳提案とは異なる翻訳は「ｂ」であり、この場合、参照翻訳を「ＳｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｂｅｃａｕｓｅｏｆｔｈｅａｄｖａｎｔａｇｅｏｆａｐｅｒｆｅｃｔＱｕａｌｃｏｍｍｎｅｔｗｏｒｋ.」に更新することができる。しかし、当該文のテキストコンテンツは、雑音、音声発話者のアクセントなどの要素による誤認識テキストである可能性があり、ユーザーは、その元のテキストが
（外９）

であることを発見した場合、テキストコンテンツにおける
（外１０）

を
（外１１）

に編集し、この場合、更新後の参照翻訳は「Ｓｏｍｅｃｉｔｉｅｓｃｏｎｔｉｎｕｅｔｏｒｉｓｅｂｅｃａｕｓｅｏｆｔｈｅａｄｖａｎｔａｇｅｏｆｔｈｅｐｅｒｆｅｃｔｈｉｇｈ―ｓｐｅｅｄｒａｉｌｎｅｔｗｏｒｋ.」になり、更新後の参照翻訳からの翻訳提案をユーザーに提供する。

可能な実施形態において、編集後のテキストコンテンツの長さが編集前のテキストコンテンツの長さよりも長い場合、編集前のテキストコンテンツの時間軸情報に基づいて、補間処理によって、編集後のテキストコンテンツの時間軸情報を取得する。

例えば、編集前のテキストコンテンツは、
（外１２）

であり、編集後のテキストコンテンツは、
（外１３）

である場合、編集後のテキストコンテンツにおいて、各文字の時間軸情報はいずれも元の９／１１にリセットされ、続いて、ユーザーが区切り、マージなどの操作をする場合、各文字の時間軸情報に基づいて、節又はマージされたサブ段の時間軸情報が決定される。

可能な実施形態において、第１の時間情報及び第２の時間情報に基づいて、翻訳結果を字幕として、翻訳対象となるビデオの画面フレームに追加することができる。

例えば、翻訳対象となるビデオの１番目の文の翻訳結果の時間軸は「００：００：００―００：００：０２」（第１の時間情報は００：００：００であり、第２の時間情報は００：００：０２である）であり、２番目の文の翻訳結果の時間軸は「００：００：０３―００：００：０７」（第１の時間情報は００：００：０３であり、第２の時間情報は００：００：０７である）であり、この場合、翻訳対象となるビデオの第０秒～第２秒の間に、時間軸が「００：００：００―００：００：０２」である翻訳結果を挿入し、翻訳対象となるビデオの第３秒～第７秒の間に、時間軸が「００：００：０３―００：００：０７」である翻訳結果を挿入し、当該翻訳結果は字幕の形態で、翻訳対象となるビデオに挿入される。

全ての翻訳結果はいずれも翻訳対象となるビデオに挿入された後、翻訳が完了したビデオをユーザーが指定したフォーマットで生成し、ユーザーに提供してダウンロードすることができる。

上記の技術案に基づいて、少なくとも以下の技術効果を達成することができ、翻訳対象となるビデオの音声をテキストに変換し、当該テキストの第１の時間情報、第２の時間情報及び参照翻訳を提供し、編集領域でのユーザーによる入力に従って、参照翻訳からの翻訳提案を提供し、ユーザーによる確認操作に応答して翻訳提案を翻訳結果とすることで、ユーザーの入力時間を節約することができ、手作業の精度及び機械の効率性を結合し、ビデオ翻訳の効率及び品質を高める。

図４は、例示的な開示実施例に示されるビデオ翻訳装置のブロック図である。図４に示すように、前記ビデオ翻訳装置４００は、
翻訳対象となるビデオの音声をテキストに変換するための変換モジュール４１０と、
前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示し、さらに、ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するための提示モジュール４２０であって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間である提示モジュール４２０と、
前記編集領域でのユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するための提案モジュール４３０と、を含み、
前記提示モジュール４２０はさらに、前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、前記ユーザーの前記翻訳提案に対する非確認操作を検出した場合、前記ユーザーによって入力された、前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新する。任意選択で、前記提示モジュール４２０はさらに、前記テキストの、前記ビデオにおける対応する時点情報及び／又は画面フレームに基づいて、前記テキストを区切って、複数の節テキストを取得し、各前記節テキストに対して、前記節テキストと、前記節テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示する。

任意選択で、前記テキストは、複数の節テキストを含み、各前記節テキストは、異なる領域に提示され、前記装置は、分割機能バーを提示するための分割モジュールをさらに含み、前記分割機能バーは、前記ユーザーが前記節テキストを分割することをサポートし、前記ユーザーによる前記節テキストのいずれか１つに対する分割操作に応答して、前記節テキストを少なくとも２つの節サブテキストに分割し、各前記節サブテキストについて、前記節サブテキストと、前記節サブテキストの第１の時間情報、第２の時間情報及び前記節サブテキストの参照翻訳とを関連付けて表示する。

任意選択で、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記装置はマージ機能バーを提示するためのマージモジュールをさらに含み、前記マージ機能バーは、前記ユーザーが前記節テキストをマージすることをサポートし、前記ユーザーによる任意の隣接する２つの節テキストに対するマージ操作に応答して、前記隣接する２つの節テキストを１段の新たな節テキストにマージし、前記新たな節テキストについて、前記新たな節テキストと、前記新たな節テキストの第１の時間情報、第２の時間情報及び前記新たな節テキストの参照翻訳とを関連付けて表示する。

任意選択で、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記装置は、再生機能バーを提示するための再生モジュールをさらに含み、前記再生機能バーは、前記ユーザーが前記節テキストに対応する音声を再生することをサポートし、前記ユーザーによる前記再生機能バーの操作に応答して、前記節テキストに対応する音声を再生する。

任意選択で、前記提案モジュール４３０は、前記入力された翻訳とは異なる表示形態で前記翻訳提案を編集領域に表示するよう構成され、前記ユーザーによる前記翻訳提案の確認操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示することは、前記ユーザーによる前記翻訳提案の確認操作に応答して、入力された翻訳と同じ表示形態で翻訳結果としての前記翻訳提案を前記編集領域内に表示することを含む。

任意選択で、前記提案モジュール４３０はさらに、ユーザーによるショートカットキーのトリガー操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示する。

上記の各モジュールの機能について、上記の実施例の方法ステップにおいて詳しく記載されているため、ここで、贅言していない。

以下、図５を参照し、本開示の実施例を実現するための電子機器（例えば、図５における端末装置又はサーバー）５００の構成概略図を示す。本開示の実施例における端末装置は、例えば携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、タブレット（ＰｏｒｔａｂｌｅＡｎｄｒｏｉｄＤｅｖｉｃｅ、ＰＡＤ）、ポータブルメディアプレーヤー（ＰｏｒｔａｂｌｅＭｅｄｉａＰｌａｙｅｒ、ＰＭＰ）、車載端末（例えば、車載ナビゲーション端末）などのモバイル端末、及び、例えばデジタルＴＶ（ｔｅｌｅｖｉｓｉｏｎ、ＤＴＶ）、デスクトップパソコンなどの固定端末を含むが、これらに限定されていない。図５に示される電子機器は１つの例示のみであり、本開示の実施例の機能及び使用範囲にいかなる制限も課すべきではない。

図５に示すように、電子機器５００は、読み取り専用メモリ（Ｒｅａｄ―ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）５０２に記憶されるプログラム、又は記憶装置５０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）５０３にロードされたプログラムに従って、様々な適切な動作及び処理を実行する処理装置（例えば、中央プロセッサー、グラフィックスプロセッサーなど）５０１を含む。ＲＡＭ５０３には、電子機器５００の動作に必要な様々なプログラム及びデータがさらに記憶される。処理装置５０１、ＲＯＭ５０２及びＲＡＭ５０３はバス５０４によって互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース５０５もバス５０４に接続される。

一般的に、Ｉ／Ｏインターフェース５０５には、例えばタッチスクリーン、タッチパネル、キーボード、マウス、カメラ、マイク、加速度計、ジャイロなどを含む入力装置５０６、例えば液晶ディスプレイ（（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ、ＬＣＤ）、スピーカ、振動器などを含む出力装置５０７、例えば磁気テープ、ハードディスクなどを含む記憶装置５０８、及び通信装置５０９が接続される。通信装置５０９は、電子機器５００が他の装置と無線又は有線通信を行って、データを交換することを可能にする。図５は、様々な装置を有する電子機器５００を示すが、全ての示される装置を実施又は具備することは要求されていないことが理解されるべきである。代わりに、より多くの又はより少ない装置を実施又は具備してもよい。

特に、本開示の実施例によれば、フローチャートを参照して以上で説明された過程は、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、非一時的なコンピュータ可読媒体に担持されるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは、通信装置５０９によって、ネットワークからダウンロード及びインストールされ、又は記憶装置５０８からインストールされ、或いはＲＯＭ５０２からインストールされる。当該コンピュータプログラムは処理装置５０１によって実行されるときに、本開示の実施例の方法で限定される上記の機能を実行する。

なお、本開示の上記のコンピュータ可読媒体は、コンピュータ可読信号媒体やコンピュータ可読記憶媒体や上記の両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光学、電磁、赤外線、又は半導体のシステム、装置やデバイスや以上の任意の組み合わせであってもよいが、これらに限定されていない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ―ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ―ｏｎｌｙｍｅｍｏｒｙ、ＣＤ―ＲＯＭ）、光学記憶デバイス、磁気記憶デバイス、又は上記の任意の適切な組み合わせを含むが、これらに限定されていない。本開示において、コンピュータ可読記憶媒体は、プログラムを含むか、又は記憶する有形媒体であってもよく、当該プログラムは指令実行システム、装置又はデバイスによって使用され、又はそれらと結合して使用されてもよい。本開示において、コンピュータ可読信号媒体は、ベースバンドにおいて、又はキャリアの一部として伝搬されるデータ信号を含み、当該データ信号にコンピュータ読み取り可能なプログラムコードが担持される。このように伝搬されるデータ信号について、様々な形態を採用してもよく、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されていない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読信号媒体は、指令実行システム、装置又はデバイスによって使用され、又はそれらと結合して使用されるプログラムを送信、伝搬又は伝送する。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体によって伝送され、当該媒体は、ワイヤー、光ケーブル、無線周波数（ｒａｄｉｏｆｒｅｑｕｅｎｃｙ、ＲＦ）など、又は上記の任意の適切な組み合わせを含むが、これらに限定されていない。

いくつかの実施形態において、クライアント、サーバーは、例えばハイパーテキスト・トランスファー・プロトコル（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ、ＨＴＴＰ）などのような、現在既知の又は将来開発される任意のネットワークプロトコルを利用して通信することができ、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）に互いに接続される。通信ネットワークの例は、ローカルネットワークｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ、ＬＡＮ）、ワイドエリアネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ、ＷＡＮ）、ワールドワイドウェブ（例えば、インターネット）、エンドツーエンドネットワーク（例えば、ａｄｈｏｃエンドツーエンドネットワーク）、及び現在既知の又は将来開発される任意のネットワークを含む。

上記のコンピュータ可読媒体は、上記の電子機器に含まれてもよいし、当該電子機器に配置されず、個別に存在してもよい。

上記のコンピュータ可読媒体には１つ又は複数のプログラムが担持され、上記１つ又は複数のプログラムは当該電子機器によって実行されるときに、当該電子機器に、少なくとも２つのインターネットプロトコルアドレスを取得するステップと、前記少なくとも２つのインターネットプロトコルアドレスを含むノード評価要求をノード評価装置に送信するステップであって、前記ノード評価装置が前記少なくとも２つのインターネットプロトコルアドレスから、インターネットプロトコルアドレスを選択して返信するステップと、前記ノード評価装置によって返信されたインターネットプロトコルアドレスを受信するステップであって、取得されたインターネットプロトコルアドレスが、コンテンツ配信ネットワークにおけるエッジノードを指示するステップと、を実行させる。
又は、上記のコンピュータ可読媒体には１つ又は複数のプログラムが担持され、上記１つ又は複数のプログラムは当該電子機器によって実行されるときに、当該電子機器に、少なくとも２つのインターネットプロトコルアドレスを含むノード評価要求を受信するステップと、前記少なくとも２つのインターネットプロトコルアドレスから、インターネットプロトコルアドレスを選択するステップと、選択されたインターネットプロトコルアドレスを返信するステップであって、受信されたインターネットプロトコルアドレスが、コンテンツ配信ネットワークにおけるエッジノードを指示するステップと、を実行させる。

本開示の操作を実行するためのコンピュータプログラムコードは、１種又は多種のプログラミング言語又はそれらの組み合わせで作成されることができ、上記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語を含み、「Ｃ」言語又は類似するプログラミング言語のような従来の手続き型プログラミング言語をさらに含むが、これらに限定されない。プログラムコードは完全にユーザーコンピュータで実行されてもよく、部分的にユーザーコンピュータで実行されてもよく、１つの独立するソフトウェアパッケージとして実行されてもよく、一部がユーザーコンピュータで、一部がリモートコンピュータで実行されてもよく、又は完全にリモートコンピュータ又はサーバーで実行されてもよい。リモートコンピュータが関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザーのコンピュータに接続することができ、又は、外部コンピュータに接続することができる（例えば、インタネットサービスプロバイダを利用してインターネットを介して接続する）。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。これについて、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセクション、又はコードの一部を代表し、当該モジュール、プログラムセクション、又はコードの一部は、所定の論理機能を実現するための１つ又は複数の実行可能な指令を含む。なお、いくつかの代替の実現において、ブロックに示されている機能は、図に示されている順序とは異なる順序で発生してもよい。例えば、連続的に示される２つのブロックは実際には、基本的に並行実行してもよいし、ある場合には、逆の順序で実行してもよく、関連する機能に応じて決定される。また、ブロック図及び／又はフローチャートにおける各ブロック、並びにブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための、ハードウェアによる専用システムで実現されてもよいし、又は専用ハードウェアとコンピュータ指令との組み合わせで実現されてもよい。

本開示の実施例に記載されたモジュールはソフトウェアの形態で実現されてもよいし、ハードウェアの形態で実現されてもよい。ある場合、モジュールの名称は当該モジュール自体に対する限定を構成するものではなく、例えば、第１の取得モジュールは、「少なくとも２つのインターネットプロトコルアドレスを取得するモジュール」として記載されてもよい。

本明細書において、上記の機能は少なくとも部分的に１つ又は複数のハードウェアロジック部材によって実行される。例えば、利用できるハードウェアロジック部材の例示的なタイプは、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、ＦＰＧＡ）、特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＡＳＩＣ）、特定用途向け標準製品（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＳｔａｎｄａｒｄＰａｒｔｓ、ＡＳＳＰ）、システムオンチップ（ＳｙｓｔｅｍｏｎＣｈｉｐ、ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ｃｏｍｐｌｅｘｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅ、ＣＰＬＤ）などを含むが、これらに限定されない。

本開示の明細書において、機械可読媒体は、指令実行システム、装置又はデバイスによって、又はそれらと組み合わせて使用されてもよいプログラムを含むか、又は記憶する有形媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁、赤外線、又は半導体システム、装置又はデバイス、又は上記の内容の任意の適切な組み合わせを含むが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のワイヤーによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクト磁気ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

本開示の１つ又は複数の実施例によれば、例示１はビデオ翻訳方法を提供し、翻訳対象となるビデオの音声をテキストに変換するステップと、前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示するステップであって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間であるステップと、ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するステップと、前記編集領域での前記ユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するステップと、を含み、前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、前記ユーザーの前記翻訳提案に対する非確認操作を検出した場合、前記ユーザーによって入力された、前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新する。本開示の１つ又は複数の実施例によれば、例示２は例示１の方法を提供し、前記テキストの、前記ビデオにおける対応する時点情報及び／又は画面フレームに基づいて、前記テキストを区切って、複数の節テキストを取得し、各前記節テキストについて、前記節テキストと、前記節テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示する。

本開示の１つ又は複数の実施例によれば、例示３は例示１の方法を提供し、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記方法は、前記ユーザーが前記節テキストを分割することをサポートする分割機能バーを提示するステップと、前記ユーザーによる前記節テキストのいずれか１つに対する分割操作に応答して、前記節テキストを少なくとも２つの節サブテキストに分割し、各前記節サブテキストについて、前記節サブテキストと、前記節サブテキストの第１の時間情報、第２の時間情報及び前記節サブテキストとの参照翻訳を関連付けて表示するステップと、をさらに含む。

本開示の１つ又は複数の実施例によれば、例示４は、例示１の方法を提供し、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記方法は、前記ユーザーが前記節テキストをマージすることをサポートするマージ機能バーを提示するステップと、前記ユーザーによる任意の隣接する２つの節テキストに対するマージ操作に応答して、前記隣接する２つの節テキストを１段の新たな節テキストにマージし、前記新たな節テキストについて、前記新たな節テキストと、前記新たな節テキストの第１の時間情報、第２の時間情報及び前記新たな節テキストの参照翻訳とを関連付けて表示するステップと、をさらに含む。

本開示の１つ又は複数の実施例によれば、例示５は例示１～４の方法を提供し、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記方法は、前記ユーザーが前記節テキストに対応する音声を再生することをサポートする再生機能バーを提示するステップと、前記ユーザーによる前記再生機能バーの操作に応答して、前記節テキストに対応する音声を再生するステップと、をさらに含む。

本開示の１つ又は複数の実施例によれば、例示６は例示１～４の方法を提供し、前記参照翻訳からの翻訳提案を提供するステップは、前記入力された翻訳とは異なる表示形態で前記翻訳提案を編集領域に表示するステップを含み、前記ユーザーによる前記翻訳提案の確認操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示するステップは、前記ユーザーによる前記翻訳提案の確認操作に応答して、入力された翻訳と同じ表示形態で翻訳結果としての前記翻訳提案を前記編集領域内に表示するステップを含む。

本開示の１つ又は複数の実施例によれば、例示７は例示１～４の方法を提供し、前記ユーザーによる前記翻訳提案の確認操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示するステップは、ユーザーによるショートカットキーの入力操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示するステップを含む。

本開示の１つ又は複数の実施例によれば、例示８はビデオ翻訳装置を提供し、翻訳対象となるビデオの音声をテキストに変換するための変換モジュールと、前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示し、さらに、ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するための提示モジュールであって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間である提示モジュールと、前記編集領域でのユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するための提案モジュールと、を含み、前記提示モジュールはさらに、前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、前記翻訳提案に対する前記ユーザーの非確認操作を検出した場合、前記ユーザーによって入力された、前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新する。

本開示の１つ又は複数の実施例によれば、例示９は例示８の装置を提供し、前記提示モジュールはさらに、前記テキストの、前記ビデオにおける対応する時点情報及び／又は画面フレームに基づいて、前記テキストを区切って、複数の節テキストを取得し、各前記節テキストについて、前記節テキストと、前記節テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示する。

本開示の１つ又は複数の実施例によれば、例示１０は例示８の装置を提供し、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記装置は、分割機能バーを提示するための分割モジュールをさらに含み、前記分割機能バーは、前記ユーザーが前記節テキストを分割することをサポートし、前記ユーザーによる前記節テキストのいずれか１つに対する分割操作に応答して、前記節テキストを少なくとも２つの節サブテキストに分割し、各前記節サブテキストについて、前記節サブテキストと、前記節サブテキストの第１の時間情報、第２の時間情報及び前記節サブテキストの参照翻訳とを関連付けて表示する。

本開示の１つ又は複数の実施例によれば、例示１１は例示８の装置を提供し、前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記装置はマージ機能バーを提示するためのマージモジュールをさらに含み、前記マージ機能バーは、前記ユーザーが前記節テキストをマージすることをサポートし、前記ユーザーによる任意の隣接する２つの節テキストに対するマージ操作に応答して、前記隣接する２つの節テキストを１段の新たな節テキストにマージし、前記新たな節テキストについて、前記新たな節テキストと、前記新たな節テキストの第１の時間情報、第２の時間情報及び前記新たな節テキストの参照翻訳とを関連付けて表示する。

本開示の１つ又は複数の実施例によれば、例示１２は例示８～１１の装置を提供し、前記テキストは、複数の節テキストを含み、各前記節テキストは、異なる領域に提示され、前記装置は、再生機能バーを提示するための再生モジュールをさらに含み、前記再生機能バーは、前記ユーザーが前記節テキストに対応する音声を再生することをサポートし、前記ユーザーによる再生機能バーの操作に応答して、前記節テキストに対応する音声を再生する。

本開示の１つ又は複数の実施例によれば、例示１３は例示８～１１の装置を提供し、前記提案モジュールは、前記入力された翻訳とは異なる表示形態で前記翻訳提案を編集領域に表示するよう構成され、前記ユーザーによる前記翻訳提案の確認操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示することは、前記ユーザーによる前記翻訳提案の確認操作に応答して、入力された翻訳と同じ表示形態で翻訳結果としての前記翻訳提案を前記編集領域内に表示することを含む。

本開示の１つ又は複数の実施例によれば、例示１４は、例示８～１１の装置を提供し、前記提案モジュールはさらに、ユーザーによるショートカットキーのトリガー操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示する。

以上の記載は、本開示の好適な実施例及び適用される技術原理に対する説明にすぎない。当業者であれば理解できるように、本開示に係る開示範囲は、上記の技術特徴の特定の組み合わせによって形成される技術案に限定されず、また、上記の開示された構想から逸脱することなく、上記の技術特徴又はその同等の特徴の任意の組み合わせによって形成される他の技術案、例えば、上記の特徴と、本開示に開示された（ただしこれに限定されていない）類似機能を有する技術特徴とを互いに置き換えることによって形成された技術案も含む。

また、特定の順序を採用して各操作を記載したが、示される特定の順番、又は順序に従ってこれらの操作を順に実行することを要求するものとして解釈されるべきではない。特定の環境で、マルチタスク及び並行処理は有利である可能性がある。同様に、以上の論述には、いくつかの具体的な実現の詳細が含まれるが、本開示の範囲に対する限定として解釈されるべきではない。単一の実施例の文脈で説明されるいくつかの特徴は、単一の実施例で組み合わせて実現されてもよい。逆に、単一の実施例の文脈で説明される様々な特徴は、別々に、又は任意の適切なサブコンビネーションの形態で、複数の実施例で実現されてもよい。

構成特徴及び／又は方法の論理動作に固有の言語で、本主題を説明したが、添付の特許請求の範囲で限定される主題は、上記の特定の特徴又は動作に限定されないことを理解すべきである。むしろ、上述した特定の特徴及び動作は、特許請求の範囲を実現するための単なる例示的な形態である。上記の実施例の装置について、各モジュールが操作を実行する具体的な形態は、当該方法に関する実施例で詳しく記載されたため、ここで、詳しく説明していない。

上記のコンピュータ可読媒体には１つ又は複数のプログラムが担持され、上記１つ又は複数のプログラムは当該電子機器によって実行されるときに、当該電子機器に、翻訳対象となるビデオの音声をテキストに変換するステップと、前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳を提示するステップであって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間であるステップと、ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するステップと、前記編集領域での前記ユーザーによる入力に追従して、前記参照翻訳からの翻訳提案を提供するステップと、を実行させ、前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、前記ユーザーの前記翻訳提案に対する非確認操作を検出した場合、前記ユーザーによって入力された、前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新する。

Claims

ビデオ翻訳方法であって、
翻訳対象となるビデオの音声をテキストに変換するステップと、
前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示するステップであって、前記第１の時間情報は、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報は、前記ビデオにおける前記テキストの終了時間であるステップと、
ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するステップと、
前記編集領域での前記ユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するステップと、を含み、
前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、及び、前記翻訳提案に対する前記ユーザーの非確認操作を検出した場合、前記ユーザーによって入力された前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新することを特徴とする方法。
前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示する前記ステップは、
前記テキストの、前記ビデオにおける対応する時点情報及び／又は画面フレームに基づいて、前記テキストを区切って、複数の節テキストを取得するステップと、
各前記節テキストに対して、前記節テキストと、前記節テキストの第１の時間情報、第２の時間情報及び参照翻訳とを提示するステップと、を含むことを特徴とする請求項１に記載の方法。
前記テキストは複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記方法は、
前記ユーザーが前記節テキストを分割することをサポートする分割機能バーを提示するステップと、
前記ユーザーによる前記節テキストのいずれか１つに対する分割操作に応答して、前記節テキストを少なくとも２つの節サブテキストに分割し、各前記節サブテキストについて、前記節サブテキストと、前記節サブテキストの第１の時間情報、第２の時間情報及び前記節サブテキストの参照翻訳とを関連付けて表示するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
前記テキストは、複数の節テキストを含み、各前記節テキストは異なる領域に提示され、前記方法は、
前記ユーザーが前記節テキストをマージすることをサポートするマージ機能バーを提示するステップと、
前記ユーザーによる任意の隣接する２つの節テキストに対するマージ操作に応答して、前記隣接する２つの節テキストを１段の新たな節テキストにマージし、前記新たな節テキストについて、前記新たな節テキストと、前記新たな節テキストの第１の時間情報、第２の時間情報及び前記新たな節テキストの参照翻訳とを関連付けて表示するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
前記テキストは、複数の節テキストを含み、各前記節テキストは、異なる領域に提示され、前記方法は、
前記ユーザーが前記節テキストに対応する音声を再生することをサポートする再生機能バーを提示するステップと、
前記ユーザーによる前記再生機能バーの操作に応答して、前記節テキストに対応する音声を再生するステップと、をさらに含むことを特徴とする請求項１から４のいずれか１項に記載の方法。
前記参照翻訳からの翻訳提案を提供する前記ステップは、
入力された翻訳とは異なる表示形態で前記翻訳提案を前記編集領域に表示するステップを含み、
前記ユーザーにおる前記翻訳提案の確認操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示する前記ステップは、
前記ユーザーによる前記翻訳提案の確認操作に応答して、入力された翻訳と同じ表示形態で翻訳結果としての前記翻訳提案を前記編集領域内に表示するステップを含むことを特徴とする請求項１から４のいずれか１項に記載の方法。
前記ユーザーによる前記翻訳提案の確認操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示する前記ステップは、
ユーザーによるショートカットキーのトリガー操作に応答して、前記翻訳提案を翻訳結果として前記編集領域に表示するステップを含むことを特徴とする請求項１から４のいずれか１項に記載の方法。
ビデオ翻訳装置であって、
翻訳対象となるビデオの音声をテキストに変換するための変換モジュールと、
前記テキストと、前記テキストの第１の時間情報、第２の時間情報、及び参照翻訳とを提示し、さらに、ユーザーによる前記テキスト又は前記参照翻訳の操作に応答して、前記ユーザーが翻訳を入力することをサポートする編集領域を提示するための提示モジュールであって、前記第１の時間情報が、前記ビデオにおける前記テキストの開始時間であり、前記第２の時間情報が、前記ビデオにおける前記テキストの終了時間である提示モジュールと、
前記編集領域でのユーザーによる入力に従って、前記参照翻訳からの翻訳提案を提供するための提案モジュールと、を含み、
前記提示モジュールはさらに、前記ユーザーによる前記翻訳提案の確認操作を検出した場合、前記翻訳提案を翻訳結果として前記編集領域に表示し、及び、前記翻訳提案に対する前記ユーザーの非確認操作を検出した場合、前記ユーザーによって入力された前記翻訳提案とは異なる翻訳を受信し、前記ユーザーによって入力された前記翻訳を前記翻訳結果として前記編集領域に表示し、前記ユーザーによって入力された前記翻訳に基づいて、翻訳領域における参照翻訳を更新することを特徴とする装置。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、当該プログラムが処理装置によって実行されるときに、請求項１から７のいずれか１項に記載の方法のステップを実現することを特徴とするコンピュータ可読媒体。
電子機器であって、
コンピュータプログラムが記憶された記憶装置と、
前記記憶装置における前記コンピュータプログラムを実行して、請求項１から７のいずれか１項に記載の方法のステップを実現する処理装置と、を含むことを特徴とする電子機器。