JP2023155209A

JP2023155209A - ビデオ翻訳プラットフォーム

Info

Publication number: JP2023155209A
Application number: JP2023062296A
Authority: JP
Inventors: ガーグ，アンクール; Garg Ankur; ゴパラクリシュナン，ラニ; Gopalakrishnan Rani; チャフェカール，シャイレシュ; Chaphekar Shailesh; ダルミットシャー，ディーパ; Dharmit Shah Deepa; バシン，ビピン; Bhasin Vipin; チョウリー，パッラフ; Chourey Pallav; カイタン，スラジ; Khaitan Suraj; アヴィナッシュガテ，アナガ; Avinash Ghate Anagha; ヴァイバブ，クマール; Vaibhav Kumar
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2022-04-08
Filing date: 2023-04-06
Publication date: 2023-10-20
Also published as: US20230325611A1

Abstract

【課題】受信した入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムを提供する。【解決手段】ビデオ翻訳システムが入力ビデオをターゲット言語に翻訳する方法は、受信されたソース言語の入力ビデオのビデオコンテンツと同期して実行される翻訳されたオーディオトラック／出力オーディオトラックを含むターゲット言語の出力ビデオを生成し、さらに、翻訳されたオーディオトラックに対応する翻訳された字幕を表示し、入力ビデオを受信すると、入力ビデオのドメインを特定し、翻訳エンジンおよび文字起こしエンジンが、特定されたドメインと入力ビデオおよび出力ビデオに対応する言語のペアとに基づき選択され、翻訳エンジンを使用して生成された出力オーディオトラックがビデオと同期してマージされ、出力ビデオが生成される。文字起こしエンジンは、出力ビデオのためにソース言語からターゲット言語に翻訳された字幕を生成する。【選択図】図１Ｂ

Description

技術分野
本開示は、全般的に、受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムに関する。

優先権
本願は、２０２２年４月８日が出願日であるインド特許仮出願第２０２２１１０２１１２８号、および２０２２年４月２１日が出願日であるインド特許仮出願第２０２２１１０２３５９０号の優先権を主張するものであり、その開示全体が参照によって本願明細書に援用される。

コンピュータは、或る言語から別の言語にテキストを翻訳するために長く使用されてきた。自動翻訳または機械翻訳は、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）テクノロジーにより可能になる重要な機能の１つである。典型的には、ルールベースのシステムがこのタスクに使用された。しかし、こうしたシステムは、後に統計的手法を使用するシステムに取って代わられた。より最近では、深層ニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）モデルがニューラル機械翻訳の分野で最先端の成果を実現している。

本開示の実装は、全般的に、ビデオ翻訳システムを対象とする。一部の実装において、ビデオ翻訳システムは、少なくとも１つのプロセッサ、機械可読命令を記憶する非一時的なプロセッサ可読媒体を含んでもよく、機械可読命令はプロセッサに、ソース言語の入力オーディオトラックを含む入力ビデオに関連するドメインを特定することと、ドメインに少なくとも基づいて、複数の翻訳エンジンから翻訳エンジンを、さらに複数の文字起こしエンジンから文字起こしエンジンを、自動的に選択することと、文字起こしエンジンによりソース言語の入力オーディオトラックの文字起こしを作成することと、翻訳エンジンを使用して文字起こしをターゲット言語に翻訳することと、翻訳された文字起こしを使用してターゲット言語の翻訳された字幕を生成することであって、翻訳された字幕は、入力ビデオ内でソース言語で表示されるテキストコンテンツの翻訳も含む、翻訳された字幕を生成することと、入力オーディオトラックの翻訳された文字起こしに対応する音声出力を生成することと、音声出力を使用して、入力オーディオトラックに対応する出力オーディオトラックをターゲット言語で作成することと、出力オーディオトラックおよび翻訳された字幕と同期した入力ビデオのビデオコンテンツを表示する出力ビデオを生成することとをさせる。

上記のビデオ翻訳システムの一部の実装において、ドメインを特定するために、プロセッサは、入力オーディオトラックからキーワードを抽出することと、既定の複数のドメインに対する確率スコアカードを、単純ベイズ法を使用して作り出すこととをしてもよい。

上記のビデオ翻訳システムの一部の実装において、ドメインを特定するために、プロセッサは、既定の複数のドメインのうち最高の確率を備えるドメインを入力ビデオのドメインとして出力してもよい。

上記のビデオ翻訳システムの一部の実装において、翻訳エンジンおよび文字起こしエンジンを自動的に選択するために、プロセッサは、訓練された機械学習（ＭＬ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）モデルを使用して、ドメインに基づき複数の解パスを生成してもよく、複数の解パスそれぞれは、１つの光学文字認識（ＯＣＲ：ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）エンジンと、複数の文字起こしエンジンのうちの１つと、複数の翻訳エンジンのうちの１つとの固有の組み合わせを含む。

上記のビデオ翻訳システムの一部の実装において、翻訳エンジンおよび文字起こしエンジンを自動的に選択するために、プロセッサは、ソース言語、ターゲット言語、およびドメインに対して固有の組み合わせで使用されるＯＣＲエンジン、文字起こしエンジン、および翻訳エンジンそれぞれの正解率に基づき、複数の解パスそれぞれをスコアリングすることと、解パスのうち、複数の解パスの中で最高スコアを有する解パスからのＯＣＲエンジン、文字起こしエンジン、および翻訳エンジンを選択することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、翻訳された字幕を生成するために、プロセッサは、光学文字認識（ＯＣＲ）技術を使用して入力ビデオからテキストを抽出することと、入力オーディオトラックの文字起こしと、入力ビデオから抽出されたテキストとをターゲット言語に翻訳することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、入力ビデオからテキストを抽出するために、プロセッサはさらに、入力ビデオの中でテキストコンテンツを備えるフレームを、輪郭検出技術を使用して検出することと、所定のエリアを上回るテキストコンテンツを有するフレームのサブセットを意味のあるテキストを含むものとして特定することと、意味のあるテキストを含むフレームのサブセットの重複排除を行うこととをしてもよい。

上記のビデオ翻訳システムの一部の実装において、入力ビデオから意味のあるテキストを特定するために、プロセッサはさらに、テキストコンテンツを含むフレームそれぞれについて、訓練された畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ）を使用して特徴の順序付けされたシーケンスを生成することと、特徴の順序付けされたシーケンスに基づき、フレームの中でテキストコンテンツを含むエリアを特定することと、ソース言語の字を特定するように訓練されたソース言語ベースのＣＮＮを使用してテキストコンテンツの字を予測することと、ソース言語ベースのＣＮＮの出力に基づき、双方向長・短期記憶（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）を使用して単語特徴を抽出することと、非テキスト特徴に対するテキスト特徴のパーセンテージを計算することと、パーセンテージと、既定の閾値パーセンテージとの比較に基づき、フレームが意味のあるテキストを含むと判断することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、フレームの重複排除を行うために、プロセッサは、フレームのうちの２つについて個々の特徴ベクトルを抽出することと、個々の特徴ベクトル間のユークリッド距離を測定することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、フレームの重複排除を行うために、プロセッサは、シグモイド関数をユークリッド距離に適用することにより２つのフレーム間の類似度を判断すること、類似度と、所定の類似度閾値とを比較することにより、２つのフレームの重複排除を行うことをしてもよい。

上記のビデオ翻訳システムの一部の実装において、出力オーディオトラックを作成するために、プロセッサは、入力オーディオトラックの種々の部分に関連する対応する性別を特定することと、対応する性別に基づき音声出力を生成することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、出力ビデオを生成するために、プロセッサは、翻訳された文字起こしに対応する音声出力の持続期間と、入力オーディオトラックの持続期間とを比較することと、音声出力が入力ビデオの対応する部分と非同期であると判断することと、入力オーディオトラックの持続期間を音声出力の持続期間で除した比として速度係数を計算することと、速度係数の値に基づき、音声出力と、入力ビデオのビデオフレームとのうちの１つ以上を操作することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、出力ビデオを生成するために、プロセッサは、音声出力が入力オーディオトラックより短い持続期間を有すると判断することと、速度係数の値において達成されるべき増大を判断することと、音声出力の音声セグメントの前および後に音声出力における休止を挿入することにより出力オーディオトラックを生成することであって、休止の持続期間は、達成されるべき速度係数の値の増大に基づき決定される、出力オーディオトラックを生成することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、出力ビデオを生成するために、プロセッサは、音声出力が入力オーディオトラックより長い持続期間を有すると判断することと、速度係数の値において達成されるべき減少を判断することと、達成されるべき速度係数の値の減少に基づき入力ビデオのビデオコンテンツにビデオフレームを追加することとをしてもよい。

上記のビデオ翻訳システムの一部の実装において、入力ビデオにビデオフレームを追加するために、プロセッサは、生成器および識別器を含む敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を使用して新たなビデオフレームを自動的に生成してもよく、生成器は、識別器により検証されるビデオフレームの画像を作り出す。

上記のビデオ翻訳システムの一部の実装において、新たなビデオフレームを自動的に生成するために、プロセッサは、入力ビデオのビデオフレームにおいて撮像されている話者の受信されたグランドトゥルースポーズに基づき新たなビデオフレームを生成してもよく、新たなビデオフレームは、話者のグランドトゥルースポーズとともにフェイクの口の形を含む。

本開示の実装は、全般的に、受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成する方法も対象とする。一部の実装において、方法は、ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定するステップと、ドメインに基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択するステップと、文字起こしエンジンによりソース言語の入力オーディオトラックの文字起こしを作成するステップと、翻訳エンジンを使用して文字起こしをターゲット言語に翻訳するステップと、入力オーディオトラックの翻訳された文字起こしに対応する音声出力を生成するステップと、翻訳された字幕を、翻訳された文字起こしを使用して作成するステップであって、翻訳された字幕は、入力ビデオ内でソース言語で表示されるテキストコンテンツの翻訳も含む、翻訳された字幕を作成するステップと、音声出力からターゲット言語の出力オーディオトラックを作成するステップと、出力オーディオトラックおよび翻訳された字幕と同期した入力ビデオのビデオコンテンツを表示する出力ビデオを生成するステップとを含んでもよい。

上記の方法の一部の実装において、出力オーディオトラックを作成するステップはさらに、異なる言語、異なるアクセント、異なるトーン、および異なるスタイルで話す異なる性別の人々のオーディオサンプルを有するデータセットに対して訓練された、長・短期記憶（ＬＳＴＭ）ネットワークを備えたカスタム畳み込みニューラルネットワーク（ＣＮＮ）を使用して、入力オーディオトラックの音声セグメントの性別を検出するステップを含んでもよい。

上記の方法の一部の実装において、ＬＳＴＭネットワークを備えたカスタムＣＮＮの訓練はさらに、ＬＳＴＭネットワークを備えたカスタムＣＮＮを、データセットに含まれる言語固有特徴を使用してソース言語で性別を検出するように訓練するステップを含んでもよい。

上記の方法の一部の実装において、ＬＳＴＭネットワークを備えたカスタムＣＮＮの訓練はさらに、オーディオサンプルをメルスペクトログラムに変換するステップと、メルスペクトログラムをシャッフル、リサイズ、および正規化するステップと、データセットを訓練データセット、検証データセット、およびテストデータセットに分割するステップとを含んでもよい。

上記の方法の一部の実装において、翻訳された字幕を作成するステップはさらに、文字起こしからソース言語のストップワードを検出するステップと、ストップワードを使用して文字起こしの文の始まりおよび終わりを特定するステップとを含んでもよい。

上記の方法の一部の実装において、翻訳された字幕を作成するステップはさらに、ドメイン、ソース言語、およびターゲット言語に基づき用語集を選択するステップであって、用語集は、ソース言語およびターゲット言語のうちの１つ以上の、ドメイン固有用語を含む、用語集を選択するステップを含んでもよい。

本開示の実装は、全般的に、非一時的なプロセッサ可読ストレージ媒体も対象とする。一部の実装において、非一時的なプロセッサ可読ストレージ媒体は、機械可読命令を含んでもよく、機械可読命令はプロセッサに、ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定することと、ドメインに少なくとも基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択することと、文字起こしエンジンによりソース言語の入力オーディオトラックの文字起こしを作成することと、翻訳エンジンを使用して文字起こしをターゲット言語に翻訳することと、入力オーディオトラックの翻訳された文字起こしに対応する音声出力を生成することと、翻訳された文字起こしを使用してターゲット言語の翻訳された字幕を生成することであって、翻訳された字幕は、入力ビデオ内でソース言語で表示されるテキストコンテンツの翻訳も含む、翻訳された字幕を生成することと、音声出力を使用して、入力オーディオトラックに対応する出力オーディオトラックをターゲット言語で作成することと、出力オーディオトラックおよび翻訳された字幕と同期した入力ビデオのビデオコンテンツを表示する出力ビデオを生成することとをさせる。

上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、音声出力の持続期間と入力オーディオトラックとの比較に基づき、音声出力が入力ビデオのビデオコンテンツと非同期であると判断させてもよい。

上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、ターゲット言語のストップワードの検出に基づき音声出力における文の始まりおよび終わりを特定することと、音声出力における文の始まりおよび終わりに休止を追加することにより、音声出力から出力オーディオトラックを生成することとをさせてもよい。

上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、以下のこと：現在のタイムスタンプに対応するフレームの前および後のビデオフレームのエッジディスクリプタを計算すること、前のフレームと、現在のタイムスタンプのフレームとの間、ならびに後のビデオフレームと、現在のタイムスタンプに関係するフレームとの間の、対応するユークリッド距離を判断すること、前および後のフレームのうち、現在のタイムスタンプに対応するフレームの直前および直後であり、閾値の値よりも大きい対応するユークリッド距離を有する２つを、個別フレームとして特定すること、ならびに現在のタイムスタンプに対応するフレーム内の特徴を、直前および直後の個別フレームからの特徴により置き換えることにより、敵対的生成ネットワーク（ＧＡＮ）の生成器ネットワークを使用して新たなビデオフレームを生成させてもよい。

上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、ＧＡＮの識別器ネットワークを使用して、動きの一貫性について新たなビデオフレームを評価させてもよい。

本開示の特徴が、以下の図面に示される例によって明らかにされる。以下の図面において、同じ数字は同じ構成要素を示す。

本願明細書において開示されている例による、ビデオ翻訳システムのブロック図を示す。本願明細書において開示されている例による、入力ビデオをターゲット言語に翻訳する方法を示すフローチャートを示す。本願明細書において開示されている例による、次世代ＡＩエンジンのブロック図を示す。本願明細書において開示されている例による、次世代ＡＩエンジンにおいて用いられるいくつかのカスタムモデルを示す。本願明細書において開示されている例による、次世代ＡＩエンジンによる解パスの生成のブロック図を示す。本願明細書において開示されている例による、入力ビデオからのテキストの抽出に関与する様々なステップのブロック図を示す。本願明細書において開示されている例による、所与のフレームからテキストを特定するステップのブロック図を示す。本願明細書において開示されている例による、ビデオフレームの複製を示す。本願明細書において開示されている例による、ビデオフレームの複製を示す。本願明細書において開示されている例による、オーディオダビングプロセスに関与するステップのブロック図を示す。本願明細書において開示されている例による、オーディオダビングのための性別検出のアーキテクチャを示す。本願明細書において開示されている例による、自動的なビデオフレーム生成に関与する様々なステップのブロック図を示す。本願明細書において開示されている例による、時間的シフトの図を示す。本願明細書において開示されている例による、ビデオ生成器のアーキテクチャを示す。本願明細書において開示されている例による、敵対的生成ネットワーク（ＧＡＮ）を使用するリップシンクのための生成器アーキテクチャを示す。本願明細書において開示されている例による、ＧＡＮを使用するリップシンクのための識別器アーキテクチャを示す。本願明細書において開示されている例による、翻訳された字幕の生成に関与するステップを示す。本願明細書において開示されている例による、強化学習を使用する自動的なフィードバック取り込みのためのステップを示す。本願明細書において開示されている例による、次世代Ａｉエンジンを再訓練する強化学習の取り込みを示す。本願明細書において開示されている例による、ビデオ翻訳システムを実装するために使用され得るコンピュータシステムを示す。

簡潔さおよび例示の目的で、本開示について、その例を参照することにより説明する。以下の説明では、本開示が十分に理解されるように特定の詳細事項が数多く記載される。しかし、当然のことながら、本開示はこうした特定の詳細事項に限定されることなく実施され得る。そのほか、本開示を不必要に曖昧にしないよう、一部の方法および構造を詳しく説明していない場合もある。本開示全体にわたって、「ａ（或る）」および「ａｎ（或る）」という用語は、少なくとも１つの特定の構成要素を示すよう意図される。本願明細書で使用されるとき、「ｉｎｃｌｕｄｅｓ（含む）」という用語は、含むがそれに限定されないという意味であり、「ｉｎｃｌｕｄｉｎｇ（含んでいる）」という用語は、含んでいるがそれに限定されないという意味である。「ｂａｓｅｄｏｎ（基づく）」という用語は、少なくとも部分的に基づくという意味である。

受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムが開示される。入力ビデオは、その翻訳先のターゲット言語の選択とともに受信されてもよい。或る例において、入力ビデオは、入力言語／ソース言語のオーディオトラックを含んでもよく、出力ビデオは、出力言語／ターゲット言語で生成されてもよい。入力ビデオが受信されると、次世代ＡＩエンジンが、入力ビデオのドメインを特定する。ドメイン、ソース言語、およびターゲット言語に少なくとも基づき、次世代ＡＩエンジンは、特定されたドメインおよびソース言語／ターゲット言語ペアに対して、最高の翻訳正解率を提供できる最良の翻訳エンジン、文字起こしエンジン、および光学文字認識（ＯＣＲ）エンジンを含むであろう解パスを推奨することができる。翻訳エンジンおよび文字起こしエンジンは、利用可能なオプションの中から翻訳タスク／文字起こしタスクの最高の正解率を提供するように選択できる。

入力オーディオトラックが、入力ビデオから抽出され、性別検出のために使用され、入力オーディオトラックで話しているそれぞれの音声の性別が性別検出モデルにより特定される。或る例において、入力オーディオトラックが同じ性別の異なる音声を含めば、そのような区別も性別検出モデルにより特定され得る。さらに、抽出された入力オーディオトラックにおいて発生する休止およびストップワードも特定される。入力ビデオの種々のフレームに存在し得る、意味のあるテキストも抽出されてもよい。さらに、選択された文字起こしエンジンは、入力オーディオトラックを文字起こしして、オーディオ入力の文字起こしされたテキストを作成する。文字起こしされたテキストと、入力ビデオのフレームから抽出されたテキストとを翻訳エンジンに提供して、ターゲット言語に翻訳されたテキスト出力を取得することができる。このテキスト出力をスピーチに変換して、ターゲット言語の音声出力を作成することができる。或る例において、音声出力のオーディオ信号は、出力オーディオトラックを生成するためにさらに処理できる音声セグメントを構成する、スピーチの同質ゾーンに分割されてもよい。

速度係数が音声出力に対して計算され、音声出力と入力ビデオとが同期するように、それらのうちの１つ以上が、本願明細書に記載された種々の方法を使用して必要に応じ操作または変換されてもよい。或る例において、休止が音声出力に挿入されて、出力オーディオトラックが生成されることが可能である。或る例において、音声出力は、調整されずに出力オーディオトラックとして使用されてもよい。或る例において、入力ビデオのビデオコンテンツは、敵対的生成ネットワーク（ＧＡＮ）を使用して自動的に生成される新たなビデオフレームを挿入することにより調整できる。入力ビデオ内の話者の画像も、画像内の話者の唇の動きが出力ビデオトラックと同期するように調整できる。出力オーディオトラックと調整されたビデオコンテンツとをマージすることにより出力ビデオが生成される。ドメインの特定、翻訳、および文字起こしエンジンの選択に使用される機械学習（ＭＬ）モデルを改善するために、ユーザフィードバックが収集されて、強化学習により自動的に取り込まれることが可能である。

本願明細書において開示されているサーバレス、リアルタイム、オンラインのビデオ翻訳ソリューションは、ボタンのクリックでビデオコンテンツを翻訳するためのインタラクティブなユーザインターフェースを含む。ビデオ翻訳システムは、自動化および人工知能（ＡＩ）を使用して、ビデオの文字起こしをし、次に、それを多言語の視聴者に適したものにするために、ソース言語の入力オーディオトラックをターゲット言語に翻訳する。文字起こしされた入力オーディオトラックから生成された翻訳スクリプトは、次に、翻訳されたオーディオに再び変換され、ビデオコンテンツに埋め込まれて、出力ビデオが生成されることが可能である。ビデオ翻訳は、次に限定はされないが、カスタム／ドメイン固有の用語集、専門家レビュー、ビデオ内のコンテンツの抽出、スマート次世代ＡＩ、専門家からのフィードバックに基づく自動学習、およびコンテンツの保護および配布のためのセキュリティ層などの各特徴により可能になる。或る例において、ビデオ翻訳システムは、大きな規模でペイパーユース方式のメリットを得るために、ソフトウェアアズアサービス（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）ソリューションとして利用可能にできる。本願明細書に記載されているビデオ翻訳システムは、翻訳作業／文字起こし作業の大部分が自動化されるため、翻訳に一年中２４時間利用でき、高速且つ非常に低コストの翻訳を提供する。

図１は、本願明細書において開示されている例による、ビデオ翻訳システム１００の図を示す。入力ビデオ１１０内のオーディオおよびテキストコンテンツを出力言語／ターゲット言語に翻訳し、出力ビデオ１９０を生成する、ビデオ翻訳システム１００により、入力ビデオ１１０が受信される。或る例において、入力ビデオ１１０は、１つ以上の入力言語／ソース言語の入力オーディオトラックおよび／またはテキストコンテンツを含むことができる。その結果、出力ビデオ１９０は、ターゲット言語の出力オーディオトラックと、ソース言語からターゲット言語に翻訳されたテキストコンテンツとのうち１つ以上を含むことになるであろう。或る例において、翻訳されたテキストコンテンツを、出力ビデオ１９０において字幕として提供できる。さらに出力ビデオ１９０は、ターゲット言語に適するように操作または変更されたビデオコンテンツも含むことになるであろう。或る例において、ターゲット言語のための選択が、ユーザインターフェースを介して入力ビデオ１１０とともに提供されることが可能である。入力ビデオ１１０は、次に限定はされないが、例えば医療、財務、教育、経営、科学のトピック、娯楽コンテンツなど、複数のドメインから選択されるドメインに関連し得る。

入力ビデオ１１０が受信されると、次世代ＡＩエンジン１０２は、ソース言語と、入力ビデオ１１０に関連するドメインとを検出するために、言語およびドメイン検出器１３２をアクティブ化する。ソース言語／ターゲット言語の組み合わせと、入力ビデオ１１０に関連するドメインとに少なくとも基づき、次世代ＡＩエンジン１０２の最良解パス選択器１３４は、自動化された翻訳タスクおよび文字起こしタスクを実行する、複数の翻訳エンジン１６０から選択された翻訳エンジンと、複数の文字起こしエンジン１７０から選択された文字起こしエンジンとの固有の組み合わせを含む、最良解パスの推奨を提供することができる。翻訳エンジンの選択は、特定のソース言語／ターゲット言語ペアと、入力ビデオ１１０に関連するドメインとの翻訳に対する翻訳エンジンの正解率に基づくことができる。同じく文字起こしサービスも、特定のソース言語と、入力ビデオ１１０に関連するドメインとに対する複数の文字起こしエンジン１７０の正解率に基づき選択されるとよい。或る例において、次世代ＡＩエンジン１０２は、ユーザが文字起こしエンジン／翻訳エンジンを手動で選択するために、翻訳エンジンおよび文字起こしエンジンの自動選択をオーバーライドできるオプションを提供してもよい。

出力ビデオ１９０を生成するために用いられる最適な翻訳エンジンおよび文字起こしエンジンを特定すると、入力オーディオトラックがオーディオ抽出器１０４により抽出される。入力オーディオトラックは、例えば、．ｍｐ３、．ｗａｖなどのオーディオファイルとして記憶されてもよい。オーディオ抽出器１０４はさらに、性別検出器１４２、休止検出器１４４、およびストップワード特定器１４６を含むか、またはそれに結合されることが可能である。性別検出器１４２は、別々の話者により話される、入力ビデオ１１０内の入力オーディオトラックのそれぞれの部分を特定する。性別検出器１４２は、翻訳されたオーディオ出力を適切な機械生成音声で作成できるようにする。休止検出器１４４は、入力オーディオトラックにおける休止を特定する。入力ビデオ１１０における休止を特定することで、出力ビデオ１９０における翻訳された字幕の出現と、対応するオーディオとを正確に同期させることができる。さらに、ストップワード特定器１４６が、入力ビデオ１１０のオーディオ入力において発生する種々のストップワードを特定する。異なる言語には、異なるストップワードがあるかもしれず、そのようなストップワードの特定は、出力ビデオ１９０のオーディオコンポーネントと同期して字幕を中断することを可能にし、その結果、意味をなす字幕を表示できる。

次に入力ビデオ１１０は、テキスト抽出器１０６によるテキスト抽出のために処理される。或る例において入力ビデオ１１０は、ソース言語のテキストコンテンツを備えた特定の部分を含む可能性があり、それを閲覧者が理解することは、入力ビデオ１１０の進行を追うのに重要なこともある。入力ビデオ１１０からのテキスト抽出器１０６は、意味のあるテキストコンテンツを備えた当該フレームを特定するために、入力ビデオ１１０のフレームを分析することを必要とし得る。次に、これらのフレームに対して、光学文字認識（ＯＣＲ）がテキスト抽出のために適用されてもよい。関連しないコンテンツを翻訳または文字起こしするのに処理リソースが浪費されないように、意味のあるテキストコンテンツを備えたフレームの自動的な特定には、所与のフレームにおけるテキストコンテンツの範囲などの一定の閾値が必要となる場合がある。入力ビデオ１１０から抽出された入力オーディオトラックのテキスト形式または文字起こしを生成するために、選択された文字起こしサービスが音声テキスト化変換器１０８により用いられる。音声テキスト化変換器１０８からの文字起こしは、ソース言語でテキスト翻訳器１１２に提供されてもよく、テキスト翻訳器１１２は、その文字起こしを、次世代ＡＩエンジン１０２により選択された翻訳サービスを使用してターゲット言語に翻訳する。或る例において、テキスト翻訳器１１２へのテキスト入力は、テキスト抽出器１０６により選択されたフレームから取得された、ソース言語のテキスト出力／意味のあるテキストも含んでもよい。したがって、テキスト翻訳器１１２は、入力オーディオトラックに対してのみでなく、入力ビデオフレームから特定および抽出された意味のあるテキストコンテンツに対しても、ターゲット言語の翻訳テキストコンテンツを作成する。テキストスピーチ化変換器１１４は、テキスト翻訳器１１２から取得された翻訳テキストコンテンツに対応するターゲット言語の音声出力を作成する。音声出力は、異なる部分に関連し異なる性別であってもなくてもよい、別々の話者に関係する、複数の音声セグメントまたは音声部分を含むことができる。したがって、音声出力は、出力ファイルプロセッサ１３６により実行される音声テキスト化合成器を使用して、対応する性別でオーディオダビング１１６により自動的に作成できる。或る例において、オーディオダビング１１６が性別固有の出力オーディオトラックをターゲット言語で生成できるように、テキストスピーチ化変換器１１４は性別検出器１４２からの出力を使用する。或る例において、たとえ異なる話者が同じ性別であると特定されても、各話者の音声セグメントには別々の音声／トーンが使用されてもよい。出力ファイルプロセッサ１３６は、入力ビデオ１１０のビデオコンテンツを出力オーディオトラックと同期するよう変更または操作する。オーディオトラックの１つ以上のセグメントが、変更されたビデオコンテンツに埋め込まれ１１８、出力ビデオ１９０が生成される。

ビデオ翻訳システム１００は、翻訳パイプラインの全体にわたって使用される様々なＡＩモデルを改善するために、自動フィードバック促進器１２０を含む。ユーザおよび言語の専門家により与えられるフィードバックが、強化学習１２２を使用して自動的に取り込まれることが可能である。或る例において、フィードバックは、モデル再訓練１２４および用語集の更新により自動的に取り込まれてもよい。一定のモデル効率性閾値に少なくとも基づき、再訓練されたモデルが翻訳パイプラインにパブリッシュされるべきかどうかがモデルパブリッシャ１２６によって判断されてもよい。或る例において、取得されたフィードバックを使用して、文字起こしサービス／翻訳サービスの選択および入力ビデオのドメイン特定のための次世代ＡＩエンジン１０２の解パスが更新されてもよい。

図１Ｂは、本願明細書において開示されている例による、入力ビデオ１１０をターゲット言語に翻訳する方法を示すフローチャート１０５０を示す。本方法は、ビデオ翻訳システム１００が入力ビデオ１１０をそのメタデータとともに受信する１０５２にて開始する。或る例において、メタデータは、入力ビデオ１１０に付随する入力オーディオトラックのソース言語と、入力ビデオの翻訳先のターゲット言語とを少なくとも含むことができ、さらに任意選択で入力ビデオ１１０に関連する任意のキーワードを含むことができる。１０５４にて、入力ビデオ１１０に関連するドメインが次世代ＡＩエンジン１０２により特定される。入力ビデオ１１０に付随するメタデータ内の入力ビデオ１１０に関連するキーワード、または関連するキーワードがなければ入力オーディオトラックから抽出されたキーワードを使用して、既定の複数のドメインに対する確率スコアカードを作り出すことができる。或る例において、単純ベイズ法が、確率スコアカードを作り出すために用いられることが可能である。既定の複数のドメインのうち最高の確率を備えるドメインを、１０５４にて入力ビデオのドメインとして出力できる。

ソース言語およびターゲット言語のペアとともに、特定されたドメインを使用して、複数の翻訳エンジン１６０から翻訳エンジンを、および複数の文字起こしエンジン１７０から文字起こしエンジンを、１０５６にて自動的に選択できる。さらに、光学文字認識（ＯＣＲ）エンジンも用いて、入力ビデオ１１０内で表示されるテキストコンテンツを抽出することができる。したがって、ソース言語のテキストコンテンツを入力ビデオ１１０から抽出できるＯＣＲエンジン、複数の翻訳エンジン１６０、および複数の文字起こしエンジン１７０の様々な組み合わせを伴う複数の解パスが生成される。それぞれの解パスを、ＯＣＲエンジン、翻訳エンジン、および文字起こしエンジンの特定の組み合わせにより提供される正解率に基づきスコアリングできる。最高の正解率を示す最高のスコアを伴う解パスが、自動選択として１０５６にて出力される。

１０５８にて、入力オーディオトラックが抽出される。さらに、様々な技術が、性別検出、休止検出、およびストップワードの特定に用いられる。或る例において、データセットはいくつかの言語に対して準備でき、各言語に対して、データセットは異なる人々が異なるアクセント、トーン、およびスタイルで話すサンプルオーディオクリップを含む。オーディオサンプルは、長・短期記憶（ＬＳＴＭ）を備えた深層学習ベースの畳み込みニューラルネットワーク（ＣＮＮ）を含む性別検出モデルを訓練するために使用される、メルスペクトログラムに変換できる。データセットは、性別検出モデルをテストおよび検証するため、訓練セット、テストセット、および検証セットに分割できる。或る例において、ＣＮＮベースのオーディオセグメンテーションを、入力オーディオトラックにおいて性別を検出するために実装できる。ＣＮＮは、スピーチの同質ゾーン、つまり次に性別に基づき分類される音声セグメントに、オーディオ信号を分けるように訓練できる。

異なる言語は、異なるストップワードを含む場合がある。したがって、データセットはさらに、種々の言語のストップワードの特定のための分類器など、種々の機械学習（ＭＬ）モデルを訓練するためのサンプルを含むことができる。ソース言語が特定されると、ソース言語のストップワードの特定のための分類器を用いることができる。ストップワードの特定はさらに、入力オーディオトラックにおける休止を検出できるようにする。休止は、入力ビデオ１１０内の字幕（あれば）の開始および終了のタイミングに基づき示される場合もある。１０６０にて、入力オーディオトラックの文字起こしが、選択された文字起こしエンジンを使用してソース言語で取得される。１０６２にて、選択された翻訳エンジンを使用して文字起こしがターゲット言語に翻訳され、１０６４にて、翻訳された文字起こしから音声出力を作成できる。

さらに、入力ビデオ１１０内でソース言語で表示されている、意味のあるテキストコンテンツも抽出１０６６される。本願明細書に詳述されているように、特徴を抽出して輪郭検出技術を使用することにより、テキストコンテンツを備えたフレームを入力ビデオ１１０から最初に特定できる。フレーム内の所定のエリアのテキストコンテンツに基づき、目立つテキストコンテンツを備えるフレームが特定される。意味のあるテキストを抽出するために、同じテキストコンテンツを備える複数のフレームの重複排除が行われる。

１０６８にて、入力オーディオトラックの文字起こしと、入力ビデオ１１０から抽出された意味のあるテキストとを、選択された翻訳エンジンを使用してターゲット言語に翻訳することにより、翻訳された字幕が生成される。１０７０にて、音声出力からターゲット言語の出力オーディオトラックが作成される。１０７２にて、翻訳された字幕および出力オーディオトラックと同期した入力ビデオ１１０のビデオコンテンツを表示する出力ビデオ１９０が生成される。

図２Ａは、本願明細書において開示されている例による、次世代ＡＩエンジン１０２のブロック図を示す。入力ビデオ１１０が受信されると、言語、入力ビデオ１１０のドメイン、および入力ビデオ１１０の種々のフレームにおける話者の性別を自動検出するために、次世代ＡＩエンジン１０２に含まれる様々な深層学習モデルを用いることができる。翻訳サービスおよび文字起こしサービスを、それらのソース言語／ターゲット言語の特定のペアに対する正解率に基づき、エンジン選択器２０２により選択できる。用語集選択器２０４は、ソース言語／ターゲット言語と、入力ビデオ１１０に関連する特定のドメインとに基づき１つ以上の用語集を選択することができる。或る例において、選択された用語集は、ソース言語／ターゲット言語のドメイン固有用語を含んでもよい。或る例において、訓練された分類器を様々な選択に対して使用できる。或る例において、エンジン選択器２０２は、特定のソース・ターゲット言語ペアおよびドメインの組み合わせに対するエンジン選択のために明示的にラベル付けされたデータに対して訓練できる、深層学習モデルを実装することができる。用語集選択器２０４は、特定されたドメインおよびソース・ターゲット言語の組み合わせに基づき特定の用語集を選択するようプログラムできる。エンジン選択器２０２および／または用語集選択器２０４により行われた自動選択をオーバーライドするなど、任意選択のカスタマイズ２０６を含めることができる。他の任意選択のカスタマイズは、入力ビデオ１１０の機密データの編集、入力ビデオ１１０の分類および要約などを含んでもよい。次世代ＡＩエンジン１０２により提供される解パス２０８は、複数の文字起こしエンジン１７０からの文字起こしエンジン２１２の選択、複数の翻訳エンジン１６０からの翻訳エンジン２１４の選択、および入力ビデオ１１０のフレームからのテキスト抽出のためのＯＣＲエンジン２１６を含むことができる。選択されたエンジンに関するフィードバック２１８が、出力ビデオ１９０を提供した後に取得可能であり、強化学習により次世代ＡＩエンジン１０２に取り込まれてもよい。

次世代ＡＩエンジン１０２は、複数のＡＩアルゴリズムおよび認知サービスを含み、ドメインおよび言語ペアに基づき任意の入力ビデオに対する解パスをインテリジェントに推奨する。このインテリジェンスは、最新の学習およびユーザフィードバックに基づき常に更新される。以下は、新たなビデオ翻訳リクエストが受信されると次世代ＡＩエンジン１０２により実行される、上位レベルのステップである。

１）ビデオ内の言語、ドメイン、および性別を特定する。言語検出は、内蔵の認知サービスの機能性を使用して行うことができ、その一方で、性別検出のために、カスタムＣＮＮなどのカスタマイズされた音声モデルが種々の言語に対して開発される。

２）ドメイン固有の単語ベースの埋め込みを使用する分類モデルが、ドメインの特定のために使用される。

３）特定のビデオの様々なパートに対応する当該情報のメタデータマッピングが構築される。

４）上記で捕捉済みのメタデータに基づきビデオが複数のパートに分離される。

５）対応する言語およびドメインのペアについて、特定のビデオの種々のパートに対し最高の正解率および最小のデータリーケージをもたらす最良のＯＣＲエンジン、文字起こしエンジン、および翻訳エンジンが特定される。

６）ドメイン固有の単語に対し考えられる最良の一致に基づき選択された言語に最良の用語集を選ぶ用語集選択器２０４のスマート推奨システムにより、ドメインに特化した翻訳に必要な最も適切な用語集が選択される。

７）解パスが実行され、最終的なビデオ出力を生成するためステップの出力がマージされる。

８）次世代ＡＩエンジン１０２が、最も正確な結果を提供し得る解パスを推奨する。このインテリジェンスは、自動的なフィードバック取り込みメカニズムに基づき絶えず更新される。

図２Ｂは、次世代ＡＩエンジン１０２において用いられるカスタムモデルの一部を示す。入力ビデオキーワード２５４が、用語集の単語２５６とともに特定され、次に、既定のドメインに対する確率スコアカードが作り出される。或る例において、キーワード２５４および用語集の単語２５６を、入力ビデオ１１０とともにメタデータとして提供できる。式２５２により表現される単純ベイズアルゴリズムを、既定のドメインに対する確率スコアカード２６０を作り出すために使用でき、最高のスコアを備えるドメインが推奨される。用語集の推奨は、入力ビデオ１１０から作り出されたキーワード２５４のセマンティックウェブに基づき実行され、エラスティックサーチ２５８が、定義済みの用語集の埋め込みから実行される。最も適した用語集が、セマンティックなテキスト類似度２６０に基づき選択される。

図２Ｃは、本願明細書において開示されている例による、次世代ＡＩエンジン１０２による解パスの生成のブロック図を示す。次世代エンジン１０２のエンジン選択器２０２は、複数のＯＣＲエンジン２７０、複数の翻訳エンジン１６０、および複数の文字起こしエンジン１７０の異なる組み合わせを備える様々な解パスを実行する。所与の解パスの各ステップに対して段階的スコアが生成される。例として、解パスＡ１Ｂ２Ｃ１０のステップ２７２、２７４、および２７６のそれぞれがスコアリングされ、個々の段階的スコアから集約スコアを生成できる。同様に、他の組み合わせも生成およびスコアリングされるとよい。最高スコアを備える解パス、例えばＡ１Ｂ２Ｃ１０が、最終的なパス２８２として推奨される。あらゆるステップで、最高の正解率を備える解が選ばれ、利用可能な解パスの中で最高の正解率を保証する解パスが推奨される。

図３Ａは、一部の例による、テキスト抽出器１０６により入力ビデオ１１０のフレームからテキストを抽出するのに関与する様々なステップのブロック図３００を示す。入力ビデオ１１０は、最初に、例えば７０フレーム毎秒（ｆｐｓ：ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）、または１２０ｆｐｓなどのフレームを単位として分析３０２される。テキストを備えるビデオ内のフレームの検出は、深層ニューラルネットワーク（ＤＮＮ）および双方向長・短期記憶（ＬＳＴＭ）に基づく。各フレームは、画像とみなされてもよく、ＡＩベースの画像分析モデルを、本願明細書にさらに詳述されるように、テキストコンテンツを備えるフレームを検出３０４するために適用できる。

意味のあるテキストは、一般的には複数のフレームにまたがり、テキストはかなりの時間にわたり表示されることもある。或る例において、入力ビデオ１１０の全実行時間のパーセンテージとして定義される所定の閾値の時間にわたり表示されるテキストコンテンツを、抽出されるべき意味のあるテキストとして特定できる。したがって、同じテキストコンテンツを備える複数のフレームは重複排除３０６され、その結果、テキストコンテンツの鮮明なレンダリングを含む画像を形成する１つのフレームが、重複排除３０６の間に選択されるとよい。最終的なパス２８２において自動的に選択された複数のＯＣＲエンジン２７０のうちの１つを用いることにより、ＯＣＲを使用してフレーム／画像からテキストが抽出３０８される。抽出されたテキストは翻訳３１０されて、入力ビデオ１１０におけるテキストの表示の持続期間およびテキスト表示の時間的配置などのメタデータがマッピングされてもよい。ビデオフレームの抽出および重複排除の後、入力ビデオ１１０が翻訳処理の次のステップに向けてパブリッシュ３１４されてもよい。

図３Ｂは、本願明細書において開示されている例による、テキスト抽出器により実装される、所与のフレームからテキストを特定するステップのさらなる詳細を示すブロック図３５０を示す。ビデオフレームが、フレーム内にテキストコンテンツが存在する見込みを示す特徴を特定するために、輪郭検出３５２を介して最初に分析されてもよい。次に、ソース言語のテキストコンテンツを特定する訓練をされたソース言語ベースのＣＮＮを使用して、輪郭画像内のテキストコンテンツを示す特徴の順序付けされたシーケンスを生成３５４することができる。ソース言語ベースのＣＮＮは、ソース言語の字を予測するために訓練可能であり、幾何学的図形をテキストコンテンツとして特定するなどほかのコンテンツを誤認し得る輪郭検出のプロセスによりもたらされることがあるエラーを補正する。テキストエリアの特定３５６が、関連部分を発見するため、またはフレームの中でテキストコンテンツを含むエリアを特定するために実行される。フレーム内のテキスト領域の位置を特定するため、且つそれぞれの字の上にバウンディングボックスを作り出すために、文字の予測を支援するＣＮＮベースのアーキテクチャを使用できる。フレーム内のテキストエリアを検出することで、テキスト特定プロセスを単純化し、速度を向上させることができる。テキストエリアの特定３５６からの出力は、単語特徴を抽出３５８するために双方向ＬＳＴＭに通される。テキストコンテンツの認識または分類３６２を、コンテキストに基づきテキストを分類するように訓練された再帰型ニューラルネットワーク（ＲＮＮ：ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）により実行できる。最終的に、テキストコンテンツを含むエリアの範囲が、意味のあるテキストコンテンツを備える当該フレームを選択する際に属性として使用されてもよい。或る例において、非テキスト特徴に対するテキスト特徴のパーセンテージを計算できる。したがって、入力画像３２０が既定の閾値パーセンテージを超えるテキストを有するかどうかが判断３６４される。ビデオ翻訳システム１００は、テキストコンテンツを持つビデオフレームとしてフレームが分類されるための既定の閾値よりも大きなエリアを占めるテキストコンテンツを備えるフレームを特定するように構成されてもよい。次に、テキストコンテンツを認識３６６するために、ＯＣＲを、既定の閾値を超えるテキストを有するフレームに対して実行できる。

ビデオフレームのテキストコンテンツの変化を特定するために、入力ビデオ１１０のフレームの変化を検出するメカニズムがビデオ翻訳システム１００により実装されてもよい。これは、シャムネットワークに加えて全畳み込みネットワークに基づく。単純分類を実装するのではなく、識別的インプリシットメトリクスをカスタマイズすることにより画像を比較する概念が提案される。これは２つのパートに分割できる。まず、全畳み込みであるシャムネットワークが実装され、すでに定義されている距離メトリクスを、フレーム間のテキストコンテンツ同士の識別に使用できる。このプロセスは、生の画像上で直接、非類似関数を学習するものとして扱われることが可能である。要約すると、２つの画像を、異なるタイムスタンプを備える入力としてシャムニューラルネットワークに提供できる。両画像の特徴ベクトルが抽出される。なお、各画像は、特徴抽出のために同じネットワークにより扱われなければならない。抽出された特徴ベクトルは、畳み込み層に通され、最終的に、２つの特徴ベクトルの変化を測定するユークリッド距離を計算できる。画像に実質的な変化がなければ、画像はほぼ同じ特徴ベクトルを有することになり、変化が重要であれば画像は異なる特徴ベクトルを有することになるであろう。

当然のことながら、ビデオ翻訳システム１００は、任意の所与の言語ペアの翻訳および文字起こしのために構成できる。限定ではなく例示として、ビデオ翻訳システム１００は、例えば日本語から英語、その逆など、言語の様々な組み合わせを翻訳／文字起こしするように構成できる。したがって、ビデオ翻訳システム１００は、特定の言語のテキストコンテンツを特定するように訓練された多数のニューラルネットワークを含むことができる。したがって、日本語から英語への文字起こし／翻訳では、日本語のスクリプトを特定するように訓練されたニューラルネットワークが使用され得る。同様に、スペイン語、英語、またはアラビア語の任意の組み合わせの翻訳には、アラビア語またはスペイン語のスクリプトを特定するように訓練された別のニューラルネットワークが使用され得る。そのように種々の言語に対して訓練された任意の数のニューラルネットワークが、種々の言語の組み合わせの間の翻訳／文字起こしを行うために、ビデオ翻訳システム１００により用いられることが可能である。

文書からテキストを認識するために使用されるＯＣＲのような従来の技術は、スキャンされた文書に対しては良好な正解率を維持し得る。しかしながら、正解率が下がることが理由で、ビデオフレームなどの画像からのテキスト検出に同じ技術を適用することはできない。ビデオシーンからテキストを認識することは特別な機能を必要とするが、その理由は、サイズ、形、色、書式、向き、アスペクト比、ならびに種々の照明条件、ぼやけた背景、および複雑な背景に基づく画像の品質が、シーン内に存在する各文字で異なり得るためである。したがって、テキスト特定のために重要な変化は検出される必要があり、ほかの変化は無視される必要がある。ビデオフレームの重複排除のために実装される手法は、雲の範囲の変化、日光の反射、および衛星自体の方位角および仰角の変化が起こりやすいであろう衛星を使用して捕捉された画像において発生し得るものなど、わずかに異なる向き／照明条件を考慮するのに十分ロバストであることを要する。

図４Ａおよび図４Ｂは、本願明細書において開示されている一部の例による、テキスト抽出器１０６により実装されるビデオフレームの重複排除を示す。図４Ａにおいて、２つのビデオフレームに対応する２つの画像、画像１および画像２を、特徴抽出のための全畳み込みニューラルネットワーク４０２により受信できる。特徴マップ１は画像１から抽出された特徴を含むことができ、特徴マップ２は画像２から抽出された特徴を含むことができる。ピクセルごとのユークリッド距離４０４が、特徴マップ１および特徴マップ２に関して推定される。シグモイド関数４０６が、結果に対して適用され、類似度が取得４０８される。或る例において、類似度が０．１５であると判断される。類似度と、所定の類似度閾値（例えば０．５）との比較に基づき、画像１と画像２とは類似していないと結論が下される。

同様に、図４Ｂにおいて、画像１を別のビデオフレームに対応する画像３とも比較できる。全畳み込みニューラルネットワーク４０２は、特徴を抽出し、特徴マップ１および特徴マップ３を生成する。特徴マップ間のピクセルごとのユークリッド距離４４２が取得されて、シグモイド関数４１６が適用され、類似度が判断される。類似度値０．９と、所定の類似度閾値（例えば０．５）との比較に基づき、画像１と画像３とに対応するビデオフレームが類似していると判断でき、画像のうちの一方をさらに分析でき、他方の画像は無視できる。

図５は、本願明細書において開示されている例による、出力ファイルプロセッサ１３６により実装される、出力ビデオ１９０を生成するのに関与するステップのブロック図５００を示す。最初に、オーディオ抽出器１０４により入力ビデオ１１０から入力オーディオトラックが抽出５０２され、入力オーディオトラック内の話者（単数または複数）の性別が検出５０４される。入力オーディオトラックが文字起こしおよび翻訳５０６されて、入力オーディオトラックに対応するターゲット言語の翻訳テキストが生成される。或る例において、５０６にて生成されるテキストは、入力オーディオトラックおよび入力ビデオ１１０のビデオフレームから抽出されたテキストの翻訳も含むことができる。入力ビデオ１１０のビデオコンテンツに対して相対的な、翻訳されたスピーチまたは音声出力の速度を決定するために、速度係数が計算５０８される。音声出力対ビデオコンテンツの相対的な速度に基づき、ビデオと同期するために音声出力もしくはビデオのスピードアップまたはスローダウン５１２のいずれかをするべきかどうかが判断５１０される。オーディオまたは音声出力が速すぎ、その一方でビデオがより遅い場合、後にさらに詳述されるように、音声出力に１つ以上の休止が挿入５１２されて、出力オーディオトラックが生成されてもよい。他方、ビデオがオーディオより高速であれば、敵対的生成ネットワーク（ＧＡＮ）を使用して自動的に生成された追加のビデオフレームが追加されて、入力ビデオ１１０のビデオコンテンツがスローダウンされることが可能である。ビデオの中で話している人の唇が操作５１４され、翻訳されたオーディオと同期される。出力オーディオトラックがビデオコンテンツ（自動的に生成された追加のビデオフレームを用いて変更され得る）とマージ５１６され、ターゲット言語の出力ビデオ１９０が生成される。

図６は、本願明細書において開示されている例による、性別検出器１４２により実装される性別検出のアーキテクチャ６００を示す。性別検出器１４２は、入力ビデオ１１０から抽出された入力オーディオトラックにおける性別検出のためのＣＮＮ／ＣＮＮ－ＬＳＴＭ手法に基づく性別モデル６１０を含むことができる。性別は、例えばトーンなどの声質の比較のみからではなく、言語、アクセント、スタイルなどにも基づいて検出できる。データセット６０２は、１つの言語での性別検出用に性別モデル６１０を訓練するための、特定の言語を話す種々のトーン、アクセント、およびスタイルを備えた種々の音声のオーディオサンプルを用いて準備できる。例として、トーンに加え、「彼」および「彼女」などの特定の単語は性別を示す。性別固有の動詞の形を含む言語もある。したがって、性別モデル６１０は、性別検出のためにトーンに加えてそのようなセマンティック情報も使用するように訓練されてもよい。データセット６０２内のオーディオサンプルは、最初に、メルスペクトログラムに変換される。メルスペクトログラムは、前処理済みデータセット６０４を得るためにシャッフル、リサイズ、および正規化を行うことにより前処理される。前処理済みデータセット６０４は、さらに分割されて、性別モデル６１０を生成するために使用される訓練セット６１２、検証セット６１４、およびテストセット６１６が形成される。同様に、ＣＮＮ／ＣＮＮ－ＬＳＴＭ手法を実装する種々の性別モデルを、種々の言語での性別検出のために訓練できる。上述のように、或る言語に固有の性別モデルは、性別検出のために声質に加えて特定のタイプの言語データ（例えば特定の単語、例えば「彼」、「彼女」など）を用いてもよく、別の言語に使用される別の性別モデルは、別のタイプのセマンティック情報（例えば性別固有の動詞の形）を使用してもよい。特定の言語に対して訓練されると、混同行列を使用して性別モデル６１０を正解率、適合率／再現率について評価６０６できる。畳み込みネットワーク層６５０は、入力スペクトログラム６２０として受信されたオーディオを処理し、出力層６３０にて性別を特定する。

入力ビデオ１１０においてビデオフレームが作動される速度は、ターゲット言語が話される速度と必ずしも一致しないこともあり、これにより、翻訳から生成されたオーディオともとのビデオとの間で持続時間の不一致が生じる可能性がある。その理由は、入力ビデオ１１０が最初にソース言語のために作られており、それをターゲット言語に変換することでスピーチの速度、休止、およびスタイルを変化させる可能性があるためである。オーディオダビングの間に発生するこうした差は、速度係数を使用して最小限に抑えることができる。速度係数（ＳＣ：ｓｐｅｅｄｃｏｅｆｆｉｃｉｅｎｔ）を得るための式を以下に示す。

速度係数（ＳＣ）＝オーディオセグメントの持続期間／字幕ファイルからのオーディオセグメントの持続期間式（１）

ＳＣの値は、オーディオの速度を決定する。より大きな値のＳＣは、翻訳されたオーディオ／音声出力の持続期間を増大させ（且つ速度を下げ）、より小さな値の速度係数は、翻訳されたオーディオの持続期間を短縮させる（且つ速度を上げる）ことになるであろう。考えられるシナリオをいくつか以下で検討する。

ａ）翻訳されたオーディオがもとのオーディオよりも長い：このケースでは、翻訳されたオーディオのＳＣは、小さな値だけ減少され、もとのビデオのビデオフレームは、観測可能な変化が非常に少ない状態で速度の点でバランスのとれた出力が取得されるように延長され得る。

ｂ）翻訳されたオーディオがもとのオーディオよりも短い：このケースでは、翻訳されたオーディオの速度係数は、小さな値だけ増大され、次に、観測可能な変化が非常に少ない状態で速度の点でバランスのとれた出力が取得されるように、休止が翻訳されたオーディオにインテリジェントに挿入される。それに応じて、休止ファイルが生成されて、２つの等しいセグメントに分割されることが可能である。持続期間およびセグメントに基づき、生成／翻訳されたオーディオファイルの前および後に休止を追加できる。実験が行われ、オーディオファイルとビデオフレームとが良好に同期する典型的な速度係数の値は、０．８から１．３の間にあると考えられると判断された。ソース言語のテキストと、ターゲット言語のそれとのアライメントをとるために、２言語テキストアライナを使用できる。これが使用されて、ビデオ翻訳システム１００のためのパラレルコーパスが作り出される。２つの言語は、別々のベクトル空間にマッピングされることも可能である。２言語テキストのアライメントを実行するには、文埋め込みが必要とされ得る。自動スピーチ認識の強制アライメント技術を使用して、オーディオとテキストとのアライメントをとることができる。

図７は、本願明細書において開示されている例による、自動的なビデオフレーム生成に関与する様々なステップを含むブロック図７００を示す。オーディオセグメントが速すぎる特定のケースでは、速度係数が１．３の値に達するまで速度を低下させることができる。この変換の結果、オーディオの持続期間が増大されるとよい。しかしながら、オーディオの持続期間が準最適な形で増大されると、オーディオの各部分は依然としてビデオの対応する部分と非同期であり、ビデオの持続期間がオーディオの持続期間未満となるかもしれない。この非同期性を打開するために、重複したビデオフレームを生成７０２できる。或る例において、敵対的生成ネットワーク（ＧＡＮ）を用いることにより高解像度画像を生成できる。これはビデオ翻訳システム１００の複雑さを増大させるが、その理由は、ＧＡＮを使用して生成されたビデオフレームがもとのビデオ、つまり入力ビデオ１１０の既存フレームとの空間的および時間的な整合性を維持する必要があり得るためである。ビデオは、各点が個々のビデオフレームに対応する、潜在空間内の点の均等なシーケンスとみなされることが可能である。したがって、ビデオ生成器は、潜在空間内の点のシーケンスを生成するように設計でき、生成された点を画像空間にマッピングする画像生成器を設計できる。画像生成器のために、生成器の個別フレームに時間的シフトを導入する時間的シフト生成器を設計できる。このシフトメカニズムは、ビデオの隣接する個別フレーム間の情報の交換を保証する。

延長されるオーディオ持続期間に基づき、ＧＡＮにより生成されたフレームを入力ビデオ１１０に追加７０４できる。新たなオーディオファイル、つまり出力オーディオトラックを、翻訳されたオーディオ入力、つまり音声出力に対して休止を挿入７０６することにより生成できる。出力ビデオ１９０は、生成されたオーディオファイルと、ＧＡＮにより生成されたフレームを含む変更されたビデオとをマージ７０８することにより生成できる。

図８は、本願明細書において開示されている例による、入力ビデオ１１０に挿入される時間的シフト８００の図を示す。時間的シフト生成器は、長い音声セグメントについて、つまり翻訳されたオーディオファイルの少なくとも一部が入力ビデオ１１０の対応する部分よりも大きな時間的長さを有する場合にそのセグメントについて、入力ビデオ１１０にビデオフレームを追加できるようにする。シフト動作は、現在のタイムスタンプ（Ｔ_０）に対応するフレームの特徴を、Ｔ_０より前の個別フレームおよびＴ_０より後の個別フレームからの特徴により置き換える時間的シフト生成器により実行できる。つまりＴ_０の直前および直後の個別フレームからの特徴が、Ｔ_０に対応するフレームの特徴を置き換える。個別フレームを決定するために、フレームのエッジディスクリプタが計算される。次に、現在のフレームから隣接するフレームのユークリッド距離が計算される。概して、様々な実験から、任意の所与のビデオにおいて個別ビデオフレームを特定するためのユークリッド距離の閾値の値は、０．３であると判断された。特定された個別フレームがＴ_ｄ－１およびＴ_ｄ＋１として表現されると想定して、この個別フレーム同士の間に適合するビデオフレームを生成できるようにする時間的シフト８００を実装できる。

図９は、本願明細書において開示されている例による、ビデオ生成器９００のアーキテクチャを示す。ＧＡＮのビデオ生成アーキテクチャは、シーケンス生成器９０２、画像生成器９０４、およびビデオ識別器９１０を含む。時間的シフト生成器９５０の後、２Ｄ畳み込みを含む画像生成器（ＩＧ：ｉｍａｇｅｇｅｎｅｒａｔｏｒ）９０４を追加できる。画像生成器９０４は、例えばフレーム０、フレーム１などの隣接する個別フレームの情報を受信する。ビデオ識別器９１０は、画像生成器９０４により生成されたフレームが出力ビデオ１９０を作り出すのに使用可能かどうかを判断するとよい。ビデオ識別器９１０は、ビデオフレームのサブセットを評価する２Ｄ画像識別器９１２と、ビデオの動きの一貫性についてすべてのフレームを評価する３Ｄ識別器９１４とを含むように設計される。したがって、ビデオ識別器９１０は、反復プロセスにおいて画像生成器９０４にリアルタイムフィードバックを提供することができる。画像生成器９０４およびビデオ識別器９１０を含むビデオ生成器９００は、画像生成および画像の品質の判断のため訓練画像を使用して明示的に訓練されてもよい。

図１０は、本願明細書において開示されている例による、ＧＡＮに基づく生成器１０００を示す。ＧＡＮを使用するリップシンクのための生成器アーキテクチャは、提供されるオーディオとシンクした顔を生成する生成器１０００と、生成された顔が出力オーディオトラックと同期するように、生成された顔を検証する識別器（後に記載）との２つのネットワークを含む。生成器１０００は、生成器１０００が出力オーディオトラックとシンクした現実感のある画像を作り出すことを学習するように、敵対的方式で訓練できる。生成器ネットワークは、オーディオエンコーダ１００２、顔エンコーダ１００４、および顔デコーダ１００６を含む。さらに、顔エンコーダ１００４にポスチャを入力として提供できるように顔のポスチャ検出も実装できる。当然のことながら、例えばオーディオエンコーダ１００２、顔エンコーダ１００４、および顔デコーダ１００６など、種々のネットワーク内のブロックの数に関する詳細は、例示のみを目的として示されており、本願明細書において開示されている例による生成器１０００において、より多い、またはより少ない数のブロックが使用されてもよい。

顔エンコーダ１００４を参照する。ターゲットポーズを備える入力グランドトゥルース顔画像１０１４を提供できる。入力グランドトゥルース顔画像１０１４の下半分は、唇の形についてではなく顔のポーズについての情報のみを提供するように、マスクされてもよい。顔エンコーダ１００４は、中間にあるダウンサンプリング層を備えた一連の残差ブロックを含み、入力グランドトゥルース顔画像１０１４を顔埋め込みに埋め込む。ＣＮＮネットワークを、メル周波数ケプストラム係数（ＭＦＣＣ：Ｍｅｌ－ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）ヒートマップを入力として得てオーディオ埋め込み１００８を作成する、オーディオエンコーダ１００２として使用でき、オーディオ埋め込み１００８をさらに顔埋め込み１０１２と連結してオーディオビジュアル共同埋め込みを作り出すことができる。顔デコーダ１００６は、入力グランドトゥルース顔画像１０１４のマスクされた領域を適切な口の形と重ね合わせることにより、オーディオビジュアル共同埋め込みからリップシンクされた顔１０１８を作成する。顔デコーダ１００６は、特徴マップをアップサンプリングする逆畳み込み層を備えた一連の残差ブロックを含む。顔デコーダ１００６の出力層１０２０は、シグモイド関数により活性化される、３つのフィルタを備える１×１畳み込み層を含む。顔エンコーダ１００４でのあらゆるアップサンプリング動作の後、スキップ接続を顔エンコーダ１００４と顔デコーダ１００６との間に提供でき、これは、顔を生成する間に顔デコーダ１００６によってきめの細かい顔特徴が保持されることを保証する。顔デコーダ１００６は、入力として顔エンコーダ１００４に返された所与のポーズに合うフェイクの口の形を生成する。

図１１は、本願明細書において開示されている例による、ＧＡＮを使用するリップシンクのための識別器１１００を示す。或る例において、識別器１１００は、入力された顔およびオーディオを一定の表現にエンコードするために使用されてもよく、それらの間のＬ２距離ｄを計算する。識別器ネットワーク１１００において使用される顔エンコーダ１１０４およびオーディオエンコーダ１１０２は、生成器１０００において使用されるものと同じとすることができる。

図１２は、本願明細書において開示されている例による、入力ビデオ１１０と同期した、ターゲット言語の翻訳された字幕を生成するのに関与するステップを示す。音声出力が、入力オーディオトラックの翻訳された文字起こしから生成され、メルスペクトログラムに変換される、１２０２。所与のビデオと同期的に表示される様々な言語の字幕を自動的に生成するステップを、人間が介在することなく実装できる。字幕の生成は、言語固有のストップワード、休止ワード検出、および性別の変化に基づく。休止は、カスタマイズされたＣＮＮを使用して文の中で検出１２０８される。休止の持続期間は、入力ビデオ１１０の字幕において与えられる開始および終了のタイミングに基づき計算１２１０される。休止は、翻訳されたオーディオトラックまたは音声出力の適切な時点に追加１２１２できる。或る例において、ストップワードに基づき文の始まりおよび終わりに休止を追加できる。

或る例において、字幕が別々の文に分割または分断される必要があるかどうかを判断するために、ストップワードを使用できる。各言語は、その言語の書かれ方に対するその言語の話され方に着目すると異なる可能性がある、特有のストップワードのセットを含むかもしれない。例として、英語では、ストップワードまたはストップキャラクタは「．」、「！」、「？」を含む場合があり、日本語では、ストップワードまたはストップキャラクタは「。」、「、」を含む場合がある。ストップワードは、文の終わりを特定するためにも使用できる。ビデオ内の性別を検出するためにＣＮＮベースのオーディオセグメンテーションを実装できる。これは、オーディオ信号または音声出力をスピーチの同質ゾーンに分けるものであり、性別分類に役立つ。

図１３は、本願明細書において開示されている例による、強化学習を使用する自動的なフィードバック取り込みのためのステップを示す。これは、いかなる人間の介在もなしにフィードバックに基づきモデルを定期的に更新するのに役立つ。出力ビデオ１９０をユーザに提供すると、ビデオ翻訳システム１００の翻訳および文字起こしの出力に関して、明示または黙示のフィードバック１３０２がユーザから受信され得る。或る例において、そのようなユーザフィードバックは、文字起こしエンジンおよび翻訳エンジンの当初の選択を行った次世代ＡＩエンジン１０２に提供１３０４できる。フィードバックを提供するユーザコメントの数が一定の閾値、例えば１０００のユーザコメントに到達すると、その言語ペアおよびドメインに対するモデル再訓練が自動的にトリガ１３０６される。或る例において、強化学習は、機械学習（ＭＬ）コンポーネントの望ましい、または望ましくない挙動に基づき、肯定的または否定的な報酬を出力することができる。強化エージェントは、より新たなモデル（つまり次世代ＡＩエンジン１０２のための）を使用した正解率の向上を確認するために、様々な実験１３０８を開始する。エージェントは、正解率が向上すると必ず肯定的な報酬を、正解率が低下するといつでも否定的な判定を収集１３１０する。エージェントは、長期的なポリシーに基づき報酬を収集し続け、結果が全体的に向上するように措置を講じる。肯定的な報酬の既定の閾値がエージェントにより達成されると、次世代ＡＩエンジン１０２のモデルが更新されてもよい。

図１４は、次世代ＡＩエンジン１０２を再訓練するための強化学習の取り込みと、文字起こしサービスおよび翻訳サービスの選択とを示す。強化エージェントは、種々の文字起こしサービスおよび翻訳サービスに関連する様々な環境（またはモデル）とやり取りすることができる。環境の望ましい、または望ましくない挙動に基づき、エージェントは、肯定的または否定的な報酬を収集してもよく、その結果、肯定的な報酬が最小閾値を超えればモデルが更新されフィードバック１４０２が破棄される。

図１５は、ビデオ翻訳システム１００を実装するために使用され得るコンピュータシステム１５００を示す。より具体的には、ビデオ翻訳システム１００からデータを生成するため、またはビデオ翻訳システム１００のデータにアクセスするために使用され得るデスクトップ、ラップトップ、スマートフォン、タブレット、およびウェアラブルなどのコンピューティングマシンが、コンピュータシステム１５００の構造を有してもよい。コンピュータシステム１５００は、図示されていない追加のコンポーネントを含んでもよく、記載されているプロセスコンポーネントの一部は、除去および／または変更されてもよい。別の例において、コンピュータシステム１５００は、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓなどの外部クラウドプラットフォーム、ＡＺＵＲＥ（登録商標）クラウド、もしくは社内のコーポレートクラウドコンピューティングクラスタ、または組織のコンピューティングリソースなどに存在することができる。

コンピュータシステム１５００は、中央処理ユニット、ＡＳＩＣ、または別のタイプの処理回路などのプロセッサ（単数または複数）１５０２と、例えばディスプレイ、マウスキーボードなどの入出力デバイス１５０８と、ローカルエリアネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ワイヤレス８０２．１１ｘＬＡＮ、３Ｇ、４Ｇ、もしくは５ＧモバイルＷＡＮ、またはＷｉＭａｘＷＡＮなどのネットワークインターフェース１５０４と、プロセッサ可読媒体１５０６とを含む。これらのコンポーネントはそれぞれ、動作可能なようにバス１５０８に結合されていてもよい。コンピュータ可読媒体１５０６は、実行のために命令をプロセッサ（単数または複数）１５０２に提供することに関与する任意の適切な媒体とすればよい。例として、プロセッサ可読媒体１５０６は、磁気ディスクまたはソリッドステート不揮発性メモリなど、非一時的な、もしくは不揮発性の媒体、またはＲＡＭなどの揮発性媒体としてもよい。プロセッサ可読媒体１５０６上に記憶される命令またはモジュールは、プロセッサ（単数または複数）１５０２により実行されプロセッサ（単数または複数）１５０２に方法およびビデオ翻訳システム１００の機能を実行させる、機械可読命令１５６４を含んでもよい。

ビデオ翻訳システム１００は、非一時的なプロセッサ可読媒体上に記憶されて１つ以上のプロセッサ１５０２により実行されるソフトウェアとして実装されてもよい。例として、プロセッサ可読媒体１５０６は、ＭＡＣＯＳ、ＭＳＷＩＮＤＯＷＳ、ＵＮＩＸ、またはＬＩＮＵＸなどのオペレーティングシステム１５６２、およびビデオ翻訳システム１００のコード１５６４を記憶してもよい。オペレーティングシステム１５６２は、マルチユーザ、マルチプロセッシング、マルチタスキング、マルチスレッディング、リアルタイム、および同様のものとされてもよい。例として、ランタイム中、オペレーティングシステム１５６２が動作し、ビデオ翻訳システム１００のコードがプロセッサ（単数または複数）１５０２により実行される。

コンピュータシステム１５００は、不揮発性データストレージを含むこともあるデータストレージ１５１０を含んでもよい。データストレージ１５１０は、ビデオ翻訳システム１００により使用される任意のデータを記憶する。データストレージ１５１０は、入力ビデオ、入力オーディオトラックおよび出力オーディオトラック、文字起こし、字幕、出力ビデオ、およびその他動作中にビデオ翻訳システム１００により使用または生成されるデータを記憶するために使用されてもよい。

ネットワークインターフェース１５０４は、例としてＬＡＮを介してコンピュータシステム１５００を内部システムに接続する。さらにネットワークインターフェース１５０４は、コンピュータシステム１５００をインターネットに接続してもよい。例としてコンピュータシステム１５００は、ネットワークインターフェース１５０４を介してウェブブラウザならびにその他外部のアプリケーションおよびシステムに接続してもよい。

一例とともにその変形の一部が本願明細書において説明され、示された。本願明細書で使用された用語、説明、および図面は、例示としてのみ記載されたものであり、限定としては意図されてはいない。添付の特許請求の範囲およびその等価物により定義されるよう意図される主題の意図および範囲内で、多数の変形が可能である。

Claims

少なくとも１つのプロセッサ、
機械可読命令を記憶する非一時的なプロセッサ可読媒体
を含むビデオ翻訳システムであって、前記機械可読命令は前記プロセッサに、
ソース言語の入力オーディオトラックを含む入力ビデオに関連するドメインを特定することと、
前記ドメインに少なくとも基づいて、複数の翻訳エンジンから翻訳エンジンを、さらに複数の文字起こしエンジンから文字起こしエンジンを、自動的に選択することと、
前記文字起こしエンジンにより前記ソース言語の前記入力オーディオトラックの文字起こしを作成することと、
前記翻訳エンジンを使用して前記文字起こしをターゲット言語に翻訳することと、
前記翻訳された文字起こしを使用して前記ターゲット言語の翻訳された字幕を生成することであって、
前記翻訳された字幕は、前記入力ビデオ内で前記ソース言語で表示されるテキストコンテンツの翻訳も含む、
前記翻訳された字幕を生成することと、
前記入力オーディオトラックの前記翻訳された文字起こしに対応する音声出力を生成することと、
前記音声出力を使用して、前記入力オーディオトラックに対応する出力オーディオトラックを前記ターゲット言語で作成することと、
前記出力オーディオトラックおよび前記翻訳された字幕と同期した前記入力ビデオのビデオコンテンツを表示する出力ビデオを生成することと
をさせる、ビデオ翻訳システム。
前記ドメインを特定するために、前記プロセッサは、
前記入力オーディオトラックからキーワードを抽出することと、
既定の複数のドメインに対する確率スコアカードを、単純ベイズ法を使用して作り出すことと
をする、請求項１に記載のビデオ翻訳システム。
前記ドメインを特定するために、前記プロセッサは、
前記既定の複数のドメインのうち最高の確率を備えるドメインを前記入力ビデオの前記ドメインとして出力する、請求項２に記載のビデオ翻訳システム。
前記翻訳エンジンおよび前記文字起こしエンジンを自動的に選択するために、前記プロセッサは、
訓練された機械学習（ＭＬ）モデルを使用して、前記ドメインに基づき複数の解パスを生成し、前記複数の解パスそれぞれは、１つの光学文字認識（ＯＣＲ）エンジンと、前記複数の文字起こしエンジンのうちの１つと、前記複数の翻訳エンジンのうちの１つとの固有の組み合わせを含む、請求項１に記載のビデオ翻訳システム。
前記翻訳エンジンおよび前記文字起こしエンジンを自動的に選択するために、前記プロセッサは、
前記ソース言語、前記ターゲット言語、および前記ドメインに対して前記固有の組み合わせで使用される前記ＯＣＲエンジン、前記文字起こしエンジン、および前記翻訳エンジンそれぞれの正解率に基づき、前記複数の解パスそれぞれをスコアリングすることと、
前記解パスのうち、前記複数の解パスの中で最高スコアを有する解パスからの前記ＯＣＲエンジン、前記文字起こしエンジン、および前記翻訳エンジンを選択することと
をする、請求項４に記載のビデオ翻訳システム。
前記翻訳された字幕を生成するために、前記プロセッサは、
光学文字認識（ＯＣＲ）技術を使用して前記入力ビデオからテキストを抽出することと、
前記入力オーディオトラックの前記文字起こしと、前記入力ビデオから抽出された前記テキストとを前記ターゲット言語に翻訳することと
をする、請求項１に記載のビデオ翻訳システム。
前記入力ビデオから前記テキストを抽出するために、前記プロセッサはさらに、
前記入力ビデオの中でテキストコンテンツを備えるフレームを、輪郭検出技術を使用して検出することと、
所定のエリアを上回るテキストコンテンツを有する前記フレームのサブセットを意味のあるテキストを含むものとして特定することと、
前記意味のあるテキストを含む前記フレームの前記サブセットの重複排除を行うことと
をする、請求項６に記載のビデオ翻訳システム。
前記入力ビデオから前記意味のあるテキストを特定するために、前記プロセッサはさらに、
前記テキストコンテンツを含む前記フレームそれぞれについて、
訓練された畳み込みニューラルネットワーク（ＣＮＮ）を使用して特徴の順序付けされたシーケンスを生成することと、
前記特徴の順序付けされたシーケンスに基づき、前記フレームの中で前記テキストコンテンツを含むエリアを特定することと、
前記ソース言語の字を特定するように訓練されたソース言語ベースのＣＮＮを使用して前記テキストコンテンツの字を予測することと、
前記ソース言語ベースのＣＮＮの出力に基づき、双方向長・短期記憶（ＬＳＴＭ）を使用して単語特徴を抽出することと、
非テキスト特徴に対するテキスト特徴のパーセンテージを計算することと、
前記パーセンテージと、既定の閾値パーセンテージとの比較に基づき、前記フレームが前記意味のあるテキストを含むと判断することと
をする、請求項７に記載のビデオ翻訳システム。
前記フレームの重複排除を行うために、前記プロセッサは、
前記フレームのうちの２つについて個々の特徴ベクトルを抽出することと、
前記個々の特徴ベクトル間のユークリッド距離を測定することと
をする、請求項８に記載のビデオ翻訳システム。
前記フレームの重複排除を行うために、前記プロセッサは、
シグモイド関数を前記ユークリッド距離に適用することにより前記２つのフレーム間の類似度を判断すること、
前記類似度と、所定の類似度閾値とを比較することにより、前記２つのフレームの重複排除を行うこと
をする、請求項９に記載のビデオ翻訳システム。
前記出力オーディオトラックを作成するために、前記プロセッサは、
前記入力オーディオトラックの種々の部分に関連する対応する性別を特定することと、
前記対応する性別に基づき前記音声出力を生成することと
をする、請求項１に記載のビデオ翻訳システム。
前記出力ビデオを生成するために、前記プロセッサは、
前記翻訳された文字起こしに対応する前記音声出力の持続期間と、前記入力オーディオトラックの持続期間とを比較することと、
前記音声出力が前記入力ビデオの対応する部分と非同期であると判断することと、
前記入力オーディオトラックの前記持続期間を前記音声出力の前記持続期間で除した比として速度係数を計算することと、
前記速度係数の値に基づき、前記音声出力と、前記入力ビデオのビデオフレームとのうちの１つ以上を操作することと
をする、請求項１に記載のビデオ翻訳システム。
前記出力ビデオを生成するために、前記プロセッサは、
前記音声出力が前記入力オーディオトラックより短い持続期間を有すると判断することと、
前記速度係数の値において達成されるべき増大を判断することと、
前記音声出力の音声セグメントの前および後に前記音声出力における休止を挿入することにより前記出力オーディオトラックを生成することであって、休止の持続期間は、達成されるべき前記速度係数の前記値の前記増大に基づき決定される、前記出力オーディオトラックを生成することと
をする、請求項１２に記載のビデオ翻訳システム。
前記出力ビデオを生成するために、前記プロセッサは、
前記音声出力が前記入力オーディオトラックより長い持続期間を有すると判断することと、
前記速度係数の値において達成されるべき減少を判断することと、
達成されるべき前記速度係数の前記値の前記減少に基づき前記入力ビデオのビデオコンテンツにビデオフレームを追加することと
をする、請求項１２に記載のビデオ翻訳システム。
前記入力ビデオに前記ビデオフレームを追加するために、前記プロセッサは、
生成器および識別器を含む敵対的生成ネットワーク（ＧＡＮ）を使用して新たなビデオフレームを自動的に生成し、前記生成器は、前記識別器により検証される前記ビデオフレームの画像を作り出す、請求項１４に記載のビデオ翻訳システム。
前記新たなビデオフレームを自動的に生成するために、前記プロセッサは、
前記入力ビデオの前記ビデオフレームにおいて撮像されている話者の受信されたグランドトゥルースポーズに基づき前記新たなビデオフレームを生成し、前記新たなビデオフレームは、前記話者の前記グランドトゥルースポーズとともにフェイクの口の形を含む、請求項１５に記載のビデオ翻訳システム。
ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定するステップと、
前記ドメインに基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択するステップと、
前記文字起こしエンジンにより前記ソース言語の前記入力オーディオトラックの文字起こしを作成するステップと、
前記翻訳エンジンを使用して前記文字起こしをターゲット言語に翻訳するステップと、
前記入力オーディオトラックの前記翻訳された文字起こしに対応する音声出力を生成するステップと、
翻訳された字幕を、前記翻訳された文字起こしを使用して作成するステップであって、
前記翻訳された字幕は、前記入力ビデオ内で前記ソース言語で表示されるテキストコンテンツの翻訳も含む、
前記翻訳された字幕を作成するステップと、
前記音声出力から前記ターゲット言語の出力オーディオトラックを作成するステップと、
前記出力オーディオトラックおよび前記翻訳された字幕と同期した前記入力ビデオのビデオコンテンツを表示する出力ビデオを生成するステップと
を含む方法。
前記出力オーディオトラックを作成するステップはさらに、
異なる言語、異なるアクセント、異なるトーン、および異なるスタイルで話す異なる性別の人々のオーディオサンプルを有するデータセットに対して訓練された、長・短期記憶（ＬＳＴＭ）ネットワークを備えたカスタム畳み込みニューラルネットワーク（ＣＮＮ）を使用して、前記入力オーディオトラックの音声セグメントの性別を検出するステップ
を含む、請求項１７に記載の方法。
前記ＬＳＴＭネットワークを備えた前記カスタムＣＮＮの訓練はさらに、
前記ＬＳＴＭネットワークを備えた前記カスタムＣＮＮを、前記データセットに含まれる言語固有特徴を使用して前記ソース言語で前記性別を検出するように訓練するステップ
を含む、請求項１８に記載の方法。
前記ＬＳＴＭネットワークを備えた前記カスタムＣＮＮの訓練はさらに、
前記オーディオサンプルをメルスペクトログラムに変換するステップと、
前記メルスペクトログラムをシャッフル、リサイズ、および正規化するステップと、
前記データセットを訓練データセット、検証データセット、およびテストデータセットに分割するステップと
を含む、請求項１９に記載の方法。
前記翻訳された字幕を作成するステップはさらに、
前記文字起こしから前記ソース言語のストップワードを検出するステップと、
前記ストップワードを使用して前記文字起こしの文の始まりおよび終わりを特定するステップと
を含む、請求項１７に記載の方法。
前記翻訳された字幕を作成するステップはさらに、
前記ドメイン、前記ソース言語、および前記ターゲット言語に基づき用語集を選択するステップであって、前記用語集は、前記ソース言語および前記ターゲット言語のうちの１つ以上の、ドメイン固有用語を含む、前記用語集を選択するステップ
を含む、請求項１９に記載の方法。
機械可読命令を含む非一時的なプロセッサ可読ストレージ媒体であって、前記機械可読命令はプロセッサに、
ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定することと、
前記ドメインに少なくとも基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択することと、
前記文字起こしエンジンにより前記ソース言語の前記入力オーディオトラックの文字起こしを作成することと、
前記翻訳エンジンを使用して前記文字起こしをターゲット言語に翻訳することと、
前記入力オーディオトラックの前記翻訳された文字起こしに対応する音声出力を生成することと、
前記翻訳された文字起こしを使用して前記ターゲット言語の翻訳された字幕を生成することであって、
前記翻訳された字幕は、前記入力ビデオ内で前記ソース言語で表示されるテキストコンテンツの翻訳も含む、
前記翻訳された字幕を生成することと、
前記音声出力を使用して、前記入力オーディオトラックに対応する出力オーディオトラックを前記ターゲット言語で作成することと、
前記出力オーディオトラックおよび前記翻訳された字幕と同期した前記入力ビデオのビデオコンテンツを表示する出力ビデオを生成することと
をさせる、非一時的なプロセッサ可読ストレージ媒体。
前記出力ビデオを生成する前記命令は、前記プロセッサに、
前記音声出力の持続期間と前記入力オーディオトラックとの比較に基づき、前記音声出力が前記入力ビデオの前記ビデオコンテンツと非同期であると判断させる、請求項２３に記載の非一時的なプロセッサ可読ストレージ媒体。
前記出力ビデオを生成する前記命令は、前記プロセッサに、
前記ターゲット言語のストップワードの検出に基づき前記音声出力における文の始まりおよび終わりを特定することと、
前記音声出力における前記文の前記始まりおよび終わりに休止を追加することにより、前記音声出力から前記出力オーディオトラックを生成することと
をさせる、請求項２４に記載の非一時的なプロセッサ可読ストレージ媒体。
前記出力ビデオを生成する前記命令は、前記プロセッサに、
以下のこと：
現在のタイムスタンプに対応するフレームの前および後のビデオフレームのエッジディスクリプタを計算すること、
前記前のフレームと、前記現在のタイムスタンプの前記フレームとの間、ならびに前記後のビデオフレームと、前記現在のタイムスタンプに関係する前記フレームとの間の、対応するユークリッド距離を判断すること、
前記前および後のフレームのうち、前記現在のタイムスタンプに対応する前記フレームの直前および直後であり、閾値の値よりも大きい前記対応するユークリッド距離を有する２つを、個別フレームとして特定すること、ならびに
前記現在のタイムスタンプに対応する前記フレーム内の特徴を、前記直前および直後の個別フレームからの特徴により置き換えること
により、敵対的生成ネットワーク（ＧＡＮ）の生成器ネットワークを使用して新たなビデオフレームを生成させる、請求項２４に記載の非一時的なプロセッサ可読ストレージ媒体。
前記出力ビデオを生成する前記命令は、前記プロセッサに、
前記ＧＡＮの識別器ネットワークを使用して、動きの一貫性について前記新たなビデオフレームを評価させる、請求項２６に記載の非一時的なプロセッサ可読ストレージ媒体。