JP2023155209A - ビデオ翻訳プラットフォーム - Google Patents
ビデオ翻訳プラットフォーム Download PDFInfo
- Publication number
- JP2023155209A JP2023155209A JP2023062296A JP2023062296A JP2023155209A JP 2023155209 A JP2023155209 A JP 2023155209A JP 2023062296 A JP2023062296 A JP 2023062296A JP 2023062296 A JP2023062296 A JP 2023062296A JP 2023155209 A JP2023155209 A JP 2023155209A
- Authority
- JP
- Japan
- Prior art keywords
- video
- output
- input
- transcription
- audio track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 152
- 238000013518 transcription Methods 0.000 claims abstract description 100
- 230000035897 transcription Effects 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 238000012015 optical character recognition Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 13
- 230000001360 synchronised effect Effects 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000033001 locomotion Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 description 115
- 238000013473 artificial intelligence Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 16
- 230000013016 learning Effects 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 10
- 230000002787 reinforcement Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 101150064138 MAP1 gene Proteins 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19167—Active pattern learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
【課題】受信した入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムを提供する。【解決手段】ビデオ翻訳システムが入力ビデオをターゲット言語に翻訳する方法は、受信されたソース言語の入力ビデオのビデオコンテンツと同期して実行される翻訳されたオーディオトラック/出力オーディオトラックを含むターゲット言語の出力ビデオを生成し、さらに、翻訳されたオーディオトラックに対応する翻訳された字幕を表示し、入力ビデオを受信すると、入力ビデオのドメインを特定し、翻訳エンジンおよび文字起こしエンジンが、特定されたドメインと入力ビデオおよび出力ビデオに対応する言語のペアとに基づき選択され、翻訳エンジンを使用して生成された出力オーディオトラックがビデオと同期してマージされ、出力ビデオが生成される。文字起こしエンジンは、出力ビデオのためにソース言語からターゲット言語に翻訳された字幕を生成する。【選択図】図1B
Description
技術分野
本開示は、全般的に、受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムに関する。
本開示は、全般的に、受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムに関する。
優先権
本願は、2022年4月8日が出願日であるインド特許仮出願第202211021128号、および2022年4月21日が出願日であるインド特許仮出願第202211023590号の優先権を主張するものであり、その開示全体が参照によって本願明細書に援用される。
本願は、2022年4月8日が出願日であるインド特許仮出願第202211021128号、および2022年4月21日が出願日であるインド特許仮出願第202211023590号の優先権を主張するものであり、その開示全体が参照によって本願明細書に援用される。
コンピュータは、或る言語から別の言語にテキストを翻訳するために長く使用されてきた。自動翻訳または機械翻訳は、人工知能(AI:artificial intelligence)テクノロジーにより可能になる重要な機能の1つである。典型的には、ルールベースのシステムがこのタスクに使用された。しかし、こうしたシステムは、後に統計的手法を使用するシステムに取って代わられた。より最近では、深層ニューラルネットワーク(DNN:deep neural network)モデルがニューラル機械翻訳の分野で最先端の成果を実現している。
本開示の実装は、全般的に、ビデオ翻訳システムを対象とする。一部の実装において、ビデオ翻訳システムは、少なくとも1つのプロセッサ、機械可読命令を記憶する非一時的なプロセッサ可読媒体を含んでもよく、機械可読命令はプロセッサに、ソース言語の入力オーディオトラックを含む入力ビデオに関連するドメインを特定することと、ドメインに少なくとも基づいて、複数の翻訳エンジンから翻訳エンジンを、さらに複数の文字起こしエンジンから文字起こしエンジンを、自動的に選択することと、文字起こしエンジンによりソース言語の入力オーディオトラックの文字起こしを作成することと、翻訳エンジンを使用して文字起こしをターゲット言語に翻訳することと、翻訳された文字起こしを使用してターゲット言語の翻訳された字幕を生成することであって、翻訳された字幕は、入力ビデオ内でソース言語で表示されるテキストコンテンツの翻訳も含む、翻訳された字幕を生成することと、入力オーディオトラックの翻訳された文字起こしに対応する音声出力を生成することと、音声出力を使用して、入力オーディオトラックに対応する出力オーディオトラックをターゲット言語で作成することと、出力オーディオトラックおよび翻訳された字幕と同期した入力ビデオのビデオコンテンツを表示する出力ビデオを生成することとをさせる。
上記のビデオ翻訳システムの一部の実装において、ドメインを特定するために、プロセッサは、入力オーディオトラックからキーワードを抽出することと、既定の複数のドメインに対する確率スコアカードを、単純ベイズ法を使用して作り出すこととをしてもよい。
上記のビデオ翻訳システムの一部の実装において、ドメインを特定するために、プロセッサは、既定の複数のドメインのうち最高の確率を備えるドメインを入力ビデオのドメインとして出力してもよい。
上記のビデオ翻訳システムの一部の実装において、翻訳エンジンおよび文字起こしエンジンを自動的に選択するために、プロセッサは、訓練された機械学習(ML:machine learning)モデルを使用して、ドメインに基づき複数の解パスを生成してもよく、複数の解パスそれぞれは、1つの光学文字認識(OCR:optical character recognition)エンジンと、複数の文字起こしエンジンのうちの1つと、複数の翻訳エンジンのうちの1つとの固有の組み合わせを含む。
上記のビデオ翻訳システムの一部の実装において、翻訳エンジンおよび文字起こしエンジンを自動的に選択するために、プロセッサは、ソース言語、ターゲット言語、およびドメインに対して固有の組み合わせで使用されるOCRエンジン、文字起こしエンジン、および翻訳エンジンそれぞれの正解率に基づき、複数の解パスそれぞれをスコアリングすることと、解パスのうち、複数の解パスの中で最高スコアを有する解パスからのOCRエンジン、文字起こしエンジン、および翻訳エンジンを選択することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、翻訳された字幕を生成するために、プロセッサは、光学文字認識(OCR)技術を使用して入力ビデオからテキストを抽出することと、入力オーディオトラックの文字起こしと、入力ビデオから抽出されたテキストとをターゲット言語に翻訳することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、入力ビデオからテキストを抽出するために、プロセッサはさらに、入力ビデオの中でテキストコンテンツを備えるフレームを、輪郭検出技術を使用して検出することと、所定のエリアを上回るテキストコンテンツを有するフレームのサブセットを意味のあるテキストを含むものとして特定することと、意味のあるテキストを含むフレームのサブセットの重複排除を行うこととをしてもよい。
上記のビデオ翻訳システムの一部の実装において、入力ビデオから意味のあるテキストを特定するために、プロセッサはさらに、テキストコンテンツを含むフレームそれぞれについて、訓練された畳み込みニューラルネットワーク(CNN:convolution neural network)を使用して特徴の順序付けされたシーケンスを生成することと、特徴の順序付けされたシーケンスに基づき、フレームの中でテキストコンテンツを含むエリアを特定することと、ソース言語の字を特定するように訓練されたソース言語ベースのCNNを使用してテキストコンテンツの字を予測することと、ソース言語ベースのCNNの出力に基づき、双方向長・短期記憶(LSTM:Long Short Term Memory)を使用して単語特徴を抽出することと、非テキスト特徴に対するテキスト特徴のパーセンテージを計算することと、パーセンテージと、既定の閾値パーセンテージとの比較に基づき、フレームが意味のあるテキストを含むと判断することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、フレームの重複排除を行うために、プロセッサは、フレームのうちの2つについて個々の特徴ベクトルを抽出することと、個々の特徴ベクトル間のユークリッド距離を測定することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、フレームの重複排除を行うために、プロセッサは、シグモイド関数をユークリッド距離に適用することにより2つのフレーム間の類似度を判断すること、類似度と、所定の類似度閾値とを比較することにより、2つのフレームの重複排除を行うことをしてもよい。
上記のビデオ翻訳システムの一部の実装において、出力オーディオトラックを作成するために、プロセッサは、入力オーディオトラックの種々の部分に関連する対応する性別を特定することと、対応する性別に基づき音声出力を生成することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、出力ビデオを生成するために、プロセッサは、翻訳された文字起こしに対応する音声出力の持続期間と、入力オーディオトラックの持続期間とを比較することと、音声出力が入力ビデオの対応する部分と非同期であると判断することと、入力オーディオトラックの持続期間を音声出力の持続期間で除した比として速度係数を計算することと、速度係数の値に基づき、音声出力と、入力ビデオのビデオフレームとのうちの1つ以上を操作することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、出力ビデオを生成するために、プロセッサは、音声出力が入力オーディオトラックより短い持続期間を有すると判断することと、速度係数の値において達成されるべき増大を判断することと、音声出力の音声セグメントの前および後に音声出力における休止を挿入することにより出力オーディオトラックを生成することであって、休止の持続期間は、達成されるべき速度係数の値の増大に基づき決定される、出力オーディオトラックを生成することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、出力ビデオを生成するために、プロセッサは、音声出力が入力オーディオトラックより長い持続期間を有すると判断することと、速度係数の値において達成されるべき減少を判断することと、達成されるべき速度係数の値の減少に基づき入力ビデオのビデオコンテンツにビデオフレームを追加することとをしてもよい。
上記のビデオ翻訳システムの一部の実装において、入力ビデオにビデオフレームを追加するために、プロセッサは、生成器および識別器を含む敵対的生成ネットワーク(GAN:Generative Adversarial Network)を使用して新たなビデオフレームを自動的に生成してもよく、生成器は、識別器により検証されるビデオフレームの画像を作り出す。
上記のビデオ翻訳システムの一部の実装において、新たなビデオフレームを自動的に生成するために、プロセッサは、入力ビデオのビデオフレームにおいて撮像されている話者の受信されたグランドトゥルースポーズに基づき新たなビデオフレームを生成してもよく、新たなビデオフレームは、話者のグランドトゥルースポーズとともにフェイクの口の形を含む。
本開示の実装は、全般的に、受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成する方法も対象とする。一部の実装において、方法は、ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定するステップと、ドメインに基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択するステップと、文字起こしエンジンによりソース言語の入力オーディオトラックの文字起こしを作成するステップと、翻訳エンジンを使用して文字起こしをターゲット言語に翻訳するステップと、入力オーディオトラックの翻訳された文字起こしに対応する音声出力を生成するステップと、翻訳された字幕を、翻訳された文字起こしを使用して作成するステップであって、翻訳された字幕は、入力ビデオ内でソース言語で表示されるテキストコンテンツの翻訳も含む、翻訳された字幕を作成するステップと、音声出力からターゲット言語の出力オーディオトラックを作成するステップと、出力オーディオトラックおよび翻訳された字幕と同期した入力ビデオのビデオコンテンツを表示する出力ビデオを生成するステップとを含んでもよい。
上記の方法の一部の実装において、出力オーディオトラックを作成するステップはさらに、異なる言語、異なるアクセント、異なるトーン、および異なるスタイルで話す異なる性別の人々のオーディオサンプルを有するデータセットに対して訓練された、長・短期記憶(LSTM)ネットワークを備えたカスタム畳み込みニューラルネットワーク(CNN)を使用して、入力オーディオトラックの音声セグメントの性別を検出するステップを含んでもよい。
上記の方法の一部の実装において、LSTMネットワークを備えたカスタムCNNの訓練はさらに、LSTMネットワークを備えたカスタムCNNを、データセットに含まれる言語固有特徴を使用してソース言語で性別を検出するように訓練するステップを含んでもよい。
上記の方法の一部の実装において、LSTMネットワークを備えたカスタムCNNの訓練はさらに、オーディオサンプルをメルスペクトログラムに変換するステップと、メルスペクトログラムをシャッフル、リサイズ、および正規化するステップと、データセットを訓練データセット、検証データセット、およびテストデータセットに分割するステップとを含んでもよい。
上記の方法の一部の実装において、翻訳された字幕を作成するステップはさらに、文字起こしからソース言語のストップワードを検出するステップと、ストップワードを使用して文字起こしの文の始まりおよび終わりを特定するステップとを含んでもよい。
上記の方法の一部の実装において、翻訳された字幕を作成するステップはさらに、ドメイン、ソース言語、およびターゲット言語に基づき用語集を選択するステップであって、用語集は、ソース言語およびターゲット言語のうちの1つ以上の、ドメイン固有用語を含む、用語集を選択するステップを含んでもよい。
本開示の実装は、全般的に、非一時的なプロセッサ可読ストレージ媒体も対象とする。一部の実装において、非一時的なプロセッサ可読ストレージ媒体は、機械可読命令を含んでもよく、機械可読命令はプロセッサに、ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定することと、ドメインに少なくとも基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択することと、文字起こしエンジンによりソース言語の入力オーディオトラックの文字起こしを作成することと、翻訳エンジンを使用して文字起こしをターゲット言語に翻訳することと、入力オーディオトラックの翻訳された文字起こしに対応する音声出力を生成することと、翻訳された文字起こしを使用してターゲット言語の翻訳された字幕を生成することであって、翻訳された字幕は、入力ビデオ内でソース言語で表示されるテキストコンテンツの翻訳も含む、翻訳された字幕を生成することと、音声出力を使用して、入力オーディオトラックに対応する出力オーディオトラックをターゲット言語で作成することと、出力オーディオトラックおよび翻訳された字幕と同期した入力ビデオのビデオコンテンツを表示する出力ビデオを生成することとをさせる。
上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、音声出力の持続期間と入力オーディオトラックとの比較に基づき、音声出力が入力ビデオのビデオコンテンツと非同期であると判断させてもよい。
上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、ターゲット言語のストップワードの検出に基づき音声出力における文の始まりおよび終わりを特定することと、音声出力における文の始まりおよび終わりに休止を追加することにより、音声出力から出力オーディオトラックを生成することとをさせてもよい。
上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、以下のこと:現在のタイムスタンプに対応するフレームの前および後のビデオフレームのエッジディスクリプタを計算すること、前のフレームと、現在のタイムスタンプのフレームとの間、ならびに後のビデオフレームと、現在のタイムスタンプに関係するフレームとの間の、対応するユークリッド距離を判断すること、前および後のフレームのうち、現在のタイムスタンプに対応するフレームの直前および直後であり、閾値の値よりも大きい対応するユークリッド距離を有する2つを、個別フレームとして特定すること、ならびに現在のタイムスタンプに対応するフレーム内の特徴を、直前および直後の個別フレームからの特徴により置き換えることにより、敵対的生成ネットワーク(GAN)の生成器ネットワークを使用して新たなビデオフレームを生成させてもよい。
上記の非一時的なプロセッサ可読ストレージ媒体の一部の実装において、出力ビデオを生成する命令は、プロセッサに、GANの識別器ネットワークを使用して、動きの一貫性について新たなビデオフレームを評価させてもよい。
本開示の特徴が、以下の図面に示される例によって明らかにされる。以下の図面において、同じ数字は同じ構成要素を示す。
簡潔さおよび例示の目的で、本開示について、その例を参照することにより説明する。以下の説明では、本開示が十分に理解されるように特定の詳細事項が数多く記載される。しかし、当然のことながら、本開示はこうした特定の詳細事項に限定されることなく実施され得る。そのほか、本開示を不必要に曖昧にしないよう、一部の方法および構造を詳しく説明していない場合もある。本開示全体にわたって、「a(或る)」および「an(或る)」という用語は、少なくとも1つの特定の構成要素を示すよう意図される。本願明細書で使用されるとき、「includes(含む)」という用語は、含むがそれに限定されないという意味であり、「including(含んでいる)」という用語は、含んでいるがそれに限定されないという意味である。「based on(基づく)」という用語は、少なくとも部分的に基づくという意味である。
受信された入力ビデオの翻訳バージョンに相当する出力ビデオを生成するビデオ翻訳システムが開示される。入力ビデオは、その翻訳先のターゲット言語の選択とともに受信されてもよい。或る例において、入力ビデオは、入力言語/ソース言語のオーディオトラックを含んでもよく、出力ビデオは、出力言語/ターゲット言語で生成されてもよい。入力ビデオが受信されると、次世代AIエンジンが、入力ビデオのドメインを特定する。ドメイン、ソース言語、およびターゲット言語に少なくとも基づき、次世代AIエンジンは、特定されたドメインおよびソース言語/ターゲット言語ペアに対して、最高の翻訳正解率を提供できる最良の翻訳エンジン、文字起こしエンジン、および光学文字認識(OCR)エンジンを含むであろう解パスを推奨することができる。翻訳エンジンおよび文字起こしエンジンは、利用可能なオプションの中から翻訳タスク/文字起こしタスクの最高の正解率を提供するように選択できる。
入力オーディオトラックが、入力ビデオから抽出され、性別検出のために使用され、入力オーディオトラックで話しているそれぞれの音声の性別が性別検出モデルにより特定される。或る例において、入力オーディオトラックが同じ性別の異なる音声を含めば、そのような区別も性別検出モデルにより特定され得る。さらに、抽出された入力オーディオトラックにおいて発生する休止およびストップワードも特定される。入力ビデオの種々のフレームに存在し得る、意味のあるテキストも抽出されてもよい。さらに、選択された文字起こしエンジンは、入力オーディオトラックを文字起こしして、オーディオ入力の文字起こしされたテキストを作成する。文字起こしされたテキストと、入力ビデオのフレームから抽出されたテキストとを翻訳エンジンに提供して、ターゲット言語に翻訳されたテキスト出力を取得することができる。このテキスト出力をスピーチに変換して、ターゲット言語の音声出力を作成することができる。或る例において、音声出力のオーディオ信号は、出力オーディオトラックを生成するためにさらに処理できる音声セグメントを構成する、スピーチの同質ゾーンに分割されてもよい。
速度係数が音声出力に対して計算され、音声出力と入力ビデオとが同期するように、それらのうちの1つ以上が、本願明細書に記載された種々の方法を使用して必要に応じ操作または変換されてもよい。或る例において、休止が音声出力に挿入されて、出力オーディオトラックが生成されることが可能である。或る例において、音声出力は、調整されずに出力オーディオトラックとして使用されてもよい。或る例において、入力ビデオのビデオコンテンツは、敵対的生成ネットワーク(GAN)を使用して自動的に生成される新たなビデオフレームを挿入することにより調整できる。入力ビデオ内の話者の画像も、画像内の話者の唇の動きが出力ビデオトラックと同期するように調整できる。出力オーディオトラックと調整されたビデオコンテンツとをマージすることにより出力ビデオが生成される。ドメインの特定、翻訳、および文字起こしエンジンの選択に使用される機械学習(ML)モデルを改善するために、ユーザフィードバックが収集されて、強化学習により自動的に取り込まれることが可能である。
本願明細書において開示されているサーバレス、リアルタイム、オンラインのビデオ翻訳ソリューションは、ボタンのクリックでビデオコンテンツを翻訳するためのインタラクティブなユーザインターフェースを含む。ビデオ翻訳システムは、自動化および人工知能(AI)を使用して、ビデオの文字起こしをし、次に、それを多言語の視聴者に適したものにするために、ソース言語の入力オーディオトラックをターゲット言語に翻訳する。文字起こしされた入力オーディオトラックから生成された翻訳スクリプトは、次に、翻訳されたオーディオに再び変換され、ビデオコンテンツに埋め込まれて、出力ビデオが生成されることが可能である。ビデオ翻訳は、次に限定はされないが、カスタム/ドメイン固有の用語集、専門家レビュー、ビデオ内のコンテンツの抽出、スマート次世代AI、専門家からのフィードバックに基づく自動学習、およびコンテンツの保護および配布のためのセキュリティ層などの各特徴により可能になる。或る例において、ビデオ翻訳システムは、大きな規模でペイパーユース方式のメリットを得るために、ソフトウェアアズアサービス(SaaS:Software as a Service)ソリューションとして利用可能にできる。本願明細書に記載されているビデオ翻訳システムは、翻訳作業/文字起こし作業の大部分が自動化されるため、翻訳に一年中24時間利用でき、高速且つ非常に低コストの翻訳を提供する。
図1は、本願明細書において開示されている例による、ビデオ翻訳システム100の図を示す。入力ビデオ110内のオーディオおよびテキストコンテンツを出力言語/ターゲット言語に翻訳し、出力ビデオ190を生成する、ビデオ翻訳システム100により、入力ビデオ110が受信される。或る例において、入力ビデオ110は、1つ以上の入力言語/ソース言語の入力オーディオトラックおよび/またはテキストコンテンツを含むことができる。その結果、出力ビデオ190は、ターゲット言語の出力オーディオトラックと、ソース言語からターゲット言語に翻訳されたテキストコンテンツとのうち1つ以上を含むことになるであろう。或る例において、翻訳されたテキストコンテンツを、出力ビデオ190において字幕として提供できる。さらに出力ビデオ190は、ターゲット言語に適するように操作または変更されたビデオコンテンツも含むことになるであろう。或る例において、ターゲット言語のための選択が、ユーザインターフェースを介して入力ビデオ110とともに提供されることが可能である。入力ビデオ110は、次に限定はされないが、例えば医療、財務、教育、経営、科学のトピック、娯楽コンテンツなど、複数のドメインから選択されるドメインに関連し得る。
入力ビデオ110が受信されると、次世代AIエンジン102は、ソース言語と、入力ビデオ110に関連するドメインとを検出するために、言語およびドメイン検出器132をアクティブ化する。ソース言語/ターゲット言語の組み合わせと、入力ビデオ110に関連するドメインとに少なくとも基づき、次世代AIエンジン102の最良解パス選択器134は、自動化された翻訳タスクおよび文字起こしタスクを実行する、複数の翻訳エンジン160から選択された翻訳エンジンと、複数の文字起こしエンジン170から選択された文字起こしエンジンとの固有の組み合わせを含む、最良解パスの推奨を提供することができる。翻訳エンジンの選択は、特定のソース言語/ターゲット言語ペアと、入力ビデオ110に関連するドメインとの翻訳に対する翻訳エンジンの正解率に基づくことができる。同じく文字起こしサービスも、特定のソース言語と、入力ビデオ110に関連するドメインとに対する複数の文字起こしエンジン170の正解率に基づき選択されるとよい。或る例において、次世代AIエンジン102は、ユーザが文字起こしエンジン/翻訳エンジンを手動で選択するために、翻訳エンジンおよび文字起こしエンジンの自動選択をオーバーライドできるオプションを提供してもよい。
出力ビデオ190を生成するために用いられる最適な翻訳エンジンおよび文字起こしエンジンを特定すると、入力オーディオトラックがオーディオ抽出器104により抽出される。入力オーディオトラックは、例えば、.mp3、.wavなどのオーディオファイルとして記憶されてもよい。オーディオ抽出器104はさらに、性別検出器142、休止検出器144、およびストップワード特定器146を含むか、またはそれに結合されることが可能である。性別検出器142は、別々の話者により話される、入力ビデオ110内の入力オーディオトラックのそれぞれの部分を特定する。性別検出器142は、翻訳されたオーディオ出力を適切な機械生成音声で作成できるようにする。休止検出器144は、入力オーディオトラックにおける休止を特定する。入力ビデオ110における休止を特定することで、出力ビデオ190における翻訳された字幕の出現と、対応するオーディオとを正確に同期させることができる。さらに、ストップワード特定器146が、入力ビデオ110のオーディオ入力において発生する種々のストップワードを特定する。異なる言語には、異なるストップワードがあるかもしれず、そのようなストップワードの特定は、出力ビデオ190のオーディオコンポーネントと同期して字幕を中断することを可能にし、その結果、意味をなす字幕を表示できる。
次に入力ビデオ110は、テキスト抽出器106によるテキスト抽出のために処理される。或る例において入力ビデオ110は、ソース言語のテキストコンテンツを備えた特定の部分を含む可能性があり、それを閲覧者が理解することは、入力ビデオ110の進行を追うのに重要なこともある。入力ビデオ110からのテキスト抽出器106は、意味のあるテキストコンテンツを備えた当該フレームを特定するために、入力ビデオ110のフレームを分析することを必要とし得る。次に、これらのフレームに対して、光学文字認識(OCR)がテキスト抽出のために適用されてもよい。関連しないコンテンツを翻訳または文字起こしするのに処理リソースが浪費されないように、意味のあるテキストコンテンツを備えたフレームの自動的な特定には、所与のフレームにおけるテキストコンテンツの範囲などの一定の閾値が必要となる場合がある。入力ビデオ110から抽出された入力オーディオトラックのテキスト形式または文字起こしを生成するために、選択された文字起こしサービスが音声テキスト化変換器108により用いられる。音声テキスト化変換器108からの文字起こしは、ソース言語でテキスト翻訳器112に提供されてもよく、テキスト翻訳器112は、その文字起こしを、次世代AIエンジン102により選択された翻訳サービスを使用してターゲット言語に翻訳する。或る例において、テキスト翻訳器112へのテキスト入力は、テキスト抽出器106により選択されたフレームから取得された、ソース言語のテキスト出力/意味のあるテキストも含んでもよい。したがって、テキスト翻訳器112は、入力オーディオトラックに対してのみでなく、入力ビデオフレームから特定および抽出された意味のあるテキストコンテンツに対しても、ターゲット言語の翻訳テキストコンテンツを作成する。テキストスピーチ化変換器114は、テキスト翻訳器112から取得された翻訳テキストコンテンツに対応するターゲット言語の音声出力を作成する。音声出力は、異なる部分に関連し異なる性別であってもなくてもよい、別々の話者に関係する、複数の音声セグメントまたは音声部分を含むことができる。したがって、音声出力は、出力ファイルプロセッサ136により実行される音声テキスト化合成器を使用して、対応する性別でオーディオダビング116により自動的に作成できる。或る例において、オーディオダビング116が性別固有の出力オーディオトラックをターゲット言語で生成できるように、テキストスピーチ化変換器114は性別検出器142からの出力を使用する。或る例において、たとえ異なる話者が同じ性別であると特定されても、各話者の音声セグメントには別々の音声/トーンが使用されてもよい。出力ファイルプロセッサ136は、入力ビデオ110のビデオコンテンツを出力オーディオトラックと同期するよう変更または操作する。オーディオトラックの1つ以上のセグメントが、変更されたビデオコンテンツに埋め込まれ118、出力ビデオ190が生成される。
ビデオ翻訳システム100は、翻訳パイプラインの全体にわたって使用される様々なAIモデルを改善するために、自動フィードバック促進器120を含む。ユーザおよび言語の専門家により与えられるフィードバックが、強化学習122を使用して自動的に取り込まれることが可能である。或る例において、フィードバックは、モデル再訓練124および用語集の更新により自動的に取り込まれてもよい。一定のモデル効率性閾値に少なくとも基づき、再訓練されたモデルが翻訳パイプラインにパブリッシュされるべきかどうかがモデルパブリッシャ126によって判断されてもよい。或る例において、取得されたフィードバックを使用して、文字起こしサービス/翻訳サービスの選択および入力ビデオのドメイン特定のための次世代AIエンジン102の解パスが更新されてもよい。
図1Bは、本願明細書において開示されている例による、入力ビデオ110をターゲット言語に翻訳する方法を示すフローチャート1050を示す。本方法は、ビデオ翻訳システム100が入力ビデオ110をそのメタデータとともに受信する1052にて開始する。或る例において、メタデータは、入力ビデオ110に付随する入力オーディオトラックのソース言語と、入力ビデオの翻訳先のターゲット言語とを少なくとも含むことができ、さらに任意選択で入力ビデオ110に関連する任意のキーワードを含むことができる。1054にて、入力ビデオ110に関連するドメインが次世代AIエンジン102により特定される。入力ビデオ110に付随するメタデータ内の入力ビデオ110に関連するキーワード、または関連するキーワードがなければ入力オーディオトラックから抽出されたキーワードを使用して、既定の複数のドメインに対する確率スコアカードを作り出すことができる。或る例において、単純ベイズ法が、確率スコアカードを作り出すために用いられることが可能である。既定の複数のドメインのうち最高の確率を備えるドメインを、1054にて入力ビデオのドメインとして出力できる。
ソース言語およびターゲット言語のペアとともに、特定されたドメインを使用して、複数の翻訳エンジン160から翻訳エンジンを、および複数の文字起こしエンジン170から文字起こしエンジンを、1056にて自動的に選択できる。さらに、光学文字認識(OCR)エンジンも用いて、入力ビデオ110内で表示されるテキストコンテンツを抽出することができる。したがって、ソース言語のテキストコンテンツを入力ビデオ110から抽出できるOCRエンジン、複数の翻訳エンジン160、および複数の文字起こしエンジン170の様々な組み合わせを伴う複数の解パスが生成される。それぞれの解パスを、OCRエンジン、翻訳エンジン、および文字起こしエンジンの特定の組み合わせにより提供される正解率に基づきスコアリングできる。最高の正解率を示す最高のスコアを伴う解パスが、自動選択として1056にて出力される。
1058にて、入力オーディオトラックが抽出される。さらに、様々な技術が、性別検出、休止検出、およびストップワードの特定に用いられる。或る例において、データセットはいくつかの言語に対して準備でき、各言語に対して、データセットは異なる人々が異なるアクセント、トーン、およびスタイルで話すサンプルオーディオクリップを含む。オーディオサンプルは、長・短期記憶(LSTM)を備えた深層学習ベースの畳み込みニューラルネットワーク(CNN)を含む性別検出モデルを訓練するために使用される、メルスペクトログラムに変換できる。データセットは、性別検出モデルをテストおよび検証するため、訓練セット、テストセット、および検証セットに分割できる。或る例において、CNNベースのオーディオセグメンテーションを、入力オーディオトラックにおいて性別を検出するために実装できる。CNNは、スピーチの同質ゾーン、つまり次に性別に基づき分類される音声セグメントに、オーディオ信号を分けるように訓練できる。
異なる言語は、異なるストップワードを含む場合がある。したがって、データセットはさらに、種々の言語のストップワードの特定のための分類器など、種々の機械学習(ML)モデルを訓練するためのサンプルを含むことができる。ソース言語が特定されると、ソース言語のストップワードの特定のための分類器を用いることができる。ストップワードの特定はさらに、入力オーディオトラックにおける休止を検出できるようにする。休止は、入力ビデオ110内の字幕(あれば)の開始および終了のタイミングに基づき示される場合もある。1060にて、入力オーディオトラックの文字起こしが、選択された文字起こしエンジンを使用してソース言語で取得される。1062にて、選択された翻訳エンジンを使用して文字起こしがターゲット言語に翻訳され、1064にて、翻訳された文字起こしから音声出力を作成できる。
さらに、入力ビデオ110内でソース言語で表示されている、意味のあるテキストコンテンツも抽出1066される。本願明細書に詳述されているように、特徴を抽出して輪郭検出技術を使用することにより、テキストコンテンツを備えたフレームを入力ビデオ110から最初に特定できる。フレーム内の所定のエリアのテキストコンテンツに基づき、目立つテキストコンテンツを備えるフレームが特定される。意味のあるテキストを抽出するために、同じテキストコンテンツを備える複数のフレームの重複排除が行われる。
1068にて、入力オーディオトラックの文字起こしと、入力ビデオ110から抽出された意味のあるテキストとを、選択された翻訳エンジンを使用してターゲット言語に翻訳することにより、翻訳された字幕が生成される。1070にて、音声出力からターゲット言語の出力オーディオトラックが作成される。1072にて、翻訳された字幕および出力オーディオトラックと同期した入力ビデオ110のビデオコンテンツを表示する出力ビデオ190が生成される。
図2Aは、本願明細書において開示されている例による、次世代AIエンジン102のブロック図を示す。入力ビデオ110が受信されると、言語、入力ビデオ110のドメイン、および入力ビデオ110の種々のフレームにおける話者の性別を自動検出するために、次世代AIエンジン102に含まれる様々な深層学習モデルを用いることができる。翻訳サービスおよび文字起こしサービスを、それらのソース言語/ターゲット言語の特定のペアに対する正解率に基づき、エンジン選択器202により選択できる。用語集選択器204は、ソース言語/ターゲット言語と、入力ビデオ110に関連する特定のドメインとに基づき1つ以上の用語集を選択することができる。或る例において、選択された用語集は、ソース言語/ターゲット言語のドメイン固有用語を含んでもよい。或る例において、訓練された分類器を様々な選択に対して使用できる。或る例において、エンジン選択器202は、特定のソース・ターゲット言語ペアおよびドメインの組み合わせに対するエンジン選択のために明示的にラベル付けされたデータに対して訓練できる、深層学習モデルを実装することができる。用語集選択器204は、特定されたドメインおよびソース・ターゲット言語の組み合わせに基づき特定の用語集を選択するようプログラムできる。エンジン選択器202および/または用語集選択器204により行われた自動選択をオーバーライドするなど、任意選択のカスタマイズ206を含めることができる。他の任意選択のカスタマイズは、入力ビデオ110の機密データの編集、入力ビデオ110の分類および要約などを含んでもよい。次世代AIエンジン102により提供される解パス208は、複数の文字起こしエンジン170からの文字起こしエンジン212の選択、複数の翻訳エンジン160からの翻訳エンジン214の選択、および入力ビデオ110のフレームからのテキスト抽出のためのOCRエンジン216を含むことができる。選択されたエンジンに関するフィードバック218が、出力ビデオ190を提供した後に取得可能であり、強化学習により次世代AIエンジン102に取り込まれてもよい。
次世代AIエンジン102は、複数のAIアルゴリズムおよび認知サービスを含み、ドメインおよび言語ペアに基づき任意の入力ビデオに対する解パスをインテリジェントに推奨する。このインテリジェンスは、最新の学習およびユーザフィードバックに基づき常に更新される。以下は、新たなビデオ翻訳リクエストが受信されると次世代AIエンジン102により実行される、上位レベルのステップである。
1)ビデオ内の言語、ドメイン、および性別を特定する。言語検出は、内蔵の認知サービスの機能性を使用して行うことができ、その一方で、性別検出のために、カスタムCNNなどのカスタマイズされた音声モデルが種々の言語に対して開発される。
2)ドメイン固有の単語ベースの埋め込みを使用する分類モデルが、ドメインの特定のために使用される。
3)特定のビデオの様々なパートに対応する当該情報のメタデータマッピングが構築される。
4)上記で捕捉済みのメタデータに基づきビデオが複数のパートに分離される。
5)対応する言語およびドメインのペアについて、特定のビデオの種々のパートに対し最高の正解率および最小のデータリーケージをもたらす最良のOCRエンジン、文字起こしエンジン、および翻訳エンジンが特定される。
6)ドメイン固有の単語に対し考えられる最良の一致に基づき選択された言語に最良の用語集を選ぶ用語集選択器204のスマート推奨システムにより、ドメインに特化した翻訳に必要な最も適切な用語集が選択される。
7)解パスが実行され、最終的なビデオ出力を生成するためステップの出力がマージされる。
8)次世代AIエンジン102が、最も正確な結果を提供し得る解パスを推奨する。このインテリジェンスは、自動的なフィードバック取り込みメカニズムに基づき絶えず更新される。
図2Bは、次世代AIエンジン102において用いられるカスタムモデルの一部を示す。入力ビデオキーワード254が、用語集の単語256とともに特定され、次に、既定のドメインに対する確率スコアカードが作り出される。或る例において、キーワード254および用語集の単語256を、入力ビデオ110とともにメタデータとして提供できる。式252により表現される単純ベイズアルゴリズムを、既定のドメインに対する確率スコアカード260を作り出すために使用でき、最高のスコアを備えるドメインが推奨される。用語集の推奨は、入力ビデオ110から作り出されたキーワード254のセマンティックウェブに基づき実行され、エラスティックサーチ258が、定義済みの用語集の埋め込みから実行される。最も適した用語集が、セマンティックなテキスト類似度260に基づき選択される。
図2Cは、本願明細書において開示されている例による、次世代AIエンジン102による解パスの生成のブロック図を示す。次世代エンジン102のエンジン選択器202は、複数のOCRエンジン270、複数の翻訳エンジン160、および複数の文字起こしエンジン170の異なる組み合わせを備える様々な解パスを実行する。所与の解パスの各ステップに対して段階的スコアが生成される。例として、解パスA1B2C10のステップ272、274、および276のそれぞれがスコアリングされ、個々の段階的スコアから集約スコアを生成できる。同様に、他の組み合わせも生成およびスコアリングされるとよい。最高スコアを備える解パス、例えばA1B2C10が、最終的なパス282として推奨される。あらゆるステップで、最高の正解率を備える解が選ばれ、利用可能な解パスの中で最高の正解率を保証する解パスが推奨される。
図3Aは、一部の例による、テキスト抽出器106により入力ビデオ110のフレームからテキストを抽出するのに関与する様々なステップのブロック図300を示す。入力ビデオ110は、最初に、例えば70フレーム毎秒(fps:frames per second)、または120fpsなどのフレームを単位として分析302される。テキストを備えるビデオ内のフレームの検出は、深層ニューラルネットワーク(DNN)および双方向長・短期記憶(LSTM)に基づく。各フレームは、画像とみなされてもよく、AIベースの画像分析モデルを、本願明細書にさらに詳述されるように、テキストコンテンツを備えるフレームを検出304するために適用できる。
意味のあるテキストは、一般的には複数のフレームにまたがり、テキストはかなりの時間にわたり表示されることもある。或る例において、入力ビデオ110の全実行時間のパーセンテージとして定義される所定の閾値の時間にわたり表示されるテキストコンテンツを、抽出されるべき意味のあるテキストとして特定できる。したがって、同じテキストコンテンツを備える複数のフレームは重複排除306され、その結果、テキストコンテンツの鮮明なレンダリングを含む画像を形成する1つのフレームが、重複排除306の間に選択されるとよい。最終的なパス282において自動的に選択された複数のOCRエンジン270のうちの1つを用いることにより、OCRを使用してフレーム/画像からテキストが抽出308される。抽出されたテキストは翻訳310されて、入力ビデオ110におけるテキストの表示の持続期間およびテキスト表示の時間的配置などのメタデータがマッピングされてもよい。ビデオフレームの抽出および重複排除の後、入力ビデオ110が翻訳処理の次のステップに向けてパブリッシュ314されてもよい。
図3Bは、本願明細書において開示されている例による、テキスト抽出器により実装される、所与のフレームからテキストを特定するステップのさらなる詳細を示すブロック図350を示す。ビデオフレームが、フレーム内にテキストコンテンツが存在する見込みを示す特徴を特定するために、輪郭検出352を介して最初に分析されてもよい。次に、ソース言語のテキストコンテンツを特定する訓練をされたソース言語ベースのCNNを使用して、輪郭画像内のテキストコンテンツを示す特徴の順序付けされたシーケンスを生成354することができる。ソース言語ベースのCNNは、ソース言語の字を予測するために訓練可能であり、幾何学的図形をテキストコンテンツとして特定するなどほかのコンテンツを誤認し得る輪郭検出のプロセスによりもたらされることがあるエラーを補正する。テキストエリアの特定356が、関連部分を発見するため、またはフレームの中でテキストコンテンツを含むエリアを特定するために実行される。フレーム内のテキスト領域の位置を特定するため、且つそれぞれの字の上にバウンディングボックスを作り出すために、文字の予測を支援するCNNベースのアーキテクチャを使用できる。フレーム内のテキストエリアを検出することで、テキスト特定プロセスを単純化し、速度を向上させることができる。テキストエリアの特定356からの出力は、単語特徴を抽出358するために双方向LSTMに通される。テキストコンテンツの認識または分類362を、コンテキストに基づきテキストを分類するように訓練された再帰型ニューラルネットワーク(RNN:recurrent neural network)により実行できる。最終的に、テキストコンテンツを含むエリアの範囲が、意味のあるテキストコンテンツを備える当該フレームを選択する際に属性として使用されてもよい。或る例において、非テキスト特徴に対するテキスト特徴のパーセンテージを計算できる。したがって、入力画像320が既定の閾値パーセンテージを超えるテキストを有するかどうかが判断364される。ビデオ翻訳システム100は、テキストコンテンツを持つビデオフレームとしてフレームが分類されるための既定の閾値よりも大きなエリアを占めるテキストコンテンツを備えるフレームを特定するように構成されてもよい。次に、テキストコンテンツを認識366するために、OCRを、既定の閾値を超えるテキストを有するフレームに対して実行できる。
ビデオフレームのテキストコンテンツの変化を特定するために、入力ビデオ110のフレームの変化を検出するメカニズムがビデオ翻訳システム100により実装されてもよい。これは、シャムネットワークに加えて全畳み込みネットワークに基づく。単純分類を実装するのではなく、識別的インプリシットメトリクスをカスタマイズすることにより画像を比較する概念が提案される。これは2つのパートに分割できる。まず、全畳み込みであるシャムネットワークが実装され、すでに定義されている距離メトリクスを、フレーム間のテキストコンテンツ同士の識別に使用できる。このプロセスは、生の画像上で直接、非類似関数を学習するものとして扱われることが可能である。要約すると、2つの画像を、異なるタイムスタンプを備える入力としてシャムニューラルネットワークに提供できる。両画像の特徴ベクトルが抽出される。なお、各画像は、特徴抽出のために同じネットワークにより扱われなければならない。抽出された特徴ベクトルは、畳み込み層に通され、最終的に、2つの特徴ベクトルの変化を測定するユークリッド距離を計算できる。画像に実質的な変化がなければ、画像はほぼ同じ特徴ベクトルを有することになり、変化が重要であれば画像は異なる特徴ベクトルを有することになるであろう。
当然のことながら、ビデオ翻訳システム100は、任意の所与の言語ペアの翻訳および文字起こしのために構成できる。限定ではなく例示として、ビデオ翻訳システム100は、例えば日本語から英語、その逆など、言語の様々な組み合わせを翻訳/文字起こしするように構成できる。したがって、ビデオ翻訳システム100は、特定の言語のテキストコンテンツを特定するように訓練された多数のニューラルネットワークを含むことができる。したがって、日本語から英語への文字起こし/翻訳では、日本語のスクリプトを特定するように訓練されたニューラルネットワークが使用され得る。同様に、スペイン語、英語、またはアラビア語の任意の組み合わせの翻訳には、アラビア語またはスペイン語のスクリプトを特定するように訓練された別のニューラルネットワークが使用され得る。そのように種々の言語に対して訓練された任意の数のニューラルネットワークが、種々の言語の組み合わせの間の翻訳/文字起こしを行うために、ビデオ翻訳システム100により用いられることが可能である。
文書からテキストを認識するために使用されるOCRのような従来の技術は、スキャンされた文書に対しては良好な正解率を維持し得る。しかしながら、正解率が下がることが理由で、ビデオフレームなどの画像からのテキスト検出に同じ技術を適用することはできない。ビデオシーンからテキストを認識することは特別な機能を必要とするが、その理由は、サイズ、形、色、書式、向き、アスペクト比、ならびに種々の照明条件、ぼやけた背景、および複雑な背景に基づく画像の品質が、シーン内に存在する各文字で異なり得るためである。したがって、テキスト特定のために重要な変化は検出される必要があり、ほかの変化は無視される必要がある。ビデオフレームの重複排除のために実装される手法は、雲の範囲の変化、日光の反射、および衛星自体の方位角および仰角の変化が起こりやすいであろう衛星を使用して捕捉された画像において発生し得るものなど、わずかに異なる向き/照明条件を考慮するのに十分ロバストであることを要する。
図4Aおよび図4Bは、本願明細書において開示されている一部の例による、テキスト抽出器106により実装されるビデオフレームの重複排除を示す。図4Aにおいて、2つのビデオフレームに対応する2つの画像、画像1および画像2を、特徴抽出のための全畳み込みニューラルネットワーク402により受信できる。特徴マップ1は画像1から抽出された特徴を含むことができ、特徴マップ2は画像2から抽出された特徴を含むことができる。ピクセルごとのユークリッド距離404が、特徴マップ1および特徴マップ2に関して推定される。シグモイド関数406が、結果に対して適用され、類似度が取得408される。或る例において、類似度が0.15であると判断される。類似度と、所定の類似度閾値(例えば0.5)との比較に基づき、画像1と画像2とは類似していないと結論が下される。
同様に、図4Bにおいて、画像1を別のビデオフレームに対応する画像3とも比較できる。全畳み込みニューラルネットワーク402は、特徴を抽出し、特徴マップ1および特徴マップ3を生成する。特徴マップ間のピクセルごとのユークリッド距離442が取得されて、シグモイド関数416が適用され、類似度が判断される。類似度値0.9と、所定の類似度閾値(例えば0.5)との比較に基づき、画像1と画像3とに対応するビデオフレームが類似していると判断でき、画像のうちの一方をさらに分析でき、他方の画像は無視できる。
図5は、本願明細書において開示されている例による、出力ファイルプロセッサ136により実装される、出力ビデオ190を生成するのに関与するステップのブロック図500を示す。最初に、オーディオ抽出器104により入力ビデオ110から入力オーディオトラックが抽出502され、入力オーディオトラック内の話者(単数または複数)の性別が検出504される。入力オーディオトラックが文字起こしおよび翻訳506されて、入力オーディオトラックに対応するターゲット言語の翻訳テキストが生成される。或る例において、506にて生成されるテキストは、入力オーディオトラックおよび入力ビデオ110のビデオフレームから抽出されたテキストの翻訳も含むことができる。入力ビデオ110のビデオコンテンツに対して相対的な、翻訳されたスピーチまたは音声出力の速度を決定するために、速度係数が計算508される。音声出力対ビデオコンテンツの相対的な速度に基づき、ビデオと同期するために音声出力もしくはビデオのスピードアップまたはスローダウン512のいずれかをするべきかどうかが判断510される。オーディオまたは音声出力が速すぎ、その一方でビデオがより遅い場合、後にさらに詳述されるように、音声出力に1つ以上の休止が挿入512されて、出力オーディオトラックが生成されてもよい。他方、ビデオがオーディオより高速であれば、敵対的生成ネットワーク(GAN)を使用して自動的に生成された追加のビデオフレームが追加されて、入力ビデオ110のビデオコンテンツがスローダウンされることが可能である。ビデオの中で話している人の唇が操作514され、翻訳されたオーディオと同期される。出力オーディオトラックがビデオコンテンツ(自動的に生成された追加のビデオフレームを用いて変更され得る)とマージ516され、ターゲット言語の出力ビデオ190が生成される。
図6は、本願明細書において開示されている例による、性別検出器142により実装される性別検出のアーキテクチャ600を示す。性別検出器142は、入力ビデオ110から抽出された入力オーディオトラックにおける性別検出のためのCNN/CNN-LSTM手法に基づく性別モデル610を含むことができる。性別は、例えばトーンなどの声質の比較のみからではなく、言語、アクセント、スタイルなどにも基づいて検出できる。データセット602は、1つの言語での性別検出用に性別モデル610を訓練するための、特定の言語を話す種々のトーン、アクセント、およびスタイルを備えた種々の音声のオーディオサンプルを用いて準備できる。例として、トーンに加え、「彼」および「彼女」などの特定の単語は性別を示す。性別固有の動詞の形を含む言語もある。したがって、性別モデル610は、性別検出のためにトーンに加えてそのようなセマンティック情報も使用するように訓練されてもよい。データセット602内のオーディオサンプルは、最初に、メルスペクトログラムに変換される。メルスペクトログラムは、前処理済みデータセット604を得るためにシャッフル、リサイズ、および正規化を行うことにより前処理される。前処理済みデータセット604は、さらに分割されて、性別モデル610を生成するために使用される訓練セット612、検証セット614、およびテストセット616が形成される。同様に、CNN/CNN-LSTM手法を実装する種々の性別モデルを、種々の言語での性別検出のために訓練できる。上述のように、或る言語に固有の性別モデルは、性別検出のために声質に加えて特定のタイプの言語データ(例えば特定の単語、例えば「彼」、「彼女」など)を用いてもよく、別の言語に使用される別の性別モデルは、別のタイプのセマンティック情報(例えば性別固有の動詞の形)を使用してもよい。特定の言語に対して訓練されると、混同行列を使用して性別モデル610を正解率、適合率/再現率について評価606できる。畳み込みネットワーク層650は、入力スペクトログラム620として受信されたオーディオを処理し、出力層630にて性別を特定する。
入力ビデオ110においてビデオフレームが作動される速度は、ターゲット言語が話される速度と必ずしも一致しないこともあり、これにより、翻訳から生成されたオーディオともとのビデオとの間で持続時間の不一致が生じる可能性がある。その理由は、入力ビデオ110が最初にソース言語のために作られており、それをターゲット言語に変換することでスピーチの速度、休止、およびスタイルを変化させる可能性があるためである。オーディオダビングの間に発生するこうした差は、速度係数を使用して最小限に抑えることができる。速度係数(SC:speed coefficient)を得るための式を以下に示す。
速度係数(SC)=オーディオセグメントの持続期間/字幕ファイルからのオーディオセグメントの持続期間 式(1)
SCの値は、オーディオの速度を決定する。より大きな値のSCは、翻訳されたオーディオ/音声出力の持続期間を増大させ(且つ速度を下げ)、より小さな値の速度係数は、翻訳されたオーディオの持続期間を短縮させる(且つ速度を上げる)ことになるであろう。考えられるシナリオをいくつか以下で検討する。
a)翻訳されたオーディオがもとのオーディオよりも長い:このケースでは、翻訳されたオーディオのSCは、小さな値だけ減少され、もとのビデオのビデオフレームは、観測可能な変化が非常に少ない状態で速度の点でバランスのとれた出力が取得されるように延長され得る。
b)翻訳されたオーディオがもとのオーディオよりも短い:このケースでは、翻訳されたオーディオの速度係数は、小さな値だけ増大され、次に、観測可能な変化が非常に少ない状態で速度の点でバランスのとれた出力が取得されるように、休止が翻訳されたオーディオにインテリジェントに挿入される。それに応じて、休止ファイルが生成されて、2つの等しいセグメントに分割されることが可能である。持続期間およびセグメントに基づき、生成/翻訳されたオーディオファイルの前および後に休止を追加できる。実験が行われ、オーディオファイルとビデオフレームとが良好に同期する典型的な速度係数の値は、0.8から1.3の間にあると考えられると判断された。ソース言語のテキストと、ターゲット言語のそれとのアライメントをとるために、2言語テキストアライナを使用できる。これが使用されて、ビデオ翻訳システム100のためのパラレルコーパスが作り出される。2つの言語は、別々のベクトル空間にマッピングされることも可能である。2言語テキストのアライメントを実行するには、文埋め込みが必要とされ得る。自動スピーチ認識の強制アライメント技術を使用して、オーディオとテキストとのアライメントをとることができる。
図7は、本願明細書において開示されている例による、自動的なビデオフレーム生成に関与する様々なステップを含むブロック図700を示す。オーディオセグメントが速すぎる特定のケースでは、速度係数が1.3の値に達するまで速度を低下させることができる。この変換の結果、オーディオの持続期間が増大されるとよい。しかしながら、オーディオの持続期間が準最適な形で増大されると、オーディオの各部分は依然としてビデオの対応する部分と非同期であり、ビデオの持続期間がオーディオの持続期間未満となるかもしれない。この非同期性を打開するために、重複したビデオフレームを生成702できる。或る例において、敵対的生成ネットワーク(GAN)を用いることにより高解像度画像を生成できる。これはビデオ翻訳システム100の複雑さを増大させるが、その理由は、GANを使用して生成されたビデオフレームがもとのビデオ、つまり入力ビデオ110の既存フレームとの空間的および時間的な整合性を維持する必要があり得るためである。ビデオは、各点が個々のビデオフレームに対応する、潜在空間内の点の均等なシーケンスとみなされることが可能である。したがって、ビデオ生成器は、潜在空間内の点のシーケンスを生成するように設計でき、生成された点を画像空間にマッピングする画像生成器を設計できる。画像生成器のために、生成器の個別フレームに時間的シフトを導入する時間的シフト生成器を設計できる。このシフトメカニズムは、ビデオの隣接する個別フレーム間の情報の交換を保証する。
延長されるオーディオ持続期間に基づき、GANにより生成されたフレームを入力ビデオ110に追加704できる。新たなオーディオファイル、つまり出力オーディオトラックを、翻訳されたオーディオ入力、つまり音声出力に対して休止を挿入706することにより生成できる。出力ビデオ190は、生成されたオーディオファイルと、GANにより生成されたフレームを含む変更されたビデオとをマージ708することにより生成できる。
図8は、本願明細書において開示されている例による、入力ビデオ110に挿入される時間的シフト800の図を示す。時間的シフト生成器は、長い音声セグメントについて、つまり翻訳されたオーディオファイルの少なくとも一部が入力ビデオ110の対応する部分よりも大きな時間的長さを有する場合にそのセグメントについて、入力ビデオ110にビデオフレームを追加できるようにする。シフト動作は、現在のタイムスタンプ(T0)に対応するフレームの特徴を、T0より前の個別フレームおよびT0より後の個別フレームからの特徴により置き換える時間的シフト生成器により実行できる。つまりT0の直前および直後の個別フレームからの特徴が、T0に対応するフレームの特徴を置き換える。個別フレームを決定するために、フレームのエッジディスクリプタが計算される。次に、現在のフレームから隣接するフレームのユークリッド距離が計算される。概して、様々な実験から、任意の所与のビデオにおいて個別ビデオフレームを特定するためのユークリッド距離の閾値の値は、0.3であると判断された。特定された個別フレームがTd-1およびTd+1として表現されると想定して、この個別フレーム同士の間に適合するビデオフレームを生成できるようにする時間的シフト800を実装できる。
図9は、本願明細書において開示されている例による、ビデオ生成器900のアーキテクチャを示す。GANのビデオ生成アーキテクチャは、シーケンス生成器902、画像生成器904、およびビデオ識別器910を含む。時間的シフト生成器950の後、2D畳み込みを含む画像生成器(IG:image generator)904を追加できる。画像生成器904は、例えばフレーム0、フレーム1などの隣接する個別フレームの情報を受信する。ビデオ識別器910は、画像生成器904により生成されたフレームが出力ビデオ190を作り出すのに使用可能かどうかを判断するとよい。ビデオ識別器910は、ビデオフレームのサブセットを評価する2D画像識別器912と、ビデオの動きの一貫性についてすべてのフレームを評価する3D識別器914とを含むように設計される。したがって、ビデオ識別器910は、反復プロセスにおいて画像生成器904にリアルタイムフィードバックを提供することができる。画像生成器904およびビデオ識別器910を含むビデオ生成器900は、画像生成および画像の品質の判断のため訓練画像を使用して明示的に訓練されてもよい。
図10は、本願明細書において開示されている例による、GANに基づく生成器1000を示す。GANを使用するリップシンクのための生成器アーキテクチャは、提供されるオーディオとシンクした顔を生成する生成器1000と、生成された顔が出力オーディオトラックと同期するように、生成された顔を検証する識別器(後に記載)との2つのネットワークを含む。生成器1000は、生成器1000が出力オーディオトラックとシンクした現実感のある画像を作り出すことを学習するように、敵対的方式で訓練できる。生成器ネットワークは、オーディオエンコーダ1002、顔エンコーダ1004、および顔デコーダ1006を含む。さらに、顔エンコーダ1004にポスチャを入力として提供できるように顔のポスチャ検出も実装できる。当然のことながら、例えばオーディオエンコーダ1002、顔エンコーダ1004、および顔デコーダ1006など、種々のネットワーク内のブロックの数に関する詳細は、例示のみを目的として示されており、本願明細書において開示されている例による生成器1000において、より多い、またはより少ない数のブロックが使用されてもよい。
顔エンコーダ1004を参照する。ターゲットポーズを備える入力グランドトゥルース顔画像1014を提供できる。入力グランドトゥルース顔画像1014の下半分は、唇の形についてではなく顔のポーズについての情報のみを提供するように、マスクされてもよい。顔エンコーダ1004は、中間にあるダウンサンプリング層を備えた一連の残差ブロックを含み、入力グランドトゥルース顔画像1014を顔埋め込みに埋め込む。CNNネットワークを、メル周波数ケプストラム係数(MFCC:Mel-frequency cepstral coefficient)ヒートマップを入力として得てオーディオ埋め込み1008を作成する、オーディオエンコーダ1002として使用でき、オーディオ埋め込み1008をさらに顔埋め込み1012と連結してオーディオビジュアル共同埋め込みを作り出すことができる。顔デコーダ1006は、入力グランドトゥルース顔画像1014のマスクされた領域を適切な口の形と重ね合わせることにより、オーディオビジュアル共同埋め込みからリップシンクされた顔1018を作成する。顔デコーダ1006は、特徴マップをアップサンプリングする逆畳み込み層を備えた一連の残差ブロックを含む。顔デコーダ1006の出力層1020は、シグモイド関数により活性化される、3つのフィルタを備える1×1畳み込み層を含む。顔エンコーダ1004でのあらゆるアップサンプリング動作の後、スキップ接続を顔エンコーダ1004と顔デコーダ1006との間に提供でき、これは、顔を生成する間に顔デコーダ1006によってきめの細かい顔特徴が保持されることを保証する。顔デコーダ1006は、入力として顔エンコーダ1004に返された所与のポーズに合うフェイクの口の形を生成する。
図11は、本願明細書において開示されている例による、GANを使用するリップシンクのための識別器1100を示す。或る例において、識別器1100は、入力された顔およびオーディオを一定の表現にエンコードするために使用されてもよく、それらの間のL2距離dを計算する。識別器ネットワーク1100において使用される顔エンコーダ1104およびオーディオエンコーダ1102は、生成器1000において使用されるものと同じとすることができる。
図12は、本願明細書において開示されている例による、入力ビデオ110と同期した、ターゲット言語の翻訳された字幕を生成するのに関与するステップを示す。音声出力が、入力オーディオトラックの翻訳された文字起こしから生成され、メルスペクトログラムに変換される、1202。所与のビデオと同期的に表示される様々な言語の字幕を自動的に生成するステップを、人間が介在することなく実装できる。字幕の生成は、言語固有のストップワード、休止ワード検出、および性別の変化に基づく。休止は、カスタマイズされたCNNを使用して文の中で検出1208される。休止の持続期間は、入力ビデオ110の字幕において与えられる開始および終了のタイミングに基づき計算1210される。休止は、翻訳されたオーディオトラックまたは音声出力の適切な時点に追加1212できる。或る例において、ストップワードに基づき文の始まりおよび終わりに休止を追加できる。
或る例において、字幕が別々の文に分割または分断される必要があるかどうかを判断するために、ストップワードを使用できる。各言語は、その言語の書かれ方に対するその言語の話され方に着目すると異なる可能性がある、特有のストップワードのセットを含むかもしれない。例として、英語では、ストップワードまたはストップキャラクタは「.」、「!」、「?」を含む場合があり、日本語では、ストップワードまたはストップキャラクタは「。」、「、」を含む場合がある。ストップワードは、文の終わりを特定するためにも使用できる。ビデオ内の性別を検出するためにCNNベースのオーディオセグメンテーションを実装できる。これは、オーディオ信号または音声出力をスピーチの同質ゾーンに分けるものであり、性別分類に役立つ。
図13は、本願明細書において開示されている例による、強化学習を使用する自動的なフィードバック取り込みのためのステップを示す。これは、いかなる人間の介在もなしにフィードバックに基づきモデルを定期的に更新するのに役立つ。出力ビデオ190をユーザに提供すると、ビデオ翻訳システム100の翻訳および文字起こしの出力に関して、明示または黙示のフィードバック1302がユーザから受信され得る。或る例において、そのようなユーザフィードバックは、文字起こしエンジンおよび翻訳エンジンの当初の選択を行った次世代AIエンジン102に提供1304できる。フィードバックを提供するユーザコメントの数が一定の閾値、例えば1000のユーザコメントに到達すると、その言語ペアおよびドメインに対するモデル再訓練が自動的にトリガ1306される。或る例において、強化学習は、機械学習(ML)コンポーネントの望ましい、または望ましくない挙動に基づき、肯定的または否定的な報酬を出力することができる。強化エージェントは、より新たなモデル(つまり次世代AIエンジン102のための)を使用した正解率の向上を確認するために、様々な実験1308を開始する。エージェントは、正解率が向上すると必ず肯定的な報酬を、正解率が低下するといつでも否定的な判定を収集1310する。エージェントは、長期的なポリシーに基づき報酬を収集し続け、結果が全体的に向上するように措置を講じる。肯定的な報酬の既定の閾値がエージェントにより達成されると、次世代AIエンジン102のモデルが更新されてもよい。
図14は、次世代AIエンジン102を再訓練するための強化学習の取り込みと、文字起こしサービスおよび翻訳サービスの選択とを示す。強化エージェントは、種々の文字起こしサービスおよび翻訳サービスに関連する様々な環境(またはモデル)とやり取りすることができる。環境の望ましい、または望ましくない挙動に基づき、エージェントは、肯定的または否定的な報酬を収集してもよく、その結果、肯定的な報酬が最小閾値を超えればモデルが更新されフィードバック1402が破棄される。
図15は、ビデオ翻訳システム100を実装するために使用され得るコンピュータシステム1500を示す。より具体的には、ビデオ翻訳システム100からデータを生成するため、またはビデオ翻訳システム100のデータにアクセスするために使用され得るデスクトップ、ラップトップ、スマートフォン、タブレット、およびウェアラブルなどのコンピューティングマシンが、コンピュータシステム1500の構造を有してもよい。コンピュータシステム1500は、図示されていない追加のコンポーネントを含んでもよく、記載されているプロセスコンポーネントの一部は、除去および/または変更されてもよい。別の例において、コンピュータシステム1500は、Amazon Web Servicesなどの外部クラウドプラットフォーム、AZURE(登録商標)クラウド、もしくは社内のコーポレートクラウドコンピューティングクラスタ、または組織のコンピューティングリソースなどに存在することができる。
コンピュータシステム1500は、中央処理ユニット、ASIC、または別のタイプの処理回路などのプロセッサ(単数または複数)1502と、例えばディスプレイ、マウスキーボードなどの入出力デバイス1508と、ローカルエリアネットワーク(LAN:Local Area Network)、ワイヤレス802.11x LAN、3G、4G、もしくは5GモバイルWAN、またはWiMax WANなどのネットワークインターフェース1504と、プロセッサ可読媒体1506とを含む。これらのコンポーネントはそれぞれ、動作可能なようにバス1508に結合されていてもよい。コンピュータ可読媒体1506は、実行のために命令をプロセッサ(単数または複数)1502に提供することに関与する任意の適切な媒体とすればよい。例として、プロセッサ可読媒体1506は、磁気ディスクまたはソリッドステート不揮発性メモリなど、非一時的な、もしくは不揮発性の媒体、またはRAMなどの揮発性媒体としてもよい。プロセッサ可読媒体1506上に記憶される命令またはモジュールは、プロセッサ(単数または複数)1502により実行されプロセッサ(単数または複数)1502に方法およびビデオ翻訳システム100の機能を実行させる、機械可読命令1564を含んでもよい。
ビデオ翻訳システム100は、非一時的なプロセッサ可読媒体上に記憶されて1つ以上のプロセッサ1502により実行されるソフトウェアとして実装されてもよい。例として、プロセッサ可読媒体1506は、MAC OS、MS WINDOWS、UNIX、またはLINUXなどのオペレーティングシステム1562、およびビデオ翻訳システム100のコード1564を記憶してもよい。オペレーティングシステム1562は、マルチユーザ、マルチプロセッシング、マルチタスキング、マルチスレッディング、リアルタイム、および同様のものとされてもよい。例として、ランタイム中、オペレーティングシステム1562が動作し、ビデオ翻訳システム100のコードがプロセッサ(単数または複数)1502により実行される。
コンピュータシステム1500は、不揮発性データストレージを含むこともあるデータストレージ1510を含んでもよい。データストレージ1510は、ビデオ翻訳システム100により使用される任意のデータを記憶する。データストレージ1510は、入力ビデオ、入力オーディオトラックおよび出力オーディオトラック、文字起こし、字幕、出力ビデオ、およびその他動作中にビデオ翻訳システム100により使用または生成されるデータを記憶するために使用されてもよい。
ネットワークインターフェース1504は、例としてLANを介してコンピュータシステム1500を内部システムに接続する。さらにネットワークインターフェース1504は、コンピュータシステム1500をインターネットに接続してもよい。例としてコンピュータシステム1500は、ネットワークインターフェース1504を介してウェブブラウザならびにその他外部のアプリケーションおよびシステムに接続してもよい。
一例とともにその変形の一部が本願明細書において説明され、示された。本願明細書で使用された用語、説明、および図面は、例示としてのみ記載されたものであり、限定としては意図されてはいない。添付の特許請求の範囲およびその等価物により定義されるよう意図される主題の意図および範囲内で、多数の変形が可能である。
Claims (27)
- 少なくとも1つのプロセッサ、
機械可読命令を記憶する非一時的なプロセッサ可読媒体
を含むビデオ翻訳システムであって、前記機械可読命令は前記プロセッサに、
ソース言語の入力オーディオトラックを含む入力ビデオに関連するドメインを特定することと、
前記ドメインに少なくとも基づいて、複数の翻訳エンジンから翻訳エンジンを、さらに複数の文字起こしエンジンから文字起こしエンジンを、自動的に選択することと、
前記文字起こしエンジンにより前記ソース言語の前記入力オーディオトラックの文字起こしを作成することと、
前記翻訳エンジンを使用して前記文字起こしをターゲット言語に翻訳することと、
前記翻訳された文字起こしを使用して前記ターゲット言語の翻訳された字幕を生成することであって、
前記翻訳された字幕は、前記入力ビデオ内で前記ソース言語で表示されるテキストコンテンツの翻訳も含む、
前記翻訳された字幕を生成することと、
前記入力オーディオトラックの前記翻訳された文字起こしに対応する音声出力を生成することと、
前記音声出力を使用して、前記入力オーディオトラックに対応する出力オーディオトラックを前記ターゲット言語で作成することと、
前記出力オーディオトラックおよび前記翻訳された字幕と同期した前記入力ビデオのビデオコンテンツを表示する出力ビデオを生成することと
をさせる、ビデオ翻訳システム。 - 前記ドメインを特定するために、前記プロセッサは、
前記入力オーディオトラックからキーワードを抽出することと、
既定の複数のドメインに対する確率スコアカードを、単純ベイズ法を使用して作り出すことと
をする、請求項1に記載のビデオ翻訳システム。 - 前記ドメインを特定するために、前記プロセッサは、
前記既定の複数のドメインのうち最高の確率を備えるドメインを前記入力ビデオの前記ドメインとして出力する、請求項2に記載のビデオ翻訳システム。 - 前記翻訳エンジンおよび前記文字起こしエンジンを自動的に選択するために、前記プロセッサは、
訓練された機械学習(ML)モデルを使用して、前記ドメインに基づき複数の解パスを生成し、前記複数の解パスそれぞれは、1つの光学文字認識(OCR)エンジンと、前記複数の文字起こしエンジンのうちの1つと、前記複数の翻訳エンジンのうちの1つとの固有の組み合わせを含む、請求項1に記載のビデオ翻訳システム。 - 前記翻訳エンジンおよび前記文字起こしエンジンを自動的に選択するために、前記プロセッサは、
前記ソース言語、前記ターゲット言語、および前記ドメインに対して前記固有の組み合わせで使用される前記OCRエンジン、前記文字起こしエンジン、および前記翻訳エンジンそれぞれの正解率に基づき、前記複数の解パスそれぞれをスコアリングすることと、
前記解パスのうち、前記複数の解パスの中で最高スコアを有する解パスからの前記OCRエンジン、前記文字起こしエンジン、および前記翻訳エンジンを選択することと
をする、請求項4に記載のビデオ翻訳システム。 - 前記翻訳された字幕を生成するために、前記プロセッサは、
光学文字認識(OCR)技術を使用して前記入力ビデオからテキストを抽出することと、
前記入力オーディオトラックの前記文字起こしと、前記入力ビデオから抽出された前記テキストとを前記ターゲット言語に翻訳することと
をする、請求項1に記載のビデオ翻訳システム。 - 前記入力ビデオから前記テキストを抽出するために、前記プロセッサはさらに、
前記入力ビデオの中でテキストコンテンツを備えるフレームを、輪郭検出技術を使用して検出することと、
所定のエリアを上回るテキストコンテンツを有する前記フレームのサブセットを意味のあるテキストを含むものとして特定することと、
前記意味のあるテキストを含む前記フレームの前記サブセットの重複排除を行うことと
をする、請求項6に記載のビデオ翻訳システム。 - 前記入力ビデオから前記意味のあるテキストを特定するために、前記プロセッサはさらに、
前記テキストコンテンツを含む前記フレームそれぞれについて、
訓練された畳み込みニューラルネットワーク(CNN)を使用して特徴の順序付けされたシーケンスを生成することと、
前記特徴の順序付けされたシーケンスに基づき、前記フレームの中で前記テキストコンテンツを含むエリアを特定することと、
前記ソース言語の字を特定するように訓練されたソース言語ベースのCNNを使用して前記テキストコンテンツの字を予測することと、
前記ソース言語ベースのCNNの出力に基づき、双方向長・短期記憶(LSTM)を使用して単語特徴を抽出することと、
非テキスト特徴に対するテキスト特徴のパーセンテージを計算することと、
前記パーセンテージと、既定の閾値パーセンテージとの比較に基づき、前記フレームが前記意味のあるテキストを含むと判断することと
をする、請求項7に記載のビデオ翻訳システム。 - 前記フレームの重複排除を行うために、前記プロセッサは、
前記フレームのうちの2つについて個々の特徴ベクトルを抽出することと、
前記個々の特徴ベクトル間のユークリッド距離を測定することと
をする、請求項8に記載のビデオ翻訳システム。 - 前記フレームの重複排除を行うために、前記プロセッサは、
シグモイド関数を前記ユークリッド距離に適用することにより前記2つのフレーム間の類似度を判断すること、
前記類似度と、所定の類似度閾値とを比較することにより、前記2つのフレームの重複排除を行うこと
をする、請求項9に記載のビデオ翻訳システム。 - 前記出力オーディオトラックを作成するために、前記プロセッサは、
前記入力オーディオトラックの種々の部分に関連する対応する性別を特定することと、
前記対応する性別に基づき前記音声出力を生成することと
をする、請求項1に記載のビデオ翻訳システム。 - 前記出力ビデオを生成するために、前記プロセッサは、
前記翻訳された文字起こしに対応する前記音声出力の持続期間と、前記入力オーディオトラックの持続期間とを比較することと、
前記音声出力が前記入力ビデオの対応する部分と非同期であると判断することと、
前記入力オーディオトラックの前記持続期間を前記音声出力の前記持続期間で除した比として速度係数を計算することと、
前記速度係数の値に基づき、前記音声出力と、前記入力ビデオのビデオフレームとのうちの1つ以上を操作することと
をする、請求項1に記載のビデオ翻訳システム。 - 前記出力ビデオを生成するために、前記プロセッサは、
前記音声出力が前記入力オーディオトラックより短い持続期間を有すると判断することと、
前記速度係数の値において達成されるべき増大を判断することと、
前記音声出力の音声セグメントの前および後に前記音声出力における休止を挿入することにより前記出力オーディオトラックを生成することであって、休止の持続期間は、達成されるべき前記速度係数の前記値の前記増大に基づき決定される、前記出力オーディオトラックを生成することと
をする、請求項12に記載のビデオ翻訳システム。 - 前記出力ビデオを生成するために、前記プロセッサは、
前記音声出力が前記入力オーディオトラックより長い持続期間を有すると判断することと、
前記速度係数の値において達成されるべき減少を判断することと、
達成されるべき前記速度係数の前記値の前記減少に基づき前記入力ビデオのビデオコンテンツにビデオフレームを追加することと
をする、請求項12に記載のビデオ翻訳システム。 - 前記入力ビデオに前記ビデオフレームを追加するために、前記プロセッサは、
生成器および識別器を含む敵対的生成ネットワーク(GAN)を使用して新たなビデオフレームを自動的に生成し、前記生成器は、前記識別器により検証される前記ビデオフレームの画像を作り出す、請求項14に記載のビデオ翻訳システム。 - 前記新たなビデオフレームを自動的に生成するために、前記プロセッサは、
前記入力ビデオの前記ビデオフレームにおいて撮像されている話者の受信されたグランドトゥルースポーズに基づき前記新たなビデオフレームを生成し、前記新たなビデオフレームは、前記話者の前記グランドトゥルースポーズとともにフェイクの口の形を含む、請求項15に記載のビデオ翻訳システム。 - ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定するステップと、
前記ドメインに基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択するステップと、
前記文字起こしエンジンにより前記ソース言語の前記入力オーディオトラックの文字起こしを作成するステップと、
前記翻訳エンジンを使用して前記文字起こしをターゲット言語に翻訳するステップと、
前記入力オーディオトラックの前記翻訳された文字起こしに対応する音声出力を生成するステップと、
翻訳された字幕を、前記翻訳された文字起こしを使用して作成するステップであって、
前記翻訳された字幕は、前記入力ビデオ内で前記ソース言語で表示されるテキストコンテンツの翻訳も含む、
前記翻訳された字幕を作成するステップと、
前記音声出力から前記ターゲット言語の出力オーディオトラックを作成するステップと、
前記出力オーディオトラックおよび前記翻訳された字幕と同期した前記入力ビデオのビデオコンテンツを表示する出力ビデオを生成するステップと
を含む方法。 - 前記出力オーディオトラックを作成するステップはさらに、
異なる言語、異なるアクセント、異なるトーン、および異なるスタイルで話す異なる性別の人々のオーディオサンプルを有するデータセットに対して訓練された、長・短期記憶(LSTM)ネットワークを備えたカスタム畳み込みニューラルネットワーク(CNN)を使用して、前記入力オーディオトラックの音声セグメントの性別を検出するステップ
を含む、請求項17に記載の方法。 - 前記LSTMネットワークを備えた前記カスタムCNNの訓練はさらに、
前記LSTMネットワークを備えた前記カスタムCNNを、前記データセットに含まれる言語固有特徴を使用して前記ソース言語で前記性別を検出するように訓練するステップ
を含む、請求項18に記載の方法。 - 前記LSTMネットワークを備えた前記カスタムCNNの訓練はさらに、
前記オーディオサンプルをメルスペクトログラムに変換するステップと、
前記メルスペクトログラムをシャッフル、リサイズ、および正規化するステップと、
前記データセットを訓練データセット、検証データセット、およびテストデータセットに分割するステップと
を含む、請求項19に記載の方法。 - 前記翻訳された字幕を作成するステップはさらに、
前記文字起こしから前記ソース言語のストップワードを検出するステップと、
前記ストップワードを使用して前記文字起こしの文の始まりおよび終わりを特定するステップと
を含む、請求項17に記載の方法。 - 前記翻訳された字幕を作成するステップはさらに、
前記ドメイン、前記ソース言語、および前記ターゲット言語に基づき用語集を選択するステップであって、前記用語集は、前記ソース言語および前記ターゲット言語のうちの1つ以上の、ドメイン固有用語を含む、前記用語集を選択するステップ
を含む、請求項19に記載の方法。 - 機械可読命令を含む非一時的なプロセッサ可読ストレージ媒体であって、前記機械可読命令はプロセッサに、
ソース言語の入力オーディオトラックを有する入力ビデオに関連するドメインを特定することと、
前記ドメインに少なくとも基づき翻訳エンジンおよび文字起こしエンジンを自動的に選択することと、
前記文字起こしエンジンにより前記ソース言語の前記入力オーディオトラックの文字起こしを作成することと、
前記翻訳エンジンを使用して前記文字起こしをターゲット言語に翻訳することと、
前記入力オーディオトラックの前記翻訳された文字起こしに対応する音声出力を生成することと、
前記翻訳された文字起こしを使用して前記ターゲット言語の翻訳された字幕を生成することであって、
前記翻訳された字幕は、前記入力ビデオ内で前記ソース言語で表示されるテキストコンテンツの翻訳も含む、
前記翻訳された字幕を生成することと、
前記音声出力を使用して、前記入力オーディオトラックに対応する出力オーディオトラックを前記ターゲット言語で作成することと、
前記出力オーディオトラックおよび前記翻訳された字幕と同期した前記入力ビデオのビデオコンテンツを表示する出力ビデオを生成することと
をさせる、非一時的なプロセッサ可読ストレージ媒体。 - 前記出力ビデオを生成する前記命令は、前記プロセッサに、
前記音声出力の持続期間と前記入力オーディオトラックとの比較に基づき、前記音声出力が前記入力ビデオの前記ビデオコンテンツと非同期であると判断させる、請求項23に記載の非一時的なプロセッサ可読ストレージ媒体。 - 前記出力ビデオを生成する前記命令は、前記プロセッサに、
前記ターゲット言語のストップワードの検出に基づき前記音声出力における文の始まりおよび終わりを特定することと、
前記音声出力における前記文の前記始まりおよび終わりに休止を追加することにより、前記音声出力から前記出力オーディオトラックを生成することと
をさせる、請求項24に記載の非一時的なプロセッサ可読ストレージ媒体。 - 前記出力ビデオを生成する前記命令は、前記プロセッサに、
以下のこと:
現在のタイムスタンプに対応するフレームの前および後のビデオフレームのエッジディスクリプタを計算すること、
前記前のフレームと、前記現在のタイムスタンプの前記フレームとの間、ならびに前記後のビデオフレームと、前記現在のタイムスタンプに関係する前記フレームとの間の、対応するユークリッド距離を判断すること、
前記前および後のフレームのうち、前記現在のタイムスタンプに対応する前記フレームの直前および直後であり、閾値の値よりも大きい前記対応するユークリッド距離を有する2つを、個別フレームとして特定すること、ならびに
前記現在のタイムスタンプに対応する前記フレーム内の特徴を、前記直前および直後の個別フレームからの特徴により置き換えること
により、敵対的生成ネットワーク(GAN)の生成器ネットワークを使用して新たなビデオフレームを生成させる、請求項24に記載の非一時的なプロセッサ可読ストレージ媒体。 - 前記出力ビデオを生成する前記命令は、前記プロセッサに、
前記GANの識別器ネットワークを使用して、動きの一貫性について前記新たなビデオフレームを評価させる、請求項26に記載の非一時的なプロセッサ可読ストレージ媒体。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN202211021128 | 2022-04-08 | ||
IN202211021128 | 2022-04-08 | ||
IN202211023590 | 2022-04-21 | ||
IN202211023590 | 2022-04-21 | ||
US17/851,961 US20230325611A1 (en) | 2022-04-08 | 2022-06-28 | Video translation platform |
US17/851,961 | 2022-06-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023155209A true JP2023155209A (ja) | 2023-10-20 |
Family
ID=88239429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023062296A Pending JP2023155209A (ja) | 2022-04-08 | 2023-04-06 | ビデオ翻訳プラットフォーム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230325611A1 (ja) |
JP (1) | JP2023155209A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240038271A1 (en) * | 2022-07-29 | 2024-02-01 | Yahoo Assets Llc | System and method for generating video in target language |
CN117194818B (zh) * | 2023-11-08 | 2024-01-16 | 北京信立方科技发展股份有限公司 | 基于视频的图文网页生成方法及装置 |
-
2022
- 2022-06-28 US US17/851,961 patent/US20230325611A1/en active Pending
-
2023
- 2023-04-06 JP JP2023062296A patent/JP2023155209A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230325611A1 (en) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Albanie et al. | BSL-1K: Scaling up co-articulated sign language recognition using mouthing cues | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
WO2022110354A1 (zh) | 一种视频翻译方法、系统、装置及存储介质 | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
US9106812B1 (en) | Automated creation of storyboards from screenplays | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
CN114401438B (zh) | 虚拟数字人的视频生成方法及装置、存储介质、终端 | |
JP2023155209A (ja) | ビデオ翻訳プラットフォーム | |
Bull et al. | Automatic segmentation of sign language into subtitle-units | |
US11176332B2 (en) | Linking contextual information to text in time dependent media | |
CN112784696A (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
Lison et al. | Automatic turn segmentation for movie & tv subtitles | |
US20240064383A1 (en) | Method and Apparatus for Generating Video Corpus, and Related Device | |
EP4235485A1 (en) | Method for converting text data into acoustic feature, electronic device, and storage medium | |
Hrúz et al. | Automatic fingersign-to-speech translation system | |
CN116958342A (zh) | 虚拟形象的动作生成方法、动作库的构建方法及装置 | |
Yang et al. | An automated analysis and indexing framework for lecture video portal | |
CN116564289A (zh) | 利用生成性对抗学习的针对数字视频的可视化语音识别 | |
Khan | Sign Language Recognition from a webcam video stream | |
US20220392439A1 (en) | Rescoring Automatic Speech Recognition Hypotheses Using Audio-Visual Matching | |
Córdova-Esparza et al. | Audio-visual database for spanish-based speech recognition systems | |
US20240135973A1 (en) | Video segment selection and editing using transcript interactions | |
Messaoudi et al. | TuniSER: Toward a Tunisian Speech Emotion Recognition System | |
US20240127857A1 (en) | Face-aware speaker diarization for transcripts and text-based video editing | |
US20240134597A1 (en) | Transcript question search for text-based video editing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20230728 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240528 |