JP2023107729A

JP2023107729A - 自動映像編集システム及び方法

Info

Publication number: JP2023107729A
Application number: JP2022169557A
Authority: JP
Inventors: 富貴陳; Fu-Kuei Chen; 友光王; You Quang Wang; 信標林; Hsin-Piao Lin; ▲ホン▼睿劉; Hung-Jui Liu
Original assignee: Osense Technology Co Ltd
Current assignee: Osense Technology Co Ltd
Priority date: 2022-01-24
Filing date: 2022-10-24
Publication date: 2023-08-03
Also published as: CN116546286A; TWI791402B; TW202332249A; US20230238034A1

Abstract

【課題】スポーツイベント等の自動中継を実現するように自動記録及び自動編集を実行する自動映像編集システム及び方法を提供する。【解決手段】１つ以上の静止デバイス１０とネットワーク接続するコンピューティングデバイス２０と、コンピューティングデバイスとコアネットワークで接続するクラウドサーバ３０と、を含む自動映像編集システムにおいて、充電器又は電源回路、ソーラーパネル、バッテリー、電力変換器、通信トランシーバ、１つ以上の画像キャプチャデバイス、ストレージ及びプロセッサを含む静止デバイスは、現場に配備され、１つ以上の画像キャプチャデバイスを介して、１つ以上の画像を取得し、画像の検出結果に従って、画像及び画像の検出結果を送信する。コンピューティングデバイスは、受信した画像及びその検出結果に従って、複数の映像素材を選択して映像素材を編集し、映像素材集を生成する。【効果】人手を削減できる。【選択図】図１

Description

本発明は、画像処理技術に関し、より詳細には、自動映像編集システム及び方法に関するものである。

いくつかのスポーツイベントの放送は、選手のエキサイティングな動きを見逃さないように、様々な位置で撮影するために多くの人手を必要とする。また、人によって捉えられない場合がある画角のために、空中カメラ及びロボットアームなどのような補助的な機械が必要となる場合もある。

ゴルフを例にとると、世界２４９カ国に３８０００以上のゴルフ場があり、そのうちアメリカが最も多く、日本が２番目に多く、カナダが３番目に多い。トーナメントの放送は、世界の視聴者の注目を集める。ゴルフ中継には多くの人手が必要で、定点撮影のために高倍率カメラが設置され、空からの撮影のために空中カメラが提供され、撮影は選手を追いかける必要がある。試合前の配線、試合中の撮影、及び試合後の会場からの回収は、全て多くの人手及び資材が必要である。それゆえに、放送だけではコストがかかると見ることもできる。

従って、本発明の実施形態は、自動中継を実現するように、自動記録及び自動編集を提供する自動映像編集システム及び方法を提供し、それによって人手を削減可能とするものである。

本発明の実施形態の自動映像編集システムは、１つ以上の静止デバイスと、コンピューティングデバイスと、を含む（ただし、これらに限定されるものではない）。各静止デバイスは、１つ以上の画像キャプチャデバイス、通信トランシーバ、及びプロセッサを含む（ただし、これらに限定されるものではない）。前記画像キャプチャデバイスは、１つ以上の画像を取得するように構成される。前記通信トランシーバは、信号を送信又は受信するように構成される。前記プロセッサは、前記画像キャプチャデバイス及び前記通信トランシーバに結合される。前記プロセッサは、前記画像の検出結果に従って、前記通信トランシーバを介して前記画像及び前記検出結果を送信するように構成される。コンピューティングデバイスは、前記画像及びその前記検出結果に従って、複数の映像素材を選択するように構成される。前記映像素材を編集し、映像クリップ集を生成する。

本発明の実施形態の自動映像編集方法は：１つ以上の画像キャプチャデバイスを介して、１つ以上の画像を取得するステップと；前記画像の検出結果に従って、前記画像及び前記検出結果を送信するステップと；前記画像及びその前記検出結果に従って、複数の映像素材を選択するステップと；前記映像素材を編集して、映像クリップ集を生成するステップと；を含む（ただし、これらに限定されるものではない）。

上記に基づいて、本発明の実施の形態に係る自動映像編集システム及び方法によれば、多数の場所に配備された静止デバイスが異なる画角からの画像を撮影し、かつその画像が自動編集処理のために、コンピューティングデバイスに送信される。視聴者の視覚体験及び娯楽性を高めることに加えて、現場モニタリングも行うことによって、様々なタイプの分野のデジタルトランスフォーメーションを促進することができる。

本開示の前述の特徴及び利点をより理解しやすくするために、図を伴う実施形態が以下に詳細に説明される。

本発明の一実施形態による自動映像編集システムの概略図である。本発明の一実施形態による静止デバイスの要素のブロック図である。本発明の一実施形態による静止デバイスの概略透視図及び部分拡大図である。本発明の一実施形態による自動映像編集方法のフローチャートである。本発明の一実施形態によるハイライト生成のフローチャートである。本発明の一実施形態による検出のフローチャートである。本発明の一実施形態による特徴マッチングのフローチャートである。本発明の一実施形態による画像フィルタリングの概略図である。本発明の一実施形態によるマルチストリーミングのフローチャートである。本発明の実施形態によるデバイス配備の概略図である。本発明の一実施形態によるラインオブサイト（ＬＯＳ）伝搬の概略図である。

図１は、本発明の一実施形態による自動映像編集システム１の概略図である。図１を参照すると、自動映像編集システム１は、１つ以上の静止デバイス１０と、コンピューティングデバイス２０と、クラウドサーバ３０と、を含む（ただし、これらに限定されるものではない）。

図２は、本発明の一実施形態による静止デバイス１０の要素のブロック図である。図２を参照すると、静止デバイス１０は、充電器又は電源回路１１、ソーラーパネル１２、バッテリー１３、電力変換器１４、通信トランシーバ１５、１つ以上の画像キャプチャデバイス１６、ストレージ１７、及びプロセッサ１８を含む（ただし、これらに限定されるものではない）。

充電器又は電源回路１１は、静止デバイス１０内の電子要素に電力を供給するように構成される。一実施形態では、充電器又は電源回路１１は、ソーラーパネル１２及び／又はバッテリー１３に接続され、自律型電力供給を実現する。図３は、本発明の一実施形態による静止デバイス１０の概略透視図及び部分拡大図である。図３を参照して、静止デバイス１０が柱状であると仮定すると（ただし、この形状に限定されない）、ソーラーパネル１２は、４面又は地面に設けられてもよい（ただし、この配置位置に限定されない）。他の実施形態では、充電器又は電源回路１１もまた、商用電力又は他のタイプの電源に接続されていてもよい。

電力変換器１４は、（随意で）充電器又は電源回路１１に結合され、かつ電圧、電流、位相、又は他の電力特性変換を提供するように構成される。

通信トランシーバ１５は、電力変換器１４に結合される。通信トランシーバ１５は、１つ以上の世代のＷｉ－Ｆｉ、第４世代（４Ｇ）、第５世代（５Ｇ）、又は他の世代のモバイルネットワークをサポートする無線ネットワークトランシーバとすることができる。一実施形態では、通信トランシーバ１５は、アンテナ、増幅器、ミキサー、フィルタなどのような１つ以上の回路を更に含む。通信トランシーバ１５のアンテナは、指向性アンテナ又は指定されたビームを生成するように構成されるアンテナアレイとすることができる。一実施形態では、通信トランシーバ１５は、信号を送信又は受信するように構成される。

画像キャプチャデバイス１６は、カメラ、ビデオカメラ、モニタ、スマートフォン、又は画像キャプチャ機能を有する回路とすることができ、かつ特定の視野内の画像を適宜、キャプチャする。一実施形態では、静止デバイス１０は、同一視野又は異なる視野の画像をキャプチャするように構成された複数の画像キャプチャデバイス１６を含む。図３を例とすると、２つの画像キャプチャデバイス１６は、２眼カメラを形成する。いくつかの実施形態では、画像キャプチャデバイス１６は、４Ｋ、８Ｋ、又はより高い品質の画像をキャプチャしてもよい。

ストレージ１７は、固定又は可動のランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、従来のハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、又は同様のデバイスの任意の形態であってよい。一実施形態では、ストレージ１７は、コード、ソフトウェアモジュール、設定、データ（例えば、画像、検出結果など）又はファイルを格納するように構成され、かつその実施形態は後で詳細に説明される。

プロセッサ１８は、電力変換器１４、通信トランシーバ１５、画像キャプチャデバイス１６、及びストレージ１７に結合される。プロセッサ１８は、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、若しくは他のプログラマブル汎用又は特殊用途マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、ニューラルネットワーク加速器、若しくは他の同様のデバイス若しくは上記デバイスの組合せであってもよい。一実施形態では、プロセッサ１８は、静止デバイス１０の動作の全て又は一部を実行するように構成され、かつストレージ１７に格納された様々なコード、ソフトウェアモジュール、ファイル、及びデータをロード及び実行してもよい。いくつかの実施形態では、プロセッサ１８の機能は、ソフトウェア又はチップによって実装されてもよい。

コンピューティングデバイス２０及びクラウドサーバ３０は、スマートフォン、タブレットコンピュータ、サーバ、クラウドホスト、又はコンピュータホストとすることができる。コンピューティングデバイス２０は、ネットワーク２を介して静止デバイス１０に接続される。コンピューティングデバイス２０は、コアネットワーク３を介してクラウドサーバ３０に接続される。いくつかの実施形態では、コンピューティングデバイス２０の機能の一部又は全部は、クラウドサーバ３０に実装されてもよい。

以下、スマートシステム１中の様々なデバイス、要素、及びモジュールを用いて、本実施形態で説明する方法について説明する。本方法の処理の各々は、実施形態の条件に従って調整してもよく、これに限定されるものではない。

図４は、本発明の一実施形態による自動映像編集方法のフローチャートである。図４を参照すると、１つ以上の静止デバイス１０のプロセッサ１８は、１つ以上の画像キャプチャデバイス１６を介して、１つ以上の画像を取得する（ステップＳ４１０）。具体的には、複数の静止デバイス１０が現場（例えば、球場、競走場、スタジアム、又は河川敷公園）に配備される。静止デバイス１０は、１つ以上のカメラレンズを有する。異なる位置及び／又は異なる撮影角度を使用して撮影範囲が拡大され、かつそれに従って画像が撮影される。

一実施形態では、プロセッサ１８は、画像キャプチャデバイス１６の画角に従って画像キャプチャデバイス１６の画像をステッチしてもよい。例えば、単一の静止デバイス１０によって同じ時点に得られた異なる撮影角度の画像は、一緒にステッチされる。それゆえに、固定レンズを使用することは、レンズの角度を調整するための電力を節約することができる。太陽光発電又は電池を用いてでさえ、電力はまだ十分に足りる。

プロセッサ１８は、画像の検出結果に従って、画像及び検出結果を送信する（ステップＳ４２０）。具体的には、イベントの放送では、視聴者の関心を高めるために、ハイライトを特集することがよくある。静止デバイス１０によってキャプチャされたいくつかの画像は、選手の状態、車の状態、又は動きの状態を有さない場合がある。膨大な数の画像は、計算負荷及びネットワーク負荷を引き起こす。それゆえに、静止デバイス１０は、検出結果に従って、画像の全部又は一部を選択し、かつ選択した画像及び対応する検出結果のみを送信するようにしてもよい。

図５は、本発明の一実施形態によるハイライト生成のフローチャートである。図５を参照すると、静止デバイス１０の各々によってキャプチャされた画像ＩＭ１_１～ＩＭ１_Ｍ（Ｍ局と仮定、Ｍは正の整数）に対して、プロセッサ１８の各々は、静止デバイスの各々の画像の検出結果Ｄ_１１～Ｄ１_Ｍを生成するために、１つ以上のターゲットの位置、特徴、及び／又は状態を、それぞれ検出する（ステップＳ５１０）。

ターゲットは、選手、車両、動物、又は任意の特定されたオブジェクトであってよい。画像中のオブジェクト検出のためのアルゴリズムは多数存在する。特徴は、ターゲット上の器官、要素、領域、又は点であってもよい。状態は、歩行、スイング、打撃、又は転倒などのような特定の運動動作であってもよい。

一実施形態では、プロセッサ１８は、検出モデルを介して画像の検出結果を決定してもよい。検出モデルは、ＹＯＬＯ（You Only Look Once）、ＳＳＤ（Single Shot Detector）、ＲｅｓＮｅｔ、ＣＳＰＮｅｔ、ＢｉＦＰＮ、及びＲ－ＣＮＮなどのような機械学習アルゴリズムを介して訓練される。オブジェクト検出は、ターゲットのタイプ又は挙動、及びをその位置のマーキーを識別してもよい。

図６は、本発明の一実施形態による検出のフローチャートである。図６を参照すると、検出モデルへの入力は、画像情報（例えば、特定の色空間（例えば、ＲＧＢ（赤－緑－青）又はＨＳＶ（色－飽和－明度））に対する入力特徴マップ）である。プロセッサ１８は、検出モデルを介して、ターゲットオブジェクト又はイベント検出（ステップＳ５１１）、特徴点検出（ステップＳ５１２）、及び／若しくは状態識別（ステップＳ５１３）を行い、かつそれに従って位置、状態、及び特徴点を出力してもよい。

検出モデルに使用されるニューラルネットワークは、複数の演算層を含んでいてもよい。検出モデルを軽量化するために、検出モデル中の１つ以上の演算層が調整されてもよい。一実施形態では、不要な演算層又はそのチャンネルの一部が削除されてもよく、モデルの深さ及び幅が低減されてもよく、及び／又は畳み込み層などのような演算層が調整されてもよい（例えば、深さ方向の畳み込み層に変更し、Ｎ＊Ｎ畳み込み層、アクティベーション層及びバッチ正規化層（Ｎは正の整数）などのような演算層とマッチングさせること、及び演算層間の接続方法も変更する場合があり、例えばスキップ接続などの技法がある）。調整メカニズムは、モデルの計算複雑性を低減させ、かつ良好な精度を維持する。一実施形態では、調整された軽量モデルに対して、検出されたフィールドデータが追加され、モデルを再最適化／訓練する。プロセッサ１８の特性に従って、検出モデルの内部重みデータは、データ量子化などのように修正される；ソフトウェア及びハードウェアのデータストリームは、ディープストリーム技術などのように、信号処理速度を向上させるために追加される。軽量モデルは、より悪い演算能力を有するエッジコンピューティングデバイスに適用することができるが、本発明の実施形態は、軽量モデルを適用するデバイスの演算能力に限定するものではない。

一実施形態では、静止デバイス１０のプロセッサ１８は、画像の検出結果に従って、通信トランシーバ１５を介して、送信要求を送信してもよい。プロセッサ１８は、検出結果が送信条件を満たすかを判定してもよい。送信条件は、画像内に特定のオブジェクト及び／又はその挙動が存在することであってもよい。例には、選手Ａ、選手がスイング、選手がパス、及び追い越しを含む。検出結果が送信条件を満たす場合、静止デバイス１０は、ネットワーク２を介して、送信要求をコンピューティングデバイス２０に送信する。検出結果が送信条件を満たさない場合、静止デバイス１０は、送信要求をコンピューティングデバイス２０に送信できない／しない。

コンピューティングデバイス２０は、複数の送信要求をスケジューリングし、かつそれに従って送信許可を発出する。例えば、画像の撮影時間に従って送信要求を順次スケジューリングする。別の例では、検出結果内の特定のターゲット又はターゲットイベントに対する優先順位を提供するものである。コンピューティングデバイス２０は、スケジューリング結果に従って、対応する静止デバイス１０に送信許可を順次発出する。

静止デバイス１０のプロセッサ１８は、送信許可に従って、通信トランシーバ１５を介して画像及び検出結果を送信してもよい。すなわち、送信許可が得られた後にのみ、画像を送信する。送信許可が得られるまでは、画像を送信できない／されない。それにより、帯域幅を有効に利用することができる。

図４を参照すると、コンピューティングデバイス２０は、画像及び画像の検出結果に従って、複数の映像素材を選択する（ステップＳ４３０）。具体的には、図５を参照すると、画像ＩＭ１_１～ＩＭ１_Ｍ及び検出結果Ｄ１_１～Ｄ１_Ｍをコンピューティングデバイス２０に送信した後（ステップＳ５２０）、まず画像データベース４０に一時的に格納してもよい。コンピューティングデバイス２０は、異なるターゲットを再識別して（ステップＳ５３０）、ターゲットに対する画像を分類し、かつ分類された画像をターゲットの映像素材ＩＭ２及びＩＭ２_１～ＩＭ２_Ｎとして使用してもよい。

図７は、本発明の一実施形態による特徴マッチングのフローチャートである。図７を参照すると、コンピューティングデバイス２０は、異なる静止デバイス１０（例えば、静止デバイス_０、静止デバイス_１・・・又は静止デバイス_Ｍ）からの画像内の１つ以上のターゲット、静止デバイス１０の位置、及び画像時刻に従って、ターゲットの映像素材ＩＭ２及びＩＭ２_１～ＩＭ２_Ｎを決定してもよい（ステップＳ５３０）。例えば、選手Ａの試合全体画像又は選手Ｂの試合全体画像が時系列に統合される。別の例として、選手Ｂがグリーンに移動すると、コンピューティングデバイス２０は、グリーンに近い静止デバイス１０の映像素材を選択する。

一実施形態では、コンピューティングデバイス２０は、検出モジュール又は別の検出モデルを介してターゲット又はターゲットイベントを識別し、かつそれに従って画像の分類結果を決定してもよい。すなわち、画像中のターゲット又はターゲットイベントに従って、画像が属するグループが決定される。例えば、連続した画像から選手Ｃが特定され、画像は選手Ｃのグループに分類される。それにより、フィールド内の異なるターゲットを効果的に区別することができる。他の実施形態では、コンピューティングデバイス２０は、分類のために静止デバイス１０の検出結果（例えば、オブジェクト検出のタイプ識別）を直接使用してもよい。

一実施形態では、コンピューティングデバイス２０は、画像時刻に従って、各ターゲットの画像をフィールド全体の画像に統合してもよい。

いくつかの実施形態では、コンピューティングデバイス２０によって使用される検出モジュールは、重みを低減させる、すなわち、ニューラルネットワーク中の演算層及び内部重みデータの調整も行なってよい。

図４を参照すると、コンピューティングデバイス２０は、映像素材を編集して１つ以上の映像クリップ集を生成する（ステップＳ４４０）。具体的には、映像素材は、まだ異なるターゲットに対する映像のみである。しかしながら、通常の放送では、異なるターゲット間を切り替える場合がある。なお、本発明の実施形態では、冗長な情報を自動的にフィルタリングし、ハイライトのみを出力することが期待される。さらに、編集には、画像の切り抜き、トリミング、修正、拡大縮小、スタイルの適用、スムージングなどが含まれてもよい。

図５を参照すると、一実施形態では、コンピューティングデバイス２０は、１つ以上の映像コンテンツのプリファレンスに従って、映像素材ＩＭ２_１～ＩＭ２_Ｎ中の複数のハイライトＩＭ３及びＩＭ３_１～ＩＭ３_Ｎを選択してもよい（ステップＳ５４０）。映像コンテンツのプリファレンスは、例えば、ボールを打つ瞬間、ホールインの過程、追い越しの瞬間、及び投球の過程である。映像コンテンツのプリファレンスは、アプリケーションのシナリオにより変更されてもよく、本発明の実施形態により限定されるものではない。映像クリップ集は、１つ以上のハイライトＩＭ_３及びＩＭ３_１～ＩＭ３_Ｎの集まりであり、かつハイライトＩＭ３及びＩＭ３_１～ＩＭ３_Ｎの一部又は全部の画面サイズ又はコンテンツを適宜調整してもよい。

一実施形態では、コンピューティングデバイス２０は、映像クリップ集を出力するために、映像素材を編集モデルに入力してもよい。編集モデルは、機械学習アルゴリズム（例えば、深層学習ネットワーク、ランダムフォレスト、又はサポートベクターマシン（ＳＶＭ））により訓練される。機械学習アルゴリズムは、パターンを介して未知のデータを予測するように、トレーニングサンプルを分析して、そこからパターンを得てもよい。検出モデルは、学習後に構築された機械学習モデルであり、かつ評価されるべきデータに基づいて推論が行われる。一実施形態では、編集モデルは、テスト画像及びその既知の画像コンテンツのプリファレンスを学習サンプルとして使用する。このようにして、編集モデルは、映像素材からハイライトを選択し、かつそれに従って、映像クリップ集に連結することができる。

一実施形態では、コンピューティングデバイス２０は、各ハイライトから冗長なコンテンツをフィルタリングしてもよい。冗長なコンテンツは、ターゲット以外の他のオブジェクト、シーン、パターン、又は単語であってもよい。フィルタリングの方法は、直接的に切り取る方法であってもよいし、又は背景色に変更する方法であってもよい。例えば、図８は、本発明の一実施形態による画像フィルタリングの概略図である。図８を参照すると、コンピューティングデバイス２０は、画像からターゲットの位置をフレーム化し、かつフレーム選択範囲をフォーカス範囲ＦＡとして使用する。コンピューティングデバイス２０は、フォーカス範囲ＦＡの外側の画像をトリミングしてもよい。

一実施形態では、フォーカス範囲ＦＡは、ターゲットと共に移動してもよい。例えば、フォーカス範囲ＦＡの位置は、オブジェクトトラッキング技法を介して更新される。また、オブジェクトトラッキングのためのアルゴリズムは多数ある。例としては、オプティカルフロー、ソーティング法ＳＯＲＴ（Simple Online and Realtime Tracking）、又はディープソーティング法（Deep SORT）、並びにジョイント検出及び埋め込み（ＪＤＥ）を含む。

一実施形態では、コンピューティングデバイス２０は、ハイライト内の１つ以上のターゲットのクローズアップを提供してもよい。例えば、コンピューティングデバイス２０は、ターゲット又はその一部が画像のほぼ一定の割合（例えば、７０、６０、又は５０パーセント）を占めるように、画像内のターゲットの割合（すなわち、画像スケーリング）に基づいて、画像内のターゲットをズームイン又はズームアウトしてもよい。このようにして、クローズアップ効果が達成され得る。

いくつかの実施形態では、編集モデルは、画像フィルタリング及び／又はターゲットクローズアップについて訓練される。例えば、編集モデルは、テスト画像及び既知のフィルタリング結果並びに／又はそのクローズアップパターンをトレーニングサンプルとして使用する。

一実施形態では、編集モデルの訓練中に、コンピューティングデバイス２０は、画像内の１つ以上のターゲットの位置と１つ以上のカメラ移動効果との間の関係を確立してもよい。例えば、ターゲットが左右に移動する場合、左右の並進カメラ移動が提供される。ターゲットが前後に移動する場合は、ズームイン又はズームアウトのカメラ移動が提供される。このようにして、映像素材を入力することによって、それに対応したカメラ移動効果を出力することができる。

一実施形態では、編集モデルのトレーニング中に、コンピューティングデバイス２０は、１つ以上のターゲットと１つ以上のスクリプトとの間の関係を確立してもよい。このように、映像素材を入力することによって、スクリプトに即した映像クリップ集が出力されてもよい。例えば、３番ホールで、選手Ｄのスイング中に、選手Ｄの正面、側面、背面の映像が順次撮影される。スクリプトは、アプリケーションのコンテキストに依存して異なる場合があることに留意されたい。例えば、レーシングカーのコンテキストは、ドライバーの画角、トラック前方の画角、トラック側面の画角の切り替えであってもよい。さらに、スクリプトは、テキスト又は絵コンテに記録されてもよい。このようにして、ハイライトを映像クリップ集に形成することができる。

一実施形態では、映像クリップ集は、ユーザによる閲覧又はダウンロードのために、コアネットワーク３を介して、クラウドサーバ３０にアップロードされてもよい。さらに、コンピューティング及び／又はネットワーク速度が許す場合、リアルタイム放送機能もまた実現されてもよい。

いくつかの実施形態では、クラウドサーバ３０は、試合を更に分析し、コーチングコンサルティング又はフィールドモニタリングなどのような追加のアプリケーションを提供することさえしてもよい。

送信スケジュールに加えて、本発明の一実施形態は、分散型画像キャプチャ及び一時的な保存もまた提供する。図９は、本発明の一実施形態によるマルチストリーミングのフローチャートである。図９を参照すると、一実施形態では、１つ以上の画像キャプチャデバイス１６が画像キャプチャを行い、かつ第１の画像コードストリームＦＶＳ及び第２の画像コードストリームＳＶＳを生成する。第１の画像コードストリームＦＶＳの解像度は、第２の画像コードストリームＳＶＳの解像度より高い。例えば、第１の画像コードストリームＦＶＳの解像度は、４Ｋ、８００万画素であり、かつ第２の画像コードストリームＳＶＳの解像度は、７２０Ｐ、２００万画素である。第１の画像コードストリームＦＶＳ及び第２の画像コードストリームＳＶＳは、ネットワークインターフェースの物理層を介してプロセッサ１８に送信される。

プロセッサ１８は、画像検出結果を生成するために、第２の画像ストリームＳＶＳ中の１つ以上のターゲット又は１つ以上のターゲットイベントを識別するだけでよい。具体的には、プロセッサ１８は、第２の画像ストリームＳＶＳを復号化してもよい（ステップＳ９１０）。例えば、第２の画像コードストリームＳＶＳがＨ．２６５によって符号化されている場合、第２の画像コードストリームＳＶＳを復号した後に、１つ以上の画像フレームのコンテンツを得てもよい。プロセッサ１８は、画像フレームを前処理してもよい（ステップＳ９２０）。例としては、コントラスト強調、デノイズ、及びスムージングを含む。プロセッサ１８は、画像フレームを検出してもよい（ステップＳ９３０）。すなわち、ステップＳ４２０は、ターゲットの位置、特徴、及び／又は状態を検出するためのものである。一実施形態では、プロセッサ１８はまた、画像内に関心領域を設定し、関心領域内のターゲットのみを検出してもよい。一実施形態では、ネットワークインターフェースが送信に使用される場合、プロセッサ１８は、画像キャプチャデバイス１６及びプロセッサ１８のネットワーク位置を設定してもよい。

プロセッサ１８は、画像の検出結果に従って、第１の画像コードストリームＦＶＳを格納してもよい。ターゲットが検出された場合、プロセッサ１８は、画像フレームに対応する第１の画像ストリームＦＶＳをストレージ１７若しくは他の記憶装置（例えば、フラッシュドライブ、ＳＤカード、又はデータベース）に一時的に格納する（ステップＳ９４０）。ターゲットが検出されない場合、プロセッサ１８は、画像フレームに対応する第１の画像コードストリームＦＶＳを削除、廃棄、又は無視する。さらに、必要な場合、検出結果に従って、検出モデルのデバッグを行うようにしてもよい（ステップＳ９５０）。

その後、プロセッサ１８は、通信トランシーバ１５を介して、送信要求を送信してもよい。送信許可を得ることに応じて、プロセッサ１８は、通信トランシーバ１５を介して、一時的に格納された第１の画像コードストリームＦＶＳを送信する。コンピューティングデバイス２０は、順次映像素材を選択し、かつ第１の画像ストリームＦＶＳの映像クリップ集を生成してもよい。

送信のためのリソース割り当てに関して、図１０は、本発明の実施形態によるデバイス配備の概略図である。図１０を参照すると、コンピューティングデバイス２０は、静止デバイス１０の各々によって送信された送信要求に従って無線リソースを割り当て、かつ静止デバイス１０のうちのどれが送信許可を得てよいかを決定してもよい。上述したように、静止デバイス１０は、画像の送信を開始することができる前に、送信許可を得る必要がある。

また、注目すべきことは、図１０に示すように、静止デバイス１０は、ポイントツーポイント送信、すなわち静止デバイス１０間の送信を行なう場合があることである。静止デバイス１０のいくつかは、遠方からコンピューティングデバイス２０に画像を順次送信する中継局として使用される。

図１１は、本発明の一実施形態によるラインオブサイト（ＬＯＳ）伝搬の概略図である。図１１を参照すると、静止デバイス１０の通信トランシーバ１５は、指向性アンテナを更に含む。静止デバイス１０の指向性アンテナは、別の静止デバイス１０の指向性アンテナとラインオブサイト（ＬＯＳ）伝搬を確立する。障害は、送信損失に影響を与え、かつ送信を助長しない。アンテナの放射方向については、障害がない、又は障害物がほとんどないエリアに向けてもよく、このエリアに別の静止デバイス１０を配備してもよい。図１１に示すように、静止デバイス１０間のラインオブサイトは、Ｚ字型又はジグザグ型の接続を形成し、それにより、伝送品質を向上させることができる。

また、注目すべきことは、画像送信のためのモバイルネットワークを使用は、高い料金が発生する場合があることである。光ファイバーネットワークの料金は、比較的低い場合があるが、有線送信の配線コストは無視できない可能性がある。本発明の一実施形態では、ポイントツーポイント送信のためにＷｉ－Ｆｉの一部を指向性アンテナと組み合わせて、かつその後、モバイルネットワークを介して外部ネットワークに送信する。産業科学医療用（Industrial Scientific Medical：ISM）周波数帯では、オープンフィールドを自然の無線送信チャネルとして使用することで、無線送信効果の向上及びコストダウンができる場合がある。

一実施形態では、通信トランシーバ１５は、伝送品質を維持するために、チャネル変化に従って、１つ以上の通信パラメータ（例えば、利得、位相、符号化、又は変調）を変更してもよい。例えば、信号強度は、ある閾値より高く維持される。

上記に基づいて、本発明の実施形態の自動映像編集システム及び方法では、ターゲットを自動的に検出し、電源内蔵型であり、画像の送信をスケジュールし、映像素材を自動的に選択し、かつハイライトに関連する映像クリップ集を生成する静止デバイスが配備される。さらに、無線伝送のために、ラインオブサイト（ＬＯＳ）伝搬が提供される。それにより、人手が排除され、かつユーザの視聴体験が改善され得る。

本発明は、上記の実施形態を参照して説明されてきたが、本発明の精神から逸脱することなく、説明された実施形態に対する変更がなされ得ることは、当業者には明らかであろう。従って、本発明の範囲は、上記の詳細な説明ではなく、添付の特許請求の範囲によって定義される。

本発明の自動映像編集システム及び方法は、画像処理技術に適用することができる。

１自動映像編集システム
２ネットワーク
３コアネットワーク
１０静止デバイス
１１充電器又は電源回路
１２ソーラーパネル
１３バッテリー
１４電力変換器
１５通信トランシーバ
１６画像キャプチャデバイス
１７ストレージ
１８プロセッサ
２０コンピューティングデバイス
３０クラウドサーバ
４０画像データベース
ＩＭ１_１～ＩＭ１_Ｍ画像
ＩＭ２、ＩＭ２_１～ＩＭ２_Ｎ映像素材
ＩＭ３、ＩＭ３_１～ＩＭ３_Ｎハイライト部分
Ｄ１_１～Ｄ１_Ｍ検出結果
ＦＡフォーカス範囲
ＦＶＳ第１の画像コードストリーム
ＳＶＳ第２の画像コードストリーム

Claims

自動映像編集システムであって、該システムは：
少なくとも１つの静止デバイスであって、該静止デバイスの各々は、
複数の画像を取得するように構成された少なくとも１つの画像キャプチャデバイス、
信号を送信又は受信するように構成された通信トランシーバ、並びに
少なくとも１つの画像キャプチャデバイス及び通信トランシーバに結合され、かつ前記画像の検出結果に従って前記通信トランシーバを介して、前記画像及び前記検出結果を送信するように構成されたプロセッサ、
を備える、少なくとも１つの静止デバイスと；
コンピューティングデバイスであって，該コンピューティングデバイスは、
前記画像及び前記画像の前記検出結果に従って複数の映像素材を選択し、かつ
前記映像素材を編集し、映像クリップ集を生成する、
ように構成される，コンピューティングデバイスと；
を備える、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、前記静止デバイスの１つは、複数の前記画像キャプチャを備え、かつ前記プロセッサは、
前記画像キャプチャデバイスの画角に従って、前記画像キャプチャデバイスの画像をステッチする、
ように更に構成される、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、前記静止デバイスの１つは、充電器又は電源回路を備え、かつ前記充電器又は前記電源回路は、ソーラーパネル又はバッテリーに接続される、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、前記コンピューティングデバイスは、
前記映像クリップ集を出力するために前記映像素材を編集モデルに入力し、前記編集モデルを、機械学習アルゴリズムによって訓練する、
ように更に構成される、自動映像編集システム。
請求項４に記載の自動映像編集システムであって、前記コンピューティングデバイスは、
前記編集モデルのトレーニングにおいて
前記画像のうちの１つ中の少なくとも１つのターゲットの位置と、少なくとも１つのモーション効果との間の関係を確立、又は
前記少なくとも１つのターゲットと、少なくとも１つのスクリプトとの間の関係を確立する、
ように更に構成される、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、複数の静止デバイスを備え、前記画像の前記検出結果は、少なくとも１つのターゲットの位置、特徴、及び状態のうちの少なくとも１つを含み、かつ前記コンピューティングデバイスは、
前記画像中の前記少なくとも１つのターゲット、前記静止デバイスの位置、及び画像時刻に従って、前記少なくとも１つのターゲットの映像素材を決定する、
ように更に構成される、自動映像編集システム。
請求項６に記載の自動映像編集システムであって、前記プロセッサは、
検出モデルを介して前記画像の前記検出結果を決定し、前記検出モデルは、機械学習アルゴリズムを介して訓練され、かつ
前記検出モデル中の少なくとも１つの演算層を調整する、
ように更に構成される、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、前記コンピューティングデバイスは、
少なくとも１つの画像コンテンツのプリファレンスに従って、前記映像素材内の複数のハイライトを選択し、かつ
前記ハイライトの各々から冗長なコンテンツをフィルタリングするか、又は前記ハイライトの１つ内の少なくとも１つのターゲットのクローズアップを提供する、
ように更に構成される、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、前記少なくとも１つの静止デバイスの前記プロセッサは、前記画像の前記検出結果に従って、前記通信トランシーバを介して送信要求を送信し、前記コンピューティングデバイスは、複数の前記送信要求をスケジューリングして、かつそれに従って、送信許可を発出し、前記プロセッサは、前記送信許可に従って、前記通信トランシーバを介して前記画像を送信する、自動映像編集システム。
請求項９に記載の自動映像編集システムであって、前記少なくとも１つの画像キャプチャデバイスは、第１の画像コードストリーム及び第２の画像コードストリームを生成し、前記第１の画像コードストリームの解像度は、前記第２の画像コードストリームの解像度より高く、前記プロセッサは、第２の画像ストリーム中の少なくとも１つのターゲット又は少なくとも１つのターゲットイベントを識別して前記画像の前記検出結果を生成し、前記プロセッサは、前記画像の前記検出結果に従って、前記第１の画像コードストリームを格納し、前記送信許可を得ることに応じて、前記プロセッサは、前記通信トランシーバを介して前記第１の画像コードストリームを送信する、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、複数の静止デバイスを備え、前記通信トランシーバは、指向性アンテナを備え、かつ前記静止デバイスの１つの前記指向性アンテナは、前記静止デバイスの別の前記指向性アンテナとラインオブサイト（ＬＯＳ）伝搬を確立する、自動映像編集システム。
請求項１に記載の自動映像編集システムであって、前記通信トランシーバは、伝送品質を維持するために、チャネル変化に従って、少なくとも１つの通信パラメータを変更する、自動映像編集システム。
自動映像編集方法であって、該方法は、以下のステップ、すなわち：
少なくとも１つの画像キャプチャデバイスを介して複数の画像を取得するステップと；
前記画像の検出結果に従って、前記画像及び前記検出結果を送信するステップと；
前記画像及び前記画像の前記検出結果に従って、複数の映像素材を選択するステップと；
前記映像素材を編集して、映像クリップ集を生成するステップと；
を備える、方法。