JP2023107729A - 自動映像編集システム及び方法 - Google Patents

自動映像編集システム及び方法 Download PDF

Info

Publication number
JP2023107729A
JP2023107729A JP2022169557A JP2022169557A JP2023107729A JP 2023107729 A JP2023107729 A JP 2023107729A JP 2022169557 A JP2022169557 A JP 2022169557A JP 2022169557 A JP2022169557 A JP 2022169557A JP 2023107729 A JP2023107729 A JP 2023107729A
Authority
JP
Japan
Prior art keywords
image
editing system
video editing
video
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022169557A
Other languages
English (en)
Inventor
富貴 陳
Fu-Kuei Chen
友光 王
You Quang Wang
信標 林
Hsin-Piao Lin
▲ホン▼睿 劉
Hung-Jui Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osense Technology Co Ltd
Original Assignee
Osense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osense Technology Co Ltd filed Critical Osense Technology Co Ltd
Publication of JP2023107729A publication Critical patent/JP2023107729A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】スポーツイベント等の自動中継を実現するように自動記録及び自動編集を実行する自動映像編集システム及び方法を提供する。【解決手段】1つ以上の静止デバイス10とネットワーク接続するコンピューティングデバイス20と、コンピューティングデバイスとコアネットワークで接続するクラウドサーバ30と、を含む自動映像編集システムにおいて、充電器又は電源回路、ソーラーパネル、バッテリー、電力変換器、通信トランシーバ、1つ以上の画像キャプチャデバイス、ストレージ及びプロセッサを含む静止デバイスは、現場に配備され、1つ以上の画像キャプチャデバイスを介して、1つ以上の画像を取得し、画像の検出結果に従って、画像及び画像の検出結果を送信する。コンピューティングデバイスは、受信した画像及びその検出結果に従って、複数の映像素材を選択して映像素材を編集し、映像素材集を生成する。【効果】人手を削減できる。【選択図】図1

Description

本発明は、画像処理技術に関し、より詳細には、自動映像編集システム及び方法に関するものである。
いくつかのスポーツイベントの放送は、選手のエキサイティングな動きを見逃さないように、様々な位置で撮影するために多くの人手を必要とする。また、人によって捉えられない場合がある画角のために、空中カメラ及びロボットアームなどのような補助的な機械が必要となる場合もある。
ゴルフを例にとると、世界249カ国に38000以上のゴルフ場があり、そのうちアメリカが最も多く、日本が2番目に多く、カナダが3番目に多い。トーナメントの放送は、世界の視聴者の注目を集める。ゴルフ中継には多くの人手が必要で、定点撮影のために高倍率カメラが設置され、空からの撮影のために空中カメラが提供され、撮影は選手を追いかける必要がある。試合前の配線、試合中の撮影、及び試合後の会場からの回収は、全て多くの人手及び資材が必要である。それゆえに、放送だけではコストがかかると見ることもできる。
従って、本発明の実施形態は、自動中継を実現するように、自動記録及び自動編集を提供する自動映像編集システム及び方法を提供し、それによって人手を削減可能とするものである。
本発明の実施形態の自動映像編集システムは、1つ以上の静止デバイスと、コンピューティングデバイスと、を含む(ただし、これらに限定されるものではない)。各静止デバイスは、1つ以上の画像キャプチャデバイス、通信トランシーバ、及びプロセッサを含む(ただし、これらに限定されるものではない)。前記画像キャプチャデバイスは、1つ以上の画像を取得するように構成される。前記通信トランシーバは、信号を送信又は受信するように構成される。前記プロセッサは、前記画像キャプチャデバイス及び前記通信トランシーバに結合される。前記プロセッサは、前記画像の検出結果に従って、前記通信トランシーバを介して前記画像及び前記検出結果を送信するように構成される。コンピューティングデバイスは、前記画像及びその前記検出結果に従って、複数の映像素材を選択するように構成される。前記映像素材を編集し、映像クリップ集を生成する。
本発明の実施形態の自動映像編集方法は:1つ以上の画像キャプチャデバイスを介して、1つ以上の画像を取得するステップと;前記画像の検出結果に従って、前記画像及び前記検出結果を送信するステップと;前記画像及びその前記検出結果に従って、複数の映像素材を選択するステップと;前記映像素材を編集して、映像クリップ集を生成するステップと;を含む(ただし、これらに限定されるものではない)。
上記に基づいて、本発明の実施の形態に係る自動映像編集システム及び方法によれば、多数の場所に配備された静止デバイスが異なる画角からの画像を撮影し、かつその画像が自動編集処理のために、コンピューティングデバイスに送信される。視聴者の視覚体験及び娯楽性を高めることに加えて、現場モニタリングも行うことによって、様々なタイプの分野のデジタルトランスフォーメーションを促進することができる。
本開示の前述の特徴及び利点をより理解しやすくするために、図を伴う実施形態が以下に詳細に説明される。
本発明の一実施形態による自動映像編集システムの概略図である。 本発明の一実施形態による静止デバイスの要素のブロック図である。 本発明の一実施形態による静止デバイスの概略透視図及び部分拡大図である。 本発明の一実施形態による自動映像編集方法のフローチャートである。 本発明の一実施形態によるハイライト生成のフローチャートである。 本発明の一実施形態による検出のフローチャートである。 本発明の一実施形態による特徴マッチングのフローチャートである。 本発明の一実施形態による画像フィルタリングの概略図である。 本発明の一実施形態によるマルチストリーミングのフローチャートである。 本発明の実施形態によるデバイス配備の概略図である。 本発明の一実施形態によるラインオブサイト(LOS)伝搬の概略図である。
図1は、本発明の一実施形態による自動映像編集システム1の概略図である。図1を参照すると、自動映像編集システム1は、1つ以上の静止デバイス10と、コンピューティングデバイス20と、クラウドサーバ30と、を含む(ただし、これらに限定されるものではない)。
図2は、本発明の一実施形態による静止デバイス10の要素のブロック図である。図2を参照すると、静止デバイス10は、充電器又は電源回路11、ソーラーパネル12、バッテリー13、電力変換器14、通信トランシーバ15、1つ以上の画像キャプチャデバイス16、ストレージ17、及びプロセッサ18を含む(ただし、これらに限定されるものではない)。
充電器又は電源回路11は、静止デバイス10内の電子要素に電力を供給するように構成される。一実施形態では、充電器又は電源回路11は、ソーラーパネル12及び/又はバッテリー13に接続され、自律型電力供給を実現する。図3は、本発明の一実施形態による静止デバイス10の概略透視図及び部分拡大図である。図3を参照して、静止デバイス10が柱状であると仮定すると(ただし、この形状に限定されない)、ソーラーパネル12は、4面又は地面に設けられてもよい(ただし、この配置位置に限定されない)。他の実施形態では、充電器又は電源回路11もまた、商用電力又は他のタイプの電源に接続されていてもよい。
電力変換器14は、(随意で)充電器又は電源回路11に結合され、かつ電圧、電流、位相、又は他の電力特性変換を提供するように構成される。
通信トランシーバ15は、電力変換器14に結合される。通信トランシーバ15は、1つ以上の世代のWi-Fi、第4世代(4G)、第5世代(5G)、又は他の世代のモバイルネットワークをサポートする無線ネットワークトランシーバとすることができる。一実施形態では、通信トランシーバ15は、アンテナ、増幅器、ミキサー、フィルタなどのような1つ以上の回路を更に含む。通信トランシーバ15のアンテナは、指向性アンテナ又は指定されたビームを生成するように構成されるアンテナアレイとすることができる。一実施形態では、通信トランシーバ15は、信号を送信又は受信するように構成される。
画像キャプチャデバイス16は、カメラ、ビデオカメラ、モニタ、スマートフォン、又は画像キャプチャ機能を有する回路とすることができ、かつ特定の視野内の画像を適宜、キャプチャする。一実施形態では、静止デバイス10は、同一視野又は異なる視野の画像をキャプチャするように構成された複数の画像キャプチャデバイス16を含む。図3を例とすると、2つの画像キャプチャデバイス16は、2眼カメラを形成する。いくつかの実施形態では、画像キャプチャデバイス16は、4K、8K、又はより高い品質の画像をキャプチャしてもよい。
ストレージ17は、固定又は可動のランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、従来のハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、又は同様のデバイスの任意の形態であってよい。一実施形態では、ストレージ17は、コード、ソフトウェアモジュール、設定、データ(例えば、画像、検出結果など)又はファイルを格納するように構成され、かつその実施形態は後で詳細に説明される。
プロセッサ18は、電力変換器14、通信トランシーバ15、画像キャプチャデバイス16、及びストレージ17に結合される。プロセッサ18は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、若しくは他のプログラマブル汎用又は特殊用途マイクロプロセッサ、デジタル信号プロセッサ(DSP)、プログラマブルコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、ニューラルネットワーク加速器、若しくは他の同様のデバイス若しくは上記デバイスの組合せであってもよい。一実施形態では、プロセッサ18は、静止デバイス10の動作の全て又は一部を実行するように構成され、かつストレージ17に格納された様々なコード、ソフトウェアモジュール、ファイル、及びデータをロード及び実行してもよい。いくつかの実施形態では、プロセッサ18の機能は、ソフトウェア又はチップによって実装されてもよい。
コンピューティングデバイス20及びクラウドサーバ30は、スマートフォン、タブレットコンピュータ、サーバ、クラウドホスト、又はコンピュータホストとすることができる。コンピューティングデバイス20は、ネットワーク2を介して静止デバイス10に接続される。コンピューティングデバイス20は、コアネットワーク3を介してクラウドサーバ30に接続される。いくつかの実施形態では、コンピューティングデバイス20の機能の一部又は全部は、クラウドサーバ30に実装されてもよい。
以下、スマートシステム1中の様々なデバイス、要素、及びモジュールを用いて、本実施形態で説明する方法について説明する。本方法の処理の各々は、実施形態の条件に従って調整してもよく、これに限定されるものではない。
図4は、本発明の一実施形態による自動映像編集方法のフローチャートである。図4を参照すると、1つ以上の静止デバイス10のプロセッサ18は、1つ以上の画像キャプチャデバイス16を介して、1つ以上の画像を取得する(ステップS410)。具体的には、複数の静止デバイス10が現場(例えば、球場、競走場、スタジアム、又は河川敷公園)に配備される。静止デバイス10は、1つ以上のカメラレンズを有する。異なる位置及び/又は異なる撮影角度を使用して撮影範囲が拡大され、かつそれに従って画像が撮影される。
一実施形態では、プロセッサ18は、画像キャプチャデバイス16の画角に従って画像キャプチャデバイス16の画像をステッチしてもよい。例えば、単一の静止デバイス10によって同じ時点に得られた異なる撮影角度の画像は、一緒にステッチされる。それゆえに、固定レンズを使用することは、レンズの角度を調整するための電力を節約することができる。太陽光発電又は電池を用いてでさえ、電力はまだ十分に足りる。
プロセッサ18は、画像の検出結果に従って、画像及び検出結果を送信する(ステップS420)。具体的には、イベントの放送では、視聴者の関心を高めるために、ハイライトを特集することがよくある。静止デバイス10によってキャプチャされたいくつかの画像は、選手の状態、車の状態、又は動きの状態を有さない場合がある。膨大な数の画像は、計算負荷及びネットワーク負荷を引き起こす。それゆえに、静止デバイス10は、検出結果に従って、画像の全部又は一部を選択し、かつ選択した画像及び対応する検出結果のみを送信するようにしてもよい。
図5は、本発明の一実施形態によるハイライト生成のフローチャートである。図5を参照すると、静止デバイス10の各々によってキャプチャされた画像IM1~IM1(M局と仮定、Mは正の整数)に対して、プロセッサ18の各々は、静止デバイスの各々の画像の検出結果D1~D1を生成するために、1つ以上のターゲットの位置、特徴、及び/又は状態を、それぞれ検出する(ステップS510)。
ターゲットは、選手、車両、動物、又は任意の特定されたオブジェクトであってよい。画像中のオブジェクト検出のためのアルゴリズムは多数存在する。特徴は、ターゲット上の器官、要素、領域、又は点であってもよい。状態は、歩行、スイング、打撃、又は転倒などのような特定の運動動作であってもよい。
一実施形態では、プロセッサ18は、検出モデルを介して画像の検出結果を決定してもよい。検出モデルは、YOLO(You Only Look Once)、SSD(Single Shot Detector)、ResNet、CSPNet、BiFPN、及びR-CNNなどのような機械学習アルゴリズムを介して訓練される。オブジェクト検出は、ターゲットのタイプ又は挙動、及びをその位置のマーキーを識別してもよい。
図6は、本発明の一実施形態による検出のフローチャートである。図6を参照すると、検出モデルへの入力は、画像情報(例えば、特定の色空間(例えば、RGB(赤-緑-青)又はHSV(色-飽和-明度))に対する入力特徴マップ)である。プロセッサ18は、検出モデルを介して、ターゲットオブジェクト又はイベント検出(ステップS511)、特徴点検出(ステップS512)、及び/若しくは状態識別(ステップS513)を行い、かつそれに従って位置、状態、及び特徴点を出力してもよい。
検出モデルに使用されるニューラルネットワークは、複数の演算層を含んでいてもよい。検出モデルを軽量化するために、検出モデル中の1つ以上の演算層が調整されてもよい。一実施形態では、不要な演算層又はそのチャンネルの一部が削除されてもよく、モデルの深さ及び幅が低減されてもよく、及び/又は畳み込み層などのような演算層が調整されてもよい(例えば、深さ方向の畳み込み層に変更し、N*N畳み込み層、アクティベーション層及びバッチ正規化層(Nは正の整数)などのような演算層とマッチングさせること、及び演算層間の接続方法も変更する場合があり、例えばスキップ接続などの技法がある)。調整メカニズムは、モデルの計算複雑性を低減させ、かつ良好な精度を維持する。一実施形態では、調整された軽量モデルに対して、検出されたフィールドデータが追加され、モデルを再最適化/訓練する。プロセッサ18の特性に従って、検出モデルの内部重みデータは、データ量子化などのように修正される;ソフトウェア及びハードウェアのデータストリームは、ディープストリーム技術などのように、信号処理速度を向上させるために追加される。軽量モデルは、より悪い演算能力を有するエッジコンピューティングデバイスに適用することができるが、本発明の実施形態は、軽量モデルを適用するデバイスの演算能力に限定するものではない。
一実施形態では、静止デバイス10のプロセッサ18は、画像の検出結果に従って、通信トランシーバ15を介して、送信要求を送信してもよい。プロセッサ18は、検出結果が送信条件を満たすかを判定してもよい。送信条件は、画像内に特定のオブジェクト及び/又はその挙動が存在することであってもよい。例には、選手A、選手がスイング、選手がパス、及び追い越しを含む。検出結果が送信条件を満たす場合、静止デバイス10は、ネットワーク2を介して、送信要求をコンピューティングデバイス20に送信する。検出結果が送信条件を満たさない場合、静止デバイス10は、送信要求をコンピューティングデバイス20に送信できない/しない。
コンピューティングデバイス20は、複数の送信要求をスケジューリングし、かつそれに従って送信許可を発出する。例えば、画像の撮影時間に従って送信要求を順次スケジューリングする。別の例では、検出結果内の特定のターゲット又はターゲットイベントに対する優先順位を提供するものである。コンピューティングデバイス20は、スケジューリング結果に従って、対応する静止デバイス10に送信許可を順次発出する。
静止デバイス10のプロセッサ18は、送信許可に従って、通信トランシーバ15を介して画像及び検出結果を送信してもよい。すなわち、送信許可が得られた後にのみ、画像を送信する。送信許可が得られるまでは、画像を送信できない/されない。それにより、帯域幅を有効に利用することができる。
図4を参照すると、コンピューティングデバイス20は、画像及び画像の検出結果に従って、複数の映像素材を選択する(ステップS430)。具体的には、図5を参照すると、画像IM1~IM1及び検出結果D1~D1をコンピューティングデバイス20に送信した後(ステップS520)、まず画像データベース40に一時的に格納してもよい。コンピューティングデバイス20は、異なるターゲットを再識別して(ステップS530)、ターゲットに対する画像を分類し、かつ分類された画像をターゲットの映像素材IM2及びIM2~IM2として使用してもよい。
図7は、本発明の一実施形態による特徴マッチングのフローチャートである。図7を参照すると、コンピューティングデバイス20は、異なる静止デバイス10(例えば、静止デバイス_0、静止デバイス_1・・・又は静止デバイス_M)からの画像内の1つ以上のターゲット、静止デバイス10の位置、及び画像時刻に従って、ターゲットの映像素材IM2及びIM2~IM2を決定してもよい(ステップS530)。例えば、選手Aの試合全体画像又は選手Bの試合全体画像が時系列に統合される。別の例として、選手Bがグリーンに移動すると、コンピューティングデバイス20は、グリーンに近い静止デバイス10の映像素材を選択する。
一実施形態では、コンピューティングデバイス20は、検出モジュール又は別の検出モデルを介してターゲット又はターゲットイベントを識別し、かつそれに従って画像の分類結果を決定してもよい。すなわち、画像中のターゲット又はターゲットイベントに従って、画像が属するグループが決定される。例えば、連続した画像から選手Cが特定され、画像は選手Cのグループに分類される。それにより、フィールド内の異なるターゲットを効果的に区別することができる。他の実施形態では、コンピューティングデバイス20は、分類のために静止デバイス10の検出結果(例えば、オブジェクト検出のタイプ識別)を直接使用してもよい。
一実施形態では、コンピューティングデバイス20は、画像時刻に従って、各ターゲットの画像をフィールド全体の画像に統合してもよい。
いくつかの実施形態では、コンピューティングデバイス20によって使用される検出モジュールは、重みを低減させる、すなわち、ニューラルネットワーク中の演算層及び内部重みデータの調整も行なってよい。
図4を参照すると、コンピューティングデバイス20は、映像素材を編集して1つ以上の映像クリップ集を生成する(ステップS440)。具体的には、映像素材は、まだ異なるターゲットに対する映像のみである。しかしながら、通常の放送では、異なるターゲット間を切り替える場合がある。なお、本発明の実施形態では、冗長な情報を自動的にフィルタリングし、ハイライトのみを出力することが期待される。さらに、編集には、画像の切り抜き、トリミング、修正、拡大縮小、スタイルの適用、スムージングなどが含まれてもよい。
図5を参照すると、一実施形態では、コンピューティングデバイス20は、1つ以上の映像コンテンツのプリファレンスに従って、映像素材IM2~IM2中の複数のハイライトIM3及びIM3~IM3を選択してもよい(ステップS540)。映像コンテンツのプリファレンスは、例えば、ボールを打つ瞬間、ホールインの過程、追い越しの瞬間、及び投球の過程である。映像コンテンツのプリファレンスは、アプリケーションのシナリオにより変更されてもよく、本発明の実施形態により限定されるものではない。映像クリップ集は、1つ以上のハイライトIM及びIM3~IM3の集まりであり、かつハイライトIM3及びIM3~IM3の一部又は全部の画面サイズ又はコンテンツを適宜調整してもよい。
一実施形態では、コンピューティングデバイス20は、映像クリップ集を出力するために、映像素材を編集モデルに入力してもよい。編集モデルは、機械学習アルゴリズム(例えば、深層学習ネットワーク、ランダムフォレスト、又はサポートベクターマシン(SVM))により訓練される。機械学習アルゴリズムは、パターンを介して未知のデータを予測するように、トレーニングサンプルを分析して、そこからパターンを得てもよい。検出モデルは、学習後に構築された機械学習モデルであり、かつ評価されるべきデータに基づいて推論が行われる。一実施形態では、編集モデルは、テスト画像及びその既知の画像コンテンツのプリファレンスを学習サンプルとして使用する。このようにして、編集モデルは、映像素材からハイライトを選択し、かつそれに従って、映像クリップ集に連結することができる。
一実施形態では、コンピューティングデバイス20は、各ハイライトから冗長なコンテンツをフィルタリングしてもよい。冗長なコンテンツは、ターゲット以外の他のオブジェクト、シーン、パターン、又は単語であってもよい。フィルタリングの方法は、直接的に切り取る方法であってもよいし、又は背景色に変更する方法であってもよい。例えば、図8は、本発明の一実施形態による画像フィルタリングの概略図である。図8を参照すると、コンピューティングデバイス20は、画像からターゲットの位置をフレーム化し、かつフレーム選択範囲をフォーカス範囲FAとして使用する。コンピューティングデバイス20は、フォーカス範囲FAの外側の画像をトリミングしてもよい。
一実施形態では、フォーカス範囲FAは、ターゲットと共に移動してもよい。例えば、フォーカス範囲FAの位置は、オブジェクトトラッキング技法を介して更新される。また、オブジェクトトラッキングのためのアルゴリズムは多数ある。例としては、オプティカルフロー、ソーティング法SORT(Simple Online and Realtime Tracking)、又はディープソーティング法(Deep SORT)、並びにジョイント検出及び埋め込み(JDE)を含む。
一実施形態では、コンピューティングデバイス20は、ハイライト内の1つ以上のターゲットのクローズアップを提供してもよい。例えば、コンピューティングデバイス20は、ターゲット又はその一部が画像のほぼ一定の割合(例えば、70、60、又は50パーセント)を占めるように、画像内のターゲットの割合(すなわち、画像スケーリング)に基づいて、画像内のターゲットをズームイン又はズームアウトしてもよい。このようにして、クローズアップ効果が達成され得る。
いくつかの実施形態では、編集モデルは、画像フィルタリング及び/又はターゲットクローズアップについて訓練される。例えば、編集モデルは、テスト画像及び既知のフィルタリング結果並びに/又はそのクローズアップパターンをトレーニングサンプルとして使用する。
一実施形態では、編集モデルの訓練中に、コンピューティングデバイス20は、画像内の1つ以上のターゲットの位置と1つ以上のカメラ移動効果との間の関係を確立してもよい。例えば、ターゲットが左右に移動する場合、左右の並進カメラ移動が提供される。ターゲットが前後に移動する場合は、ズームイン又はズームアウトのカメラ移動が提供される。このようにして、映像素材を入力することによって、それに対応したカメラ移動効果を出力することができる。
一実施形態では、編集モデルのトレーニング中に、コンピューティングデバイス20は、1つ以上のターゲットと1つ以上のスクリプトとの間の関係を確立してもよい。このように、映像素材を入力することによって、スクリプトに即した映像クリップ集が出力されてもよい。例えば、3番ホールで、選手Dのスイング中に、選手Dの正面、側面、背面の映像が順次撮影される。スクリプトは、アプリケーションのコンテキストに依存して異なる場合があることに留意されたい。例えば、レーシングカーのコンテキストは、ドライバーの画角、トラック前方の画角、トラック側面の画角の切り替えであってもよい。さらに、スクリプトは、テキスト又は絵コンテに記録されてもよい。このようにして、ハイライトを映像クリップ集に形成することができる。
一実施形態では、映像クリップ集は、ユーザによる閲覧又はダウンロードのために、コアネットワーク3を介して、クラウドサーバ30にアップロードされてもよい。さらに、コンピューティング及び/又はネットワーク速度が許す場合、リアルタイム放送機能もまた実現されてもよい。
いくつかの実施形態では、クラウドサーバ30は、試合を更に分析し、コーチングコンサルティング又はフィールドモニタリングなどのような追加のアプリケーションを提供することさえしてもよい。
送信スケジュールに加えて、本発明の一実施形態は、分散型画像キャプチャ及び一時的な保存もまた提供する。図9は、本発明の一実施形態によるマルチストリーミングのフローチャートである。図9を参照すると、一実施形態では、1つ以上の画像キャプチャデバイス16が画像キャプチャを行い、かつ第1の画像コードストリームFVS及び第2の画像コードストリームSVSを生成する。第1の画像コードストリームFVSの解像度は、第2の画像コードストリームSVSの解像度より高い。例えば、第1の画像コードストリームFVSの解像度は、4K、800万画素であり、かつ第2の画像コードストリームSVSの解像度は、720P、200万画素である。第1の画像コードストリームFVS及び第2の画像コードストリームSVSは、ネットワークインターフェースの物理層を介してプロセッサ18に送信される。
プロセッサ18は、画像検出結果を生成するために、第2の画像ストリームSVS中の1つ以上のターゲット又は1つ以上のターゲットイベントを識別するだけでよい。具体的には、プロセッサ18は、第2の画像ストリームSVSを復号化してもよい(ステップS910)。例えば、第2の画像コードストリームSVSがH.265によって符号化されている場合、第2の画像コードストリームSVSを復号した後に、1つ以上の画像フレームのコンテンツを得てもよい。プロセッサ18は、画像フレームを前処理してもよい(ステップS920)。例としては、コントラスト強調、デノイズ、及びスムージングを含む。プロセッサ18は、画像フレームを検出してもよい(ステップS930)。すなわち、ステップS420は、ターゲットの位置、特徴、及び/又は状態を検出するためのものである。一実施形態では、プロセッサ18はまた、画像内に関心領域を設定し、関心領域内のターゲットのみを検出してもよい。一実施形態では、ネットワークインターフェースが送信に使用される場合、プロセッサ18は、画像キャプチャデバイス16及びプロセッサ18のネットワーク位置を設定してもよい。
プロセッサ18は、画像の検出結果に従って、第1の画像コードストリームFVSを格納してもよい。ターゲットが検出された場合、プロセッサ18は、画像フレームに対応する第1の画像ストリームFVSをストレージ17若しくは他の記憶装置(例えば、フラッシュドライブ、SDカード、又はデータベース)に一時的に格納する(ステップS940)。ターゲットが検出されない場合、プロセッサ18は、画像フレームに対応する第1の画像コードストリームFVSを削除、廃棄、又は無視する。さらに、必要な場合、検出結果に従って、検出モデルのデバッグを行うようにしてもよい(ステップS950)。
その後、プロセッサ18は、通信トランシーバ15を介して、送信要求を送信してもよい。送信許可を得ることに応じて、プロセッサ18は、通信トランシーバ15を介して、一時的に格納された第1の画像コードストリームFVSを送信する。コンピューティングデバイス20は、順次映像素材を選択し、かつ第1の画像ストリームFVSの映像クリップ集を生成してもよい。
送信のためのリソース割り当てに関して、図10は、本発明の実施形態によるデバイス配備の概略図である。図10を参照すると、コンピューティングデバイス20は、静止デバイス10の各々によって送信された送信要求に従って無線リソースを割り当て、かつ静止デバイス10のうちのどれが送信許可を得てよいかを決定してもよい。上述したように、静止デバイス10は、画像の送信を開始することができる前に、送信許可を得る必要がある。
また、注目すべきことは、図10に示すように、静止デバイス10は、ポイントツーポイント送信、すなわち静止デバイス10間の送信を行なう場合があることである。静止デバイス10のいくつかは、遠方からコンピューティングデバイス20に画像を順次送信する中継局として使用される。
図11は、本発明の一実施形態によるラインオブサイト(LOS)伝搬の概略図である。図11を参照すると、静止デバイス10の通信トランシーバ15は、指向性アンテナを更に含む。静止デバイス10の指向性アンテナは、別の静止デバイス10の指向性アンテナとラインオブサイト(LOS)伝搬を確立する。障害は、送信損失に影響を与え、かつ送信を助長しない。アンテナの放射方向については、障害がない、又は障害物がほとんどないエリアに向けてもよく、このエリアに別の静止デバイス10を配備してもよい。図11に示すように、静止デバイス10間のラインオブサイトは、Z字型又はジグザグ型の接続を形成し、それにより、伝送品質を向上させることができる。
また、注目すべきことは、画像送信のためのモバイルネットワークを使用は、高い料金が発生する場合があることである。光ファイバーネットワークの料金は、比較的低い場合があるが、有線送信の配線コストは無視できない可能性がある。本発明の一実施形態では、ポイントツーポイント送信のためにWi-Fiの一部を指向性アンテナと組み合わせて、かつその後、モバイルネットワークを介して外部ネットワークに送信する。産業科学医療用(Industrial Scientific Medical:ISM)周波数帯では、オープンフィールドを自然の無線送信チャネルとして使用することで、無線送信効果の向上及びコストダウンができる場合がある。
一実施形態では、通信トランシーバ15は、伝送品質を維持するために、チャネル変化に従って、1つ以上の通信パラメータ(例えば、利得、位相、符号化、又は変調)を変更してもよい。例えば、信号強度は、ある閾値より高く維持される。
上記に基づいて、本発明の実施形態の自動映像編集システム及び方法では、ターゲットを自動的に検出し、電源内蔵型であり、画像の送信をスケジュールし、映像素材を自動的に選択し、かつハイライトに関連する映像クリップ集を生成する静止デバイスが配備される。さらに、無線伝送のために、ラインオブサイト(LOS)伝搬が提供される。それにより、人手が排除され、かつユーザの視聴体験が改善され得る。
本発明は、上記の実施形態を参照して説明されてきたが、本発明の精神から逸脱することなく、説明された実施形態に対する変更がなされ得ることは、当業者には明らかであろう。従って、本発明の範囲は、上記の詳細な説明ではなく、添付の特許請求の範囲によって定義される。
本発明の自動映像編集システム及び方法は、画像処理技術に適用することができる。
1 自動映像編集システム
2 ネットワーク
3 コアネットワーク
10 静止デバイス
11 充電器又は電源回路
12 ソーラーパネル
13 バッテリー
14 電力変換器
15 通信トランシーバ
16 画像キャプチャデバイス
17 ストレージ
18 プロセッサ
20 コンピューティングデバイス
30 クラウドサーバ
40 画像データベース
IM1~IM1 画像
IM2、IM2~IM2 映像素材
IM3、IM3~IM3 ハイライト部分
D1~D1 検出結果
FA フォーカス範囲
FVS 第1の画像コードストリーム
SVS 第2の画像コードストリーム

Claims (13)

  1. 自動映像編集システムであって、該システムは:
    少なくとも1つの静止デバイスであって、該静止デバイスの各々は、
    複数の画像を取得するように構成された少なくとも1つの画像キャプチャデバイス、
    信号を送信又は受信するように構成された通信トランシーバ、並びに
    少なくとも1つの画像キャプチャデバイス及び通信トランシーバに結合され、かつ前記画像の検出結果に従って前記通信トランシーバを介して、前記画像及び前記検出結果を送信するように構成されたプロセッサ、
    を備える、少なくとも1つの静止デバイスと;
    コンピューティングデバイスであって,該コンピューティングデバイスは、
    前記画像及び前記画像の前記検出結果に従って複数の映像素材を選択し、かつ
    前記映像素材を編集し、映像クリップ集を生成する、
    ように構成される,コンピューティングデバイスと;
    を備える、自動映像編集システム。
  2. 請求項1に記載の自動映像編集システムであって、前記静止デバイスの1つは、複数の前記画像キャプチャを備え、かつ前記プロセッサは、
    前記画像キャプチャデバイスの画角に従って、前記画像キャプチャデバイスの画像をステッチする、
    ように更に構成される、自動映像編集システム。
  3. 請求項1に記載の自動映像編集システムであって、前記静止デバイスの1つは、充電器又は電源回路を備え、かつ前記充電器又は前記電源回路は、ソーラーパネル又はバッテリーに接続される、自動映像編集システム。
  4. 請求項1に記載の自動映像編集システムであって、前記コンピューティングデバイスは、
    前記映像クリップ集を出力するために前記映像素材を編集モデルに入力し、前記編集モデルを、機械学習アルゴリズムによって訓練する、
    ように更に構成される、自動映像編集システム。
  5. 請求項4に記載の自動映像編集システムであって、前記コンピューティングデバイスは、
    前記編集モデルのトレーニングにおいて
    前記画像のうちの1つ中の少なくとも1つのターゲットの位置と、少なくとも1つのモーション効果との間の関係を確立、又は
    前記少なくとも1つのターゲットと、少なくとも1つのスクリプトとの間の関係を確立する、
    ように更に構成される、自動映像編集システム。
  6. 請求項1に記載の自動映像編集システムであって、複数の静止デバイスを備え、前記画像の前記検出結果は、少なくとも1つのターゲットの位置、特徴、及び状態のうちの少なくとも1つを含み、かつ前記コンピューティングデバイスは、
    前記画像中の前記少なくとも1つのターゲット、前記静止デバイスの位置、及び画像時刻に従って、前記少なくとも1つのターゲットの映像素材を決定する、
    ように更に構成される、自動映像編集システム。
  7. 請求項6に記載の自動映像編集システムであって、前記プロセッサは、
    検出モデルを介して前記画像の前記検出結果を決定し、前記検出モデルは、機械学習アルゴリズムを介して訓練され、かつ
    前記検出モデル中の少なくとも1つの演算層を調整する、
    ように更に構成される、自動映像編集システム。
  8. 請求項1に記載の自動映像編集システムであって、前記コンピューティングデバイスは、
    少なくとも1つの画像コンテンツのプリファレンスに従って、前記映像素材内の複数のハイライトを選択し、かつ
    前記ハイライトの各々から冗長なコンテンツをフィルタリングするか、又は前記ハイライトの1つ内の少なくとも1つのターゲットのクローズアップを提供する、
    ように更に構成される、自動映像編集システム。
  9. 請求項1に記載の自動映像編集システムであって、前記少なくとも1つの静止デバイスの前記プロセッサは、前記画像の前記検出結果に従って、前記通信トランシーバを介して送信要求を送信し、前記コンピューティングデバイスは、複数の前記送信要求をスケジューリングして、かつそれに従って、送信許可を発出し、前記プロセッサは、前記送信許可に従って、前記通信トランシーバを介して前記画像を送信する、自動映像編集システム。
  10. 請求項9に記載の自動映像編集システムであって、前記少なくとも1つの画像キャプチャデバイスは、第1の画像コードストリーム及び第2の画像コードストリームを生成し、前記第1の画像コードストリームの解像度は、前記第2の画像コードストリームの解像度より高く、前記プロセッサは、第2の画像ストリーム中の少なくとも1つのターゲット又は少なくとも1つのターゲットイベントを識別して前記画像の前記検出結果を生成し、前記プロセッサは、前記画像の前記検出結果に従って、前記第1の画像コードストリームを格納し、前記送信許可を得ることに応じて、前記プロセッサは、前記通信トランシーバを介して前記第1の画像コードストリームを送信する、自動映像編集システム。
  11. 請求項1に記載の自動映像編集システムであって、複数の静止デバイスを備え、前記通信トランシーバは、指向性アンテナを備え、かつ前記静止デバイスの1つの前記指向性アンテナは、前記静止デバイスの別の前記指向性アンテナとラインオブサイト(LOS)伝搬を確立する、自動映像編集システム。
  12. 請求項1に記載の自動映像編集システムであって、前記通信トランシーバは、伝送品質を維持するために、チャネル変化に従って、少なくとも1つの通信パラメータを変更する、自動映像編集システム。
  13. 自動映像編集方法であって、該方法は、以下のステップ、すなわち:
    少なくとも1つの画像キャプチャデバイスを介して複数の画像を取得するステップと;
    前記画像の検出結果に従って、前記画像及び前記検出結果を送信するステップと;
    前記画像及び前記画像の前記検出結果に従って、複数の映像素材を選択するステップと;
    前記映像素材を編集して、映像クリップ集を生成するステップと;
    を備える、方法。
JP2022169557A 2022-01-24 2022-10-24 自動映像編集システム及び方法 Pending JP2023107729A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202263302129P 2022-01-24 2022-01-24
US63/302,129 2022-01-24
TW111116725A TWI791402B (zh) 2022-01-24 2022-05-03 自動影片剪輯系統及方法
TW111116725 2022-05-03

Publications (1)

Publication Number Publication Date
JP2023107729A true JP2023107729A (ja) 2023-08-03

Family

ID=86689091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022169557A Pending JP2023107729A (ja) 2022-01-24 2022-10-24 自動映像編集システム及び方法

Country Status (4)

Country Link
US (1) US20230238034A1 (ja)
JP (1) JP2023107729A (ja)
CN (1) CN116546286A (ja)
TW (1) TWI791402B (ja)

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004112153A (ja) * 2002-09-17 2004-04-08 Fujitsu Ltd 映像処理システム
US8711224B2 (en) * 2007-08-06 2014-04-29 Frostbyte Video, Inc. Image capture system and method
GB2465538B (en) * 2008-08-01 2013-03-13 Sony Corp Method and apparatus for generating an event log
US20100182436A1 (en) * 2009-01-20 2010-07-22 Core Action Group, Inc. Venue platform
US8023899B2 (en) * 2009-04-30 2011-09-20 Bandspeed, Inc. Approach for selecting communications channels in communication systems to avoid interference
US9443556B2 (en) * 2009-07-01 2016-09-13 E-Plate Limited Video acquisition and compilation system and method of assembling and distributing a composite video
TWI486792B (en) * 2009-07-01 2015-06-01 Content adaptive multimedia processing system and method for the same
US8929709B2 (en) * 2012-06-11 2015-01-06 Alpinereplay, Inc. Automatic digital curation and tagging of action videos
US20140002663A1 (en) * 2012-06-19 2014-01-02 Brendan John Garland Automated photograph capture and retrieval system
TWI502558B (zh) * 2013-09-25 2015-10-01 Chunghwa Telecom Co Ltd Traffic Accident Monitoring and Tracking System
US20170125064A1 (en) * 2015-11-03 2017-05-04 Seastar Labs, Inc. Method and Apparatus for Automatic Video Production
JP7037056B2 (ja) * 2018-06-29 2022-03-16 日本電信電話株式会社 制御装置及び制御方法
US11144749B1 (en) * 2019-01-09 2021-10-12 Idemia Identity & Security USA LLC Classifying camera images to generate alerts
CN110533752B (zh) * 2019-07-23 2023-04-07 深圳大学 一种人体动作编辑模型的生成方法、存储介质及电子设备
US11832025B2 (en) * 2020-02-02 2023-11-28 Delta Thermal, Inc. System and methods for computerized health and safety assessments
CN112289347A (zh) * 2020-11-02 2021-01-29 李宇航 一种基于机器学习的风格化智能视频剪辑方法
US11941080B2 (en) * 2021-05-20 2024-03-26 Retrocausal, Inc. System and method for learning human activities from video demonstrations using video augmentation
US11508413B1 (en) * 2021-08-27 2022-11-22 Verizon Patent And Licensing Inc. Systems and methods for editing media composition from media assets
US11516158B1 (en) * 2022-04-20 2022-11-29 LeadIQ, Inc. Neural network-facilitated linguistically complex message generation systems and methods

Also Published As

Publication number Publication date
CN116546286A (zh) 2023-08-04
TWI791402B (zh) 2023-02-01
TW202332249A (zh) 2023-08-01
US20230238034A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
CN105210379B (zh) 显示控制装置、显示控制方法
US11553126B2 (en) Systems and methods to control camera operations
US10230866B1 (en) Video ingestion and clip creation
JP6621063B2 (ja) カメラ選択方法及び映像配信システム
US8594488B1 (en) Methods and systems for video retargeting using motion saliency
JP5584893B2 (ja) 複数のビデオストリームを組み合わせるシステムおよび方法
JP6904954B2 (ja) ネットワークベースのイベント記録
WO2017134706A1 (ja) 映像表示方法及び映像表示装置
JP6713537B2 (ja) 複数のメディアストリームの処理
JP2019160318A (ja) 情報処理装置、情報処理方法、及びプログラム
US10334217B2 (en) Video sequence assembly
US20200404174A1 (en) Computer-implemented method for automated detection of a moving area of interest in a video stream of field sports with a common object of interest
KR102148006B1 (ko) 동영상에 특수 이펙트를 제공하는 방법 및 장치
US11158344B1 (en) Video ingestion and clip creation
US20150139601A1 (en) Method, apparatus, and computer program product for automatic remix and summary creation using crowd-sourced intelligence
CN106375674A (zh) 寻找和使用与相邻静态图像相关的视频部分的方法和装置
CN113315980B (zh) 智能直播方法及直播物联网系统
Kaiser et al. Real-time person tracking in high-resolution panoramic video for automated broadcast production
CN111787338A (zh) 一种体育赛事直播方案辅助设计方法
Ilarri et al. A friendly location-aware system to facilitate the work of technical directors when broadcasting sport events
JP2023107729A (ja) 自動映像編集システム及び方法
Carrillo et al. Automatic football video production system with edge processing
CN114666457A (zh) 一种视音频节目的导播方法、装置、设备、系统及介质
CN110418059B (zh) 应用于电子设备的图像处理方法、装置、电子设备、介质
CN112969028A (zh) 智能直播方法及直播物联网系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240109