JP2022521120A - 機械学習のための動的視聴覚セグメント・パディング - Google Patents

機械学習のための動的視聴覚セグメント・パディング Download PDF

Info

Publication number
JP2022521120A
JP2022521120A JP2021535241A JP2021535241A JP2022521120A JP 2022521120 A JP2022521120 A JP 2022521120A JP 2021535241 A JP2021535241 A JP 2021535241A JP 2021535241 A JP2021535241 A JP 2021535241A JP 2022521120 A JP2022521120 A JP 2022521120A
Authority
JP
Japan
Prior art keywords
padding
segment
audiovisual
audiovisual segment
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021535241A
Other languages
English (en)
Other versions
JP7450623B2 (ja
JPWO2020174383A5 (ja
Inventor
ボウマン、アーロン
ハンマー、ステファン
キャノン、グレイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022521120A publication Critical patent/JP2022521120A/ja
Publication of JPWO2020174383A5 publication Critical patent/JPWO2020174383A5/ja
Application granted granted Critical
Publication of JP7450623B2 publication Critical patent/JP7450623B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

機械学習(ML)アルゴリズムで、パディング済クリップを視聴者関心について評価できるように、クリップに所定の期間をもたせるために、視聴覚クリップ(例えば、スポーツ・イベントの視聴覚クリップ)をパディングするための技法を提供する。未パディング・クリップは、視聴覚セグメントでパディングされ、これにより、パディング済クリップは、未パディング・クリップがより長かった場合に、クリップが有するはずの視聴者関心のレベルを有することになる。いくつかの実施形態では、パディング済セグメントは、未パディング・クリップが長くなるように撮影されていたかのように、(MLアルゴリズムによって決定される)同じレベルの視聴者関心を合成画像が有するように、敵対的生成ネットワークによって生成された合成画像である。

Description

本発明は、一般に、機械学習モデルの訓練の分野に関し、より詳細には、機械学習媒体解釈モデルを訓練するためのコンテンツ正規化(content normalization)に関する。
機械学習(ML:machine learning)は、明示的な命令を使用せず、その代わりに、モデルおよび推論に依存して、特定のタスクを効果的に実施するためにコンピュータ・システムが使用するアルゴリズムおよび統計モデルについての科学的研究であり、人工知能の亜型として見られることが多い。機械学習アルゴリズムは、タスクを実施するように明示的にプログラムされることなく、予測または決定を行うために、「訓練データ」として知られるサンプル・データの数学モデルを構築する。簡単な例として、機械学習プログラムは、(i)様々な猫を示す画像の大きいセット、および、(ii)それぞれの画像が猫を表していることを示すラベル、を訓練データとして与えられることがある。この訓練データに基づいて、MLプログラムのMLアルゴリズムは、猫を表す画像を示すと解される、画像データにおけるパターンを見つけることができる。次に、ラベルのない新しい画像をMLプログラムが受け取ると、MLアルゴリズムは、猫画像を示すパターンを、新たに受け取った画像が示すと決定し、新たに受け取った画像を猫画像として識別することができる。機械学習が基礎を置くこれらのパターンは、追加の画像またはラベルあるいはその両方を受け取ると、時間をかけて見直すことができる。このようにして、ある月に猫画像として不正確に識別された画像は、翌月に非猫画像として正しく識別されることがある。
MLをより詳細に説明するために、教師あり/半教師あり学習、教師なし学習、および強化学習という、ML処理の訓練に対する3つのタイプのアプローチがある。教師あり学習アルゴリズムは、入力と所望の出力との両方を含んだ、データのセットの数学モデルを作り出す。データは、しばしば、訓練データと呼ばれ、訓練例のセットを含む。各訓練例は、少なくとも1つの入力、および所望の出力を含み、監視信号と呼ばれることもある。半教師あり学習アルゴリズムについては、いくつかの訓練例は、所望の出力を含まない。教師なし学習アルゴリズムは、入力値だけを含むデータのセットを受け取り、データ・ポイントのグルーピングまたはクラスタリングのような、データにおける構造を識別する。アルゴリズムは、典型的には、ラベル付け、分類、またはカテゴライズが行われていないテスト・データから学習する。フィードバックに反応する代わりに、教師なし学習アルゴリズムは、データにおける共通点を決定し、データのあらゆる新しいセグメントにおけるこのような共通点の有無に基づいて応答する。強化学習は、累積的な報酬のいくつかの観念を最大化するように、ソフトウェア・エージェントが所与の環境で、どのようにアクションを起こすべきかに関する機械学習の領域である。
敵対的生成ネットワーク(GAN:Generative adversarial network)は、教師なし機械学習で使用される人工知能アルゴリズムの一種であり、ゼロサム・ゲーム・フレームワークで互いに競い合う2つのニューラル・ネットワークのシステムによって実装される。
セグメント・パディングは、オーディオまたはビデオあるいはその両方(本明細書で一括してA/Vと呼ばれることもある)のセグメントが所定の長さを有するように、A/Vセグメントを拡張する方法である。セグメント・パディングは、学習A/Vセグメント、または新たに受け取ったA/Vセグメント、あるいはその両方は、MLアルゴリズムのコードで動くためにある所定の継続時間を有することがアルゴリズムによって期待されるので、通常、MLアルゴリズムと共に使用される。新たに受け取った、パディング済のA/Vセグメントを、MLアルゴリズムが何らかの方式で分類した後、この分類は、パディングの前にセグメントが存在したものとして、セグメントに適用することができる。2つの現在の従来のパディング技法は、(i)無音または他のある種の静的なオーディオ情報と共に、全一色(モノ・カラー)でビデオにフレームを挿入すること、または、(ii)A/Vクリップの所定の時間割当てを完全に埋めるように、非常に短い映像を繰り返すこと(「ルーピング」とも呼ばれる)、あるいはその両方のようなものである。
機械学習モデルが効果的なものになるように、機械学習モデルの入力データの特徴は、正規化されるべきであり、したがって、どの特徴も、その値の範囲に起因して大きすぎるインパクトを持つことはない。ビデオおよびオーディオを分析するモデルは、期間が長くなると、モデルで使用される重みを膨張させる恐れがあるので、期間が一貫した入力データが必要である。この理由から、コンテンツ断片は、分析の前に、等しい期間のセグメントに分割されなければならない。所与のレイヤにおける特徴分析が、明白でないことがあり、期間などの隠れ変数を含んでいることが、あまり明らかでないので、ディープ・ニューラル・ネットワークを使用するとき、データの準備が特に重要である。様々な期間のコンテンツ断片について、研究者は、等しい期間のセグメントに、どのように達するかを決めなければならない。共通の選択肢は、コンテンツの一部を捨てること(トリミング)、または、任意の画像もしくは無音などのコンテンツを追加すること(ナイーブ・パディング)を含む。トリミングは、捨てたコンテンツが、分析に重要な役割を果たしていた可能性もあるので、望ましくない。ナイーブ・パディングも、モデルが、コンテンツ断片との関連性を有していなくても、セグメントの一部としてパディングを分析することになるので、望ましくない。
したがって、当技術分野では、前述の問題に対処する必要がある。
第1の態様から考察すると、本発明は、第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることであって、第1の未パディング視聴覚セグメントが、人間の聴衆のためにスポーツ大会で記録した視聴覚データに相当する、受け取ることと、第1の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、パディング時間間隔のセットの各所与のパディング時間間隔に対して、第1の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習(ML)アルゴリズムにより決定されるスポーツ視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するそのスポーツ視聴者関心値を決定すること、および所与のパディング時間間隔に対するパディング視聴覚セグメントが、所与のパディング時間間隔に対し決定されたスポーツ視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対するパディング視聴覚セグメントを生成することと、第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第1の未パディング視聴覚セグメントを組み立てることと、全体として考慮して第1のパディング済視聴覚セグメントのスポーツ視聴者関心値を、MLアルゴリズムにより決定することとを含む方法を提供する。
さらなる態様から考察すると、本発明は、第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることと、第1の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、パディング時間間隔のセットの各所与のパディング時間間隔に対して、第1の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習(ML)アルゴリズムにより決定される視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するその視聴者関心値を決定すること、および所与のパディング時間間隔に対する合成視聴覚セグメントが、所与のパディング時間間隔に対し決定された視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対する合成視聴覚セグメントを生成することと、第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応する合成視聴覚セグメントで、第1の未パディング視聴覚セグメントを組み立てることと、全体として考慮して第1のパディング済視聴覚セグメントの視聴者関心値を、MLアルゴリズムにより決定することとを含む方法を提供する。
さらなる態様から考察すると、本発明は、複数の履歴視聴覚セグメント・データ・セットを受け取ることであって、各履歴視聴覚セグメント・データ・セットが、履歴視聴覚セグメントの情報を含む、受け取ることと、第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることと、第1の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、パディング時間間隔のセットの各所与のパディング時間間隔に対して、第1の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続いた場合、所与のパディング時間間隔が含んでいたであろうものに似た視聴覚コンテンツをパディング視聴覚セグメントが有するように、1つまたは複数の履歴視聴覚セグメントからパディング視聴覚セグメントを生成することと、第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第1の未パディング視聴覚セグメントを組み立てることと、全体として考慮して第1のパディング済視聴覚セグメントの視聴者関心値を、MLアルゴリズムにより決定することとを含む方法を提供する。
さらなる態様から考察すると、本発明は、訓練機械モデルを管理するためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、本発明のステップを実施するための方法を実施するために、処理回路で読み取ることができ、処理回路による実行のための命令を格納するコンピュータ可読ストレージ媒体を備える。
さらなる態様から考察すると、本発明は、コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリにロードすることができるコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、本発明のステップを実施するための、ソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。
本発明の態様によれば、(i)第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることであって、第1の未パディング視聴覚セグメントが、人間の聴衆のためにスポーツ大会で記録した視聴覚データに相当する、受け取ることと、(ii)未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、(iii)パディング時間間隔のセットの各所与のパディング時間間隔に対して、(a)第1の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習(ML)アルゴリズムにより決定されるスポーツ視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するそのスポーツ視聴者関心値を決定すること、および(b)所与のパディング時間間隔に対するパディング視聴覚セグメントが、所与のパディング時間間隔に対し決定されたスポーツ視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対するパディング視聴覚セグメントを生成することと、(iv)第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第1の未パディング視聴覚セグメントを組み立てることと、(v)全体として考慮して第1のパディング済視聴覚セグメントのスポーツ視聴者関心値を、MLアルゴリズムにより決定することと、という動作を実施するための(必ずしもこの順序ではない)、コンピュータ実行方法、コンピュータ・プログラム製品、またはコンピュータ・システム、あるいはその組合せがある。
本発明のさらなる態様によれば、(i)第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることと、(ii)未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、(iii)パディング時間間隔のセットの各所与のパディング時間間隔に対して、(a)第1の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続き、機械学習(ML)アルゴリズムにより決定される視聴者関心値を有する場合に、所与のパディング時間間隔を特徴づけるであろうそれぞれの対応するその視聴者関心値を決定すること、(b)所与のパディング時間間隔に対するパディング視聴覚セグメントが、所与のパディング時間間隔に対し決定された視聴者関心値で特徴づけられるように、所与のパディング時間間隔に対する合成視聴覚セグメントを生成することと、(iv)第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第1の未パディング視聴覚セグメントを組み立てることと、(v)全体として考慮して第1のパディング済視聴覚セグメントのスポーツ視聴者関心値を、MLアルゴリズムにより決定することと、という動作を実施するための(必ずしもこの順序ではない)、コンピュータ実行方法、コンピュータ・プログラム製品、またはコンピュータ・システム、あるいはその組合せがある。
本発明のさらなる態様によれば、(i)複数の履歴視聴覚セグメント・データ・セットを受け取ることであって、各履歴視聴覚セグメント・データ・セットが、履歴視聴覚セグメントの情報を含む、受け取ることと、(ii)第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることと、(iii)未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、(iv)パディング時間間隔のセットの各所与のパディング時間間隔に対して、第1の未パディング視聴覚セグメントが、所与のパディング時間間隔を通じて続いた場合、所与のパディング時間間隔が含んでいたであろうものに似た視聴覚コンテンツをパディング視聴覚セグメントが有するように、1つまたは複数の履歴視聴覚セグメントからパディング視聴覚セグメントを生成することと、(v)第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔のセットの各パディング時間間隔に対応するパディング視聴覚セグメントで、第1の未パディング視聴覚セグメントを組み立てることと、(vi)全体として考慮して第1のパディング済視聴覚セグメントの視聴者関心値を、MLアルゴリズムにより決定することと、という動作を実施するための(必ずしもこの順序ではない)、コンピュータ実行方法、コンピュータ・プログラム製品、またはコンピュータ・システム、あるいはその組合せがある。
以下の図に示すような、好ましい実施形態を参照しながら、ほんの一例として、本発明を次に説明する。
本発明によるシステムの第1の実施形態のブロック図である。 第1の実施形態のシステムで少なくとも部分的に実施される第1の実施形態の方法を示す流れ図である。 第1の実施形態のシステムの機械ロジック(例えば、ソフトウェア)部分を示すブロック図である。 第1の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。 第1の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。 第1の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。 第1の実施形態のシステムの理解に役立つマルチメディア・データ・サンプルのスクリーン・ショットである。 本発明による方法の第2の実施形態の流れ図である。 本発明の1つまたは複数の例示の実施形態の理解に役立つ情報を示すスクリーン・ショットの図である。
本発明のいくつかの実施形態は、セグメントが完全な長さのクリップであった場合にセグメントが有している「視聴者関心」のレベルを示しつつ、A/Vセグメントが所定の長さを有するように、A/Vセグメントをパディングするための技法を対象とする。これは、スポーツ・ハイライト・リール、または映画のトレーラなどの、より大きいA/V上演での考えうる使用のために、機械学習アルゴリズムが、A/Vクリップについての視聴者関心レベルを決定するときに有用である。「視聴者関心」は、A/Vクリップを視聴者がどれだけ面白いと思うかを指す。例えば、負けたテニス・プレイヤの苦悶の表情を示すクリップは、逸れたテニス・ボールを無表情に回収しているボール・ボーイのクリップより、高いレベルの視聴者関心を有すると予想されることがある。スポーツ視聴者関心値は、スポーツA/Vクリップの視聴者が所与のA/Vクリップを、どれだけ面白いと思うかについて数量化したものを指す。一様に高レベルの視聴者関心、または、おそらく視聴者関心のアップおよびダウンの所望のパターンを伴うクリップを含めることによって、適切なハイライト・リールを組み立てることができる(例えば、様々なクリップの計算した視聴者関心レベルに基づいて、コンピュータ・ソフトウェアで自動的に組み立てることができる)。
様々な本発明の実施形態のより詳細な説明に移る前に、本発明のパディング技法が達成すると考えられるものについて、基本的なポイントを述べる。ポイントは、セグメントが本来十分に長かった場合よりも、多くのまたは少ない視聴者関心を、パディング中に、パディングが持つべきではないということである。これは、非常に理解しにくいが重要な意見であり、次の段落における例でさらに説明する。
例えば、野球の試合での素晴らしい捕球の映像が、3秒の長さであり、所定のA/Vセグメントの長さが、9秒であると仮定する。この例では、9秒になるように3秒クリップを3回ループさせると、決定した視聴者関心が異常に高いレベルになる。これは、素晴らしい捕球は9秒続かないので、そのクリップが9秒の長さであった場合の視聴者関心のレベルは、捕球の3秒間は高いが、捕球前の3秒、または捕球後の3秒の間は低くなると予想されるからである。本発明は、クリップの前または後あるいはその両方にテレビ・クルーが撮影したであろう、そしてそれをクリップに含めたであろうものを、クリップが含んでいるかのように、視聴者関心レベルを近似するように努力する。例えば、未パディング・クリップがスタートする前の3秒が、ありふれた飛球のように見えると予想される場合、これは、視聴者関心のレベルが相当に低くなる可能性がある(おそらく、何も映っていない画面より視聴者関心のレベルが大きくなるが)。この例をさらに詳細に述べるために、未パディング・クリップ後の3秒が、典型的には、がっかりした打者が自分の野球バットを腹立ち紛れに投げ捨てているものである場合、これは、視聴者関心のレベルが比較的高くなる可能性がある(おそらく、素晴らしい捕球自体より小さいが)。これは、本発明がエミュレートしたいと思うもののタイプ、すなわち、第1の事例で、クリップがより長くなるように撮影された場合の視聴者関心のレベルを反映する視聴者関心のレベルである。
大まかに言うと、(i)関心のある非常に短いA/Vセグメントへのパディングとして実際の既存のA/Vセグメントを使用すること、または、(ii)完全な長さのクリップの類似する仮定の部分と一致した視聴者関心のレベルを有すると、MLアルゴリズムにより決定される合成A/V画像を生成することという、本発明によるパディングを実行するための2つの異なる方式がある。「視聴者関心のレベルを有すると、MLアルゴリズムにより決定される」という言葉は、ここでは慎重に選ばれたことに留意されたい(MLアルゴリズムの処理に関する限り、視聴者関心の所与のレベルを合成画像がエミュレートできたとしても、合成画像は特に、人間の視聴者には理解できない可能性がある)。言い換えれば、本発明のいくつかの実施形態の実際のパディングは、仮に人間の視聴者が実際にパディングを見て、自分の関心レベルを評価した場合、視聴者関心のレベルが極めて低くなる可能性がある。それでも、パディングする必要のないより長いクリップに一致した視聴者関心のレベルをMLアルゴリズムに示すパターンによってパディングに対応するデータが特徴づけられるように、パディングは構築される。
この「発明を実施するための形態」セクションは、(i)ハードウェアおよびソフトウェア環境、(ii)例示の実施形態、(iii)さらなるコメントまたは実施形態あるいはその両方、ならびに(iv)定義、という、サブ・セクションに分割される。
ハードウェアおよびソフトウェア環境
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってもよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(または複数の媒体)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスによる使用のための命令を保持し、記憶することができる有形デバイスであってもよい。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組合せであってもよいがこれらに限定されない。コンピュータ可読ストレージ媒体のより具体的な例の完全に網羅されていないリストは、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリ・メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、命令が記録されたパンチ・カードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述の任意の適切な組合せを含む。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号など、本質的に一時的な信号であると解釈されるべきではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれの計算/処理デバイスに、あるいは、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、もしくはワイヤレス・ネットワーク、またはその組合せといった、ネットワークを介して外部コンピュータまたは外部ストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを備えることができる。各計算/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受け取り、それぞれの計算/処理デバイス内のコンピュータ可読ストレージ媒体に格納するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(R)、C++、もしくは同様のものなどのオブジェクト指向プログラミング言語、および「C」プログラミング言語、もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つもしくは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードであってもよい。コンピュータ可読プログラム命令は、スタンド・アロンのソフトウェア・パッケージとして、全面的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で実行することができ、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、または全面的にリモート・コンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続することができ、または、(例えば、インターネット・サービス・プロバイダを使用して、インターネットを通じて)外部コンピュータに接続することができる。いくつかの実施形態では、例えば、プログラム可能論理回路機器、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路機器は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路機器を個別化にすることによって、コンピュータ可読プログラム命令を実行することができる。
本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照しながら、本発明の態様を本明細書で説明する。流れ図またはブロック図あるいはその両方の各ブロック、および流れ図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実行できることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサによって実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/行為を実行するための手段を作り出すべく、機械を生み出すために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供することができる。これらのコンピュータ可読プログラム命令は、また、流れ図またはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/行為の態様を実行する命令を含む製品を、命令を格納したコンピュータ可読ストレージ媒体が備えるべく、コンピュータ可読ストレージ媒体に格納することができ、特定の手法で機能するようにコンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはその組合せに指図することができる。
コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行する命令が、流れ図またはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/行為を実装するべく、コンピュータ実行処理を生み出すために、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップが実施されるように、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードすることができる。
図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えうる実装形態のアーキテクチャ、機能、および動作を示す。この点に関して、流れ図またはブロック図における各ブロックは、指定の論理機能を実現するための1つまたは複数の実行可能命令を含む命令のモジュール、セグメント、または一部を表すことができる。いくつかの代替実装形態では、ブロックに記された機能は、図に記された順序とは異なる順序で生じてもよい。例えば、連続して示された2つのブロックは、実際には、実質的に同時に実行されてもよく、または、ブロックは、時には、含まれる機能に応じて逆の順序で実行されてもよい。ブロック図または流れ図あるいはその両方の各ブロック、および、ブロック図または流れ図あるいはその両方におけるブロックの組合せは、指定の機能または行為を行うか、専用ハードウェアとコンピュータ命令の組合せを実行する専用ハードウェア・ベースのシステムで実行できることにも留意されたい。
本発明によるソフトウェアまたは方法あるいはその両方のための可能なハードウェアおよびソフトウェア環境の実施形態を、次に、図を参照しながら詳細に説明する。図1は、ネットワーク化されたコンピュータ・システム100の様々な部分を示す機能ブロック図であり、サーバ・システム102(機械学習システムと呼ばれることもある)、履歴ビデオ・クリップ・ソース・サブシステム104、新クリップ・ソース・サブシステム106、およびハイライト・リール・アセンブリ・チーム・サブシステム108、および通信ネットワーク114を含む。サーバ・システム102は、サーバ・コンピュータ200(機械学習コンピュータと呼ばれることもある)、通信ユニット202、プロセッサ・セット204、入出力(I/O)インターフェース・セット206、メモリ208、永続ストレージ210、ディスプレイ・デバイス212、外部デバイス・セット214、ランダム・アクセス・メモリ(RAM)230、キャッシュ・メモリ232、およびプログラム300を含む。
サブシステム102は、多くの点で、本発明における様々なコンピュータ・サブシステムの代表的なものである。したがって、サブシステム102のいくつかの部分を、次に、以下の段落で論じる。
サブシステム102は、ラップトップ・コンピュータ、タブレット型コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタント(PDA)、スマート・フォン、または、ネットワーク114を介してクライアント・サブシステムと通信することができる任意のプログラム可能な電子デバイスであってもよい。プログラム300は、この「発明を実施するための形態」セクションの例示の実施形態サブ・セクションにおいて、下記で詳細に論じる一定のソフトウェア機能の作成、管理、および制御のために使用される機械可読命令またはデータあるいはその両方の集合体である。
サブシステム102は、他のコンピュータ・サブシステムとネットワーク114を介して通信することができる。ネットワーク114は、例えば、ローカル・エリア・ネットワーク(LAN)、インターネットなどの広域ネットワーク(WAN)、または、2つの組合せであってもよく、有線接続、ワイヤレス接続、または光ファイバ接続を含むことができる。一般に、ネットワーク114は、サーバとクライアント・サブシステムとの間の通信をサポートする接続およびプロトコルの任意の組合せであってもよい。
サブシステム102は、多くの両矢印があるブロック図として示されている。これらの両矢印(個別の参照番号はない)は、サブシステム102の様々な構成要素間の通信を提供する通信ファブリックを表す。この通信ファブリックは、(マイクロプロセッサ、通信プロセッサ、およびネットワーク・プロセッサ等などの)プロセッサ、システム・メモリ、周辺デバイス、ならびに、システム内の他の任意のハードウェア構成要素の間で、データまたは制御情報あるいはその両方を伝えるように設計された任意のアーキテクチャで実装することができる。例えば、通信ファブリックは、1つまたは複数のバスで少なくとも部分的に実装することができる。
メモリ208および永続ストレージ210は、コンピュータ可読ストレージ媒体である。一般に、メモリ208は、任意の適切な揮発性または不揮発性のコンピュータ可読ストレージ媒体を含むことができる。現在、または近い将来、あるいはその両方において、(i)外部デバイス214は、サーバ・サブシステム102のためのメモリを、いくつかもしくは全て、供給できる可能性がある、または、(ii)サーバ・サブシステム102の外部にあるデバイスは、サーバ・サブシステム102のためのメモリを提供できる可能性がある、あるいはその両方であることにさらに留意されたい。
プログラム300は、通常、メモリ208の1つまたは複数のメモリを通じた、それぞれのプロセッサ・セット204の1つまたは複数によるアクセスまたは実行あるいはその両方のために、永続ストレージ210に格納される。永続ストレージ210は、(i)搬送中の信号より少なくとも永続的であり、(ii)(磁気または光学ドメインなどの)有形媒体に(プログラムのソフト・ロジックまたはデータあるいはその両方を含む)プログラムを格納し、(iii)永久ストレージより実質的にあまり永続的でない。代替として、データ・ストレージは、永続ストレージ210によって提供されるストレージのタイプより、永続的または永久的あるいはその両方であってもよい。
プログラム300は、機械可読命令と機械実行可能命令の両方、または実在のデータ(すなわち、データベースに格納されたデータのタイプ)、あるいはその両方を含むことができる。この特定の実施形態では、永続ストレージ210は、磁気ハードディスク・ドライブを含む。いくつかの可能な変形形態の名前を挙げると、永続ストレージ210は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、リード・オンリ・メモリ(ROM)、消去可能プログラマブル・リード・オンリ・メモリ(EPROM)、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を格納することができる他の任意のコンピュータ可読ストレージ媒体を含むことができる。
永続ストレージ210で使用される媒体も、取外し可能であってもよい。例えば、取外し可能ハード・ドライブを、永続ストレージ210のために使用することができる。他の例は、光ディスクおよび磁気ディスク、サム・ドライブ、ならびに、永続ストレージ210の一部でもある別のコンピュータ可読ストレージ媒体への移送のためにドライブに挿入されるスマート・カードを含む。
通信ユニット202は、これらの例では、サーバ・サブシステム102の外部にある他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット202は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット202は、物理通信リンクとワイヤレス通信リンクのどちらか一方または両方の使用を通じて通信を行うことができる。本明細書で論じられるいずれかのソフトウェア・モジュールは、(通信ユニット202などの)通信ユニットを通じて(永続ストレージ・デバイス210などの)永続ストレージ・デバイスにダウンロードすることができる。
I/Oインターフェース・セット206は、サーバ・コンピュータ200とのデータ通信中にローカルに接続することができる他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインターフェース・セット206は、外部デバイス・セット214への接続を提供する。外部デバイス・セット214は、典型的には、キーボード、キーパッド、タッチ・スクリーン、または他のいくつかの適切な入力デバイス、あるいはその組合せなどのデバイスを含む。外部デバイス・セット214は、例えば、サム・ドライブ、携帯型の光ディスクまたは磁気ディスク、およびメモリ・カードなどの携帯型コンピュータ可読ストレージ媒体も含むことができる。例えばプログラム300といった、本発明の実施形態を実践するために使用されるソフトウェアおよびデータは、このような携帯型コンピュータ可読ストレージ媒体に格納することができる。これらの実施形態では、関連するソフトウェアは、I/Oインターフェース・セット206を介して永続ストレージ・デバイス210に全体的または部分的にロードされてもよい(または、されなくてもよい)。I/Oインターフェース・セット206も、データ通信中にディスプレイ・デバイス212と接続する。
ディスプレイ・デバイス212は、ユーザにデータを表示するためのメカニズムを提供し、例えば、コンピュータ・モニタ、またはスマート・フォンの表示画面であってもよい。
本明細書で説明されるプログラムは、本発明の特定の実施形態でプログラムが実装される用途に基づいて識別される。それでも、本明細書における任意の特定のプログラム用語は、便宜上使用されるにすぎず、したがって、本発明は、このような用語で識別される、または意味される、あるいはその両方が行われる任意の特定の用途で単に使用することに限定されるべきではないことを理解されたい。
本発明の様々な実施形態の説明を例証のために提示してきたが、網羅的であること、または、開示された実施形態に限定されることを意図するものではない。説明した実施形態の範囲および思想から逸脱することなく、多くの変更形態および変形形態が当業者には明らかである。本明細書で使用した専門用語は、実施形態の原理、実用的用途、または市場で見つかる技術に対する技術的改善を最もよく説明するように、または、本明細書で開示された実施形態を当業者が理解できるように、選ばれた。
例示の実施形態
図2は、本発明による方法を描写する流れ図250を示す。図3は、流れ図250の方法動作のうちの少なくともいくつかを実施するためのプログラム300を示す。本方法および関連するソフトウェアを、次に、図2(方法動作ブロックについて)、図3(ソフトウェア・ブロックについて)、ならびに、例えば、データ・サンプルおよびスクリーン・ショットといった、図4Aから図4Eを広く参照しながら、以下の段落で論じる。
処理は、動作S255で始まり、ここでは、履歴ビデオ・クリップ・ソース・サブシステム104が、通信ネットワーク114(図1参照)を通じて、履歴ビデオ・クリップ・リポジトリ302に、視聴覚セグメント(本明細書で「クリップ」と呼ばれることがある)を送る。
本実施形態では、これらのクリップは、(i)1957年に遡るプロ・バスケットボールの試合のテレビ放送映像から収集されており、(ii)長さが正確に6秒になるようにそれぞれトリミングされており、(iii)メタデータでそれぞれ「ラベル付け」されている。
本実施形態では、各クリップのメタデータは、(i)プレイのカテゴリ(例えば、フリー・スロー、3ポイント・ミス、3ポイント・シュート、ダンク等)、(ii)プレイの自然言語の説明(例えば、20インチ(50.8cm)垂直ジャンプのダンク、ファウル・ラインから跳躍するダンク等、フレグラント・ファウル等)、(iii)関わる主要なプレイヤのそれぞれについての統計情報(例えば、名前、身長、体重、年齢、生涯得点、クリップの試合での得点、ポジション、大学チーム等)、(iv)会場/日付/チーム情報(例えば、ゲームが行われるアリーナ、入場者数、試合当日の天候、試合の日付、試合当日のチームの得失点記録、チームのシーズン中の得失点記録、ホーム・チームの識別、当番のレフェリ等)、(v)全体としてのクリップの視聴者関心値(例えば、今までで最高のダンクについての6秒クリップは、1.00と格付けしてもよく、一方で、試合の実施中の小休止中に、無名のプレイヤが自分のシューズのひもを結びなおしている6秒クリップは、視聴者関心値0.01と格付けしてもよい)、ならびに、(vi)各視聴覚セグメントのうちの各2秒のサブセグメントの視聴者関心値(例えば、クリップは、その最初の2秒の視聴者関心値0.10、その次の2秒の視聴者関心値0.40、および、その最後の2秒の視聴者関心値0.85を有してもよい)、というメタデータのカテゴリを含む。前述のリストの項目(v)および(vi)について、6秒クリップの視聴者関心値は、全体として考慮され、全体的に、その2秒のサブセグメントの視聴者関心値の平均と同じにはならない。
本実施形態では、動作S255において、これらの履歴ビデオ・クリップは、MLアルゴリズム310を訓練して、前の段落で識別したラベル付けの様々なタイプ全てについて、新しいビデオ・クリップを認識し、カテゴライズするための訓練データ・セットとして使用される。
処理は、動作S260に進み、ここでは、新クリップ・ソース・サブシステム106が、ネットワーク114(図1参照)を通じて、未パディング・クリップ受信モジュール304に、新しい2秒の未パディング・クリップを送る。MLアルゴリズム310で、特に視聴者関心について、このクリップにラベル付けすることが望ましいが、MLアルゴリズム310が6秒クリップをハンドリングするように設計され、プログラムされるので、未パディング・クリップを、MLアルゴリズム310ですぐに処理することができない。この2秒の未パディング・クリップの代表的な画像(または「フレーム」)が、図4Aのスクリーン・ショット400aで示されている。このパディングしていない2秒のクリップのメタデータは、(i)プレイのカテゴリがダンクであること、(ii)プレイの自然言語の説明が、ゴール近くの跳躍および着地を伴う20インチ(50.8cm)垂直ジャンプのダンクであること、(iii)関わる主要なプレイヤのそれぞれについての統計情報が、名前アベル・アダムス、身長6フィート6インチ(198.12cm)、体重が175ポンド(79.3787kg)であり、年齢が25歳であり、生涯得点562、クリップの試合の得点12、ポジションがセンタであり、大学チームがジャイノーマス大学であることを含むこと、(iv)会場がニューヨーク・アリーナであり、試合の日付が2019年1月1日であり、アダムスのチームがニューヨーク・ジェリーフィッシュ情報であり、有料入場者数が30,000人であり、試合当日の天候がみぞれであり、試合当日のニューヨーク・ジェリーフィッシュの得失点記録が30-30であり、ニューヨーク・ジェリーフィッシュのシーズン中の得失点が、2秒の未パディング・クリップの受信の時点ではまだ決定しておらず、ニューヨーク・ジェリーフィッシュがホーム・チームであり、当番のレフェリがアンダーソン・サンダーソンであったこと、を含む。この例では、前述のラベル付けデータのうちのいくつかは、新クリップ・ソース・サブシステム106で付けられた人間によるラベル付けから来たが、他の前述のラベル付け情報は、MLアルゴリズム310により決定された。
全体としての2秒の未パディング・クリップ400aの視聴者関心値は決定されていないが、ハイライト・リール・アセンブリ・チーム・サブシステムが、2019年1月1日から1月3日までのハイライト・リールに、未パディング・クリップ400aを含めるべきかどうかを決めることができるように、流れ図250のその後の動作で決定されることになる。
処理は、動作S265に進み、ここでは、必要なパディング時間の全期間が、パディング時間決定モジュール(「mod」)308により決定される。この例では、これは、簡単な計算である。特に、未パディング・クリップは、長さ2秒であり、パディング済クリップは、MLアルゴリズム310が正確に視聴者関心を決定できるように、長さ6秒である必要があり、これは、4秒の全パディングが必要であることを意味する。
処理は、動作S270に進み、ここでは、パディング位置決定mod309が、未パディング・クリップが始まる時点より前に、2秒のパディングが挿入されるべきであり、未パディング・クリップが終わった後、2秒のパディングが挿入されるべきであると決定する。他の実施形態が、他の方式でパディング位置を決定してもよい。例えば、この「発明を実施するための形態」セクションの次のサブ・セクションで論じられる実施形態では、パディングは、未パディング・クリップの後に常に挿入される。
処理は、動作S275に進み、ここでは、最も関連のあるパディング・クリップが、パディング・クリップ発見mod311により決定される。本実施形態では、また、この例について少し詳しく説明されるように、パディング・クリップは、履歴ビデオ・クリップ・リポジトリ302に格納された履歴ビデオ・クリップからとられる。これを論じる前に、この「発明を実施するための形態」セクションの以下のサブ・セクションで論じられるように、実施形態の中には、基本的に異なる方式で動作できるものもあることに留意することが重要である。この基本的に異なる方式は、敵対的生成ネットワーク(GAN)で合成ビデオを生成することである。既存のビデオを実際に使用する議論中の実施形態と、さらに合成ビデオを使用する実施形態のような両方の実施形態には、未パディング・クリップがパディングされていないかのように、パディング済クリップが、(MLアルゴリズムにより決定される)視聴者関心値を保持するように、パディング・クリップの選択または生成あるいはその両方が行われるという事実が共通して含まれることにさらに留意されたい。
概念的な難しさは、パディング済クリップの視聴者関心値が、まだ分かっていないことであり、すなわち、本発明のいくつかの実施形態の主要な目的が、パディング済クリップを使用して、視聴者関心値を決定することである。議論中の実施形態では、視聴者関心値が正しくなるようにパディングを決定する方式は、期間が6秒だったとした場合、テレビ放送クルーがクリップを撮影し、編集し何を含めようとしたかを理解しようとすることである。論じられるように、この例では、この仮定の、より長いクリップは、未パディング・クリップに最も似た、より長い既存の履歴クリップからの実際の映像を使用する。合成ビデオを生成する他の実施形態では、他の方法を使用して合成パディングを生成し、その結果、未パディング・クリップが長かった場合に取得すると予想される(MLアルゴリズムにより決定され、必ずしも人間のエキスパート視聴者によって決定されるようなものではない)パディング済クリップの視聴者関心値をMLアルゴリズムが決定する。視聴者関心値の決定時の使用に適したパディング済クリップにつながる合成ビデオの生成についてのこれらの方法を、この「発明を実施するための形態」セクションの次のサブ・セクションで完全に説明する。
流れ図250の動作S275に戻ると、パディング・クリップ発見mod311で履歴ビデオ・クリップ・リポジトリ302をスキャンして、クリップで示されたダンクの前に生じた2秒の視聴覚を含む6秒クリップ400bを発見する(図4B参照)。クリップ400bには、その400bのメタデータに、(i)プレイのカテゴリがダンクであること、(ii)プレイの自然言語の説明が、ファウル・ラインを越えて18インチ(45.72cm)から跳躍したダンクであること、(iii)関わる主要なプレイヤのそれぞれについての統計情報が、名前アベル・アダムス、身長6フィート6インチ(198.12cm)、体重が171ポンド(77.5643kg)であること、年齢が24歳であること、生涯得点562点、クリップの試合での得点14、ポジションがセンタであること、大学チームがジャイノーマス大学であることを含むこと、および、(iv)会場がロサンゼルスであること、試合の日付が2018年1月1日であること、アダムスのチームがロサンゼルス・ミトコンドリアであること、有料入場者数が15,000人であったこと、試合当日の天候が灼熱であったこと、試合当日のロサンゼルス・ミトコンドリアの得失点記録が31-29であったこと、ロサンゼルス・ミトコンドリアのシーズン中の得失点が62-58であったこと、ロサンゼルス・ミトコンドリアがホーム・チームであったこと、当番のレフェリがベティ・マクネティであったことという、ラベル付けが行われている。このクリップ内のダンクする人は、未パディング・クリップ内のダンクする人と同じ人物であるが、前年、別のチームでプレイしていたらしいということに留意されたい。
動作S275において、このクリップが、ダンクの前に生じた映像を含む最も似たクリップであると決定され、したがって、このクリップの最初の2秒が、パディング済クリップの最初の2秒を作るために使用されることになる必要なパディング映像を提供するために最も関連のあるものとして、選択される。より詳細には、この特定の例では、(i)プレイの類似点(図4Aを図4Bと比較して分かるように、両方のプレイがダンクであるが、一方は、主に垂直ダンクであり、他方は、主に水平ダンクである)、(ii)プレイヤの類似点(クリップ400aおよび400b内のダンクする人は、同じプレイヤである)、(iii)会場/チーム/観衆の類似点(会場およびチームおよび観衆の規模がかなり異なるが、クリップ400aとクリップ400bの両方において、ダンクする人がホーム・チームにいる)、ならびに、(iv)クリップの時間的近さ(recentness)(クリップが、1年しか離れていない)、というファクタを、パディング・クリップ発見mod311の機械ロジックが使用して、クリップ400bが、プレ・パディングに適した、最も似たクリップであると決定した。クリップ400bが、プレ・パディング材料を含んだ、最も関連したクリップなので、クリップ400bの最初の2秒が、この例でのプレ・パディングとして使用されることになる。図4Bに示したように、このプレ・パディングは、アダムスがジャンプし、ダンク・シュートを決める前のように見えるような、コートの半分の上から見下ろした図である。
動作S275において、クリップ400c(図4C参照)が、ダンク後に生じた映像を含む最も似たクリップであるとさらに決定され、したがって、クリップ400cの最後の2秒が、パディング済クリップの最後の2秒を作るために使用されることになる必要なパディング映像を提供するために最も関連のあるものとして選択される。より詳細には、この特定の例では、(i)プレイの類似点(図4Aを図4Cと比較して分かるように、両方のプレイが、驚くほど似て見える垂直ダンクである)、(ii)プレイヤの類似点(クリップ400c内のダンクする人が、1960年代の頃、ニューヨーク・ジェリーフィッシュでバスケットボールのスターだったローラ・オルドタイマーである(この例では、彼女は、アベル・アダムスに生涯統計値が似ている))、(iii)会場/チーム/観衆の類似点(会場およびチームおよび観衆の規模が、ここでは、クリップ400aとクリップ400cとの間で同一である)、ならびに、(iv)クリップの時間的近さ(この例では、2つのクリップの時間が広く離れて空いており、ここでは、類似点/関連性の発見に反して切り取られた)、というファクタを、パディング・クリップ発見mod311の機械ロジックが使用して、クリップ400cが、ポスト・パディングに適した、最も似たクリップであると決定した。クリップ400cが、ポスト・パディング材料を含んだ、最も関連したクリップなので、クリップ400cの最後の4秒が、この例でのポスト・パディングとして使用されることになる。図4Cに示したように、このポスト・パディングは、声援を送る観衆の図であり、オールドタイマーがジャンプし、ダンク・シュートを決めた後の、1組のファンの顔のクローズ・アップである。
処理は、動作S280に進み、ここでは、パディング済クリップ組立てmod312が、動作S275で選ばれたパディング・クリップに基づいて、6秒のパディング済クリップ400d(図4D参照)を組み立てる。この6秒のパディング済クリップは、人間の聴衆に示されることを意図したものではなく、むしろ、視聴者関心値を決定するために、MLアルゴリズム310でしか使用されないことに留意されたい。
処理は、動作S285に進み、ここでは、MLアルゴリズム310が、パディング済クリップ400dの視聴者関心値を決定する。この例では、視聴者関心値は、0.51である。これは、未パディング・クリップ400aを単純に3回ループさせた場合に取得されるものとは異なる視聴者関心値であり、パディングが、単に、何も映っていない画面である場合に取得されるものとも異なる視聴者関心値である。このようにして、本発明のいくつかの実施形態は、従来の視聴覚セグメント・パディング技法で取得されるものより正確な視聴者関心値を提供することができる。
処理は、動作S290に進み、ここでは、サーバ・サブシステム102(図1参照)のプログラム300の出力mod314が、2019年1月1日から1月3日までに行われたバスケットボールの試合のハイライト・リールの組立て時の使用について考慮するために、ハイライト・リール・アセンブリ・チーム・サブシステム108に、ネットワーク114を通じて、視聴者関心値0.51を示すメタデータと共に、未パディング・クリップ400aを送る。この例では、ハイライト・リールのためのクリップが、人間によって選ばれ、並べられる。この例では、人間がクリップ400aを使用することを決定するが、なぜなら、ある程度、クリップ400aの視聴者関心値がいくらか満足できるものであるからであり、さらに、テレビで、また、インターネットで配信されるストリーミング・サイトで、見られることになるスポーツ・ニュースでの使用のために、指定された所定の長さになるように、2秒の映像を、ハイライト・リールが必要とするからである。
さらなるコメントまたは実施形態あるいはその両方
本発明のいくつかの実施形態は、次の事実、潜在的な問題、または、現在の最先端についての改善のための潜在的な領域、あるいはその組合せを認識している。
(i)機械学習モデルが効果的なものになるように、機械学習モデルの入力データの特徴は、正規化されるべきであり、したがって、どの特徴も、その値の範囲に起因して大きすぎるインパクトを持つことはない、(ii)ビデオおよびオーディオを分析するモデルは、期間が長くなると、モデルで使用される重みを膨張させる恐れがあるので、入力データの期間が一貫したものになる必要がある、(iii)この理由から、コンテンツ断片は、分析の前に、等しい期間のセグメントに分割されなければならない、(iv)所与のレイヤにおける特徴分析が、明白でないことがあり、期間などの隠れ変数を含んでいることが、あまり明らかでないので、ディープ・ニューラル・ネットワークを使用するとき、データの準備が特に重要である、(v)様々な期間のコンテンツ断片について、研究者は、等しい期間のセグメントに、どのように達するかを決めなければならない、(vi)共通の選択肢は、(a)コンテンツの一部を捨てること(トリミングとしても知られる)、または(b)任意の画像もしくは無音などのコンテンツを追加すること(ナイーブ・パディングとしても知られる)を含む、(vii)トリミングは、捨てたコンテンツが、分析に重要な役割を果たしていた可能性もあるので、望ましくない、(viii)ナイーブ・パディングも、モデルが、コンテンツ断片との関連性を有していなくても、セグメントの一部としてパディングを分析することになるので、望ましくない、ならびに、(ix)当技術分野におけるいくつかの既知の解決策は、(a)機械学習モデルに取り込まれるいくつかのセグメントの期間が短くなることを受け入れること、(b)コンテンツを捨てることによってセグメントを所望の長さにトリミングすること、および、(c)任意の画像または無音などのナイーブ・パディングを使用することを含む。
本発明のいくつかの実施形態は、次の事実、潜在的な問題、または、現在の最先端についての改善のための潜在的な領域、あるいはその組合せを認識している。
(i)プロ・テニス・マッチの最中、短いビデオが、低い興奮スコアで誤って解釈されていたことがわかった、(ii)機械学習および深層学習の中で、モデルへの入力データは、正確な予測のために標準化される必要がある、(iii)ビデオのためのデータ準備の一部は、同じ長さのものであるカットおよびセグメントを作り出すことである、(iv)この例では、ビデオは、声援分析が興奮をランク付けできるように、6秒のセグメントに分けられる、(v)それでも、ビデオが長さ8秒だった場合、最後のセグメントは、最も興奮するコンテンツを含むことがあるが、無音の4秒でパディングされた、ならびに、(vi)結果として、最後の6秒のセグメントについての興奮スコアは、不自然に低かった。
本発明のいくつかの実施形態は、次の特徴、特性、または長所、あるいはその組合せの1つまたは複数を含むことができる。(i)機械学習モデルおよび深層学習モデルがマルチメディア解釈の正確さを向上させるように、セグメントを埋めるための、音声およびビデオをインテリジェント生成する、(ii)入力データが等しい期間であるとき、マルチメディア解釈モデルが最もよく機能するので、事前処理ステップとしてセグメントをパディングしなければならない、(iii)セグメントの元のコンテンツに一致したパディングを作り出すために、多くのドメイン固有のセグメントについて訓練された敵対的生成ネットワークを使用する、(iv)このようにパディングを生成することが、コンテンツを捨てたり任意の画像もしくは無音またはその両方を伴うパディングを行うより好ましい、(v)パディングされる特定のセグメントに関係のあるビデオおよびオーディオを生成すること、(vi)インテリジェントにパディングされたセグメントが、解釈モデルで分析される場合、一貫性のないデータにより、分析が損なわれることはない、(vii)一連のコンテンツ断片が、マルチメディア解釈のために分析されている、(viii)コンテンツ断片が、そのビデオ・コンテンツ(画像)と、そのオーディオ・コンテンツに分割される、(ix)ビデオとオーディオ両方が、所望の長さのセグメントに分割される、(x)ビデオの最後のセグメント、およびオーディオの最後のセグメントが、所望の長さでない場合、これらをパディングしなければならない、(xi)敵対的生成ネットワーク(GAN)が、パディングを必要とする個々のセグメントに一致した生成的ビデオ・コンテンツもしくはオーディオ・コンテンツあるいはその両方を作り出すために、多くのコンテンツ断片に対して訓練されたことがある、(xii)特徴の重みが、様々な期間の入力データによる悪影響を受けない、(xiii)全ての元のコンテンツが、理解のための入力データであり、したがって、このコンテンツ内の全ての潜在的特徴をモデルで評価することができる、(xiv)入力データが全て、コンテンツの解釈に関係があるので、モデルが、任意のものであるコンテンツの中から意味をサーチすることはない、(xv)ビデオ分析機械学習モデルのための入力データを準備するためのセグメント関連のビデオ・コンテンツを生成する、あるいは、(xvi)オーディオ分析機械学習モデルのための入力データを準備するためのセグメント関連のオーディオ・コンテンツを生成する。
本発明のいくつかの実施形態は、次の特徴、特性、または長所、あるいはその組合せの1つまたは複数を含むことができる。(i)媒体解釈モデル(この用語は、コンテンツ断片の主題についてコンテンツ断片を分析している機械学習モデルを示す)、(ii)パディング生成サブシステムは、解釈モデルのための入力データを準備する、(iii)媒体解釈システム(システムは、パディング生成サブシステムと媒体解釈モデルの両方からなる)、(iv)機械学習モデルのためのデータ準備は、このシステム内で生じる、(v)コンテンツ断片(ビデオ(画像)およびオーディオの両方を含むマルチメディア・トラック)、(vi)コンテンツ断片は、ビデオとオーディオに分割され、セグメントに分割されることになる、(vii)セグメント(コンテンツ断片は、解釈モデルのための入力データになる、より小さい単位に分割される、(viii)ビデオ(画像)とオーディオの両方が、セグメントに分割されることになる、(ix)解釈モデルのパフォーマンスを改善するために、入力データを等しい期間のセグメントにすることが望ましい、(x)最後のセグメント(コンテンツ断片のビデオまたはオーディオを、所望の期間のセグメントに分割したときの残りである部分セグメント)、(xi)このセグメントは、パディングを必要とし、したがって、他のセグメントの長さを一致させることになる、(xii)パディング生成サブシステム(最後のセグメントに追加されるビデオおよびオーディオ・コンテンツ(パディング)を作り出すために、敵対的生成ネットワークを使用する)、(xiii)識別ネットワーク(discriminator network)が、生成ネットワーク(generator network)のパディング出力が、分析されている残りの特定のセグメントに一致したものであるかどうかについて評価する、(xiv)最大パディング(最大パディングは、生成するために受入れ可能なパディングの閾値である)、(xv)例えば、最後のセグメントが、パディングの前に長さ1秒しかなく、セグメント期間が10秒でなければならない場合、パディングのパーセンテージは、90%である、ならびに、(xvi)これが、所定の最大パディングを超過する場合、セグメントは、媒体解釈モデルに有用なデータである可能性が低いので、セグメントを捨てること、またはトリミングすること、あるいはその両方を行わなければならない。
次のステップの1つまたは複数(必ずしもこの順序ではない)を、本発明の態様による方法の1つの例示の実施形態が含むことができる。
(i)コンテンツ断片の集合体を媒体解釈システムにアップロードする、(ii)セグメント期間が、媒体解釈システムのハイパーパラメータであり、例えば、研究者は、分析を始める前に、この期間を定めることができる、(iii)最大パディングが、パディング生成サブシステムのハイパーパラメータであり、例えば、研究者は、分析を始める前に、この期間を定めることができる、(iv)コンテンツ断片内のビデオ(画像)とオーディオを、独立した分析のために分離する、(v)コンテンツ断片のビデオを、所望の期間のセグメントに分割する、(vi)(a)最後の部分セグメントが存在するかどうか、および、部分セグメントが存在すると決定したかどうか、(b)パディングの量が最大パディングを超過しないこと、を評価することによってパディングを生成するべきかどうかを決定する、(vii)コンテンツ断片の全てのセグメントに対してパディング生成サブシステムを訓練し、ここで、生成ネットワークが最後のセグメントの特徴を使用して、このセグメントに固有のコンテンツを生成することになる、(viii)この特定のセグメントに、生成ネットワークの出力が適しているか否かについて、識別ネットワークが決定することになる、(ix)生成したパディングを最後のセグメントに追加する、(x)パディング済の最後のセグメントを含む全てのセグメントを、媒体解釈モデルに入力として与える、(xi)コンテンツ断片のオーディオ部分を所望の期間のセグメントに分割する代わりに、コンテンツ断片のオーディオ部分について、vからxのステップを繰り返す、(xii)オーディオ分析に使用されるネットワークが、ビデオ分析に使用されるものから独立したものである、または、(xiii)媒体解釈システムが、各コンテンツ断片のスコアをつけるとき、オーディオ分析の結果と、ビデオ分析の結果の両方を最終的に考慮することになる。
本発明の態様によれば、(i)敵対的生成ネットワーク(GAN)を使用して、GAN生成オーディオ・データを生成すること(これらのGANが通常行う、画像を生成することとは対照的である)、という動作を実施する(必ずしもこの順序ではない)方法、コンピュータ・プログラム製品、またはシステム、あるいはその組合せがある。
本発明の態様によれば、(i)敵対的生成ネットワーク(GAN)を使用して、GAN生成オーディオ・データを生成すること(これらのGANが通常行う、画像を生成することとは対照的である)、および、(ii)所定の長さより短い所与の長さの元のビデオ・クリップを供給することであって、元のビデオ・クリップが、元のオーディオ・データを含む、供給すること、という動作を実施する(必ずしもこの順序ではない)方法、コンピュータ・プログラム製品、またはシステム、あるいはその組合せがある。GANが生成したオーディオ・データの生成は、元のオーディオ・データに少なくとも部分的に基づく。
本発明の態様によれば、(i)敵対的生成ネットワーク(GAN)を使用して、GAN生成オーディオ・データを生成すること(これらのGANが通常行う、画像を生成することとは対照的である)、(ii)所定の長さより短い所与の長さの元のビデオ・クリップを供給することであって、元のビデオ・クリップが、元のオーディオ・データを含む、供給すること、および、(iii)元のビデオ・クリップと、GANが生成したオーディオ・データを結合させて、所定の長さを有するパディング済ビデオ・クリップを取得すること、という動作を実施する(必ずしもこの順序ではない)方法、コンピュータ・プログラム製品、またはシステム、あるいはその組合せがある。GANが生成したオーディオ・データの生成は、元のオーディオ・データに少なくとも部分的に基づく。
図5を参照しながら、本発明の1つの実施形態による方法を次に説明し、方法は、媒体解釈システム(MIS:media interpretation system)500、ならびにサブシステム510および548によって行われる。方法は、S502で始まり、ここでは、ビデオおよびオーディオ・コンテンツを含むコンテンツ断片を、MIS500にアップロードする。S504において、所望のセグメント期間長に応じて、コンテンツ断片のビデオ・コンテンツをセグメント化し、所望のセグメント長の複数のビデオ・セグメント、および、所望の期間長までの期間長の最後のビデオ・セグメントを生じる。S512において、最後のビデオ・セグメントが、所望の期間長より短い期間長の部分セグメントであるかどうかを、MIS500のサブシステムであるパディング生成サブシステム(PGS)510が決定する。最後のビデオ・セグメントが部分セグメントでない場合、方法は、S554に進み、ここで、MIS500のサブシステムである媒体解釈モデル548が、オーディオ・コンテンツを受け取ると、コンテンツ断片を解釈する。最後のビデオ・セグメントが部分セグメントである場合、処理は、S514に進み、ここで、PGS510は、許容されるパディング量があるかどうかを決定する。許容されるパディング量がない場合、処理は、上記のようにS554に進む。許容されるパディング量がある場合、処理は、S518に進み、ここで、意味のあるパディング・ビデオ・コンテンツのサブセグメントが、コンテンツ断片に適しているかどうかを評価するために、S516における識別ネットワークを参照しながら、意味のあるパディング・ビデオ・コンテンツのサブセグメントを決定して最後のビデオ・セグメントに添付するために、コンテンツ断片のビデオ部分のコンテンツに対してPGS510を訓練する。意味のあるパディング・コンテンツのサブセグメントがコンテンツ断片に適していると決定されると、S516における識別ネットワークが決定すると、パディング済の最後のビデオ・セグメントを作り出すために、S520において、意味のあるパディング・コンテンツのサブセグメントを最後のビデオ・セグメントに添付する。S550において、パディング済の最後のビデオ・セグメントを含むビデオ・コンテンツの複数のセグメントのうちのセグメントの全てを、入力として媒体解釈モデル548に提供する。S554において、提供された他の任意の入力と共に、S550から提供された入力に、機械学習のためのスコアをつける。
上述のようなビデオ・コンテンツに加えて、S502におけるものなど、コンテンツ断片は、典型的には、オーディオ・コンテンツも同様に含む。S506において、コンテンツ断片のオーディオ・コンテンツを、所望のセグメント期間長に応じて、複数のオーディオ・セグメントにセグメント化し、所望のセグメント期間長の複数のオーディオ・セグメント、および所望のセグメント長までの期間長の最後のオーディオ・セグメントを生じる。S532において、最後のオーディオ・セグメントが、所望の期間長より小さい期間長の部分的な最後のオーディオ・セグメントであるかどうかを、PGS510が決定する。最後のオーディオ・セグメントが、部分的な最後のオーディオ・セグメントでない場合、処理は、S554に進み、ここで、最後のオーディオ・セグメントを含む複数のオーディオ・セグメントを、機械学習のためのスコアをつけるために、媒体解釈モデル548に提供する。最後のオーディオ・セグメントが、部分的な最後のオーディオ・セグメントである場合、処理は、S534に進み、ここで、許容されるパディング量があるかどうかを、PGS510が決定する。許容されるパディング量がない場合、処理は、上記のようにS554に進む。許容されるパディング量がある場合、処理は、S538に進み、ここで、意味のあるパディング・オーディオ・コンテンツのサブセグメントがコンテンツ断片に適しているかどうかを評価するために、S536における識別ネットワークを参照しながら、意味のあるパディング・オーディオ・コンテンツのサブセグメントを決定して最後のオーディオ・セグメントに添付するために、コンテンツ断片のオーディオ部分のコンテンツに対してPGS510を訓練する。意味のあるパディング・オーディオ・コンテンツのサブセグメントがコンテンツ断片に適していると決定されたと、S536における識別ネットワークが決定すると、パディング済の最後のオーディオ・セグメントを作り出すために、S540において、意味のあるパディング・オーディオ・コンテンツのサブセグメントを最後のオーディオ・セグメントに添付する。S552において、パディング済の最後のオーディオ・セグメントを含むオーディオ・コンテンツの複数のセグメントのうちのセグメントの全てを、入力として媒体解釈モデル548に提供する。S554において、提供された他の任意の入力と共に、S552から提供された入力に、機械学習のためのスコアをつける。
図6のスクリーン・ショット600は、本発明の実施形態のための例示のユース・ケースとして提供された、最近のテニス・トーナメントからの一連のテニス・マッチについての、人物がどれほど興奮しているかについての計測が特定のビデオ・クリップを見つけることができる、興奮レベルのスコアをつけるための例示の機械学習ビデオ出力画面を示す。
本発明のいくつかの実施形態は、次の特徴、特性、または長所、あるいはその組合せの1つまたは複数を含むことができる。(i)上記のテニス・マッチの例を参照すると、最後の/部分的なセグメントのコンテンツのうちの2秒が、パディングの4秒のための完全に新しいコンテンツを作り出す敵対的生成ネットワーク(GAN)に入力されるデータとして使用される、(ii)同じドメイン内の他のコンテンツに対してGANを訓練したことがあり、したがって、フィットするパディングを連続して作り出すことができる、(iii)例えば、上記のテニス・マッチの例を参照すると、所与のテニス・ポイントのハイライト・クリップは、ウイニング・ショットの直後に終わらせることができるが、他のクリップから学習すると、GANは、プレイヤの祝賀、拍手、もしくは観客の反応についての要素を含むコンテンツを作り出すことができる、(iv)人間の目には、作り出したコンテンツが現実的であるように見えても見えなくてもよいが、目的は、媒体解釈モデルのために、このセグメントを準備することである、(v)これらの特徴を追加すると、媒体解釈モデルがコンテンツをより正確に評価するのに役立てることができる、(vi)生成したパディング・コンテンツを、部分セグメントの終わりに追加してもよい、(vii)それでも、一定のコンテンツおよび一定のゴールとともに、始めもしくは中間にコンテンツを追加することが適切になり得るという可能性がある、(viii)例えば、テニス・ポイントがサーブから始まり、サービスの動作を識別することが、媒体解釈モデルにとって重要であることがわかった場合、媒体解釈モデルがサーブとして解釈することになる要素をGANが作り出すことを期待して、第1のセグメントの始めを埋めることを、実装形態が選ぶことができる、(ix)データが正規化されていることを、多くの機械学習モデルが必要とする、(x)異なるスケールで計測された特徴の値は、共通のスケールに調節される、(xi)1つのゴールは、そのスケールが原因で大きくなった値が、モデルに大きすぎるインパクトを及ぼさないことを確実にすることである、(xii)媒体解釈のために一般に使用されるディープ・ニューラル・ネットワークについて、研究者は、典型的には、モデルが使用している各特徴を知らず、したがって、特徴レベルに正規化することはより困難である、(xiii)研究者は、モデルに供給されるセグメントの長さを制御でき、したがって、これを一致させることは普通のことである、または、(xiv)そうでなければ、より長いセグメントの特徴が、媒体解釈をゆがめることになる、大きすぎるインパクトを及ぼす可能性がある。
本発明のいくつかの実施形態は、以下の計算、アルゴリズム、または方程式、あるいはその組合せのいくつかまたは全てを使用することができる。
(i)この計算は、切り捨て除算(floor division)である:full_duration_segments =content_piece_duration // segment_duration、
(ii)partial_segment_duration = content_piece_duration -(full_duration_segments * segment_duration)、
(iii)padding_duration = segment_duration - partial_segment_duration、または
(iv)padding_percentage = padding_duration / segment_duration、

Claims (20)

  1. 方法であって、
    第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることであって、前記第1の未パディング視聴覚セグメントが、人間の聴衆のためにスポーツ大会で記録した視聴覚データに相当する、前記受け取ることと、
    前記第1の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、
    パディング時間間隔の前記セットの各所与のパディング時間間隔に対して、
    前記第1の未パディング視聴覚セグメントが、前記所与のパディング時間間隔を通じて続き、機械学習(ML)アルゴリズムにより決定されるスポーツ視聴者関心値を有する場合に、前記所与のパディング時間間隔を特徴づけるであろうそれぞれの対応する前記スポーツ視聴者関心値を決定すること、および
    前記所与のパディング時間間隔に対するパディング視聴覚セグメントが、前記所与のパディング時間間隔に対し決定された前記スポーツ視聴者関心値で特徴づけられるように、前記所与のパディング時間間隔に対する前記パディング視聴覚セグメントを生成することと、
    第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔の前記セットの各パディング時間間隔に対応する前記パディング視聴覚セグメントで、前記第1の未パディング視聴覚セグメントを組み立てることと、
    全体として考慮して前記第1のパディング済視聴覚セグメントのスポーツ視聴者関心値を、前記MLアルゴリズムにより決定することと
    を含む、方法。
  2. 全体として考慮した前記第1のパディング済視聴覚セグメントの前記スポーツ視聴者関心値に少なくとも部分的に基づいて、スポーツ・ハイライト・リールに含めるために、前記第1の未パディング視聴覚セグメントを選択すること
    をさらに含む、請求項1に記載の方法。
  3. 各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、前記所与のパディング時間間隔に対して合成視聴覚セグメントを生成することを含む、請求項1または2のいずれかに記載の方法。
  4. 各所与のパディング時間間隔に対する前記合成視聴覚セグメントの前記生成が、敵対的生成ネットワーク(GAN)によって実施される、請求項3に記載の方法。
  5. 各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、前記MLアルゴリズムによって決定される既知のスポーツ視聴者関心値を有する1つまたは複数の既存の視聴覚セグメントを組み立てることを含む、請求項1ないし4のいずれかに記載の方法。
  6. 前記第1の未パディング視聴覚セグメントの直前に生じる第1のパディング時間間隔、および前記第1の未パディング視聴覚セグメントの直後に生じる第2のパディング時間間隔、の2つのパディング時間間隔があり、
    前記第1および第2のパディング時間間隔が、少なくとも実質的に等しい期間である、
    請求項1ないし5のいずれかに記載の方法。
  7. 方法であって、
    第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることと、
    前記第1の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、
    パディング時間間隔の前記セットの各所与のパディング時間間隔に対して、
    前記第1の未パディング視聴覚セグメントが、前記所与のパディング時間間隔を通じて続き、機械学習(ML)アルゴリズムにより決定される視聴者関心値を有する場合に、前記所与のパディング時間間隔を特徴づけるであろうそれぞれの対応する前記視聴者関心値を決定すること、および
    前記所与のパディング時間間隔に対する合成視聴覚セグメントが、前記所与のパディング時間間隔に対し決定された前記視聴者関心値で特徴づけられるように、前記所与のパディング時間間隔に対する前記合成視聴覚セグメントを生成することと、
    第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔の前記セットの各パディング時間間隔に対応する前記合成視聴覚セグメントで、前記第1の未パディング視聴覚セグメントを組み立てることと、
    全体として考慮して前記第1のパディング済視聴覚セグメントの視聴者関心値を、前記MLアルゴリズムにより決定することと
    を含む、方法。
  8. 全体として考慮した前記第1のパディング済視聴覚セグメントの前記視聴者関心値に少なくとも部分的に基づいて、より大きいビデオ上演に含めるために、前記第1の未パディング視聴覚セグメントを選択すること、
    をさらに含む、請求項7に記載の方法。
  9. 各所与のパディング時間間隔に対する前記合成視聴覚セグメントの前記生成が、敵対的生成ネットワーク(GAN)によって実施される、請求項7または8のいずれかに記載の方法。
  10. 前記合成視聴覚セグメントが、人間の視聴者に理解できない、請求項7ないし9のいずれかに記載の方法。
  11. (i)前記第1の未パディング視聴覚セグメントの直前に生じる第1のパディング時間間隔、および(ii)前記第1の未パディング視聴覚セグメントの直後に生じる第2のパディング時間間隔、の2つのパディング時間間隔があり、
    前記第1および第2のパディング時間間隔が、少なくとも実質的に等しい期間である、
    請求項7ないし10のいずれかに記載の方法。
  12. 複数の訓練データ・セットで前記MLアルゴリズムを訓練することであって、各訓練データ・セットが、(i)視聴覚セグメントを示す情報を含んだ視聴覚セグメント・データ・セット、および(ii)視聴者関心値を含む、前記訓練すること
    をさらに含み、
    各所与のパディング時間間隔に対する前記合成視聴覚セグメントの前記生成が、前記複数の訓練データ・セットに基づく、
    請求項7ないし11のいずれかに記載の方法。
  13. 方法であって、
    複数の履歴視聴覚セグメント・データ・セットを受け取ることであって、各履歴視聴覚セグメント・データ・セットが、履歴視聴覚セグメントの情報を含む、前記受け取ることと、
    第1の未パディング視聴覚セグメントを示す情報を含んだ第1の未パディング視聴覚セグメント・データ・セットを受け取ることと、
    前記第1の未パディング・セグメントの前または後あるいはその両方で生じるパディング時間間隔のセットを決定することと、
    パディング時間間隔の前記セットの各所与のパディング時間間隔に対して、前記第1の未パディング視聴覚セグメントが前記所与のパディング時間間隔を通じて続いた場合、所与のパディング時間間隔が含んでいたであろうものに似た視聴覚コンテンツを前記パディング視聴覚セグメントが有するように、1つまたは複数の履歴視聴覚セグメントからパディング視聴覚セグメントを生成することと、
    第1のパディング済視聴覚セグメントを示す情報を含んだ第1のパディング済視聴覚セグメント・データ・セットを取得するために、パディング時間間隔の前記セットの各パディング時間間隔に対応する前記パディング視聴覚セグメントで、前記第1の未パディング視聴覚セグメントを組み立てることと、
    全体として考慮して前記第1のパディング済視聴覚セグメントの視聴者関心値を、MLアルゴリズムにより決定することと
    を含む、方法。
  14. 全体として考慮した前記第1のパディング済視聴覚セグメントの前記視聴者関心値に少なくとも部分的に基づいて、より大きいビデオ上演に含めるために、前記第1の未パディング視聴覚セグメントを選択すること
    をさらに含む、請求項13に記載の方法。
  15. 複数の訓練データ・セットで前記MLアルゴリズムを訓練することであって、各訓練データ・セットが、視聴覚セグメントを示す情報を含んだ視聴覚セグメント・データ・セット、および視聴者関心値を含む、前記訓練すること
    をさらに含み、
    前記複数の履歴視聴覚セグメント・データ・セットが、前記複数の訓練データ・セットの前記視聴覚セグメントである、
    請求項13または14のいずれかに記載の方法。
  16. 各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、単一の履歴視聴覚セグメントの少なくとも一部を選択することによって実施される、請求項13ないし15のいずれかに記載の方法。
  17. 各所与のパディング時間間隔に対する前記パディング視聴覚セグメントの前記生成が、複数の履歴視聴覚セグメントの一部を組み立てることを含む、請求項13ないし16のいずれかに記載の方法。
  18. 前記第1の未パディング視聴覚セグメントの直前に生じる第1のパディング時間間隔、および前記第1の未パディング視聴覚セグメントの直後に生じる第2のパディング時間間隔、の2つのパディング時間間隔があり、
    前記第1および第2のパディング時間間隔が、少なくとも実質的に等しい期間である、
    請求項13ないし17のいずれかに記載の方法。
  19. 訓練機械モデルを管理するためのコンピュータ・プログラム製品であって、
    請求項1ないし18のいずれかに記載の方法を実施するために、処理回路で読み取ることができ、前記処理回路による実行のための命令を格納するコンピュータ可読ストレージ媒体
    を備える、コンピュータ・プログラム製品。
  20. コンピュータ可読媒体に格納され、デジタル・コンピュータの内部メモリにロードすることができるコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項1ないし18のいずれかに記載の方法を実施するための、ソフトウェア・コード部分を含む、コンピュータ・プログラム。
JP2021535241A 2019-02-25 2020-02-25 機械学習のための動的視聴覚セグメント・パディング Active JP7450623B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/283,912 2019-02-25
US16/283,912 US10832734B2 (en) 2019-02-25 2019-02-25 Dynamic audiovisual segment padding for machine learning
PCT/IB2020/051586 WO2020174383A1 (en) 2019-02-25 2020-02-25 Dynamic audiovisual segment padding for machine learning

Publications (3)

Publication Number Publication Date
JP2022521120A true JP2022521120A (ja) 2022-04-06
JPWO2020174383A5 JPWO2020174383A5 (ja) 2022-06-06
JP7450623B2 JP7450623B2 (ja) 2024-03-15

Family

ID=72143024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021535241A Active JP7450623B2 (ja) 2019-02-25 2020-02-25 機械学習のための動的視聴覚セグメント・パディング

Country Status (5)

Country Link
US (2) US10832734B2 (ja)
JP (1) JP7450623B2 (ja)
CN (1) CN113439277A (ja)
GB (1) GB2596463B (ja)
WO (1) WO2020174383A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824487B2 (en) 2018-07-17 2020-11-03 Xandr Inc. Real-time data processing pipeline and pacing control systems and methods
US10997464B2 (en) * 2018-11-09 2021-05-04 Adobe Inc. Digital image layout training using wireframe rendering within a generative adversarial network (GAN) system
US10832734B2 (en) * 2019-02-25 2020-11-10 International Business Machines Corporation Dynamic audiovisual segment padding for machine learning
WO2021162935A1 (en) * 2020-02-13 2021-08-19 Stats Llc Dynamically predicting shot type using a personalized deep neural network
CN118055199A (zh) * 2022-11-17 2024-05-17 北京字跳网络技术有限公司 视频剪辑方法及装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5327518A (en) 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
US5793888A (en) 1994-11-14 1998-08-11 Massachusetts Institute Of Technology Machine learning apparatus and method for image searching
CA2167748A1 (en) 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
US5596159A (en) 1995-11-22 1997-01-21 Invision Interactive, Inc. Software sound synthesis system
US6266068B1 (en) 1998-03-13 2001-07-24 Compaq Computer Corporation Multi-layer image-based rendering for video synthesis
US6513025B1 (en) 1999-12-09 2003-01-28 Teradyne, Inc. Multistage machine learning process
US7024033B2 (en) 2001-12-08 2006-04-04 Microsoft Corp. Method for boosting the performance of machine-learning classifiers
US20030131362A1 (en) 2002-01-09 2003-07-10 Koninklijke Philips Electronics N.V. Method and apparatus for multimodal story segmentation for linking multimedia content
US7142645B2 (en) * 2002-10-04 2006-11-28 Frederick Lowe System and method for generating and distributing personalized media
JP2006058874A (ja) 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
CN101107858A (zh) 2005-01-20 2008-01-16 皇家飞利浦电子股份有限公司 自动产生包括产品安置的预告片
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US9047374B2 (en) * 2007-06-08 2015-06-02 Apple Inc. Assembling video content
US8207989B2 (en) 2008-12-12 2012-06-26 Microsoft Corporation Multi-video synthesis
US9247225B2 (en) 2012-09-25 2016-01-26 Intel Corporation Video indexing with viewer reaction estimation and visual cue detection
US10068614B2 (en) * 2013-04-26 2018-09-04 Microsoft Technology Licensing, Llc Video service with automated video timeline curation
US10269390B2 (en) 2015-06-11 2019-04-23 David M. DeCaprio Game video processing systems and methods
EP3475920A4 (en) 2016-06-23 2020-01-15 Loomai, Inc. SYSTEMS AND METHODS FOR GENERATING HUMAN HEAD COMPUTER-BASED ANIMATION MODELS FROM CAPTURED DATA IMAGES
CN107707931B (zh) 2016-08-08 2021-09-10 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
US11024009B2 (en) 2016-09-15 2021-06-01 Twitter, Inc. Super resolution using a generative adversarial network
US10074038B2 (en) 2016-11-23 2018-09-11 General Electric Company Deep learning medical systems and methods for image reconstruction and quality evaluation
US10043109B1 (en) 2017-01-23 2018-08-07 A9.Com, Inc. Attribute similarity-based search
US10474880B2 (en) 2017-03-15 2019-11-12 Nec Corporation Face recognition using larger pose face frontalization
CN107464210B (zh) 2017-07-06 2020-02-21 浙江工业大学 一种基于生成式对抗网络的图像风格迁移方法
CN108256627A (zh) 2017-12-29 2018-07-06 中国科学院自动化研究所 视听信息互生装置及其基于循环对抗生成网络的训练系统
US11615208B2 (en) * 2018-07-06 2023-03-28 Capital One Services, Llc Systems and methods for synthetic data generation
US10832734B2 (en) 2019-02-25 2020-11-10 International Business Machines Corporation Dynamic audiovisual segment padding for machine learning

Also Published As

Publication number Publication date
JP7450623B2 (ja) 2024-03-15
GB2596463B (en) 2022-05-11
US20210012809A1 (en) 2021-01-14
US10832734B2 (en) 2020-11-10
GB2596463A (en) 2021-12-29
US20200273495A1 (en) 2020-08-27
WO2020174383A1 (en) 2020-09-03
US11521655B2 (en) 2022-12-06
CN113439277A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
JP7450623B2 (ja) 機械学習のための動的視聴覚セグメント・パディング
US11663827B2 (en) Generating a video segment of an action from a video
EP3473016B1 (en) Method and system for automatically producing video highlights
CN110249622A (zh) 实时的语义感知的相机曝光控制
WO2019228267A1 (zh) 短视频的合成方法、装置、设备及存储介质
CN110737783B (zh) 一种推荐多媒体内容的方法、装置及计算设备
US20170065889A1 (en) Identifying And Extracting Video Game Highlights Based On Audio Analysis
CN109121021A (zh) 一种视频集锦的生成方法、装置、电子设备及存储介质
CN110012356A (zh) 视频推荐方法、装置和设备及计算机存储介质
JP6807389B2 (ja) メディアコンテンツのパフォーマンスの即時予測のための方法及び装置
CN110781321A (zh) 一种多媒体内容推荐方法及装置
CN107615766A (zh) 用于创建和分配多媒体内容的系统和方法
CN107463698B (zh) 基于人工智能推送信息的方法和装置
US11849160B2 (en) Image analysis system
US10743061B2 (en) Display apparatus and control method thereof
CN110169075B (zh) 在直播中智能插入次要内容
CN105848737B (zh) 解析装置、记录媒体和解析方法
US11206453B2 (en) Cognitive broadcasting of an event
Godi et al. Indirect match highlights detection with deep convolutional neural networks
Gu et al. SumBot: Summarize videos like a human
US11270338B2 (en) Optimizing a digital display
Wang et al. Unsupervised Multi-stream Highlight detection for the Game" Honor of Kings"
US11475668B2 (en) System and method for automatic video categorization
CN110019942A (zh) 一种视频鉴别方法及系统
WO2023120263A1 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240305

R150 Certificate of patent or registration of utility model

Ref document number: 7450623

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150