JP7444250B2 - 情報処理装置、制御方法、及び、プログラム - Google Patents

情報処理装置、制御方法、及び、プログラム Download PDF

Info

Publication number
JP7444250B2
JP7444250B2 JP2022527326A JP2022527326A JP7444250B2 JP 7444250 B2 JP7444250 B2 JP 7444250B2 JP 2022527326 A JP2022527326 A JP 2022527326A JP 2022527326 A JP2022527326 A JP 2022527326A JP 7444250 B2 JP7444250 B2 JP 7444250B2
Authority
JP
Japan
Prior art keywords
video data
candidate
slow
video
digest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022527326A
Other languages
English (en)
Other versions
JPWO2021240653A1 (ja
JPWO2021240653A5 (ja
Inventor
悠 鍋藤
克 菊池
壮馬 白石
はるな 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021240653A1 publication Critical patent/JPWO2021240653A1/ja
Publication of JPWO2021240653A5 publication Critical patent/JPWO2021240653A5/ja
Application granted granted Critical
Publication of JP7444250B2 publication Critical patent/JP7444250B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本開示は、ダイジェストの生成に関する処理を行う情報処理装置、制御方法及び記憶媒体の技術分野に関する。
素材となる映像データを編集してダイジェストを生成する技術が存在する。例えば、特許文献1には、グランドでのスポーツイベントの映像ストリームからハイライトを確認して製作する方法が開示されている。
特表2019-522948号公報
特許文献1には、素材となる映像データにおいて重要なシーンを閲覧者が詳細に確認できるようなハイライト映像の編集については、何ら開示されていない。
本開示の目的は、上記の課題を勘案し、ダイジェスト候補を好適に生成することが可能な情報処理装置、制御方法及び記憶媒体を提供することである。
情報処理装置の一の態様は、素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、前記スロー映像毎に重要度を推論して算出したスコアが第2の閾値以上であるスロー映像を第2候補映像データとして選定する第2候補選定手段と、前記第1候補映像データ毎に重要度を推論して算出したスコアが第1の閾値以上である第1候補映像データと、前記第2候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、を有する情報処理装置である。
制御方法の一の態様は、コンピュータにより、素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、前記スロー映像毎に重要度を推論して算出したスコアが第2の閾値以上であるスロー映像を第2候補映像データとして選定し、前記第1候補映像データ毎に重要度を推論して算出したスコアが第1の閾値以上である第1候補映像データと、前記第2候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、制御方法である。
プログラムの一の態様は、素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、前記スロー映像毎に重要度を推論して算出したスコアが第2の閾値以上であるスロー映像を第2候補映像データとして選定する第2候補選定手段と、前記第1候補映像データ毎に重要度を推論して算出したスコアが第1の閾値以上である第1候補映像データと、前記第2候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段としてコンピュータを機能させるプログラム。
本開示によれば、ダイジェスト候補を好適に生成することができる。
第1実施形態におけるダイジェスト候補選定システムの構成を示す。 情報処理装置のハードウェア構成を示す。 情報処理装置の機能ブロックの一例である。 (A)素材映像データの再生時間長に応じた長さの帯グラフにより素材映像データを表した図である。(B)素材映像データの時系列での第1スコアを示す線グラフである。(C)素材映像データから生成された第1速度スロー映像を示す帯グラフである。(D)素材映像データから生成された第2速度スロー映像を示す帯グラフである。(E)生成されたダイジェスト候補を示す帯グラフである。 学習装置の機能ブロック構成の一例を示す。 第1実施形態において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 変形例3において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 変形例4において情報処理装置が実行する処理の手順を示すフローチャートの一例である。 第2実施形態における情報処理装置の機能ブロック図である。 第2実施形態において情報処理装置が実行するフローチャートの一例である。
以下、図面を参照しながら、情報処理装置、制御方法及び記憶媒体の実施形態について説明する。
<第1実施形態>
(1)システム構成
図1は、第1実施形態に係るダイジェスト候補選定システム100の構成を示す。ダイジェスト候補選定システム100は、素材となる映像データ(「素材映像データDm」とも呼ぶ。)のダイジェストの候補となる映像データ(「ダイジェスト候補Cd」とも呼ぶ。)を好適に選定する。ダイジェスト候補選定システム100は、主に、情報処理装置1と、入力装置2と、出力装置3と、記憶装置4とを備える。以後において、映像データは、音データを含んでもよい。
情報処理装置1は、通信網を介し、又は、無線若しくは有線による直接通信により、入力装置2、及び出力装置3とデータ通信を行う。情報処理装置1は、素材映像データDmが入力された場合に、素材映像データDmの一部の重要区間に対するスロー映像を含めたダイジェスト候補Cdを生成する。なお、素材映像データDmは、記憶装置4に記憶された任意の映像データであってもよく、記憶装置4以外の外部装置から情報処理装置1に供給される映像データであってもよい。後者の場合、素材映像データDmは、映像データを生成するカメラからリアルタイムで送信される映像データであってもよい。
入力装置2は、ユーザ入力を受け付ける任意のユーザインターフェースであり、例えば、ボタン、キーボード、マウス、タッチパネル、音声入力装置などが該当する。入力装置2は、ユーザ入力に基づき生成した入力信号「S1」を、情報処理装置1へ供給する。出力装置3は、例えば、ディスプレイ、プロジェクタ等の表示装置、及び、スピーカ等の音出力装置であり、情報処理装置1から供給される出力信号「S2」に基づき、所定の表示又は/及び音出力(ダイジェスト候補Cdの再生などを含む)を行う。
記憶装置4は、情報処理装置1の処理に必要な各種情報を記憶するメモリである。記憶装置4は、例えば、第1推論器情報D1と、第2推論器情報D2とを記憶する。
第1推論器情報D1は、入力された映像データに対する第1のスコア(「第1スコアSc1」とも呼ぶ。)を推論する推論器である第1推論器に関する情報である。第1スコアSc1は、例えば、入力された映像データの重要度を示すスコアであり、上述の重要度は、入力された映像データが重要区間であるか又は非重要区間であるか(即ちダイジェストの一区間として相応しいか否か)を判定するための基準となる指標である。
第1推論器は、例えば、映像データを構成する所定枚数(1枚以上)の画像が入力された場合に、対象の映像データに対する第1スコアSc1を推論するように予め学習され、第1推論器情報D1には、学習された第1推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、素材映像データDmを所定の再生時間長の区間毎に素材映像データDmを分割した映像データ(「区間映像データDp」とも呼ぶ。)を、第1推論器に順次入力する。なお、第1推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第1スコアSc1を推論してもよい。この場合、第1推論器には、音データから算出した特徴量が入力されてもよい。
第2推論器情報D2は、入力された映像データに対する第2のスコア(「第2スコアSc2」とも呼ぶ。)を推論する推論器である第2推論器に関する情報である。第2スコアSc2は、第1の例では、特定のイベントが発生しているか否かの確からしさを示すスコアである。上述の「特定のイベント」は、撮影対象の催し物において重要なイベントを指し、例えば、催し物において重要な特定の行動(例えば野球におけるホームラン)の発生又はその他の事象の発生(例えば得点を競う競技における得点の発生)などが該当する。第2の例では、第2スコアSc2は、第1スコアSc1と同一の指標を表すスコアであり、入力された映像データに対する重要度を示すものであってもよい。
第2推論器は、例えば、映像データを構成する所定枚数の画像が入力された場合に、対象の映像データに対する第2スコアSc2を推論するように予め学習され、第2推論器情報D2には、学習された第2推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、選定した区間映像データDpから生成したスロー映像の各々を第2推論器に順次入力する。なお、第2推論器情報D2は、映像データの再生速度毎に分けて学習された第2推論器のパラメータを含んでもよい。
第1推論器及び第2推論器の学習モデルは、それぞれ、ニューラルネットワーク又はサポートベクターマシンなどの任意の機械学習に基づく学習モデルであってもよい。例えば、上述の第1推論器及び第2推論器のモデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第1推論器情報D1及び第2推論器情報D2は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。
なお、記憶装置4は、情報処理装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置4は、情報処理装置1とデータ通信を行うサーバ装置であってもよい。また、記憶装置4は、複数の装置から構成されてもよい。この場合、記憶装置4は、第1推論器情報D1及び第2推論器情報D2を分散して記憶してもよい。
以上において説明したダイジェスト候補選定システム100の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、入力装置2及び出力装置3は、一体となって構成されてもよい。この場合、入力装置2及び出力装置3は、情報処理装置1と一体となるタブレット型端末として構成されてもよい。他の例では、ダイジェスト候補選定システム100は、入力装置2又は出力装置3の少なくとも一方を備えなくともよい。さらに別の例では、情報処理装置1は、複数の装置から構成されてもよい。この場合、情報処理装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。
(2)情報処理装置のハードウェア構成
図2は、情報処理装置1のハードウェア構成を示す。情報処理装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12及びインターフェース13は、データバス19を介して接続されている。
プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、量子プロセッサなどのプロセッサである。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ12には、情報処理装置1が実行するプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置4から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置4として機能してもよい。同様に、記憶装置4は、情報処理装置1のメモリ12として機能してもよい。なお、情報処理装置1が実行するプログラムは、メモリ12以外の記憶媒体に記憶されてもよい。
インターフェース13は、情報処理装置1と他の装置とを電気的に接続するためのインターフェースである。例えば、情報処理装置1と他の装置とを接続するためのインターフェースは、プロセッサ11の制御に基づき他の装置とデータの送受信を有線又は無線により行うためのネットワークアダプタなどの通信インターフェースであってもよい。他の例では、情報処理装置1と他の装置とはケーブル等により接続されてもよい。この場合、インターフェース13は、他の装置とデータの授受を行うためのUSB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したハードウェアインターフェースを含む。
なお、情報処理装置1のハードウェア構成は、図2に示す構成に限定されない。例えば、情報処理装置1は、入力装置2又は出力装置3の少なくとも一方を含んでもよい。
(3)機能ブロック
情報処理装置1は、スロー映像を生成する区間映像データDpの候補(「第1候補映像データCd1」とも呼ぶ。)を第1スコアSc1に基づき選定し、ダイジェスト候補Cdに含めるスロー映像の候補(「第2候補映像データCd2」とも呼ぶ。)を第2スコアSc2に基づき選定する。そして、情報処理装置1は、第1候補映像データCd1と第2候補映像データCd2に基づき、ダイジェスト候補Cdを生成する。以下では、上述の処理を実現するための情報処理装置1の機能ブロックについて説明する。
情報処理装置1のプロセッサ11は、機能的には、取得部14と、第1候補選定部15と、スロー映像生成部16と、第2候補選定部17と、ダイジェスト候補生成部18とを有する。なお、図3では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図3に限定されない。後述する他の機能ブロックの図においても同様である。
取得部14は、インターフェース13を介して素材映像データDmを取得し、素材映像データDmを区間毎に分割した映像データである区間映像データDpを、順次第1候補選定部15に供給する。この場合、区間映像データDpは、例えば、素材映像データDmを単位時間長の区間により区切ったデータであり、所定枚数分の画像を含むデータとなる。
第1候補選定部15は、取得部14から順次供給される区間映像データDpに対して第1スコアSc1を算出し、第1スコアSc1に基づき第1候補映像データCd1を区間映像データDpから選定する。そして、第1候補選定部15は、選定した第1候補映像データCd1を、スロー映像生成部16及びダイジェスト候補生成部18に供給する。
この場合、第1候補選定部15は、第1推論器情報D1を参照することで第1推論器を構成し、取得部14から供給される区間映像データDpを第1推論器に順次入力することで、入力した区間映像データDpに対する第1スコアSc1を算出する。これにより、第1候補選定部15は、重要性が高い区間映像データDpほど高い値となる第1スコアSc1を算出する。そして、第1候補選定部15は、第1スコアSc1が予め定めた所定の閾値(「閾値Th1」とも呼ぶ。)以上となる区間映像データDpを、第1候補映像データCd1として選定する。第1候補映像データCd1は、スロー映像を生成する対象となる区間映像データDpの候補であると共に、ダイジェスト候補Cdに含める区間映像データDpの候補となる。
なお、第1候補選定部15は、第1スコアSc1が閾値Th1以上となる区間映像データDpが時系列において連続する1つのシーンを構成する場合、連続する区間映像データDpを1つのまとまった第1候補映像データCd1とみなしてもよい。この場合、第1候補映像データCd1は、少なくとも1つ以上の区間映像データDpを含み、再生時間長が夫々異なる可能性がある映像データとなる。
スロー映像生成部16は、第1候補選定部15から供給される第1候補映像データCd1の各々に対し、等倍速度未満の再生速度(例えば1/2、1/3、1/4再生速度等)となるスロー映像(「スロー映像SL」とも呼ぶ。)を生成する。スロー映像生成部16は、生成したスロー映像SLを第2候補選定部17に供給する。この場合、例えば、スロー映像生成部16は、第1候補映像データCd1を構成する時系列の画像の間に、前後の所定枚数の画像(フレーム)から生成した補間画像を挿入することで、スロー映像SLを生成する。補間画像は、再生速度に応じた枚数及び間隔により挿入される。補間画像の生成及び挿入については、任意の補間手法に基づき行われてもよい。
好適には、スロー映像生成部16は、第1候補映像データCd1毎に、複数の再生速度に対応するスロー映像SLを生成するとよい。これにより、複数の再生速度から適した再生速度のスロー映像SLをダイジェスト候補Cdに含めることが可能となる。
第2候補選定部17は、スロー映像生成部16から供給される各スロー映像SLに対して第2スコアSc2を算出し、第2スコアSc2に基づき第2候補映像データCd2となるスロー映像SLを選定する。そして、第2候補選定部17は、選定した第2候補映像データCd2をダイジェスト候補生成部18に供給する。
この場合、第2候補選定部17は、第2推論器情報D2を参照することで第2推論器を構成し、当該第2推論器にスロー映像SLを順次入力することで、入力したスロー映像SLに対する第2スコアSc2を算出する。この場合、第2スコアSc2は、第1スコアSc1と同様、重要性が高い映像であるほど高い値を示すものであってもよく、特定のイベントが発生している蓋然性が高いほど高い値を示すものであってもよい。そして、第2候補選定部17は、第2スコアSc2が予め定めた所定の閾値(「閾値Th2」とも呼ぶ。)以上となるスロー映像SLを、第2候補映像データCd2として選定する。なお、第2候補選定部17は、再生速度毎に学習された第2推論器のパラメータが第2推論器情報D2に記憶されている場合には、対象となるスロー映像SLの再生速度に応じた第2推論器を選択し、選択した第2推論器に対象のスロー映像SLを入力するとよい。
ここで、同一の区間映像データDpから生成された異なる再生速度の2個以上のスロー映像SLの第2スコアSc2が閾値Th2となった場合について補足説明する。この場合、第1の例では、第2候補選定部17は、当該2個以上のスロー映像SLの全てを第2候補映像データCd2として選定する。第2の例では、第2候補選定部17は、当該2個以上のスロー映像SLのうち、第2スコアSc2が最も高い1個のスロー映像SLを、第2候補映像データCd2として選定する。第2の例では、同一のシーンの複数のスロー映像SLがダイジェスト候補Cdに含まれるのを好適に抑制することができる。
なお、1つのシーンを構成する区間映像データDpのまとまりが第1候補映像データCd1として選定されている場合、スロー映像生成部16及び第2候補選定部17は、シーン毎にスロー映像SLの生成及び第2スコアSc2の算出を行ってもよい。この場合、第2候補選定部17は、時系列において連続したスロー映像SLから構成されるシーン(スローシーン)毎の第2スコアSc2を算出し、スローシーン毎に第2候補映像データCd2としての適否を判定する。この処理の詳細については、図4(A)~図4(E)を参照して後述する。
ダイジェスト候補生成部18は、第1候補選定部15から供給される第1候補映像データCd1と、第2候補選定部17から供給される第2候補映像データCd2とに基づき、ダイジェスト候補Cdを生成する。例えば、ダイジェスト候補生成部18は、全ての第1候補映像データCd1と、全ての第2候補映像データCd2とを結合した1つの映像データを、ダイジェスト候補Cdとして生成する。この場合、ダイジェスト候補生成部18は、例えば、シーンごとに時系列に第1候補映像データCd1及び第2候補映像データCd2を並べて連結したダイジェスト候補Cdを生成する。ダイジェスト候補Cdの生成の詳細については、図4(A)~図4(E)を参照して後述する。
なお、ダイジェスト候補生成部18は、ダイジェスト候補Cdとして1つの映像データを生成する代わりに、第1候補映像データCd1と第2候補映像データCd2とのリストを、ダイジェスト候補Cdとして生成してもよい。この場合、ダイジェスト候補生成部18は、ダイジェスト候補Cdを出力装置3に表示させ、最終的なダイジェストに含める映像データを選択するユーザ入力などを入力装置2により受け付けてもよい。また、ダイジェスト候補生成部18は、選定された第1候補映像データCd1と第2候補映像データCd2との一部のみを用いてダイジェスト候補Cdを生成してもよい。
ダイジェスト候補生成部18は、生成したダイジェスト候補Cdを、記憶装置4又はメモリ12に記憶させてもよく、記憶装置4以外の外部装置に送信してもよい。また、ダイジェスト候補生成部18は、ダイジェスト候補Cdを再生するための出力信号S2を出力装置3に送信することで、ダイジェスト候補Cdを出力装置3により再生してもよい。
なお、図3において説明した取得部14、第1候補選定部15、スロー映像生成部16、第2候補選定部17及びダイジェスト候補生成部18の各構成要素は、例えば、プロセッサ11が記憶装置4又はメモリ12に格納されたプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアを含む任意のコントローラにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
(4)具体例
次に、図3の機能ブロックに基づくダイジェスト候補Cdの生成の具体例について図4(A)~(E)を参照して説明する。以後では、一例として、情報処理装置1は、スロー映像SLとして、第1再生速度に対応する第1速度スロー映像「SL1」と、第2再生速度に対応する第2速度スロー映像「SL2」とを生成するものとする。ここで、第1再生速度は、等倍速度未満であり、第2再生速度は、第1再生速度未満である。
図4(A)は、素材映像データDmの再生時間長(即ち画像数)に応じた長さの帯グラフにより素材映像データDmを表した図である。図4(B)は、素材映像データDmの時系列での第1スコアSc1を示す線グラフである。図4(C)は、図4(A)に示す素材映像データDmから生成された第1速度スロー映像SL1を示す帯グラフである。図4(D)は、図4(A)に示す素材映像データDmから生成された第2速度スロー映像SL2を示す帯グラフである。図4(E)は、生成されたダイジェスト候補Cdを示す帯グラフである。
図4(A)及び図4(B)に示すように、第1候補選定部15は、「シーンA」及び「シーンB」に該当する区間映像データDpの第1スコアSc1が閾値Th1以上となると判定し、これらの区間映像データDpを第1候補映像データCd1として選定する。この場合、シーンA及びシーンBは、夫々、第1スコアSc1が閾値Th1以上となる1又は複数の区間映像データDpが連続したシーンに相当する。なお、シーンAは、素材映像データDmにおいて再生時刻「t1」から再生時刻「t2」までの区間に対応し、シーンBは、素材映像データDmにおいて再生時刻「t3」から再生時刻「t4」までの区間に対応する。
そして、スロー映像生成部16は、シーンAを第1再生速度に変換したスローシーン「A1」と、シーンAを第2再生速度に変換したスローシーン「A2」とを生成する。同様に、スロー映像生成部16は、シーンBを第1再生速度に変換したスローシーン「B1」と、シーンBを第2再生速度に変換したスローシーン「B2」とを生成する。ここで、スローシーンA1及びスローシーンB1は、シーンA及びシーンBを構成する区間映像データDpの再生速度を第1再生速度に変更した第1速度スロー映像SL1から構成されるシーンとなる。同様に、スローシーンA2及びスローシーンB2は、シーンA及びシーンBを構成する区間映像データDpの再生速度を第2再生速度に変更した第2速度スロー映像SL2から構成されるシーンとなる。
そして、第2候補選定部17は、スローシーンA1、スローシーンB1、スローシーンA2、スローシーンB2を構成する各スロー映像SLに対して第2スコアSc2を算出し、第2スコアSc2が閾値Th2以上となるスロー映像SLを第2候補映像データCd2として選定する。ここでは、第2候補選定部17は、スローシーンA1に対応するスロー映像SLの第2スコアSc2が閾値Th2以上となり、それ以外のスローシーン(シーンB1、A2、B2)に対応するスロー映像SLの第2スコアSc2がいずれも閾値Th2未満であると判定する。よって、この場合、第2候補選定部17は、シーンA1を、第2候補映像データCd2として選定する。
ここで、第2候補選定部17は、スローシーンを構成するスロー映像SL毎に第2候補映像データCd2としての適否を判定する代わりに、スローシーン毎に第2候補映像データCd2としての適否を判定してもよい。この場合、第2候補選定部17は、スローシーン毎に連続する各スロー映像SLに対する第2スコアSc2の代表値(平均値、中央値などを含む)を、スローシーン毎の第2スコアSc2として算出する。そして、第2候補選定部17は、スローシーン毎の第2スコアSc2が閾値Th2以上となるスローシーンを、第2候補映像データCd2として選定する。図4(A)~(E)の例では、第2候補選定部17は、スローシーンA1、スローシーンB1、スローシーンA2、スローシーンB2の各々に対して第2スコアSc2を算出し、当該第2スコアSc2が閾値Th2以上となるシーンA1を、第2候補映像データCd2として選定する。
そして、図4(E)に示すように、ダイジェスト候補生成部18は、第1候補映像データCd1であるシーンA及びシーンBと、第2候補映像データCd2であるスローシーンA1とを時系列により連結させたダイジェスト候補Cdを生成する。
ここで、ダイジェスト候補生成部18は、素材映像データDmにおいて同一区間(同一の再生時間帯)となるシーンについては、再生速度が等倍速度に近いシーンから順に連結させている。図4(E)の例では、ダイジェスト候補生成部18は、シーンAとスローシーンA1とが素材映像データDmにおいて同一区間に対応することから、再生速度が等倍速度であるシーンAをスローシーンA1の前に配置したダイジェスト候補Cdを生成している。
また、ダイジェスト候補生成部18は、同一の再生速度において連続する映像データについては、一つのまとまったシーンとしてダイジェスト候補Cdに組み込んでいる。図4(E)の例では、シーンA、スローシーンA1、シーンBは、夫々、同一の再生速度において連続する一連の映像データに該当することから、ダイジェスト候補生成部18は、これらのシーンを夫々一まとまりのシーンとしてダイジェスト候補Cdに組み込んでいる。これにより、ダイジェスト候補生成部18は、まとまりがない不自然な間隔によりスロー映像が挿入されたダイジェスト候補Cdが生成されるのを好適に抑制する。
(5)第1推論器及び第2推論器の学習
次に、第1推論器及び第2推論器の学習による第1推論器情報D1及び第2推論器情報D2の生成について説明する。図5は、第1推論器及び第2推論器の学習を行う学習システムの概略構成図である。上記学習システムは、学習データD3を参照可能な学習装置6を有する。
学習装置6は、例えば図2に示す情報処理装置1の構成と同一構成を有し、主に、プロセッサ21と、メモリ22と、インターフェース23とを有している。学習装置6は、情報処理装置1であってもよく、情報処理装置1以外の任意の装置であってもよい。
学習データD3は、学習用の素材データである学習用素材データと、学習用素材データに対する第1スコアSc1に関する正解ラベルである第1ラベルと、学習用素材データに対する第2スコアSc2に関する正解ラベルである第2ラベルとを含んでいる。
第1ラベルは、例えば、学習用素材データにおいて重要区間と非重要区間とを識別するための情報である。第2ラベルは、例えば、学習用素材データにおいて特定のイベントの発生区間を識別するための情報である。他の例では、第2ラベルは、第1ラベルと同様、学習用素材データにおいて重要区間と非重要区間とを識別するための情報であってもよい。
学習用素材データは、等倍速度の映像データに限られず、等倍速度未満の複数の再生速度の映像データを含んでもよい。また、学習用素材データは、第1推論器の学習と第2推論器の学習とで夫々設けられてもよい。この場合、第1推論器の学習用素材データとして、第1ラベルが付された等倍速度の映像データが設けられる。また、第2推論器の学習用素材データとして、第2ラベルが付された等倍速度未満の複数の再生速度に対応する映像データが設けられる。
そして、学習装置6は、学習データD3を参照し、学習用素材データと、第1ラベルとに基づき、第1推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第1推論器に入力した場合の第1推論器の出力と、入力データに対応する第1ラベルが示す正解の第1スコアSc1との誤差(損失)が最小となるように、第1推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。なお、学習装置6は、第1ラベルにより重要区間と指定された学習用素材データの区間映像データについては、正解の第1スコアSc1を第1スコアSc1の最大値とし、それ以外の区間映像データについては、正解の第1スコアSc1を第1スコアSc1の最低値としてもよい。
同様に、学習装置6は、学習データD3を参照し、学習用素材データと、第2ラベルとに基づき、第2推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第2推論器に入力した場合の第2推論器の出力と、入力データに対応する第2ラベルが示す正解の第2スコアSc2との誤差(損失)が最小となるように、第2推論器のパラメータを決定する。
そして、学習装置6は、学習により得られた第1推論器のパラメータを、第1推論器情報D1として生成し、学習により得られた第2推論器のパラメータを、第2推論器情報D2として生成する。なお、生成された第1推論器情報D1及び第2推論器情報D2は、記憶装置4と学習装置6とのデータ通信により直ちに記憶装置4に記憶されてもよく、着脱可能な記憶媒体を介して記憶装置4に記憶されてもよい。
なお、第1推論器と第2推論器の学習は、夫々別の装置により行われてもよい。この場合、学習装置6は、第1推論器の学習と第2推論器の学習とを夫々行う複数の装置から構成される。また、第1推論器及び第2推論器は、学習用素材データの撮影対象となった催し物の種類ごとに学習が行われてもよい。
(6)処理フロー
図6は、第1実施形態において情報処理装置1が実行する処理の手順を示すフローチャートの一例である。情報処理装置1は、図6に示すフローチャートの処理を、例えば、対象となる素材映像データDmを指定して処理の開始を指示するユーザ入力を検知した場合、又は、外部装置から素材映像データDmの供給が開始された場合等に実行する。
まず、情報処理装置1は、素材映像データDmの終端であるか否か判定する(ステップS11)。この場合、情報処理装置1は、対象となる素材映像データDmの全ての区間について、後述するステップS12及びステップS13の処理が終了した場合に、素材映像データDmの終端であると判定する。そして、情報処理装置1は、素材映像データDmの終端である場合(ステップS11;Yes)、ステップS14へ処理を進める。一方、情報処理装置1は、素材映像データDmの終端ではない場合(ステップS11;No)、ステップS12及びステップS13の処理が行われていない素材映像データDmの区間映像データDpを対象として、ステップS12及びステップS13を実行する。
ステップS12では、情報処理装置1の取得部14は、素材映像データDmの一区間に対応する区間映像データDpを取得する(ステップS12)。例えば、取得部14は、ステップS12及びステップS13の処理が行われていない素材映像データDmの区間映像データDpを、再生時刻が早い順に取得する。この場合、取得部14は、区間映像データDpを、メモリ12から、又は、インターフェース13を介して記憶装置4又はその他の外部装置から取得する。
次に、第1候補選定部15は、ステップS12で取得した区間映像データDpに対して第1スコアSc1を算出し、当該区間映像データDpが第1候補映像データCd1であるか否か判定する(ステップS13)。この場合、第1候補選定部15は、第1推論器情報D1を参照して構成した第1推論器に区間映像データDpを入力することで算出した第1スコアSc1が閾値Th1以上の場合、当該区間映像データDpが第1候補映像データCd1であるとみなす。一方、第1候補選定部15は、区間映像データDpの第1スコアSc1が閾値Th1未満の場合、当該区間映像データDpは第1候補映像データCd1でないとみなす。そして、情報処理装置1は、ステップS11へ処理を戻し、ステップS12及びステップS13を素材映像データDmの終端に至るまで繰り返すことで、素材映像データDmを構成する全ての区間映像データDpの第1候補映像データCd1への適否を判定する。
ステップS14では、スロー映像生成部16は、ステップS13で選定した第1候補映像データCd1に対して再生速度を等倍速度未満に変換したスロー映像SLを生成する(ステップS14)。この場合、好適には、スロー映像生成部16は、予め定めた複数の再生速度のスロー映像SLを、第1候補映像データCd1毎に生成するとよい。
そして、第2候補選定部17は、各スロー映像SLに対して第2スコアSc2を算出し、スロー映像SLから第2候補映像データCd2を選定する(ステップS15)。この場合、例えば、第2候補選定部17は、第2推論器情報D2を参照することで構成した第2推論器にスロー映像SLを入力することで第2スコアSc2を算出し、第2スコアSc2が閾値Th2以上となるスロー映像SLを、第2候補映像データCd2として選定する。なお、第2候補選定部17は、同一の素材映像データDmの区間に対応する複数のスロー映像SLの第2スコアSc2が閾値Th2以上の場合には、最も第2スコアSc2が高いスロー映像SLのみを第2候補映像データCd2として選定してもよい。また、第2候補選定部17は、図4(A)~(E)の具体例で説明したように、時系列において同一再生速度のスロー映像SLが連続するスローシーン毎に第2候補映像データCd2を選定してもよい。
そして、ダイジェスト候補生成部18は、ステップS13で選定された第1候補映像データCd1と、ステップS15で選定された第2候補映像データCd2とに基づき、ダイジェスト候補Cdを生成する(ステップS16)。この場合、例えば、ダイジェスト候補生成部18は、第1候補映像データCd1と、第2候補映像データCd2とを時系列により連結した映像データを、ダイジェスト候補Cdとして生成する。他の例では、ダイジェスト候補生成部18は、第1候補映像データCd1と、第2候補映像データCd2とのリストを、ダイジェスト候補Cdとして生成する。
ここで、本実施形態による効果について補足説明する。
スポーツ映像編集の時間短縮化とコンテンツ拡大の二つのニーズから、スポーツ映像の自動編集に対するニーズが高まっている。そして、一般的に、スポーツの試合では、ダイジェスト映像にはスロー映像が含まれる。しかし、単純に重要度に基づきカメラの映像から重要シーンを抽出して結合してダイジェストを自動生成した場合、自動生成されるダイジェストにはスロー映像が含まれない。
以上を勘案し、第1実施形態では、情報処理装置1は、第1スコアSc1が閾値Th1以上となる区間についてスロー映像SLを生成し、さらに第2スコアSc2が閾値Th2以上となるスロー映像SLを、ダイジェスト候補Cdとして使用する。これにより、スロー映像が含まれるダイジェストを好適に生成することが可能となる。例えば、サッカーの試合を撮影した素材映像データDmから、ファウルシーンのスロー、ゴールと判定されるシーンのスロー映像を含むダイジェストを好適に生成することもできる。
(7)変形例
次に、上記実施形態に好適な各変形例について説明する。以下の変形例は任意に組み合わせて上述の実施形態に適用してもよい。
(変形例1)
第1推論器と第2推論器とは、同一のパラメータを用いて構成される同一の推論器であってもよい。
この場合、記憶装置4には、第1推論器及び第2推論器の両方として機能する推論器のパラメータが記憶されており、情報処理装置1は、当該パラメータを参照して構成する推論器に基づき、第1スコアSc1及び第2スコアSc2の算出を行う。この場合、上述の推論器は、例えば、第1推論器と同様、入力された映像データに対して重要度に相当するスコアを推論するように学習された推論器である。この態様によっても、情報処理装置1は、上述した実施形態と同様、スロー映像SLを生成する素材映像データDmの区間の選定、及び、ダイジェスト候補Cdに含めるスロー映像SLの選定等を好適に行うことができる。
(変形例2)
ダイジェスト候補生成部18は、素材映像データDmにおいて同一区間に対応する第1候補映像データCd1及び第2候補映像データCd2のうち、いずれか一方のみをダイジェスト候補Cdに含めてもよい。
例えば、図4(A)~(E)の例では、シーンAとスローシーンA1とが素材映像データDmにおいて同一区間(即ち時刻t1から時刻t2の区間)に対応している。この場合、ダイジェスト候補生成部18は、シーンAとスローシーンA1のいずれか一方を、ダイジェスト候補Cdに含めるシーンとして選択する。例えば、ダイジェスト候補生成部18は、シーンAに対する第1スコアSc1と、スローシーンA1に対する第2スコアSc2とを比較し、大きいスコアに対応するシーンを、ダイジェスト候補Cdに含めるシーンとして選択する。この場合、第1スコアSc1及び第2スコアSc2は、比較可能な同一指標のスコア(例えば重要度を示すスコア)であるとよい。
本変形例によれば、情報処理装置1は、再生速度のみが異なる複数の映像がダイジェスト候補Cdに含まれることを防ぎ、ダイジェスト候補Cdの冗長化を好適に抑制することができる。
(変形例3)
情報処理装置1は、重要区間か否かを識別するためのラベルが予め付されている素材映像データDmに基づきダイジェスト候補Cdを生成してもよい。この場合、情報処理装置1は、第1推論器情報D1を参照して第1候補映像データCd1を選定する代わりに、上述のラベルを参照して第1候補映像データCd1を選定する。
図7は、変形例3において情報処理装置1が実行するフローチャートの一例である。まず、情報処理装置1の取得部14は、重要区間か否かを識別するためのラベルが付された素材映像データDmを取得する(ステップS21)。この場合、取得部14は、素材映像データDmを、メモリ12から取得してもよく、記憶装置4又はその他の外部装置から取得してもよい。
そして、第1候補選定部15は、素材映像データDmに付されたラベルに基づき識別した重要区間を第1候補映像データCd1とみなし、スロー映像生成部16は、当該第1候補映像データCd1に対するスロー映像SLを生成する(ステップS22)。そして、第2候補選定部17は、各スロー映像SLに対して第2スコアSc2を算出し、第2候補映像データCd2を選定する(ステップS23)。この場合、図6のステップS15と同様、第2推論器情報D2を参照して構成した第2推論器に各スロー映像SLを入力することで算出した第2スコアSc2に基づき、第2候補映像データCd2を選定する。そして、ダイジェスト候補生成部18は、図6のステップS16と同様、第1候補映像データCd1と第2候補映像データCd2とに基づき、ダイジェスト候補Cdを生成する(ステップS24)。
このように、本変形例においても、情報処理装置1は、スロー映像SLを含むダイジェスト候補Cdを好適に生成することができる。また、本変形例では、情報処理装置1は、第1推論器情報D1を用いることなく、ダイジェスト候補Cdを生成することができる。
(変形例4)
情報処理装置1は、スロー映像SLを生成する対象となる区間映像データDpと、ダイジェスト候補Cdに含まれる対象となる区間映像データDpとを別々に選定してもよい。以後では、スロー映像SLを生成する対象となる区間映像データDpを引き続き第1候補映像データCd1と呼び、ダイジェスト候補Cdに含まれる対象となる区間映像データDpを「第3候補映像データCd3」とも呼ぶ。
図8は、変形例4において情報処理装置1が実行するフローチャートの一例である。この例では、情報処理装置1は、第1候補映像データCd1と、第3候補映像データCd3とを、第1スコアSc1に対する異なる閾値を用いて判定する。以後では、第1候補映像データCd1を判定するための第1スコアSc1の閾値を「第1閾値Th11」と呼び、第3候補映像データCd3を判定するための第1スコアSc1の閾値を「第2閾値Th12」と呼ぶ。第1閾値Th11は、第2閾値Th12より高い値に設定される。
まず、情報処理装置1の取得部14は、素材映像データDmを取得する(ステップS31)。次に、第1候補選定部15は、第1スコアSc1が第1閾値Th11以上となる区間映像データDpと、第1スコアSc1が第2閾値Th12以上となる区間映像データDpとを夫々抽出する(ステップS32)。この場合、第1候補選定部15は、第1スコアSc1が第1閾値Th11以上となる区間映像データDpを、第1候補映像データCd1として選定し、第1スコアSc1が第2閾値Th12以上となる区間映像データDpを、第3候補映像データCd3として選定する。ここで、第1閾値Th11は、第2閾値Th12より高いため、第3候補映像データCd3の中でより第1スコアSc1が高い区間映像データDpが第1候補映像データCd1として選定されることになる。
次に、スロー映像生成部16は、第1スコアSc1が第1閾値Th11以上となる区間映像データDpである第1候補映像データCd1に対してスロー映像SLを生成する(ステップS33)。そして、ダイジェスト候補生成部18は、第1スコアSc1が第2閾値Th12以上の区間映像データDpである第3候補映像データCd3と、スロー映像SLとに基づき、ダイジェスト候補Cdを生成する(ステップS34)。例えば、ダイジェスト候補生成部18は、ステップS33で生成された全てのスロー映像SLを第2候補映像データCd2とみなし、ダイジェスト候補Cdを生成する。この場合、情報処理装置1は、第2推論器情報D2を参照する第2候補選定部17を備えなくともよい。他の例では、ダイジェスト候補生成部18は、第2候補選定部17により第2スコアSc2を用いて選定された第2候補映像データCd2に基づき、ダイジェスト候補Cdを生成する。
図8の例によれば、情報処理装置1は、第1閾値Th11及び第2閾値Th12を設けることで、ダイジェスト候補Cdに含める区間映像データDpの中で第1スコアSc1がより高い区間映像データDpに対してスロー映像SLを生成することができる。よって、情報処理装置1は、特に重要度が高いシーンに対するスロー映像をダイジェスト候補Cdに好適に含めることができる。
<第2実施形態>
図9は、第2実施形態における情報処理装置1Xの機能ブロック図である。情報処理装置1Xは、主に、スロー映像生成手段16Xと、ダイジェスト候補生成手段18Xとを有する。
スロー映像生成手段16Xは、素材映像データ「Dm」から選定された一部の区間に対応する映像データである第1候補映像データ「Cd1」に対し、当該第1候補映像データCd1の再生速度を等倍速未満とした映像データであるスロー映像「SL」を生成する。ここで、スロー映像生成手段16Xは、第1実施形態(変形例を含む、以下同じ)のスロー映像生成部16とすることができる。第1候補映像データCd1の選定は、情報処理装置1Xにより行われてもよく、情報処理装置1X以外の外部装置により行われてもよい。後者の場合、外部装置は、第1候補映像データCd1に関する情報を情報処理装置1Xに送信してもよく、素材映像データDmに第1候補映像データCd1の選定結果のラベルを付加してもよい。
ダイジェスト候補生成手段18Xは、素材映像データDmと、スロー映像SLとに基づき、素材映像データDmのダイジェストの候補であるダイジェスト候補「Cd」を生成する。ここで、ダイジェスト候補生成手段18Xは、第1実施形態のダイジェスト候補生成部18とすることができる。例えば、ダイジェスト候補生成手段18Xは、素材映像データDmから選定した映像データと、スロー映像SLと、を結合した1つの映像データであるダイジェスト候補Cdを生成する。この場合、「素材映像データDmから選定した映像データ」は、第1候補映像データCd1であってもよく、第1候補映像データCd1とは異なる選定方法により選定された映像データ(例えば上述した変形例4の第3候補映像データCd3)であってもよい。他の例では、ダイジェスト候補生成手段18Xは、素材映像データDmから選定した映像データと、スロー映像SLとのリストを、ダイジェスト候補Cdとして生成してもよい。
図10は、第2実施形態において情報処理装置1Xが実行するフローチャートの一例である。まず、スロー映像生成手段16Xは、素材映像データDmから選定された第1候補映像データCd1に対し、当該第1候補映像データCd1の再生速度を等倍速未満としたスロー映像SLを生成する(ステップS41)。ダイジェスト候補生成手段18Xは、素材映像データDmと、スロー映像SLとに基づき、素材映像データDmのダイジェストの候補であるダイジェスト候補Cdを生成する(ステップS42)。
第2実施形態に係る情報処理装置1Xは、スロー映像を含むダイジェスト候補を好適に生成することができる。
なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。
[付記2]
前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成する、付記1に記載の情報処理装置。
[付記3]
前記スロー映像の各々に対するスコアに基づき、前記スロー映像から第2候補映像データを選定する第2候補選定手段をさらに有し、
前記ダイジェスト候補生成手段は、前記素材映像データと、前記第2候補映像データとに基づき、前記ダイジェスト候補を生成する、付記1または2に記載の情報処理装置。
[付記4]
前記第2候補選定手段は、前記スコアが閾値以上となる前記スロー映像を、前記第2候補映像データとして選定する、付記3に記載の情報処理装置。
[付記5]
前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成し、
前記第2候補選定手段は、前記第1候補映像データ毎の前記スロー映像のうち、前記スロー映像の各々に対して算出されたスコアが閾値以上であって、かつ、最も前記スコアが高いスロー映像を、前記第2候補映像データとして選定する、付記3に記載の情報処理装置。
[付記6]
前記ダイジェスト候補生成手段は、前記素材映像データの同一区間に対応する前記第1候補映像データと前記第2候補映像データのうち、前記スコアが最も高い映像データのみを、前記ダイジェスト候補に含める、付記3~5のいずれか一項に記載の情報処理装置。
[付記7]
前記ダイジェスト候補生成手段は、前記第1候補映像データと、前記第2候補映像データとを結合した映像データを、前記ダイジェスト候補として生成する、付記3~6のいずれか一項に記載の情報処理装置。
[付記8]
入力された映像データに対して第1スコアを推論するように学習された第1推論器に基づき、前記素材映像データから前記第1候補映像データを選定する第1候補選定手段をさらに有し、
前記第2候補選定手段は、入力された映像データに対して第2スコアを推論するように学習された第2推論器に基づき、前記スロー映像の各々に対する第2スコアを前記スコアとして算出する、付記3~7のいずれか一項に記載の情報処理装置。
[付記9]
前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、付記8に記載の情報処理装置。
なお、「重要区間か否かに関するラベル」は、区間ごとに重要度を示すラベルであってもよい。
[付記10]
前記第1推論器及び前記第2推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
前記第1スコアと前記第2スコアとは、対応する映像データの重要度に関するスコアである、付記8に記載の情報処理装置。
なお、この場合、「前記第1推論器及び前記第2推論器」は、同一の推論器であってもよく、異なる推論器であってもよい。
[付記11]
前記素材映像データの区間毎の区間映像データに対する第1スコアを第1閾値と比較することで、前記第1候補映像データとなる前記区間映像データを選定する第1候補選定手段をさらに有し、
前記ダイジェスト候補生成手段は、前記第1スコアを第1閾値と異なる第2閾値と比較することで選定した前記区間映像データと、前記スロー映像とに基づき、前記ダイジェスト候補を生成する、付記3~7のいずれか一項に記載の情報処理装置。
[付記12]
コンピュータにより、
素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、
前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、
制御方法。
[付記13]
素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラムが格納された記憶媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
1、1X 情報処理装置
2 入力装置
3 出力装置
4 記憶装置
6 学習装置
100 ダイジェスト候補選定システム

Claims (8)

  1. 素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
    前記スロー映像毎に重要度を推論して算出したスコアが第2の閾値以上であるスロー映像を第2候補映像データとして選定する第2候補選定手段と、
    前記第1候補映像データ毎に重要度を推論して算出したスコアが第1の閾値以上である第1候補映像データと、前記第2候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
    を有する情報処理装置。
  2. 前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成する、請求項1に記載の情報処理装置。
  3. 前記スロー映像生成手段は、前記第1候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成し、
    前記第2候補選定手段は、前記第1候補映像データ毎の前記スロー映像のうち、前記スロー映像の各々に対して算出されたスコアが前記第2の閾値以上であって、かつ、最も前記スコアが高いスロー映像を、前記第2候補映像データとして選定する、請求項に記載の情報処理装置。
  4. 前記ダイジェスト候補生成手段は、前記素材映像データの同一区間に対応する前記第1候補映像データと前記第2候補映像データのうち、前記スコアが最も高い映像データのみを、前記ダイジェスト候補に含める、請求項のいずれか一項に記載の情報処理装置。
  5. 前記ダイジェスト候補生成手段は、前記第1候補映像データと、前記第2候補映像データとを結合した映像データを、前記ダイジェスト候補として生成する、請求項のいずれか一項に記載の情報処理装置。
  6. 入力された映像データに対して第1スコアを推論するように学習された第1推論器に基づき、前記素材映像データから前記第1候補映像データを選定する第1候補選定手段をさらに有し、
    前記第2候補選定手段は、入力された映像データに対して第2スコアを推論するように学習された第2推論器に基づき、前記スロー映像の各々に対する第2スコアを前記スコアとして算出する、請求項のいずれか一項に記載の情報処理装置。
  7. コンピュータにより、
    素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、
    前記スロー映像毎に重要度を推論して算出したスコアが第2の閾値以上であるスロー映像を第2候補映像データとして選定し、
    前記第1候補映像データ毎に重要度を推論して算出したスコアが第1の閾値以上である第1候補映像データと、前記第2候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、
    制御方法。
  8. 素材映像データから選定された一部の区間に対応する映像データである第1候補映像データに対し、当該第1候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
    前記スロー映像毎に重要度を推論して算出したスコアが第2の閾値以上であるスロー映像を第2候補映像データとして選定する第2候補選定手段と、
    前記第1候補映像データ毎に重要度を推論して算出したスコアが第1の閾値以上である第1候補映像データと、前記第2候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
    としてコンピュータを機能させるプログラム。
JP2022527326A 2020-05-26 2020-05-26 情報処理装置、制御方法、及び、プログラム Active JP7444250B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020773 WO2021240653A1 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法及び記憶媒体

Publications (3)

Publication Number Publication Date
JPWO2021240653A1 JPWO2021240653A1 (ja) 2021-12-02
JPWO2021240653A5 JPWO2021240653A5 (ja) 2023-02-02
JP7444250B2 true JP7444250B2 (ja) 2024-03-06

Family

ID=78723027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527326A Active JP7444250B2 (ja) 2020-05-26 2020-05-26 情報処理装置、制御方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20230352052A1 (ja)
JP (1) JP7444250B2 (ja)
WO (1) WO2021240653A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008923A3 (ja) 2004-06-29 2006-03-09 Matsushita Electric Ind Co Ltd 映像編集装置及び方法
JP2010074323A (ja) 2008-09-17 2010-04-02 Sony Corp 記録装置および方法、並びに記録再生装置および方法
JP2017199994A (ja) 2016-04-26 2017-11-02 日本放送協会 映像配信装置及び映像配信方法
JP2019186689A (ja) 2018-04-06 2019-10-24 キヤノン株式会社 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006008923A3 (ja) 2004-06-29 2006-03-09 Matsushita Electric Ind Co Ltd 映像編集装置及び方法
JP2010074323A (ja) 2008-09-17 2010-04-02 Sony Corp 記録装置および方法、並びに記録再生装置および方法
JP2017199994A (ja) 2016-04-26 2017-11-02 日本放送協会 映像配信装置及び映像配信方法
JP2019186689A (ja) 2018-04-06 2019-10-24 キヤノン株式会社 情報処理装置、システム、分析方法、コンピュータプログラム、及び記憶媒体

Also Published As

Publication number Publication date
JPWO2021240653A1 (ja) 2021-12-02
US20230352052A1 (en) 2023-11-02
WO2021240653A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
US11025879B2 (en) Image processing apparatus, image processing method, and storage medium storing program
JP2005236993A (ja) 複数画像の要約方法および装置
JP6597643B2 (ja) 画像処理装置、画像処理システム、画像処理方法およびプログラム
JP2014106637A (ja) 情報処理装置および方法、並びにプログラム
US20240171817A1 (en) Systems and methods for applying behavioral-based parental controls for media assets
JP4252030B2 (ja) 記憶装置およびコンピュータ読取り可能な記録媒体
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
JP7444250B2 (ja) 情報処理装置、制御方法、及び、プログラム
KR20180080642A (ko) 음원과 동기화되는 동영상을 편집하는 방법
US20230379538A1 (en) Content recommendations for users with disabilities
JP7268739B2 (ja) 学習データ生成装置、学習装置、識別装置、生成方法及びプログラム
JP5733688B2 (ja) 動画編集装置、動画編集方法およびコンピュータプログラム
JP7375926B2 (ja) 情報処理装置、制御方法及び、プログラム
JP7420243B2 (ja) 情報処理装置、制御方法及びプログラム
KR102439599B1 (ko) 클라우드 영상 편집 서비스 시스템 및 방법
US11665373B2 (en) Virtual spectator experience for live events
JP4513904B2 (ja) 画像処理装置および方法、並びにプログラム
WO2021240677A1 (ja) 映像処理装置、映像処理方法、訓練装置、訓練方法、及び、記録媒体
US11350157B2 (en) Systems and methods for delayed pausing
JP7452641B2 (ja) 情報処理装置、制御方法、及び、プログラム
US11330307B2 (en) Systems and methods for generating new content structures from content segments
US20210314653A1 (en) Systems and methods for delayed pausing
JP7420245B2 (ja) 映像処理装置、映像処理方法、及び、プログラム
KR20200130969A (ko) 어댑티브 멀티트랙 스트리밍 장치 및 방법
KR102649599B1 (ko) 배경 음원 추천 및 결합 시스템 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R151 Written notification of patent or utility model registration

Ref document number: 7444250

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151