JP7444250B2

JP7444250B2 - 情報処理装置、制御方法、及び、プログラム

Info

Publication number: JP7444250B2
Application number: JP2022527326A
Authority: JP
Inventors: 悠鍋藤; 克菊池; 壮馬白石; はるな渡辺
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2024-03-06
Anticipated expiration: 2040-05-26
Also published as: JPWO2021240653A1; US20230352052A1; WO2021240653A1

Description

本開示は、ダイジェストの生成に関する処理を行う情報処理装置、制御方法及び記憶媒体の技術分野に関する。

素材となる映像データを編集してダイジェストを生成する技術が存在する。例えば、特許文献１には、グランドでのスポーツイベントの映像ストリームからハイライトを確認して製作する方法が開示されている。

特表２０１９－５２２９４８号公報

特許文献１には、素材となる映像データにおいて重要なシーンを閲覧者が詳細に確認できるようなハイライト映像の編集については、何ら開示されていない。

本開示の目的は、上記の課題を勘案し、ダイジェスト候補を好適に生成することが可能な情報処理装置、制御方法及び記憶媒体を提供することである。

情報処理装置の一の態様は、素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、前記スロー映像毎に重要度を推論して算出したスコアが第２の閾値以上であるスロー映像を第２候補映像データとして選定する第２候補選定手段と、前記第１候補映像データ毎に重要度を推論して算出したスコアが第１の閾値以上である第１候補映像データと、前記第２候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、を有する情報処理装置である。

制御方法の一の態様は、コンピュータにより、素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、前記スロー映像毎に重要度を推論して算出したスコアが第２の閾値以上であるスロー映像を第２候補映像データとして選定し、前記第１候補映像データ毎に重要度を推論して算出したスコアが第１の閾値以上である第１候補映像データと、前記第２候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、制御方法である。

プログラムの一の態様は、素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、前記スロー映像毎に重要度を推論して算出したスコアが第２の閾値以上であるスロー映像を第２候補映像データとして選定する第２候補選定手段と、前記第１候補映像データ毎に重要度を推論して算出したスコアが第１の閾値以上である第１候補映像データと、前記第２候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段としてコンピュータを機能させるプログラム。

本開示によれば、ダイジェスト候補を好適に生成することができる。

第１実施形態におけるダイジェスト候補選定システムの構成を示す。情報処理装置のハードウェア構成を示す。情報処理装置の機能ブロックの一例である。（Ａ）素材映像データの再生時間長に応じた長さの帯グラフにより素材映像データを表した図である。（Ｂ）素材映像データの時系列での第１スコアを示す線グラフである。（Ｃ）素材映像データから生成された第１速度スロー映像を示す帯グラフである。（Ｄ）素材映像データから生成された第２速度スロー映像を示す帯グラフである。（Ｅ）生成されたダイジェスト候補を示す帯グラフである。学習装置の機能ブロック構成の一例を示す。第１実施形態において情報処理装置が実行する処理の手順を示すフローチャートの一例である。変形例３において情報処理装置が実行する処理の手順を示すフローチャートの一例である。変形例４において情報処理装置が実行する処理の手順を示すフローチャートの一例である。第２実施形態における情報処理装置の機能ブロック図である。第２実施形態において情報処理装置が実行するフローチャートの一例である。

以下、図面を参照しながら、情報処理装置、制御方法及び記憶媒体の実施形態について説明する。

＜第１実施形態＞
（１）システム構成
図１は、第１実施形態に係るダイジェスト候補選定システム１００の構成を示す。ダイジェスト候補選定システム１００は、素材となる映像データ（「素材映像データＤｍ」とも呼ぶ。）のダイジェストの候補となる映像データ（「ダイジェスト候補Ｃｄ」とも呼ぶ。）を好適に選定する。ダイジェスト候補選定システム１００は、主に、情報処理装置１と、入力装置２と、出力装置３と、記憶装置４とを備える。以後において、映像データは、音データを含んでもよい。

情報処理装置１は、通信網を介し、又は、無線若しくは有線による直接通信により、入力装置２、及び出力装置３とデータ通信を行う。情報処理装置１は、素材映像データＤｍが入力された場合に、素材映像データＤｍの一部の重要区間に対するスロー映像を含めたダイジェスト候補Ｃｄを生成する。なお、素材映像データＤｍは、記憶装置４に記憶された任意の映像データであってもよく、記憶装置４以外の外部装置から情報処理装置１に供給される映像データであってもよい。後者の場合、素材映像データＤｍは、映像データを生成するカメラからリアルタイムで送信される映像データであってもよい。

入力装置２は、ユーザ入力を受け付ける任意のユーザインターフェースであり、例えば、ボタン、キーボード、マウス、タッチパネル、音声入力装置などが該当する。入力装置２は、ユーザ入力に基づき生成した入力信号「Ｓ１」を、情報処理装置１へ供給する。出力装置３は、例えば、ディスプレイ、プロジェクタ等の表示装置、及び、スピーカ等の音出力装置であり、情報処理装置１から供給される出力信号「Ｓ２」に基づき、所定の表示又は／及び音出力（ダイジェスト候補Ｃｄの再生などを含む）を行う。

記憶装置４は、情報処理装置１の処理に必要な各種情報を記憶するメモリである。記憶装置４は、例えば、第１推論器情報Ｄ１と、第２推論器情報Ｄ２とを記憶する。

第１推論器情報Ｄ１は、入力された映像データに対する第１のスコア（「第１スコアＳｃ１」とも呼ぶ。）を推論する推論器である第１推論器に関する情報である。第１スコアＳｃ１は、例えば、入力された映像データの重要度を示すスコアであり、上述の重要度は、入力された映像データが重要区間であるか又は非重要区間であるか（即ちダイジェストの一区間として相応しいか否か）を判定するための基準となる指標である。

第１推論器は、例えば、映像データを構成する所定枚数（１枚以上）の画像が入力された場合に、対象の映像データに対する第１スコアＳｃ１を推論するように予め学習され、第１推論器情報Ｄ１には、学習された第１推論器のパラメータが含まれる。本実施形態では、情報処理装置１は、素材映像データＤｍを所定の再生時間長の区間毎に素材映像データＤｍを分割した映像データ（「区間映像データＤｐ」とも呼ぶ。）を、第１推論器に順次入力する。なお、第１推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第１スコアＳｃ１を推論してもよい。この場合、第１推論器には、音データから算出した特徴量が入力されてもよい。

第２推論器情報Ｄ２は、入力された映像データに対する第２のスコア（「第２スコアＳｃ２」とも呼ぶ。）を推論する推論器である第２推論器に関する情報である。第２スコアＳｃ２は、第１の例では、特定のイベントが発生しているか否かの確からしさを示すスコアである。上述の「特定のイベント」は、撮影対象の催し物において重要なイベントを指し、例えば、催し物において重要な特定の行動（例えば野球におけるホームラン）の発生又はその他の事象の発生（例えば得点を競う競技における得点の発生）などが該当する。第２の例では、第２スコアＳｃ２は、第１スコアＳｃ１と同一の指標を表すスコアであり、入力された映像データに対する重要度を示すものであってもよい。

第２推論器は、例えば、映像データを構成する所定枚数の画像が入力された場合に、対象の映像データに対する第２スコアＳｃ２を推論するように予め学習され、第２推論器情報Ｄ２には、学習された第２推論器のパラメータが含まれる。本実施形態では、情報処理装置１は、選定した区間映像データＤｐから生成したスロー映像の各々を第２推論器に順次入力する。なお、第２推論器情報Ｄ２は、映像データの再生速度毎に分けて学習された第２推論器のパラメータを含んでもよい。

第１推論器及び第２推論器の学習モデルは、それぞれ、ニューラルネットワーク又はサポートベクターマシンなどの任意の機械学習に基づく学習モデルであってもよい。例えば、上述の第１推論器及び第２推論器のモデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第１推論器情報Ｄ１及び第２推論器情報Ｄ２は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。

なお、記憶装置４は、情報処理装置１に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置４は、情報処理装置１とデータ通信を行うサーバ装置であってもよい。また、記憶装置４は、複数の装置から構成されてもよい。この場合、記憶装置４は、第１推論器情報Ｄ１及び第２推論器情報Ｄ２を分散して記憶してもよい。

以上において説明したダイジェスト候補選定システム１００の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、入力装置２及び出力装置３は、一体となって構成されてもよい。この場合、入力装置２及び出力装置３は、情報処理装置１と一体となるタブレット型端末として構成されてもよい。他の例では、ダイジェスト候補選定システム１００は、入力装置２又は出力装置３の少なくとも一方を備えなくともよい。さらに別の例では、情報処理装置１は、複数の装置から構成されてもよい。この場合、情報処理装置１を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。

（２）情報処理装置のハードウェア構成
図２は、情報処理装置１のハードウェア構成を示す。情報処理装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１９を介して接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、量子プロセッサなどのプロセッサである。

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ１２には、情報処理装置１が実行するプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置４から取得した情報等を一時的に記憶する。なお、メモリ１２は、記憶装置４として機能してもよい。同様に、記憶装置４は、情報処理装置１のメモリ１２として機能してもよい。なお、情報処理装置１が実行するプログラムは、メモリ１２以外の記憶媒体に記憶されてもよい。

インターフェース１３は、情報処理装置１と他の装置とを電気的に接続するためのインターフェースである。例えば、情報処理装置１と他の装置とを接続するためのインターフェースは、プロセッサ１１の制御に基づき他の装置とデータの送受信を有線又は無線により行うためのネットワークアダプタなどの通信インターフェースであってもよい。他の例では、情報処理装置１と他の装置とはケーブル等により接続されてもよい。この場合、インターフェース１３は、他の装置とデータの授受を行うためのＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ＳＡＴＡ（ＳｅｒｉａｌＡＴＡｔｔａｃｈｍｅｎｔ）などに準拠したハードウェアインターフェースを含む。

なお、情報処理装置１のハードウェア構成は、図２に示す構成に限定されない。例えば、情報処理装置１は、入力装置２又は出力装置３の少なくとも一方を含んでもよい。

（３）機能ブロック
情報処理装置１は、スロー映像を生成する区間映像データＤｐの候補（「第１候補映像データＣｄ１」とも呼ぶ。）を第１スコアＳｃ１に基づき選定し、ダイジェスト候補Ｃｄに含めるスロー映像の候補（「第２候補映像データＣｄ２」とも呼ぶ。）を第２スコアＳｃ２に基づき選定する。そして、情報処理装置１は、第１候補映像データＣｄ１と第２候補映像データＣｄ２に基づき、ダイジェスト候補Ｃｄを生成する。以下では、上述の処理を実現するための情報処理装置１の機能ブロックについて説明する。

情報処理装置１のプロセッサ１１は、機能的には、取得部１４と、第１候補選定部１５と、スロー映像生成部１６と、第２候補選定部１７と、ダイジェスト候補生成部１８とを有する。なお、図３では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは図３に限定されない。後述する他の機能ブロックの図においても同様である。

取得部１４は、インターフェース１３を介して素材映像データＤｍを取得し、素材映像データＤｍを区間毎に分割した映像データである区間映像データＤｐを、順次第１候補選定部１５に供給する。この場合、区間映像データＤｐは、例えば、素材映像データＤｍを単位時間長の区間により区切ったデータであり、所定枚数分の画像を含むデータとなる。

第１候補選定部１５は、取得部１４から順次供給される区間映像データＤｐに対して第１スコアＳｃ１を算出し、第１スコアＳｃ１に基づき第１候補映像データＣｄ１を区間映像データＤｐから選定する。そして、第１候補選定部１５は、選定した第１候補映像データＣｄ１を、スロー映像生成部１６及びダイジェスト候補生成部１８に供給する。

この場合、第１候補選定部１５は、第１推論器情報Ｄ１を参照することで第１推論器を構成し、取得部１４から供給される区間映像データＤｐを第１推論器に順次入力することで、入力した区間映像データＤｐに対する第１スコアＳｃ１を算出する。これにより、第１候補選定部１５は、重要性が高い区間映像データＤｐほど高い値となる第１スコアＳｃ１を算出する。そして、第１候補選定部１５は、第１スコアＳｃ１が予め定めた所定の閾値（「閾値Ｔｈ１」とも呼ぶ。）以上となる区間映像データＤｐを、第１候補映像データＣｄ１として選定する。第１候補映像データＣｄ１は、スロー映像を生成する対象となる区間映像データＤｐの候補であると共に、ダイジェスト候補Ｃｄに含める区間映像データＤｐの候補となる。

なお、第１候補選定部１５は、第１スコアＳｃ１が閾値Ｔｈ１以上となる区間映像データＤｐが時系列において連続する１つのシーンを構成する場合、連続する区間映像データＤｐを１つのまとまった第１候補映像データＣｄ１とみなしてもよい。この場合、第１候補映像データＣｄ１は、少なくとも１つ以上の区間映像データＤｐを含み、再生時間長が夫々異なる可能性がある映像データとなる。

スロー映像生成部１６は、第１候補選定部１５から供給される第１候補映像データＣｄ１の各々に対し、等倍速度未満の再生速度（例えば１／２、１／３、１／４再生速度等）となるスロー映像（「スロー映像ＳＬ」とも呼ぶ。）を生成する。スロー映像生成部１６は、生成したスロー映像ＳＬを第２候補選定部１７に供給する。この場合、例えば、スロー映像生成部１６は、第１候補映像データＣｄ１を構成する時系列の画像の間に、前後の所定枚数の画像（フレーム）から生成した補間画像を挿入することで、スロー映像ＳＬを生成する。補間画像は、再生速度に応じた枚数及び間隔により挿入される。補間画像の生成及び挿入については、任意の補間手法に基づき行われてもよい。

好適には、スロー映像生成部１６は、第１候補映像データＣｄ１毎に、複数の再生速度に対応するスロー映像ＳＬを生成するとよい。これにより、複数の再生速度から適した再生速度のスロー映像ＳＬをダイジェスト候補Ｃｄに含めることが可能となる。

第２候補選定部１７は、スロー映像生成部１６から供給される各スロー映像ＳＬに対して第２スコアＳｃ２を算出し、第２スコアＳｃ２に基づき第２候補映像データＣｄ２となるスロー映像ＳＬを選定する。そして、第２候補選定部１７は、選定した第２候補映像データＣｄ２をダイジェスト候補生成部１８に供給する。

この場合、第２候補選定部１７は、第２推論器情報Ｄ２を参照することで第２推論器を構成し、当該第２推論器にスロー映像ＳＬを順次入力することで、入力したスロー映像ＳＬに対する第２スコアＳｃ２を算出する。この場合、第２スコアＳｃ２は、第１スコアＳｃ１と同様、重要性が高い映像であるほど高い値を示すものであってもよく、特定のイベントが発生している蓋然性が高いほど高い値を示すものであってもよい。そして、第２候補選定部１７は、第２スコアＳｃ２が予め定めた所定の閾値（「閾値Ｔｈ２」とも呼ぶ。）以上となるスロー映像ＳＬを、第２候補映像データＣｄ２として選定する。なお、第２候補選定部１７は、再生速度毎に学習された第２推論器のパラメータが第２推論器情報Ｄ２に記憶されている場合には、対象となるスロー映像ＳＬの再生速度に応じた第２推論器を選択し、選択した第２推論器に対象のスロー映像ＳＬを入力するとよい。

ここで、同一の区間映像データＤｐから生成された異なる再生速度の２個以上のスロー映像ＳＬの第２スコアＳｃ２が閾値Ｔｈ２となった場合について補足説明する。この場合、第１の例では、第２候補選定部１７は、当該２個以上のスロー映像ＳＬの全てを第２候補映像データＣｄ２として選定する。第２の例では、第２候補選定部１７は、当該２個以上のスロー映像ＳＬのうち、第２スコアＳｃ２が最も高い１個のスロー映像ＳＬを、第２候補映像データＣｄ２として選定する。第２の例では、同一のシーンの複数のスロー映像ＳＬがダイジェスト候補Ｃｄに含まれるのを好適に抑制することができる。

なお、１つのシーンを構成する区間映像データＤｐのまとまりが第１候補映像データＣｄ１として選定されている場合、スロー映像生成部１６及び第２候補選定部１７は、シーン毎にスロー映像ＳＬの生成及び第２スコアＳｃ２の算出を行ってもよい。この場合、第２候補選定部１７は、時系列において連続したスロー映像ＳＬから構成されるシーン（スローシーン）毎の第２スコアＳｃ２を算出し、スローシーン毎に第２候補映像データＣｄ２としての適否を判定する。この処理の詳細については、図４（Ａ）～図４（Ｅ）を参照して後述する。

ダイジェスト候補生成部１８は、第１候補選定部１５から供給される第１候補映像データＣｄ１と、第２候補選定部１７から供給される第２候補映像データＣｄ２とに基づき、ダイジェスト候補Ｃｄを生成する。例えば、ダイジェスト候補生成部１８は、全ての第１候補映像データＣｄ１と、全ての第２候補映像データＣｄ２とを結合した１つの映像データを、ダイジェスト候補Ｃｄとして生成する。この場合、ダイジェスト候補生成部１８は、例えば、シーンごとに時系列に第１候補映像データＣｄ１及び第２候補映像データＣｄ２を並べて連結したダイジェスト候補Ｃｄを生成する。ダイジェスト候補Ｃｄの生成の詳細については、図４（Ａ）～図４（Ｅ）を参照して後述する。

なお、ダイジェスト候補生成部１８は、ダイジェスト候補Ｃｄとして１つの映像データを生成する代わりに、第１候補映像データＣｄ１と第２候補映像データＣｄ２とのリストを、ダイジェスト候補Ｃｄとして生成してもよい。この場合、ダイジェスト候補生成部１８は、ダイジェスト候補Ｃｄを出力装置３に表示させ、最終的なダイジェストに含める映像データを選択するユーザ入力などを入力装置２により受け付けてもよい。また、ダイジェスト候補生成部１８は、選定された第１候補映像データＣｄ１と第２候補映像データＣｄ２との一部のみを用いてダイジェスト候補Ｃｄを生成してもよい。

ダイジェスト候補生成部１８は、生成したダイジェスト候補Ｃｄを、記憶装置４又はメモリ１２に記憶させてもよく、記憶装置４以外の外部装置に送信してもよい。また、ダイジェスト候補生成部１８は、ダイジェスト候補Ｃｄを再生するための出力信号Ｓ２を出力装置３に送信することで、ダイジェスト候補Ｃｄを出力装置３により再生してもよい。

なお、図３において説明した取得部１４、第１候補選定部１５、スロー映像生成部１６、第２候補選定部１７及びダイジェスト候補生成部１８の各構成要素は、例えば、プロセッサ１１が記憶装置４又はメモリ１２に格納されたプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアを含む任意のコントローラにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。

（４）具体例
次に、図３の機能ブロックに基づくダイジェスト候補Ｃｄの生成の具体例について図４（Ａ）～（Ｅ）を参照して説明する。以後では、一例として、情報処理装置１は、スロー映像ＳＬとして、第１再生速度に対応する第１速度スロー映像「ＳＬ１」と、第２再生速度に対応する第２速度スロー映像「ＳＬ２」とを生成するものとする。ここで、第１再生速度は、等倍速度未満であり、第２再生速度は、第１再生速度未満である。

図４（Ａ）は、素材映像データＤｍの再生時間長（即ち画像数）に応じた長さの帯グラフにより素材映像データＤｍを表した図である。図４（Ｂ）は、素材映像データＤｍの時系列での第１スコアＳｃ１を示す線グラフである。図４（Ｃ）は、図４（Ａ）に示す素材映像データＤｍから生成された第１速度スロー映像ＳＬ１を示す帯グラフである。図４（Ｄ）は、図４（Ａ）に示す素材映像データＤｍから生成された第２速度スロー映像ＳＬ２を示す帯グラフである。図４（Ｅ）は、生成されたダイジェスト候補Ｃｄを示す帯グラフである。

図４（Ａ）及び図４（Ｂ）に示すように、第１候補選定部１５は、「シーンＡ」及び「シーンＢ」に該当する区間映像データＤｐの第１スコアＳｃ１が閾値Ｔｈ１以上となると判定し、これらの区間映像データＤｐを第１候補映像データＣｄ１として選定する。この場合、シーンＡ及びシーンＢは、夫々、第１スコアＳｃ１が閾値Ｔｈ１以上となる１又は複数の区間映像データＤｐが連続したシーンに相当する。なお、シーンＡは、素材映像データＤｍにおいて再生時刻「ｔ１」から再生時刻「ｔ２」までの区間に対応し、シーンＢは、素材映像データＤｍにおいて再生時刻「ｔ３」から再生時刻「ｔ４」までの区間に対応する。

そして、スロー映像生成部１６は、シーンＡを第１再生速度に変換したスローシーン「Ａ１」と、シーンＡを第２再生速度に変換したスローシーン「Ａ２」とを生成する。同様に、スロー映像生成部１６は、シーンＢを第１再生速度に変換したスローシーン「Ｂ１」と、シーンＢを第２再生速度に変換したスローシーン「Ｂ２」とを生成する。ここで、スローシーンＡ１及びスローシーンＢ１は、シーンＡ及びシーンＢを構成する区間映像データＤｐの再生速度を第１再生速度に変更した第１速度スロー映像ＳＬ１から構成されるシーンとなる。同様に、スローシーンＡ２及びスローシーンＢ２は、シーンＡ及びシーンＢを構成する区間映像データＤｐの再生速度を第２再生速度に変更した第２速度スロー映像ＳＬ２から構成されるシーンとなる。

そして、第２候補選定部１７は、スローシーンＡ１、スローシーンＢ１、スローシーンＡ２、スローシーンＢ２を構成する各スロー映像ＳＬに対して第２スコアＳｃ２を算出し、第２スコアＳｃ２が閾値Ｔｈ２以上となるスロー映像ＳＬを第２候補映像データＣｄ２として選定する。ここでは、第２候補選定部１７は、スローシーンＡ１に対応するスロー映像ＳＬの第２スコアＳｃ２が閾値Ｔｈ２以上となり、それ以外のスローシーン（シーンＢ１、Ａ２、Ｂ２）に対応するスロー映像ＳＬの第２スコアＳｃ２がいずれも閾値Ｔｈ２未満であると判定する。よって、この場合、第２候補選定部１７は、シーンＡ１を、第２候補映像データＣｄ２として選定する。

ここで、第２候補選定部１７は、スローシーンを構成するスロー映像ＳＬ毎に第２候補映像データＣｄ２としての適否を判定する代わりに、スローシーン毎に第２候補映像データＣｄ２としての適否を判定してもよい。この場合、第２候補選定部１７は、スローシーン毎に連続する各スロー映像ＳＬに対する第２スコアＳｃ２の代表値（平均値、中央値などを含む）を、スローシーン毎の第２スコアＳｃ２として算出する。そして、第２候補選定部１７は、スローシーン毎の第２スコアＳｃ２が閾値Ｔｈ２以上となるスローシーンを、第２候補映像データＣｄ２として選定する。図４（Ａ）～（Ｅ）の例では、第２候補選定部１７は、スローシーンＡ１、スローシーンＢ１、スローシーンＡ２、スローシーンＢ２の各々に対して第２スコアＳｃ２を算出し、当該第２スコアＳｃ２が閾値Ｔｈ２以上となるシーンＡ１を、第２候補映像データＣｄ２として選定する。

そして、図４（Ｅ）に示すように、ダイジェスト候補生成部１８は、第１候補映像データＣｄ１であるシーンＡ及びシーンＢと、第２候補映像データＣｄ２であるスローシーンＡ１とを時系列により連結させたダイジェスト候補Ｃｄを生成する。

ここで、ダイジェスト候補生成部１８は、素材映像データＤｍにおいて同一区間（同一の再生時間帯）となるシーンについては、再生速度が等倍速度に近いシーンから順に連結させている。図４（Ｅ）の例では、ダイジェスト候補生成部１８は、シーンＡとスローシーンＡ１とが素材映像データＤｍにおいて同一区間に対応することから、再生速度が等倍速度であるシーンＡをスローシーンＡ１の前に配置したダイジェスト候補Ｃｄを生成している。

また、ダイジェスト候補生成部１８は、同一の再生速度において連続する映像データについては、一つのまとまったシーンとしてダイジェスト候補Ｃｄに組み込んでいる。図４（Ｅ）の例では、シーンＡ、スローシーンＡ１、シーンＢは、夫々、同一の再生速度において連続する一連の映像データに該当することから、ダイジェスト候補生成部１８は、これらのシーンを夫々一まとまりのシーンとしてダイジェスト候補Ｃｄに組み込んでいる。これにより、ダイジェスト候補生成部１８は、まとまりがない不自然な間隔によりスロー映像が挿入されたダイジェスト候補Ｃｄが生成されるのを好適に抑制する。

（５）第１推論器及び第２推論器の学習
次に、第１推論器及び第２推論器の学習による第１推論器情報Ｄ１及び第２推論器情報Ｄ２の生成について説明する。図５は、第１推論器及び第２推論器の学習を行う学習システムの概略構成図である。上記学習システムは、学習データＤ３を参照可能な学習装置６を有する。

学習装置６は、例えば図２に示す情報処理装置１の構成と同一構成を有し、主に、プロセッサ２１と、メモリ２２と、インターフェース２３とを有している。学習装置６は、情報処理装置１であってもよく、情報処理装置１以外の任意の装置であってもよい。

学習データＤ３は、学習用の素材データである学習用素材データと、学習用素材データに対する第１スコアＳｃ１に関する正解ラベルである第１ラベルと、学習用素材データに対する第２スコアＳｃ２に関する正解ラベルである第２ラベルとを含んでいる。

第１ラベルは、例えば、学習用素材データにおいて重要区間と非重要区間とを識別するための情報である。第２ラベルは、例えば、学習用素材データにおいて特定のイベントの発生区間を識別するための情報である。他の例では、第２ラベルは、第１ラベルと同様、学習用素材データにおいて重要区間と非重要区間とを識別するための情報であってもよい。

学習用素材データは、等倍速度の映像データに限られず、等倍速度未満の複数の再生速度の映像データを含んでもよい。また、学習用素材データは、第１推論器の学習と第２推論器の学習とで夫々設けられてもよい。この場合、第１推論器の学習用素材データとして、第１ラベルが付された等倍速度の映像データが設けられる。また、第２推論器の学習用素材データとして、第２ラベルが付された等倍速度未満の複数の再生速度に対応する映像データが設けられる。

そして、学習装置６は、学習データＤ３を参照し、学習用素材データと、第１ラベルとに基づき、第１推論器の学習を行う。この場合、学習装置６は、学習用素材データから抽出した区間映像データを第１推論器に入力した場合の第１推論器の出力と、入力データに対応する第１ラベルが示す正解の第１スコアＳｃ１との誤差（損失）が最小となるように、第１推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。なお、学習装置６は、第１ラベルにより重要区間と指定された学習用素材データの区間映像データについては、正解の第１スコアＳｃ１を第１スコアＳｃ１の最大値とし、それ以外の区間映像データについては、正解の第１スコアＳｃ１を第１スコアＳｃ１の最低値としてもよい。

同様に、学習装置６は、学習データＤ３を参照し、学習用素材データと、第２ラベルとに基づき、第２推論器の学習を行う。この場合、学習装置６は、学習用素材データから抽出した区間映像データを第２推論器に入力した場合の第２推論器の出力と、入力データに対応する第２ラベルが示す正解の第２スコアＳｃ２との誤差（損失）が最小となるように、第２推論器のパラメータを決定する。

そして、学習装置６は、学習により得られた第１推論器のパラメータを、第１推論器情報Ｄ１として生成し、学習により得られた第２推論器のパラメータを、第２推論器情報Ｄ２として生成する。なお、生成された第１推論器情報Ｄ１及び第２推論器情報Ｄ２は、記憶装置４と学習装置６とのデータ通信により直ちに記憶装置４に記憶されてもよく、着脱可能な記憶媒体を介して記憶装置４に記憶されてもよい。

なお、第１推論器と第２推論器の学習は、夫々別の装置により行われてもよい。この場合、学習装置６は、第１推論器の学習と第２推論器の学習とを夫々行う複数の装置から構成される。また、第１推論器及び第２推論器は、学習用素材データの撮影対象となった催し物の種類ごとに学習が行われてもよい。

（６）処理フロー
図６は、第１実施形態において情報処理装置１が実行する処理の手順を示すフローチャートの一例である。情報処理装置１は、図６に示すフローチャートの処理を、例えば、対象となる素材映像データＤｍを指定して処理の開始を指示するユーザ入力を検知した場合、又は、外部装置から素材映像データＤｍの供給が開始された場合等に実行する。

まず、情報処理装置１は、素材映像データＤｍの終端であるか否か判定する（ステップＳ１１）。この場合、情報処理装置１は、対象となる素材映像データＤｍの全ての区間について、後述するステップＳ１２及びステップＳ１３の処理が終了した場合に、素材映像データＤｍの終端であると判定する。そして、情報処理装置１は、素材映像データＤｍの終端である場合（ステップＳ１１；Ｙｅｓ）、ステップＳ１４へ処理を進める。一方、情報処理装置１は、素材映像データＤｍの終端ではない場合（ステップＳ１１；Ｎｏ）、ステップＳ１２及びステップＳ１３の処理が行われていない素材映像データＤｍの区間映像データＤｐを対象として、ステップＳ１２及びステップＳ１３を実行する。

ステップＳ１２では、情報処理装置１の取得部１４は、素材映像データＤｍの一区間に対応する区間映像データＤｐを取得する（ステップＳ１２）。例えば、取得部１４は、ステップＳ１２及びステップＳ１３の処理が行われていない素材映像データＤｍの区間映像データＤｐを、再生時刻が早い順に取得する。この場合、取得部１４は、区間映像データＤｐを、メモリ１２から、又は、インターフェース１３を介して記憶装置４又はその他の外部装置から取得する。

次に、第１候補選定部１５は、ステップＳ１２で取得した区間映像データＤｐに対して第１スコアＳｃ１を算出し、当該区間映像データＤｐが第１候補映像データＣｄ１であるか否か判定する（ステップＳ１３）。この場合、第１候補選定部１５は、第１推論器情報Ｄ１を参照して構成した第１推論器に区間映像データＤｐを入力することで算出した第１スコアＳｃ１が閾値Ｔｈ１以上の場合、当該区間映像データＤｐが第１候補映像データＣｄ１であるとみなす。一方、第１候補選定部１５は、区間映像データＤｐの第１スコアＳｃ１が閾値Ｔｈ１未満の場合、当該区間映像データＤｐは第１候補映像データＣｄ１でないとみなす。そして、情報処理装置１は、ステップＳ１１へ処理を戻し、ステップＳ１２及びステップＳ１３を素材映像データＤｍの終端に至るまで繰り返すことで、素材映像データＤｍを構成する全ての区間映像データＤｐの第１候補映像データＣｄ１への適否を判定する。

ステップＳ１４では、スロー映像生成部１６は、ステップＳ１３で選定した第１候補映像データＣｄ１に対して再生速度を等倍速度未満に変換したスロー映像ＳＬを生成する（ステップＳ１４）。この場合、好適には、スロー映像生成部１６は、予め定めた複数の再生速度のスロー映像ＳＬを、第１候補映像データＣｄ１毎に生成するとよい。

そして、第２候補選定部１７は、各スロー映像ＳＬに対して第２スコアＳｃ２を算出し、スロー映像ＳＬから第２候補映像データＣｄ２を選定する（ステップＳ１５）。この場合、例えば、第２候補選定部１７は、第２推論器情報Ｄ２を参照することで構成した第２推論器にスロー映像ＳＬを入力することで第２スコアＳｃ２を算出し、第２スコアＳｃ２が閾値Ｔｈ２以上となるスロー映像ＳＬを、第２候補映像データＣｄ２として選定する。なお、第２候補選定部１７は、同一の素材映像データＤｍの区間に対応する複数のスロー映像ＳＬの第２スコアＳｃ２が閾値Ｔｈ２以上の場合には、最も第２スコアＳｃ２が高いスロー映像ＳＬのみを第２候補映像データＣｄ２として選定してもよい。また、第２候補選定部１７は、図４（Ａ）～（Ｅ）の具体例で説明したように、時系列において同一再生速度のスロー映像ＳＬが連続するスローシーン毎に第２候補映像データＣｄ２を選定してもよい。

そして、ダイジェスト候補生成部１８は、ステップＳ１３で選定された第１候補映像データＣｄ１と、ステップＳ１５で選定された第２候補映像データＣｄ２とに基づき、ダイジェスト候補Ｃｄを生成する（ステップＳ１６）。この場合、例えば、ダイジェスト候補生成部１８は、第１候補映像データＣｄ１と、第２候補映像データＣｄ２とを時系列により連結した映像データを、ダイジェスト候補Ｃｄとして生成する。他の例では、ダイジェスト候補生成部１８は、第１候補映像データＣｄ１と、第２候補映像データＣｄ２とのリストを、ダイジェスト候補Ｃｄとして生成する。

ここで、本実施形態による効果について補足説明する。

スポーツ映像編集の時間短縮化とコンテンツ拡大の二つのニーズから、スポーツ映像の自動編集に対するニーズが高まっている。そして、一般的に、スポーツの試合では、ダイジェスト映像にはスロー映像が含まれる。しかし、単純に重要度に基づきカメラの映像から重要シーンを抽出して結合してダイジェストを自動生成した場合、自動生成されるダイジェストにはスロー映像が含まれない。

以上を勘案し、第１実施形態では、情報処理装置１は、第１スコアＳｃ１が閾値Ｔｈ１以上となる区間についてスロー映像ＳＬを生成し、さらに第２スコアＳｃ２が閾値Ｔｈ２以上となるスロー映像ＳＬを、ダイジェスト候補Ｃｄとして使用する。これにより、スロー映像が含まれるダイジェストを好適に生成することが可能となる。例えば、サッカーの試合を撮影した素材映像データＤｍから、ファウルシーンのスロー、ゴールと判定されるシーンのスロー映像を含むダイジェストを好適に生成することもできる。

（７）変形例
次に、上記実施形態に好適な各変形例について説明する。以下の変形例は任意に組み合わせて上述の実施形態に適用してもよい。

（変形例１）
第１推論器と第２推論器とは、同一のパラメータを用いて構成される同一の推論器であってもよい。

この場合、記憶装置４には、第１推論器及び第２推論器の両方として機能する推論器のパラメータが記憶されており、情報処理装置１は、当該パラメータを参照して構成する推論器に基づき、第１スコアＳｃ１及び第２スコアＳｃ２の算出を行う。この場合、上述の推論器は、例えば、第１推論器と同様、入力された映像データに対して重要度に相当するスコアを推論するように学習された推論器である。この態様によっても、情報処理装置１は、上述した実施形態と同様、スロー映像ＳＬを生成する素材映像データＤｍの区間の選定、及び、ダイジェスト候補Ｃｄに含めるスロー映像ＳＬの選定等を好適に行うことができる。

（変形例２）
ダイジェスト候補生成部１８は、素材映像データＤｍにおいて同一区間に対応する第１候補映像データＣｄ１及び第２候補映像データＣｄ２のうち、いずれか一方のみをダイジェスト候補Ｃｄに含めてもよい。

例えば、図４（Ａ）～（Ｅ）の例では、シーンＡとスローシーンＡ１とが素材映像データＤｍにおいて同一区間（即ち時刻ｔ１から時刻ｔ２の区間）に対応している。この場合、ダイジェスト候補生成部１８は、シーンＡとスローシーンＡ１のいずれか一方を、ダイジェスト候補Ｃｄに含めるシーンとして選択する。例えば、ダイジェスト候補生成部１８は、シーンＡに対する第１スコアＳｃ１と、スローシーンＡ１に対する第２スコアＳｃ２とを比較し、大きいスコアに対応するシーンを、ダイジェスト候補Ｃｄに含めるシーンとして選択する。この場合、第１スコアＳｃ１及び第２スコアＳｃ２は、比較可能な同一指標のスコア（例えば重要度を示すスコア）であるとよい。

本変形例によれば、情報処理装置１は、再生速度のみが異なる複数の映像がダイジェスト候補Ｃｄに含まれることを防ぎ、ダイジェスト候補Ｃｄの冗長化を好適に抑制することができる。

（変形例３）
情報処理装置１は、重要区間か否かを識別するためのラベルが予め付されている素材映像データＤｍに基づきダイジェスト候補Ｃｄを生成してもよい。この場合、情報処理装置１は、第１推論器情報Ｄ１を参照して第１候補映像データＣｄ１を選定する代わりに、上述のラベルを参照して第１候補映像データＣｄ１を選定する。

図７は、変形例３において情報処理装置１が実行するフローチャートの一例である。まず、情報処理装置１の取得部１４は、重要区間か否かを識別するためのラベルが付された素材映像データＤｍを取得する（ステップＳ２１）。この場合、取得部１４は、素材映像データＤｍを、メモリ１２から取得してもよく、記憶装置４又はその他の外部装置から取得してもよい。

そして、第１候補選定部１５は、素材映像データＤｍに付されたラベルに基づき識別した重要区間を第１候補映像データＣｄ１とみなし、スロー映像生成部１６は、当該第１候補映像データＣｄ１に対するスロー映像ＳＬを生成する（ステップＳ２２）。そして、第２候補選定部１７は、各スロー映像ＳＬに対して第２スコアＳｃ２を算出し、第２候補映像データＣｄ２を選定する（ステップＳ２３）。この場合、図６のステップＳ１５と同様、第２推論器情報Ｄ２を参照して構成した第２推論器に各スロー映像ＳＬを入力することで算出した第２スコアＳｃ２に基づき、第２候補映像データＣｄ２を選定する。そして、ダイジェスト候補生成部１８は、図６のステップＳ１６と同様、第１候補映像データＣｄ１と第２候補映像データＣｄ２とに基づき、ダイジェスト候補Ｃｄを生成する（ステップＳ２４）。

このように、本変形例においても、情報処理装置１は、スロー映像ＳＬを含むダイジェスト候補Ｃｄを好適に生成することができる。また、本変形例では、情報処理装置１は、第１推論器情報Ｄ１を用いることなく、ダイジェスト候補Ｃｄを生成することができる。

（変形例４）
情報処理装置１は、スロー映像ＳＬを生成する対象となる区間映像データＤｐと、ダイジェスト候補Ｃｄに含まれる対象となる区間映像データＤｐとを別々に選定してもよい。以後では、スロー映像ＳＬを生成する対象となる区間映像データＤｐを引き続き第１候補映像データＣｄ１と呼び、ダイジェスト候補Ｃｄに含まれる対象となる区間映像データＤｐを「第３候補映像データＣｄ３」とも呼ぶ。

図８は、変形例４において情報処理装置１が実行するフローチャートの一例である。この例では、情報処理装置１は、第１候補映像データＣｄ１と、第３候補映像データＣｄ３とを、第１スコアＳｃ１に対する異なる閾値を用いて判定する。以後では、第１候補映像データＣｄ１を判定するための第１スコアＳｃ１の閾値を「第１閾値Ｔｈ１１」と呼び、第３候補映像データＣｄ３を判定するための第１スコアＳｃ１の閾値を「第２閾値Ｔｈ１２」と呼ぶ。第１閾値Ｔｈ１１は、第２閾値Ｔｈ１２より高い値に設定される。

まず、情報処理装置１の取得部１４は、素材映像データＤｍを取得する（ステップＳ３１）。次に、第１候補選定部１５は、第１スコアＳｃ１が第１閾値Ｔｈ１１以上となる区間映像データＤｐと、第１スコアＳｃ１が第２閾値Ｔｈ１２以上となる区間映像データＤｐとを夫々抽出する（ステップＳ３２）。この場合、第１候補選定部１５は、第１スコアＳｃ１が第１閾値Ｔｈ１１以上となる区間映像データＤｐを、第１候補映像データＣｄ１として選定し、第１スコアＳｃ１が第２閾値Ｔｈ１２以上となる区間映像データＤｐを、第３候補映像データＣｄ３として選定する。ここで、第１閾値Ｔｈ１１は、第２閾値Ｔｈ１２より高いため、第３候補映像データＣｄ３の中でより第１スコアＳｃ１が高い区間映像データＤｐが第１候補映像データＣｄ１として選定されることになる。

次に、スロー映像生成部１６は、第１スコアＳｃ１が第１閾値Ｔｈ１１以上となる区間映像データＤｐである第１候補映像データＣｄ１に対してスロー映像ＳＬを生成する（ステップＳ３３）。そして、ダイジェスト候補生成部１８は、第１スコアＳｃ１が第２閾値Ｔｈ１２以上の区間映像データＤｐである第３候補映像データＣｄ３と、スロー映像ＳＬとに基づき、ダイジェスト候補Ｃｄを生成する（ステップＳ３４）。例えば、ダイジェスト候補生成部１８は、ステップＳ３３で生成された全てのスロー映像ＳＬを第２候補映像データＣｄ２とみなし、ダイジェスト候補Ｃｄを生成する。この場合、情報処理装置１は、第２推論器情報Ｄ２を参照する第２候補選定部１７を備えなくともよい。他の例では、ダイジェスト候補生成部１８は、第２候補選定部１７により第２スコアＳｃ２を用いて選定された第２候補映像データＣｄ２に基づき、ダイジェスト候補Ｃｄを生成する。

図８の例によれば、情報処理装置１は、第１閾値Ｔｈ１１及び第２閾値Ｔｈ１２を設けることで、ダイジェスト候補Ｃｄに含める区間映像データＤｐの中で第１スコアＳｃ１がより高い区間映像データＤｐに対してスロー映像ＳＬを生成することができる。よって、情報処理装置１は、特に重要度が高いシーンに対するスロー映像をダイジェスト候補Ｃｄに好適に含めることができる。

＜第２実施形態＞
図９は、第２実施形態における情報処理装置１Ｘの機能ブロック図である。情報処理装置１Ｘは、主に、スロー映像生成手段１６Ｘと、ダイジェスト候補生成手段１８Ｘとを有する。

スロー映像生成手段１６Ｘは、素材映像データ「Ｄｍ」から選定された一部の区間に対応する映像データである第１候補映像データ「Ｃｄ１」に対し、当該第１候補映像データＣｄ１の再生速度を等倍速未満とした映像データであるスロー映像「ＳＬ」を生成する。ここで、スロー映像生成手段１６Ｘは、第１実施形態（変形例を含む、以下同じ）のスロー映像生成部１６とすることができる。第１候補映像データＣｄ１の選定は、情報処理装置１Ｘにより行われてもよく、情報処理装置１Ｘ以外の外部装置により行われてもよい。後者の場合、外部装置は、第１候補映像データＣｄ１に関する情報を情報処理装置１Ｘに送信してもよく、素材映像データＤｍに第１候補映像データＣｄ１の選定結果のラベルを付加してもよい。

ダイジェスト候補生成手段１８Ｘは、素材映像データＤｍと、スロー映像ＳＬとに基づき、素材映像データＤｍのダイジェストの候補であるダイジェスト候補「Ｃｄ」を生成する。ここで、ダイジェスト候補生成手段１８Ｘは、第１実施形態のダイジェスト候補生成部１８とすることができる。例えば、ダイジェスト候補生成手段１８Ｘは、素材映像データＤｍから選定した映像データと、スロー映像ＳＬと、を結合した１つの映像データであるダイジェスト候補Ｃｄを生成する。この場合、「素材映像データＤｍから選定した映像データ」は、第１候補映像データＣｄ１であってもよく、第１候補映像データＣｄ１とは異なる選定方法により選定された映像データ（例えば上述した変形例４の第３候補映像データＣｄ３）であってもよい。他の例では、ダイジェスト候補生成手段１８Ｘは、素材映像データＤｍから選定した映像データと、スロー映像ＳＬとのリストを、ダイジェスト候補Ｃｄとして生成してもよい。

図１０は、第２実施形態において情報処理装置１Ｘが実行するフローチャートの一例である。まず、スロー映像生成手段１６Ｘは、素材映像データＤｍから選定された第１候補映像データＣｄ１に対し、当該第１候補映像データＣｄ１の再生速度を等倍速未満としたスロー映像ＳＬを生成する（ステップＳ４１）。ダイジェスト候補生成手段１８Ｘは、素材映像データＤｍと、スロー映像ＳＬとに基づき、素材映像データＤｍのダイジェストの候補であるダイジェスト候補Ｃｄを生成する（ステップＳ４２）。

第２実施形態に係る情報処理装置１Ｘは、スロー映像を含むダイジェスト候補を好適に生成することができる。

なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。

［付記２］
前記スロー映像生成手段は、前記第１候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成する、付記１に記載の情報処理装置。

［付記３］
前記スロー映像の各々に対するスコアに基づき、前記スロー映像から第２候補映像データを選定する第２候補選定手段をさらに有し、
前記ダイジェスト候補生成手段は、前記素材映像データと、前記第２候補映像データとに基づき、前記ダイジェスト候補を生成する、付記１または２に記載の情報処理装置。

［付記４］
前記第２候補選定手段は、前記スコアが閾値以上となる前記スロー映像を、前記第２候補映像データとして選定する、付記３に記載の情報処理装置。

［付記５］
前記スロー映像生成手段は、前記第１候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成し、
前記第２候補選定手段は、前記第１候補映像データ毎の前記スロー映像のうち、前記スロー映像の各々に対して算出されたスコアが閾値以上であって、かつ、最も前記スコアが高いスロー映像を、前記第２候補映像データとして選定する、付記３に記載の情報処理装置。

［付記６］
前記ダイジェスト候補生成手段は、前記素材映像データの同一区間に対応する前記第１候補映像データと前記第２候補映像データのうち、前記スコアが最も高い映像データのみを、前記ダイジェスト候補に含める、付記３～５のいずれか一項に記載の情報処理装置。

［付記７］
前記ダイジェスト候補生成手段は、前記第１候補映像データと、前記第２候補映像データとを結合した映像データを、前記ダイジェスト候補として生成する、付記３～６のいずれか一項に記載の情報処理装置。

［付記８］
入力された映像データに対して第１スコアを推論するように学習された第１推論器に基づき、前記素材映像データから前記第１候補映像データを選定する第１候補選定手段をさらに有し、
前記第２候補選定手段は、入力された映像データに対して第２スコアを推論するように学習された第２推論器に基づき、前記スロー映像の各々に対する第２スコアを前記スコアとして算出する、付記３～７のいずれか一項に記載の情報処理装置。

［付記９］
前記第１推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
前記第２推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、付記８に記載の情報処理装置。
なお、「重要区間か否かに関するラベル」は、区間ごとに重要度を示すラベルであってもよい。

［付記１０］
前記第１推論器及び前記第２推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
前記第１スコアと前記第２スコアとは、対応する映像データの重要度に関するスコアである、付記８に記載の情報処理装置。
なお、この場合、「前記第１推論器及び前記第２推論器」は、同一の推論器であってもよく、異なる推論器であってもよい。

［付記１１］
前記素材映像データの区間毎の区間映像データに対する第１スコアを第１閾値と比較することで、前記第１候補映像データとなる前記区間映像データを選定する第１候補選定手段をさらに有し、
前記ダイジェスト候補生成手段は、前記第１スコアを第１閾値と異なる第２閾値と比較することで選定した前記区間映像データと、前記スロー映像とに基づき、前記ダイジェスト候補を生成する、付記３～７のいずれか一項に記載の情報処理装置。

［付記１２］
コンピュータにより、
素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、
前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、
制御方法。

［付記１３］
素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
前記素材映像データと、前記スロー映像とに基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラムが格納された記憶媒体。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

１、１Ｘ情報処理装置
２入力装置
３出力装置
４記憶装置
６学習装置
１００ダイジェスト候補選定システム

Claims

素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
前記スロー映像毎に重要度を推論して算出したスコアが第２の閾値以上であるスロー映像を第２候補映像データとして選定する第２候補選定手段と、
前記第１候補映像データ毎に重要度を推論して算出したスコアが第１の閾値以上である第１候補映像データと、前記第２候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。
前記スロー映像生成手段は、前記第１候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成する、請求項１に記載の情報処理装置。
前記スロー映像生成手段は、前記第１候補映像データ毎に複数の再生速度に対応する前記スロー映像を生成し、
前記第２候補選定手段は、前記第１候補映像データ毎の前記スロー映像のうち、前記スロー映像の各々に対して算出されたスコアが前記第２の閾値以上であって、かつ、最も前記スコアが高いスロー映像を、前記第２候補映像データとして選定する、請求項１に記載の情報処理装置。
前記ダイジェスト候補生成手段は、前記素材映像データの同一区間に対応する前記第１候補映像データと前記第２候補映像データのうち、前記スコアが最も高い映像データのみを、前記ダイジェスト候補に含める、請求項１～３のいずれか一項に記載の情報処理装置。
前記ダイジェスト候補生成手段は、前記第１候補映像データと、前記第２候補映像データとを結合した映像データを、前記ダイジェスト候補として生成する、請求項１～４のいずれか一項に記載の情報処理装置。
入力された映像データに対して第１スコアを推論するように学習された第１推論器に基づき、前記素材映像データから前記第１候補映像データを選定する第１候補選定手段をさらに有し、
前記第２候補選定手段は、入力された映像データに対して第２スコアを推論するように学習された第２推論器に基づき、前記スロー映像の各々に対する第２スコアを前記スコアとして算出する、請求項１～５のいずれか一項に記載の情報処理装置。
コンピュータにより、
素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成し、
前記スロー映像毎に重要度を推論して算出したスコアが第２の閾値以上であるスロー映像を第２候補映像データとして選定し、
前記第１候補映像データ毎に重要度を推論して算出したスコアが第１の閾値以上である第１候補映像データと、前記第２候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成する、
制御方法。
素材映像データから選定された一部の区間に対応する映像データである第１候補映像データに対し、当該第１候補映像データの再生速度を等倍速未満とした映像データであるスロー映像を生成するスロー映像生成手段と、
前記スロー映像毎に重要度を推論して算出したスコアが第２の閾値以上であるスロー映像を第２候補映像データとして選定する第２候補選定手段と、
前記第１候補映像データ毎に重要度を推論して算出したスコアが第１の閾値以上である第１候補映像データと、前記第２候補映像データと、に基づき、前記素材映像データのダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラム。