JP2019110421A

JP2019110421A - 動画配信システム

Info

Publication number: JP2019110421A
Application number: JP2017241708A
Authority: JP
Inventors: 伸樹林; Nobuki Hayashi; 馬場　健; Takeshi Baba; 健馬場; 彰矩佐藤; Akinori Sato; 慎一郎市川; Shinichiro Ichikawa
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2019-07-04
Also published as: CN109949392A; US20190188481A1

Abstract

【課題】撮像手段により撮像された動画から所定の内容を含む映像を自動的に抽出する。【解決手段】動画配信システム（１）は、撮像手段（２０）により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段（１１）と、抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段（１２）と、生成されたダイジェスト動画を配信する配信手段（１３）と、を備える。抽出手段は、抽出動作を向上するために、人物を撮像した動画の少なくとも一部を入力データとして特定行動に係る機械学習を行う。【選択図】図１

Description

本発明は、動画配信システムの技術分野に関する。

この種のシステムでは、編集に係る手間を低減することが図られる。例えば特許文献１には、画面上に表示された複数の画像のうちユーザにより選択された画像を、ユーザにより指定された順序で並び替えて編集ファイルを作成するシステムが記載されている。特許文献２には、撮影対象に無線タグを付与し、該無線タグから発進された信号に含まれる該無線タグの識別情報を時刻に対応付けて記録し、該識別情報と時刻との対応情報を利用して、カメラにより撮影された映像から撮影対象に係る映像を切り出して編集するシステムが記載されている。

特開２００６−２０２０４５号公報特開２００４−３１２５１１号公報

特許文献１に記載の技術では、ユーザが編集ファイルに含める画像を選択しなければならず、ユーザの作業負担が比較的重いという技術的問題点がある。特許文献２に記載の技術では、撮影対象に無線タグを付与しなければならず、また、識別情報と対応付けられた時刻によって映像が切り出されるので、編集時には切り出される映像の内容が不明であるという技術的問題点がある。

本発明は、上記問題点に鑑みてなされたものであり、特定行動に係るシーンを自動的に抽出することが可能な動画配信システムを提供することを課題とする。

本発明の一態様に係る動画配信システムは、撮像手段により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段と、前記抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段と、前記生成されたダイジェスト動画を配信する配信手段と、を備え、前記抽出手段は、前記抽出動作を向上するために、前記対象者と同一の又は異なる人物を撮像した動画の少なくとも一部を入力データとして前記特定行動に係る機械学習を行うというものである。

実施形態に係る動画配信システムの構成を示すブロック図である。実施形態に係る動画配信システムの好適な構成を示すブロック図である。教師データの概念を示す概念図である。実施形態に係る動画生成配信処理を示すフローチャートである。タグ情報を参照した教師データの生成方法を説明するための概念図である。

動画配信システムに係る実施形態について図１乃至図５を参照して説明する。

（構成）
実施形態に係る動画配信システムの構成について図１及び図２を参照して説明する。図１及び図２は夫々、実施形態に係る動画配信システムの構成を示すブロック図である。

図１において、動画配信システム１は、動画配信装置１０、カメラ２０及び端末装置３０を備えて構成されている。尚、図１には、カメラ２０及び端末装置３０は１台ずつしか記載されていないが、動画配信システム１は、カメラ２０及び端末装置３０を夫々複数台備えて構成されていることが望ましい。

即ち、図２に示すように、各々が固定カメラ、ハンディカメラ、モバイルカメラ等であるとともに、通信機能を有する複数のカメラ２０と、各々がスマートフォン、タブレット端末、パーソナルコンピュータ等であるとともに、通信機能を有する複数の端末装置３０と、高機能処理装置、大容量記憶装置等を含むとともに、通信機能を有する動画配信装置１０とが、インターネット等の通信網２００に収容される形で、動画配信システム１が構成されていることが望ましい。ただし、複数のカメラ２０の少なくとも一部は、通信網２００とは異なる専用の通信網を介して動画配信装置１０と通信可能に構成されていてもよいし、双方向通信可能なケーブルにより動画配信装置１０に直接接続されていてもよい。

図１において、動画配信装置１０は、その内部に論理的に実現される処理ブロックとして、又は物理的に実現される処理回路として、動画抽出部１１、動画生成部１２、配信部１３及び教師データ生成部１４を備える。動画抽出部１１は、カメラ２０により撮像された動画から、予め定められた特定行動が写っているシーン（動画）を抽出する動画抽出機能と、該動画抽出機能を向上・最適化するための学習機能とを有している。動画生成部１２は、動画抽出部１１により抽出されたシーンを編集してダイジェスト動画を生成可能に構成されている。配信部１３は、動画生成部１２により生成されたダイジェスト動画を端末装置３０に配信可能に構成されている。教師データ生成部１４については後述する。

端末装置３０は、動画配信装置１０と通信するための通信機能、動画を再生するための再生機能、及び該再生された動画を表示するための表示機能を有している。カメラ２０には、既存の各種態様を適用可能であるので、その説明については省略する。

（機械学習処理）
動画抽出部１１の学習機能により実施される機械学習処理について図３を参照して説明する。図３は、教師データの概念を示す概念図である。

先ず、機械学習に用いられる教師データについて説明する。教師データ用に撮像された動画データ（即ち、機械学習させる特定行動が写っている動画データ）を、そのまま用いるとデータ量が比較的多くなってしまうので、動画データのフレームレートが低減される（言い換えれば、フレーム画像が間引かれる）（図３（ａ）参照）。元の動画データのフレームレートが、例えば３０ｆｐｓ（ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）である場合、例えば５ｆｐｓ等に低減される。フレームレートをどの程度低減するかは、フレームレートが低減された動画によって、動画抽出部１１により抽出される特定行動を認識可能であるか否か、該特定行動を他の行動から区別可能であるか否か、等を判断することにより決定すればよい。このようなフレームレートは、理想的には必要十分なまで低くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少高めのフレームレートを設定し、その後の機械学習の結果を反映させる形で適宜低減させていく方法により決定されてもよい。

次に、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物（即ち、特定行動を行っている人物）がワイヤーフレーム化される（図３（ｂ）参照）。尚、ワイヤーフレーム化に係る技術については、既存の各種態様を定用可能であるので、その説明については省略する。

図３（ｂ）の白丸は、ワイヤーフレーム化の際に注目される体の部位を示している。該注目される体の部位の数は任意であるが、典型的には、動画抽出部１１により抽出される特定行動を、他の行動から区別可能な数として設定される。例えば、１８部位や５部位等、対象とする特定行動に応じて設定される。尚、ワイヤーフレーム化された人物（即ち、図３（ｂ）に示すような線と白丸とで表される像）を、以降、適宜「ワイヤーフレーム」と称する。上記注目される体の部位（図３（ｂ）の白丸）を、以降、適宜「ポイント」と称する。

フレーム画像に複数の人物が写っている場合、ワイヤーフレーム化される人数は、上記特定行動に応じて変化する。特定行動が、例えば所定区間を通行することである場合、ワイヤーフレーム化される人数は、例えば“１”である。特定行動が、例えば他者へのあいさつである場合、ワイヤーフレーム化される人数は、例えば“２”である。

次に、時間的に連続する第１所定時間（例えば３秒）のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データが一組とされ、特定行動を示すラベルデータ（いわゆる、正例データ）が付与されることによって、教師データが生成される。

「時間的に連続する第１所定時間のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データ」は、ワイヤーフレームの座標推移を示すデータであると言える。つまり、教師データは、特定行動に対応するワイヤーフレームの座標推移を示すデータであると言える。尚、「第１所定時間」は、機械学習により特定行動を認識可能な時間の下限値であることが望ましい。なぜなら、「第１所定時間」が大きくなるほど、教師データが大きくなり、処理負荷が増加するからである。このような第１所定時間は、理想的には必要十分なまで短くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少長めの時間を設定し、その後の機械学習の結果を反映させる形で適宜短縮させていく方法により決定されてもよい。

動画抽出部１１は、上述の如く生成された教師データを用いた、教師ありの機械学習により、特定行動が写っているシーンの抽出に係るパラメータ（即ち、シーンの抽出に用いられるアルゴリズムに含まれるパラメータ）の最適化を行う。このとき、動画抽出部１１は、教師データに含まれる複数のポイント各々の座標推移（即ち、ワイヤーフレームの座標推移）に基づいて、学習すべき一の特定行動に対応する行動パターン（例えば、一の特定行動を示す特徴的な座標推移）を決定する。動画抽出部１１は、一の特定行動に係る複数の教師データの全てについて、該複数の教師データ各々により示されるワイヤーフレームの座標推移が、一の特定行動に該当すると判定されるように、上記行動パターンを最適化する（即ち、上記パラメータを最適化する）。このようにして、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習によって、特定された個人に係るワイヤーフレームの座標推移と特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを抽出する。言い換えれば、教師データに係るワイヤーフレームを構成する多次元データ（例えば、数十〜数千次元のデータ）と特定された個人に係るワイヤーフレームを構成する多次元データとの間で、相関の高さが所定閾値（即ち、行動の一致／不一致を判定するための閾値）を超えるシーンを、カメラで撮影された画像データから抽出する。抽出結果は、抽出されたシーンに係る画像データの時間或いは撮影時間等により示される。

特定行動は、１種類に限らず、複数種類であってよい。特定行動が複数種類である場合、特定行動毎のラベルデータが付与された教師データが生成される。つまり、特定行動として、行動Ａ、行動Ｂ、行動Ｃ、…がある場合、ラベルデータとしての、ラベルＡ、ラベルＢ、ラベルＣ、…が付与された教師データが生成される。

（動画生成配信処理）
動画配信装置１０により実施される動画生成配信処理について、図４のフローチャートを参照して説明する。

図４において、先ず、動画抽出部１１は、カメラ２０により撮像された動画データを取得する（ステップＳ１０１）。動画抽出部１１は、取得された動画データに対して個人認証処理を施す（ステップＳ１０２）。具体的には、動画抽出部１１は、カメラ２０の撮像対象である人物各々の識別情報（例えば名前、ＩＤ番号等）と、該識別情報に紐付けられた顔画像と予め有する。動画抽出部１１は、該顔画像に基づく顔認証処理を行い、一致した顔画像に紐付けられている識別情報から人物を特定する。

このステップＳ１０２の処理の結果、例えば、特定された人物を示す識別情報、該特定された人物が写っているフレーム画像に係る時間（例えばタイムスタンプ）、該フレーム画像における特定された人物の顔領域の中心座標が出力される。

ステップＳ１０２の処理と並行して、動画抽出部１１は、取得された動画データに写っている人物をワイヤーフレーム化する（ステップＳ１０３）。具体的には、動画抽出部１１は、処理負荷を軽減するために、動画データのフレームレートを低減する。動画抽出部１１は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。

このステップＳ１０３の処理の結果、例えば、複数のポイント（図３（ｂ）の白丸参照）各々の座標データを含むワイヤーフレーム、フレーム画像に係る時間（例えばタイムスタンプ）が出力される。つまり、ステップＳ１０３の処理の結果、時刻ｔ_ｉのワイヤーフレーム、時刻ｔ_ｉ＋１のワイヤーフレーム、時刻ｔ_ｉ＋２のワイヤーフレーム、…と、ワイヤーフレームの束（言い換えれば、ワイヤーフレームの座標推移を示すデータ）が出力される。

その後、動画抽出部１１は、ステップＳ１０２の処理の結果及びステップＳ１０３の処理の結果に基づいて、ワイヤーフレームと識別情報とを紐付けることによって、ワイヤーフレーム化された人物を特定する（ステップＳ１０４）。具体的には、動画抽出部１１は、フレーム画像に係る時間を参照して、対応するステップＳ１０２の処理の結果とステップＳ１０３の処理の結果とを選択する。次に、動画抽出部１１は、顔領域の中心座標と、ワイヤーフレームに含まれる複数のポイント各々の座標データのうち、例えば鼻及び首の少なくとも一方の座標とを比較して（例えば、顔領域の中心座標と、鼻及び首の少なくとも一方の座標との差分が所定値以内であるか否かを判定して）、ワイヤーフレームと識別情報とを紐付ける。

次に、動画抽出部１１は、上述の機械学習処理によりパラメータが最適化されたアルゴリズムを用いて、特定行動を抽出する（ステップＳ１０５）。このステップＳ１０５の処理を概念的に説明すれば、ワイヤーフレームの座標推移（即ち、該ワイヤーフレームに含まれる複数のポイント各々の座標推移）が、上述の機械学習処理により学習された特定行動に対応する行動パターン（例えば、特定行動を示す特徴的な座標推移）と重なれば特定行動と判定され、該行動パターンと重ならなければ特定行動ではないと判定される。動画抽出部１１は、上記ステップＳ１０３の処理において出力されたワイヤーフレームの座標推移を示すデータから、上記行動パターンと重なるワイヤーフレームの座標推移を検出することにより特定行動を抽出する。

このステップＳ１０５の処理の結果、例えば、特定行動に該当するワイヤーフレームに紐付けられた識別情報、特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間が出力される。つまり、ステップＳ１０５の処理により、特定行動が行われた時間と、該特定行動を行った人物とが特定される。

次に、動画抽出部１１は、ステップＳ１０５の処理の結果に含まれるフレーム画像に係る時間に基づいて、ステップＳ１０１の処理において取得された動画データ（即ち、フレームレートが低減されていない動画データ）から、特定行動が写っているシーンを抽出する。該抽出されたシーンには、ステップＳ１０５の処理の結果に含まれる識別情報が付与される。尚、特定行動が写っているシーンが複数存在する場合、複数のシーンが抽出される。

抽出されるシーンの長さは、上記特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間から求められる期間を含み、該期間より長い第２所定時間（例えば２０秒）である。ここで、「第２所定時間」は、ユーザが抽出されたシーンを見たときに、特定行動が行われていると認識可能な時間として、又は該時間より所定値だけ長い時間として設定されている。

次に、動画生成部１２は、ステップＳ１０６の処理において抽出された一又は複数のシーンを編集する（ステップＳ１０７）。具体的には、動画生成部１２は、先ず、ステップＳ１０６の処理において抽出された一又は複数のシーンを、該シーンに付与された識別情報に基づいて、例えば人物毎に分類する。次に、動画生成部１２は、分類されたシーンに写っている人物をワイヤーフレーム化する。

続いて、動画生成部１２は、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移に基づいて、例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在するか否か、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在するか否か、等を判定する。なぜなら、上述のステップＳ１０６の処理において抽出されたシーンの長さは、上述のステップＳ１０５の処理において抽出された複数のフレーム画像に係る期間よりも長く、抽出されたシーンの全期間にわたって特定行動が写っているとは限らないからである。そして、抽出されたシーンに特定行動が写っていない期間が存在すると、ダイジェスト動画を見たユーザが該シーンを冗長に感じる可能性がある。

例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在する、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在する、等と判定された場合、動画生成部１２は、抽出されたシーンのうち、例えばワイヤーフレーム化された人物の動きが比較的小さい期間、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間等に相当するフレーム画像を削除する（即ち、カットする）。

次に、動画生成部１２は、例えば人物毎に分類されたシーンを、例えば時系列で並べることにより、編集された動画であるダイジェスト動画を生成する。生成されたダイジェスト動画は、当該動画配信装置１０に記憶される。

次に、配信部１３は、ダイジェスト動画を端末装置３０に配信する（ステップＳ１０８）。ダイジェスト動画の配信方法には、既存の各種態様を適用可能であるが、一例としてストリーミング配信が挙げられる。配信部１３は、端末装置３０からアクセスを受けた場合、当該動画配信装置１０に記憶されているダイジェスト動画に係る情報（例えば配信可能なダイジェスト動画を示すリスト等）を端末装置３０に送信する。端末装置３０を介して、該端末装置３０のユーザ所望するダイジェスト動画が指定された場合、配信部１３は、指定されたダイジェスト動画を端末装置３０にストリーミング配信する。

（教師データ生成処理）
端末装置３０のユーザは、配信されたダイジェスト動画に対して任意のタグを付与することができる。ユーザがダイジェスト動画に対してタグを付与した場合、該付与されたタグに係るタグ情報が、端末装置３０から動画配信装置１０に送信される。動画配信装置１０の教師データ生成部１４は、タグ情報に基づいて、上述した機械学習に用いることが可能な新たな教師データを生成する。

図５（ａ）に示すように、ダイジェスト動画の時刻ｔ１にタグが付与された場合を例に挙げて具体的に説明する。教師データ生成部１４は、タグ情報に基づいて、ダイジェスト動画に含まれるシーンＡのうち、時刻ｔ１を含む所定範囲（図５（ｂ）では、時刻ｔ１−ｄｔ１から時刻ｔ１＋ｄｔ２までの範囲）の動画データを抽出する。

次に、教師データ生成部１４は、抽出された動画データのフレームレートを低減する（図３（ａ）参照）。続いて、教師データ生成部１４は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。続いて、教師データ生成部１４は、フレーム画像各々における複数のポイント各々の座標データを一組とすることによって、新たな教師データを生成する。動画抽出部１１は、上記新たな教師データが生成された場合、該生成された教師データを用いた機械学習を行う。

尚、ダイジェスト動画のシーンＡがどのようなシーンであるかは、例えば動画生成部１２のログに記録されているので、教師データ生成部１４は、該ログを参照して、上記新たな教師データにラベルデータを付与してよい。上記新たな教師データには、タグを付与したユーザに係る情報が付与されてよい。

ここで、タグは、端末装置３０（ひいては、動画配信システム１）のユーザが特に関心を持った動作（即ち、特定行動を構成する動作の一部）に付与されることが多い。タグ情報に基づいて新たな教師データが生成され、該生成された教師データを用いた機械学習が行われることによって、シーンの抽出に用いられるアルゴリズムに、例えばユーザの感性等を反映させることができる。このため、タグ情報に基づく新たな教師データが蓄積されるほど（例えばユーザが当該動画配信システム１の使用回数が増えるほど）、ユーザにより適したダイジェスト動画が生成・配信されることとなる。

（技術的効果）
当該動画配信システム１では、動画抽出部１１により特定行動が写っているシーンが自動的に抽出される。加えて、動画生成部１２により特定行動が写っているシーンが自動的に編集されダイジェスト動画が生成される。このため、例えばユーザが動画を再生しながら特定行動が写っているシーンを確認し、該シーンを抽出・編集するという作業を行う必要がなくなる。

当該動画配信システム１では、タグ情報に基づいて新たな教師データが逐次生成され、該生成された教師データを用いた機械学習が繰り返し行われる。このため、動画抽出部１１によるシーンの抽出に係る精度を向上させることができる。また、タグはユーザが特に関心を持った動作に付与されることが多いので、上記教師データを用いた機械学習が繰り返し行われることによって、ユーザにより適したダイジェスト動画を生成することができる。

当該動画配信システム１に係る機械学習に用いられる教師データは、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移を示すデータとして構成されている。このように構成すれば、比較的容易にして、特定行動を動画抽出部１１に機械学習させることができる。

＜変形例＞
（１）図４に示す動画生成配信処理のステップＳ１０２の処理において、顔認証処理に加えて、表情認識処理が行われてもよい。この場合、ステップＳ１０２の処理の結果、例えば、特定された人物を示す識別情報、特定された人物の表情に係る表情情報、該特定された人物が写っているフレーム画像に係る時間、該フレーム画像における特定された人物の顔領域の中心座標が出力される。そして、ステップＳ１０４の処理において、ワイヤーフレームと識別情報及び表情情報とが紐付けられる。このように構成すれば、一の人物が特定の表情で特定行動を行っているダイジェスト動画を生成することができる。

（２）図４に示す動画生成配信処理のステップＳ１０７の処理において、抽出されたシーンは、人物毎の分類に限らず、例えば時間帯や、所属（この場合、識別情報に所属を示す情報が含まれている必要がある）等に応じて分類されてよい。このように構成すれば、例えば時間帯毎又は所属毎に、特定行動を行った人物のダイジェスト動画を生成することができる。

＜具体的な適用例＞
（１）当該動画配信システム１が、例えば保育園での園児の行動記録に用いられる場合を説明する。この場合、特定行動として、（ｉ）登園（園児とその保護者が保育士に近づき、保護者が保育士から離れる、等）、（ｉｉ）遊び（複数の園児が一緒に走る、等）、（ｉｉｉ）給食（食事のために手を口元に近づけ、その後手を下ろす、等）、（ｉｖ）昼寝（ふとんに横になる、等）、（ｖ）降園（保護者が園児に近づき、保護者及び園児が一緒に歩く、等）、等が挙げられる。

カメラ２０は、例えば保育園の門付近（即ち、登降園場所）、保育園の園舎内、園庭等の上記特定行動が発生すると考えられる場所に複数台設置される。動画配信装置１０の動画抽出部１１は、複数のカメラ２０各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部１２は、該抽出されたシーンを、園児毎に編集して、園児毎のダイジェスト動画を生成する。

園児の保護者が所持する端末装置３０に、該園児のダイジェスト動画が配信されれば、保育園の連絡帳の記載からではわからない園児の様子を保護者が確認することができる。また、保育士が所持する端末装置３０に、園児のダイジェスト動画が配信されれば、保育士が、各園児の保育計画の策定の補助にダイジェスト動画を利用することができる。

（２）当該動画配信システム１が、例えば介護施設での夜間の行動記録に用いられる場合を説明する。この場合、特定行動として、（ｉ）夜間の各部屋の出入り、（ｉｉ）就寝（ふとんに横になる、等）、（ｉｉｉ）起床（ふとんから起き上がる、など）、等が挙げられる。

カメラ２０は、各部屋に設置される。動画配信装置１０の動画抽出部１１は、複数のカメラ２０各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部１２は、該抽出されたシーンを、入所者毎に編集して、入所者毎のダイジェスト動画を生成する。

介護施設の職員が所持する端末装置３０に、入所者のダイジェスト動画が配信されれば、職員が、例えば夜間における入所者の行動を把握することができる。また、入所者の親族が所持する端末装置３０に、入所者のダイジェスト動画が配信されれば、例えば入所者の夜間の様子を知ることができる。

（３）その他、例えば工場にカメラ２０を設置し、工場作業者の異常行動を特定行動とすれば、当該動画配信システム１により、工場作業者の異常行動に係るダイジェスト動画を生成・配信することができる。或いは、例えば空港にカメラ２０を設置し、乗客等の異常行動を特定行動とすれば、当該動画配信システム１により、乗客等の異常行動に係るダイジェスト動画を生成・配信することができる。

カメラ２０は、所定の場所に固定されてなくてよく、例えば持ち運び可能であってもよい。具体的には、カメラ２０は、持ち運び可能な家庭用のビデオカメラであってもよい。加えて、上述の変形例（１）に記載されているように、図４に示す動画生成配信処理のステップＳ１０２の処理において、顔認証処理及び表情認証処理が行われるように動画抽出部１１を構成すれば、上記ビデオカメラで撮像された動画データから、例えば笑顔で特定行動を行っているシーンを含むダイジェスト動画を生成・配信することができる。

以上に説明した実施形態及び変形例から導き出される発明の各種態様を以下に説明する。

発明の一態様に係る動画配信システムは、撮像手段により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段と、前記抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段と、前記生成されたダイジェスト動画を配信する配信手段と、を備え、前記抽出手段は、前記抽出動作を向上するために、前記対象者と同一の又は異なる人物を撮像した動画の少なくとも一部を入力データとして前記特定行動に係る機械学習を行うというものである。上述の実施形態においては、「動画抽出部１１」が抽出手段の一例に相当し、「動画生成部１２」が生成手段の一例に相当し、「配信部１３」が配信手段の一例に相当する。

当該動画配信システムの抽出手段では、特定行動に係る機械学習が行われる。該機械学習の結果、抽出手段は、特定行動に係るシーンを適切に認識することが可能となる。この機械学習には、人物を撮像した動画の少なくとも一部が入力データとして用いられるが、該「人物」は、不特定の人物であってよい（即ち、“人物”が“対象者”と同一である必要はない）。

当該動画配信システムでは、抽出手段により対象者の特定行動に係るシーンが自動的に抽出される。そして、生成手段は、該抽出されたシーンを編集してダイジェスト動画を生成する。従って、当該動画配信システムによれば、対象者の特定行動に係るシーンを自動的に抽出して、ダイジェスト動画を生成することができる。

当該動画配信システムの一態様では、前記配信されたダイジェスト動画にタグ付けがされたことを条件に、前記タグ付けされたダイジェスト動画を取得する取得手段を備え、前記抽出手段は、前記人物を撮像した動画の少なくとも一部に加え、前記タグ付けされたダイジェスト動画の少なくとも一部を前記入力データとして前記機械学習を行う。上述の実施形態においては、「教師データ生成部１４」が取得手段の一例に相当する。

この態様では、タグ付けされたダイジェスト動画の少なくとも一部が、機械学習の入力データとして用いられる。つまり、この態様では、当該動画配信システムが、所定のサービス目的で可動している段階においても、タグ付けされたダイジェスト動画の少なくとも一部を入力データとした機械学習が繰り返し行われる。このため、タグ付けされたダイジェスト動画が増えるほど、特定行動に係るシーンの抽出精度を向上させることができる。

発明の他の態様に係る動画編集装置は、人物を撮像し画像データを出力する撮像手段と、前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、を備えるというものである。

上述の実施形態においては、「カメラ２０」が撮像手段の一例に相当し、「動画抽出部１１」が顔認識手段、ワイヤーフレーム化手段及び個人特定手段の一例に相当し、「動画抽出部１１」及び「動画生成部１２」が画像作成手段の一例に相当する。

当該動画編集装置によれば、「撮像手段」は、ダイジェスト画像の元となる動画或いは映像を撮像するカメラの機能と、動画に限らず静止画或いは写真を撮像して顔認識をするカメラの機能とを有し、単一の又は複数のカメラを含んで構成される。

その動作時には、撮像手段により一又は複数の人物が撮像されると、一方で、顔認識手段によって、画像データ上で人物の顔領域が認識される。ここでは例えば、顔認識に基づく個人認証（即ち、顔認証）が行われる。このとき、顔認識に加えて表情認識が行われてよい。これと並行して又は相前後して、ワイヤーフレーム化手段によって、画像データ上の人物がワイヤーフレーム化される。すると、個人特定手段によって、前記認識された顔領域に係る顔中心座標とワイヤーフレーム化された人物に係る首座標との間の距離に基づいて、前記人物に係る個人が特定される。即ち、顔認証の結果とワイヤーフレームとがデータとして相互に紐付される。これにより、誰がどのような動きを行っているのかが判明する。

続いて、ダイジェスト画像作成手段では、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により、先に特定された個人に係るワイヤーフレームの座標推移と、特定行動に対応するワイヤーフレームの座標推移とが重なるシーンが、画像データから抽出される。

ここに「重なる」とは、相互に一致或いは合致しているものとして扱うに相応しい程度に、相関が高い若しくは関連が強い又は合致若しくは一致する趣旨である。即ち、完全に一致している場合のみならず、或る程度一致している場合、即ち同じ若しくは同じ範疇の特定行動をしていると見做なせる場合も含む趣旨である。また「シーン」とは、撮像された動画（画像データ）のうち特定人物が特定行動をしている時間帯に撮像された動画部分を意味する。

その後、ダイジェスト画像作成手段によって、該抽出されたシーンに基づいて、特定個人のダイジェスト画像が作成される。

このように、顔認識により特定された特定個人に係るワイヤーフレームの座標推移と、機械学習に基づくワイヤーフレームの座標推移とが重なるシーンに基づいて、特定個人或いは特定人物のダイジェスト画像を比較的簡単に作成可能となる。

発明の他の態様に係る動画編集装置は、人物を撮像した画像データ上の前記人物をワイヤーフレーム化し、所定時間の前記人物の特定行動に係るワイヤーフレームの座標推移を示す教師データを作成する教師データ作成手段と、前記人物と同一の又は異なる人物である対象者を撮像し画像データを出力する撮像手段と、前記出力された画像データ上の前記対象者をワイヤーフレーム化するワイヤーフレーム化手段と、前記作成された教師データを用いた機械学習を行うことにより、前記対象者に係るワイヤーフレームの座標推移から前記特定行動に該当する前記ワイヤーフレームの座標推移を抽出することによって、前記対象者の前記特定行動に係るダイジェスト動画を作成するダイジェスト画像作成手段と、を備えるというものである。

上述の実施形態においては、「教師データ生成部１４」が教師データ作成手段の一例に相当し、「カメラ２０」が撮像手段の一例に相当し、「動画抽出部１１」がワイヤーフレーム化手段の一例に該当し、「動画抽出部１１」及び「動画生成部１２」がダイジェスト画像作成手段の一例に相当する。

「人物」は、不特定の人物であり、「人物」と「対象者」とは同じであってもよいし、異なっていてもよい。「所定時間」とは、当該教師データを用いて機械学習で行動パターンを決定する上で望ましい時間として、教師データの作成に先んじて予め設定されるものである。このような所定時間は、例えば人間の動作速度や動作時間或いは最終的にダイジェスト動画を作成したい特定行動を行う際の動作速度や動作時間に基づいて、特定行動の教師データを作成するに十分な値として、予め実験的若しくは経験的に又はシミュレーション若しくは演算により設定されるものである。また、所定時間としては、適当な初期値を与えて、その後における教師データを作成する過程で適宜に変更が加えられてもよい。

教師データ作成手段は、例えば３秒間といった上記所定時間内のワイヤーフレームの座標推移等から、教師データを作成する。教師データについては、生成される際に識別番号や識別名称が自動的に振られたり人為的に付与されたりしてよい。

ダイジェスト画像作成手段は、教師データを用いた機械学習を行うことにより、ダイジェストにしたい特定行動としての抽出すべき行動パターンを決定する。ダイジェスト画像作成手段は、ワイヤーフレーム化された対象者に係るワイヤーフレームの座標推移から、該行動パターンに該当するワイヤーフレームの座標推移を抽出することによって、対象者の特定行動に係るダイジェスト動画を作成する。

以上のように、本願独自の教師データを用いた機械学習を採用することで、ダイジェストとしたい特定行動を容易に学習させることが出来、対象者に係る特定行動のダイジェスト画像を比較的簡単に作成可能となる。

＜コンピュータプログラム＞
発明の他の態様に係るコンピュータプログラムは、コンピュータを、上述した動画編集装置（但し、その各種態様を含む）として機能させる。

当該コンピュータプログラムによれば、当該コンピュータプログラムを格納するＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体或いはＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等コンピュータシステムに着脱可能な固体型記憶装置から、当該コンピュータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本実施形態に係る動画編集装置（但し、その各種態様を含む）を比較的簡単に実現できる。

本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う動画配信システムもまた本発明の技術的範囲に含まれるものである。

１…動画配信システム、１０…動画配信装置、１１…動画抽出部、１２…動画生成部、１３…配信部、１４…教師データ生成部、２０…カメラ、３０…端末装置

Claims

撮像手段により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段と、
前記抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段と、
前記生成されたダイジェスト動画を配信する配信手段と、
を備え、
前記抽出手段は、前記抽出動作を向上するために、前記対象者と同一の又は異なる人物を撮像した動画の少なくとも一部を入力データとして前記特定行動に係る機械学習を行う
ことを特徴とする動画配信システム。
前記配信されたダイジェスト動画にタグ付けがされたことを条件に、前記タグ付けされたダイジェスト動画を取得する取得手段を備え、
前記抽出手段は、前記人物を撮像した動画の少なくとも一部に加え、前記タグ付けされたダイジェスト動画の少なくとも一部を前記入力データとして前記機械学習を行う
ことを特徴とする請求項１に記載の動画配信システム。