JP2019110420A

JP2019110420A - 動画編集装置

Info

Publication number: JP2019110420A
Application number: JP2017241706A
Authority: JP
Inventors: 伸樹林; Nobuki Hayashi; 馬場　健; Takeshi Baba; 健馬場; 彰矩佐藤; Akinori Sato; 慎一郎市川; Shinichiro Ichikawa
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2019-07-04

Abstract

【課題】比較的容易に対象者の特定行動に係るダイジェスト動画を作成する。【解決手段】動画編集装置（１）は、人物を撮像し画像データを出力する撮像手段（２０）と、画像データ上で人物の顔領域を認識する顔認識手段（１１）と、画像データ上の人物をワイヤーフレーム化するワイヤーフレーム化手段（１１）と、認識された顔領域に係る顔中心座標を取得し、ワイヤーフレーム化された人物に係る首座標を取得し、これら座標間の距離に基づいて個人を特定する個人特定手段（１１）と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを画像データから抽出して特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段（１１、１２）と、を備える。【選択図】図１

Description

本発明は、例えばカメラで撮影された動画を元にダイジェスト動画を作成する動画編集装置の技術分野に属する。

この種の装置に関連するものとして、所定順序で配列された複数の画像で構成される画像群のうち一部の画像を間引くことで、画像群のダイジェストを作成する装置が提案されている（特許文献１参照）。蓄積された映像から、無線タグにより識別した対象者の特定映像を抽出し編集するシステムが提案されている（特許文献２参照）。動画像データを有するデータストリームを入力し、動画像データを複数のシーンに分割し、相異なる複数の条件に従ってシーン毎に動画像データを評価し、その評価結果に基づいてシーンを選択し選択ストリームを生成する装置が提案されている（特許文献３参照）。撮影された映像を指定された時間内に自動的に編集する装置が提案されている（特許文献４参照）。

特開２００５−２８６４３７号公報特開２００４−３１２５１１号公報特開２００２−１４２１８９号公報特開平１１−２０５７３３号公報

しかしながら、前述した各種装置によれば、映像内から人物を特定することが出来ないため、特定人物のダイジェスト映像或いはダイジェスト動画を作成することが困難であるという技術的課題がある。

本発明は、上記問題点に鑑みなされたものであり、比較的容易にして特定人物のダイジェスト動画を作成可能な動画編集装置を提供することを課題とする。

本発明の一態様に係る動画編集装置は、人物を撮像し画像データを出力する撮像手段と、前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、を備えるというものである。

実施形態に係る動画配信システムの構成を示すブロック図である。実施形態に係る動画配信システムの好適な構成を示すブロック図である。教師データの概念を示す概念図である。実施形態に係る動画生成配信処理を示すフローチャートである。タグ情報を参照した教師データの生成方法を説明するための概念図である。

動画配信システムに係る実施形態について図１乃至図５を参照して説明する。

（構成）
実施形態に係る動画配信システムの構成について図１及び図２を参照して説明する。図１及び図２は夫々、実施形態に係る動画配信システムの構成を示すブロック図である。

図１において、動画配信システム１は、動画配信装置１０、カメラ２０及び端末装置３０を備えて構成されている。尚、図１には、カメラ２０及び端末装置３０は１台ずつしか記載されていないが、動画配信システム１は、カメラ２０及び端末装置３０を夫々複数台備えて構成されていることが望ましい。

即ち、図２に示すように、各々が固定カメラ、ハンディカメラ、モバイルカメラ等であるとともに、通信機能を有する複数のカメラ２０と、各々がスマートフォン、タブレット端末、パーソナルコンピュータ等であるとともに、通信機能を有する複数の端末装置３０と、高機能処理装置、大容量記憶装置等を含むとともに、通信機能を有する動画配信装置１０とが、インターネット等の通信網２００に収容される形で、動画配信システム１が構成されていることが望ましい。ただし、複数のカメラ２０の少なくとも一部は、通信網２００とは異なる専用の通信網を介して動画配信装置１０と通信可能に構成されていてもよいし、双方向通信可能なケーブルにより動画配信装置１０に直接接続されていてもよい。

図１において、動画配信装置１０は、その内部に論理的に実現される処理ブロックとして、又は物理的に実現される処理回路として、動画抽出部１１、動画生成部１２、配信部１３及び教師データ生成部１４を備える。動画抽出部１１は、カメラ２０により撮像された動画から、予め定められた特定行動が写っているシーン（動画）を抽出する動画抽出機能と、該動画抽出機能を向上・最適化するための学習機能とを有している。動画生成部１２は、動画抽出部１１により抽出されたシーンを編集してダイジェスト動画を生成可能に構成されている。配信部１３は、動画生成部１２により生成されたダイジェスト動画を端末装置３０に配信可能に構成されている。教師データ生成部１４については後述する。

端末装置３０は、動画配信装置１０と通信するための通信機能、動画を再生するための再生機能、及び該再生された動画を表示するための表示機能を有している。カメラ２０には、既存の各種態様を適用可能であるので、その説明については省略する。

（機械学習処理）
動画抽出部１１の学習機能により実施される機械学習処理について図３を参照して説明する。図３は、教師データの概念を示す概念図である。

先ず、機械学習に用いられる教師データについて説明する。教師データ用に撮像された動画データ（即ち、機械学習させる特定行動が写っている動画データ）を、そのまま用いるとデータ量が比較的多くなってしまうので、動画データのフレームレートが低減される（言い換えれば、フレーム画像が間引かれる）（図３（ａ）参照）。元の動画データのフレームレートが、例えば３０ｆｐｓ（ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）である場合、例えば５ｆｐｓ等に低減される。フレームレートをどの程度低減するかは、フレームレートが低減された動画によって、動画抽出部１１により抽出される特定行動を認識可能であるか否か、該特定行動を他の行動から区別可能であるか否か、等を判断することにより決定すればよい。このようなフレームレートは、理想的には必要十分なまで低くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少高めのフレームレートを設定し、その後の機械学習の結果を反映させる形で適宜低減させていく方法により決定されてもよい。

次に、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物（即ち、特定行動を行っている人物）がワイヤーフレーム化される（図３（ｂ）参照）。尚、ワイヤーフレーム化に係る技術については、既存の各種態様を定用可能であるので、その説明については省略する。

図３（ｂ）の白丸は、ワイヤーフレーム化の際に注目される体の部位を示している。該注目される体の部位の数は任意であるが、典型的には、動画抽出部１１により抽出される特定行動を、他の行動から区別可能な数として設定される。例えば、１８部位や５部位等、対象とする特定行動に応じて設定される。尚、ワイヤーフレーム化された人物（即ち、図３（ｂ）に示すような線と白丸とで表される像）を、以降、適宜「ワイヤーフレーム」と称する。上記注目される体の部位（図３（ｂ）の白丸）を、以降、適宜「ポイント」と称する。

フレーム画像に複数の人物が写っている場合、ワイヤーフレーム化される人数は、上記特定行動に応じて変化する。特定行動が、例えば所定区間を通行することである場合、ワイヤーフレーム化される人数は、例えば“１”である。特定行動が、例えば他者へのあいさつである場合、ワイヤーフレーム化される人数は、例えば“２”である。

次に、時間的に連続する第１所定時間（例えば３秒）のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データが一組とされ、特定行動を示すラベルデータ（いわゆる、正例データ）が付与されることによって、教師データが生成される。

「時間的に連続する第１所定時間のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データ」は、ワイヤーフレームの座標推移を示すデータであると言える。つまり、教師データは、特定行動に対応するワイヤーフレームの座標推移を示すデータであると言える。尚、「第１所定時間」は、機械学習により特定行動を認識可能な時間の下限値であることが望ましい。なぜなら、「第１所定時間」が大きくなるほど、教師データが大きくなり、処理負荷が増加するからである。このような第１所定時間は、理想的には必要十分なまで短くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少長めの時間を設定し、その後の機械学習の結果を反映させる形で適宜短縮させていく方法により決定されてもよい。

動画抽出部１１は、上述の如く生成された教師データを用いた、教師ありの機械学習により、特定行動が写っているシーンの抽出に係るパラメータ（即ち、シーンの抽出に用いられるアルゴリズムに含まれるパラメータ）の最適化を行う。このとき、動画抽出部１１は、教師データに含まれる複数のポイント各々の座標推移（即ち、ワイヤーフレームの座標推移）に基づいて、学習すべき一の特定行動に対応する行動パターン（例えば、一の特定行動を示す特徴的な座標推移）を決定する。動画抽出部１１は、一の特定行動に係る複数の教師データの全てについて、該複数の教師データ各々により示されるワイヤーフレームの座標推移が、一の特定行動に該当すると判定されるように、上記行動パターンを最適化する（即ち、上記パラメータを最適化する）。このようにして、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習によって、特定された個人に係るワイヤーフレームの座標推移と特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを抽出する。言い換えれば、教師データに係るワイヤーフレームを構成する多次元データ（例えば、数十〜数千次元のデータ）と特定された個人に係るワイヤーフレームを構成する多次元データとの間で、相関の高さが所定閾値（即ち、行動の一致／不一致を判定するための閾値）を超えるシーンを、カメラで撮影された画像データから抽出する。抽出結果は、抽出されたシーンに係る画像データの時間或いは撮影時間等により示される。

特定行動は、１種類に限らず、複数種類であってよい。特定行動が複数種類である場合、特定行動毎のラベルデータが付与された教師データが生成される。つまり、特定行動として、行動Ａ、行動Ｂ、行動Ｃ、…がある場合、ラベルデータとしての、ラベルＡ、ラベルＢ、ラベルＣ、…が付与された教師データが生成される。

（動画生成配信処理）
動画配信装置１０により実施される動画生成配信処理について、図４のフローチャートを参照して説明する。

図４において、先ず、動画抽出部１１は、カメラ２０により撮像された動画データを取得する（ステップＳ１０１）。動画抽出部１１は、取得された動画データに対して個人認証処理を施す（ステップＳ１０２）。具体的には、動画抽出部１１は、カメラ２０の撮像対象である人物各々の識別情報（例えば名前、ＩＤ番号等）と、該識別情報に紐付けられた顔画像と予め有する。動画抽出部１１は、該顔画像に基づく顔認証処理を行い、一致した顔画像に紐付けられている識別情報から人物を特定する。

このステップＳ１０２の処理の結果、例えば、特定された人物を示す識別情報、該特定された人物が写っているフレーム画像に係る時間（例えばタイムスタンプ）、該フレーム画像における特定された人物の顔領域の中心座標が出力される。

ステップＳ１０２の処理と並行して、動画抽出部１１は、取得された動画データに写っている人物をワイヤーフレーム化する（ステップＳ１０３）。具体的には、動画抽出部１１は、処理負荷を軽減するために、動画データのフレームレートを低減する。動画抽出部１１は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。

このステップＳ１０３の処理の結果、例えば、複数のポイント（図３（ｂ）の白丸参照）各々の座標データを含むワイヤーフレーム、フレーム画像に係る時間（例えばタイムスタンプ）が出力される。つまり、ステップＳ１０３の処理の結果、時刻ｔ_ｉのワイヤーフレーム、時刻ｔ_ｉ＋１のワイヤーフレーム、時刻ｔ_ｉ＋２のワイヤーフレーム、…と、ワイヤーフレームの束（言い換えれば、ワイヤーフレームの座標推移を示すデータ）が出力される。

その後、動画抽出部１１は、ステップＳ１０２の処理の結果及びステップＳ１０３の処理の結果に基づいて、ワイヤーフレームと識別情報とを紐付けることによって、ワイヤーフレーム化された人物を特定する（ステップＳ１０４）。具体的には、動画抽出部１１は、フレーム画像に係る時間を参照して、対応するステップＳ１０２の処理の結果とステップＳ１０３の処理の結果とを選択する。次に、動画抽出部１１は、顔領域の中心座標と、ワイヤーフレームに含まれる複数のポイント各々の座標データのうち、例えば鼻及び首の少なくとも一方の座標とを比較して（例えば、顔領域の中心座標と、鼻及び首の少なくとも一方の座標との差分が所定値以内であるか否かを判定して）、ワイヤーフレームと識別情報とを紐付ける。

次に、動画抽出部１１は、上述の機械学習処理によりパラメータが最適化されたアルゴリズムを用いて、特定行動を抽出する（ステップＳ１０５）。このステップＳ１０５の処理を概念的に説明すれば、ワイヤーフレームの座標推移（即ち、該ワイヤーフレームに含まれる複数のポイント各々の座標推移）が、上述の機械学習処理により学習された特定行動に対応する行動パターン（例えば、特定行動を示す特徴的な座標推移）と重なれば特定行動と判定され、該行動パターンと重ならなければ特定行動ではないと判定される。動画抽出部１１は、上記ステップＳ１０３の処理において出力されたワイヤーフレームの座標推移を示すデータから、上記行動パターンと重なるワイヤーフレームの座標推移を検出することにより特定行動を抽出する。

このステップＳ１０５の処理の結果、例えば、特定行動に該当するワイヤーフレームに紐付けられた識別情報、特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間が出力される。つまり、ステップＳ１０５の処理により、特定行動が行われた時間と、該特定行動を行った人物とが特定される。

次に、動画抽出部１１は、ステップＳ１０５の処理の結果に含まれるフレーム画像に係る時間に基づいて、ステップＳ１０１の処理において取得された動画データ（即ち、フレームレートが低減されていない動画データ）から、特定行動が写っているシーンを抽出する。該抽出されたシーンには、ステップＳ１０５の処理の結果に含まれる識別情報が付与される。尚、特定行動が写っているシーンが複数存在する場合、複数のシーンが抽出される。

抽出されるシーンの長さは、上記特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間から求められる期間を含み、該期間より長い第２所定時間（例えば２０秒）である。ここで、「第２所定時間」は、ユーザが抽出されたシーンを見たときに、特定行動が行われていると認識可能な時間として、又は該時間より所定値だけ長い時間として設定されている。

次に、動画生成部１２は、ステップＳ１０６の処理において抽出された一又は複数のシーンを編集する（ステップＳ１０７）。具体的には、動画生成部１２は、先ず、ステップＳ１０６の処理において抽出された一又は複数のシーンを、該シーンに付与された識別情報に基づいて、例えば人物毎に分類する。次に、動画生成部１２は、分類されたシーンに写っている人物をワイヤーフレーム化する。

続いて、動画生成部１２は、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移に基づいて、例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在するか否か、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在するか否か、等を判定する。なぜなら、上述のステップＳ１０６の処理において抽出されたシーンの長さは、上述のステップＳ１０５の処理において抽出された複数のフレーム画像に係る期間よりも長く、抽出されたシーンの全期間にわたって特定行動が写っているとは限らないからである。そして、抽出されたシーンに特定行動が写っていない期間が存在すると、ダイジェスト動画を見たユーザが該シーンを冗長に感じる可能性がある。

例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在する、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在する、等と判定された場合、動画生成部１２は、抽出されたシーンのうち、例えばワイヤーフレーム化された人物の動きが比較的小さい期間、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間等に相当するフレーム画像を削除する（即ち、カットする）。

次に、動画生成部１２は、例えば人物毎に分類されたシーンを、例えば時系列で並べることにより、編集された動画であるダイジェスト動画を生成する。生成されたダイジェスト動画は、当該動画配信装置１０に記憶される。

次に、配信部１３は、ダイジェスト動画を端末装置３０に配信する（ステップＳ１０８）。ダイジェスト動画の配信方法には、既存の各種態様を適用可能であるが、一例としてストリーミング配信が挙げられる。配信部１３は、端末装置３０からアクセスを受けた場合、当該動画配信装置１０に記憶されているダイジェスト動画に係る情報（例えば配信可能なダイジェスト動画を示すリスト等）を端末装置３０に送信する。端末装置３０を介して、該端末装置３０のユーザ所望するダイジェスト動画が指定された場合、配信部１３は、指定されたダイジェスト動画を端末装置３０にストリーミング配信する。

（教師データ生成処理）
端末装置３０のユーザは、配信されたダイジェスト動画に対して任意のタグを付与することができる。ユーザがダイジェスト動画に対してタグを付与した場合、該付与されたタグに係るタグ情報が、端末装置３０から動画配信装置１０に送信される。動画配信装置１０の教師データ生成部１４は、タグ情報に基づいて、上述した機械学習に用いることが可能な新たな教師データを生成する。

図５（ａ）に示すように、ダイジェスト動画の時刻ｔ１にタグが付与された場合を例に挙げて具体的に説明する。教師データ生成部１４は、タグ情報に基づいて、ダイジェスト動画に含まれるシーンＡのうち、時刻ｔ１を含む所定範囲（図５（ｂ）では、時刻ｔ１−ｄｔ１から時刻ｔ１＋ｄｔ２までの範囲）の動画データを抽出する。

次に、教師データ生成部１４は、抽出された動画データのフレームレートを低減する（図３（ａ）参照）。続いて、教師データ生成部１４は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。続いて、教師データ生成部１４は、フレーム画像各々における複数のポイント各々の座標データを一組とすることによって、新たな教師データを生成する。動画抽出部１１は、上記新たな教師データが生成された場合、該生成された教師データを用いた機械学習を行う。

尚、ダイジェスト動画のシーンＡがどのようなシーンであるかは、例えば動画生成部１２のログに記録されているので、教師データ生成部１４は、該ログを参照して、上記新たな教師データにラベルデータを付与してよい。上記新たな教師データには、タグを付与したユーザに係る情報が付与されてよい。

ここで、タグは、端末装置３０（ひいては、動画配信システム１）のユーザが特に関心を持った動作（即ち、特定行動を構成する動作の一部）に付与されることが多い。タグ情報に基づいて新たな教師データが生成され、該生成された教師データを用いた機械学習が行われることによって、シーンの抽出に用いられるアルゴリズムに、例えばユーザの感性等を反映させることができる。このため、タグ情報に基づく新たな教師データが蓄積されるほど（例えばユーザが当該動画配信システム１の使用回数が増えるほど）、ユーザにより適したダイジェスト動画が生成・配信されることとなる。

（技術的効果）
当該動画配信システム１では、動画抽出部１１により特定行動が写っているシーンが自動的に抽出される。加えて、動画生成部１２により特定行動が写っているシーンが自動的に編集されダイジェスト動画が生成される。このため、例えばユーザが動画を再生しながら特定行動が写っているシーンを確認し、該シーンを抽出・編集するという作業を行う必要がなくなる。

当該動画配信システム１では、タグ情報に基づいて新たな教師データが逐次生成され、該生成された教師データを用いた機械学習が繰り返し行われる。このため、動画抽出部１１によるシーンの抽出に係る精度を向上させることができる。また、タグはユーザが特に関心を持った動作に付与されることが多いので、上記教師データを用いた機械学習が繰り返し行われることによって、ユーザにより適したダイジェスト動画を生成することができる。

当該動画配信システム１に係る機械学習に用いられる教師データは、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移を示すデータとして構成されている。このように構成すれば、比較的容易にして、特定行動を動画抽出部１１に機械学習させることができる。

＜変形例＞
（１）図４に示す動画生成配信処理のステップＳ１０２の処理において、顔認証処理に加えて、表情認識処理が行われてもよい。この場合、ステップＳ１０２の処理の結果、例えば、特定された人物を示す識別情報、特定された人物の表情に係る表情情報、該特定された人物が写っているフレーム画像に係る時間、該フレーム画像における特定された人物の顔領域の中心座標が出力される。そして、ステップＳ１０４の処理において、ワイヤーフレームと識別情報及び表情情報とが紐付けられる。このように構成すれば、一の人物が特定の表情で特定行動を行っているダイジェスト動画を生成することができる。

（２）図４に示す動画生成配信処理のステップＳ１０７の処理において、抽出されたシーンは、人物毎の分類に限らず、例えば時間帯や、所属（この場合、識別情報に所属を示す情報が含まれている必要がある）等に応じて分類されてよい。このように構成すれば、例えば時間帯毎又は所属毎に、特定行動を行った人物のダイジェスト動画を生成することができる。

＜具体的な適用例＞
（１）当該動画配信システム１が、例えば保育園での園児の行動記録に用いられる場合を説明する。この場合、特定行動として、（ｉ）登園（園児とその保護者が保育士に近づき、保護者が保育士から離れる、等）、（ｉｉ）遊び（複数の園児が一緒に走る、等）、（ｉｉｉ）給食（食事のために手を口元に近づけ、その後手を下ろす、等）、（ｉｖ）昼寝（ふとんに横になる、等）、（ｖ）降園（保護者が園児に近づき、保護者及び園児が一緒に歩く、等）、等が挙げられる。

カメラ２０は、例えば保育園の門付近（即ち、登降園場所）、保育園の園舎内、園庭等の上記特定行動が発生すると考えられる場所に複数台設置される。動画配信装置１０の動画抽出部１１は、複数のカメラ２０各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部１２は、該抽出されたシーンを、園児毎に編集して、園児毎のダイジェスト動画を生成する。

園児の保護者が所持する端末装置３０に、該園児のダイジェスト動画が配信されれば、保育園の連絡帳の記載からではわからない園児の様子を保護者が確認することができる。また、保育士が所持する端末装置３０に、園児のダイジェスト動画が配信されれば、保育士が、各園児の保育計画の策定の補助にダイジェスト動画を利用することができる。

（２）当該動画配信システム１が、例えば介護施設での夜間の行動記録に用いられる場合を説明する。この場合、特定行動として、（ｉ）夜間の各部屋の出入り、（ｉｉ）就寝（ふとんに横になる、等）、（ｉｉｉ）起床（ふとんから起き上がる、など）、等が挙げられる。

カメラ２０は、各部屋に設置される。動画配信装置１０の動画抽出部１１は、複数のカメラ２０各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部１２は、該抽出されたシーンを、入所者毎に編集して、入所者毎のダイジェスト動画を生成する。

介護施設の職員が所持する端末装置３０に、入所者のダイジェスト動画が配信されれば、職員が、例えば夜間における入所者の行動を把握することができる。また、入所者の親族が所持する端末装置３０に、入所者のダイジェスト動画が配信されれば、例えば入所者の夜間の様子を知ることができる。

（３）その他、例えば工場にカメラ２０を設置し、工場作業者の異常行動を特定行動とすれば、当該動画配信システム１により、工場作業者の異常行動に係るダイジェスト動画を生成・配信することができる。或いは、例えば空港にカメラ２０を設置し、乗客等の異常行動を特定行動とすれば、当該動画配信システム１により、乗客等の異常行動に係るダイジェスト動画を生成・配信することができる。

カメラ２０は、所定の場所に固定されてなくてよく、例えば持ち運び可能であってもよい。具体的には、カメラ２０は、持ち運び可能な家庭用のビデオカメラであってもよい。加えて、上述の変形例（１）に記載されているように、図４に示す動画生成配信処理のステップＳ１０２の処理において、顔認証処理及び表情認証処理が行われるように動画抽出部１１を構成すれば、上記ビデオカメラで撮像された動画データから、例えば笑顔で特定行動を行っているシーンを含むダイジェスト動画を生成・配信することができる。

以上に説明した実施形態及び変形例から導き出される発明の各種態様を以下に説明する。

発明の一態様に係る動画編集装置は、人物を撮像し画像データを出力する撮像手段と、前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、を備えるというものである。

上述の実施形態においては、「カメラ２０」が撮像手段の一例に相当し、「動画抽出部１１」が顔認識手段、ワイヤーフレーム化手段及び個人特定手段の一例に相当し、「動画抽出部１１」及び「動画生成部１２」が画像作成手段の一例に相当する。

当該動画編集装置によれば、「撮像手段」は、ダイジェスト画像の元となる動画或いは映像を撮像するカメラの機能と、動画に限らず静止画或いは写真を撮像して顔認識をするカメラの機能とを有し、単一の又は複数のカメラを含んで構成される。

その動作時には、撮像手段により一又は複数の人物が撮像されると、一方で、顔認識手段によって、画像データ上で人物の顔領域が認識される。ここでは例えば、顔認識に基づく個人認証（即ち、顔認証）が行われる。このとき、顔認識に加えて表情認識が行われてよい。これと並行して又は相前後して、ワイヤーフレーム化手段によって、画像データ上の人物がワイヤーフレーム化される。すると、個人特定手段によって、前記認識された顔領域に係る顔中心座標とワイヤーフレーム化された人物に係る首座標との間の距離に基づいて、前記人物に係る個人が特定される。即ち、顔認証の結果とワイヤーフレームとがデータとして相互に紐付される。これにより、誰がどのような動きを行っているのかが判明する。

続いて、ダイジェスト画像作成手段では、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により、先に特定された個人に係るワイヤーフレームの座標推移と、特定行動に対応するワイヤーフレームの座標推移とが重なるシーンが、画像データから抽出される。

ここに「重なる」とは、相互に一致或いは合致しているものとして扱うに相応しい程度に、相関が高い若しくは関連が強い又は合致若しくは一致する趣旨である。即ち、完全に一致している場合のみならず、或る程度一致している場合、即ち同じ若しくは同じ範疇の特定行動をしていると見做なせる場合も含む趣旨である。また「シーン」とは、撮像された動画（画像データ）のうち特定人物が特定行動をしている時間帯に撮像された動画部分を意味する。

その後、ダイジェスト画像作成手段によって、該抽出されたシーンに基づいて、特定個人のダイジェスト画像が作成される。

このように、顔認識により特定された特定個人に係るワイヤーフレームの座標推移と、機械学習に基づくワイヤーフレームの座標推移とが重なるシーンに基づいて、特定個人或いは特定人物のダイジェスト画像を比較的簡単に作成可能となる。

＜コンピュータプログラム＞
発明の他の態様に係るコンピュータプログラムは、コンピュータを、上述した動画編集装置（但し、その各種態様を含む）として機能させる。

当該コンピュータプログラムによれば、当該コンピュータプログラムを格納するＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク等の記録媒体或いはＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等コンピュータシステムに着脱可能な固体型記憶装置から、当該コンピュータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本実施形態に係る動画編集装置（但し、その各種態様を含む）を比較的簡単に実現できる。

本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う動画編集装置もまた本発明の技術的範囲に含まれるものである。

１…動画配信システム、１０…動画配信装置、１１…動画抽出部、１２…動画生成部、１３…配信部、１４…教師データ生成部、２０…カメラ、３０…端末装置

Claims

人物を撮像し画像データを出力する撮像手段と、
前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、
前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、
前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、
ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、
を備えることを特徴とする動画編集装置。