JP2019110420A - 動画編集装置 - Google Patents
動画編集装置 Download PDFInfo
- Publication number
- JP2019110420A JP2019110420A JP2017241706A JP2017241706A JP2019110420A JP 2019110420 A JP2019110420 A JP 2019110420A JP 2017241706 A JP2017241706 A JP 2017241706A JP 2017241706 A JP2017241706 A JP 2017241706A JP 2019110420 A JP2019110420 A JP 2019110420A
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- person
- digest
- image data
- specific action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】比較的容易に対象者の特定行動に係るダイジェスト動画を作成する。【解決手段】動画編集装置(1)は、人物を撮像し画像データを出力する撮像手段(20)と、画像データ上で人物の顔領域を認識する顔認識手段(11)と、画像データ上の人物をワイヤーフレーム化するワイヤーフレーム化手段(11)と、認識された顔領域に係る顔中心座標を取得し、ワイヤーフレーム化された人物に係る首座標を取得し、これら座標間の距離に基づいて個人を特定する個人特定手段(11)と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを画像データから抽出して特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段(11、12)と、を備える。【選択図】図1
Description
本発明は、例えばカメラで撮影された動画を元にダイジェスト動画を作成する動画編集装置の技術分野に属する。
この種の装置に関連するものとして、所定順序で配列された複数の画像で構成される画像群のうち一部の画像を間引くことで、画像群のダイジェストを作成する装置が提案されている(特許文献1参照)。蓄積された映像から、無線タグにより識別した対象者の特定映像を抽出し編集するシステムが提案されている(特許文献2参照)。動画像データを有するデータストリームを入力し、動画像データを複数のシーンに分割し、相異なる複数の条件に従ってシーン毎に動画像データを評価し、その評価結果に基づいてシーンを選択し選択ストリームを生成する装置が提案されている(特許文献3参照)。撮影された映像を指定された時間内に自動的に編集する装置が提案されている(特許文献4参照)。
しかしながら、前述した各種装置によれば、映像内から人物を特定することが出来ないため、特定人物のダイジェスト映像或いはダイジェスト動画を作成することが困難であるという技術的課題がある。
本発明は、上記問題点に鑑みなされたものであり、比較的容易にして特定人物のダイジェスト動画を作成可能な動画編集装置を提供することを課題とする。
本発明の一態様に係る動画編集装置は、人物を撮像し画像データを出力する撮像手段と、前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、を備えるというものである。
動画配信システムに係る実施形態について図1乃至図5を参照して説明する。
(構成)
実施形態に係る動画配信システムの構成について図1及び図2を参照して説明する。図1及び図2は夫々、実施形態に係る動画配信システムの構成を示すブロック図である。
実施形態に係る動画配信システムの構成について図1及び図2を参照して説明する。図1及び図2は夫々、実施形態に係る動画配信システムの構成を示すブロック図である。
図1において、動画配信システム1は、動画配信装置10、カメラ20及び端末装置30を備えて構成されている。尚、図1には、カメラ20及び端末装置30は1台ずつしか記載されていないが、動画配信システム1は、カメラ20及び端末装置30を夫々複数台備えて構成されていることが望ましい。
即ち、図2に示すように、各々が固定カメラ、ハンディカメラ、モバイルカメラ等であるとともに、通信機能を有する複数のカメラ20と、各々がスマートフォン、タブレット端末、パーソナルコンピュータ等であるとともに、通信機能を有する複数の端末装置30と、高機能処理装置、大容量記憶装置等を含むとともに、通信機能を有する動画配信装置10とが、インターネット等の通信網200に収容される形で、動画配信システム1が構成されていることが望ましい。ただし、複数のカメラ20の少なくとも一部は、通信網200とは異なる専用の通信網を介して動画配信装置10と通信可能に構成されていてもよいし、双方向通信可能なケーブルにより動画配信装置10に直接接続されていてもよい。
図1において、動画配信装置10は、その内部に論理的に実現される処理ブロックとして、又は物理的に実現される処理回路として、動画抽出部11、動画生成部12、配信部13及び教師データ生成部14を備える。動画抽出部11は、カメラ20により撮像された動画から、予め定められた特定行動が写っているシーン(動画)を抽出する動画抽出機能と、該動画抽出機能を向上・最適化するための学習機能とを有している。動画生成部12は、動画抽出部11により抽出されたシーンを編集してダイジェスト動画を生成可能に構成されている。配信部13は、動画生成部12により生成されたダイジェスト動画を端末装置30に配信可能に構成されている。教師データ生成部14については後述する。
端末装置30は、動画配信装置10と通信するための通信機能、動画を再生するための再生機能、及び該再生された動画を表示するための表示機能を有している。カメラ20には、既存の各種態様を適用可能であるので、その説明については省略する。
(機械学習処理)
動画抽出部11の学習機能により実施される機械学習処理について図3を参照して説明する。図3は、教師データの概念を示す概念図である。
動画抽出部11の学習機能により実施される機械学習処理について図3を参照して説明する。図3は、教師データの概念を示す概念図である。
先ず、機械学習に用いられる教師データについて説明する。教師データ用に撮像された動画データ(即ち、機械学習させる特定行動が写っている動画データ)を、そのまま用いるとデータ量が比較的多くなってしまうので、動画データのフレームレートが低減される(言い換えれば、フレーム画像が間引かれる)(図3(a)参照)。元の動画データのフレームレートが、例えば30fps(frames per second)である場合、例えば5fps等に低減される。フレームレートをどの程度低減するかは、フレームレートが低減された動画によって、動画抽出部11により抽出される特定行動を認識可能であるか否か、該特定行動を他の行動から区別可能であるか否か、等を判断することにより決定すればよい。このようなフレームレートは、理想的には必要十分なまで低くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少高めのフレームレートを設定し、その後の機械学習の結果を反映させる形で適宜低減させていく方法により決定されてもよい。
次に、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物(即ち、特定行動を行っている人物)がワイヤーフレーム化される(図3(b)参照)。尚、ワイヤーフレーム化に係る技術については、既存の各種態様を定用可能であるので、その説明については省略する。
図3(b)の白丸は、ワイヤーフレーム化の際に注目される体の部位を示している。該注目される体の部位の数は任意であるが、典型的には、動画抽出部11により抽出される特定行動を、他の行動から区別可能な数として設定される。例えば、18部位や5部位等、対象とする特定行動に応じて設定される。尚、ワイヤーフレーム化された人物(即ち、図3(b)に示すような線と白丸とで表される像)を、以降、適宜「ワイヤーフレーム」と称する。上記注目される体の部位(図3(b)の白丸)を、以降、適宜「ポイント」と称する。
フレーム画像に複数の人物が写っている場合、ワイヤーフレーム化される人数は、上記特定行動に応じて変化する。特定行動が、例えば所定区間を通行することである場合、ワイヤーフレーム化される人数は、例えば“1”である。特定行動が、例えば他者へのあいさつである場合、ワイヤーフレーム化される人数は、例えば“2”である。
次に、時間的に連続する第1所定時間(例えば3秒)のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データが一組とされ、特定行動を示すラベルデータ(いわゆる、正例データ)が付与されることによって、教師データが生成される。
「時間的に連続する第1所定時間のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データ」は、ワイヤーフレームの座標推移を示すデータであると言える。つまり、教師データは、特定行動に対応するワイヤーフレームの座標推移を示すデータであると言える。尚、「第1所定時間」は、機械学習により特定行動を認識可能な時間の下限値であることが望ましい。なぜなら、「第1所定時間」が大きくなるほど、教師データが大きくなり、処理負荷が増加するからである。このような第1所定時間は、理想的には必要十分なまで短くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少長めの時間を設定し、その後の機械学習の結果を反映させる形で適宜短縮させていく方法により決定されてもよい。
動画抽出部11は、上述の如く生成された教師データを用いた、教師ありの機械学習により、特定行動が写っているシーンの抽出に係るパラメータ(即ち、シーンの抽出に用いられるアルゴリズムに含まれるパラメータ)の最適化を行う。このとき、動画抽出部11は、教師データに含まれる複数のポイント各々の座標推移(即ち、ワイヤーフレームの座標推移)に基づいて、学習すべき一の特定行動に対応する行動パターン(例えば、一の特定行動を示す特徴的な座標推移)を決定する。動画抽出部11は、一の特定行動に係る複数の教師データの全てについて、該複数の教師データ各々により示されるワイヤーフレームの座標推移が、一の特定行動に該当すると判定されるように、上記行動パターンを最適化する(即ち、上記パラメータを最適化する)。このようにして、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習によって、特定された個人に係るワイヤーフレームの座標推移と特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを抽出する。言い換えれば、教師データに係るワイヤーフレームを構成する多次元データ(例えば、数十〜数千次元のデータ)と特定された個人に係るワイヤーフレームを構成する多次元データとの間で、相関の高さが所定閾値(即ち、行動の一致/不一致を判定するための閾値)を超えるシーンを、カメラで撮影された画像データから抽出する。抽出結果は、抽出されたシーンに係る画像データの時間或いは撮影時間等により示される。
特定行動は、1種類に限らず、複数種類であってよい。特定行動が複数種類である場合、特定行動毎のラベルデータが付与された教師データが生成される。つまり、特定行動として、行動A、行動B、行動C、…がある場合、ラベルデータとしての、ラベルA、ラベルB、ラベルC、…が付与された教師データが生成される。
(動画生成配信処理)
動画配信装置10により実施される動画生成配信処理について、図4のフローチャートを参照して説明する。
動画配信装置10により実施される動画生成配信処理について、図4のフローチャートを参照して説明する。
図4において、先ず、動画抽出部11は、カメラ20により撮像された動画データを取得する(ステップS101)。動画抽出部11は、取得された動画データに対して個人認証処理を施す(ステップS102)。具体的には、動画抽出部11は、カメラ20の撮像対象である人物各々の識別情報(例えば名前、ID番号等)と、該識別情報に紐付けられた顔画像と予め有する。動画抽出部11は、該顔画像に基づく顔認証処理を行い、一致した顔画像に紐付けられている識別情報から人物を特定する。
このステップS102の処理の結果、例えば、特定された人物を示す識別情報、該特定された人物が写っているフレーム画像に係る時間(例えばタイムスタンプ)、該フレーム画像における特定された人物の顔領域の中心座標が出力される。
ステップS102の処理と並行して、動画抽出部11は、取得された動画データに写っている人物をワイヤーフレーム化する(ステップS103)。具体的には、動画抽出部11は、処理負荷を軽減するために、動画データのフレームレートを低減する。動画抽出部11は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。
このステップS103の処理の結果、例えば、複数のポイント(図3(b)の白丸参照)各々の座標データを含むワイヤーフレーム、フレーム画像に係る時間(例えばタイムスタンプ)が出力される。つまり、ステップS103の処理の結果、時刻tiのワイヤーフレーム、時刻ti+1のワイヤーフレーム、時刻ti+2のワイヤーフレーム、…と、ワイヤーフレームの束(言い換えれば、ワイヤーフレームの座標推移を示すデータ)が出力される。
その後、動画抽出部11は、ステップS102の処理の結果及びステップS103の処理の結果に基づいて、ワイヤーフレームと識別情報とを紐付けることによって、ワイヤーフレーム化された人物を特定する(ステップS104)。具体的には、動画抽出部11は、フレーム画像に係る時間を参照して、対応するステップS102の処理の結果とステップS103の処理の結果とを選択する。次に、動画抽出部11は、顔領域の中心座標と、ワイヤーフレームに含まれる複数のポイント各々の座標データのうち、例えば鼻及び首の少なくとも一方の座標とを比較して(例えば、顔領域の中心座標と、鼻及び首の少なくとも一方の座標との差分が所定値以内であるか否かを判定して)、ワイヤーフレームと識別情報とを紐付ける。
次に、動画抽出部11は、上述の機械学習処理によりパラメータが最適化されたアルゴリズムを用いて、特定行動を抽出する(ステップS105)。このステップS105の処理を概念的に説明すれば、ワイヤーフレームの座標推移(即ち、該ワイヤーフレームに含まれる複数のポイント各々の座標推移)が、上述の機械学習処理により学習された特定行動に対応する行動パターン(例えば、特定行動を示す特徴的な座標推移)と重なれば特定行動と判定され、該行動パターンと重ならなければ特定行動ではないと判定される。動画抽出部11は、上記ステップS103の処理において出力されたワイヤーフレームの座標推移を示すデータから、上記行動パターンと重なるワイヤーフレームの座標推移を検出することにより特定行動を抽出する。
このステップS105の処理の結果、例えば、特定行動に該当するワイヤーフレームに紐付けられた識別情報、特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間が出力される。つまり、ステップS105の処理により、特定行動が行われた時間と、該特定行動を行った人物とが特定される。
次に、動画抽出部11は、ステップS105の処理の結果に含まれるフレーム画像に係る時間に基づいて、ステップS101の処理において取得された動画データ(即ち、フレームレートが低減されていない動画データ)から、特定行動が写っているシーンを抽出する。該抽出されたシーンには、ステップS105の処理の結果に含まれる識別情報が付与される。尚、特定行動が写っているシーンが複数存在する場合、複数のシーンが抽出される。
抽出されるシーンの長さは、上記特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間から求められる期間を含み、該期間より長い第2所定時間(例えば20秒)である。ここで、「第2所定時間」は、ユーザが抽出されたシーンを見たときに、特定行動が行われていると認識可能な時間として、又は該時間より所定値だけ長い時間として設定されている。
次に、動画生成部12は、ステップS106の処理において抽出された一又は複数のシーンを編集する(ステップS107)。具体的には、動画生成部12は、先ず、ステップS106の処理において抽出された一又は複数のシーンを、該シーンに付与された識別情報に基づいて、例えば人物毎に分類する。次に、動画生成部12は、分類されたシーンに写っている人物をワイヤーフレーム化する。
続いて、動画生成部12は、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移に基づいて、例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在するか否か、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在するか否か、等を判定する。なぜなら、上述のステップS106の処理において抽出されたシーンの長さは、上述のステップS105の処理において抽出された複数のフレーム画像に係る期間よりも長く、抽出されたシーンの全期間にわたって特定行動が写っているとは限らないからである。そして、抽出されたシーンに特定行動が写っていない期間が存在すると、ダイジェスト動画を見たユーザが該シーンを冗長に感じる可能性がある。
例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在する、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在する、等と判定された場合、動画生成部12は、抽出されたシーンのうち、例えばワイヤーフレーム化された人物の動きが比較的小さい期間、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間等に相当するフレーム画像を削除する(即ち、カットする)。
次に、動画生成部12は、例えば人物毎に分類されたシーンを、例えば時系列で並べることにより、編集された動画であるダイジェスト動画を生成する。生成されたダイジェスト動画は、当該動画配信装置10に記憶される。
次に、配信部13は、ダイジェスト動画を端末装置30に配信する(ステップS108)。ダイジェスト動画の配信方法には、既存の各種態様を適用可能であるが、一例としてストリーミング配信が挙げられる。配信部13は、端末装置30からアクセスを受けた場合、当該動画配信装置10に記憶されているダイジェスト動画に係る情報(例えば配信可能なダイジェスト動画を示すリスト等)を端末装置30に送信する。端末装置30を介して、該端末装置30のユーザ所望するダイジェスト動画が指定された場合、配信部13は、指定されたダイジェスト動画を端末装置30にストリーミング配信する。
(教師データ生成処理)
端末装置30のユーザは、配信されたダイジェスト動画に対して任意のタグを付与することができる。ユーザがダイジェスト動画に対してタグを付与した場合、該付与されたタグに係るタグ情報が、端末装置30から動画配信装置10に送信される。動画配信装置10の教師データ生成部14は、タグ情報に基づいて、上述した機械学習に用いることが可能な新たな教師データを生成する。
端末装置30のユーザは、配信されたダイジェスト動画に対して任意のタグを付与することができる。ユーザがダイジェスト動画に対してタグを付与した場合、該付与されたタグに係るタグ情報が、端末装置30から動画配信装置10に送信される。動画配信装置10の教師データ生成部14は、タグ情報に基づいて、上述した機械学習に用いることが可能な新たな教師データを生成する。
図5(a)に示すように、ダイジェスト動画の時刻t1にタグが付与された場合を例に挙げて具体的に説明する。教師データ生成部14は、タグ情報に基づいて、ダイジェスト動画に含まれるシーンAのうち、時刻t1を含む所定範囲(図5(b)では、時刻t1−dt1から時刻t1+dt2までの範囲)の動画データを抽出する。
次に、教師データ生成部14は、抽出された動画データのフレームレートを低減する(図3(a)参照)。続いて、教師データ生成部14は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。続いて、教師データ生成部14は、フレーム画像各々における複数のポイント各々の座標データを一組とすることによって、新たな教師データを生成する。動画抽出部11は、上記新たな教師データが生成された場合、該生成された教師データを用いた機械学習を行う。
尚、ダイジェスト動画のシーンAがどのようなシーンであるかは、例えば動画生成部12のログに記録されているので、教師データ生成部14は、該ログを参照して、上記新たな教師データにラベルデータを付与してよい。上記新たな教師データには、タグを付与したユーザに係る情報が付与されてよい。
ここで、タグは、端末装置30(ひいては、動画配信システム1)のユーザが特に関心を持った動作(即ち、特定行動を構成する動作の一部)に付与されることが多い。タグ情報に基づいて新たな教師データが生成され、該生成された教師データを用いた機械学習が行われることによって、シーンの抽出に用いられるアルゴリズムに、例えばユーザの感性等を反映させることができる。このため、タグ情報に基づく新たな教師データが蓄積されるほど(例えばユーザが当該動画配信システム1の使用回数が増えるほど)、ユーザにより適したダイジェスト動画が生成・配信されることとなる。
(技術的効果)
当該動画配信システム1では、動画抽出部11により特定行動が写っているシーンが自動的に抽出される。加えて、動画生成部12により特定行動が写っているシーンが自動的に編集されダイジェスト動画が生成される。このため、例えばユーザが動画を再生しながら特定行動が写っているシーンを確認し、該シーンを抽出・編集するという作業を行う必要がなくなる。
当該動画配信システム1では、動画抽出部11により特定行動が写っているシーンが自動的に抽出される。加えて、動画生成部12により特定行動が写っているシーンが自動的に編集されダイジェスト動画が生成される。このため、例えばユーザが動画を再生しながら特定行動が写っているシーンを確認し、該シーンを抽出・編集するという作業を行う必要がなくなる。
当該動画配信システム1では、タグ情報に基づいて新たな教師データが逐次生成され、該生成された教師データを用いた機械学習が繰り返し行われる。このため、動画抽出部11によるシーンの抽出に係る精度を向上させることができる。また、タグはユーザが特に関心を持った動作に付与されることが多いので、上記教師データを用いた機械学習が繰り返し行われることによって、ユーザにより適したダイジェスト動画を生成することができる。
当該動画配信システム1に係る機械学習に用いられる教師データは、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移を示すデータとして構成されている。このように構成すれば、比較的容易にして、特定行動を動画抽出部11に機械学習させることができる。
<変形例>
(1)図4に示す動画生成配信処理のステップS102の処理において、顔認証処理に加えて、表情認識処理が行われてもよい。この場合、ステップS102の処理の結果、例えば、特定された人物を示す識別情報、特定された人物の表情に係る表情情報、該特定された人物が写っているフレーム画像に係る時間、該フレーム画像における特定された人物の顔領域の中心座標が出力される。そして、ステップS104の処理において、ワイヤーフレームと識別情報及び表情情報とが紐付けられる。このように構成すれば、一の人物が特定の表情で特定行動を行っているダイジェスト動画を生成することができる。
(1)図4に示す動画生成配信処理のステップS102の処理において、顔認証処理に加えて、表情認識処理が行われてもよい。この場合、ステップS102の処理の結果、例えば、特定された人物を示す識別情報、特定された人物の表情に係る表情情報、該特定された人物が写っているフレーム画像に係る時間、該フレーム画像における特定された人物の顔領域の中心座標が出力される。そして、ステップS104の処理において、ワイヤーフレームと識別情報及び表情情報とが紐付けられる。このように構成すれば、一の人物が特定の表情で特定行動を行っているダイジェスト動画を生成することができる。
(2)図4に示す動画生成配信処理のステップS107の処理において、抽出されたシーンは、人物毎の分類に限らず、例えば時間帯や、所属(この場合、識別情報に所属を示す情報が含まれている必要がある)等に応じて分類されてよい。このように構成すれば、例えば時間帯毎又は所属毎に、特定行動を行った人物のダイジェスト動画を生成することができる。
<具体的な適用例>
(1)当該動画配信システム1が、例えば保育園での園児の行動記録に用いられる場合を説明する。この場合、特定行動として、(i)登園(園児とその保護者が保育士に近づき、保護者が保育士から離れる、等)、(ii)遊び(複数の園児が一緒に走る、等)、(iii)給食(食事のために手を口元に近づけ、その後手を下ろす、等)、(iv)昼寝(ふとんに横になる、等)、(v)降園(保護者が園児に近づき、保護者及び園児が一緒に歩く、等)、等が挙げられる。
(1)当該動画配信システム1が、例えば保育園での園児の行動記録に用いられる場合を説明する。この場合、特定行動として、(i)登園(園児とその保護者が保育士に近づき、保護者が保育士から離れる、等)、(ii)遊び(複数の園児が一緒に走る、等)、(iii)給食(食事のために手を口元に近づけ、その後手を下ろす、等)、(iv)昼寝(ふとんに横になる、等)、(v)降園(保護者が園児に近づき、保護者及び園児が一緒に歩く、等)、等が挙げられる。
カメラ20は、例えば保育園の門付近(即ち、登降園場所)、保育園の園舎内、園庭等の上記特定行動が発生すると考えられる場所に複数台設置される。動画配信装置10の動画抽出部11は、複数のカメラ20各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部12は、該抽出されたシーンを、園児毎に編集して、園児毎のダイジェスト動画を生成する。
園児の保護者が所持する端末装置30に、該園児のダイジェスト動画が配信されれば、保育園の連絡帳の記載からではわからない園児の様子を保護者が確認することができる。また、保育士が所持する端末装置30に、園児のダイジェスト動画が配信されれば、保育士が、各園児の保育計画の策定の補助にダイジェスト動画を利用することができる。
(2)当該動画配信システム1が、例えば介護施設での夜間の行動記録に用いられる場合を説明する。この場合、特定行動として、(i)夜間の各部屋の出入り、(ii)就寝(ふとんに横になる、等)、(iii)起床(ふとんから起き上がる、など)、等が挙げられる。
カメラ20は、各部屋に設置される。動画配信装置10の動画抽出部11は、複数のカメラ20各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部12は、該抽出されたシーンを、入所者毎に編集して、入所者毎のダイジェスト動画を生成する。
介護施設の職員が所持する端末装置30に、入所者のダイジェスト動画が配信されれば、職員が、例えば夜間における入所者の行動を把握することができる。また、入所者の親族が所持する端末装置30に、入所者のダイジェスト動画が配信されれば、例えば入所者の夜間の様子を知ることができる。
(3)その他、例えば工場にカメラ20を設置し、工場作業者の異常行動を特定行動とすれば、当該動画配信システム1により、工場作業者の異常行動に係るダイジェスト動画を生成・配信することができる。或いは、例えば空港にカメラ20を設置し、乗客等の異常行動を特定行動とすれば、当該動画配信システム1により、乗客等の異常行動に係るダイジェスト動画を生成・配信することができる。
カメラ20は、所定の場所に固定されてなくてよく、例えば持ち運び可能であってもよい。具体的には、カメラ20は、持ち運び可能な家庭用のビデオカメラであってもよい。加えて、上述の変形例(1)に記載されているように、図4に示す動画生成配信処理のステップS102の処理において、顔認証処理及び表情認証処理が行われるように動画抽出部11を構成すれば、上記ビデオカメラで撮像された動画データから、例えば笑顔で特定行動を行っているシーンを含むダイジェスト動画を生成・配信することができる。
以上に説明した実施形態及び変形例から導き出される発明の各種態様を以下に説明する。
発明の一態様に係る動画編集装置は、人物を撮像し画像データを出力する撮像手段と、前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、を備えるというものである。
上述の実施形態においては、「カメラ20」が撮像手段の一例に相当し、「動画抽出部11」が顔認識手段、ワイヤーフレーム化手段及び個人特定手段の一例に相当し、「動画抽出部11」及び「動画生成部12」が画像作成手段の一例に相当する。
当該動画編集装置によれば、「撮像手段」は、ダイジェスト画像の元となる動画或いは映像を撮像するカメラの機能と、動画に限らず静止画或いは写真を撮像して顔認識をするカメラの機能とを有し、単一の又は複数のカメラを含んで構成される。
その動作時には、撮像手段により一又は複数の人物が撮像されると、一方で、顔認識手段によって、画像データ上で人物の顔領域が認識される。ここでは例えば、顔認識に基づく個人認証(即ち、顔認証)が行われる。このとき、顔認識に加えて表情認識が行われてよい。これと並行して又は相前後して、ワイヤーフレーム化手段によって、画像データ上の人物がワイヤーフレーム化される。すると、個人特定手段によって、前記認識された顔領域に係る顔中心座標とワイヤーフレーム化された人物に係る首座標との間の距離に基づいて、前記人物に係る個人が特定される。即ち、顔認証の結果とワイヤーフレームとがデータとして相互に紐付される。これにより、誰がどのような動きを行っているのかが判明する。
続いて、ダイジェスト画像作成手段では、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により、先に特定された個人に係るワイヤーフレームの座標推移と、特定行動に対応するワイヤーフレームの座標推移とが重なるシーンが、画像データから抽出される。
ここに「重なる」とは、相互に一致或いは合致しているものとして扱うに相応しい程度に、相関が高い若しくは関連が強い又は合致若しくは一致する趣旨である。即ち、完全に一致している場合のみならず、或る程度一致している場合、即ち同じ若しくは同じ範疇の特定行動をしていると見做なせる場合も含む趣旨である。また「シーン」とは、撮像された動画(画像データ)のうち特定人物が特定行動をしている時間帯に撮像された動画部分を意味する。
その後、ダイジェスト画像作成手段によって、該抽出されたシーンに基づいて、特定個人のダイジェスト画像が作成される。
このように、顔認識により特定された特定個人に係るワイヤーフレームの座標推移と、機械学習に基づくワイヤーフレームの座標推移とが重なるシーンに基づいて、特定個人或いは特定人物のダイジェスト画像を比較的簡単に作成可能となる。
<コンピュータプログラム>
発明の他の態様に係るコンピュータプログラムは、コンピュータを、上述した動画編集装置(但し、その各種態様を含む)として機能させる。
発明の他の態様に係るコンピュータプログラムは、コンピュータを、上述した動画編集装置(但し、その各種態様を含む)として機能させる。
当該コンピュータプログラムによれば、当該コンピュータプログラムを格納するROM、CD−ROM、DVD−ROM、ハードディスク等の記録媒体或いはUSB(Universal Serial Bus)メモリ等コンピュータシステムに着脱可能な固体型記憶装置から、当該コンピュータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本実施形態に係る動画編集装置(但し、その各種態様を含む)を比較的簡単に実現できる。
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う動画編集装置もまた本発明の技術的範囲に含まれるものである。
1…動画配信システム、10…動画配信装置、11…動画抽出部、12…動画生成部、13…配信部、14…教師データ生成部、20…カメラ、30…端末装置
Claims (1)
- 人物を撮像し画像データを出力する撮像手段と、
前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、
前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、
前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、
ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、
を備えることを特徴とする動画編集装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241706A JP2019110420A (ja) | 2017-12-18 | 2017-12-18 | 動画編集装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017241706A JP2019110420A (ja) | 2017-12-18 | 2017-12-18 | 動画編集装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019110420A true JP2019110420A (ja) | 2019-07-04 |
Family
ID=67180276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017241706A Pending JP2019110420A (ja) | 2017-12-18 | 2017-12-18 | 動画編集装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019110420A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021034983A (ja) * | 2019-08-28 | 2021-03-01 | Kddi株式会社 | 映像ストリームに影響した外的要因情報を推定するプログラム、サーバ、システム、端末及び方法 |
WO2022059117A1 (ja) * | 2020-09-17 | 2022-03-24 | 株式会社日立国際電気 | 映像処理装置、撮像装置、及び、映像処理方法 |
WO2022091230A1 (ja) * | 2020-10-27 | 2022-05-05 | 株式会社I’mbesideyou | 情報抽出装置 |
JP2022075661A (ja) * | 2020-10-27 | 2022-05-18 | 株式会社I’mbesideyou | 情報抽出装置 |
-
2017
- 2017-12-18 JP JP2017241706A patent/JP2019110420A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021034983A (ja) * | 2019-08-28 | 2021-03-01 | Kddi株式会社 | 映像ストリームに影響した外的要因情報を推定するプログラム、サーバ、システム、端末及び方法 |
JP7269134B2 (ja) | 2019-08-28 | 2023-05-08 | Kddi株式会社 | 映像ストリームに影響した外的要因情報を推定するプログラム、サーバ、システム、端末及び方法 |
WO2022059117A1 (ja) * | 2020-09-17 | 2022-03-24 | 株式会社日立国際電気 | 映像処理装置、撮像装置、及び、映像処理方法 |
JP7471435B2 (ja) | 2020-09-17 | 2024-04-19 | 株式会社日立国際電気 | 映像処理装置、撮像装置、及び、映像処理方法 |
WO2022091230A1 (ja) * | 2020-10-27 | 2022-05-05 | 株式会社I’mbesideyou | 情報抽出装置 |
JPWO2022091230A1 (ja) * | 2020-10-27 | 2022-05-05 | ||
JP2022075661A (ja) * | 2020-10-27 | 2022-05-18 | 株式会社I’mbesideyou | 情報抽出装置 |
JP7130290B2 (ja) | 2020-10-27 | 2022-09-05 | 株式会社I’mbesideyou | 情報抽出装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019110420A (ja) | 動画編集装置 | |
JP2019110421A (ja) | 動画配信システム | |
CN102236890B (zh) | 从多个图像生成组合图像 | |
US8611678B2 (en) | Grouping digital media items based on shared features | |
DE112016004208T5 (de) | Bereitstellen persönlicher Assistenz für die Pflege/Verwaltung von Multimedia und Erstellung von Geschichten auf Datenverarbeitungsvorrichtungen | |
US9159362B2 (en) | Method and system for detecting and recognizing social interactions in a video | |
CN105659286A (zh) | 自动化图像裁剪和分享 | |
WO2013069605A1 (ja) | 類似画像検索システム | |
CN102289468A (zh) | 一种照相机中照片信息获取与记录方法 | |
US20190303683A1 (en) | Video summarization using selected characteristics | |
JP2010272077A (ja) | 情報再生方法及び情報再生装置 | |
JP6649005B2 (ja) | ロボット撮影システムおよび画像管理方法 | |
US9286710B2 (en) | Generating photo animations | |
CN103927161A (zh) | 实况视频的实时照片修饰 | |
JPWO2014065033A1 (ja) | 類似画像検索装置 | |
JP6724919B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2008198135A (ja) | 情報配信システム、情報配信装置および情報配信方法 | |
KR102247481B1 (ko) | 나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법 | |
JP2019110422A (ja) | 動画編集装置 | |
WO2022176342A1 (ja) | 情報処理装置、情報処理システム、情報処理方法及び非一時的なコンピュータ可読媒体 | |
US11042274B2 (en) | Extracting demonstrations from in-situ video content | |
JP6830634B1 (ja) | 情報処理方法、情報処理装置及びコンピュータプログラム | |
TW201923655A (zh) | 面部變化記錄應用程式 | |
JP6829348B1 (ja) | 撮影制御方法、情報処理装置、プログラム、及び撮影システム | |
KR102387232B1 (ko) | 어린이집 등하원 알림 서비스 및 통합 관리 시스템 |