JP2019110421A - 動画配信システム - Google Patents

動画配信システム Download PDF

Info

Publication number
JP2019110421A
JP2019110421A JP2017241708A JP2017241708A JP2019110421A JP 2019110421 A JP2019110421 A JP 2019110421A JP 2017241708 A JP2017241708 A JP 2017241708A JP 2017241708 A JP2017241708 A JP 2017241708A JP 2019110421 A JP2019110421 A JP 2019110421A
Authority
JP
Japan
Prior art keywords
moving image
person
digest
specific action
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017241708A
Other languages
English (en)
Inventor
伸樹 林
Nobuki Hayashi
伸樹 林
馬場 健
Takeshi Baba
健 馬場
彰矩 佐藤
Akinori Sato
彰矩 佐藤
慎一郎 市川
Shinichiro Ichikawa
慎一郎 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017241708A priority Critical patent/JP2019110421A/ja
Priority to US16/177,764 priority patent/US20190188481A1/en
Priority to CN201811417143.7A priority patent/CN109949392A/zh
Publication of JP2019110421A publication Critical patent/JP2019110421A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】撮像手段により撮像された動画から所定の内容を含む映像を自動的に抽出する。【解決手段】動画配信システム(1)は、撮像手段(20)により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段(11)と、抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段(12)と、生成されたダイジェスト動画を配信する配信手段(13)と、を備える。抽出手段は、抽出動作を向上するために、人物を撮像した動画の少なくとも一部を入力データとして特定行動に係る機械学習を行う。【選択図】図1

Description

本発明は、動画配信システムの技術分野に関する。
この種のシステムでは、編集に係る手間を低減することが図られる。例えば特許文献1には、画面上に表示された複数の画像のうちユーザにより選択された画像を、ユーザにより指定された順序で並び替えて編集ファイルを作成するシステムが記載されている。特許文献2には、撮影対象に無線タグを付与し、該無線タグから発進された信号に含まれる該無線タグの識別情報を時刻に対応付けて記録し、該識別情報と時刻との対応情報を利用して、カメラにより撮影された映像から撮影対象に係る映像を切り出して編集するシステムが記載されている。
特開2006−202045号公報 特開2004−312511号公報
特許文献1に記載の技術では、ユーザが編集ファイルに含める画像を選択しなければならず、ユーザの作業負担が比較的重いという技術的問題点がある。特許文献2に記載の技術では、撮影対象に無線タグを付与しなければならず、また、識別情報と対応付けられた時刻によって映像が切り出されるので、編集時には切り出される映像の内容が不明であるという技術的問題点がある。
本発明は、上記問題点に鑑みてなされたものであり、特定行動に係るシーンを自動的に抽出することが可能な動画配信システムを提供することを課題とする。
本発明の一態様に係る動画配信システムは、撮像手段により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段と、前記抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段と、前記生成されたダイジェスト動画を配信する配信手段と、を備え、前記抽出手段は、前記抽出動作を向上するために、前記対象者と同一の又は異なる人物を撮像した動画の少なくとも一部を入力データとして前記特定行動に係る機械学習を行うというものである。
実施形態に係る動画配信システムの構成を示すブロック図である。 実施形態に係る動画配信システムの好適な構成を示すブロック図である。 教師データの概念を示す概念図である。 実施形態に係る動画生成配信処理を示すフローチャートである。 タグ情報を参照した教師データの生成方法を説明するための概念図である。
動画配信システムに係る実施形態について図1乃至図5を参照して説明する。
(構成)
実施形態に係る動画配信システムの構成について図1及び図2を参照して説明する。図1及び図2は夫々、実施形態に係る動画配信システムの構成を示すブロック図である。
図1において、動画配信システム1は、動画配信装置10、カメラ20及び端末装置30を備えて構成されている。尚、図1には、カメラ20及び端末装置30は1台ずつしか記載されていないが、動画配信システム1は、カメラ20及び端末装置30を夫々複数台備えて構成されていることが望ましい。
即ち、図2に示すように、各々が固定カメラ、ハンディカメラ、モバイルカメラ等であるとともに、通信機能を有する複数のカメラ20と、各々がスマートフォン、タブレット端末、パーソナルコンピュータ等であるとともに、通信機能を有する複数の端末装置30と、高機能処理装置、大容量記憶装置等を含むとともに、通信機能を有する動画配信装置10とが、インターネット等の通信網200に収容される形で、動画配信システム1が構成されていることが望ましい。ただし、複数のカメラ20の少なくとも一部は、通信網200とは異なる専用の通信網を介して動画配信装置10と通信可能に構成されていてもよいし、双方向通信可能なケーブルにより動画配信装置10に直接接続されていてもよい。
図1において、動画配信装置10は、その内部に論理的に実現される処理ブロックとして、又は物理的に実現される処理回路として、動画抽出部11、動画生成部12、配信部13及び教師データ生成部14を備える。動画抽出部11は、カメラ20により撮像された動画から、予め定められた特定行動が写っているシーン(動画)を抽出する動画抽出機能と、該動画抽出機能を向上・最適化するための学習機能とを有している。動画生成部12は、動画抽出部11により抽出されたシーンを編集してダイジェスト動画を生成可能に構成されている。配信部13は、動画生成部12により生成されたダイジェスト動画を端末装置30に配信可能に構成されている。教師データ生成部14については後述する。
端末装置30は、動画配信装置10と通信するための通信機能、動画を再生するための再生機能、及び該再生された動画を表示するための表示機能を有している。カメラ20には、既存の各種態様を適用可能であるので、その説明については省略する。
(機械学習処理)
動画抽出部11の学習機能により実施される機械学習処理について図3を参照して説明する。図3は、教師データの概念を示す概念図である。
先ず、機械学習に用いられる教師データについて説明する。教師データ用に撮像された動画データ(即ち、機械学習させる特定行動が写っている動画データ)を、そのまま用いるとデータ量が比較的多くなってしまうので、動画データのフレームレートが低減される(言い換えれば、フレーム画像が間引かれる)(図3(a)参照)。元の動画データのフレームレートが、例えば30fps(frames per second)である場合、例えば5fps等に低減される。フレームレートをどの程度低減するかは、フレームレートが低減された動画によって、動画抽出部11により抽出される特定行動を認識可能であるか否か、該特定行動を他の行動から区別可能であるか否か、等を判断することにより決定すればよい。このようなフレームレートは、理想的には必要十分なまで低くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少高めのフレームレートを設定し、その後の機械学習の結果を反映させる形で適宜低減させていく方法により決定されてもよい。
次に、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物(即ち、特定行動を行っている人物)がワイヤーフレーム化される(図3(b)参照)。尚、ワイヤーフレーム化に係る技術については、既存の各種態様を定用可能であるので、その説明については省略する。
図3(b)の白丸は、ワイヤーフレーム化の際に注目される体の部位を示している。該注目される体の部位の数は任意であるが、典型的には、動画抽出部11により抽出される特定行動を、他の行動から区別可能な数として設定される。例えば、18部位や5部位等、対象とする特定行動に応じて設定される。尚、ワイヤーフレーム化された人物(即ち、図3(b)に示すような線と白丸とで表される像)を、以降、適宜「ワイヤーフレーム」と称する。上記注目される体の部位(図3(b)の白丸)を、以降、適宜「ポイント」と称する。
フレーム画像に複数の人物が写っている場合、ワイヤーフレーム化される人数は、上記特定行動に応じて変化する。特定行動が、例えば所定区間を通行することである場合、ワイヤーフレーム化される人数は、例えば“1”である。特定行動が、例えば他者へのあいさつである場合、ワイヤーフレーム化される人数は、例えば“2”である。
次に、時間的に連続する第1所定時間(例えば3秒)のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データが一組とされ、特定行動を示すラベルデータ(いわゆる、正例データ)が付与されることによって、教師データが生成される。
「時間的に連続する第1所定時間のフレーム画像各々におけるワイヤーフレームに含まれる複数のポイント各々の座標データ」は、ワイヤーフレームの座標推移を示すデータであると言える。つまり、教師データは、特定行動に対応するワイヤーフレームの座標推移を示すデータであると言える。尚、「第1所定時間」は、機械学習により特定行動を認識可能な時間の下限値であることが望ましい。なぜなら、「第1所定時間」が大きくなるほど、教師データが大きくなり、処理負荷が増加するからである。このような第1所定時間は、理想的には必要十分なまで短くするのが処理負荷の観点から望ましいが、当初はマージンを持たせて多少長めの時間を設定し、その後の機械学習の結果を反映させる形で適宜短縮させていく方法により決定されてもよい。
動画抽出部11は、上述の如く生成された教師データを用いた、教師ありの機械学習により、特定行動が写っているシーンの抽出に係るパラメータ(即ち、シーンの抽出に用いられるアルゴリズムに含まれるパラメータ)の最適化を行う。このとき、動画抽出部11は、教師データに含まれる複数のポイント各々の座標推移(即ち、ワイヤーフレームの座標推移)に基づいて、学習すべき一の特定行動に対応する行動パターン(例えば、一の特定行動を示す特徴的な座標推移)を決定する。動画抽出部11は、一の特定行動に係る複数の教師データの全てについて、該複数の教師データ各々により示されるワイヤーフレームの座標推移が、一の特定行動に該当すると判定されるように、上記行動パターンを最適化する(即ち、上記パラメータを最適化する)。このようにして、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習によって、特定された個人に係るワイヤーフレームの座標推移と特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを抽出する。言い換えれば、教師データに係るワイヤーフレームを構成する多次元データ(例えば、数十〜数千次元のデータ)と特定された個人に係るワイヤーフレームを構成する多次元データとの間で、相関の高さが所定閾値(即ち、行動の一致/不一致を判定するための閾値)を超えるシーンを、カメラで撮影された画像データから抽出する。抽出結果は、抽出されたシーンに係る画像データの時間或いは撮影時間等により示される。
特定行動は、1種類に限らず、複数種類であってよい。特定行動が複数種類である場合、特定行動毎のラベルデータが付与された教師データが生成される。つまり、特定行動として、行動A、行動B、行動C、…がある場合、ラベルデータとしての、ラベルA、ラベルB、ラベルC、…が付与された教師データが生成される。
(動画生成配信処理)
動画配信装置10により実施される動画生成配信処理について、図4のフローチャートを参照して説明する。
図4において、先ず、動画抽出部11は、カメラ20により撮像された動画データを取得する(ステップS101)。動画抽出部11は、取得された動画データに対して個人認証処理を施す(ステップS102)。具体的には、動画抽出部11は、カメラ20の撮像対象である人物各々の識別情報(例えば名前、ID番号等)と、該識別情報に紐付けられた顔画像と予め有する。動画抽出部11は、該顔画像に基づく顔認証処理を行い、一致した顔画像に紐付けられている識別情報から人物を特定する。
このステップS102の処理の結果、例えば、特定された人物を示す識別情報、該特定された人物が写っているフレーム画像に係る時間(例えばタイムスタンプ)、該フレーム画像における特定された人物の顔領域の中心座標が出力される。
ステップS102の処理と並行して、動画抽出部11は、取得された動画データに写っている人物をワイヤーフレーム化する(ステップS103)。具体的には、動画抽出部11は、処理負荷を軽減するために、動画データのフレームレートを低減する。動画抽出部11は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。
このステップS103の処理の結果、例えば、複数のポイント(図3(b)の白丸参照)各々の座標データを含むワイヤーフレーム、フレーム画像に係る時間(例えばタイムスタンプ)が出力される。つまり、ステップS103の処理の結果、時刻tのワイヤーフレーム、時刻ti+1のワイヤーフレーム、時刻ti+2のワイヤーフレーム、…と、ワイヤーフレームの束(言い換えれば、ワイヤーフレームの座標推移を示すデータ)が出力される。
その後、動画抽出部11は、ステップS102の処理の結果及びステップS103の処理の結果に基づいて、ワイヤーフレームと識別情報とを紐付けることによって、ワイヤーフレーム化された人物を特定する(ステップS104)。具体的には、動画抽出部11は、フレーム画像に係る時間を参照して、対応するステップS102の処理の結果とステップS103の処理の結果とを選択する。次に、動画抽出部11は、顔領域の中心座標と、ワイヤーフレームに含まれる複数のポイント各々の座標データのうち、例えば鼻及び首の少なくとも一方の座標とを比較して(例えば、顔領域の中心座標と、鼻及び首の少なくとも一方の座標との差分が所定値以内であるか否かを判定して)、ワイヤーフレームと識別情報とを紐付ける。
次に、動画抽出部11は、上述の機械学習処理によりパラメータが最適化されたアルゴリズムを用いて、特定行動を抽出する(ステップS105)。このステップS105の処理を概念的に説明すれば、ワイヤーフレームの座標推移(即ち、該ワイヤーフレームに含まれる複数のポイント各々の座標推移)が、上述の機械学習処理により学習された特定行動に対応する行動パターン(例えば、特定行動を示す特徴的な座標推移)と重なれば特定行動と判定され、該行動パターンと重ならなければ特定行動ではないと判定される。動画抽出部11は、上記ステップS103の処理において出力されたワイヤーフレームの座標推移を示すデータから、上記行動パターンと重なるワイヤーフレームの座標推移を検出することにより特定行動を抽出する。
このステップS105の処理の結果、例えば、特定行動に該当するワイヤーフレームに紐付けられた識別情報、特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間が出力される。つまり、ステップS105の処理により、特定行動が行われた時間と、該特定行動を行った人物とが特定される。
次に、動画抽出部11は、ステップS105の処理の結果に含まれるフレーム画像に係る時間に基づいて、ステップS101の処理において取得された動画データ(即ち、フレームレートが低減されていない動画データ)から、特定行動が写っているシーンを抽出する。該抽出されたシーンには、ステップS105の処理の結果に含まれる識別情報が付与される。尚、特定行動が写っているシーンが複数存在する場合、複数のシーンが抽出される。
抽出されるシーンの長さは、上記特定行動に該当するワイヤーフレームに係るフレーム画像に係る時間から求められる期間を含み、該期間より長い第2所定時間(例えば20秒)である。ここで、「第2所定時間」は、ユーザが抽出されたシーンを見たときに、特定行動が行われていると認識可能な時間として、又は該時間より所定値だけ長い時間として設定されている。
次に、動画生成部12は、ステップS106の処理において抽出された一又は複数のシーンを編集する(ステップS107)。具体的には、動画生成部12は、先ず、ステップS106の処理において抽出された一又は複数のシーンを、該シーンに付与された識別情報に基づいて、例えば人物毎に分類する。次に、動画生成部12は、分類されたシーンに写っている人物をワイヤーフレーム化する。
続いて、動画生成部12は、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移に基づいて、例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在するか否か、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在するか否か、等を判定する。なぜなら、上述のステップS106の処理において抽出されたシーンの長さは、上述のステップS105の処理において抽出された複数のフレーム画像に係る期間よりも長く、抽出されたシーンの全期間にわたって特定行動が写っているとは限らないからである。そして、抽出されたシーンに特定行動が写っていない期間が存在すると、ダイジェスト動画を見たユーザが該シーンを冗長に感じる可能性がある。
例えばワイヤーフレーム化された人物の動きが比較的小さい期間が存在する、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間が存在する、等と判定された場合、動画生成部12は、抽出されたシーンのうち、例えばワイヤーフレーム化された人物の動きが比較的小さい期間、ワイヤーフレーム化された人物が同一行動を繰り返し行っている期間等に相当するフレーム画像を削除する(即ち、カットする)。
次に、動画生成部12は、例えば人物毎に分類されたシーンを、例えば時系列で並べることにより、編集された動画であるダイジェスト動画を生成する。生成されたダイジェスト動画は、当該動画配信装置10に記憶される。
次に、配信部13は、ダイジェスト動画を端末装置30に配信する(ステップS108)。ダイジェスト動画の配信方法には、既存の各種態様を適用可能であるが、一例としてストリーミング配信が挙げられる。配信部13は、端末装置30からアクセスを受けた場合、当該動画配信装置10に記憶されているダイジェスト動画に係る情報(例えば配信可能なダイジェスト動画を示すリスト等)を端末装置30に送信する。端末装置30を介して、該端末装置30のユーザ所望するダイジェスト動画が指定された場合、配信部13は、指定されたダイジェスト動画を端末装置30にストリーミング配信する。
(教師データ生成処理)
端末装置30のユーザは、配信されたダイジェスト動画に対して任意のタグを付与することができる。ユーザがダイジェスト動画に対してタグを付与した場合、該付与されたタグに係るタグ情報が、端末装置30から動画配信装置10に送信される。動画配信装置10の教師データ生成部14は、タグ情報に基づいて、上述した機械学習に用いることが可能な新たな教師データを生成する。
図5(a)に示すように、ダイジェスト動画の時刻t1にタグが付与された場合を例に挙げて具体的に説明する。教師データ生成部14は、タグ情報に基づいて、ダイジェスト動画に含まれるシーンAのうち、時刻t1を含む所定範囲(図5(b)では、時刻t1−dt1から時刻t1+dt2までの範囲)の動画データを抽出する。
次に、教師データ生成部14は、抽出された動画データのフレームレートを低減する(図3(a)参照)。続いて、教師データ生成部14は、フレームレートが低減された動画データを構成する各フレーム画像について、フレーム画像に写っている人物をワイヤーフレーム化する。続いて、教師データ生成部14は、フレーム画像各々における複数のポイント各々の座標データを一組とすることによって、新たな教師データを生成する。動画抽出部11は、上記新たな教師データが生成された場合、該生成された教師データを用いた機械学習を行う。
尚、ダイジェスト動画のシーンAがどのようなシーンであるかは、例えば動画生成部12のログに記録されているので、教師データ生成部14は、該ログを参照して、上記新たな教師データにラベルデータを付与してよい。上記新たな教師データには、タグを付与したユーザに係る情報が付与されてよい。
ここで、タグは、端末装置30(ひいては、動画配信システム1)のユーザが特に関心を持った動作(即ち、特定行動を構成する動作の一部)に付与されることが多い。タグ情報に基づいて新たな教師データが生成され、該生成された教師データを用いた機械学習が行われることによって、シーンの抽出に用いられるアルゴリズムに、例えばユーザの感性等を反映させることができる。このため、タグ情報に基づく新たな教師データが蓄積されるほど(例えばユーザが当該動画配信システム1の使用回数が増えるほど)、ユーザにより適したダイジェスト動画が生成・配信されることとなる。
(技術的効果)
当該動画配信システム1では、動画抽出部11により特定行動が写っているシーンが自動的に抽出される。加えて、動画生成部12により特定行動が写っているシーンが自動的に編集されダイジェスト動画が生成される。このため、例えばユーザが動画を再生しながら特定行動が写っているシーンを確認し、該シーンを抽出・編集するという作業を行う必要がなくなる。
当該動画配信システム1では、タグ情報に基づいて新たな教師データが逐次生成され、該生成された教師データを用いた機械学習が繰り返し行われる。このため、動画抽出部11によるシーンの抽出に係る精度を向上させることができる。また、タグはユーザが特に関心を持った動作に付与されることが多いので、上記教師データを用いた機械学習が繰り返し行われることによって、ユーザにより適したダイジェスト動画を生成することができる。
当該動画配信システム1に係る機械学習に用いられる教師データは、ワイヤーフレームに含まれる複数のポイント各々の座標データの推移を示すデータとして構成されている。このように構成すれば、比較的容易にして、特定行動を動画抽出部11に機械学習させることができる。
<変形例>
(1)図4に示す動画生成配信処理のステップS102の処理において、顔認証処理に加えて、表情認識処理が行われてもよい。この場合、ステップS102の処理の結果、例えば、特定された人物を示す識別情報、特定された人物の表情に係る表情情報、該特定された人物が写っているフレーム画像に係る時間、該フレーム画像における特定された人物の顔領域の中心座標が出力される。そして、ステップS104の処理において、ワイヤーフレームと識別情報及び表情情報とが紐付けられる。このように構成すれば、一の人物が特定の表情で特定行動を行っているダイジェスト動画を生成することができる。
(2)図4に示す動画生成配信処理のステップS107の処理において、抽出されたシーンは、人物毎の分類に限らず、例えば時間帯や、所属(この場合、識別情報に所属を示す情報が含まれている必要がある)等に応じて分類されてよい。このように構成すれば、例えば時間帯毎又は所属毎に、特定行動を行った人物のダイジェスト動画を生成することができる。
<具体的な適用例>
(1)当該動画配信システム1が、例えば保育園での園児の行動記録に用いられる場合を説明する。この場合、特定行動として、(i)登園(園児とその保護者が保育士に近づき、保護者が保育士から離れる、等)、(ii)遊び(複数の園児が一緒に走る、等)、(iii)給食(食事のために手を口元に近づけ、その後手を下ろす、等)、(iv)昼寝(ふとんに横になる、等)、(v)降園(保護者が園児に近づき、保護者及び園児が一緒に歩く、等)、等が挙げられる。
カメラ20は、例えば保育園の門付近(即ち、登降園場所)、保育園の園舎内、園庭等の上記特定行動が発生すると考えられる場所に複数台設置される。動画配信装置10の動画抽出部11は、複数のカメラ20各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部12は、該抽出されたシーンを、園児毎に編集して、園児毎のダイジェスト動画を生成する。
園児の保護者が所持する端末装置30に、該園児のダイジェスト動画が配信されれば、保育園の連絡帳の記載からではわからない園児の様子を保護者が確認することができる。また、保育士が所持する端末装置30に、園児のダイジェスト動画が配信されれば、保育士が、各園児の保育計画の策定の補助にダイジェスト動画を利用することができる。
(2)当該動画配信システム1が、例えば介護施設での夜間の行動記録に用いられる場合を説明する。この場合、特定行動として、(i)夜間の各部屋の出入り、(ii)就寝(ふとんに横になる、等)、(iii)起床(ふとんから起き上がる、など)、等が挙げられる。
カメラ20は、各部屋に設置される。動画配信装置10の動画抽出部11は、複数のカメラ20各々により撮像された動画データから、特定行動が写っているシーンを抽出する。動画生成部12は、該抽出されたシーンを、入所者毎に編集して、入所者毎のダイジェスト動画を生成する。
介護施設の職員が所持する端末装置30に、入所者のダイジェスト動画が配信されれば、職員が、例えば夜間における入所者の行動を把握することができる。また、入所者の親族が所持する端末装置30に、入所者のダイジェスト動画が配信されれば、例えば入所者の夜間の様子を知ることができる。
(3)その他、例えば工場にカメラ20を設置し、工場作業者の異常行動を特定行動とすれば、当該動画配信システム1により、工場作業者の異常行動に係るダイジェスト動画を生成・配信することができる。或いは、例えば空港にカメラ20を設置し、乗客等の異常行動を特定行動とすれば、当該動画配信システム1により、乗客等の異常行動に係るダイジェスト動画を生成・配信することができる。
カメラ20は、所定の場所に固定されてなくてよく、例えば持ち運び可能であってもよい。具体的には、カメラ20は、持ち運び可能な家庭用のビデオカメラであってもよい。加えて、上述の変形例(1)に記載されているように、図4に示す動画生成配信処理のステップS102の処理において、顔認証処理及び表情認証処理が行われるように動画抽出部11を構成すれば、上記ビデオカメラで撮像された動画データから、例えば笑顔で特定行動を行っているシーンを含むダイジェスト動画を生成・配信することができる。
以上に説明した実施形態及び変形例から導き出される発明の各種態様を以下に説明する。
発明の一態様に係る動画配信システムは、撮像手段により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段と、前記抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段と、前記生成されたダイジェスト動画を配信する配信手段と、を備え、前記抽出手段は、前記抽出動作を向上するために、前記対象者と同一の又は異なる人物を撮像した動画の少なくとも一部を入力データとして前記特定行動に係る機械学習を行うというものである。上述の実施形態においては、「動画抽出部11」が抽出手段の一例に相当し、「動画生成部12」が生成手段の一例に相当し、「配信部13」が配信手段の一例に相当する。
当該動画配信システムの抽出手段では、特定行動に係る機械学習が行われる。該機械学習の結果、抽出手段は、特定行動に係るシーンを適切に認識することが可能となる。この機械学習には、人物を撮像した動画の少なくとも一部が入力データとして用いられるが、該「人物」は、不特定の人物であってよい(即ち、“人物”が“対象者”と同一である必要はない)。
当該動画配信システムでは、抽出手段により対象者の特定行動に係るシーンが自動的に抽出される。そして、生成手段は、該抽出されたシーンを編集してダイジェスト動画を生成する。従って、当該動画配信システムによれば、対象者の特定行動に係るシーンを自動的に抽出して、ダイジェスト動画を生成することができる。
当該動画配信システムの一態様では、前記配信されたダイジェスト動画にタグ付けがされたことを条件に、前記タグ付けされたダイジェスト動画を取得する取得手段を備え、前記抽出手段は、前記人物を撮像した動画の少なくとも一部に加え、前記タグ付けされたダイジェスト動画の少なくとも一部を前記入力データとして前記機械学習を行う。上述の実施形態においては、「教師データ生成部14」が取得手段の一例に相当する。
この態様では、タグ付けされたダイジェスト動画の少なくとも一部が、機械学習の入力データとして用いられる。つまり、この態様では、当該動画配信システムが、所定のサービス目的で可動している段階においても、タグ付けされたダイジェスト動画の少なくとも一部を入力データとした機械学習が繰り返し行われる。このため、タグ付けされたダイジェスト動画が増えるほど、特定行動に係るシーンの抽出精度を向上させることができる。
発明の他の態様に係る動画編集装置は、人物を撮像し画像データを出力する撮像手段と、前記出力された画像データ上で前記人物の顔領域を認識する顔認識手段と、前記出力された画像データ上の前記人物をワイヤーフレーム化するワイヤーフレーム化手段と、前記認識された顔領域に係る顔中心座標を取得し、前記ワイヤーフレーム化された人物に係る首座標を取得し、前記取得された顔中心座標及び前記取得された首座標間の距離に基づいて前記人物に係る個人を特定する個人特定手段と、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により前記特定された個人に係るワイヤーフレームの座標推移と前記特定行動に対応するワイヤーフレームの座標推移とが重なるシーンを前記出力された画像データから抽出し、前記抽出されたシーンに基づいて前記特定された個人に係るダイジェスト画像を作成するダイジェスト画像作成手段と、を備えるというものである。
上述の実施形態においては、「カメラ20」が撮像手段の一例に相当し、「動画抽出部11」が顔認識手段、ワイヤーフレーム化手段及び個人特定手段の一例に相当し、「動画抽出部11」及び「動画生成部12」が画像作成手段の一例に相当する。
当該動画編集装置によれば、「撮像手段」は、ダイジェスト画像の元となる動画或いは映像を撮像するカメラの機能と、動画に限らず静止画或いは写真を撮像して顔認識をするカメラの機能とを有し、単一の又は複数のカメラを含んで構成される。
その動作時には、撮像手段により一又は複数の人物が撮像されると、一方で、顔認識手段によって、画像データ上で人物の顔領域が認識される。ここでは例えば、顔認識に基づく個人認証(即ち、顔認証)が行われる。このとき、顔認識に加えて表情認識が行われてよい。これと並行して又は相前後して、ワイヤーフレーム化手段によって、画像データ上の人物がワイヤーフレーム化される。すると、個人特定手段によって、前記認識された顔領域に係る顔中心座標とワイヤーフレーム化された人物に係る首座標との間の距離に基づいて、前記人物に係る個人が特定される。即ち、顔認証の結果とワイヤーフレームとがデータとして相互に紐付される。これにより、誰がどのような動きを行っているのかが判明する。
続いて、ダイジェスト画像作成手段では、ダイジェストにしたい特定行動に対応するワイヤーフレームの座標推移を教師データとする機械学習により、先に特定された個人に係るワイヤーフレームの座標推移と、特定行動に対応するワイヤーフレームの座標推移とが重なるシーンが、画像データから抽出される。
ここに「重なる」とは、相互に一致或いは合致しているものとして扱うに相応しい程度に、相関が高い若しくは関連が強い又は合致若しくは一致する趣旨である。即ち、完全に一致している場合のみならず、或る程度一致している場合、即ち同じ若しくは同じ範疇の特定行動をしていると見做なせる場合も含む趣旨である。また「シーン」とは、撮像された動画(画像データ)のうち特定人物が特定行動をしている時間帯に撮像された動画部分を意味する。
その後、ダイジェスト画像作成手段によって、該抽出されたシーンに基づいて、特定個人のダイジェスト画像が作成される。
このように、顔認識により特定された特定個人に係るワイヤーフレームの座標推移と、機械学習に基づくワイヤーフレームの座標推移とが重なるシーンに基づいて、特定個人或いは特定人物のダイジェスト画像を比較的簡単に作成可能となる。
発明の他の態様に係る動画編集装置は、人物を撮像した画像データ上の前記人物をワイヤーフレーム化し、所定時間の前記人物の特定行動に係るワイヤーフレームの座標推移を示す教師データを作成する教師データ作成手段と、前記人物と同一の又は異なる人物である対象者を撮像し画像データを出力する撮像手段と、前記出力された画像データ上の前記対象者をワイヤーフレーム化するワイヤーフレーム化手段と、前記作成された教師データを用いた機械学習を行うことにより、前記対象者に係るワイヤーフレームの座標推移から前記特定行動に該当する前記ワイヤーフレームの座標推移を抽出することによって、前記対象者の前記特定行動に係るダイジェスト動画を作成するダイジェスト画像作成手段と、を備えるというものである。
上述の実施形態においては、「教師データ生成部14」が教師データ作成手段の一例に相当し、「カメラ20」が撮像手段の一例に相当し、「動画抽出部11」がワイヤーフレーム化手段の一例に該当し、「動画抽出部11」及び「動画生成部12」がダイジェスト画像作成手段の一例に相当する。
「人物」は、不特定の人物であり、「人物」と「対象者」とは同じであってもよいし、異なっていてもよい。「所定時間」とは、当該教師データを用いて機械学習で行動パターンを決定する上で望ましい時間として、教師データの作成に先んじて予め設定されるものである。このような所定時間は、例えば人間の動作速度や動作時間或いは最終的にダイジェスト動画を作成したい特定行動を行う際の動作速度や動作時間に基づいて、特定行動の教師データを作成するに十分な値として、予め実験的若しくは経験的に又はシミュレーション若しくは演算により設定されるものである。また、所定時間としては、適当な初期値を与えて、その後における教師データを作成する過程で適宜に変更が加えられてもよい。
教師データ作成手段は、例えば3秒間といった上記所定時間内のワイヤーフレームの座標推移等から、教師データを作成する。教師データについては、生成される際に識別番号や識別名称が自動的に振られたり人為的に付与されたりしてよい。
ダイジェスト画像作成手段は、教師データを用いた機械学習を行うことにより、ダイジェストにしたい特定行動としての抽出すべき行動パターンを決定する。ダイジェスト画像作成手段は、ワイヤーフレーム化された対象者に係るワイヤーフレームの座標推移から、該行動パターンに該当するワイヤーフレームの座標推移を抽出することによって、対象者の特定行動に係るダイジェスト動画を作成する。
以上のように、本願独自の教師データを用いた機械学習を採用することで、ダイジェストとしたい特定行動を容易に学習させることが出来、対象者に係る特定行動のダイジェスト画像を比較的簡単に作成可能となる。
<コンピュータプログラム>
発明の他の態様に係るコンピュータプログラムは、コンピュータを、上述した動画編集装置(但し、その各種態様を含む)として機能させる。
当該コンピュータプログラムによれば、当該コンピュータプログラムを格納するROM、CD−ROM、DVD−ROM、ハードディスク等の記録媒体或いはUSB(Universal Serial Bus)メモリ等コンピュータシステムに着脱可能な固体型記憶装置から、当該コンピュータプログラムをコンピュータシステムに読み込んで実行させれば、或いは、当該コンピュータプログラムを、例えば、通信手段等を介してコンピュータシステムにダウンロードさせた後に実行させれば、上述した本実施形態に係る動画編集装置(但し、その各種態様を含む)を比較的簡単に実現できる。
本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴う動画配信システムもまた本発明の技術的範囲に含まれるものである。
1…動画配信システム、10…動画配信装置、11…動画抽出部、12…動画生成部、13…配信部、14…教師データ生成部、20…カメラ、30…端末装置

Claims (2)

  1. 撮像手段により撮像された動画から、対象者の特定行動に係る一又は複数のシーンを抽出する抽出動作を行う抽出手段と、
    前記抽出された一又は複数のシーンを編集してダイジェスト動画を生成する生成手段と、
    前記生成されたダイジェスト動画を配信する配信手段と、
    を備え、
    前記抽出手段は、前記抽出動作を向上するために、前記対象者と同一の又は異なる人物を撮像した動画の少なくとも一部を入力データとして前記特定行動に係る機械学習を行う
    ことを特徴とする動画配信システム。
  2. 前記配信されたダイジェスト動画にタグ付けがされたことを条件に、前記タグ付けされたダイジェスト動画を取得する取得手段を備え、
    前記抽出手段は、前記人物を撮像した動画の少なくとも一部に加え、前記タグ付けされたダイジェスト動画の少なくとも一部を前記入力データとして前記機械学習を行う
    ことを特徴とする請求項1に記載の動画配信システム。
JP2017241708A 2017-12-18 2017-12-18 動画配信システム Pending JP2019110421A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017241708A JP2019110421A (ja) 2017-12-18 2017-12-18 動画配信システム
US16/177,764 US20190188481A1 (en) 2017-12-18 2018-11-01 Motion picture distribution system
CN201811417143.7A CN109949392A (zh) 2017-12-18 2018-11-26 动画发送系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017241708A JP2019110421A (ja) 2017-12-18 2017-12-18 動画配信システム

Publications (1)

Publication Number Publication Date
JP2019110421A true JP2019110421A (ja) 2019-07-04

Family

ID=66814511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017241708A Pending JP2019110421A (ja) 2017-12-18 2017-12-18 動画配信システム

Country Status (3)

Country Link
US (1) US20190188481A1 (ja)
JP (1) JP2019110421A (ja)
CN (1) CN109949392A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149218A1 (ja) * 2021-01-06 2022-07-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2022149216A1 (ja) * 2021-01-06 2022-07-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2022149217A1 (ja) * 2021-01-06 2022-07-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2024003976A1 (ja) * 2022-06-27 2024-01-04 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007060980A1 (ja) * 2005-11-25 2007-05-31 Nikon Corporation 電子カメラおよび画像処理装置
JP4765732B2 (ja) * 2006-04-06 2011-09-07 オムロン株式会社 動画編集装置
JP5436794B2 (ja) * 2008-04-04 2014-03-05 株式会社バンダイナムコゲームス ゲーム動画配信システム
EP3331239A4 (en) * 2015-07-31 2018-08-08 Kadinche Corporation Moving image playback device, moving image playback method, moving image playback program, moving image playback system, and moving image transmitting device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022149218A1 (ja) * 2021-01-06 2022-07-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2022149216A1 (ja) * 2021-01-06 2022-07-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2022149217A1 (ja) * 2021-01-06 2022-07-14 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
WO2024003976A1 (ja) * 2022-06-27 2024-01-04 楽天グループ株式会社 コンピュータビジョンシステム、コンピュータビジョン方法、コンピュータビジョンプログラム

Also Published As

Publication number Publication date
CN109949392A (zh) 2019-06-28
US20190188481A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
US10225627B2 (en) Method, apparatus and article for delivering media content via a user-selectable narrative presentation
JP2019110421A (ja) 動画配信システム
CN102236890B (zh) 从多个图像生成组合图像
JP2019110420A (ja) 動画編集装置
WO2013069605A1 (ja) 類似画像検索システム
KR20160087222A (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
US20140293069A1 (en) Real-time image classification and automated image content curation
CN102289468A (zh) 一种照相机中照片信息获取与记录方法
US20120159326A1 (en) Rich interactive saga creation
CN106021262A (zh) 图像处理装置、图像处理方法、及记录介质
US9286710B2 (en) Generating photo animations
CN105956022A (zh) 电子镜图像处理方法和装置、图像处理方法和装置
JP2007249434A (ja) アルバム作成システム、アルバム作成方法、及びプログラム
JP2008198135A (ja) 情報配信システム、情報配信装置および情報配信方法
JP6214762B2 (ja) 画像検索システム、検索画面表示方法
US11200919B2 (en) Providing a user interface for video annotation tools
KR102247481B1 (ko) 나이 변환된 얼굴을 갖는 직업영상 생성 장치 및 방법
JP2019110422A (ja) 動画編集装置
WO2022176342A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び非一時的なコンピュータ可読媒体
CN104978389A (zh) 方法、系统、服务器和客户端
US11290753B1 (en) Systems and methods for adaptive livestreaming
US11042274B2 (en) Extracting demonstrations from in-situ video content
JP6830634B1 (ja) 情報処理方法、情報処理装置及びコンピュータプログラム
JP6829348B1 (ja) 撮影制御方法、情報処理装置、プログラム、及び撮影システム
JP7029486B2 (ja) 情報処理装置、情報処理方法、及びプログラム