JP2017147547A - 動画解析装置およびプログラム - Google Patents

動画解析装置およびプログラム Download PDF

Info

Publication number
JP2017147547A
JP2017147547A JP2016026965A JP2016026965A JP2017147547A JP 2017147547 A JP2017147547 A JP 2017147547A JP 2016026965 A JP2016026965 A JP 2016026965A JP 2016026965 A JP2016026965 A JP 2016026965A JP 2017147547 A JP2017147547 A JP 2017147547A
Authority
JP
Japan
Prior art keywords
moving image
text
data
unit
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016026965A
Other languages
English (en)
Inventor
仙場 祐二
Yuji Senba
祐二 仙場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016026965A priority Critical patent/JP2017147547A/ja
Publication of JP2017147547A publication Critical patent/JP2017147547A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】目的の動画を手早く探すことができる動画解析装置を提供する。【解決手段】動画解析装置は、動画データを取得する動画データ取得部と、前記動画データ取得部が取得した動画データから、動画解析を行い、当該動画データにテキストデータを対応付ける解析部と、前記解析部が対応付けたテキストデータを、前記動画データ取得部が取得した前記動画データに対応付けて保存する保存部と、を備えたことを特徴とする。【選択図】図6

Description

本発明は、動画データの解析を行う動画解析装置およびプログラムに関する。
ビデオカメラで撮影された各動画データには、日時の情報が付され、動画ファイルとして保存されている。利用者は、動画ファイルにおける日時の情報を参照することにより、各動画データを識別していた。
また、例えば特許文献1には、動画の再生時にシーン変化点を抽出するシステムが提案されている。
特開平8−101845号公報
しかし、日時を参照するだけでは、目的の動画を探すのは困難である。例えば、利用者が「入学式の動画」が見たいと思ったときに、「入学式」の日付が分かっていない場合には、目的の動画を探すことが困難となる。また、「入学式」の日付が分かっていたとしても、同じ日に他の動画が撮影されている場合もある。さらに、動画ファイルが膨大となると、日時だけで目的の動画を探すのは非常に困難である。
また、特許文献1のシステムは、利用者が動画を見て重要と思った時にテキストを打ち込むものである。しかし、膨大な動画ファイルの各シーンについて手動でテキストを打ち込むことは非常に煩わしい。
そこで、本発明は、目的の動画を手早く探すことができる動画解析装置およびプログラムを提供することを目的とする。
本発明の動画解析装置は、動画データを取得する動画データ取得部と、前記動画データ取得部が取得した動画データから、動画解析を行い、当該動画データにテキストデータを対応付ける解析部と、前記解析部が対応付けたテキストデータを、前記動画データ取得部が取得した前記動画データに対応付けて保存する保存部と、を備えたことを特徴とする。
このように、本発明の動画解析装置は、動画解析を行うことで、目的のシーンを探すためのキーワードとなるテキストデータを対応付ける。動画解析は、例えば、画像の種別(こどもの顔、こどもの全身、または赤ちゃんの顔等)、当該画像の詳細(スーツ、またはタキシード等の服装に関する情報)、あるいは背景(白、あるいは青等)、等の特定画像を抽出し、当該特定画像の動きを解析することにより行われる。この様な特定画像は、例えばリファレンス画像とのマッチングによって抽出される。そして、動画解析装置は、当該特定画像の動きにより、例えば「複数人が走っている」、「2人が動く」、「コーナーがある」、「徒競走」、「リレー」、「運動会」等のテキスト候補を抽出する。その後、抽出されたテキスト候補から、テキストデータを生成し、動画データに対応付けて保存する。全てのテキスト候補をそのままテキストデータとしてもよいし、同じ分類のテキスト候補(例えば徒競走、リレー、および運動会)は、代表となるテキスト(例えば運動会)を決定し、当該代表となるテキストをテキストデータとして生成するようにしてもよい。
なお、保存部は、テキストデータを生成した動画ファイル中のタイミングに関する情報を、テキストデータとともに保存するようにしてもよい。すなわち、各テキストデータは、動画ファイル内の再生時間(再生開始からの経過時間)に対応付けられていて保存されてもよい。
また、テキストデータは、動画データに埋め込まれて1つの動画ファイルとして保存されてもよいし、動画データに対応する別のデータ(インデックスデータ)として保存される態様としてもよい。
なお、解析部は、動画データに対応する音声をさらに解析し、音声データと動画データに基づきテキストデータを生成する態様としてもよい。
本発明の動画解析装置は、目的の動画を手早く探すことができる。
図1(A)は、動画解析装置のブロック図であり、図1(B)および図1(C)は、動画解析装置の外観図である。 制御部の機能的構成を示すブロック図である。 制御部の動作を示すフローチャートである。 テキスト抽出の一例を示す図である。 テキスト候補の対応関係を示す図である。 テキストデータと動画データの対応関係を示す図である。 テキストデータの保存態様を示す図である。 テキストデータと動画データの対応関係を示す図である。 制御部の動画検索時の動作を示すフローチャートである。 図9(A)は、テキスト入力画面の一例を示す図であり、図9(B)および図9(C)は検索結果の一例を示す図である。 応用例に係る制御部の機能的構成を示すブロック図である。 音声解析によるテキスト抽出の一例を示す図である。 変形例に係る動画解析装置のブロック図である。
図1(A)は、動画解析装置のブロック図であり、図1(B)および図1(C)は、動画解析装置の外観図である。動画解析装置1は、例えばスマートフォン等の情報処理装置からなる。この例では、動画解析装置の一例としてスマートフォンを示しているが、動画解析装置は、他にも例えば眼鏡の形状をした装着型の情報処理装置とする態様も可能である。
動画解析装置1は、制御部61、アウトカメラ62、インカメラ63、通信部64、操作部65、表示部66、および記憶部67を備えている。
制御部61は、記憶部67等の記憶媒体に記憶されている動作用プログラムを読み出し、動画解析装置1の動作を統括的に制御する。制御部61は、当該プログラムにより、本発明の動画データ取得部および解析部を構成する。
アウトカメラ62およびインカメラ63は、撮像部に相当する。アウトカメラ62は、スマートフォン6の背面に設けられ、利用者が所望する画像を撮像するためのカメラである。インカメラ63は、スマートフォン6の正面に設けられ、利用者自身を撮像するためのカメラである。
表示部66は、スマートフォン6の正面に設けられ、各種画像を表示する。例えば、表示部66は、アウトカメラ62またはインカメラ63で撮像した画像を表示する。利用者は、表示部66に表示される画像を確認することで、アウトカメラ62またはインカメラ63で撮像した画像を確認することができる。また、表示部66には、タッチパネルが設けられ、利用者インタフェースである操作部65の機能を兼ねている。例えば、利用者が表示部66に表示されているアイコン等を指で触ると、制御部61は、所定のアプリケーションプログラムを起動する。利用者は、例えば動画撮影プログラムを起動した後、スマートフォン6を操作し、アウトカメラ62またはインカメラ63で動画を撮影する。
図2は、制御部61の機能的ブロック図である。図3は、動画解析装置1の動作を示すフローチャートである。図2に示すように、制御部61は、機能的に動画データ取得部600と、解析部610と、保存部611と、を備えている。
動画データ取得部600は、アウトカメラ62またはインカメラ63で撮影した動画データを取得する(s11)。または、動画データ取得部600は、記憶部67等の記憶媒体に記憶されている動画データを取得する場合、通信部64を介してサーバ等の他装置から動画データを取得する場合もある。
解析部610は、動画データ取得部600が取得した動画データを解析することで、目的のシーンを探すためのキーワードとなるテキストデータを生成し、動画データと対応付ける処理を行う。または、解析部610は、動画の解析結果と動画の存在場所の時間データと既存のテキストデータとを関連づける処理を行う。テキストデータの生成手法は、どのようなものであってもよいが、例えば以下の様にして行う。
まず、解析部610は、動画データから特定画像を抽出する(s12)。さらに、解析部610は、抽出した特定画像の動き(時間変化)を解析し(s13)、テキスト候補を抽出する(s14)。なお、解析部610は、このときに各画像の傾きを補正したり、大きさを揃える等の正規化補正を行ったりしてもよい。
特定画像は、例えば、人の画像(こどもの顔、こどもの全身、赤ちゃんの顔等)である。また、例えば、スーツ、スキーウェア、またはタキシード等の服装に関する画像が抽出される場合もある。あるいは、「白線」等の画像、背景(白、青等)、等も特定画像として抽出される。この様な特定画像の検出手法はどの様なものであってもよいが、例えば以下の様にしてリファレンス画像とのマッチングによって抽出される。
解析部610は、取得した動画データをFFT等により、フーリエ変換する。これにより、動画データの各画素値(振幅データ)と、位相データと、を抽出する。そして、解析部610は、検出した位相データを用いて、取得した動画データと、テンプレート画像と、の相関を算出する。相関が閾値以上となった場合に、当該テンプレート画像と類似する画像が、動画データに含まれていると判断し、特定画像として抽出する。
そして、解析部610は、抽出された特定画像の動きを解析することで、テキスト候補を抽出する。解析部610は、例えば、図4(A)に示すように、「人」の画像を複数抽出した場合に、「複数人」のテキスト候補を抽出する。また、解析部610は、図4(B)に示すように人の画像が時間経過ともに移動している場合、「走っている」というテキスト候補を抽出する。なお、解析部610は、移動速度を推定し、「歩いている」というテキスト候補と、「走っている」というテキスト候補を区別して抽出してもよい。また、解析部610は、例えば図4(C)に示すように、「白線」の画像が抽出された場合に、当該「白線」の画像が曲線となっていれば「コーナーがある」というテキスト候補を抽出する。
さらに、各テキスト候補には、別のテキスト候補が対応付けられて、記憶部67に記憶されている場合がある。例えば、図5(A)に示すように、「徒競走」のテキスト候補と、「走っている」および「複数人」のテキスト候補と、が対応づけられている。また、「「リレー」のテキスト候補には、「走っている」、「複数人」および「コーナーがある」のテキスト候補が対応づけられている。
解析部610は、抽出されたテキスト候補に対応付けられた別のテキスト候補を抽出する。すなわち、解析部610は、「複数人」および「走っている」というテキスト候補に対応付けられた新たな「徒競走」のテキスト候補を抽出する。また、解析部610は、「複数人」、「走っている」および「コーナーがある」というテキスト候補から、「リレー」のテキスト候補を抽出する。また、解析部610は、新たに抽出されたテキスト候補にさらに対応する別のテキスト候補が存在する場合には、当該別のテキスト候補も抽出する。例えば、解析部610は、図5(C)に示すように、「リレー」、「徒競走」、「玉入れ」および「騎馬戦」等のテキスト候補が抽出された場合に、「運動会」のテキスト候補を抽出する。なお、解析部610は、「運動会」を抽出する条件として、「運動会」に対応付けられた全てのテキスト候補が抽出する必要はない。解析部610は、所定数以上(例えば「リレー」、「徒競走」および「玉入れ」の3つ)のテキスト候補が抽出された場合に、対応する「運動会」のテキスト候補を抽出する態様であってもよい。
以上のようにして解析部610は、テキスト候補を抽出する。そして、解析部610は、抽出されたテキスト候補から、テキストデータを生成する(S15)。解析部610は、全てのテキスト候補をそのままテキストデータとしてもよいし、同分類のテキスト候補(例えば徒競走、リレー、および運動会)は、代表となるテキスト(例えば運動会)をテキストデータとして生成するようにしてもよい。
最後に、保存部611は、解析部が生成したテキストデータを、動画データ取得部600が取得した動画データに対応付けて記憶部67に保存する(S16)。
図6は、テキストデータと動画データの対応関係を示す図である。図7は、テキストデータの保存態様を示す図である。
図6および図7に示すように、保存部611は、解析部610が各テキストデータを生成したタイミングに関する情報(時刻情報)を当該解析部610から取得し、テキストデータとともに保存する。これにより、各テキストデータは、動画データの再生開始からの経過時間に対応付けられて保存される。
図7に示すようなテキストデータは、動画ファイルに対応付けられた別のデータ(インデックスデータ)として保存される。ただし、テキストデータは、メタデータ等のテキスト情報を付与することが可能である動画ファイルの場合には、動画ファイル内に埋め込まれて、1つの動画ファイルとして保存されるようにしてもよい。1つの動画ファイルとして保存される場合には、別データが生成されることがないため、データ管理が容易となる。
なお、図8に示すように、撮影毎に動画ファイルが生成される場合には、各動画ファイルに代表となるテキストデータ(例えば、リレー、綱引き、または玉入れ等)が対応付けされ、さらに動画データの再生開始からの経過時間に対応付けられて個別のテキストデータ(例えば第1走者、第2走者、1回戦、または2回戦等)が保存される。
これにより、利用者は、膨大な動画ファイルの各シーンについて、キーワードを入力するだけで、目的の動画(ファイルにおける再生箇所)を手早く探すことができる。
次に、図9は、制御部61の動画検索時の動作を示すフローチャートである。制御部61は、操作部(受付部)65を介して利用者から動画ファイルの選択を受け付けた場合(s21)、図10(A)に示すようなテキスト入力画面を表示し、テキスト入力を受け付ける(s22)。
利用者は、図10(A)に示すように、所定のテキスト(この例では、「リレー」のテキスト)を入力する。制御部61は、記憶部67に保存されたテキストデータから、入力されたテキストに該当するデータを検索する(s23)。これにより、制御部61は、検索部として機能する。
そして、制御部61は、該当するテキストデータを読み出し、表示部66にシーン一覧として表示する。例えば、図6(B)に示すように、「リレー」に該当するテキストデータに対応付けられている時間情報(動画ファイル再生開始からの経過時間)を各シーンとして表示する。このとき、図10(B)に示すように、時刻情報に対応する動画データをサムネイル画像として表示してもよい。
なお、上述の例では、動画ファイルの選択を受け付けてから、当該動画ファイル内の各シーンの検索を受け付ける例を示したが、制御部61は、テキスト入力を受け付けて、図10(C)に示すように、当該テキストに対応する動画ファイルと、撮影日時および対応するシーンの撮影時間(動画ファイル再生開始からの経過時間)を表示するようにしてもよい。
そして、利用者が、検索結果として表示されたシーン一覧のうちから各シーンを選択すると(s25:Yes)、制御部61は、選択されたテキストデータに対応する経過時間から、動画データを再生する(s26)。このようにして、利用者は、目的の動画を手早く探すことができ、目的の動画の再生を指示することができる。
次に、図11は、応用例に係る制御部61の機能的構成を示すブロック図である。図2と共通する構成については同一の符号を付し、説明を省略する。この応用例に係る制御部61は、動画解析部610Aおよび音声解析部610Bを備えている。
動画解析部610Aは、上述した解析部610と同じ構成および機能を有する。音声解析部610Bは、動画データ取得部600が取得した動画データを入力し、音声解析を行うことで、テキストデータを生成する。音声解析によるテキストデータの生成手法は、どのようなものであってもよいが、例えば以下の様にして行う。
音声解析部610Bは、取得した動画データに含まれている音データ(MP3等の圧縮データ)をFFT等により、フーリエ変換する。これにより、音データのスペクトラムを検出する。音声解析部610Bは、検出した音データのスペクトラムをさらにフーリエ変換する等して、ケプストラムを検出する。最後に、音声解析部610Bは、検出した音データのケプストラムと、単語列あるいは音素列のケプストラムと、の相関を算出する。相関が閾値以上となった場合に、当該単語列あるいは音素列を抽出する。
音声解析部610Bは、抽出した単語列あるいは音素列を、テキスト候補として抽出する。これにより、図12に示すように、画像の時間変化の解析によるテキスト候補に加えて、音声解析によるテキスト候補が抽出される。動画解析部610Aおよび音声解析部610Bは、これらテキスト候補から、テキストデータを生成する。
次に、図13は、変形例に係る動画解析装置の構成を示すブロック図である。変形例に係る動画解析装置においては、解析部610の機能がサーバ100上に存在し、サーバ100を含めて本発明の動画解析装置を実現する。
動画データ取得部600で取得された動画データは、通信部64およびインターネット20を介して、サーバ100に送信される。サーバ100は、通信部610を備えている。サーバ100の通信部610は、受信した動画データを解析し、テキストデータを生成する。
このようにして、動画解析装置1は、サーバ100に動画データの解析を実行させる。サーバ側のハードウェアが自装置よりも高速に処理が可能であるハードウェアであれば、より高速に動画データの解析が可能となる。また、サーバ100側のハードウェアを更新することで、利用者が有する装置のハードウェアを更新せずとも、最新のハードウェアにより、利用者が有する装置では処理することが最新のエンコード方式の動画データであっても、解析を行うことができる。
1…動画解析装置
6…スマートフォン
61…制御部
62…アウトカメラ
63…インカメラ
64…通信部
65…操作部
66…表示部
67…記憶部
600…動画データ取得部
610…解析部
610A…動画解析部
610B…音声解析部
611…保存部

Claims (6)

  1. 動画データを取得する動画データ取得部と、
    前記動画データ取得部が取得した動画データから、動画解析を行い、当該動画データにテキストデータを対応付ける解析部と、
    前記解析部が対応付けたテキストデータを、前記動画データ取得部が取得した前記動画データに対応付けて保存する保存部と、
    を備えた動画解析装置。
  2. 前記保存部は、前記テキストデータを対応付けた当該動画のタイミングに関する情報を、前記テキストデータとともに保存する請求項1に記載の動画解析装置。
  3. 前記保存部は、前記テキストデータを前記動画データに対応するインデックスデータとして保存する請求項1または請求項2に記載の動画解析装置。
  4. 前記解析部は、前記動画データに対応する音声をさらに解析し、前記テキストデータを関連づける請求項1乃至請求項3のいずれかに記載の動画解析装置。
  5. 利用者からテキストの入力を受け付ける受付部と、
    前記受付部で入力を受け付けたテキストに対応する動画データを検索する検索部と、
    を備えた請求項1乃至請求項4のいずれかに記載の動画解析装置。
  6. コンピュータを、
    動画データを取得する動画データ取得部と、
    前記動画データ取得部が取得した動画データの動画解析をすることで、当該動画にテキストデータを関連付ける解析部と、
    前記解析部が関連付けたテキストデータを、前記動画データ取得部が取得した動画データに対応付けて保存する保存部と、
    を実現させるプログラム。
JP2016026965A 2016-02-16 2016-02-16 動画解析装置およびプログラム Pending JP2017147547A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016026965A JP2017147547A (ja) 2016-02-16 2016-02-16 動画解析装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016026965A JP2017147547A (ja) 2016-02-16 2016-02-16 動画解析装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2017147547A true JP2017147547A (ja) 2017-08-24

Family

ID=59683246

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016026965A Pending JP2017147547A (ja) 2016-02-16 2016-02-16 動画解析装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2017147547A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011167301A (ja) * 2010-02-17 2011-09-01 Asahikawa Medical College 手術映像蓄積装置、手術映像蓄積方法、およびプログラム
JP2011244043A (ja) * 2010-05-14 2011-12-01 Mitsubishi Electric Corp 映像記録再生装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011167301A (ja) * 2010-02-17 2011-09-01 Asahikawa Medical College 手術映像蓄積装置、手術映像蓄積方法、およびプログラム
JP2011244043A (ja) * 2010-05-14 2011-12-01 Mitsubishi Electric Corp 映像記録再生装置

Similar Documents

Publication Publication Date Title
KR102091848B1 (ko) 전자 장치에서 사용자의 감정 정보를 제공하기 위한 장치 및 방법
US9098533B2 (en) Voice directed context sensitive visual search
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
CN113115099B (zh) 一种视频录制方法、装置、电子设备以及存储介质
KR102197098B1 (ko) 콘텐츠 추천 방법 및 장치
JP2020536455A5 (ja)
US20170065889A1 (en) Identifying And Extracting Video Game Highlights Based On Audio Analysis
WO2019037615A1 (zh) 视频处理方法和装置、用于视频处理的装置
WO2016184051A1 (zh) 图片搜索方法、装置、设备及非易失性计算机存储介质
JP2018084890A (ja) 情報処理装置、情報処理方法、およびプログラム
JP6337183B1 (ja) テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
US20150324099A1 (en) Connecting Current User Activities with Related Stored Media Collections
US20160292880A1 (en) Image shooting device, image shooting method, and recording medium
US11941048B2 (en) Tagging an image with audio-related metadata
JP2011164681A (ja) 文字入力装置、文字入力方法、文字入力プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体
US9195312B2 (en) Information processing apparatus, conference system, and information processing method
D’Eusanio et al. Manual annotations on depth maps for human pose estimation
US20140286624A1 (en) Method and apparatus for personalized media editing
US11410706B2 (en) Content pushing method for display device, pushing device and display device
JP2018536212A (ja) 情報捕捉および提示のための方法および装置
CN114302231B (zh) 视频处理方法及装置、电子设备和存储介质
JP6292872B2 (ja) 画像処理装置、画像処理方法、プログラム
JP2017147547A (ja) 動画解析装置およびプログラム
CN110008364B (zh) 图像处理方法、装置和系统
JP2022067478A (ja) 情報処理プログラム、装置、及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191101

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191203