JP2007079416A - 画像データ作成装置、画像データ作成方法及びプログラム - Google Patents

画像データ作成装置、画像データ作成方法及びプログラム Download PDF

Info

Publication number
JP2007079416A
JP2007079416A JP2005270013A JP2005270013A JP2007079416A JP 2007079416 A JP2007079416 A JP 2007079416A JP 2005270013 A JP2005270013 A JP 2005270013A JP 2005270013 A JP2005270013 A JP 2005270013A JP 2007079416 A JP2007079416 A JP 2007079416A
Authority
JP
Japan
Prior art keywords
image data
image
video signal
video
data creation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005270013A
Other languages
English (en)
Inventor
Masaaki Kobayashi
正明 小林
Kazuo Okamura
和男 岡村
Masanori Nakanishi
正典 中西
Kenji Matsuura
賢司 松浦
Yoshihiro Morioka
芳宏 森岡
Mitsuru Yasukata
満 安方
Yozo Yamamoto
洋三 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005270013A priority Critical patent/JP2007079416A/ja
Publication of JP2007079416A publication Critical patent/JP2007079416A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 照合用画像データの作成工数を少なくして短時間で照合用画像データを作成する画像データ作成装置を提供する。
【解決手段】ビデオカメラ2の映像信号出力端子11から出力された映像信号から照合用画像を切出す画像切出し手段3と、照合用画像に関連するメタ情報を音声で入力するマイク6と、マイク6から出力された音声信号をメタ情報データに変換する音声認識手段7とを具備し、メタ情報データ付与手段9により、画像切出し手段3で切出した画像データに対応した、音声入力メタ情報データとタイムコードとを、切出し画像データに付与して照合用画像データを作成する。
【選択図】図1

Description

本発明は、画像認識に用いる照合用画像データを作成する画像データ作成装置および画像データ作成方法に関するものである。
近年、映像・音声コンテンツに関連したメタ情報データを映像信号に付与する場合、画像認識を用いる試みが行われている。
しかし、一般的に画像認識を用いる場合は、画像認識するために多くの照合用画像データが必要である。
従来、照合用画像データは、映像モニタ装置に映し出された映像を見ながら照合用画像の映像信号と、その映像信号のタイムコードと、照合用画像のメタ情報データとをキーボードで入力して作成していた。
特開2002−133423 特開2004−086124
しかし従来の方法は、照合用画像データの作成工数が多いと言う問題点があった。
そこで本願発明は、照合用画像データの作成工数を少なくして短時間で照合用画像データが作成できる画像データ作成装置および画像データ作成方法を提供することを目的とする。
従来の課題を解決するために本願発明の画像データ作成装置は、映像・音声コンテンツ再生手段から出力された映像信号および時間情報から照合用画像データを作成する画像データ作成装置であって、映像信号から照合用画像の映像信号Vを切出す画像切出し手段と、照合用画像に関連するメタ情報を音声で入力する音声入力手段と、音声入力手段から出力された音声信号をメタ情報データに変換する音声認識手段とを有することを特徴とする。
このような構成にすることによって、メタ情報データを自動的に映像信号Vに付与することができる。
また、映像信号Vに対応する時間情報VTを映像信号Vに付与する時間情報付与手段VMと、音声入力手段でメタ情報を入力したときの時間情報TBをメタ情報データに付与する時間情報付与手段BMとを具備したことを特徴とする。
このような構成にすることによって、時間情報付メタ情報データを映像信号Vに付与した照合用画像データが簡単に作成できる。
本発明の画像データ作成方法は、映像・音声コンテンツ再生手段から出力された音声信号をモニタする音声モニタ手段と、映像・音声コンテンツ再生手段から出力された映像信号をモニタする映像モニタ手段とを本発明の画像データ作成装置に設け、映像モニタ手段に映出された映像と音声モニタ手段から出力された音声との双方を確認した後、音声入力手段でメタ情報を入力することを特徴とする。
このような構成にすることによって、付与するメタ情報の確認精度が向上する。
また、本発明は、上記画像データ作成装置の、前記画像切出し手段と、前記音声認識手段としてコンピュータを機能させるためのプログラムである。
さらに、本発明は、上記プログラムを担持した記録媒体であって、コンピュータにより処理可能なことを特徴とする記録媒体である。
本発明によれば、照合用画像データの作成工数を少なくして短時間で照合用画像データが作成できる画像データ作成装置および画像データ作成方法を提供することが出来る。
以下、本発明の実施の形態について図面を用いて説明する。
(実施の形態1)
図1は、本発明による実施の形態1における画像データ作成装置の構成例を示したブロック図である。尚、本図は映像・音声コンテンツ再生手段としてビデオカメラを用いた場合の構成例である。
画像データ作成装置は、ビデオカメラ2に具備されている映像出力端子11から出力された映像信号から照合用画像を切出す画像切出し手段3と、照合用画像を切出すタイミングを画像切出し手段3に入力するスイッチ手段13および14と、ビデオカメラ2の映像出力端子11から出力された映像信号をモニタするモニタ手段4と、オペレータ5が発声したメタ情報の音声を集音するマイク6と、マイク6から出力された音声信号を認識してメタ情報データに変換する音声認識手段7と、メタ情報データが格納されている辞書8と、画像切出し手段3から出力された切出し画像データに音声認識手段7から出力されたメタ情報データを付与するメタ情報付与手段9と、メタ情報付与手段9から出力された照合用画像の画像データを格納するデータベース手段10などから構成されている。尚、音声認識には何らかの誤認識が生じる可能性がある。そこで、誤認識が生じた場合に音声データをコンピュータで修正する公知の情報処理手段(図示していない)をさらに設けてもよい。
なお、本発明に適用できる映像・音声コンテンツ再生手段としては、ビデオカメラの他にVTR、DVDプレーヤ、DVDレコーダ、ハードディスクレコーダなどの映像・音声再生装置、あるいは半導体メモリを用いた映像・音声信号再生装置、さらには通信網、放送網から伝送されてきた映像・音声信号を再生する再生装置などが適用できる。
本発明に適用できる画像切出し手段3としては、スイッチ手段の他に画像切出し開始検出手段と画像切出し終了検出手段とを用いて、開始時と終了時を検出するカット検出手段が適用できる。
そのカット検出手段としては、例えばフレームメモリあるいはフィールドメモリなどの記憶手段と、フレーム間の差分を演算する減算回路あるいはフィールド間の差分を演算する減算回路とからなるカット検出装置が用い得る。このカット検出装置を用いて、フレーム間あるいはフィールド間を減算してその差分を演算する。そして差分の変化の小さい画像が始まった点を開始時とし、差分の変化が大幅に大きくなった点(例えば、ビデオカメラの撮影が一旦終了し、次に別の場面の撮影が始まるような点)を終了時として画像を切出すことができる。尚、演算するフレーム数あるいはフィールド数を複数にすると、誤動作を防止できる点で好ましい。
なお、他のカット検出手段としては、音響レベルを測定する音響測定装置を用い得る。この装置を用いて、声援・拍手などの音響レベルを測定し、その変化の前後を開始時と終了時として画像を切出すこともできる。
さらに、他のカット検出手段としては、図1に示したように画像データ作成装置に設けた画像認識手段15がある。画像認識手段15としては、一般によく知られているものであればいずれでも用い得る。画像認識手段15を用いて、ビデオカメラ2から出力された映像信号の中から特定の場面、人物の顔、ピッチャーの投球動作など特定の動作、ニュース番組におけるキャスターなど特定の位置関係を持つ人物などの画像を認識し、これらの画像の開始時と終了時とを検出することによって画像を切出すことができる。
本発明に適用できるモニタ手段4としては、映像モニタ手段の他に映像・音声コンテンツ再生手段に具備されている音声出力端子から出力された音声信号をモニタする音声モニタ手段を具備してもよい。すなわち、モニタ手段4を映像モニタ手段と音声モニタ手段とで構成してもよい。
本発明に適用できる音声認識手段7としては、公知の音声認識装置が適用可能である。例えば木村達也,石田明,二矢田勝行:“セグメント特徴量を用いた実用向けの不特定話者音声認識”,信学論誌,J85-D2,3pp.398-405, (2002).など一般によく知られている音声認識手段であればいずれでも適用できる。
音声認識手段7に接続されている辞書8は、図3に示したように、標準辞書401とユーザー定義辞書402とから構成されている。標準辞書401には、例えばお父さん、お母さん、お兄さんなどの一般名詞からなるメタ情報が格納されている。また、ユーザー定義辞書には、例えばAさん、Bちゃん、C君などの人名などユーザー特有の固有名詞からなるメタ情報が格納されている。つぎに、図1に示した画像データ作成装置を用いて照合用画像の画像データ(以下、照合用画像データと言う)を作成する方法について説明する。
まず、ビデオカメラ2の映像出力端子11から出力された映像信号をモニタ手段4に入力する。また、音声モニタ手段がモニタ手段4に具備されている場合は、ビデオカメラ2から出力された音声信号を音声モニタ手段に入力する。オペレータ5は、モニタ手段4から出力された映像、あるいは映像と音声との双方で映像の内容を確認したのち、メタ情報の音声入力と、スイッチ13、14の操作を行う。ここで、映像と音声との双方で映像の内容を確認したのちメタ情報を入力すると、付与するメタ情報の確認精度が向上する点で好ましい。
ビデオカメラ2の映像出力端子11から出力された映像信号と、タイムコード出力端子12から出力されたタイムコード(本発明の時間情報VTの一例である)とを画像切出し手段3に入力し、所望の照合用画像の映像がモニタ手段4に映し出されたときにスイッチ手段SW1 13を作動させる、そして照合用画像が消えたときにスイッチ手段SW2 14を作動させる。すると、照合用画像の映像が開始した開始時のタイムコードと、照合用画像の映像が終了した終了時のタイムコードと、照合用画像の映像信号とが画像切出し手段3から出力される。このスイッチ手段13,14は本発明の時間情報付与手段VMに対応する。また、画像切出し手段3は、そのスイッチ手段13,14からの信号を入力し、画像切出し開始時VT1を検出する画像切出し開始検出手段と、画像切出し終了時VT2を検出する画像切出し終了検出手段とを内蔵している。
一方、照合用画像に関連したメタ情報をマイク6に入力し、マイク6から出力された音声信号と、タイムコード出力端子12から出力されたタイムコードとを音声認識手段7に入力する。すると、音声認識手段7によって認識された音声信号は、辞書8によって音声信号に対応したメタ情報データに変換される。このとき、音声信号を入力したときのタイムコードTBがメタ情報データに付与されて音声認識手段7から出力される。本発明の時間情報付与手段BMは、この音声認識手段7で兼用されている。
尚、音声信号の入力は、照合用画像の映像開始時のタイムコードと、照合用画像の映像終了時のタイムコードとの時間内に入力する。つぎに、タイムコードと映像信号と音声信号との時間関係の一例について図2に示したタイムチャートを用いて説明する。
101はタイムコード出力端子12から出力されたタイムコードの時間、201は映像信号出力端子11から出力された映像信号の時間、301はオペレータ5がメタ情報をマイク6に入力し、マイク6から出力された音声信号の時間である。映像信号201は、「お父さんの顔映像」202と「風景」203と「お母さんの顔映像」204とから構成されている。この映像信号201から、「お父さんの顔映像」202と「お母さんの顔映像」204とを照合用画像として切出し、「お父さんの顔映像」202には「お父さん」のメタ情報を、また「お母さんの顔映像」204には「お母さん」のメタ情報を付与する場合について説明する。
映像信号201とタイムコード101とを画像切出し手段3に入力し、「お父さんの顔映像」202がモニタ手段4に映り出されたときにスイッチ手段13を作動させる、そして「お父さんの顔映像」202が消えたときにスイッチ手段14を作動させる。すると、図2に示したように、「お父さんの顔映像」202の開始時(IN点)のタイムコード102(例えば、01:22:18:00)と、「お父さんの顔映像」202の終了時(OUT点)のタイムコード103(例えば、01:22:19:10)とが、「お父さんの顔映像」の映像信号202に付与されて画像切出し手段3から出力される。
一方、映像信号201をモニタ手段4で確認して、「お父さんの顔映像」202の映像中に「お父さん」の音声をマイク6に入力する。すると、「お父さん」の音声信号を入力した時間302、すなわちタイムコード102と103との間のタイムコードが、「お父さん」のメタ情報データに付与されて音声認識手段7から出力される。
同様にして、「お母さんの顔映像」204のIN点のタイムコード104(例えば、01:38:08:05)と、「お母さんの顔映像」204のOUT点のタイムコード105(例えば、01:38:12:22)とが、「お母さんの顔映像」の映像信号204に付与されて画像切出し手段3から出力される。また、「お母さん」の音声信号を入力した時間303、すなわちタイムコード104と105との間のタイムコードが、「お母さん」のメタ情報データに付与されて音声認識手段7から出力される。尚、本実施形態では時間情報としてタイムコードを用いたが、映像信号のフレーム数あるいはフィールド数や、時計時刻や、映像信号のスタートする時間を開始時間として計測した時間などを時間情報として用いることができる。
以上のようにして作成された、画像切出し手段3から出力されたタイムコード付き映像信号データと、音声認識手段7から出力されたタイムコード付きメタ情報データとをメタ情報付与手段9に入力する。
メタ情報付与手段9は、これらのデータを合体して、図4に示したような照合用画像データを作成する。
(実施の形態2)
図5は、本発明による実施の形態2における画像データ作成装置の構成例を示したブロック図である。尚、図1と同じ構成要素には同じ符号を付与し説明は省略し、ここでは図1と異なる点についてのみ説明する。
図1と異なる点は、被写体1の方向に関するメタ情報を入力する方向入力手段が具備されている点である。例えば、被写体1の人の顔画像を認識する場合、人の顔の向きが上向き・下向き・右向き・左向きのいずれかであることが略略わかっていると、画像認識手段15による画像認識率が向上する。そこで本実施の形態2では、被写体1の方向情報を入力する十文字キー16を設けて、被写体1の方向を示すメタ情報データ(以下、方向メタ情報データと言う)を照合用画像データに付与することができるようにしたものである。
本発明に適用できる方向入力手段としては、図5に示した、方向入力手段の一例としての、十字キー16の他に、キーパッドやゲームパッドあるいはキーボードなどが適用できる。つぎに、方向メタ情報データの作成方法について説明する。
オペレータ5が音声でメタ情報を入力するほぼ同時刻に、例えば被写体1の人の顔の向きを十字キー16の上向き・下向き・右向き・左向きに相当するキーを押し、その出力信号をタメタ情報付与手段9に入力する。すると図6に示したように、図4で説明した照合用画像データに、方向メタ情報データが付与された照合用画像データが作成される。
なお、本発明は、上記画像データ作成装置の、前記画像切出し手段と、前記音声認識手段としてコンピュータを機能させるためのプログラムである。
さらには、本発明は、そのプログラムを記録した、コンピュータに読みとり可能な記録媒体である。
また、本発明のプログラムの一利用形態は、コンピュータにより読み取り可能な記録媒体に記録され、コンピュータと協働して動作する態様である。
また、本発明のプログラムの一利用形態は、伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様である。
また、記録媒体としては、ROM等が含まれ、伝送媒体としては、インターネット等の伝送媒体、光・電波・音波等が含まれる。
また、上述した本発明のコンピュータは、CPU等の純然たるハードウェアに限らず、ファームウェアや、OS、更に周辺機器を含むものであっても良い。
なお、以上説明した様に、本発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。
本発明による画像データ作成装置および画像データ作成方法は、任意の画像データから画像認識するための照合用画像データを作成する分野に有効である。
本発明による実施の形態1における画像データ作成装置の構成例を示したブロック図 本発明による実施の形態1における、照合用画像データのタイムコード、映像信号、音声信号の時間関係を示したタイムチャート図 本発明による実施の形態1において用いる辞書の構成例を示した図 本発明による実施の形態1における照合用画像データの構成例を示した図 本発明による実施の形態2における画像データ作成装置の構成例を示したブロック図 本発明による実施の形態2における照合用画像データの構成例を示した図
符号の説明
2 ビデオカメラ
3 画像切出し手段
4 モニタ手段
6 マイク
7 音声認識手段
8 辞書
9 メタ情報付与手段
10 データベース手段
11 映像信号出力端子
12 タイムコード出力端子
13、14 スイッチ手段
15 画像認識手段
16 十字キー
101 タイムコード
201 映像信号
301 音声信号
401 標準辞書
402 ユーザー定義辞書

Claims (13)

  1. 映像・音声コンテンツ再生手段から出力された映像信号および時間情報から照合用画像データを作成する画像データ作成装置であって、
    前記映像信号から前記照合用画像の映像信号Vを切出す画像切出し手段と、
    前記照合用画像に関連するメタ情報を音声で入力する音声入力手段と、
    前記音声入力手段から出力された音声信号をメタ情報データに変換する音声認識手段と、を備えた、画像データ作成装置。
  2. 前記映像信号Vに対応する時間情報VTを前記映像信号Vに付与する時間情報付与手段VMと、
    前記音声入力手段でメタ情報を入力したときの時間情報TBを前記メタ情報データに付与する時間情報付与手段BMと、を備えた請求項1に記載の画像データ作成装置。
  3. 前記時間情報VTが、前記映像信号Vの切出し開始時の時間情報VT1と、前記映像信号Vの切出し終了時の時間情報VT2である、請求項2に記載の画像データ作成装置。
  4. 前記映像信号Vの切出しを開始するスイッチ手段SW1と、前記映像信号Vの切出しを終了するスイッチ手段SW2と、を備えた請求項3に記載の画像データ作成装置。
  5. 画像切出し開始検出手段と画像切出し終了検出手段とが前記画像切出し手段に具備され、
    前記画像切出し開始検出手段で前記時間情報VT1を検出し、前記画像切出し終了検出手段で前記時間情報VT2を検出する、請求項3に記載の画像データ作成装置。
  6. 前記時間情報VTが、タイムコードである、請求項1から5のいずれかに記載の画像データ作成装置。
  7. 前記時間情報VTが、前記映像信号のフレーム数もしくはフィールド数である、請求項1から5のいずれかに記載の画像データ作成装置。
  8. 前記時間情報VTが時計時刻である、請求項1から5のいずれかに記載の画像データ作成装置。
  9. 前記時間情報VTが、前記映像信号Vのスタートする時間を開始時間として計測される時間である、請求項1から5のいずれかに記載の画像データ作成装置。
  10. 前記照合用画像における被写体の方向に関するメタ情報を入力する方向入力手段を備えた、請求項1から9のいずれかに記載の画像データ作成装置。
  11. 請求項1から10のいずれかに記載の画像データ作成装置を用いて前記照合用画像データを作成する画像データ作成方法であって、
    前記映像・音声コンテンツ再生手段から出力された音声信号をモニタする音声モニタ手段から出力される音声および、
    前記映像・音声コンテンツ再生手段から出力された映像信号をモニタする映像モニタ手段に映出された映像、
    の双方を確認した後、前記音声入力手段で前記メタ情報を入力する、画像データ作成方法。
  12. 請求項1に記載の画像データ作成装置の、前記画像切出し手段と、前記音声認識手段としてコンピュータを機能させるためのプログラム。
  13. 請求項12に記載のプログラムを担持した記録媒体であって、コンピュータにより処理可能なことを特徴とする記録媒体。
JP2005270013A 2005-09-16 2005-09-16 画像データ作成装置、画像データ作成方法及びプログラム Pending JP2007079416A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005270013A JP2007079416A (ja) 2005-09-16 2005-09-16 画像データ作成装置、画像データ作成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005270013A JP2007079416A (ja) 2005-09-16 2005-09-16 画像データ作成装置、画像データ作成方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2007079416A true JP2007079416A (ja) 2007-03-29

Family

ID=37939757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005270013A Pending JP2007079416A (ja) 2005-09-16 2005-09-16 画像データ作成装置、画像データ作成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2007079416A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020509504A (ja) * 2017-03-20 2020-03-26 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. 画像のタグ付け方法、装置及び電子機器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020509504A (ja) * 2017-03-20 2020-03-26 深▲せん▼前海達闥雲端智能科技有限公司Cloudminds (Shenzhen) Robotics Systems Co., Ltd. 画像のタグ付け方法、装置及び電子機器
US11321583B2 (en) 2017-03-20 2022-05-03 Cloudminds Robotics Co., Ltd. Image annotating method and electronic device

Similar Documents

Publication Publication Date Title
CN100394438C (zh) 信息处理装置及其方法
JP5022025B2 (ja) コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
JP4920395B2 (ja) 動画要約自動作成装置、方法、及びコンピュータ・プログラム
WO2014161282A1 (zh) 视频文件播放进度的调整方法及装置
JP4331217B2 (ja) 映像再生装置および方法
JP6844608B2 (ja) 音声処理装置および音声処理方法
CN101715142B (zh) 信息记录再现装置和视频摄像机
JP4621758B2 (ja) コンテンツ情報再生装置、コンテンツ情報再生システム、および情報処理装置
US7418393B2 (en) Data reproduction device, method thereof and storage medium
EP1347455A2 (en) Contents recording/playback apparatus and contents edit method
KR20120013885A (ko) 오디오 재생 방법 및 그에 따른 오디오 재생 장치, 및 정보 저장 매체
KR101100191B1 (ko) 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법
WO2001016935A1 (fr) Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
CN101809999B (zh) 声音信号控制装置
KR20070096920A (ko) 비디오 프레임의 렌더링 지속시간 결정 장치 및 방법
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
JP2007079416A (ja) 画像データ作成装置、画像データ作成方法及びプログラム
KR20070040988A (ko) 음악데이터와 동시 출력을 위한 동기화된 영상데이터 생성방법과 그 동기화 출력을 위한 재생 방법
JP2003316384A (ja) リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
JP2012118251A (ja) 情報処理装置およびその動作方法
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法