JP2007104405A - 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム - Google Patents

音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム Download PDF

Info

Publication number
JP2007104405A
JP2007104405A JP2005292486A JP2005292486A JP2007104405A JP 2007104405 A JP2007104405 A JP 2007104405A JP 2005292486 A JP2005292486 A JP 2005292486A JP 2005292486 A JP2005292486 A JP 2005292486A JP 2007104405 A JP2007104405 A JP 2007104405A
Authority
JP
Japan
Prior art keywords
audio
data
video data
photographer
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005292486A
Other languages
English (en)
Other versions
JP4599630B2 (ja
Inventor
Sunao Terayoko
素 寺横
Tetsuya Sawano
哲也 沢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Priority to JP2005292486A priority Critical patent/JP4599630B2/ja
Publication of JP2007104405A publication Critical patent/JP2007104405A/ja
Application granted granted Critical
Publication of JP4599630B2 publication Critical patent/JP4599630B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 撮影者の音声を再生時に有効に活用することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供する。
【解決手段】 音声信号解析部52は、撮影者音声信号記録部50から読み出した撮影者音声データ66から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。また、音声信号解析部52は、上記文字化された音声が発せられている発話時間情報を取得する。この発話時間情報は、例えば、発話の開始時及び終了時の映像データ(動画)のフレームを特定する情報(フレーム)番号や、発話の開始時刻及び終了時刻等である。メタデータ生成部54は、上記の発話時間情報、発話内容情報等を所定のファイル形式(例えば、xml形式)のメタデータに格納する。このメタデータは撮影者音声データ66と関連付けられて撮影者音声信号記録部50に記録される。
【選択図】 図2

Description

本発明は音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムに係り、特に映像データと音声データとを同期させて記録する技術に関する。
従来、映像データと音声データとを同期させて記録する装置において、撮影者の音声を選択的に記録する技術が提案されている。例えば、特許文献1には、音声認識装置を用いて適応型フィルタの除去動作を制御することにより、撮影者(装置操作者)の音声を選択的に記録でき、しかも音声キーワードが記録されることがない音声記録系装置について開示されている。
実開平5−43200号公報
一般に、ホームユースのビデオカメラでは、集音用マイクはビデオカメラの本体に付属しており、撮影者側と被写体側の音声は同じマイクで同時に録音される。撮影時には、ビデオカメラを持つ撮影者は被写体よりもマイクに近いため、撮影者の声の方が被写体や周囲の音声よりも録音される際の音量が大きくなる。この撮影者の声は、撮影したビデオを視聴する際に往々にして邪魔になる。一方、撮影者の声は、例えば、「いま○○にいます」とか、「今日は運動会です」のように、撮影内容に関するボイスメモとして有効な場合もある。
本発明はこのような事情に鑑みてなされたもので、撮影者の音声を再生時に有効に活用することができる音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムを提供することを目的とする。
上記目的を達成するために請求項1に係る音声付き映像データ処理装置は、映像データを取得する映像取得手段と、前記映像データの撮影者側の音声データを取得する第1の音声取得手段と、前記映像データの被写体側の音声データを取得する第2の音声取得手段と、前記撮影者側の音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、前記映像データにおいて、前記発話内容情報に対応する前記撮影者側の音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、前記映像データ、前記撮影者側の音声データ、前記被写体側の音声データ及び前記メタデータを関連付けて記録するデータ記録手段とを備えることを特徴とする。
請求項1に係る音声付き映像データ処理装置によれば、撮影者側と被写体側の音声とを別々に保存することができるとともに、撮影者側の音声を文字化し発話内容情報をメタデータの中に保存することができる。
請求項2に係る音声付き映像データ処理装置は、請求項1において、前記第1の音声取得手段は、前記映像データの撮影者側の音声データの追加入力を受け付けることを特徴とする。
請求項2に係る音声付き映像データ処理装置によれば、映像の録画後にアフレコで音声(ナレーション、ボイスメモ)を追加できる。
請求項3に係る音声付き映像データ処理装置は、請求項1又は2において、前記映像データを出力する映像出力手段と、前記音声データを出力する音声出力手段と、前記撮影者側又は前記被写体側の音声データの音量を調整する音量調整手段とを更に備えることを特徴とする。
請求項3に係る音声付き映像データ処理装置によれば、撮影者側又は被写体側の音声を選択的に視聴することができる。
請求項4に係る音声付き映像データ処理装置は、請求項3において、前記音量調整手段は、前記被写体側の音声データの音量を前記撮影者側の音声データの音量に対して大きくするか、又は撮影者側の音声を出力しないようにすることを特徴とする。
請求項4に係る音声付き映像データ処理装置によれば、音声付き映像データの再生時に撮影者側の音声が邪魔にならない。
請求項5に係る音声付き映像データ処理装置は、請求項1又は2において、前記音声付き映像データを再生出力する再生出力手段と、前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段とを更に備えることを特徴とする。
請求項5に係る音声付き映像データ処理装置によれば、撮影者の音声やナレーション、ボイスメモをテロップとして利用することができる。
請求項6に係る音声付き映像データ処理方法は、映像データを取得する映像取得工程と、前記映像データの撮影者側の音声データを取得する第1の音声取得工程と、前記映像データの被写体側の音声データを取得する第2の音声取得工程と、前記撮影者側の音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、前記映像データにおいて、前記発話内容情報に対応する前記撮影者側の音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、前記映像データ、前記撮影者側の音声データ、前記被写体側の音声データ及び前記メタデータを関連付けて記録するデータ記録工程とを備えることを特徴とする。
また、請求項7に係る音声付き映像データ処理用プログラムは、映像データを取得する映像取得機能と、前記映像データの撮影者側の音声データを取得する第1の音声取得機能と、前記映像データの被写体側の音声データを取得する第2の音声取得機能と、前記撮影者側の音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、前記映像データにおいて、前記発話内容情報に対応する前記撮影者側の音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、前記映像データ、前記撮影者側の音声データ、前記被写体側の音声データ及び前記メタデータを関連付けて記録するデータ記録機能とをコンピュータに実現させることを特徴とする。
請求項8に係る音声付き映像データ処理用プログラムは、請求項7において、前記映像データの撮影者側の音声データの追加入力を受け付ける機能をコンピュータに実現させることを特徴とする。
請求項9に係る音声付き映像データ処理用プログラムは、請求項7又は8において、前記映像データを出力する映像出力機能と、前記音声データを出力する音声出力機能と、前記撮影者側又は前記被写体側の音声データの音量を調整する音量調整機能とをコンピュータに実現させることを特徴とする。
請求項10に係る音声付き映像データ処理用プログラムは、請求項7又は8において、前記メタデータから発話内容情報及び発話時間情報を取得する情報取得機能と、前記取得した発話内容情報に基づいてテロップを作成するテロップ作成機能と、前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入して、前記音声付き映像データを再生出力する再生出力機能とをコンピュータに実現させることを特徴とする。
請求項7から10に係る音声付き映像データ処理用プログラムを含むソフトウェアやファームウェアをパーソナルコンピュータ(PC)のほか、ビデオ再生装置(ビデオデッキ、テレビ)やデジタルカメラ、携帯電話等の映像再生機能を有する装置に適用することにより、本発明の音声付き映像データ処理装置及び音声付き映像データ処理方法を実現することができる。
本発明によれば、撮影者側と被写体側の音声とを別々に保存することができるとともに、撮影者側の音声を文字化し発話内容情報をメタデータの中に保存することができる。これにより、撮影者側又は被写体側の音声を選択的に視聴したり、撮影者の音声やナレーション、ボイスメモをテロップとして利用することができる。
以下、添付図面に従って本発明に係る音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラムの好ましい実施の形態について説明する。
図1は、本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図である。図1に示す撮像装置10は、例えば、動画撮影機能を有するカメラや電子カメラ、デジタルカメラ、ビデオカメラ、デジタルビデオカメラである。
CPU12は、バス14を介して撮像装置10内の各部に接続されており、操作スイッチ16等からの操作入力に基づいて撮像装置10の動作を制御する統括制御部である。操作スイッチ16は、電源スイッチやレリーズスイッチ16A、十字キー等を含んでおり、ユーザからの操作入力を受け付ける。レリーズスイッチ16Aは2段階式に構成され、レリーズスイッチ16Aを軽く押して止める「半押し(S1=ON)」の状態で自動ピント合わせ(AF)及び自動露出制御(AE)が作動してAFとAEをロックし、「半押し」から更に押し込む「全押し(S2=ON)」の状態で撮影が実行される。
メモリ18は、CPU12が処理するプログラム及び制御に必要な各種データ等が格納されるROMや、CPU12が各種の演算処理等を行う作業用領域及び映像処理領域となるSDRAM等を有している。
外部通信インターフェース(外部通信I/F)20は、ネットワークや外部出力機器(例えば、パーソナルコンピュータやテレビジョン、ディスプレイ、プリンタ、外部記録装置)等と接続するための機器で、所定のプロトコルにしたがって各種データの送受信を行う。なお、データの送受信の方式は、例えば、インターネットや無線LAN、有線LAN、IrDA、Bluetooth等である。
撮像素子24は、光学系(レンズ)22を介して入射した光を受け止めて電気信号に変換する素子であり、例えばCCDである。この電気信号は、図示せぬプリアンプによって増幅され、A/D変換器26によってデジタル信号に変換されて、映像処理部28に入力される。
本実施形態の撮像装置10は、映像(静止画、動画)を撮影するための撮影モードと、映像を表示、再生するための再生モードの複数の動作モードを備えており、ユーザは操作スイッチ16からの操作入力により動作モードを設定する。
撮影モード時には、映像処理部28によって撮像素子24から出力された電気信号が処理されて画角確認用の映像データ(スルー画)が作成され、映像表示部(モニタ)30に表示される。静止画を撮影する場合には、レリーズスイッチ16Aが操作されて静止画が撮影されると、撮像素子24から出力された電気信号が映像処理部28によって処理されて記録用の静止画データが作成される。この記録用の静止画データは、記録メディア32に所定のファイル形式で記録される。ここで、記録メディア32は、例えば、半導体メモリやビデオテープ、ハードディスクドライブ(HDD)、DVD等である。なお、マイク34A及び34Bにより音声を入力して、上記静止画データと音声とを関連付けて記録することもできる。
一方、動画を撮影する場合には、レリーズスイッチ16Aにより動画の撮影が開始されると、撮影者側マイク34A及び被写体側マイク34Bによりそれぞれ撮影者側及び被写体側の音声の取得が開始される。そして、映像処理部28によって記録用の動画データが作成されるとともに、オーディオ処理回路36によって記録用の音声データが作成される。この記録用の動画データ及び音声データは、記録メディア32に所定のファイル形式の音声付き映像データに変換されて記録される。
一方、再生モード時において、静止画の再生時には、映像処理部28によって記録メディア32に記録された静止画データが読み出されて表示用の静止画データが作成され、モニタ30に表示される。また、動画の再生時には、映像処理部28によって記録メディア32に記録された動画データが読み出されて表示用の動画データが作成されモニタ30に表示されるとともに、上記動画データと関連付けられた音声データが読み出されてスピーカ38から出力される。上述のように、モニタ30は撮影時の画角確認用の電子ファインダとして用いられるとともに、撮影された映像データ(静止画データ、動画データ)の表示に用いられる。
次に、上記の撮像装置10により撮像された音声付き映像データからメタデータを生成する処理について、図2を参照して説明する。図2は、撮像装置10における音声付き映像データの生成処理の流れを示す機能ブロック図である。図2に示す録画指示・制御部40は、録画開始の指示を行うレリーズスイッチ16AやCPU12を含む機能ブロックであり、レリーズスイッチ16Aからの操作入力によりCPU12から映像・音声入力部42、映像・音声信号符号化部44、撮影者側マイク34A及び撮影者音声符号化部46に、動画の撮影の開始信号を出力する。映像・音声入力部42は、光学系22、撮像素子24及び被写体側マイク34Bを含む機能ブロックであり、映像・音声信号符号化部44は、映像処理部28及びオーディオ処理回路36を含む機能ブロックである。映像・音声入力部42から出力された映像及び音声の電気信号は、映像・音声信号符号化部44(動画コーデック)によって、図3に示すように、被写体音声データ62と映像データ64とを含む所定の形式(例えば、MPEG又はAVI)の音声付き映像データ60に変換され、記録メディア32の映像・音声信号記録部46に記録される。また、撮影者音声信号符号化部46は、オーディオ処理回路36を含む機能ブロックである。撮影者側マイク34Aから出力された音声の電気信号は、撮影者音声信号符号化部48によって、所定の形式(例えば、MP3)の撮影者音声データ66に変換され、記録メディア32の撮影者音声信号記録部50に記録される。
ここで、音声付き映像データ60と撮影者音声データ66とを記録メディア32に記録する方法について説明する。記録メディア32がハードディスクドライブ(HDD)や半導体メモリ等の場合には、例えば、音声付き映像データ60と撮影者音声データ66のファイル名に共通の識別符号を付して同じフォルダに記録する。例えば、音声付き映像データ60を動画ファイル「n_main.mpg」、撮影者音声データ66を音声ファイル「n_cameraman.mp3」とすれば、ファイル名中の識別符号n(例えば、文字、番号、001、002、…)により音声付き映像データ60と撮影者音声データ66とを関連付けて保存することができる。また、音声付き映像データ60と撮影者音声データ66とを別々のフォルダに保存するようにしてもよい。この場合、例えば、ファイル名に共通の識別符号を付して、音声付き映像データ60をフォルダ「main」に、撮影者音声データ66をフォルダ「cameraman」に保存する。例えば、音声付き映像データ60を動画ファイル「n.mpg」、撮影者音声データ66を音声ファイル「n.mp3」とすれば、ファイル名中の識別符号nにより音声付き映像データ60と撮影者音声データ66とを関連付けて保存することができる。
一方、記録メディア32がDVDの場合、DVD−Videoは複数の音声チャンネルを持つことができるので、図4に示すように、DVD−Videoの規格に定められた記録方式(パックと呼ばれる、一例で2,048kbのデータ単位の連なり)に従って、映像データ64を含む映像ストリーム64′、被写体音声データ62を含む被写体音声ストリーム62′、撮影者音声データ66を含む撮影者音声ストリーム66′をインターリーブで単一のMPEG2(VOB)ファイルとして記録する。
なお、音声付き映像データ60を作成する際に、映像・音声信号符号化部44は、被写体音声データ62と撮影者音声データ66を照合して、被写体側マイク34Bから得られた被写体側音声データ62に撮影者側の音声が含まれている場合に、被写体音声データ62から撮影者側の音声を消去するようにしてもよい。ここで、被写体音声データ62に含まれる撮影者側の音声を検出する方法としては、例えば、撮影者音声データ66と被写体音声データ62に含まれる同一の音声を検出し、この同一の音声が撮影者音声データ66において音量が大きい場合に、撮影者側の音声と判断して被写体音声データ62から消去すればよい。また、撮影者音声信号符号化部48により、被写体音声データ62と撮影者音声データ66を照合して、上記と同様にして、撮影者音声データ66から被写体側の音声を消去するようにしてもよい。
次に、音声信号解析部52により撮影者音声信号記録部50から撮影者音声データ66が読み出される。音声信号解析部52は、読み出した撮影者音声データ66から文字に変換可能な人の声を音声認識処理により文字化して発話内容情報として出力する。
また、音声信号解析部52は、上記文字化された音声が発せられている発話時間情報を取得する。この発話時間情報は、例えば、発話の開始時及び終了時の映像データ(動画)のフレームを特定する情報(フレーム)番号や、発話の開始時刻及び終了時刻等である。メタデータ生成部54は、上記の発話時間情報、発話内容情報等を所定のファイル形式(例えば、xml形式)のメタデータに格納する。このメタデータは、図5に示すような情報を含んでおり、メタデータ中に撮影者音声データ66を上記メタデータと撮影者音声データ66とを指定する撮影者音声データ情報(URL)等により撮影者音声データ66と関連付けられて撮影者音声信号記録部50に記録される。
図6はxml形式のメタデータの例を示す図であり、図7はxmlのスキーマを示す図である。図6に示す例では、発話時間情報は、文字化された発話内容の開始時刻及び終了時刻がvoiceタグに開始フレーム番号(start=””)、終了フレーム番号(end=””)で記述され、発話内容情報はtextタグで記述されている。発話者情報(personタグ)には、name属性に撮影者を示すcameramanが記述される。
なお、図6及び図7に示す例では、撮影者音声データ66とメタデータとをURLにより関連付けて保存するようにしたが、撮影者音声データ66及びメタデータは、所定の形式で音声付き映像ファイル60とまとめて保存するようにしてもよい。図8は、メタデータをMPEG形式で記録する例を示す図である。図8に示すようにMPEG−2形式では、映像データ64を含む映像ストリーム64′、被写体音声データ62を含む被写体音声ストリーム62′、撮影者音声データ66を含む撮影者音声ストリーム66′、メタデータ68を含むメタデータストリーム68′が規格に定められた記録方式(パックと呼ばれる、一例で2,048kbのデータ単位の連なり)によって、インターリーブで単一のファイル70として記録される。
図9は、メタデータをAVI形式で記録する例を示す図である。図9において、「RIFF AVI」は、AVIファイル全体を示す。また、「LIST hdrl」は、AVIファイルのヘッダ領域であり、映像用及び音声用の2つのヘッダ領域「LIST strl」を含んでいる。本実施形態では、映像用のヘッダ領域「LIST strl」内に太枠で示す「strd」及び「strn」という独自拡張データ用ストリームを設け、このストリーム内に図6に示すxml形式のメタデータをそのままバイナリデータとして記録する。これにより、AVIファイル内にメタデータを記録することができる。
以下、音声付き映像データの処理方法について、図10を参照して説明する。図10は、本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャートである。まず、録画指示・制御部40により録画が開始されると、映像・音声入力部42によって録画及び被写体側の音声の録音が開始されるとともに、撮影者側マイク34Aによって撮影者側の音声の録音が開始される(ステップS10)。そして、撮影者側マイク34Aによって録音された音声をリアルタイムで処理して、音声の特徴量に基づいて撮影者の発話の開始と終了を検知する(ステップS12)。
次に、ステップS12において検知した発話の開始と終了の間の音声データをバッファリングするとともに(ステップS14)、メタデータに記録するために発話の開始、終了時間を確定する(ステップS16)。なお、ステップS16において、発話の開始、終了時間を動画のフレーム単位により記録する場合には、ステップS10の録画開始時間からのオフセットをフレーム単位の数値として算出する処理を行う。
次に、ステップS14においてバッファリングされた撮影者側の音声に対して音声認識処理を行って文字化して発話内容情報を生成する(ステップS18)。ステップS18では、音声データを文字化して得られた発話内容情報をさらに解析して1音節、1音、1文節又は1語等の適当な文字列のブロックに分割し、この文字列のブロックごとに発話時間情報(フレーム番号)を記憶しておく。そして、メタデータを生成して、この文字列のブロックと発話時間情報を対応させて格納する(ステップS20)。
次に、ステップS12からS20の処理を繰り返す。そして、録画指示・制御部40により録画終了のアクションが入力されると(ステップS22のYes)、音声付き映像データ60が保存されるとともに、撮影者音声データ66及びメタデータ68が所定の形式で保存される(ステップS24)。
本実施形態によれば、撮影者側と被写体側の音声とを別々に保存することができるとともに、撮影者側の音声を文字化してメタデータとして保存することができる。
なお、本実施形態では、撮影時にリアルタイムに撮影者側の音声の文字化処理を行うようにしたが、撮影後に音声付き映像データ撮影者側の音声データを文字化してメタデータを生成するようにしてもよい。また、撮影後に、ナレーションやボイスメモ等の音声をアフレコで追加して、追加された音声についてメタデータを作成してもよい。さらに、撮影者側だけでなく、被写体側の音声についてもメタデータを生成するようにしてもよい。この場合、例えば、被写体側の発話内容情報に発話時間情報に加えて、被写体の識別情報や映像中の位置等の発話者情報や、音声特徴量の情報をメタデータに記憶するようにしてもよい。上記の発話者情報については、例えば、あらかじめ登録された顔画像と照合して被写体の人物名を特定するようにしてもよいし、画像解析により被写体の性別や年齢を推定して記録するようにしてもよい。また、音声特徴量は、例えば、音声の大きさ、高低、抑揚、トーンに基づいて、ひそひそ声、大声、笑い声等の音声の種類を判別するようにしてもよい。
次に、上記音声付き映像データ処理装置を備える撮像装置10の映像再生機能について、図11及び図12を参照して説明する。図11は、音声付き映像データ処理装置の映像再生機能部の主要構成を示す機能ブロック図である。図11に示すように、音声付き映像データ処理装置の映像再生機能部は、再生指示制御部80、映像・音声信号復号再生部82、撮影者音声信号復号再生部84、映像・音声出力部86、メタデータ読込部88及びテロップ生成表示部90を備える。
再生指示制御部80は、映像データの再生指示を行う再生スイッチや再生停止指示を行う停止スイッチ、一時停止スイッチ、巻き戻し/早送りスイッチ、メニュースイッチ、リモコン等のユーザが映像再生に係る操作入力を行うための操作部材を含んでおり、各操作部材からの操作入力に応じて映像再生機能部の各ブロックに制御信号を送る。
映像・音声信号復号再生部82は、再生指示制御部80からの操作入力により指定された音声付き映像データ60を映像・音声信号記録部46から読み出して復号する。撮影者音声信号復号再生部84は、上記音声付き映像データ60に対応する撮影者音声データ66を撮影者音声信号記録部50から読み出して復号する。上記復号した音声付き映像データ60及び撮影者音声データ66は、映像・音声出力部86に出力される。映像・音声出力部86は、映像を表示する画像表示部30及び音声を出力するスピーカ38、又はビデオ/オーディオ出力端子等を含む機能ブロックであり、映像・音声信号復号再生部82から入力された音声付き映像データ60及び撮影者音声データ66を再生する。なお、音声付き映像データ60及び撮影者音声データ66を再生する際には、例えば、再生指示制御部80からの操作入力により、撮影者側及び被写体側の音声の音量を調整することができる。例えば、撮影者側の音量を被写体側より小さくするか、又はゼロにすることにより、撮影者の音声が被写体側の音声を視聴する際に邪魔にならないようにすることができる。また、被写体側の音量を小さくすることにより、例えば、撮影者による解説を視聴することができる。
メタデータ読込部88は、撮影者音声データ66に対応するメタデータを読み込んでテロップ生成表示部90に出力する。テロップ生成表示部90は、メタデータから発話内容情報及び発話時間情報を読み出して、上記発話時間情報に対応するフレームに、発話内容情報のテロップを挿入する指令を映像・音声信号復号再生部82に出力する。なお、テロップを表示させるかどうかについては、再生指示制御部80からの操作入力により指定できる。また、テロップを表示させる場合には、撮影者の音声を映像・音声出力部86で再生出力しないようにしてもよい。
なお、被写体音声データ62についても同様に、あらかじめ発話者情報や音声特徴量情報を含むメタデータを生成しておいて、テロップを生成表示するようにしてもよい。この場合、テロップ生成表示部90は、上記メタデータから発話者情報を読み出して、上記発話時間情報に対応する全フレームにおける発話者の位置を特定し、テロップの挿入位置を指定することができる。また、テロップ生成表示部90は、音声特徴量情報に基づいてテロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組又はテロップに付すかっこ、吹き出し、感嘆符、疑問符等の符号等を指定することができる。なお、被写体側の音声のテロップを表示する場合には、被写体側の音声を映像・音声出力部86で再生しないようにしてもよい。また、テロップには、発話者の人物名等(person属性の情報)を付して表示してもよい。
次に、メタデータが付与された音声付き映像データを再生する処理の流れについて、図12を参照して説明する。図12は、メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャートである。
まず、再生指示制御部80により再生する音声付き映像データ60が選択されると、映像・音声信号復号再生部82及び撮影者音声信号復号再生部84により、音声付き映像データ60及び撮影者音声データ66が読み込まれるとともに、メタデータ読込部88により撮影者音声データ66に関連付けられたメタデータが読み込まれる(ステップS30)。ここで、図8及び図9に示すようにメタデータが音声付き映像データと同一ファイル内に格納押されている場合には、メタデータ読込部88は、音声付き映像データからメタデータを読み込む。また、メタデータが音声付き映像データとは別ファイルで、URL等により相互に関連付けられて記録されている場合には、メタデータ読込部88は、上記指定された音声付き映像データと関連付けられたメタデータのファイルを取得する。
次に、上記読み込んだメタデータに含まれる発話内容情報(図6のtextタグ)から発話内容情報を読み込んで、テロップの文字データを生成する(ステップS32)。なお、テロップの文字属性(テロップのフォント、フォントサイズ、文字色、背景色、文字装飾、段組、かっこ、又は吹き出し、感嘆符、疑問符等の符号)や挿入位置はデフォルトで設定されていてもよいし、再生指示制御部80等の操作部により変更可能であってもよい。また、ステップS32では、ユーザが画面をみながら再生指示制御部80等の操作部により、テロップの文字の修正、追加を手動で行えるようにしてもよい。
次に、上記メタデータの発話時間情報に対応するフレームにテロップが挿入され、音声付き映像データが再生される(ステップS34)。ステップS34では、例えば、被写体音声データ62又は撮影者音声データ66の音量が適切に調整される。なお、音声付き映像データの再生時には、上記図12の処理を継続してリアルタイムにテロップを作成表示するようにしてもよいし、再生前にメタデータを先読みしてテロップをキャッシュしておき、再生時に表示してもよい。
本実施形態によれば、音声付き映像データの再生時に、撮影者側と被写体側の音量を調整することができるため、例えば、再生時に視聴したい側の音声を大きくすることができる。また、撮影者側の音声をテロップとして表示させることができる。
また、上記実施形態では、メタデータを利用してテロップを簡易に作成するようにしたが、メタデータの利用法はこれに限定されるものではない。例えば、上記音声付き映像データ処理装置にプリンタを接続し、上記メタデータを利用してテロップや台本、シナリオ、会議等の議事録等を容易に作成することができる。
なお、本実施形態では、音声付き映像データ処理装置を備える撮像装置の実施例について説明したが、例えば、パーソナルコンピュータやビデオレコーダ、ハードディスクレコーダ等の映像を再生する機能を有する装置にも本発明の音声付き映像データ処理装置を適用することができる。
本発明の一実施形態に係る音声付き映像データ処理装置を備える撮像装置の主要構成を示すブロック図 撮像装置10における音声付き映像データの生成処理の流れを示す機能ブロック図 音声付き映像データを示すブロック図 音声付き映像データを示すブロック図 メタデータに含まれる情報の例を示すテーブル xml形式のメタデータの例を示す図 xmlのスキーマを示す図 メタデータをMPEG形式で保存する例を示す図 メタデータをAVI形式で保存する例を示す図 本発明の一実施形態に係る音声付き映像データの処理方法を示すフローチャート 音声付き映像データ処理装置の映像再生機能部の主要構成を示すブロック図 メタデータが付与された音声付き映像データを再生する処理の流れを示すフローチャート
符号の説明
10…撮像装置、12…CPU、14…バス、16…操作スイッチ、18…メモリ、20…外部通信インターフェース(外部通信I/F)、22…光学系(レンズ)、24…撮像素子、26…A/D変換器、28…映像処理部、30…映像表示部(モニタ)、32…記録メディア、34…マイク、36…オーディオ処理回路、38…スピーカ、40…録画指示・制御部、42…映像・音声入力部、44…映像・音声信号符号化部、46…映像・音声信号記録部、48…撮影者音声信号符号化部、50…撮影者音声信号記録部、52…音声信号解析部、54…メタデータ生成部、60…音声付き映像データ、62…被写体音声データ、64…映像データ、66…撮影者音声データ、68…メタデータ、80…再生指示制御部、82…映像・音声信号復号再生部、84…撮影者音声信号復号再生部、86…映像・音声出力部、88…メタデータ読込部、90…テロップ生成表示部

Claims (10)

  1. 映像データを取得する映像取得手段と、
    前記映像データの撮影者側の音声データを取得する第1の音声取得手段と、
    前記映像データの被写体側の音声データを取得する第2の音声取得手段と、
    前記撮影者側の音声データを文字化して発話内容情報を生成する発話内容情報生成手段と、
    前記映像データにおいて、前記発話内容情報に対応する前記撮影者側の音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得手段と、
    前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成手段と、
    前記映像データ、前記撮影者側の音声データ、前記被写体側の音声データ及び前記メタデータを関連付けて記録するデータ記録手段と、
    を備えることを特徴とする音声付き映像データ処理装置。
  2. 前記第1の音声取得手段は、前記映像データの撮影者側の音声データの追加入力を受け付けることを特徴とする請求項1記載の音声付き映像データ処理装置。
  3. 前記映像データを出力する映像出力手段と、
    前記音声データを出力する音声出力手段と、
    前記撮影者側又は前記被写体側の音声データの音量を調整する音量調整手段と、
    を更に備えることを特徴とする請求項1又は2記載の音声付き映像データ処理装置。
  4. 前記音量調整手段は、前記被写体側の音声データの音量を前記撮影者側の音声データの音量に対して大きくするか、又は撮影者側の音声を出力しないようにすることを特徴とする請求項3記載の音声付き映像データ処理装置。
  5. 前記音声付き映像データを再生出力する再生出力手段と、
    前記メタデータから発話内容情報及び発話時間情報を取得する情報取得手段と、
    前記取得した発話内容情報に基づいてテロップを作成するテロップ作成手段と、
    前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入するテロップ挿入手段と、
    を更に備えることを特徴とする請求項1又は2記載の音声付き映像データ処理装置。
  6. 映像データを取得する映像取得工程と、
    前記映像データの撮影者側の音声データを取得する第1の音声取得工程と、
    前記映像データの被写体側の音声データを取得する第2の音声取得工程と、
    前記撮影者側の音声データを文字化して発話内容情報を生成する発話内容情報生成工程と、
    前記映像データにおいて、前記発話内容情報に対応する前記撮影者側の音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得工程と、
    前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成工程と、
    前記映像データ、前記撮影者側の音声データ、前記被写体側の音声データ及び前記メタデータを関連付けて記録するデータ記録工程と、
    を備えることを特徴とする音声付き映像データ処理方法。
  7. 映像データを取得する映像取得機能と、
    前記映像データの撮影者側の音声データを取得する第1の音声取得機能と、
    前記映像データの被写体側の音声データを取得する第2の音声取得機能と、
    前記撮影者側の音声データを文字化して発話内容情報を生成する発話内容情報生成機能と、
    前記映像データにおいて、前記発話内容情報に対応する前記撮影者側の音声データが発せられる時間を示す発話時間情報を取得する発話時間情報取得機能と、
    前記発話内容情報及び前記発話時間情報を含むメタデータを作成するメタデータ作成機能と、
    前記映像データ、前記撮影者側の音声データ、前記被写体側の音声データ及び前記メタデータを関連付けて記録するデータ記録機能と、
    をコンピュータに実現させることを特徴とする音声付き映像データ処理用プログラム。
  8. 前記映像データの撮影者側の音声データの追加入力を受け付ける機能をコンピュータに実現させることを特徴とする請求項7記載の音声付き映像データ処理用プログラム。
  9. 前記映像データを出力する映像出力機能と、
    前記音声データを出力する音声出力機能と、
    前記撮影者側又は前記被写体側の音声データの音量を調整する音量調整機能と、
    をコンピュータに実現させることを特徴とする請求項7又は8記載の音声付き映像データ処理用プログラム。
  10. 前記メタデータから発話内容情報及び発話時間情報を取得する情報取得機能と、
    前記取得した発話内容情報に基づいてテロップを作成するテロップ作成機能と、
    前記取得した発話時間情報に基づいて、前記音声付き映像データの再生時に前記テロップを挿入して、前記音声付き映像データを再生出力する再生出力機能と、
    をコンピュータに実現させることを特徴とする請求項7又は8記載の音声付き映像データ処理用プログラム。
JP2005292486A 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム Expired - Fee Related JP4599630B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005292486A JP4599630B2 (ja) 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005292486A JP4599630B2 (ja) 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Publications (2)

Publication Number Publication Date
JP2007104405A true JP2007104405A (ja) 2007-04-19
JP4599630B2 JP4599630B2 (ja) 2010-12-15

Family

ID=38030887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005292486A Expired - Fee Related JP4599630B2 (ja) 2005-10-05 2005-10-05 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム

Country Status (1)

Country Link
JP (1) JP4599630B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010276728A (ja) * 2009-05-26 2010-12-09 Nec Casio Mobile Communications Ltd 音声処理装置、音声処理方法、及び、プログラム
WO2020137371A1 (ja) * 2018-12-28 2020-07-02 株式会社ラムダシステムズ 情報処理装置、情報処理方法および情報処理プログラム
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
JP2000354203A (ja) * 1999-06-09 2000-12-19 Nippon Television Network Corp 字幕素材作成システム、字幕素材作成方法及び字幕素材作成プログラムを記憶した記録媒体
JP2004072306A (ja) * 2002-08-05 2004-03-04 Victor Co Of Japan Ltd ビデオカメラ及びビデオ再生装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
JP2000354203A (ja) * 1999-06-09 2000-12-19 Nippon Television Network Corp 字幕素材作成システム、字幕素材作成方法及び字幕素材作成プログラムを記憶した記録媒体
JP2004072306A (ja) * 2002-08-05 2004-03-04 Victor Co Of Japan Ltd ビデオカメラ及びビデオ再生装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010276728A (ja) * 2009-05-26 2010-12-09 Nec Casio Mobile Communications Ltd 音声処理装置、音声処理方法、及び、プログラム
WO2020137371A1 (ja) * 2018-12-28 2020-07-02 株式会社ラムダシステムズ 情報処理装置、情報処理方法および情報処理プログラム
TWI752395B (zh) * 2018-12-28 2022-01-11 日商浪達系統股份有限公司 訊息處理裝置、訊息處理方法以及訊息處理程式
US11809818B2 (en) 2018-12-28 2023-11-07 Lambda Systems, Inc. Information processing apparatus, information processing method, and information processing program
WO2023238722A1 (ja) * 2022-06-08 2023-12-14 富士フイルム株式会社 情報作成方法、情報作成装置、及び動画ファイル

Also Published As

Publication number Publication date
JP4599630B2 (ja) 2010-12-15

Similar Documents

Publication Publication Date Title
JP4919993B2 (ja) 情報記録装置
JP2010272999A5 (ja) 撮像装置および再生装置
JP2009059445A (ja) データ処理装置および方法、並びにデータ処理プログラムおよびデータ処理プログラムが記録された記録媒体
JP4958758B2 (ja) 記録装置、再生装置、記録方法、再生方法及びプログラム
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2009147549A (ja) 動画像記録装置、動画像再生装置及びプログラム
JP5600405B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP4599630B2 (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP4500465B2 (ja) 撮像装置およびその制御方法
KR100775187B1 (ko) 썸네일 재생 방법 및 이를 이용한 단말기
JP4654947B2 (ja) 動画処理装置及びそのプログラム
JP4973497B2 (ja) 撮像画像記録装置、撮像画像記録方法、撮像画像再生装置、撮像画像再生方法及び撮像画像記録再生システム
US20070297767A1 (en) Image reproducing apparatus and reproducing program creation apparatus
JP2006261957A (ja) 撮影装置
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2008108298A (ja) 再生装置および再生方法、並びにプログラム
JP2023162709A (ja) 撮像装置
JP2007081466A (ja) 画像処理装置及び方法
JP3852383B2 (ja) ビデオ再生装置
KR20240002919A (ko) 촬상장치, 그 제어방법, 및 기억매체
JP2004301894A (ja) 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置
JP2004120279A (ja) 動画・テキスト編集装置、編集方法及び編集プログラム
JP4699715B2 (ja) 画像音声記録装置及び再生装置
JP5621645B2 (ja) 映像記憶装置および映像記憶制御方法
KR20060057748A (ko) 영상과 음성이 연동되어 가변되는 장치 및 방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees