JP2004072306A - ビデオカメラ及びビデオ再生装置 - Google Patents

ビデオカメラ及びビデオ再生装置 Download PDF

Info

Publication number
JP2004072306A
JP2004072306A JP2002227158A JP2002227158A JP2004072306A JP 2004072306 A JP2004072306 A JP 2004072306A JP 2002227158 A JP2002227158 A JP 2002227158A JP 2002227158 A JP2002227158 A JP 2002227158A JP 2004072306 A JP2004072306 A JP 2004072306A
Authority
JP
Japan
Prior art keywords
data
image
audio
sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002227158A
Other languages
English (en)
Other versions
JP3852383B2 (ja
Inventor
Tomohiro Asami
浅見 知弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2002227158A priority Critical patent/JP3852383B2/ja
Publication of JP2004072306A publication Critical patent/JP2004072306A/ja
Application granted granted Critical
Publication of JP3852383B2 publication Critical patent/JP3852383B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Abstract

【課題】アフレコ機能を持つ従来のビデオカメラは、撮影者が撮影と同時にナレーションを記録した場合には、編集時にナレーションを自由に追加、削除することができず、また、ビデオコンテンツの内容に基づく頭出し再生ができない。
【解決手段】撮影した画像データの再生中に操作部6の第2音声録音ボタンが押されると、データ処理部4は第2の音声入力部2より入力される第2音声データを、DVエンコーダ41でDVフォーマットに変換して画像・音声記憶部5へ出力し、再生中の画像データに対応する音声記録部分に記録する。この場合、再生中の画像データに対応する音声記録部分に、予め第2音声が記録されていなかった場合には追加録音となり、既に第2音声が記録されていた場合には上書き録音となる。第2音声データは、撮影時に第1音声データが録音されている2CHとは異なる2CHを使って記録されるため、第1音声データは変更されない。
【選択図】      図1

Description

【0001】
【発明の属する技術分野】
本発明はビデオカメラ及びビデオ再生装置に係り、特にビデオコンテンツの画像を記録媒体に録画すると共に、ビデオコンテンツの第1の音声に加え、ナレーション等の第2の音声を記録媒体に録音し、またビデオコンテンツの内容に基づく頭出し位置検索を行うためのビデオカメラ、そのビデオカメラで記録した画像及び音声を再生するビデオ再生装置に関する。
【0002】
【従来の技術】
従来のビデオカメラとして、例えばHDディジタルVCR協議会のDV規格によるビデオカメラにおいては、音声の記録形式としてサンプリング周波数48/44.1/32kHz、量子化ビット数16bit、チャンネル数2CH、及びサンプリング周波数32kHz、量子化ビット数12bit、チャンネル数4CHがあり、この中からいずれかの形式を選択して撮影を行う。
【0003】
ここで、サンプリング周波数32kHz、量子化ビット数12bitを選択した場合には、撮影時に4CHのうちの2CHを使って音声を記録し、撮影後の編集作業において残りの2CHに別の音声を記録することにより、追加の音声を記録するいわゆるアフレコ(アフター・レコーディング)を行うことができる。この機能は撮影したビデオコンテンツにナレーションや効果音を追加するのに利用される。特に、追加の音声は撮影時の音声とは分離して記録されているので、自由に追加、削除を行うことができる。
【0004】
一方、ビデオカメラで撮影し、磁気テープ等に記録されたビデオコンテンツを視聴するときに、利用者がビデオコンテンツの見たい部分から頭出し再生を開始するためには、一般に、利用者が再生を開始する位置の時間を指定するか、撮影時に磁気テープ上に記録された記録開始位置を示す頭出し信号を検出し、記録開始位置単位での頭出し再生を行う。あるいは、撮影または視聴時に利用者が所定の操作によって頭出し情報を記録し、その頭出し情報単位で頭出し再生を行う。
【0005】
【発明が解決しようとする課題】
しかし、アフレコ機能を持つことが可能なビデオ記録形式を採用した従来のビデオカメラにおいては、撮影後の編集時にナレーションを自由に追加、削除できるものの、撮影時に例えば撮影者が撮影と同時にナレーションを記録した場合には、ナレーションの音声が一般の音声と混合されて記録されるので、編集時にナレーションを自由に追加、削除することができない。
【0006】
一方、上述のビデオコンテンツの頭出し再生においては、再生を開始する時間、または頭出し信号を利用するため、例えばキーワードによる検索のように、ビデオコンテンツの内容に基づく頭出し再生のできないことが課題であった。
【0007】
本発明は上記の点に鑑みなされたもので、ビデオ撮影時に撮影と同時にナレーション等の音声を記録し、視聴あるいは編集時にその音声を自由に追加、削除し得るビデオカメラ及びビデオ再生装置を提供することを目的とする。
【0008】
また、本発明の他の目的は、ビデオカメラに利用者が検索のためのキーワードを音声で記録する方法を提供するとともに、記録されたキーワードを利用して頭出し位置を検索し得るビデオカメラ及びビデオ再生装置を提供することにある。
【0009】
【課題を解決するための手段】
上記の目的を達成するため、本発明のビデオカメラは、被写体の画像を画像入力部により撮像して得られた画像データと、被写体及びその周辺から第1の音声入力部で収音して得た第1音声データとを、所定の記録フォーマットに変換して記録媒体に記録するビデオカメラにおいて、所望の音源からの音声を収音する第2の音声入力部と、第2の音声入力部から出力された音声信号を所定の圧縮符号化方式で圧縮して第2音声データを得るエンコーダと、エンコーダから出力された第2音声データを、その第2音声データが記録媒体からの画像データ及び第1音声データと共に再生されるべき記録媒体の所望の記録位置を示す時間情報と共に格納するデータ記憶手段とを有する構成としたものである。
【0010】
この発明では、記録媒体からの画像データ及び第1音声データと共に再生されるべき記録媒体の所望の記録位置を示す時間情報と共に、第1音声データとは独立に第2音声データを、画像データ及び第1音声データの記録媒体への記録時と並行して、又は画像データ及び第1音声データの記録媒体への記録後の任意のタイミングでデータ記憶手段に格納することができる。
【0011】
また、上記の目的を達成するため、本発明のビデオ再生装置は、所望の被写体に関する画像データと第1音声データとが、所定の記録フォーマットで記録されている記録媒体と、所望の音源の音声信号を圧縮符号化して得られた第2音声データが、記録媒体からの画像データ及び第1音声データと共に再生されるべき記録媒体の所望の記録位置を示す時間情報と共に格納された記憶部とから、画像データ及び第1音声データ及び第2音声データの再生を行うビデオ再生装置であって、
制御信号により記録媒体に対して、信号の記録、再生、又は停止を行う画像・音声記憶手段と、記録媒体から再生された画像データと第1音声データとを分離すると共に、記憶部から第2音声データを抽出して出力する分離手段と、分離手段により分離された画像データを画像表示する画像表示手段と、分離手段により分離された第1音声データを再生して発音する音声再生手段と、分離手段から出力された第2音声データを文字データに変換する音声認識手段と、音声認識手段により変換された文字データによる文字を表示する文字表示手段と、音声認識手段により変換された文字データと、記録媒体より入力される時間情報を関連付けて記憶する文字データ記憶手段と、文字データの検索のための所望の検索文字列の入力、及び記録媒体の再生・停止を指示する指示信号の入力を行う入力手段と、入力手段により入力された検索文字列が、文字データ記憶手段に記憶されている文字データと一致するか否かを検索し、検索文字列に一致する文字データが検索されると、その文字データに関連して文字データ記憶手段に記憶されている時間情報の示す位置からのビデオコンテンツ再生を指示する信号を出力する検索手段と、検索手段から時間情報の示す位置からのビデオコンテンツ再生を指示する信号が入力されたときは、その時間情報の示す位置から記録媒体の再生を指示するための制御信号を画像・音声記憶手段へ出力し、入力手段から指示信号が入力されたときは、その指示信号の内容に応じて記録媒体の再生・停止を指示する制御信号を画像・音声記憶手段へ出力する制御手段とを有する構成としたものである。
【0012】
この発明では、画像データと第1音声データとが、所定の記録フォーマットで記録されている記録媒体と、所望の音源の音声信号を圧縮符号化して得られた第2音声データが、記録媒体からの画像データ及び第1音声データと共に再生されるべき記録媒体の所望の記録位置を示す時間情報と共に格納された記憶部とから、画像データ及び第1音声データ及び第2音声データの再生を行うに際し、上記の第2音声データを文字データに変換し、その文字データと記録媒体より入力される時間情報を関連付けて文字データ記憶手段に記憶しておき、入力した任意の検索文字列が文字データ記憶手段に記憶されている文字データと一致するか否かを検索し、検索文字列に一致する文字データが検索されると、その文字データに関連して文字データ記憶手段に記憶されている時間情報の示す位置からのビデオコンテンツ再生を行うようにしたため、第2音声データの所望の文字データの記録位置からの頭出し再生ができる。
【0013】
【発明の実施の形態】
次に、本発明の実施の形態について図面と共に説明する。図1は本発明になるビデオカメラの第1の実施の形態のブロック図を示す。この実施の形態のビデオカメラは、第1の音声入力部1、第2の音声入力部2、画像入力部3、データ処理部4、画像・音声記憶部5、操作部6及び画像表示部7から構成されており、画像入力部3及び第1の音声入力部1に加えて第2の音声入力部2を有するビデオカメラである。
【0014】
画像入力部3はレンズ31と、固体撮像素子であるCCD(電荷転送素子)及びその駆動回路からなる撮像部32と、A/D変換部33とから構成され、被写体からの入射光をレンズ31で集束して多数の画素が例えば二次元マトリクス状に配列された撮像部32に入射し、ここで光電変換して得られた撮像信号をA/D変換部33でディジタル信号形態の画像データに変換した後、データ処理部4のDVエンコーダ41及び画像切り替え部43へそれぞれ供給する。
【0015】
第1の音声入力部1は、入力された音声を第1音声データに変換してデータ処理部4のDVエンコーダ41へ出力する。この第1の音声入力部1は、主に被写体または被写体の周囲が発する音声を収音するためのものであり、無指向性マイクロフォンを使用するか、あるいは単一指向性マイクロフォンを被写体に向けて設置するのが望ましい。
【0016】
第2の音声入力部2は、入力された音声を第2音声データに変換してデータ処理部4のDVエンコーダ41へ出力する。この第2の音声入力部2は、主に撮影者の発する言葉(音声)を収音するためのものであり、単一指向性マイクロフォンを撮影者に向けて設置する構成とされている。
【0017】
操作部6は、各種のボタン等が配置されており、撮影者が撮影開始・停止、撮影した画像の再生開始・停止、機能選択、または各種設置等の操作を行うためのものである。撮影者のボタン操作により操作部6で発生された操作信号は、データ処理部4へ出力される。データ処理部4は、DVエンコーダ41、DVデコーダ42、及び画像切り替え部43より構成される。
【0018】
DVエンコーダ41は、操作部6よりデータ処理部4へ撮影開始の操作信号が入力された場合には、画像入力部3より入力される画像データと、第1の音声入力部1より入力される第1音声データと、第2の音声入力部2より入力される第2音声データとを、公知のDVフォーマットの画像・音声データに変換し、これを画像・音声記憶部5へ出力して記憶させる。
【0019】
DVデコーダ42は、操作部6よりデータ処理部4へ撮影した画像の再生開始の操作信号が入力された場合に、画像・音声記憶部5よりDVデータを入力し、そのDVデータから画像データを抽出し、画像切り替え部43へ出力する。
【0020】
画像切り替え部43は、操作部6からの操作信号に応じて、画像入力部3からの画像データまたはDVデコーダ42からの画像データの一方を選択する切替回路で、操作部6よりデータ処理部4へ撮影開始の操作信号が入力されたときは、画像入力部3より入力される画像データを選択して画像表示部7へ出力し、操作部6よりデータ処理部4へ撮影した画像の再生開始の操作信号が入力されたときは、DVデコーダ42より入力される画像データを選択して画像表示部7へ出力する。
【0021】
画像・音声記憶部5は、記録媒体の一例としての磁気テープと、その駆動装置(記録再生機構)より構成され、データ処理部4の指示に従い、DVエンコーダ41より入力されるDVフォーマットの画像・音声データを磁気テープへ記録するか、あるいは既に記録されている画像データをDVデコーダ42へ出力する。画像表示部7は、液晶ディスプレイ等で構成され、画像切り替え部43より入力される画像データを表示する。
【0022】
次に、本実施の形態の撮影における操作部6での機能選択、及びデータ処理部4の動作について、図1及び図2と共に詳細に説明する。図2は本発明のビデオカメラの第1の実施の形態における、撮影における音声入力方法の選択肢、及び音声記録方式の選択肢を示す。
【0023】
本実施の形態では、図2に示すように、音声入力方法として、(1)第2音声なしと(2)第2音声ありの2つの選択肢がある。また、音声記録方式には、(1)サンプリング周波数48kHz、量子化ビット数16bit、チャンネル数2CHと、(2)サンプリング周波数32kHz、量子化ビット数12bit、チャンネル数4CHの2つの選択肢がある。撮影者は、撮影を開始する前に、操作部6によってこれらの選択肢の選択を行う。
【0024】
次に、上記の選択肢を選択した場合の、撮影時における音声録音に関するデータ処理部4の動作について説明する。図2の音声入力方法(1)と音声記録方式(1)が選択された場合には、第1音声のみが録音され、第2音声は録音されない。後から第2音声を追加録音することもできない。音声入力方法(1)と音声記録方式(2)が選択された場合には、撮影時に第1音声のみが4CHのうちの2CHを使って録音され、このとき第2音声は録音されない。使用されなかった残りの2CHに、撮影終了後に第2音声を追加録音することが可能である。
【0025】
音声入力方法(2)と音声記録方式(1)が選択された場合には、撮影時に第1音声と第2音声が混合され、1つの音声として録音される。後から第2音声のみを上書き録音することはできない。音声入力方法(2)と音声記録方式(2)が選択された場合には、撮影時に第1音声と第2音声とが2CHずつ分離して並行して録音される。また、撮影終了後に第2音声のみを上書き録音することが可能である。
【0026】
次に、第1の実施の形態の撮影した画像の再生における操作部6での操作、及びデータ処理部4の動作について、図1と共に詳細に説明する。撮影者が操作部6を操作して、撮影した画像データの再生開始を行うと、画像・音声記憶部5からDVデータが再生されてDVデコーダ42に供給され、ここで撮影した画像データが抽出され、その再生画像データが画像切り替え部43を通して画像表示部7に再生画像として表示される。
【0027】
ここで、上記の再生画像データに対応する音声データが、サンプリング周波数32kHz、量子化ビット数12bit、チャンネル数4CHで画像・音声記憶部5の磁気テープに録音されている場合には、再生中の画像データに対応する第2音声を、以下の方法で追加または上書き録音することができる。
【0028】
すなわち、撮影した画像データの再生中に操作部6の第2音声録音ボタンが押されると、データ処理部4は第2の音声入力部2より入力される第2音声データを、DVエンコーダ41でDVフォーマットに変換して画像・音声記憶部5へ出力し、再生中の画像データに対応する音声記録部分に記録する。この場合、再生中の画像データに対応する音声記録部分に、あらかじめ第2音声が記録されていなかった場合には追加録音となり、既に第2音声が記録されていた場合には上書き録音となる。
【0029】
いずれの場合にも、サンプリング周波数32kHz、量子化ビット数12bitを選択した場合には、第2音声データは、撮影時に第1音声データが録音されている2CHとは異なる2CHを使って記録されるため、撮影後の編集作業において第2音声データを記録しても既に録音されている第1音声データは変更されない。
【0030】
次に、本発明のビデオカメラの第2の実施の形態について、図面を参照して説明する。図3は本発明になるビデオカメラの第2の実施の形態のブロック図を示す。同図中、図1と同一構成部分には同一符号を付し、その説明を省略する。図3において、第2の音声入力部2の構成は、図1の第1の実施の形態と同一であるが、それにより得られた第2音声データがデータ処理部8のCELPエンコーダ82へ出力される点が第1の実施の形態と異なる。
【0031】
データ処理部8は、DVエンコーダ81、DVデコーダ42、CELPエンコーダ82、及び画像切り替え部43より構成される。DVエンコーダ81は、操作部6よりデータ処理部8へ撮影開始の操作信号が入力された場合には、画像入力部3より入力される画像データと、第1の音声入力部1より入力される第1音声データをDVフォーマットの画像・音声データに変換し、画像・音声記憶部9へ出力する。CELPエンコーダ82は、第2の音声入力部2より入力される第2音声データを、会話音声の圧縮に適した公知のCELP(code excited linear prediction)方式で圧縮符号化し、データ記憶部10へ出力する。
【0032】
画像・音声記憶部9は、図1における画像・音声記憶部5と同様に、磁気テープとその駆動装置(記録再生機構)より構成され、データ処理部8の指示に従い、データ処理部8より入力されるDVフォーマットの画像・音声データを磁気テープへ記憶したり、あるいは、記憶されている画像・音声データをデータ処理部8へ出力する。更に、この画像・音声記憶部9は、図1における画像・音声記憶部5と異なり、磁気テープへの画像・音声データの記録時、再生時のいずれの場合にも、それと同時に磁気テープの位置を示す時間情報をデータ記憶部10へ出力する。
【0033】
データ記憶部10は、半導体メモリカードで構成されており、CELPエンコーダ82より入力される第2音声の圧縮符号化データと、画像・音声記憶部9より入力される磁気テープの位置を示す時間情報とを関連付けて記憶する。
【0034】
次に、データ記憶部10における時間情報と音声データの記憶フォーマットについて説明する。図4はデータ記憶部10における時間情報と音声データの記憶フォーマットの一例を示す。すなわち、この記憶フォーマットでは、DVフォーマットデータに含まれる時間情報であるタイムコードと、それに対応する第2音声のCELP圧縮符号化データであるフレームデータとが、対となって記録される。これにより、音声データ再生の際には、タイムコードからそれに対応する音声データを検索することができる。
【0035】
次に、図3の第2の実施の形態の撮影における操作部6での機能選択、及びデータ処理部8の動作について詳細に説明する。撮影者は、撮影を開始する前に、音声記録方式を選択する。この音声記録方式の選択肢は、本発明の第1の実施の形態における音声記録方式の選択肢と同様である。また、撮影者は、撮影を開始する前に、第2音声の記録方法を、(1)手動と(2)自動の2種類の選択肢から選択する。
【0036】
次に、上記それぞれの選択肢を選択した場合の、撮影時における音声録音に関するデータ処理部8の動作について説明する。上記いずれの選択肢を選択した場合でも、第1音声データのみが画像データと共にDVエンコーダ81でDVフォーマットに変換され、画像・音声記憶部9へ出力されて磁気テープに記録される。
【0037】
一方、第2音声データについては、第2音声の記録方法(1)(すなわち、手動)が選択された場合には、撮影者が操作部6にある第2音声記録ボタンを押している間のみ、第2音声データがCELPエンコーダ82により圧縮符号化されてデータ記憶部10へ出力されると共に、これと同時に画像・音声記憶部9から第2音声データと対応する画像データ及び第1音声データが記録されている磁気テープの位置を示す時間情報がデータ記憶部10へ出力され、第2音声データと時間情報とが対応付けて記憶される。第2音声記録ボタンが押されていない間は、第2音声データ及び磁気テープの位置を示す時間情報は、データ記憶部10には記録されない。
【0038】
第2音声の記録方法(2)(すなわち、自動)が選択された場合には、第2音声の音量があらかじめ設定された閾値を超えたときのみ、第2の音声入力部2からの第2音声データがCELPエンコーダ82により圧縮符号化されてデータ記憶部10へ出力されると共に、これと同時に画像・音声記憶部9から第2音声データと対応する画像データ及び第1音声データが記録されている磁気テープの位置を示す時間情報がデータ記憶部10へ出力され、第2音声データと時間情報とが対応付けて記憶される。
【0039】
このように、本実施の形態では、音声データが、サンプリング周波数32kHz、量子化ビット数12bit、チャンネル数4CHで画像・音声記憶部9の磁気テープに録音されている場合には、再生中の画像データ及び第1音声データに対応する第2音声を自動、手動いずれの場合もアフレコすることができる。また、第1音声データがサンプリング周波数48kHz、量子化ビット数16bit、チャンネル数2CHで画像・音声記憶部9の磁気テープに録音されている場合でも、第2音声データを第1音声データに上書きする形でアフレコすることができる。
【0040】
次に、本発明のビデオ再生装置の第1の実施の形態について説明する。図5は本発明になるビデオ再生装置の第1の実施の形態のブロック図を示す。同図において、ビデオ再生装置は、内蔵の磁気テープに記録されているDVフォーマットの画像・音声データを再生する画像・音声記憶部12と、画像・音声分離部13と、音声処理部15と、操作部16と、画像・音声分離部13で分離された画像を表示する画像表示部17と、音声再生部18とより構成されている。更に、必要に応じてデータ記憶部14が設けられる。
【0041】
画像・音声記憶部12は、磁気テープとその駆動装置より構成されており、その磁気テープには、図1に示した本発明のビデオカメラの第1の実施の形態、または図3に示した本発明のビデオカメラの第2の実施の形態のいずれかを用いて撮影したDVフォーマットの画像・音声データが記憶されている。
【0042】
画像・音声記憶部12は、この磁気テープに記録(記憶)されているDVフォーマットの画像・音声データを再生して、画像・音声分離部13へ出力する。また、磁気テープの再生位置を示す時間情報をデータ記憶部14へ出力する。ただし、データ記憶部14は、ビデオコンテンツを図3に示した第2の実施の形態のビデオカメラを用いて撮影した画像が記録された磁気テープを再生する場合のみ存在する。
【0043】
データ記憶部14は、半導体メモリカードとその読み取り装置より構成され、第2音声データと磁気テープの位置を示す時間情報が関連付けて予め記憶されている。画像・音声記憶部12よりデータ記憶部14に入力される磁気テープの位置を示す時間情報が、データ記憶部14を構成する半導体メモリカードに記憶されている時間情報に一致する場合には、その時間情報に対応する第2音声データがデータ記憶部14から読み出されて画像・音声分離部13へ出力される。
【0044】
画像・音声分離部13は、少なくともDVデコーダ131を有し、データ記憶部14が存在する場合はCELPデコーダ132も更に有する。データ記憶部14が存在しない場合には、画像・音声分離部13は、画像・音声記憶部12より入力されるDVフォーマットの画像・音声データを、DVデコーダ131で復調して画像データ、第1音声データ、及び第2音声データに分離する。
【0045】
データ記憶部14が存在する場合には、画像・音声分離部13は、画像・音声記憶部12より入力されるDVフォーマットの画像・音声データを、DVデコーダ131で復調して画像データ及び第1音声データに分離し、かつ、データ記憶部14より入力される音声データをCELPデコーダ132で復調して第2音声データとする。図5の画像・音声分離部13において分離された画像データは画像表示部17へ出力されて画像表示され、第1音声データ及び第2音声データは音声処理部15へ出力される。
【0046】
操作部16は、少なくとも図6に示すような第1音声データに対応する第1の音量調節つまみ161と、第2音声データに対応する第2の音量調節つまみ162を含んだ構成とされ、利用者がそれぞれの音声データの音量を対応する音量調節つまみ161、162を使用して調節する。第1音声データに対応する第1音量調節つまみ161には、0から適当な自然数N(図6では一例として「10」)までの目盛りを配す。
【0047】
一方、第2音声データに対応する第2音量調節つまみ162には、0を中心として適当な負数M−(図6では一例として「−5」)から適当な正数M+(図6では一例として「+5」)までの目盛りを配す。それぞれの音量調節つまみ161、162が示す音量値は、音声処理部15へ出力される。
【0048】
図5の音声処理部15は、画像・音声分離部13より入力される第1音声データと第2音声データを1つに混合し、音声再生部18へ出力する。このとき、操作部16より入力される第1音量調節つまみ161の音量値、及び第2音量調節つまみ162の音量値に従って各音声データの音量を調節する。ただし、第2音量調節つまみ162の音量値が負数の場合には、第2音声データの音量を0とし、さらに、第1音声データから第2音量調節つまみ162の音量値の絶対値に相当する第2音声データの成分を減ずる。
【0049】
また、図5において、画像表示部17は、画像・音声分離部13より入力される画像データを表示する。また、音声再生部18は、音声処理部15より入力される音声データを再生発音する。
【0050】
以上の構成により、本実施の形態によれば、利用者は本発明のビデオカメラで撮影したビデオコンテンツの第1音声データと第2音声データを自由な組み合わせと音量で再生できる。例えば、2つの音声を混合して再生することもできるし、どちらか一方のみを再生することもできる。さらに、ナレーション等の第2音声データの成分が撮影者の意に反して第1音声データにも含まれる場合には、利用者が第2音声を再生したくない場合、第2音声データの音量を負数で調節することにより、第1音声データに含まれる第2音声データの成分を減ずることができる。
【0051】
次に、本発明のビデオ再生装置の第2の実施の形態について図面を参照して説明する。図7は本発明になるビデオ再生装置の第2の実施の形態のブロック図を示す。同図中、図5と同一構成部分には同一符号を付し、その説明を省略する。図7において、画像・音声分離部20は、データ記憶部14が存在しない場合には、画像・音声記憶部12より入力されるDVフォーマットの画像・音声データを、画像データ、第1音声データ及び第2音声データに分離する。
【0052】
データ記憶部14が存在する場合には、画像・音声分離部20は、画像・音声記憶部12より入力されるDVフォーマットの画像・音声データを、画像データ及び第1音声データに分離し、データ記憶部14より入力される音声データを第2音声データとする。更に、画像・音声分離部20は、分離した画像データを画像表示部17へ出力し、分離した第1音声データは音声再生部21へ出力し、入力された第2音声データは音声認識部22へ出力する。
【0053】
音声再生部21は、画像・音声分離部20より入力される第1音声データを再生発音する。音声認識部22は、画像・音声分離部20より入力される第2音声データを認識し、文字データに変換する。音声認識には、例えば隠れマルコフモデルによる手法を用いる。音声認識部22により変換された文字データは、文字表示部23へ出力される。文字表示部23は、音声認識部22より入力される文字データを表示する。
【0054】
以上の構成により、本実施の形態によれば、視聴者は画像表示部17及び音声再生部21で再生される画像・音声データを視聴すると共に、ナレーション等の第2音声データを文字表示部23で文字データとして見ることができる。
【0055】
次に、音声認識の一手法である隠れマルコフモデルによる手法について説明する。図8は、隠れマルコフモデルによる音声認識手法の流れを示す概念図である。同図に示すように、隠れマルコフモデルによる音声認識手法では、まず、入力される音声を分析し、音響特徴量を抽出する(ステップ101)。
【0056】
次に、抽出された上記の音響特徴量から音素または単語を検索する。ここでは、隠れマルコフモデルと呼ばれる時系列信号の確率音響モデルを音声特徴量の系列に適用することにより、音声信号から音素を認識し、さらに音素を結合することにより単語を認識する。さらに、得られた単語列に言語モデルを適用し、文として認識することにより、認識の精度を高めることができる。最後に、認識結果として文字列が出力される(以上ステップ102)。
【0057】
次に、本発明のビデオ再生装置の第3の実施の形態について図面を参照して説明する。図9は本発明になるビデオ再生装置の第3の実施の形態のブロック図を示す。同図中、図7と同一構成部分には同一符号を付し、その説明を省略する。図9において、画像・音声記憶部24の構成は、図7の画像・音声記憶部12とほぼ同様であるが、画像・音声記憶部24は、制御部29の指示に従って、DVフォーマットの画像・音声データを画像・音声分離部20へ出力する機能と、磁気テープの位置を示す時間情報をデータ記憶部14及び文字データ記憶部26へ出力する機能を有する。
【0058】
また、図9の音声認識部25は、画像・音声分離部20より入力される第2音声データを、例えば隠れマルコフモデルによる手法を用いて文字データに変換し、その文字データを文字表示部23へ出力する点は第2の実施の形態の音声認識部22と同様であるが、この音声認識部25は更に文字データを文字データ記憶部26へも出力する。
【0059】
文字データ記憶部26は、音声認識部25より入力される文字データと、この文字データ入力時に画像・音声記憶部24から入力される時間情報を関連付けて記憶する。その後、文字データ記憶部26は、文字データ検索部27の要求に応じて文字データとそれに関連する時間情報を文字データ検索部27へ出力する。
【0060】
操作部28は、ビデオコンテンツの再生・停止のためのボタンと、文字データの検索のための検索文字列を入力するキーボードを有する。操作部28で発生された再生・停止信号は制御部29へ出力され、検索文字列は文字データ検索部27へ出力される。
【0061】
文字データ検索部27は、操作部28より入力される検索文字列を用いて文字データ記憶部26に記憶されている文字データを検索する。続いて、文字データ検索部27は、検索文字列に一致する文字データが検索されると、その文字データに関連する時間情報の示す位置からのビデオコンテンツ再生を指示する信号を制御部29へ出力する。
【0062】
制御部29は、操作部28よりビデオコンテンツ再生・停止信号が入力されると、画像・音声記憶部24へビデオコンテンツ再生・停止を指示する制御信号を出力する。また、文字データ検索部27より時間情報の示す位置からのビデオコンテンツ再生を指示する信号が入力されると、画像・音声記憶部24へその時間情報の示す位置からのビデオコンテンツ再生・停止を指示する制御信号を出力する。
【0063】
次に、本発明のビデオ再生装置の第3の実施の形態における、1文字列による頭出し位置の検索の処理の流れについて、図10のフローチャートと共に詳細に説明する。初めに、利用者が図9の操作部28を操作し、制御部29を介して画像・音声記憶部24に記憶されているビデオコンテンツを先頭から再生する(ステップS1)。そして、ビデオコンテンツの最後まで音声認識部25による音声認識と、文字データ記憶部26による文字データの記憶を行う。この処理は利用者が、画像表示部17により表示される映像を確認しながら実時間で行ってもよいし、実時間より高速に行ってもよい。
【0064】
次に、利用者が操作部28で検索文字列を入力し、文字データの検索を行う(ステップS3)。文字データ検索部27において、一致する文字データが検索されると、一致する文字データに対応する位置から頭出し再生を始める(ステップS4)。次に、利用者が停止したい位置で操作部28を操作すると、その操作信号に基づき制御部29から出力される制御信号に基づき、画像・音声記憶部24での再生を停止する(ステップS5)。利用者が見たいビデオコンテンツのシーンがなくなるまで、この処理を繰り返して終了する。
【0065】
なお、本発明は以上の実施の形態に限定されるものではなく、例えば、第2の音声入力部2はナレーション等の撮影者の発する音声を収音して所定の第2音声データに変換するものと説明したが、第2の音声入力部2が収音する音声の音源としては、アフレコが可能な、撮影者の発する音声以外の所望の音源からの音声(例えば効果音、BGMなど)であってもよい。また、第3の実施の形態に第1の実施の形態の音声処理部15を設け、操作部により第1音声データ及び第2音声データの各音量値を独立して調節できる機能を更に持たせるようにしてもよい。
【0066】
【発明の効果】
以上説明したように、本発明によれば、記録媒体からの画像データ及び第1音声データと共に再生されるべき記録媒体の所望の記録位置を示す時間情報と共に、第1音声データとは独立に第2音声データを、画像データ及び第1音声データの記録媒体への記録時と並行して、又は画像データ及び第1音声データの記録媒体への記録後の任意のタイミングでデータ記憶手段に格納するようにしたため、上記の第2音声データとして、ナレーション等の撮影者の発する音声による音声データとした場合は、撮影者が撮影と同時にナレーションを記録した場合でも、編集時にナレーションを自由に追加、削除することが自由にできる。
【0067】
また、本発明によれば、撮影時に画像と共に記録した第1音声データと、撮影時又はアフレコ録音した第2音声データを記録媒体から再生し、各々音量制御信号に応じた独立した割合で混合し、その混合音声データを再生して発音することにより、ビデオコンテンツの第1音声データと第2音声データを自由な組み合わせと音量で再生できるようにしたため、2つの音声を混合して再生することもできるし、どちらか一方のみを再生することもでき、更には、ナレーション等の第2音声データの成分が撮影者の意に反して第1音声データにも含まれる場合には、利用者が第2音声を再生したくない場合、第1音声データに含まれる第2音声データの成分を減ずることができる。
【0068】
また、本発明によれば、画像データと第1音声データとが、所定の記録フォーマットで記録されている記録媒体と、所望の音源の音声信号を圧縮符号化して得られた第2音声データが時間情報と共に格納された記憶部とから、画像データ及び第1音声データ及び第2音声データの再生を行うに際し、上記の第2音声データを文字データに変換し、その文字データと記録媒体より入力される時間情報を関連付けて文字データ記憶手段に記憶しておき、入力した任意の検索文字列が文字データ記憶手段に記憶されている文字データと一致するか否かを検索し、検索文字列に一致する文字データが検索されると、その文字データに関連して文字データ記憶手段に記憶されている時間情報の示す位置からのビデオコンテンツ再生を行うことにより、第2音声データの所望の文字データの記録位置からの頭出し再生ができるため、キーワードによる検索のように、ビデオコンテンツの内容に基づく頭出し再生ができる。
【図面の簡単な説明】
【図1】本発明のビデオカメラの第1の実施の形態のブロック図である。
【図2】本発明のビデオカメラの第1の実施の形態の、撮影における音声入力方法の選択肢、及び音声記録方式の選択肢を示す図である。
【図3】本発明のビデオカメラの第2の実施の形態のブロック図である。
【図4】本発明のビデオカメラの第2の実施の形態における、データ記憶部の記憶フォーマット例を示す図である。
【図5】本発明のビデオ再生装置の第1の実施の形態のブロック図である。
【図6】本発明のビデオ再生装置の第1の実施の形態における、操作部の一例を示す図である。
【図7】本発明のビデオ再生装置の第2の実施の形態のブロック図である。
【図8】本発明のビデオ再生装置の第2の実施の形態における、隠れマルコフモデルによる音声認識手法の処理の流れを示す概念図である。
【図9】本発明のビデオ再生装置の第3の実施の形態のブロック図である。
【図10】本発明のビデオ再生装置の第3の実施の形態における、文字列による頭出し位置の検索の処理の流れを示すフローチャートである。
【符号の説明】
1 第1の音声入力部
2 第2の音声入力部
3 画像入力部
4、8 データ処理部
5、9、12、24 画像・音声記憶部
6、16、28 操作部
7、17 画像表示部
10、14 データ記憶部
13、20 画像・音声分離部
15 音声処理部
18、21 音声再生部
22、25 音声認識部
23 文字表示部
26 文字データ記憶部
27 文字データ検索部
29 制御部
41、81 DVエンコーダ
42、131 DVデコーダ
43 画像切り替え部
82 CELPエンコーダ
132 CELPデコーダ

Claims (2)

  1. 被写体の画像を画像入力部により撮像して得られた画像データと、前記被写体及びその周辺から第1の音声入力部で収音して得た第1音声データとを、所定の記録フォーマットに変換して記録媒体に記録するビデオカメラにおいて、
    所望の音源からの音声を収音する第2の音声入力部と、
    前記第2の音声入力部から出力された音声信号を所定の圧縮符号化方式で圧縮して第2音声データを得るエンコーダと、
    前記エンコーダから出力された第2音声データを、その第2音声データが前記記録媒体からの前記画像データ及び前記第1音声データと共に再生されるべき前記記録媒体の所望の記録位置を示す時間情報と共に格納するデータ記憶手段と
    を有することを特徴とするビデオカメラ。
  2. 所望の被写体に関する画像データと第1音声データとが、所定の記録フォーマットで記録されている記録媒体と、所望の音源の音声信号を圧縮符号化して得られた第2音声データが、前記記録媒体からの前記画像データ及び前記第1音声データと共に再生されるべき前記記録媒体の所望の記録位置を示す時間情報と共に格納された記憶部とから、前記画像データ及び前記第1音声データ及び第2音声データの再生を行うビデオ再生装置であって、
    制御信号により前記記録媒体に対して、信号の記録、再生、又は停止を行う画像・音声記憶手段と、
    前記記録媒体から再生された前記画像データと前記第1音声データとを分離すると共に、前記記憶部から前記第2音声データを抽出して出力する分離手段と、
    前記分離手段により分離された前記画像データを画像表示する画像表示手段と、
    前記分離手段により分離された前記第1音声データを再生して発音する音声再生手段と、
    前記分離手段から出力された前記第2音声データを文字データに変換する音声認識手段と、
    前記音声認識手段により変換された文字データによる文字を表示する文字表示手段と、
    前記音声認識手段により変換された前記文字データと、前記記録媒体より入力される時間情報を関連付けて記憶する文字データ記憶手段と、
    文字データの検索のための所望の検索文字列の入力、及び前記記録媒体の再生・停止を指示する指示信号の入力を行う入力手段と、
    前記入力手段により入力された前記検索文字列が、前記文字データ記憶手段に記憶されている前記文字データと一致するか否かを検索し、前記検索文字列に一致する文字データが検索されると、その文字データに関連して前記文字データ記憶手段に記憶されている前記時間情報の示す位置からのビデオコンテンツ再生を指示する信号を出力する検索手段と、
    前記検索手段から前記時間情報の示す位置からのビデオコンテンツ再生を指示する信号が入力されたときは、その時間情報の示す位置から前記記録媒体の再生を指示するための前記制御信号を前記画像・音声記憶手段へ出力し、前記入力手段から前記指示信号が入力されたときは、その指示信号の内容に応じて前記記録媒体の再生・停止を指示する前記制御信号を前記画像・音声記憶手段へ出力する制御手段と
    を有することを特徴とするビデオ再生装置。
JP2002227158A 2002-08-05 2002-08-05 ビデオ再生装置 Expired - Fee Related JP3852383B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002227158A JP3852383B2 (ja) 2002-08-05 2002-08-05 ビデオ再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002227158A JP3852383B2 (ja) 2002-08-05 2002-08-05 ビデオ再生装置

Publications (2)

Publication Number Publication Date
JP2004072306A true JP2004072306A (ja) 2004-03-04
JP3852383B2 JP3852383B2 (ja) 2006-11-29

Family

ID=32014268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002227158A Expired - Fee Related JP3852383B2 (ja) 2002-08-05 2002-08-05 ビデオ再生装置

Country Status (1)

Country Link
JP (1) JP3852383B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007104405A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
US8422695B2 (en) 2007-02-15 2013-04-16 Sony Corporation Sound processing apparatus, sound processing method and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09135417A (ja) * 1995-11-10 1997-05-20 Ricoh Co Ltd デジタルスチルビデオカメラ
JPH11259992A (ja) * 1998-03-10 1999-09-24 Toshiba Corp 情報記録媒体と情報記録装置と情報編集装置とディジタル放送記録装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09135417A (ja) * 1995-11-10 1997-05-20 Ricoh Co Ltd デジタルスチルビデオカメラ
JPH11259992A (ja) * 1998-03-10 1999-09-24 Toshiba Corp 情報記録媒体と情報記録装置と情報編集装置とディジタル放送記録装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007104405A (ja) * 2005-10-05 2007-04-19 Fujifilm Corp 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP4599630B2 (ja) * 2005-10-05 2010-12-15 富士フイルム株式会社 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
US8422695B2 (en) 2007-02-15 2013-04-16 Sony Corporation Sound processing apparatus, sound processing method and program
US9762193B2 (en) 2007-02-15 2017-09-12 Sony Corporation Sound processing apparatus, sound processing method and program

Also Published As

Publication number Publication date
JP3852383B2 (ja) 2006-11-29

Similar Documents

Publication Publication Date Title
US8218056B2 (en) Imaging apparatus and video camera, and method of reproducing recorded information performed by the imaging apparatus or the video camera
JP4919993B2 (ja) 情報記録装置
WO2001003431A1 (fr) Procede et dispositif d'enregistrement video, procede et dispositif de reproduction video, et support d'enregistrement
US20100080536A1 (en) Information recording/reproducing apparatus and video camera
US20030190142A1 (en) Contents recording/playback apparatus and contents edit method
WO2001016935A1 (fr) Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
JP3852383B2 (ja) ビデオ再生装置
US7444068B2 (en) System and method of manual indexing of image data
KR100775187B1 (ko) 썸네일 재생 방법 및 이를 이용한 단말기
JP4599630B2 (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2006229293A (ja) 分類用データ生成プログラム及びデジタルカメラ並びに記録装置
JP3688214B2 (ja) 視聴者映像記録再生装置
US20070274682A1 (en) Image processing apparatus
JP3780252B2 (ja) 記録再生装置および記録再生方法
JP2007266661A (ja) 撮像装置、情報処理装置、撮像表示システム
JP2007078985A (ja) データ検索装置及びその制御方法
JP2006101155A (ja) 画像記録再生装置
KR20030038852A (ko) 정지 화면의 캡쳐를 이용한 북 마크 정보의 기록/표시장치 및 그 방법
JP5188619B2 (ja) 情報記録装置
JP2023162709A (ja) 撮像装置
JP2021061542A (ja) 撮影装置及びその制御方法並びにプログラム
JP2020170998A (ja) 画像処理装置、撮像装置、画像処理方法およびプログラム
JP2004120279A (ja) 動画・テキスト編集装置、編集方法及び編集プログラム
JP2006246039A (ja) ビデオカメラおよび画像管理方法
KR20090020180A (ko) 동영상 데이터에서 하이라이트 장면을 지정하는 방법 및이를 이용한 단말기

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060828

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090915

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100915

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees