JP2017009663A

JP2017009663A - 録音装置、録音システム、および、録音方法

Info

Publication number: JP2017009663A
Application number: JP2015122214A
Authority: JP
Inventors: 知伸早川; Tomonobu Hayakawa
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-06-17
Filing date: 2015-06-17
Publication date: 2017-01-12
Also published as: US20180167649A1; US10244271B2; WO2016203866A1

Abstract

【課題】音声を録音して再生時間を伸長する装置において音質の低下を抑制する。
【解決手段】サンプリング処理部は、所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と、所定のサンプリングレートで所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理と、を行う。また、再生時間変換部は、高解像度音声データの再生時間を伸長する。
【選択図】図１０

Description

本技術は、録音装置、録音システム、および、録音方法に関する。詳しくは、音声データの再生時間を変更する録音装置、録音システム、および、録音方法に関する。

従来より、音声を聞き取りやすくする目的で、音声の再生時間を引き伸ばす処理が行われている。例えば、動画をスロー再生させる際に、その動画に同期して録音された音声の再生時間を伸長する撮像装置が提案されている（例えば、特許文献１参照。）。

特開２０１０−１７８１２４号公報

しかしながら、上述の撮像装置では、音声の再生時間を長くするほど音質が低下してしまう。例えば、再生時間を２倍にすると、再生時間を伸長しない場合と比較して音声の周波数は１／２に低下し、音程が約１オクターブ低下する。このように再生時間を伸長した部分と伸長していない部分とのそれぞれの音質の差異が大きくなって違和感が生じ、音声全体の再生品質が低下するという問題がある。

本技術はこのような状況に鑑みて生み出されたものであり、音声を録音して再生時間を伸長する装置において音質の低下を抑制することを目的とする。

本技術は、上述の問題点を解消するためになされたものであり、その第１の側面は、所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と上記所定のサンプリングレートで上記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行うサンプリング処理部と、上記高解像度音声データの再生時間を伸長する再生時間変換部とを具備する録音装置、および、録音方法である。これにより、所定のサンプリングレートより高いサンプリングレートで所定の期間内においてサンプリングされた高解像度音声データの再生時間が伸長されるという作用をもたらす。

また、この第１の側面において、上記サンプリング処理部は、上記所定の期間外において上記所定のサンプリングレートで上記音声をサンプリングし、上記所定の期間内において上記所定のサンプリングレートより高いサンプリングレートにサンプリングレートを切り替えて上記音声をサンプリングしてもよい。これにより、上記所定の期間内においてサンプリングレートが切り替えられるという作用をもたらす。

また、この第１の側面において、上記サンプリング処理部は、上記所定のサンプリングレートより高いサンプリングレートで上記音声をサンプリングして上記高解像度音声データを生成する高解像度マイクと、上記所定の期間外において上記高解像度音声データを上記所定のサンプリングレートでリサンプリングして上記通常音声データを生成するサンプリングレート変換器とを備えてもよい。これにより、高解像度音声データのリサンプリングにより通常音声データが生成されるという作用をもたらす。

また、この第１の側面において、上記サンプリング処理部は、上記所定のサンプリングレートより高いサンプリングレートで上記音声をサンプリングして上記高解像度音声データを生成する高解像度マイクと上記所定のサンプリングレートで上記音声をサンプリングして上記通常音声データを生成する通常マイクと、上記所定の期間内において上記高解像度音声データを選択して出力し、上記所定の期間外において上記通常音声データを選択して出力する選択部とを備えてもよい。これにより、所定の期間内において高解像度音声データが選択され、所定の期間外において通常音声データが選択されるという作用をもたらす。

また、この第１の側面において、上記選択部は、上記所定の期間内の一定のフェード期間において上記高解像度音声データに上記通常音声データを合成する合成処理を行ってもよい。これにより、一定のフェード期間において高解像音声データに通常音声データが合成されるという作用をもたらす。

また、この第１の側面において、上記選択部は、上記合成処理において上記フェード期間より短い単位時間が経過するたびに上記高解像度音声データの割合を変更してもよい。これにより、単位時間が経過するたびに高解像度音声データの割合が変更されるという作用をもたらす。

また、この第１の側面において、所定のフレームレートより高いフレームレートで複数のフレームを撮像する撮像部と、上記複数のフレームのうち上記所定の期間外に撮像されたフレームのフレームレートを上記所定のフレームレートに変換するフレームレート変換部とをさらに具備してもよい。これにより、所定のフレームレートより高いフレームレートで所定の期間外に撮像された複数のフレームのフレームレートが所定のフレームレートに変換されるという作用をもたらす。

また、この第１の側面において、所定のタイミングを含む期間を上記所定の期間として設定する制御部をさらに具備してもよい。これにより、所定のタイミングを含む期間が所定の期間として設定されるという作用をもたらす。

また、この第１の側面において、上記複数のフレームの中からシーンが変化したシーン変化タイミングを検出するシーン変化検出部をさらに具備し、上記制御部は、上記シーン変化タイミングを含む期間を上記所定の期間として設定してもよい。これにより、シーン変化タイミングを含む期間が所定の期間として設定されるという作用をもたらす。

また、この第１の側面において、所定の検知対象を検知するセンサーをさらに具備し、上記制御部は、上記検知対象が検知されたタイミングを含む期間を上記所定の期間に設定してもよい。これにより、検知対象が検知されたタイミングを含む期間が所定の期間として設定されるという作用をもたらす。

また、この第１の側面において、上記再生時間が伸長された高解像度音声データに対して所定の信号処理を実行する信号処理部をさらに具備してもよい。これにより、高解像度音声データに対して所定の信号処理が実行されるという作用をもたらす。

また、この第１の側面において、上記信号処理部は、上記高解像度音声データを複製してもよい。これにより、高解像度音声データが複製されるという作用をもたらす。

また、この第１の側面において、上記信号処理部は、上記高解像度音声データの音量レベルを所定のゲインにより調整してもよい。これにより、高解像度音声データの音量レベルが所定のゲインにより調整されるという作用をもたらす。

また、この第１の側面において、上記信号処理部は、上記高解像度音声データの周波数特性を変更してもよい。これにより、高解像度音声データの周波数特性が変更されるという作用をもたらす。

また、本技術の第２の側面は、所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と上記所定のサンプリングレートで上記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行い、上記高解像度音声データの再生時間を伸長し、上記再生時間を伸長した上記高解像度音声データに対して実行すべき信号処理を示す設定情報を含むメタデータを生成する録音装置と、上記設定情報に従って上記信号処理を実行して上記信号処理を実行した上記高解像度音声データと上記通常音声データとを再生する再生装置とを具備する録音システムである。これにより、所定の期間内において高解像度音声データが選択され、所定の期間外において通常音声データが選択されるという作用をもたらす。

また、この第１の側面において、上記メタデータのフォーマットは、ＭＰＥＧ４−ＡＡＣであり、上記録音装置は、上記メタデータのＤＳＥ（Data Stream Element）領域に上記設定情報を記録してもよい。これにより、ＤＳＥ領域に設定情報が記録されるという作用をもたらす。

また、この第２の側面において、上記メタデータのフォーマットは、ＭＰＥＧ４−ｓｙｓｔｅｍであり、上記録音装置は、上記メタデータのｕｄｔａ領域に上記設定情報を記録してもよい。これにより、ｕｄｔａ領域に上記設定情報が記録されるという作用をもたらす。

また、この第２の側面において、上記メタデータのフォーマットは、ＨＭＭＰ（Home and Mobile Multimedia Platform）であり、上記録音装置は、上記メタデータのｕｕｉｄ領域に上記設定情報を記録してもよい。これにより、ｕｕｉｄ領域に上記設定情報が記録されるという作用をもたらす。

また、本技術の第２の側面は、所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と上記所定のサンプリングレートで上記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行い、上記高解像度音声データの再生時間を伸長し、上記再生時間を伸長した上記高解像度音声データに対して実行すべき信号処理を示す設定情報を含むメタデータを生成する録音装置と、上記設定情報を変更して当該変更した設定情報の示す上記信号処理を実行する編集装置とを具備する録音システムである。これにより、所定の期間内において高解像度音声データが選択され、所定の期間外において通常音声データが選択されるという作用をもたらす。

本技術によれば、音声を録音して再生時間を伸長する装置において音質の低下を抑制することができるという優れた効果を奏し得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

第１の実施の形態における撮像装置の一構成例を示すブロック図である。第１の実施の形態における動画取込み部の一構成例を示すブロック図である。第１の実施の形態における音声取込み部の一構成例を示すブロック図である。第１の実施の形態における音声処理部の一構成例を示すブロック図である。第１の実施の形態におけるストリームの一例を示す図である。第１の実施の形態における再生時間の変換前後の高解像度音声データの一例を示す図である。第１の実施の形態における音声データの復元帯域の一例を示す図である。第１の実施の形態におけるストリームおよびパケットのデータ構造の一例を示す図である。第１の実施の形態における録画処理の一例を示すフローチャートである。第１の実施の形態における録音処理の一例を示すフローチャートである。第１の実施の形態の第１の変形例における撮像装置の一構成例を示すブロック図である。第１の実施の形態の第１の変形例における動画取込み部の一構成例を示すブロック図である。第１の実施の形態の第２の変形例における録音装置の一構成例を示すブロック図である。第２の実施の形態における音声取込み部の一構成例を示すブロック図である。第２の実施の形態における音声処理部の一構成例を示すブロック図である。第２の実施の形態におけるストリームの一例を示す図である。第２の実施の形態における周波数特性の一例を示すグラフである。第２の実施の形態における録音処理の一例を示すフローチャートである。第３の実施の形態における撮像システムの一構成例を示すブロック図である。第３の実施の形態における再生装置の一構成例を示すブロック図である。第３の実施の形態におけるＭＰＥＧ４−ＡＡＣを用いる際の設定先のフィールドの一例を示す図である。第３の実施の形態におけるＭＰＥＧ４−ｓｙｓｔｅｍを用いる際の設定先のフィールドの一例を示す図である。第３の実施の形態におけるＨＭＭＰファイルフォーマットを用いる際の設定先のフィールドの一例を示す図である。第３の実施の形態における録音処理の一例を示すフローチャートである。第３の実施の形態における再生処理の一例を示すフローチャートである。第４の実施の形態における撮像システムの一構成例を示すブロック図である。第４の実施の形態における編集処理の一例を示すフローチャートである。第５の実施の形態における音声取込み部の一構成例を示すブロック図である。第５の実施の形態における録音処理の一例を示すフローチャートである。第６の実施の形態における音声取込み部の一構成例を示すブロック図である。第６の実施の形態における合成比率の変動の一例を示すグラフである。第６の実施の形態における録音処理の一例を示すフローチャートである。

以下、本技術を実施するための形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．第１の実施の形態（高解像度音声データの再生時間を伸長する例）
２．第２の実施の形態（高解像度音声データの再生時間を伸長して信号処理を行う例）
３．第３の実施の形態（高解像度音声データの再生時間を伸長してメタデータを生成する例）
４．第４の実施の形態（高解像度音声データの再生時間を伸長してメタデータを編集する例）
５．第５の実施の形態（高解像度音声データの再生時間を伸長するとともに高解像度音声データのサンプリングレートを変換する例）
６．第６の実施の形態（高解像度音声データに通常音声データを合成し、再生時間を伸長する例）

＜１．第１の実施の形態＞
［撮像装置の構成例］
図１は、第１の実施の形態における撮像装置１００の一構成例を示すブロック図である。この撮像装置１００は、録画および録音を行う装置であり、ユーザインターフェース部１１０、制御部１２０、動画取込み部１３０、動画処理部１４０、記録フォーマット変換部１５０、音声取込み部１６０および音声処理部１７０および記録部１８０を備える。なお、撮像装置１００は、特許請求の範囲に記載の録音装置の一例である。

ユーザインターフェース部１１０は、ユーザの操作に従って操作信号を生成するものである。ユーザインターフェース部１１０は、生成した操作信号を制御部１２０に供給する。

制御部１２０は、操作信号に従って撮像装置１００全体を制御するものである。この制御部１２０は、操作信号に従って録音および録画の動作を制御する制御信号を生成する。この制御信号は、例えば、録画および録音の開始タイミングと、それらの終了タイミングとを指示する信号を含む。この録画の開始タイミングは、録音の開始タイミングと同一のタイミングであるものとする。同様に、録画および録音の終了タイミングも同一のタイミングであるものとする。また、制御信号は、高フレームレート期間の開始タイミングおよび終了タイミングを指示する信号をさらに含む。

ここで、高フレームレート期間は、再生時より高いフレームレートで撮像する期間である。例えば、ユーザが所定のボタンを押したタイミングを中心とする一定の長さ（１秒など）の期間が高フレームレート期間として設定される。高フレームレート期間外のフレームレートは、再生時と同一である。高フレーム期間外（再生時）のフレームレートは例えば、６０ヘルツ（Ｈｚ）に設定され、高フレームレート期間内のフレームレートは例えば、６００ヘルツ（Ｈｚ）に設定される。

なお、再生時のフレームレートは、６０ヘルツ（Ｈｚ）に限定されず、３０ヘルツ（Ｈｚ）などであってもよい。また、高フレームレート期間内のフレームレートは、再生時よりも高い値であれば、６００ヘルツ（Ｈｚ）に限定されず、１２０ヘルツ（Ｈｚ）などであってもよい。

制御部１２０は、上述の各タイミングを示す制御信号を動画取込み部１３０、音声取込み部１６０および音声処理部１７０に信号線１２９を介して供給する。

動画取込み部１３０は、制御信号に従って、複数のビデオフレームを順に撮像するものである。この動画取込み部１３０は、撮像したビデオフレームを時系列順に含む動画データを信号線１３９を介して動画処理部１４０に供給する。

動画処理部１４０は、動画データを符号化する処理を行うものである。この動画データは、例えば、ＭＰＥＧ（Moving Picture Experts Group）−２規格に従って符号化される。この動画処理部１４０は、符号化した動画データをビデオパケットにパケット化して記録フォーマット変換部１５０に信号線１４９を介して供給する。なお、動画処理部１４０は、ＭＰＥＧ−４など、ＭＰＥＧ−２以外の規格に従って符号化してもよい。

音声取込み部１６０は、制御信号に従って音声をサンプリングして音声データを生成するものである。この音声取込み部１６０は、所定のサンプリングレートで音声をサンプリングし、サンプリングのたびに音声の音量レベルをデジタルの音声データに量子化する。このように、サンプリングおよび量子化によりアナログ信号をＡＤ（Analog to Digital）変換する方式は、ＰＣＭ（Pulse Code Modulation）方式と呼ばれる。

ただし、音声取込み部１６０は、高フレームレート期間内において高フレーム期間外よりも高いサンプリングレートで音声をサンプリングする。高フレームレート期間内のサンプリングレートは例えば、９６キロヘルツ（ｋＨｚ）に設定され、高フレームレート期間外のサンプリングレートは例えば、４８キロヘルツ（ｋＨｚ）に設定される。以下、高フレームレート期間内にサンプリングされた音声データを「高解像度音声データ」と称し、高フレームレート期間外にサンプリングされた音声データを「通常音声データ」と称する。音声取込み部１６０は、これらの音声データを音声処理部１７０に信号線１６９を介して供給する。

なお、音声取込み部１６０は、特許請求の範囲に記載のサンプリング処理部の一例である。また、高フレームレート期間外のサンプリングレートは、高フレームレート期間内より低い値であれば、４８キロヘルツ（ｋＨｚ）に限定されず、４４．１キロヘルツ（ｋＨｚ）などであってもよい。また、高フレームレート期間内のサンプリングレートは、高フレームレート期間外より高い値であれば、９６キロヘルツ（ｋＨｚ）に限定されず、１９２キロヘルツ（ｋＨｚ）などであってもよい。

音声処理部１７０は、制御信号に従って高解像度音声データの再生時間を一定の倍率（例えば、２倍）で伸長するものである。この音声処理部１７０は、再生時間を伸長した高解像度音声データと、通常音声データとを所定の符号化単位で符号化する。これらの音声データは、例えば、ＭＰＥＧの規格に従って２０ミリ秒（ｍｓ）の単位で符号化される。符号化単位で符号化されたそれぞれの音声信号は、「オーディオフレーム」と呼ばれる。音声処理部１７０は、オーディオフレームをオーディオパケットにパケット化して記録フォーマット変換部１５０に信号線１７９を介して供給する。

記録フォーマット変換部１５０は、ビデオパケットおよびオーディオパケットの記録フォーマットを所定のフォーマットに変換するものである。また、記録フォーマット変換部１５０は、オーディオフレームおよびビデオフレームのそれぞれに再生時刻を設定する。これらの再生時刻として、例えば、ＭＰＥＧ規格におけるＰＴＳ（Presentation Time Stamp）が設定される。ビデオフレームのＰＴＳは、高フレームレート期間外におけるビデオフレームの撮像間隔と同一の間隔（例えば、１／６０秒）で設定される。また、高解像度音声データから生成された最初のオーディオフレームのＰＴＳは、高フレームレート期間を引き伸ばしたスロー再生期間内の所定のタイミング（開始時点や中間時点など）に設定される。そして、記録フォーマット変換部１５０は、フォーマット変換後のパケットからなるデータをストリームとして記録部１８０に信号線１５９を介して供給する記録部１８０は、ストリームを記録するものである。

なお、動画取込み部１３０、動画処理部１４０、音声取込み部１６０および音声処理部１７０などの回路を１つの装置に設けているが、これらを複数の装置に分散して設けてもよい。例えば、録画を行うための回路（動画取込み部１３０および動画処理部１４０など）のみを撮像装置１００に設け、録音を行うための回路（音声取込み部１６０および音声処理部１７０など）を録音装置に設けてもよい。

［動画取込み部の構成例］
図２は、第１の実施の形態における動画取込み部１３０の一構成例を示すブロック図である。この動画取込み部１３０は、撮像部１３１およびフレームレート変換部１３４を備える。

撮像部１３１は、操作信号に従って所定の垂直同期信号ＳＹＮＣ_ＶＨに同期して複数のビデオフレームを時系列順に撮像するものである。この撮像部１３１は、例えば、撮像レンズなどの光学系と撮像素子とを備える。この撮像素子として、例えば、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）センサーやＣＣＤ（Charge Coupled Device）センサーが用いられる。また、垂直同期信号ＳＹＮＣ_ＶＨの周波数は、再生時のフレームレートより高い値であり、例えば、６００ヘルツ（Ｈｚ）である。撮像部１３１は、制御信号の示す録画の開始タイミングから終了タイミングまでの期間に亘って撮像を行い、ビデオフレームのそれぞれをフレームレート変換部１３４に供給する。

フレームレート変換部１３４は、制御信号に従って、フレームレートを変換するものである。このフレームレート変換部１３４は、制御信号の示す高フレームレート期間において撮像されたビデオフレームのフレームレートを、垂直同期信号ＳＹＮＣ_ＶＬの周波数（例えば、６０ヘルツ：Ｈｚ）のフレームレートに変換する。例えば、ビデオフレームを一定数ごとに間引く処理により、フレームレートが変換される。一方、高フレームレート期間外において撮像されたビデオフレームのフレームレートは変換されない。フレームレート変換部１３４は、これらのビデオフレームを含む動画データを動画処理部１４０に供給する。

［音声取込み部の構成例］
図３は、第１の実施の形態における音声取込み部１６０の一構成例を示すブロック図である。この音声取込み部１６０は、サンプリングレート可変マイク１６１を備える。

サンプリングレート可変マイク１６１は、制御信号に従ってサンプリングレートを変更して音声をサンプリングするものである。このサンプリングレート可変マイク１６１は、制御信号の示す高フレームレート期間外において、一定のサンプリングレート（例えば、４８キロヘルツ）で音声をサンプリングする。一方、高フレームレート期間内においてサンプリングレート可変マイク１６１は、サンプリングレートを高フレームレート期間外より高い値（例えば、９６キロヘルツ）に切り替えて音声をサンプリングする。サンプリングレート可変マイク１６１は、高フレームレート期間外でサンプリングした通常音声データと、高フレームレート期間内でサンプリングした高解像度音声データとを音声処理部１７０に供給する。

なお、サンプリングレート可変マイク１６１として、デジタルの音声データを出力するデジタルマイクをもうけているが、このデジタルマイクの代わりにアナログの音声信号を出力するアナログマイクを設けてもよい。この場合には、アナログマイクからの音声信号をＡＤ変換するＡＤ変換器がさらに設けられ、このＡＤ変換器がサンプリングレートを切り替えてサンプリングを行う。

また、音声取込み部１６０は、サンプリング周波数（サンプリングレート）を切り替える際に段階的に徐々に切り替えてもよい。例えば、高フレームレート期間の開始時点から一定時間に亘って、音声取込み部１６０は、サンプリングレートを少しずつ増加させる。また、高フレームレート期間の終了時点より一定時間前の時点から、その終了時点までの期間に亘って、音声取込み部１６０は、サンプリングレートをすこしずつ減少させる。これにより、サンプリングレートが切り替わる部分の違和感を軽減することができる。

［音声処理部の構成例］
図４は、第１の実施の形態における音声処理部１７０の一構成例を示すブロック図である。この音声処理部１７０は、バッファ１７１、再生時間変換部１７２および音声符号化部１７７を備える。

バッファ１７１は、一定のデータ量の音声データを保持するものである。再生時間変換部１７２は、高解像度音声データの再生時間を変換するものである。この再生時間変換部１７２は、制御信号の示す高フレームレート期間内にサンプリングされた音声データ（すなわち、高解像度音声データ）をバッファ１７１から読み出し、その再生時間を一定の倍率で伸長して音声符号化部１７７に供給する。一方、高フレームレート期間外にサンプリングされた音声データは、再生時間が変更されずにそのまま音声符号化部１７７に供給される。

音声符号化部１７７は、音声データをオーディオフレームに符号化するものである。この音声符号化部１７７は、オーディオフレームをオーディオパケットにパケット化して記録フォーマット変換部１５０に信号線１７９を介して供給する。

図５は、第１の実施の形態におけるストリームの一例を示す図である。同図におけるａは、垂直同期信号ＳＹＮＣ_ＶＨに同期して撮像されたビデオフレームの一例を示す図である。垂直同期信号ＳＹＮＣ_ＶＨの周波数が６００ヘルツ（Ｈｚ）である場合、１／６００秒ごとに複数のビデオフレームが撮像される。

図５におけるｂは、フレームレート変換後のフレームの一例を示す図である。ユーザの操作に従って高フレームレート期間が設定され、その高フレームレート期間外において、フレームレートが例えば、６０ヘルツ（Ｈｚ）の低フレームレートに変換される。同図におけるｃの太線で囲ったビデオフレームは、高フレームレート期間内のビデオフレームを示す。

図５におけるｃは、サンプリングされた音声データの一例を示す図である。例えば、サンプリングにより音声データＳａ１、Ｓａ２およびＳａ３が順に生成される。ここで、音声データＳａ１は、高フレームレート期間の開始タイミングＴｓより前に、比較的低いサンプリングレート（例えば、４８キロヘルツ）でサンプリングされた通常音声データである。また、音声データＳａ２は、高フレームレート期間に亘って比較的高いサンプリングレート（例えば、９６キロヘルツ）でサンプリングされた高解像度音声データである。また、音声データＳａ３は、高フレームレート期間の終了タイミングＴｅの後に、比較的低いサンプリングレートでサンプリングされた通常音声データである。

図５におけるｄは、再生時刻が設定されたビデオフレームの一例を示すものである。検出フレームを含むビデオフレームのそれぞれに、例えば、６０ヘルツ（Ｈｚ）の低フレームレートで再生するための再生時刻が設定される。この再生時刻に従って、高フレームレート期間に撮像された動体は、非常にゆっくりとした動きで再生される。例えば、高フレームレート期間のフレームレートが６００ヘルツ（Ｈｚ）で、再生時のフレームレートが６０ヘルツ（Ｈｚ）である場合、スロー再生期間は、高フレームレート期間の１０倍に引き伸ばされ、動体の動作速度は１／１０に低下する。

図５におけるｅは、再生時間変換後の音声データの一例を示す図である。音声処理部１７０は、高解像度音声データ（Ｓａ２）の再生時間を伸長して音声データＳａ２’を生成する。この音声データＳａ２’の再生時刻は、例えば、スロー再生期間の中間時点Ｔｃ’に設定される。なお、変換後の音声データＳａ２’の再生時刻は、スロー再生期間の中間時点Ｔｃ’に限定されず、例えば、スロー再生期間の開始タイミングＴｓであってもよい。また、スロー再生期間の開始タイミングＴｓの直前に、連続した無音の期間がある場合には、撮像装置１００は、その期間の開始タイミングを音声データＳａ２’の再生時刻としてもよい。

図６は、第１の実施の形態における再生時間の変換前後の高解像度音声データの一例を示す図である。同図におけるａは、再生時間を変換する前の高解像度音声データの一例を示す図であり、同図におけるｂは、再生時間を変換した後の高解像度音声データの一例を示す図である。また、同図において縦軸は、音量レベルを示し、横軸は時間を示す。また、点線は、音声データをＤＡ（Digital to Analog）変換した際に復元されるアナログの音声信号の波形を示す。

図６におけるａに例示するように、高フレームレート期間において、比較的高いサンプリングレートで音声データ５０２および５０４などの音声データがサンプリングされる。例えば、サンプリングレートが９６キロヘルツ（ｋＨｚ）の際には、１秒当たり９６×１０００個の音声データが生成される。量子化ビット数を２４ビットとすると、モノラルの音声データの１秒当たりのデータ量は、９６×１０００×２４ビットである。なお、量子化ビット数は２４ビットに限定されず、１６ビットなどであってもよい。

そして、図６におけるｂに例示するように、変換前の音声データ（５０２や５０４）の間に、音声データ５０３などのデータが補間される。同図において斜線を引いた部分は、補間された音声データを示す。音声処理部１７０は、例えば、隣り合う音声データ５０２および５０４のそれぞれの音量レベルの中間の音量レベルを示すデータを音声データ５０３として補間する。この補間により、音声データの再生時間が引き伸ばされる。例えば、補間により音声データの個数を２倍にした場合には、再生時間は２倍に伸長される。このように、再生時間を伸長する処理は、タイムストレッチや話速変換と呼ばれる。

ここで、サンプリングされた音声データにより復元することができるアナログの音声の最大周波数は、標本化定理より、サンプリング周波数ｆｓの半分の値である。このサンプリング周波数の半分の値（ｆｓ／２）は、ナイキスト周波数と呼ばれる。このナイキスト周波数（復元可能な周波数）は、再生時間の伸長により低下する。例えば、再生時間を２倍にした場合には、ナイキスト周波数は半分に低下してしまう。

なお、音声処理部１７０は、波形をそのまま引き伸ばす処理によりタイムストレッチを行っているが、再生時間を伸長することができるのであれば、この方式に限定されない。例えば、音声処理部１７０は、音声波形を複数に分割し、それらの一部を複製して挿入する処理により、再生時間を引き伸ばしてもよい。この処理によれば、周波数をほとんど変えずに再生時間を伸長することができる。この場合であっても、再生時間を変換した部分で若干の音質低下が生じるため、高解像度音声データを録音することにより、その音質低下を抑制することができる。

図７は、第１の実施の形態における音声データの復元帯域の一例を示す図である。ここで、高解像度音声データのサンプリングレートは９６キロヘルツ（ｋＨｚ）とし、通常音声データのサンプリングレートは４８キロヘルツ（ｋＨｚ）とする。同図に例示するように、高解像度音声データのＤＡ変換により復元される音声の周波数帯域（以下、「復元帯域」と称する。）は、再生時間を変換する前においては、標本化定理より０乃至４８キロヘルツ（ｋＨｚ）である。この高解像度音声データの再生時間を２倍に伸長すると、復元帯域は伸長前の半分、すなわち０乃至２４キロヘルツ（ｋＨｚ）となる。一方、通常音声データの復元帯域は、標本化定理より０乃至２４キロヘルツ（ｋＨｚ）となる。

ここで、一般的な人間の可聴範囲は、２０ヘルツ（Ｈｚ）乃至２０キロヘルツ（ｋＨｚ）であり、再生時間変更後の復元帯域より狭い。したがって、再生時間を変更しても、ユーザが音質の低下を感じることがなくなる。また、再生時間変更後の高解像度音声データの復元帯域は、通常音声データと同一であるから、再生時間を引き伸ばしたスロー再生期間の音質は、引き伸ばしていない期間と変わらなくなる。

これに対して、特許文献１に記載の装置は、高フレームレート期間においても、サンプリングレートを変えずに録音している。この構成では、高フレームレート期間にサンプリングした通音声データの再生時間を引き伸ばすと、引き伸ばしていない期間と比較して復元帯域が狭くなり、音質が低下してしまう。

なお、上述の標本化定理に基づいて、通常音声データのサンプリングレートは、可聴範囲の最大周波数（約２０キロヘルツ）の２倍より高い値が望ましい。また、高解像度音声データのサンプリングレートは、可聴範囲の最大周波数の２倍に、再生時間に対する倍率（２倍など）を乗じた値より高い値が望ましい。

図８は、第１の実施の形態におけるストリームおよびパケットのデータ構造の一例を示す図である。同図におけるａは、ストリームのデータ構造の一例を示す図である。ＭＰＥＧ−２ＴＳ規格においてストリームは、例えば、補助的なデータを含むパケットＡＲＩ_ＰＣＫと、ビデオパケットＶ_ＰＣＫと、オーディオパケットＡ_ＰＣＫとを含む。ビデオフレームは、１つ以上のビデオパケットＶ_ＰＣＫに格納され、オーディオフレームは、１つ以上のオーディオパケットＡ_ＰＣＫに格納される。

図８におけるｂは、ビデオパケットＶ_ＰＣＫのデータ構造の一例を示す図である。ＭＰＥＧ−２ＴＳ規格においてビデオパケットＶ_ＰＣＫには、パケット開始コードと、パケット長と、「１０」のコードと、フラグおよび制御と、ＰＥＳヘッダ長と、コンディショナル・コーディングと、パケット・データとが格納される。なお、オーディオパケットのデータ構造は、ビデオパケットと同様である。

パケット開始コードのフィールドには、パケットの先頭を示す先頭開始コードと、ストリームを識別するためのストリームＩＤとが格納される。コンディショナル・コーディングのフィールドには、再生時刻を示すＰＴＳや、復号時刻を示すＤＴＳ（Decoding Time Stamp）とが格納される。

［撮像装置の動作例］
図９は、第１の実施の形態における録画処理の一例を示すフローチャートである。この録画処理は、例えば、録画を開始するための操作（録画ボタンの押下など）が行われたときに開始する。撮像装置１００は、ビデオフレームを６００ヘルツ（Ｈｚ）の高フレームレートで生成する（ステップＳ９０１）。また、撮像装置１００は、シーン変化を検出したときに、高フレームレート期間を設定し（ステップＳ９０２）、高フレームレート期間外においてフレームレートを６０ヘルツ（Ｈｚ）の低フレームレートに変換する（ステップＳ９０３）。

そして、撮像装置１００は、ビデオフレームを符号化する（ステップＳ９０４）。撮像装置１００は、録画を終了するための操作（停止ボタンの押下など）が行われたか否かを判断する（ステップＳ９０５）。録画を終了するための操作が行われていない場合には（ステップＳ９０５：Ｎｏ）、撮像装置１００は、ステップＳ９０１以降を繰り返す。一方、録画を終了するための操作が行われた場合には（ステップＳ９０５：Ｙｅｓ）、撮像装置１００は、録画処理を終了する。

図１０は、第１の実施の形態における録音処理の一例を示すフローチャートである。この録音処理は、例えば、録画を開始するための操作（録画ボタンの押下など）が行われたときに開始する。

撮像装置１００は、現在時刻が高フレームレート期間内であるか否かを判断する（ステップＳ９２１）。高フレームレート期間内である場合に（ステップＳ９２１：Ｙｅｓ）撮像装置１００は、９６キロヘルツ（ｋＨｚ）の高サンプリングレートで録音を行い（ステップＳ９２２）、生成した高解像度音声データの再生時間を伸長する（ステップＳ９２３）。一方、高フレームレート期間内でない場合に（ステップＳ９２１：Ｎｏ）撮像装置１００は、４８キロヘルツ（ｋＨｚ）の低サンプリングレートで録音を行う（ステップＳ９２４）。

ステップＳ９２３またはＳ９２４の後、撮像装置１００は、音声データを符号化してオーディオフレームを生成し（ステップＳ９２７）、録音を終了するための操作（停止ボタンの押下など）が行われたか否かを判断する（ステップＳ９２８）。録音を終了するための操作が行われていない場合には（ステップＳ９２８：Ｎｏ）、撮像装置１００は、ステップＳ９２１以降を繰り返す。一方、録音を終了するための操作が行われた場合には（ステップＳ９２８：Ｙｅｓ）、撮像装置１００は、録音処理を終了する。

このように、本技術の第１の実施の形態によれば、高フレームレート期間内に比較的高いサンプリングレートでサンプリングして高解像度音声データを生成し、そのデータの再生時間を伸長するため、再生時間の伸長による音質の低下を抑制することができる。

［第１の変形例］
第１の実施の形態では、高フレームレート期間を手動で設定していたが、手動とすると、操作ミスにより、その期間の開始タイミングがずれるおそれがある。また、高フレームレート期間の設定を手動にすると、撮像装置１００の操作が複雑になり、撮像装置１００の利便性が低下するおそれがある。この第１の実施の形態の第１の変形例の撮像装置１００は、ユーザの操作によらずに、高フレームレート期間を設定する点において第１の実施の形態と異なる。

図１１は、第１の実施の形態の第１の変形例における撮像装置１００の一構成例を示すブロック図である。この第１の変形例の動画取込み部１３０は、シーンが変化するタイミングをシーン変化タイミングとして検出する点において第１の実施の形態と異なる。動画取込み部１３０は、検出したシーン変化タイミングを制御部１２０に供給する。

第１の変形例の制御部１２０は、検出されたシーン変化タイミングを含む一定の期間を高フレームレート期間に設定する点において第１の実施の形態と異なる。例えば、シーン変化タイミングを中心とする一定の長さ（１秒など）の期間が高フレームレート期間に設定される。

なお、制御部１２０は、ユーザの操作に従って録音の開始タイミングおよび終了タイミングのみを設定する構成としているが、ユーザの操作に従って、さらに高フレームレート期間を設定してもよい。例えば、制御部１２０は、シーン変化タイミングとユーザの指定したタイミングとのいずれかを含む期間を高フレームレート期間として設定すればよい。

図１２は、第１の実施の形態の第１の変形例における動画取込み部１３０の一構成例を示すブロック図である。この第１の変形例の動画取込み部１３０は、バッファ１３２およびシーン変化検出部１３３をさらに備える点において第１の実施の形態と異なる。

バッファ１３２は、撮像部１３１により撮像されたビデオフレームを保持するものである。

シーン変化検出部１３３は、シーンが変化したときのビデオフレームを検出するものである。このシーン変化検出部１３３は、撮像部１３１からビデオフレームを現ビデオフレームとして取得し、その現ビデオフレームより前のビデオフレームをバッファ１３２から前ビデオフレームとして取得する。そして、シーン変化検出部１３３は、現ビデオフレームと前ビデオフレームとを比較し、その比較結果に基づいてシーンの変化の有無を検出する。シーン変化検出部１３３は、シーンの変化が生じると、そのときのフレームの撮像時刻をシーン変化タイミングとして制御部１２０に供給する。

このように、本技術の第１の実施の形態の第１の変形例によれば、撮像装置１００がシーン変化タイミングを検出して、そのタイミングを含む一定期間を高フレームレート期間に設定するため、高フレームレート期間を手動で設定する必要がなくなる。

［第２の変形例］
第１の実施の形態では、高解像度音声データを録音する期間を手動で設定していたが、手動にすると、操作ミスが生じるおそれや、撮像装置１００の利便性が低下するおそれがある。また、第１の実施の形態では、録音および録画の両方を行っていたが、録画時間が長くなるほど動画データのデータ量が多くなり、記録部１８０の記憶容量が不足するおそれがある。この第１の実施の形態の第２の変形例の装置は、ユーザの操作によらずに高フレームレート期間を設定する点と、録画を行わない点とにおいて第１の実施の形態と異なる。

図１３は、第１の実施の形態の第２の変形例における録音装置１０１の一構成例を示すブロック図である。この録音装置１０１は、ユーザインターフェース部１１０、センサー１１５、制御部１２５、音声取込み部１６０、音声処理部１７０、記録フォーマット変換部１５０および記録部１８０を備える。

センサー１１５は、不審者などの検知対象を検知するものである。例えば、圧電体に加えられた力を電気信号に変換する圧電センサーや、赤外線の光量を電気信号に変換する赤外線センサーがセンサー１１５として用いられる。このセンサー１１５は、検知対象を検知したか否かを示す検知信号を制御部１２５に供給する。

制御部１２５は、操作信号に従って音声取込み部１６０に録音を開始させ、操作信号に従って録音を終了させる。また、録音中において、センサーにより検知対象が検知されると、制御部１２５は、検知対象の検知タイミングを含む一定の期間を高解像度録音期間として設定し、その期間において音声取込み部１６０に比較的高いサンプリングレートでサンプリングを行わせる。

第２の変形例の音声取込み部１６０は、高フレームレート期間の代わりに、高解像度期間において高解像度音声データを生成する点以外は、第１の実施の形態と同様である。また、第２の変形例の音声処理部１７０は、高フレームレート期間の代わりに、高解像度期間において高解像度音声データの再生時間を変換する点以外は、第１の実施の形態と同様である。

なお、制御部１２０は、ユーザの操作に従って録音の開始タイミングおよび終了タイミングのみを設定する構成としているが、ユーザの操作に従って、さらに高解像度期間を設定してもよい。例えば、制御部１２０は、センサー１１５の検知タイミングとユーザの指定したタイミングとのいずれかを含む期間を高解像度期間として設定すればよい。

また、動画取込み部１３０をさらに設け、第１の変形例と同様に、シーン変化タイミングを検出してもよい。この場合に制御部１２０は、例えば、センサー１１５の検知タイミングとシーン変化タイミングとのいずれかを含む期間を高解像度期間として設定すればよい。さらに、制御部１２０は、センサー１１５の検知タイミングとシーン変化タイミングとユーザの指定したタイミングとのいずれかを含む期間を高解像度期間として設定してもよい。

このように、本技術の第１の実施の形態の第２の変形例によれば、検知対象の検知タイミングを含む一定期間を録音装置１０１が高解像度録音期間として設定するため、高解像度音声データを録音する期間を手動で設定する必要がなくなる。また、録音装置１０１は、録画を行わずに録音のみを行うため、記録部１８０に記録するデータのデータ量を少なくすることができる。

＜２．第２の実施の形態＞
第１の実施の形態では、高解像度音声データの再生時間を伸長していたが、スロー再生期間に対して伸長後の再生時間が短いと、無音の時間が生じて再生品質が低下するおそれがある。第２の実施の形態の撮像装置１００は、無音の時間を短くした点において第１の実施の形態と異なる。

図１４は、第２の実施の形態における音声取込み部１６０の一構成例を示すブロック図である。第２の実施の形態の音声取込み部１６０は、付加情報生成部１６２をさらに備える点において第１の実施の形態と異なる。

付加情報生成部１６２は、高解像度音声データに対して実行すべき信号処理を示す付加情報を生成するものである。例えば、高解像度音声データの複製処理と、音量レベルの調整処理と、周波数特性を変更するイコライザ処理とを含む信号処理が実行される。付加情報生成部１６２は、それらの信号処理の設定内容を含む付加情報を生成する。この設定内容は、高解像度音声データの再生時刻や、その高解像度音声データの複製処理における複製回数などを含む。この複製回数は、例えば、次の式により設定される。
複製回数＝ＳＹＮＣ_ＶＨ／（ＳＹＮＣ_ＶＬ×ｎ）・・・式３
上式において、ｎは、高解像度音声データの再生時間を伸長する倍率である。なお、複製回数が整数にならない場合には、端数切捨てなどの端数処理が行われる。

例えば、ＳＹＮＣ_ＶＨが６００ヘルツ（Ｈｚ）、ＳＹＮＣ_ＬＨが６０ヘルツ（Ｈｚ）で、再生時間に対する倍率ｎが２倍である場合、「５」が複製回数として設定される。付加情報生成部１６２は、生成した付加情報を音声データに付加して音声処理部１７０に供給する。

図１５は、第２の実施の形態における音声処理部１７０の一構成例を示すブロック図である。この第２の実施の形態の音声処理部１７０は、複製部１７３およびエフェクト処理部１７４をさらに備える点において第１の実施の形態と異なる。エフェクト処理部１７４は、ゲイン調整部１７５およびイコライザ処理部１７６を備える。なお、複製部１７３およびエフェクト処理部１７４を含む回路は、特許請求の範囲に記載の信号処理部の一例である。

複製部１７３は、高解像度音声データを複製するものである。この複製部１７３は、付加情報の示す複製回数に亘って複製を行い、生成した複製の音声データのそれぞれを複製音声データとしてゲイン調整部１７５に供給する。

ゲイン調整部１７５は、複製音声データの音量レベルをゲインにより調整するものである。このゲイン調整部１７５は、付加情報に従って、例えば、複製音声データごとに、異なるゲインにより音量レベルを調整する。付加情報には、例えば、複製音声データごとのゲインの変化量などが設定される。ゲイン調整部１７５は、音量レベルを調整した複製音声データをイコライザ処理部１７６に供給する。

イコライザ処理部１７６は、複製音声データの周波数特性を互いに異なる特性に変更するイコライザ処理を行うものである。例えば、イコライザ処理部１７６は、所定の閾値より低い低周波数領域に対するゲインを、その閾値より高い高周波数領域に対するゲインよりも相対的に高くする処理を複製音声データ毎に行い、再生時刻が遅いほど、その閾値を低くする。このような周波数特性の変更により、時間の経過に伴って、低周波数領域の音声の強調の度合いが徐々に大きくなる音響効果を得ることができる。ここで、付加情報にはイコライザ値が設定される。イコライザ値は、ゲインを制御する帯域や、ゲインの制御量などを含む。イコライザ処理部１７６は、イコライザ処理後の音声信号を音声符号化部１７７に供給する。

なお、周波数特性の変更の方法は、低周波数領域の強調に限定されない。イコライザ処理部１７６は、高周波数領域を徐々に強調してもよいし、所定の中心周波数を中心とする一定の帯域に対するゲインを変更してもよい。

また、音声処理部１７０は、複製処理と音量レベルの調整処理とイコライザ処理とを全て実行しているが、この構成に限定されず、これらの処理の一部（複製処理のみ等）を実行する構成であってもよい。また、音声処理部１７０は、複製処理、音量レベルの調整処理およびイコライザ処理などに加えて、これらと異なる信号処理（ノイズ除去処理など）をさらに実行してもよい。

また、音声処理部１７０は、再生時間の変更、複製、音量レベルの調整、イコライザ処理の順に各処理を実行しているが、この順と異なる順序で、それぞれの処理を実行してもよい。例えば、音声処理部１７０は、複製した後に再生時間の変更を行ってもよいし、音量レベルを調整した後に複製してもよい。

図１６は、第２の実施の形態におけるストリームの一例を示す図である。同図におけるａは、垂直同期信号ＳＹＮＣ_ＶＨに同期して撮像されたビデオフレームの一例を示す図である。同図におけるｂは、フレームレート変換後のフレームの一例を示す図である。同図におけるｃは、サンプリングされた音声データの一例を示す図である。同図におけるｄは、再生時刻が設定されたビデオフレームの一例を示すものである。

図１６におけるｅは、複製音声データの一例を示す図である。音声処理部１７０は、音声データＳａ２（高解像度音声データ）の再生時間を伸長し、伸長後のＳａ２を複製して複製音声データＳａ２’−１乃至Ｓａ２’−ｍ（ｍは２以上の整数）のｍ個の音声データを生成する。最初の複製音声データＳａ２’−１の再生時刻は、例えば、スロー再生期間の開始タイミングに設定される。これらの複製音声データは、複製元の音声データと同一であるため、スロー再生期間において同じ音声が繰り返し再生される。これにより、繰り返し再生しない場合と比較して、スロー再生期間内の無音の時間を短くすることができる。

図１６におけるｆは、複製音声データのそれぞれの音量調整に用いられるゲインの一例を示す図である。同図におけるｆの縦軸は、ゲインを示し、横軸は時間を示す。最初に再生される複製音声データＳａ２’−１に対しては、「０」デシベル（ｄＢ）のゲインが設定される。以降の複製音声データＳａ２’−２乃至Ｓａ２’−ｍに対しては、再生時刻が遅いほど小さなゲインが設定される。これにより、繰り返し再生される音声の音量レベルが徐々に小さくなる。

図１７は、第２の実施の形態における周波数特性の一例を示すグラフである。同図における縦軸はゲインであり、横軸は周波数である。また、点線の曲線は、スロー再生期間において最初に再生される複製音声データＳａ２’−１の特性を示し、一点鎖線の曲線は、その次に再生される複製音声データＳａ２’−２の特性を示す。実線の曲線は、スロー再生期間において最後に再生される複製音声データＳａ２’−ｍの特性を示す。複製音声データＳａ２’−１では、閾値Ｔｈ１に対して高周波数領域のゲインが相対的に低くなるように調整され、複製音声データＳａ２’−２では、閾値Ｔｈ１より低い閾値Ｔｈ２に対して高周波数領域のゲインが相対的に低くなるように調整される。また、複製音声データＳａ２’−ｍでは、それらよりも低い閾値Ｔｈｍに対して高周波数領域のゲインが相対的に低くなるように調整される。このような周波数特性の変更により、時間の経過に伴い、低周波数領域の音声に対する強調の度合いが大きくなる音響効果が得られる。

図１８は、第２の実施の形態における録音処理の一例を示すフローチャートである。第２の実施の形態の録音処理は、ステップＳ９２４およびＳ９２５をさらに実行する点において第１の実施の形態と異なる。

撮像装置１００は、再生時間の変更（ステップＳ９２３）の後、高解像度音声データを複製し（ステップＳ９２４）、音量レベルの調整やイコライザ処理などのエフェクト処理を実行する（ステップＳ９２５）。ステップＳ９２４またはＳ９２５の後、撮像装置１００は、音声データの符号化を行う（ステップＳ９２７）。

このように、本技術の第２の実施の形態によれば、音声処理部１７０は、高解像度音声データに対して複製処理を実行するため、同一の音声を繰り返し、再生させることができる。また、音声処理部１７０は、高解像度音声データに対して周波数特性を変更させるイコライザ処理を実行するため、低周波数領域の音声に対する強調の度合いが大きくなるなどの音響効果を生じさせることができる。これらの繰り返し再生や音響効果により、臨場感を向上させることができる。

＜３．第３の実施の形態＞
上述の第１の実施の形態では、音声データの複製などの信号処理を撮像装置１００が記録時に行っていたが、複製等を記録時に行うとストリームの記録に必要なデータサイズが増加してしまう。データサイズを削減する観点から、複製等の信号処理を再生時に行うことが望ましい。この第２の実施の形態の撮像装置１００は、音声データの信号処理を再生時に行う点において第１の実施の形態と異なる。

図１９は、第２の実施の形態における撮像システムの一構成例を示すブロック図である。この撮像システムは、撮像装置１００および再生装置２００を備える。第２の実施の形態の撮像装置１００は、メタデータ生成部１９０をさらに備える点において第１の実施の形態と異なる。

メタデータ生成部１９０は、高解像度音声データの再生時刻と信号処理の内容（複製回数など）とを示す詳細設定データを付加情報から生成してメタデータに格納し、そのメタデータを記録フォーマット変換部１５０に供給する。第２の実施の形態の記録フォーマット変換部１５０は、メタデータをストリームに付加して再生装置２００に供給する。再生装置２００は、ストリームを再生する装置である。

図２０は、第３の実施の形態における再生装置２００の一構成例を示すブロック図である。この再生装置２００は、ユーザインターフェース部２１０、メタデータ分離部２２０、再生制御部２３０、復号部２４０、複製部２５０、エフェクト処理部２６０、表示部２７０およびスピーカ２８０を備える。

ユーザインターフェース部２１０は、ユーザの操作に従って操作信号を生成するものである。操作信号は、例えば、ストリームの再生開始や再生停止を指示する信号を含む。ユーザインターフェース部２１０は、操作信号をメタデータ分離部２２０に供給する。

メタデータ分離部２２０は、操作信号に従ってストリームを取得し、そのストリームをメタデータと符号化データ（ビデオパケットやオーディオパケット）とに分離するものである。メタデータ分離部２２０は、分離したメタデータを再生制御部２３０に供給し、符号化データを復号部２４０に供給する。

復号部２４０は、符号化データを元の音声データおよび動画データに復号するものである。復号部２４０は、復号により得られた音声データを複製部２５０に供給し、動画データを表示部２７０に供給する。表示部２７０は、動画データを表示するものである。

再生制御部２３０は、複製部２５０およびエフェクト処理部２６０を制御するものである。この再生制御部２３０は、メタデータから、高解像度音声データの再生時刻と複製回数と、エフェクト処理の設定内容とを取得し、その音声再生時刻および複製回数を複製部２５０に供給する。また、再生制御部２３０は、エフェクト処理の設定内容をエフェクト処理部２６０に供給する。

複製部２５０は、再生制御部２３０の制御に従って音声データを複製するものである。この複製部２５０は、復号部２４０からの音声データが供給されるたびに、その再生時刻と、再生制御部２３０からの再生時刻とが一致するか否かを判断する。一致する場合に複製部２５０は、再生制御部２３０により設定された複製回数により、音声データを複製してエフェクト処理部２６０に供給する。一方、再生時刻が一致しない場合に複製部２５０は、音声データを複製せずに、スピーカ２８０に供給する。

エフェクト処理部２６０は、再生制御部２３０の制御に従って複製音声データのそれぞれに対して異なる信号処理を実行するものである。このエフェクト処理部２６０は、ゲインの調整処理やイコライザ処理などを実行し、処理後の複製音声データをスピーカ２８０に供給する。スピーカ２８０は、音声データを物理的な振動に変換して音声を再生するものである。

なお、再生装置２００を撮像装置１００の外部に設ける構成としているが、再生装置２００の機能を撮像装置１００に設けてもよい。

図２１は、第３の実施の形態におけるＭＰＥＧ４−ＡＡＣを用いる際の設定先のフィールドの一例を示す図である。同図に例示するようにＭＰＥＧ４−ＡＡＣ規格のメタデータ５１０内においては、例えば、ＤＳＥ（Data Stream Element）領域５１１に詳細設定データが格納される。

図２２は、第２の実施の形態におけるＭＰＥＧ４−ｓｙｓｔｅｍを用いる際の設定先のフィールドの一例を示す図である。同図に例示するように、ＭＰＥＧ４−ｓｙｓｔｅｍ規格のメタデータ５２０内においては、例えば、ｕｄｔａ領域５２１に詳細設定データが格納される。

図２３は、第２の実施の形態におけるＨＭＭＰファイルフォーマットを用いる際の設定先のフィールドの一例を示す図である。同図に例示するように、ＨＭＭＰ規格のメタデータ５３０内においては、例えば、ｕｕｉｄ領域５３１に詳細設定データが格納される。

図２４は、第３の実施の形態における録音処理の一例を示すフローチャートである。第３の実施の形態の録音処理は、ステップＳ９２６をさらに実行する点において第１の実施の形態と異なる。

撮像装置１００は、ステップＳ９２３またはＳ９２４の後、設定内容を格納したメタデータを生成し（ステップＳ９２６）、ステップＳ９２７以降を実行する。

図２５は、第３の実施の形態における再生処理の一例を示すフローチャートである。この動作は、例えば、ストリームを再生するための操作（再生ボタンの押下など）が行われたときに開始する。

再生装置２００は、符号化データを復号する復号処理を行い（ステップＳ９５１）、メタデータを参照して、復号された音声データが複製対象の高解像度音声データであるか否かを判断する（ステップＳ９５２）。複製対象である場合に（ステップＳ９５２：Ｙｅｓ）、再生装置２００は、その高解像度音声データを複製し（ステップＳ９５３）、音量の調整やイコライザ処理などのエフェクト処理を実行する（ステップＳ９５４）。

複製対象でない場合（ステップＳ９５２：Ｎｏ）またはステップＳ９５４の後に、再生装置２００は、動画および音声を表示部やスピーカにより再生する（ステップＳ９５５）。そして、再生装置２００は、再生終了時刻であるか否かを判断する（ステップＳ９５６）。再生終了時刻でない場合には（ステップＳ９５６：Ｎｏ）、撮像装置１００は、ステップＳ９５１以降を繰り返す。一方、再生終了時刻である場合には（ステップＳ９５６：Ｙｅｓ）、再生装置２００は、再生処理を終了する。

このように、本技術の第３の実施の形態によれば、高解像度音声データの複製処理などを再生装置２００が行うため、撮像装置１００が記録時に音声データを複製する必要が無くなり、ストリームの記録に必要なデータサイズを小さくすることができる。

＜４．第４の実施の形態＞
上述の第３の実施の形態では、撮像装置１００は、信号処理の設定内容（複製回数など）を示すメタデータを生成していたが、この設定内容をユーザの操作に従って変更してもよい。この第４の実施の形態の撮像システムは、ユーザの操作に従って複製回数などの設定内容を変更する点において第３の実施の形態と異なる。

図２６は、第４の実施の形態における撮像システムの一構成例を示すブロック図である。この第４の実施の形態の撮像システムは、再生装置２００の代わりに編集装置３００を備える点において第３の実施の形態と異なる。

編集装置３００は、ユーザインターフェース部３１０、メタデータ分離部３２０、編集制御部３３０、復号部３４０、再生時間変換部３５０、複製部３６０、エフェクト処理部３７０および再符号化部３８０を備える。

ユーザインターフェース部３１０は、ユーザの操作に従って操作信号を生成するものである。例えば、メタデータにおける設定内容の変更を指示する操作信号が生成される。ユーザインターフェース部３１０は、生成した操作信号を編集制御部３３０に供給する。

メタデータ分離部３２０は、操作信号に従ってストリームをメタデータと符号化データとに分離するものである。メタデータ分離部３２０は、分離したメタデータを編集制御部３３０に供給し、符号化データを復号部３４０に供給する。

編集制御部３３０は、操作信号に従って、メタデータの設定内容を変更するものである。複製回数および倍率の一方がユーザにより変更された場合に編集制御部３３０は、式３を満たすように、他方を変更する。この編集制御部３３０は、複製対象の再生時刻を復号部３４０に供給する。また、編集制御部３３０は、変更後における倍率を再生時間変換部３５０に供給し、複製回数を複製部３６０に供給し、エフェクト処理の設定内容をエフェクト処理部３７０に供給する。

復号部３４０は、符号化データを復号するものである。この復号部３４０は、復号した高解像度音声データを再生時間変換部３５０に供給する。通常音声データと動画データとについては、復号されずに撮像装置１００に供給される。

再生時間変換部３５０は、編集制御部３３０の制御に従って復号部３４０からの音声データの再生時間を伸長するものである。この再生時間変換部３５０は、再生時間を伸長した音声データを複製部３６０に供給する。複製部３６０は、編集制御部３３０の制御に従って高解像度音声データを複製するものである。この複製部３６０は、高解像度音声データを複製してエフェクト処理部３７０に供給する。

エフェクト処理部３７０は、編集制御部３３０の制御に従って、音量レベルの調整処理やイコライザ処理などの信号処理を実行するものである。このエフェクト処理部３７０は、信号処理後の複製音声データを再符号化部３８０に供給する。

再符号化部３８０は、高解像度音声データを再度符号化するものである。再符号化部３８０は、符号化により生成したストリームを撮像装置１００に供給する。

このように、ユーザが再生時間や複製回数を微調整することにより、再生品質をさらに向上させることができる。例えば、再生時間を「２」倍にして、「５」回複製する設定について、ユーザが、現状の再生速度は遅すぎると感じた場合には、倍率を「１．５」倍などに変更する。倍率が「１．５」倍に変更されると、編集装置３００は、式３を使用して複製回数を変更する。

なお、編集装置３００を撮像装置１００の外部に設ける構成としているが、編集装置３００内の各回路を撮像装置１００の内部に設けてもよい。

図２７は、第３の実施の形態における編集処理の一例を示すフローチャートである。この編集処理は、例えば、メタデータの編集を行うためのアプリケーションが実行されたときに開始する。

編集装置３００は、メタデータを分離し、ユーザの操作に従ってメタデータ内の複製回数や倍率などを変更する（ステップＳ９７１）。また、編集装置３００は、符号化データを復号する復号処理を実行し（ステップＳ９７２）、複製対象の音声信号の再生時間を変更する（ステップＳ９７３）。そして、編集装置３００は、再生時間を変更した高解像度音声データを複製し（ステップＳ９７４）、複製音声信号のそれぞれに対してエフェクト処理を実行するる（ステップＳ９７５）。編集装置３００は、複製音声データを再符号化し（ステップＳ９７６）、編集を終了するための操作が行われたか否かを判断する（ステップＳ９７７）。編集を終了するための操作が行われていない場合には（ステップＳ９７７：Ｎｏ）、撮像装置１００は、ステップＳ９７１以降を繰り返す。一方、編集を終了するための操作が行われた場合に（ステップＳ９７７：Ｙｅｓ）、撮像装置１００は、編集処理を終了する。

このように、本技術の第４の実施の形態によれば、編集装置３００は、ユーザの操作に従ってメタデータ内の複製回数や再生時間などの設定を変更するため、複製回数や再生時間を微調整して再生品質をさらに向上させることができる。

＜５．第５の実施の形態＞
上述の第１の実施の形態では、音声取込み部１６０は、サンプリングレート可変マイク１６１により、サンプリングレートを切り替えて通常音声データをサンプリングしていた。しかし、音声取込み部１６０は、サンプリングレートが固定のマイクによりサンプリングした高解像度音声データをリサンプリングして通常音声データを生成することもできる。この第５の実施の形態の音声取込み部１６０は、高解像度音声データをリサンプリングして通常音声データを生成する点において第１の実施の形態と異なる。

図２８は、第５の実施の形態における音声取込み部１６０の一構成例を示すブロック図である。第５の実施の形態の音声取込み部１６０は、サンプリングレート可変マイク１６１の代わりに、高解像度マイク１６３およびサンプリングレート変換器１６４を備える点において第１の実施の形態と異なる。

高解像度マイク１６３は、制御信号に従って、所定のサンプリングレート（４８キロヘルツなど）より高いサンプリングレート（９６キロヘルツなど）で音声をサンプリングして高解像度音声データを生成するものである。この高解像度マイク１６３は、録音開始タイミングから録音終了タイミングまでの期間に亘って高解像度音声データを生成し、サンプリングレート変換器１６４に供給する。

サンプリングレート変換器１６４は、制御信号の示す高フレームレート期間外において、所定のサンプリングレート（４８キロヘルツなど）で高解像度音声データをリサンプリングするものである。サンプリングレート変換器１６４は、サンプリングレート変換後の音声データを通常音声データとして音声処理部１７０に供給する。一方、高フレームレート期間内の高解像度音声データは、そのまま音声処理部１７０に供給される。

なお、高解像度マイク１６３として、デジタルの音声データを出力するデジタルマイクをもうけているが、このデジタルマイクの代わりにアナログの音声信号を出力するアナログマイクを設けてもよい。この場合には、アナログマイクからの音声信号をＡＤ変換するＡＤ変換器がアナログマイクとサンプリングレート変換部１６４との間にさらに設けられ、このＡＤ変換器が高サンプリングレートでサンプリングを行う。

また、サンプリングレート変換器１６４は、サンプリングレートを変換する際に段階的に徐々に変換してもよい。例えば、高フレームレート期間の開始時点から一定時間に亘って、サンプリングレート変換器１６４は、リサンプリング時のサンプリングレートを少しずつ増加させる。また、高フレームレート期間の終了時点より一定時間前の時点から、その終了時点までの期間に亘って、音声取込み部１６０は、サンプリングレートをすこしずつ減少させる。

また、音声取込み部１６０は、サンプリングレートが変わる部分の違和感を軽減する目的で、サンプリングレート変換部１６４の後段にイコライザ処理部を追加してもよい。このイコライザ処理部は、周波数が一定値より高い高周波数帯域の音量レベルを段階的にゲインにより徐々に調整する。例えば、イコライザ処理部は、高フレームレート期間の開始時点から一定時間に亘って、高周波数帯域の音量レベルを徐々に上昇させる。また、高フレームレート期間の終了時点より一定時間前の時点から、その終了時点までの期間に亘って、イコライザ処理部は、高周波数帯域の音量レベルを徐々に低下させる。

図２９は、第５の実施の形態における録音処理の一例を示すフローチャートである。この第５の実施の形態の録音処理は、ステップＳ９２２およびＳ９２４の代わりにステップＳ９３１およびＳ９３２を実行する点において第１の実施の形態と異なる。

録画を開始するための操作が行われると、撮像装置１００は、９６キロヘルツ（ｋＨｚ）の高サンプリングレートで録音を行い（ステップＳ９３１）、現在時刻が高フレームレート期間内であるか否かを判断する（ステップＳ９１２）。高フレームレート期間内である場合に（ステップＳ９２１：Ｙｅｓ）撮像装置１００は、生成した高解像度音声データの再生時間を変換する（ステップＳ９２３）。一方、高フレームレート期間内でない場合に（ステップＳ９２１：Ｎｏ）撮像装置１００は、４８キロヘルツ（ｋＨｚ）の低サンプリングレートにサンプリングレートを変換する（ステップＳ９３２）。ステップＳ９２３またはＳ９３２の後に、撮像装置１００は、音声データを符号化する（ステップＳ９２７）。

このように、本技術の第５の実施の形態によれば、高フレームレート期間外において高解像度音声データをリサンプリングして通常音声データを生成するため、サンプリングレート可変マイク１６１を用いることなく通常音声データを生成することができる。

＜６．第６の実施の形態＞
上述の第１の実施の形態では、音声取込み部１６０は、１つのサンプリングレート可変マイク１６１により、サンプリングレートを切り替えて通常音声データをサンプリングしていた。しかし、音声取込み部１６０は、サンプリングレートが異なる２つのマイクにより高解像度音声データおよび通常音声データを生成することもできる。この第６の実施の形態の音声取込み部１６０は、サンプリングレートが異なる２つのマイクにより高解像度音声データおよび通常音声データを生成する点において第１の実施の形態と異なる。

図３０は、第６の実施の形態における音声取込み部１６０の一構成例を示すブロック図である。この第６の実施の形態の音声取込み部１６０は、高解像度マイク１６３、通常マイク１６５、同期出力部１６６、サンプリングレート変換器１６４および合成部１６７を備える。

通常マイク１６５は、制御信号に従って、所定のサンプリングレート（４８キロヘルツなど）で音声をサンプリングして通常音声データを生成するものである。この通常マイク１６５は、録音開始タイミングから録音終了タイミングまでの期間に亘って通常音声データを生成し、同期出力部１６６に供給する。

高解像度マイク１６３は、制御信号に従って、所定のサンプリングレートより高いサンプリングレート（９６キロヘルツなど）で音声をサンプリングして高解像度音声データを生成するものである。この高解像度マイク１６３は、録音開始タイミングから録音終了タイミングまでの期間に亘って高解像度音声データを生成し、同期出力部１６６に供給する。

なお、高解像度マイク１６３および通常マイク１６５として、デジタルの音声データを出力するデジタルマイクをもうけているが、これらのデジタルマイクの代わりにアナログの音声信号を出力するアナログマイクを１つ設けてもよい。この場合には、アナログマイクからの音声信号をＡＤ変換する２つのＡＤ変換器がさらに設けられ、これらのＡＤ変換器が互いに異なるサンプリングレートでサンプリングを行う。

同期出力部１６６は、高解像度音声データおよび通常音声データを所定の同期信号に同期して出力するものである。この同期出力部１６６は、通常音声データをサンプリングレート変換器１６４に出力し、高解像音声データを合成部１６７に出力する。

サンプリングレート変換器１６４は、通常音声データのサンプリングレートを、必要に応じて、より高いサンプリングレートに変換するものである。このサンプリングレート変換器１６４は、変換後の通常音声データを合成部１６７に供給する。

合成部１６７は、通常音声データおよび高解像度音声データを合成するものである。合成部１６７は、高フレームレート期間外において高解像度音声データの比率を「０」に設定して、通常音声データのみを選択して出力する。一方、高フレームレート期間内において合成部１６７は、フェード期間内であれば、高解像度音声データに通常音声データを合成した音声データを出力し、フェード期間外であれば、高解像度音声データの比率を「１」に設定して高解像度音声データを選択して出力する。なお、合成部１６７は、特許請求の範囲に記載の選択部の一例である。

ここで、フェード期間は、フェードイン期間と、フェードアウト期間とからなる。フェードイン期間は、高フレームレート期間の開始タイミングから一定時間が経過するまでの期間である。一方、フェードアウト期間は、高フレームレート期間の終了タイミングより一定時間前のタイミングから、その終了タイミングまでの期間である。

合成部１６７は、フェードイン期間において、フェードイン期間より短い単位時間が経過するたびに、合成における高解像度音声データの比率を高くする。これにより、高解像度音声データの割合が徐々に大きくなる。一方、合成部１６７は、フェードアウト期間において、フェードアウト期間より短い単位時間が経過するたびに、合成における高解像度音声データの比率を低くする。これにより、高解像度音声データの割合が徐々に小さくなる。このように、フェードインおよびフェードアウトによりデータの割合を徐々に変更する処理は、クロスフェード処理と呼ばれる。このクロスフェード処理により、通常音声データおよび高解像度音声データの一方から他方への切り替えの部分の違和感を軽減することができる。

なお、音声取込み部１６０は、合成部１６７によりクロスフェード処理を行っているが、この構成に限定されない。音声取込み部１６０は、合成部１６７の代わりにセレクタなどを備え、クロスフェード処理を行わずに音声データをセレクタで切り替えて出力してもよい。この場合に、違和感を軽減する目的で、セレクタの後段にイコライザ処理部を追加し、イコライザ処理部が高周波数帯域の音量レベルを段階的にゲインにより徐々に調整してもよい。例えば、イコライザ処理部は、フェードイン期間に相当する期間において、高周波数帯域の音量レベルを徐々に上昇させ、フェードアウト期間に相当する期間において、高周波数帯域の音量レベルを徐々に低下させればよい。

また、音声取込み部１６０は、２つのマイクにより音声をサンプリングしているが、３つ以上のマイクによりサンプリングしてもよい。例えば、サンプリングレートが４８、９６および１９２キロヘルツ（ｋＨｚ）の３つのマイクを備え、合成部１６７が、それらを合成してもよい。例えば、フェードイン期間内の開始時点から、ある時点までにおいて合成部１６７が４８キロヘルツの音声と９６キロヘルツの音声とを合成して、９６キロヘルツの割合を徐々に高くする。そして、その時点からフェードイン期間の終了時点までにおいて合成部１６７が９６キロヘルツの音声と１９２キロヘルツの音声とを合成して、１９２キロヘルツの割合を徐々に高くする。フェードアウト期間では、合成部１６７はフェードイン期間と対照的な処理を行えばよい。

図３１は、第６の実施の形態における合成比率の変動の一例を示すグラフである。同図において縦軸は高解像度音声データの合成比率を示し、横軸は時間を示す。

同図に例示するように、高フレームレート期間外では高解像度フレームレートの合成比率は、「０」に設定される。この合成比率により、合成部１６７は、通常音声データを選択して出力する。

高フレームレート期間内のフェードイン期間において、合成部１６７は、高解像度音声データの比率を徐々に高くして合成を行う。また、高フレームレート期間内のフェードアウト期間において、合成部１６７は、高解像度音声データの比率を徐々に低くして合成を行う。また、高フレームレート期間のうちフェード期間外において高解像度音声データの比率は「１」に設定される。この合成比率により、合成部１６７は、高解像度音声データを選択して出力する。

図３２は、第６の実施の形態における録音処理の一例を示すフローチャートである。撮像装置１００は、まず、高サンプリングレート（９６キロヘルツなど）および低サンプリングレート（４８キロヘルツなど）のそれぞれで録音する（ステップＳ９４１）。そして、撮像装置１００は、現在時刻が高フレームレート期間内であるか否かを判断する（ステップＳ９４２）。

高フレームレート期間内である場合に（ステップＳ９４２：Ｙｅｓ）、撮像装置１００は、通常音声データのサンプリングレートを必要に応じて変換する（ステップＳ９４３）。そして、撮像装置１００は、クロスフェード処理を行う（ステップＳ９４４）。一方、高フレームレート期間外である場合に（ステップＳ９４２：Ｎｏ）、撮像装置１００は、通常音声データを選択する（ステップＳ９４５）。

ステップＳ９４４またはＳ９４５の後に撮像装置１００は、音声データを符号化し（ステップＳ９４６）、録音を終了するための操作（停止ボタンの押下など）が行われたか否かを判断する（ステップＳ９４７）。録音を終了するための操作が行われていない場合には（ステップＳ９４７：Ｎｏ）、撮像装置１００は、ステップＳ９４１以降を繰り返す。一方、録画を終了するための操作が行われた場合には（ステップＳ９４７：Ｙｅｓ）、撮像装置１００は、録音処理を終了する。

このように、本技術の第６の実施の形態によれば、撮像装置１００が、高解像度音声データおよび通常音声データを別々に生成し、いずれかを選択して出力するため、それらの音声データをサンプリングレート可変マイク１６１を用いずに生成することができる。

なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。

また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disc）、メモリカード、ブルーレイディスク（Blu-ray（登録商標）Disc）等を用いることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

なお、本技術は以下のような構成もとることができる。
（１）所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行うサンプリング処理部と、
前記高解像度音声データの再生時間を伸長する再生時間変換部と
を具備する録音装置。
（２）前記サンプリング処理部は、前記所定の期間外において前記所定のサンプリングレートで前記音声をサンプリングし、前記所定の期間内において前記所定のサンプリングレートより高いサンプリングレートにサンプリングレートを切り替えて前記音声をサンプリングする
前記（１）記載の録音装置。
（３）前記サンプリング処理部は、
前記所定のサンプリングレートより高いサンプリングレートで前記音声をサンプリングして前記高解像度音声データを生成する高解像度マイクと、
前記所定の期間外において前記高解像度音声データを前記所定のサンプリングレートでリサンプリングして前記通常音声データを生成するサンプリングレート変換器と
を備える前記（１）記載の録音装置。
（４）前記サンプリング処理部は、
前記所定のサンプリングレートより高いサンプリングレートで前記音声をサンプリングして前記高解像度音声データを生成する高解像度マイクと
前記所定のサンプリングレートで前記音声をサンプリングして前記通常音声データを生成する通常マイクと、
前記所定の期間内において前記高解像度音声データを選択して出力し、前記所定の期間外において前記通常音声データを選択して出力する選択部と
を備える請求項１記載の録音装置。
（５）前記選択部は、前記所定の期間内の一定のフェード期間において前記高解像度音声データに前記通常音声データを合成する合成処理を行う
前記（４）記載の録音装置。
（６）前記選択部は、前記合成処理において前記フェード期間より短い単位時間が経過するたびに前記高解像度音声データの割合を変更する
前記（５）記載の録音装置。
（７）所定のフレームレートより高いフレームレートで複数のフレームを撮像する撮像部と、
前記複数のフレームのうち前記所定の期間外に撮像されたフレームのフレームレートを前記所定のフレームレートに変換するフレームレート変換部と
をさらに具備する前記（１）から（７）のいずれかに記載の録音装置。
（８）所定のタイミングを含む期間を前記所定の期間として設定する制御部をさらに具備する
前記（７）記載の録音装置。
（９）前記複数のフレームの中からシーンが変化したシーン変化タイミングを検出するシーン変化検出部をさらに具備し、
前記制御部は、前記シーン変化タイミングを含む期間を前記所定の期間として設定する前記（８）記載の録音装置。
（１０）所定の検知対象を検知するセンサーをさらに具備し、
前記制御部は、前記検知対象が検知されたタイミングを含む期間を前記所定の期間に設定する前記（８）または（９）に記載の録音装置。
（１１）前記再生時間が伸長された高解像度音声データに対して所定の信号処理を実行する信号処理部をさらに具備する
前記（１）から（１０）のいずれかに記載の録音装置。
（１２）前記信号処理部は、前記高解像度音声データを複製する
前記（１１）記載の録音装置。
（１３）前記信号処理部は、前記高解像度音声データの音量レベルを所定のゲインにより調整する
前記（１１）または（１２）に記載の録音装置。
（１４）前記信号処理部は、前記高解像度音声データの周波数特性を変更する
前記（１１）から（１３）のいずれかに記載の録音装置。
（１５）所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行い、前記高解像度音声データの再生時間を伸長し、前記再生時間を伸長した前記高解像度音声データに対して実行すべき信号処理を示す設定情報を含むメタデータを生成する録音装置と、
前記設定情報に従って前記信号処理を実行して前記信号処理を実行した前記高解像度音声データと前記通常音声データとを再生する再生装置と
を具備する録音システム。
（１６）前記メタデータのフォーマットは、ＭＰＥＧ４−ＡＡＣであり、
前記録音装置は、前記メタデータのＤＳＥ（Data Stream Element）領域に前記設定情報を記録する
前記（１５）記載の録音システム。
（１７）前記メタデータのフォーマットは、ＭＰＥＧ４−ｓｙｓｔｅｍであり、
前記録音装置は、前記メタデータのｕｄｔａ領域に前記設定情報を記録する
前記（１５）記載の録音システム。
（１８）前記メタデータのフォーマットは、ＨＭＭＰ（Home and Mobile Multimedia Platform）であり、
前記録音装置は、前記メタデータのｕｕｉｄ領域に前記設定情報を記録する
前記（１５）記載の録音システム。
（１９）所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行い、前記高解像度音声データの再生時間を伸長し、前記再生時間を伸長した前記高解像度音声データに対して実行すべき信号処理を示す設定情報を含むメタデータを生成する録音装置と、
前記設定情報を変更して当該変更した設定情報の示す前記信号処理を実行する編集装置と
を具備する録音システム。
（１０）所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行うサンプリング処理手順と、
前記高解像度音声データの再生時間を伸長する再生時間変換手順と
を具備する録音方法。

１００撮像装置
１０１録音装置
１１０、２１０、３１０ユーザインターフェース部
１１５センサー
１２０、１２５制御部
１３０動画取込み部
１３１撮像部
１３２、１７１バッファ
１３３シーン変化検出部
１３４フレームレート変換部
１４０動画処理部
１５０記録フォーマット変換部
１６０音声取込み部
１６１サンプリングレート可変マイク
１６２付加情報生成部
１６３高解像度マイク
１６４サンプリングレート変換器
１６５通常マイク
１６６同期出力部
１６７合成部
１７０音声処理部
１７２、３５０再生時間変換部
１７３、２５０、３６０複製部
１７４、２６０、３７０エフェクト処理部
１７５ゲイン調整部
１７６イコライザ処理部
１７７音声符号化部
１８０記録部
１９０メタデータ生成部
２００再生装置
２２０、３２０メタデータ分離部
２３０再生制御部
２４０、３４０復号部
２７０表示部
２８０スピーカ
３００編集装置
３３０編集制御部
３８０再符号化部

Claims

所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行うサンプリング処理部と、
前記高解像度音声データの再生時間を伸長する再生時間変換部と
を具備する録音装置。
前記サンプリング処理部は、前記所定の期間外において前記所定のサンプリングレートで前記音声をサンプリングし、前記所定の期間内において前記所定のサンプリングレートより高いサンプリングレートにサンプリングレートを切り替えて前記音声をサンプリングする
請求項１記載の録音装置。
前記サンプリング処理部は、
前記所定のサンプリングレートより高いサンプリングレートで前記音声をサンプリングして前記高解像度音声データを生成する高解像度マイクと、
前記所定の期間外において前記高解像度音声データを前記所定のサンプリングレートでリサンプリングして前記通常音声データを生成するサンプリングレート変換器と
を備える請求項１記載の録音装置。
前記サンプリング処理部は、
前記所定のサンプリングレートより高いサンプリングレートで前記音声をサンプリングして前記高解像度音声データを生成する高解像度マイクと
前記所定のサンプリングレートで前記音声をサンプリングして前記通常音声データを生成する通常マイクと、
前記所定の期間内において前記高解像度音声データを選択して出力し、前記所定の期間外において前記通常音声データを選択して出力する選択部と
を備える請求項１記載の録音装置。
前記選択部は、前記所定の期間内の一定のフェード期間において前記高解像度音声データに前記通常音声データを合成する合成処理を行う
請求項４記載の録音装置。
前記選択部は、前記合成処理において前記フェード期間より短い単位時間が経過するたびに前記高解像度音声データの割合を変更する
請求項５記載の録音装置。
所定のフレームレートより高いフレームレートで複数のフレームを撮像する撮像部と、
前記複数のフレームのうち前記所定の期間外に撮像されたフレームのフレームレートを前記所定のフレームレートに変換するフレームレート変換部と
をさらに具備する請求項１記載の録音装置。
所定のタイミングを含む期間を前記所定の期間として設定する制御部をさらに具備する
請求項７記載の録音装置。
前記複数のフレームの中からシーンが変化したシーン変化タイミングを検出するシーン変化検出部をさらに具備し、
前記制御部は、前記シーン変化タイミングを含む期間を前記所定の期間として設定する請求項８記載の録音装置。
所定の検知対象を検知するセンサーをさらに具備し、
前記制御部は、前記検知対象が検知されたタイミングを含む期間を前記所定の期間に設定する請求項８記載の録音装置。
前記再生時間が伸長された高解像度音声データに対して所定の信号処理を実行する信号処理部をさらに具備する
請求項１記載の録音装置。
前記信号処理部は、前記高解像度音声データを複製する
請求項１１記載の録音装置。
前記信号処理部は、前記高解像度音声データの音量レベルを所定のゲインにより調整する
請求項１１記載の録音装置。
前記信号処理部は、前記高解像度音声データの周波数特性を変更する
請求項１１記載の録音装置。
所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行い、前記高解像度音声データの再生時間を伸長し、前記再生時間を伸長した前記高解像度音声データに対して実行すべき信号処理を示す設定情報を含むメタデータを生成する録音装置と、
前記設定情報に従って前記信号処理を実行して前記信号処理を実行した前記高解像度音声データと前記通常音声データとを再生する再生装置と
を具備する録音システム。
前記メタデータのフォーマットは、ＭＰＥＧ４−ＡＡＣであり、
前記録音装置は、前記メタデータのＤＳＥ（Data Stream Element）領域に前記設定情報を記録する
請求項１５記載の録音システム。
前記メタデータのフォーマットは、ＭＰＥＧ４−ｓｙｓｔｅｍであり、
前記録音装置は、前記メタデータのｕｄｔａ領域に前記設定情報を記録する
請求項１５記載の録音システム。
前記メタデータのフォーマットは、ＨＭＭＰ（Home and Mobile Multimedia Platform）であり、
前記録音装置は、前記メタデータのｕｕｉｄ領域に前記設定情報を記録する
請求項１５記載の録音システム。
所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行い、前記高解像度音声データの再生時間を伸長し、前記再生時間を伸長した前記高解像度音声データに対して実行すべき信号処理を示す設定情報を含むメタデータを生成する録音装置と、
前記設定情報を変更して当該変更した設定情報の示す前記信号処理を実行する編集装置と
を具備する録音システム。
所定のサンプリングレートより高いサンプリングレートで所定の期間内において音声をサンプリングして音声データを高解像度音声データとして生成する処理と前記所定のサンプリングレートで前記所定の期間外において音声をサンプリングして音声データを通常音声データとして生成する処理とを行うサンプリング処理手順と、
前記高解像度音声データの再生時間を伸長する再生時間変換手順と
を具備する録音方法。