JP2011254400A - 画像音声記録装置 - Google Patents
画像音声記録装置 Download PDFInfo
- Publication number
- JP2011254400A JP2011254400A JP2010128215A JP2010128215A JP2011254400A JP 2011254400 A JP2011254400 A JP 2011254400A JP 2010128215 A JP2010128215 A JP 2010128215A JP 2010128215 A JP2010128215 A JP 2010128215A JP 2011254400 A JP2011254400 A JP 2011254400A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- gain value
- unit
- person
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる画像音声記録装置を提供すること。
【解決手段】マイク106を介して入力された音声信号はフィルタ1072において人物音声信号と背景音声信号とに分離される。人物音声信号から検出される音量に基づいてゲイン値設定部1074によって可変増幅器1073のゲイン値αが設定され、可変増幅器1073による人物音声信号の増幅が行われる。ゲイン値設定部1076によって被写体距離に応じたゲイン値βが設定され、可変増幅器1075による人物音声信号のさらなる増幅が行われる。可変増幅器1075で増幅された人物音声信号は合成部1077において背景音声信号と合成される。この合成音声信号に基づいて合成音声データが生成され、この合成音声データが画像データとともに記録部105に記録される。
【選択図】図2
【解決手段】マイク106を介して入力された音声信号はフィルタ1072において人物音声信号と背景音声信号とに分離される。人物音声信号から検出される音量に基づいてゲイン値設定部1074によって可変増幅器1073のゲイン値αが設定され、可変増幅器1073による人物音声信号の増幅が行われる。ゲイン値設定部1076によって被写体距離に応じたゲイン値βが設定され、可変増幅器1075による人物音声信号のさらなる増幅が行われる。可変増幅器1075で増幅された人物音声信号は合成部1077において背景音声信号と合成される。この合成音声信号に基づいて合成音声データが生成され、この合成音声データが画像データとともに記録部105に記録される。
【選択図】図2
Description
本発明は、画像及び音声を記録する画像音声記録装置に関する。
近年、デジタルカメラ等では、動画像を記録できるものが増えてきており、これに伴って音声の記録も行えるようになっている。このような画像と音声の双方を記録できる画像音声記録装置においては、複数の異なる距離に同時に音源が存在する場合に、至近の音源からの音声が不自然に大きな音量となり、遠方の音源からの音声が小さな音量となって記録される場合があった。これに対し特許文献1では、マイクロホンを介して入力された音声信号の音圧(音量)がある一定レベルとなるように音声信号の増幅を行うことで、音源までの距離や音圧によらずに一定の音量での音声の記録再生を行えるようにしている。
特許文献1の手法では、再生時に聞き取りやすい音量で音声の記録を行える一方で、音源までの距離や音源の音量の情報が反映されなくなるため、かえって不自然さを与えてしまう場合も考えられる。
本発明は、上記の事情に鑑みてなされたもので、再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる画像音声記録装置を提供することを目的とする。
本発明は、上記の事情に鑑みてなされたもので、再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる画像音声記録装置を提供することを目的とする。
上記の目的を達成するために、本発明の一態様の画像音声記録再生装置は、被写体の像を受光して電気信号に変換し、前記被写体の像に基づく画像データを出力する撮像部と、前記被写体までの距離を検出する距離検出部と、音源からの音声を電気信号に変換する音声検出部と、前記音声信号を、人物を音源とする音声に基づく人物音声信号と背景を音源とする音声に基づく背景音声信号とに分離する音声分離部と、前記人物音声信号における音量が所定の音量となるように前記人物音声信号を第1のゲイン値で増幅する第1の増幅部と、前記第1の増幅部で増幅された人物音声信号を前記被写体距離に応じた第2のゲイン値で増幅する第2の増幅部と、前記第2の増幅部で増幅された人物音声信号と前記背景音声信号とを合成し、合成音声データを生成する合成部と、前記合成によって得られた合成音声データを前記画像データとともに記録する記録部とを具備することを特徴とする。
本発明によれば、再生時に聞き取りやすい音量で且つ不自然さを感じさせることなく画像と連携した音声を記録できる。
以下、図面を参照して本発明の実施形態を説明する。
図1は、本発明の一実施形態に係る画像音声記録装置の一例としてのデジタルカメラの構成を示す図である。図1に示すデジタルカメラ(以下、単にカメラと記す)100は、撮像部101と、バス102と、画像処理部103と、表示部104と、記録部105と、マイクロホン(マイク)106と、音声処理部107と、スピーカ108と、顔検出部109と、被写体距離検出部110と、制御部111と、操作部112とを有している。
図1は、本発明の一実施形態に係る画像音声記録装置の一例としてのデジタルカメラの構成を示す図である。図1に示すデジタルカメラ(以下、単にカメラと記す)100は、撮像部101と、バス102と、画像処理部103と、表示部104と、記録部105と、マイクロホン(マイク)106と、音声処理部107と、スピーカ108と、顔検出部109と、被写体距離検出部110と、制御部111と、操作部112とを有している。
撮像部101は、レンズや撮像素子、アナログ/デジタル(A/D)変換部等を有しており、被写体の像を受光して電気信号(画像信号)に変換し、この画像信号をデジタル信号に変換して被写体の像に基づく画像データを生成する。バス102は、カメラ100の内部で発生した各種データを撮像装置内の各ブロックに転送するための転送路である。画像処理部103は、階調補正回路や圧縮伸張回路等を備え、撮像部101で得られた画像データに対して各種の画像処理を施す。表示部104は、例えば液晶ディスプレイであり、各種の画像を表示する。記録部105は、例えばカメラ100に対して着脱可能なメモリカードからなる記録媒体であり、画像処理部103で処理された画像データと音声処理部107で処理された音声データとを含む動画像データ等が記録される。音声検出部としての機能を有するマイク106は、カメラ100の外部に配置された音源からの音声を電気信号(音声信号)に変換する。音声処理部107は、マイク106で得られた音声信号に対して増幅処理を施した上でデジタル信号に変換してこれによって得られる音声データに対して各種の音声処理を施したり、記録部105に記録された音声データから音声信号を復元したりする処理を行う。スピーカ108は、音声処理部107によって復元された音声信号に基づく音声を再生する。顔検出部109は、撮像部101を介して得られる画像データから、撮影時の主要被写体である人物の顔領域を検出する。顔の検出は、例えば顔の特徴を示す部分(目や鼻、口等)を画像データ中から検出することで行う。被写体距離検出部110は被写体距離を検出する。この被写体距離検出部110は、例えばアクティブ方式のAFセンサを用いることができる。この他、撮像部101を介して得られる画像データから被写体距離を検出するようにしても良い。制御部111は、撮像部101の動作制御や表示部104の動作制御等の、カメラ100の各種シーケンスを統括的に制御する。操作部112は、ユーザがカメラ100を操作するための各種の操作部材である。
図2に、音声処理部107の構成を示す。音声処理部107は、プリアンプ1071と、フィルタ1072と、可変増幅器1073及び1075と、ゲイン値設定部1074及び1076と、合成部1077とを有している。
プリアンプ1071は、マイク106を介して入力された音声信号を予め設定されているゲイン値に従って増幅する。音声分離部としての機能を有するフィルタ1072は、人物を音源とする人物音声信号と背景を音源とする背景音声信号とにプリアンプ1071で増幅された音声信号を分離し、人物音声信号を可変増幅器1073とゲイン値設定部1074とに出力するとともに、背景音声信号を合成部1077に出力する。フィルタ1072は、例えば図3のような人の音声の周波数帯域(100〜300Hz程度)を有する音声信号を人物音声信号として抽出する帯域通過フィルタ等で構成される。可変増幅器1073は、フィルタ1072で分離された人物音声信号をゲイン値(第1のゲイン値)α倍に増幅する。ゲイン値設定部1074は、フィルタ1072から入力された人物音声信号から人物を音源とする音声の音量(入力された音声信号の振幅に対応)を検出し、検出した音量に従って可変増幅器1073のゲイン値αを設定する。可変増幅器1073とゲイン値設定部1074とによって第1の増幅部の機能が実現される。可変増幅器1075は、可変増幅器1073によって増幅された人物音声信号をゲイン値(第2のゲイン値)β倍に増幅する。ゲイン値設定部1076は、制御部111から入力されたシーンモードの設定と、顔検出部109による顔検出結果と、被写体距離検出部110による被写体距離検出結果とに従って可変増幅器1075のゲイン値βを設定する。可変増幅器1075とゲイン値設定部1076とによって第2の増幅部の機能が実現される。合成部1077は、可変増幅器1075から出力された人物音声信号とフィルタ1072から出力された背景音声信号とを合成した後、この合成音声信号をデジタル化し、各種の音声処理(圧縮処理等)を施して合成音声データを生成する。
プリアンプ1071は、マイク106を介して入力された音声信号を予め設定されているゲイン値に従って増幅する。音声分離部としての機能を有するフィルタ1072は、人物を音源とする人物音声信号と背景を音源とする背景音声信号とにプリアンプ1071で増幅された音声信号を分離し、人物音声信号を可変増幅器1073とゲイン値設定部1074とに出力するとともに、背景音声信号を合成部1077に出力する。フィルタ1072は、例えば図3のような人の音声の周波数帯域(100〜300Hz程度)を有する音声信号を人物音声信号として抽出する帯域通過フィルタ等で構成される。可変増幅器1073は、フィルタ1072で分離された人物音声信号をゲイン値(第1のゲイン値)α倍に増幅する。ゲイン値設定部1074は、フィルタ1072から入力された人物音声信号から人物を音源とする音声の音量(入力された音声信号の振幅に対応)を検出し、検出した音量に従って可変増幅器1073のゲイン値αを設定する。可変増幅器1073とゲイン値設定部1074とによって第1の増幅部の機能が実現される。可変増幅器1075は、可変増幅器1073によって増幅された人物音声信号をゲイン値(第2のゲイン値)β倍に増幅する。ゲイン値設定部1076は、制御部111から入力されたシーンモードの設定と、顔検出部109による顔検出結果と、被写体距離検出部110による被写体距離検出結果とに従って可変増幅器1075のゲイン値βを設定する。可変増幅器1075とゲイン値設定部1076とによって第2の増幅部の機能が実現される。合成部1077は、可変増幅器1075から出力された人物音声信号とフィルタ1072から出力された背景音声信号とを合成した後、この合成音声信号をデジタル化し、各種の音声処理(圧縮処理等)を施して合成音声データを生成する。
以下、図1及び図2に示した本実施形態の画像音声記録装置の動作について説明する。ここで、以下の説明においては動画撮影時の動作について説明する。しかしながら、本実施形態における画像音声記録装置は静止画像を単独で記録したり、音声を単独で記録したり、静止画像と音声を連携させて記録したり等もできる。
まず、動画撮影に先立ってシーンモードの設定が行われる。シーンモードは、ユーザが細かな設定を行うことなく特定のシーンに適した撮影を行えるようにするための動作モードである。シーンモードの設定は、例えばユーザの操作部112の操作によって行われる。以下においては、カメラ100が、シーンモードとして、人物撮影に適したポートレートモードと風景撮影に適した風景モードとを有している例を説明する。例えばポートレートモードであれば、撮影時において顔検出が行われ、顔検出結果に従って被写体である人物の顔にフォーカスや露出を合わせる等の処理が行われる。
シーンモードの設定後、ユーザの操作部112の操作によって動画撮影の実行が指示されると、制御部111は、シーンモードに対応した設定で撮像部101とマイク106の動作を開始させる。撮像部101の撮像素子で得られた画像信号はA/D変換部でデジタル化される。画像処理部103は撮像部101を介して得られた画像データに対して種々の画像処理を施す。この画像処理は、従来周知の処理であり、例えばMPEG方式の圧縮処理等が含まれる。
一方、音声処理部107はマイク106を介して得られた音声信号に対して音声処理を施す。プリアンプ1071はマイク106を介して得られた音声信号を固定のゲイン値に従って増幅する。プリアンプ1071のゲイン値はそれほど大きな値とする必要はないが、最低限、フィルタ1072における分離が可能な程度の音声信号を生成できるゲイン値とする。プリアンプ1071から出力された音声信号はフィルタ1072に入力される。フィルタ1072は、入力された音声信号を人物音声信号と背景音声信号とに分離し、人物音声信号を可変増幅器1073とゲイン値設定部1074とに入力し、背景音声信号を合成部1077に入力する。
ゲイン値設定部1074は、入力された人物音声信号から検出される音量(振幅)から、入力された人物音声信号が有音部であるか無音部であるかを判断する。入力された人物音声信号が有音部であるか否かは、例えば図4に示すように、入力された人物音声信号から検出される音量(振幅)が第1の所定値以上であるか否かによって判断する。さらに、本実施形態では、入力された人物音声信号が撮影者を音源としたものであるか否かの判断も行う。入力された人物音声信号が撮影者を音源としたものであるか否かは、例えば図4に示すように、入力された人物音声信号から検出される音量(振幅)が第1の所定値よりも十分大きい第2の閾値以上であるか否かによって判断する。通常、撮影者はカメラ100から最も近くに存在しているので、最も大きい音量の音声が撮影者の音声としてカメラ100に入力される可能性が高い。したがって、本実施形態では、音量が第2の閾値以上となった場合にはその音声を撮影者が発したものであると考える。
入力された人物音声信号が有音部である場合に、ゲイン値設定部1074は、人物音声信号から検出される音量(振幅)が所定の音量(振幅)となるようにゲイン値αを設定する。即ち、ゲイン値設定部1074は、図4に示すように、音量が大きくなるほどゲイン値αを小さくし、音量が小さくなるほどゲイン値αを大きくする。
なお、ゲイン値設定部1074は、有音部が検出されてから次に無音部が検出されるまでの期間(図5の有音部の期間)のゲイン値αを設定し、無音部が検出された時点でゲイン値αを1倍に戻し、その後に再び有音部が検出された場合にゲイン値αを更新するように構成することが望ましい。このようにすることで、例えば複数の人物が混在するような撮影シーンにおいて、人物毎の適切な人物音声信号の増幅処理を行うことが可能となる。
ゲイン値設定部1074によってゲイン値αが設定されると、可変増幅器1073は、ゲイン値α倍だけ人物音声信号を増幅する。このような増幅がなされた人物音声信号を記録部105に記録した場合には、常に聞き取り易い音量の人物音声信号を記録することが可能となる。
また、入力された人物音声信号が無音部である場合に、ゲイン値設定部1074は、ゲイン値αを1倍に設定する。これは、ノイズ音等の不要な音声が増幅されるのを防止するための処理である。
さらに、ゲイン値設定部1074は、入力された人物音声信号が有音部であるのか、無音部であるのか、撮影者を音源としたものであるのかを示す情報と、可変増幅器1073に設定したゲイン値αとをゲイン値設定部1076に送信する。
さらに、ゲイン値設定部1074は、入力された人物音声信号が有音部であるのか、無音部であるのか、撮影者を音源としたものであるのかを示す情報と、可変増幅器1073に設定したゲイン値αとをゲイン値設定部1076に送信する。
ゲイン値設定部1076は、ゲイン値設定部1074から入力された情報に従って、入力された人物音声信号が有音部であるのか、無音部であるのか、撮影者を音源としたものであるのかを判断する。そして、ゲイン値設定部1076は、この判断結果と、シーンモードと、顔検出結果と、被写体距離とに従ってゲイン値βを設定する。
図6は、ゲイン値設定部1076における撮影状況毎のゲイン値βの設定の例を示す図である。図6に示した例は、それぞれ、(1)人物のみの撮影シーンで且つ音源に人物が含まれている撮影状況、(2)人物のみの撮影シーンで且つ音源に人物が含まれていない撮影状況、(3)風景のみの撮影シーンで且つ音源に人物が含まれている撮影状況、(4)人物と風景の混在シーンで且つ音源に人物が含まれている撮影状況、を示している。
まず、ゲイン値設定部1076はシーンモードの判別を行う。シーンモードがポートレートモード場合にはゲイン値の設定に顔検出結果を利用する。この際、ゲイン値設定部1076は、顔検出部109の顔検出結果から、撮影シーンに人物(顔)が含まれているか否かを判定する。
入力された人物音声信号が有音部で且つ撮影シーンに顔が含まれていた場合に、ゲイン値設定部1076は、被写体距離に応じてゲイン値βを設定する。即ち、ゲイン値設定部1076は、図7に示すように、被写体距離が大きくなるほどゲイン値βを小さくする。ここで、複数の顔が検出されていた場合には、被写体距離のみからでは、現在、可変増幅器1075に入力されている人物音声信号がどの距離の人物を音源としたものであるかを判別することはできない。この場合、ゲイン値設定部1076は、ゲイン値αの大小から、現在、入力されている人物音声信号がどの距離の人物を音源としたものであるかを判別する。通常は、遠距離の被写体の場合には音量が小さくなってゲイン値αが大きくなり、近距離の被写体の場合には音量が大きくなってゲイン値αが小さくなると考えられる。したがって、ゲイン値αの大小から、人物音声信号がどの距離の人物を音源としたものであるかを判別することが可能である。
また、入力された人物音声信号が有音部で且つ撮影シーンに顔が含まれていない場合、或いは入力された人物音声信号が撮影者を音源としたものである場合には、ゲイン値設定部1076は、顔の有無や被写体距離によらずにゲイン値βを1倍よりも低い値に設定する。さらに、入力された人物音声信号が無音部の場合、ゲイン値設定部1076は、ゲイン値βを1倍に設定する。
また、シーンモードが風景モードの場合に、ゲイン値設定部1076は、顔の有無や被写体距離によらずにゲイン値βを1倍に設定する。
なお、ゲイン値設定部1076も、有音部が検出されてから次に無音部が検出されるまでの期間(図5の有音部の期間)のゲイン値βを設定し、無音部が検出された時点でゲイン値βを1倍にし、その後に再び有音部が検出された場合にゲイン値βを更新するように構成することが望ましい。
なお、ゲイン値設定部1076も、有音部が検出されてから次に無音部が検出されるまでの期間(図5の有音部の期間)のゲイン値βを設定し、無音部が検出された時点でゲイン値βを1倍にし、その後に再び有音部が検出された場合にゲイン値βを更新するように構成することが望ましい。
以上のようにして、ゲイン値設定部1076によってゲイン値βが設定されると、可変増幅器1075はゲイン値β倍だけ人物音声信号を増幅する。合成部1077は、可変増幅器1075によって増幅がなされた人物音声信号を背景音声信号と合成(信号の加算)する。さらに、合成部1077は、合成音声信号をデジタル信号に変換する。その後に、合成部1077は、デジタル変換により得られた合成音声データに対して種々の音声処理を施す。この音声処理は、音声のMEPG圧縮等の従来周知の処理を適用できる。合成部1077の処理の後、制御部111は、画像処理部103から出力される画像データと音声処理部107から出力される音声データとから動画像データを生成し、この動画像データを記録部105に記録する。
例えば、(1)の撮影状況でシーンモードがポートレートモードの場合には2人の人物のそれぞれの被写体距離に応じたゲイン値βが設定される。図6では、近距離の被写体に対するゲイン値β1が1.5倍に設定され、近距離の被写体に対するゲイン値β2が1倍に設定された例を示している。ここで、近距離の被写体を音源とする人物音声信号をVin1とし、人物音声信号Vin1に対して設定されたゲイン値αをα1とすると、可変増幅器1075の出力がVin1×α1×1.5となる。一方、遠距離の被写体を音源とする人物音声信号をVin2とし、人物音声信号Vin2に対して設定されたゲイン値αをα2とすると、可変増幅器1075の出力がVin2×α2×1(ただしVin1の振幅×α1=Vin2の振幅×α2)となる。また、(1)の撮影状況でシーンモードが風景モードの場合には2人の人物のそれぞれに対するゲイン値が1倍に設定される。この場合、近距離の被写体を音源とする人物音声信号Vin1に対しては、可変増幅器1075の出力がVin1×α1×1となる。また、遠距離の被写体を音源とする人物音声信号Vin2に対しては、可変増幅器1075の出力がVin2×α1×1となる。
(2)の撮影状況では人物音声信号が入力されないため、可変増幅器1073及び可変増幅器1075による増幅が行われない。この場合には背景音声のみが記録される。(3)の撮影状況では人物(顔)が検出されないため、ゲイン値βが1倍よりも小さな値に設定される。図6では、1/8倍に設定された例を示している。(4)の撮影状況では(1)と同様のゲイン値βの設定がなされる。
以上説明したように、本実施形態においては、可変増幅器1073において音量に応じた増幅を行い、また、可変増幅器1075において被写体距離や撮影シーンに応じた増幅を行うことで、再生時に聞き取りやすい音量で且つ被写体距離に応じた音量の人物音声信号と背景音声信号とを合成してなる合成音声データを画像データと連携させて記録できる。これにより、動画像データの再生時にユーザに不自然さを感じさせる可能性を低減できる。
また、人物音声信号と背景音声信号とを分離し、人物音声信号のみの増幅を行うことで、人物の音声が背景音にまぎれてしまう可能性を低減できる。
さらに、撮影者の音声や人物が検出できない(風景のみの)シーンにおいては、人物音声信号の振幅を小さくするような増幅を行うことで、風景撮影であるのに不要な人物音声の音量が大きくなる等がなく、より撮影シーンに則した音声記録を行うことが可能である。
さらに、撮影者の音声や人物が検出できない(風景のみの)シーンにおいては、人物音声信号の振幅を小さくするような増幅を行うことで、風景撮影であるのに不要な人物音声の音量が大きくなる等がなく、より撮影シーンに則した音声記録を行うことが可能である。
ここで、説明を分かり易くするため、上述した例においては、2つの可変増幅器1073、1075を用いて人物音声信号の増幅を行う例を示している。しかしながら、2つの可変増幅器1073、1075の代わりに、(α×β)倍の増幅を行う1つの可変増幅器を用いるようにしても良い。また、上述した例においては、シーンモードの設定と、顔検出結果と、被写体距離検出結果とに従ってゲイン値βを設定するようにしているが、これ以外の条件を加えても良い。例えば、顔検出部109において口の動きを検出するようにして、口の動きが多い人物に対応した人物音声信号に対してはゲイン値βを大きくし、口の動きが少ない人物に対応した人物音声信号に対してはゲイン値βを小さくする等の設定を行うようにしても良い。また、上述した例では人物音声信号の増幅のみを例示しているが、例えばポートレートモードではノイズ除去処理を行うようにしたり、風景モードでは各種の特殊フィルタ処理を行う等、増幅以外の処理を組み合わせても良い。
以上実施形態に基づいて本発明を説明したが、本発明は上述した実施形態に限定されるものではなく、本発明の要旨の範囲内で種々の変形や応用が可能なことは勿論である。
さらに、上記した実施形態には種々の段階の発明が含まれており、開示される複数の構成要件の適当な組合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、上述したような課題を解決でき、上述したような効果が得られる場合には、この構成要件が削除された構成も発明として抽出され得る。
さらに、上記した実施形態には種々の段階の発明が含まれており、開示される複数の構成要件の適当な組合せにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、上述したような課題を解決でき、上述したような効果が得られる場合には、この構成要件が削除された構成も発明として抽出され得る。
100…デジタルカメラ(カメラ)、101…撮像部、102…バス、103…画像処理部、104…表示部、105…記録部、106…マイクロホン(マイク)、107…音声処理部、108…スピーカ、109…顔検出部、110…被写体距離検出部、111…制御部、112…操作部、1071…プリアンプ、1072…フィルタ、1073,1075…可変増幅器、1074,1076…ゲイン値設定部、1077…合成部
Claims (3)
- 被写体の像を受光して電気信号に変換し、前記被写体の像に基づく画像データを出力する撮像部と、
前記被写体までの被写体距離を検出する被写体距離検出部と、
音源からの音声を電気信号に変換する音声検出部と、
前記音声信号を、人物を音源とする音声に基づく人物音声信号と背景を音源とする音声に基づく背景音声信号とに分離する音声分離部と、
前記人物音声信号における音量が所定の音量となるように前記人物音声信号を第1のゲイン値で増幅する第1の増幅部と、
前記第1の増幅部で増幅された人物音声信号を前記被写体距離に応じた第2のゲイン値で増幅する第2の増幅部と、
前記第2の増幅部で増幅された人物音声信号と前記背景音声信号とを合成し、合成音声データを生成する合成部と、
前記合成によって得られた合成音声データを前記画像データとともに記録する記録部と、
を具備することを特徴とする画像音声記録装置。 - 前記第1の増幅部及び前記第2の増幅部は、それぞれ、前記人物音声信号における無音部と有声部を検出し、有音部が検出されてから次に無音部が検出されるまでの前記第1のゲイン値及び前記第2のゲイン値を設定することを特徴とする請求項1に記載の画像音声記録装置。
- 前記画像データ中の人物を検出する人物検出部をさらに具備し、
前記第2の増幅部は、前記人物検出部によって人物が検出された場合には、前記被写体距離に応じて前記第2のゲイン値を設定し、前記人物検出部によって人物が検出されない場合には、前記人物音声信号における音量が前記所定の音量よりも小さい音量となるように前記第2のゲイン値を設定することを特徴とする請求項1又は2に記載の画像音声記録装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128215A JP2011254400A (ja) | 2010-06-03 | 2010-06-03 | 画像音声記録装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128215A JP2011254400A (ja) | 2010-06-03 | 2010-06-03 | 画像音声記録装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011254400A true JP2011254400A (ja) | 2011-12-15 |
Family
ID=45417936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010128215A Withdrawn JP2011254400A (ja) | 2010-06-03 | 2010-06-03 | 画像音声記録装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011254400A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014036257A (ja) * | 2012-08-07 | 2014-02-24 | Nikon Corp | 再生処理装置、撮像装置および再生処理プログラム |
JPWO2015097831A1 (ja) * | 2013-12-26 | 2017-03-23 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
JP2017204869A (ja) * | 2017-06-29 | 2017-11-16 | 株式会社ニコン | 再生処理装置、撮像装置および再生処理プログラム |
JP2020156076A (ja) * | 2019-03-13 | 2020-09-24 | パナソニックIpマネジメント株式会社 | 撮像装置 |
CN111862999A (zh) * | 2019-04-08 | 2020-10-30 | 群光电子股份有限公司 | 语音处理系统及语音处理方法 |
US11463615B2 (en) | 2019-03-13 | 2022-10-04 | Panasonic Intellectual Property Management Co., Ltd. | Imaging apparatus |
-
2010
- 2010-06-03 JP JP2010128215A patent/JP2011254400A/ja not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014036257A (ja) * | 2012-08-07 | 2014-02-24 | Nikon Corp | 再生処理装置、撮像装置および再生処理プログラム |
JPWO2015097831A1 (ja) * | 2013-12-26 | 2017-03-23 | 株式会社東芝 | 電子機器、制御方法およびプログラム |
JP2017204869A (ja) * | 2017-06-29 | 2017-11-16 | 株式会社ニコン | 再生処理装置、撮像装置および再生処理プログラム |
JP2020156076A (ja) * | 2019-03-13 | 2020-09-24 | パナソニックIpマネジメント株式会社 | 撮像装置 |
US11463615B2 (en) | 2019-03-13 | 2022-10-04 | Panasonic Intellectual Property Management Co., Ltd. | Imaging apparatus |
JP7217471B2 (ja) | 2019-03-13 | 2023-02-03 | パナソニックIpマネジメント株式会社 | 撮像装置 |
CN111862999A (zh) * | 2019-04-08 | 2020-10-30 | 群光电子股份有限公司 | 语音处理系统及语音处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013106298A (ja) | 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置 | |
JP4934580B2 (ja) | 映像音声記録装置および映像音声再生装置 | |
US20050237395A1 (en) | Information processing apparatus, imaging apparatus, information processing method, and program | |
JP2011254400A (ja) | 画像音声記録装置 | |
JP6731632B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP5020845B2 (ja) | 音声処理装置 | |
JP5155092B2 (ja) | カメラ、再生装置、および再生方法 | |
JP5214394B2 (ja) | カメラ | |
JP2015104091A (ja) | 風雑音低減装置を備えた音声処理装置及びそれを有する撮像装置 | |
JP2013183280A (ja) | 情報処理装置、撮像装置、及びプログラム | |
US11290812B2 (en) | Audio data arrangement | |
JP5638897B2 (ja) | 撮像装置 | |
JP5750668B2 (ja) | カメラ、再生装置、および再生方法 | |
JP2011130134A (ja) | 撮像装置、撮像システム | |
JP2007266661A (ja) | 撮像装置、情報処理装置、撮像表示システム | |
JP4515005B2 (ja) | 電子カメラ | |
JP2012253692A (ja) | 撮像装置、再生装置、データ構造、撮像装置の制御方法および撮像装置用プログラム | |
JP2011124850A (ja) | 撮像装置並びにその制御方法及びプログラム | |
JP5495753B2 (ja) | 撮像装置 | |
JP2011002652A (ja) | 音声信号処理装置 | |
JP2008278315A (ja) | 撮像装置及びそのプログラム | |
JP2023034121A (ja) | 撮像装置、制御方法、およびプログラム | |
KR20060057748A (ko) | 영상과 음성이 연동되어 가변되는 장치 및 방법 | |
JP2023009567A (ja) | 撮像装置、制御方法、およびプログラム | |
JP2006217111A (ja) | 動画撮影装置、及び動画撮影方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130806 |