JP6902961B2

JP6902961B2 - 音声処理装置及びその制御方法

Info

Publication number: JP6902961B2
Application number: JP2017157616A
Authority: JP
Inventors: 祐介鳥海
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2021-07-14
Anticipated expiration: 2037-08-17
Also published as: JP2019036867A

Description

本発明は音声処理技術に関するものである。

近年、カメラなどの撮影装置の高機能化が進んでいる。高機能化の一環として動画／静止画の両方を撮影可能なカメラが多数みられる。これらのカメラは、動画撮影において、撮像装置は動画を取得すると同時に音声も取得し、動画と同期させて記録を行う。少なからずのカメラは、光学系の駆動部が発生する駆動音（フォーカシングレンズやズームレンズの駆動音）を雑音として記録されるという問題を抱えている。

このようなフォーカスやズームの駆動の際に発生する駆動音を除去もしくは低減させるノイズ除去手法を開示する文献に特許文献１がある。

特開２０１１−１１４４６５号公報

特許文献１は、駆動部の雑音を検出するためのノイズ録音用マイクを有し、通常の音声録音用マイクで取得した音声信号から、ノイズ録音用マイクで取得した音声信号を減算する事で、駆動ノイズを低減している。

しかし、デジタルカメラのような撮影装置では、小型化、集積化が進んでいる。当然、マイクなどの集音部、画像を確認する表示部、操作部材などが互いに近接した位置に配置される。このため、ノイズ録音用マイクを新たに追加する事は、コストアップや面積増の要因となる。

また、一般に、駆動部の雑音の除去は、時系列の音声信号を一旦ＦＦＴなどにより周波数領域へ変換し、駆動部の雑音を判別、除去し、再度時間領域の信号へ変換（逆ＦＦＴ）する構成をとる。周波数領域への変換は時系列のまとまったデータを元に行う為、雑音除去処理の実行時には録音音声に遅延が発生してしまうという問題もある。

本発明は、ノイズ検出のための専用マイクを新たに追加することなく、２チャンネルのマイク構成で、音声処理のための処理も発生せず、駆動部からの雑音の除去もしくは低減を行う技術を提供しようとするものである。

この課題を解決するため、例えば本発明の音声処理装置は以下の構成を備える。すなわち、
音声処理装置であって、
駆動部と、
主要の取得対象を前記装置外からの音声とする第１のマイクと、
前記第１のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第２のマイクと、
前記第１のマイク及び前記第２のマイクそれぞれより得られた時系列の音声データの差分に基づき、前記駆動部が発生する駆動雑音を低減した２チャンネルの音声データを生成する雑音除去部とを有し、
前記雑音除去部は、
前記第１、第２のマイクより得られた時系列の音声データの差分から前記駆動雑音の発生を判定する判定部と、
該判定部により駆動雑音の発生状態と判定された場合の前記第１、前記第２のマイクより得られた時系列の音声データの位相の相関値を求める相関処理部と、
前記相関値に基づき、前記第１、前記第２のマイクそれぞれからの時系列の音声データのうち、前記第１、前記第２のマイクへの外部からの音声の入射角の誤差が予め設定された閾値を超えると判定された、時系列の音声データを生成する生成部と、
前記第１のマイクより得られた時系列の音声データと、前記生成部により生成された前記第１のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの一方のチャネルの音声データを生成する第１の適応フィルタ、
前記第２のマイクより得られた時系列の音声データと、前記生成部により生成された前記第２のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの他方のチャネルの音声データを生成する第２の適応フィルタとを有する。

本発明によれば、ノイズ検出のための専用マイクを新たに追加することなく、２チャンネルのマイク構成で、音声処理のための処理も発生せず、駆動部からの雑音の除去もしくは低減を行うことが可能になる。

実施形態における適応フィルタを示すブロック図。実施形態におけるデジタルカメラのシステム構成を示すブロック図。実施形態における雑音除去システムを示すブロック図。実施形態におけるＭ−Ｓ演算部の動作タイミングチャート。実施形態におけるマイクユニットの構成を示すメカ構成図。実施形態における位相差検知の概念図。

以下、添付図面に従って本発明に係る実施形態における音声処理装置を詳細に説明する。なお、以下では音声処理装置を搭載する装置としてデジタルカメラに代表される撮像装置を例に説明するが、駆動雑音を発生する駆動部を有する装置であれば適用できるので、これによって本発明が限定されるものではない。具体例を示すことで理解を容易にするためであると認識されたい。

図２は実施形態が適用する撮影装置２０１のブロック構成図である。シャッター２０２は絞り機能を備える。撮像素子２０４は光学像を電気信号に変換し、光の強度を表すアナログ信号を出力する。Ａ／Ｄ変換器２０５は撮像素子２０４のアナログ信号出力をデジタル信号に変換する。タイミング発生回路２０６は、メモリ制御回路２０８及びシステム制御回路２１８により制御され、撮像素子２０４、Ａ／Ｄ変換器２０５、Ｄ／Ａ変換器２１０にクロック信号や制御信号を供給する。画像処理回路２０７は、Ａ／Ｄ変換器２０５からのデータ或いはメモリ制御回路２０８からのデータに対して所定の画素補間処理や色変換処理を行う。

また、画像処理回路２０７は、撮像した画像データを用いて所定の演算処理を行う。そして、システム制御回路２１８は、画像処理回路２０７から得た演算結果に基づいて、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、不図示のＥＦ（フラッシュ）の発光処理を行う。さらに、画像処理回路２０７は、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてＴＴＬ方式のＡＷＢ（オートホワイトバランス）処理も行う。

メモリ制御回路２０８は、Ａ／Ｄ変換器２０５、タイミング発生回路２０６、画像処理回路２０７、画像表示メモリ２０９、Ｄ／Ａ変換器２１０、メモリ２１３、圧縮・伸長回路２１４を制御する。Ａ／Ｄ変換器２０５のデータが画像処理回路２０７、メモリ制御回路２０８を介して、或いはＡ／Ｄ変換器２０５のデータが直接メモリ制御回路２０８を介して、画像表示メモリ２０９或いはメモリ２１３に書き込まれる。

外部出力コネクタ２１１は、Ｄ／Ａ変換器２１０の出力を外部モニタに出力する。システム制御回路２１８は、外部出力コネクタ２１１にコネクタが挿されているか否かを外部出力接続検知部２３５からの信号により検知できる。なお、外部出力コネクタ２１１は、例えばコンポジットインターフェースである。ただし、ＨＤＭＩ（登録商標）コネクタであっても構わない。

画像表示部２１２は、ＴＦＴＬＣＤ等から成り、画像表示メモリ２０９に書き込まれた表示用の画像データをＤ／Ａ変換器２１０を介して受信し、表示する。画像表示部２１２に、撮像した画像データを逐次表示すれば、ライブビュー機能を実現することが可能である。また、画像表示部２１２は、システム制御回路２１８の指示により任意に表示をＯＮ／ＯＦＦすることが可能であり、表示をＯＦＦにした場合には撮影装置２０１の電力消費を大幅に低減することが出来る。

メモリ２１３は、撮影した静止画像や動画像を一時的に格納するためのメモリであり、所定枚数の静止画像や所定時間の動画像を格納するのに十分な記憶量を備えている。これにより、複数枚の静止画像を連続して撮影する連写撮影やパノラマ撮影の場合にも、高速かつ大量の画像書き込みをメモリ２１３に対して行うことが可能となる。また、メモリ２１３はシステム制御回路２１８の作業領域としても使用することが可能である。更に、メモリ２１３は、記録媒体２２９の書き込み用バッファとしても使われる。

圧縮・伸長回路２１４は、適応離散コサイン変換等により画像データを圧縮・伸長する回路であり、メモリ２１３に格納された画像を読み込んで圧縮処理或いは伸長処理を行い、処理を終えたデータをメモリ２１３に書き込む。

絞り機能を備えるシャッター２０２は絞りやシャッターを駆動するモータ等の駆動部を有する。露光制御部２１５は駆動部の動作を制御することにより、絞り機能を備えるシャッター２０２を制御する。撮影レンズ２０３はレンズを駆動するモータなどの駆動部を有する。測距制御部２１６は撮影レンズ２０３の駆動部を制御してフォーカシングを制御する。また、ズーム制御部２１７は撮影レンズ２０３の駆動部を制御してズーミングを制御する。

露光制御部２１５、測距制御部２１６はＴＴＬ方式を用いた制御を行う。これらの制御は、システム制御回路２１８が行う。つまり、システム制御部２１８は、撮像して得た画像データに対する画像処理回路２０７によって演算した演算結果に基づき、露光制御部２１５、測距制御部２１６に対する制御を行う。

システム制御回路２１８は、撮影装置２０１全体を制御する回路である。システム制御回路２１８は、不揮発性メモリ２２０に記録されたプログラムを実行することで、後述する各実施形態の処理を実現する。

メモリ２１９は、システム制御回路２１８の動作用の定数、変数、並びに、不揮発性メモリ２２０から読み出したプログラム等を展開するメモリであり、メモリ２１３よりもアクセス速度が早いメモリである。典型的にはメモリ２１３はＤＲＡＭ、メモリ２１９はＳＲＡＭである。不揮発性メモリ２２０は電気的に消去・記録可能なメモリである。不揮発性メモリ２２０には、システム制御回路２１８の動作用の定数、プログラム等が記憶される。ここでいう、プログラムとは、後述の各実施形態における各種フローチャートを実行するためのプログラムのことである。

シャッタースイッチＳＷ２２１、ＳＷ２２２、及び、操作部２２３は、システム制御回路２１８の各種の動作指示を入力するための操作部であり、スイッチやダイアル、タッチパネル、音声認識装置等の単数或いは複数の組み合わせで構成される。ここで、これらの操作部の具体的な説明を行う。シャッタースイッチＳＷ２２１は、シャッターボタンの操作途中でＯＮとなり、ＡＦ（オートフォーカス）処理、ＡＥ（自動露出）処理、ＡＷＢ（オートホワイトバランス）処理等の動作開始を指示する。シャッタースイッチＳＷ２２２は、シャッターボタンの操作完了でＯＮとなる。このシャッタースイッチＳＷ２２２がＯＮになると、システム制御部２１８は、撮像素子２０４からの映像信号をＡ／Ｄ変換器２０５でデジタルの画像データに変換し、その画像データをメモリ制御回路２０８を介してメモリ２１３に画像データを書き込む露光処理を行う。同時に、システム制御部２１８は、必要に応じて不図示のＥＦ（フラッシュ発光）処理の開始を指示する。また、システム制御部２１８は、画像処理回路２０７やメモリ制御回路２０８での演算を用いた現像処理を行わせる。また、システム制御部２１８は、メモリ２１３から画像データを読み出し、圧縮・伸長回路２１４で圧縮を行い、記録媒体２２９に画像データを書き込む記録処理という一連の処理を行う。また動画撮影の場合、システム制御部２１８は、各種回路に動画撮影の開始・停止を指示することになる。

操作部２２３は各種ボタンやタッチパネル等から構成される。ボタンの種類としては、メニューボタン、セットボタン、マクロボタン、マルチ画面再生改ページボタン、フラッシュ設定ボタン、単写／連写／セルフタイマー切り替えボタン、メニュー移動＋（プラス）ボタン、メニュー移動−（マイナス）ボタンが含まれる。また、再生画像移動＋（プラス）ボタン、再生画像−（マイナス）ボタン、撮影画質選択ボタン、露出補正ボタン、日付／時間設定ボタン。各種機能の選択及び切り替えを設定する選択／切り替えボタン、各種機能の決定及び実行を設定する決定ボタンが含まれる。また、画像表示部２１２のＯＮ／ＯＦＦを設定する表示ボタンも含まれる。撮影直後に撮影した画像データを自動再生するクイックレビュー機能を設定するクイックレビューＯＮ／ＯＦＦスイッチも含まれる。更に、撮影時にズームと広角を調節や、再生時の画像の拡大／縮小を調節、１画面表示／マルチ画面表示を切り替えるズーム操作部も操作部２２３に含まれる。更に、ＪＰＥＧ圧縮の圧縮率を選択するため、或いは撮像素子の信号をそのままデジタル化して記録媒体に記録するＣＣＤＲＡＷモードを選択するための圧縮モードスイッチも含まれる。

電源制御部２２５は、電池の装着の有無、電池の種類、電池残量の検出を行い、検出結果及びシステム制御回路２１８の指示に基づいて、必要な電圧を必要な期間、記録媒体を含む各部へ供給する。

電源部２２８は、アルカリ電池やリチウム電池等の一次電池やＮｉＣｄ電池やＮｉＭＨ電池、Ｌｉ電池等の二次電池、ＡＣアダプター等からなる。電源制御部２２５と電源部２２８とは、それぞれの電極２２６、２２７を介して互いに接続される。

インタフェース２２４はメモリカードやハードディスク等の記録媒体とのインタフェースである。インタフェース２２４としては、ＳＤカードやコンパクトフラッシュ（登録商標）カード等の規格に準拠したものを用いて構成して構わない。さらに、インタフェース２２４に各種通信カードを接続することにより、他機器との間で画像データや画像データに付属した管理情報を転送し合うことが出来る。

保護部２３１は、装置の電源に連動し、電源ＯＦＦ時に撮影装置２０１のレンズ２０３を含む撮像部を覆う事により、撮像部の汚れや破損を防止するバリアとして機能する。

マイクユニット２３２は、マイクからの音声データ取得部である。音声処理回路２３３は、マイクユニット２３２で得られた音声データをシステム制御回路２１８で取得するためにＡ／Ｄ変換を行う。また、ステレオマイクユニット２３２は、２ｃｈ以上のマイクユニットであるが、実施形態では簡単のため、２ｃｈ（ステレオ）マイクであるものとして説明する。

スピーカユニット２３４は、スピーカからの音声データへの音声データ出力部である。システム制御回路２１８は、処理された音声データを音声処理回路２３３にてＤ／Ａ変換させ、スピーカユニット２３４に出力させることで、音声を再生させることになる。

記録媒体２２９はメモリカードやハードディスク等の記録媒体である。また、この記録媒体２２９がＰＣＭＣＩＡカードやコンパクトフラッシュ（登録商標）カード等の場合は、性能が記されている情報記憶回路を内蔵している事もある。

姿勢検知部２３６は、撮影装置２０１の傾きや回転を検知して該装置姿勢を示す姿勢情報を出力する。加速度検出部２３７は、装置の３軸方向の移動量に対する加速度を導出し、該加速度情報を出力する。

以上、実施形態における撮像装置２０１の構造と処理／機能の説明を行った。

次に、図１、３、４、５、６を用いて実施形態における駆動音の除去処理を詳細に説明する。ここで言う、駆動音とは、ズーム制御部２１７により撮影レンズ２０３のズーミング制御を行った際に駆動部が発する雑音を指す。

はじめに、図１を用いて適応フィルタ（Adaptive Filter）の構成を説明する。図１は、適応フィルタの構成をブロック図で示している。この適応フィルタは、図２における、メモリ２１９にあらかじめ記録された不図示のプログラムにより実施される一連の演算処理でもある。不図示のプログラムをシステム制御回路２１８がメモリ２１９から読出し、音声処理回路２３３を介して入力された音声データに対し逐次実行する。この適応フィルタの構成および演算処理について詳述する。

適応フィルタは、２つの入力Ａ、Ｂを持ち、入力Ｂからのデータに対して積和演算を行うトランスバーサルフィルタ回路１０１と、適応アルゴリズムによる評価関数に基づきトランスバーサルフィルタ回路１０１が利用する係数を更新する評価部１０３と、トランスバーサルフィルタ回路１０１の出力と入力Ａを加算する加算器１０２とを備えている。

一般的に、入力Ａ側を所望信号、入力Ｂ側を参照信号、出力側を所望信号と呼ぶ。適応フィルタを雑音除去部として用いる場合、所望信号には除去対象となる雑音源から発生する音声信号を、参照信号には観測したい音声信号に前記雑音が付加された音声信号をそれぞれ印加し、出力信号として雑音の除去された音声信号を得る。

トランスバーサルフィルタ回路１０１は、入力Ｂより得られた参照信号ｘ（ｔ）を遅延する不図示の複数の遅延素子と、ｘ（ｔ）及び遅延した各信号ｘ（ｔ−１）、ｘ（ｔ−２）に対して評価部１０３が評価関数に従って設定した係数ｈ０（ｔ）、ｈ１（ｔ）、ｈ２（ｔ）を乗算する複数の乗算器と、該乗算器の出力を加算して推定信号ｙ（ｔ）を出力する複数の加算器とを備えている。この時、ｔは時間を表す単位であり、ｘ（ｔ）は、時系列の音声デジタルデータｘにおけるｔ番目のサンプルを表す。

推定信号ｙ（ｔ）は、次式で与えられる。ｍは係数の個数、Ｎは自然数を示し、適応フィルタが係数としてｈ０（ｔ）、ｈ１（ｔ）、ｈ２（ｔ）をもつ場合、ｍ＝２、Ｎ＝３となる。

また、所望信号ｄ（ｔ）から推定信号ｙ（ｔ）を減算する減算器１０２を備え、減算器の出力である推定信号ｙ（ｔ）と所望信号ｄ（ｔ）の差である誤差信号ｅ（ｔ）が０に近づくように評価関数１０３によって、トランスバーサルフィルタ回路１０１の係数を更新する。

係数更新のアルゴリズムとしては、最小平均自乗（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ：ＬＭＳ）アルゴリズムが、従来から広く用いられている。このアルゴリズムでは、誤差信号ｅ（ｔ）の平均自乗誤差Ｅ［ｅ（ｔ）２］を最小化するように係数の更新が行われる。あらかじめ設定していた係数ｈ０（ｔ）、ｈ１（ｔ）、ｈ２（ｔ）を更新し、ｈ０（ｔ＋１）、ｈ１（ｔ＋１）、ｈ２（ｔ＋１）の導出を行う。

次式に係数更新の一例であるＬＭＳアルゴリズムを示す。

この数式内のμは、ステップサイズと呼ばれ、係数更新の大きさを決める役割を持つ。通常、一定値を用い、０．０５〜０．１０程度の値を使用する。撮影装置２０１の構成に合わせてあらかじめ決めておく事が望ましく、小さくすると正確な推定が可能だが、大きすぎるとフィルタ出力が発散してしまう。

参照信号ｘ（ｔ）には除去したい雑音成分、所望信号ｄ（ｔ）には雑音成分の含まれる音声信号を入力する。上記一連の処理を繰り返す事で、誤差信号ｅ（ｔ）を０に近づける、即ち雑音の除去を行う事が可能となる。

また、ＦＦＴなどと異なりまとまった時系列の音声データを使うことなく、１サンプルの音声データ毎に処理を行う事ができる為、該処理による遅延は発生しない。

上記を踏まえ、実施形態における雑音除去システムを図３のブロック構成図を参照して説明する。

この雑音除去システムは、ＭＡＩＮマイク３０１、ＳＵＢマイク３０２、Ａ／Ｄ変換部３０３および雑音除去部３０９から構成される。ＭＡＩＮマイク３０１、ＳＵＢマイク３０２は、２ｃｈのマイクユニット２３２を構成するマイクである。詳細は後述から明らかにするが、ＭＡＩＮマイク３０１は、主要の取得対象を装置外からの音声とするマイクである。また、ＳＵＢマイク３０２はＭＡＩＮマイク３０１と比較し、主要の取得対象を駆動部からの駆動雑音とするものである。Ａ／Ｄ変換部３０３は、音声処理回路２３３に内包される回路である。また、雑音除去部３０９は、図２中のメモリ２１９にあらかじめ記録された不図示のプログラムをシステム制御回路２１８が実行する一連の演算処理である。このプログラムは、不揮発性メモリ２２０に記憶されており、システム制御回路２１８がメモリ２１９に読み出て実行するものである。システム制御回路２１８は、このプログラムを逐次実行して、音声処理回路２３３より入力された音声データに対して処理することになる。

ここで、本実施形態の２ｃｈ分のマイクユニット２３２を構成するメカ構成について、図４（Ａ）、（Ｂ）を用いて詳述する。

図４（Ａ）は、本実施形態の撮像装置の外観図である。撮像装置を被写体に向けて構えた際の撮影者側から見て、向かって右がＭＡＩＮマイク３０１、左がＳＵＢマイク３０２となる。ＭＡＩＮマイク３０１、ＳＵＢマイク３０２は、最終的にはステレオマイクとして機能するために、撮像部の視点の中心位置に対して線対称になっている。

図４（Ａ）においての拡大図は、マイクユニット２３２の一部であるＭＡＩＮマイク３０１とＳＵＢマイク３０２のメカ構成部であり、図４（Ｂ）は、メカ構成の破線а−а‘部分を示す断面の拡大図である。

空気を伝播する音響振動を通過させための開口部（以下、マイク穴）を構成する外装部４０１、ＭＡＩＮマイク３０１を保持するＭＡＩＮマイクブッシュ４０３、ＳＵＢマイク３０２を保持するＳＵＢマイクブッシュ４０２、其々のマイクブッシュを外装部４０１へ押し付け保持をする押し付け部４０６により構成される。外装部４０１、押し付け部４０６についてはＰＣ材等のモールド部材で構成されるが、アルミ、ステンレス等の金属部材であっても問題ない。また、ＭＡＩＮマイクブッシュ４０３、ＳＵＢマイクブッシュ４０２については、エチレンプロピレンジエンゴム等のゴム材にて構成される。

ここで、外装部４０１におけるマイク穴の穴径（面積）について説明する。ＳＵＢマイク３０２へのマイク穴４０１ｂの径は、ＭＡＩＮマイク３０１へのマイク穴４０１ａの径に対して小さく、所定の倍率にて縮小された構成をとる。マイク穴形状については円状、楕円状が望ましいが、方形状でも構わない。また、其々の穴形状について、同形状でも別形状でも構わない。この構成は、撮像装置内部でマイクに空気伝搬して伝わる駆動雑音についてＳＵＢマイク３０２のマイク穴側から外部へ漏れにくくなる事を目的とする。

次に、外装部４０１とマイクブッシュで構成されるマイク前面の空間について説明する。外装部４０１とＳＵＢマイクブッシュ４０２で構成されるＳＵＢマイク３０２前面の空間は、外装部４０１とＭＡＩＮマイクブッシュ４０３で構成されるＭＡＩＮマイク３０１前面の空間に対して、空間容積を大きく、所定の倍率の容積を確保する構成をとる。この構成により、ＳＵＢマイク３０２の前面の空間において、空間内の気圧変化が大きくなり、駆動部（実施形態ではズームレンズの駆動音）からの駆動雑音が強調される。

前述の通り、マイク入力のメカ構成におけるＳＵＢマイク３０２の入力は、ＭＡＩＮマイク３０１入力に対して、駆動雑音の振幅が大きく強調される構成をとる。駆動雑音が其々のマイクへ入力される音声レベルの関係は、ＳＵＢマイク３０２の方がＭＡＩＮマイク３０１より大きい。また逆に、マイク穴の前面から空気伝搬により其々のマイクへ入力される音声（本来の集音目的である周辺環境の音）のレベル関係は、ＭＡＩＮマイク３０１の方がＳＵＢマイク３０２より大きくなる。

このように、マイクユニット２３２を構成する２チャンネルのマイクのうち、片方がマイク（ＭＡＩＮマイク３０１）の構造などが外部の音声を拾いやすく、内部の音声を拾いにくい保持構成とし、環境音を取得する役割を持たせる。そして、もう一方のマイク（ＳＵＢマイク３０２）は、内部の音声を拾いやすく、外部の音声を拾いにくい保持構成とし、駆動音の情報を取得する役割を持たせる。かかる構成では、駆動音は、ＭＡＩＮマイクと比較しＳＵＢマイクの方がより大きく記録されるが、被写体周囲の音は、両マイクよりも充分に遠い位置にある為、両マイクともにほぼ同じ大きさで出力される。

次に、このＭＡＩＮマイク３０１、ＳＵＢマイク３０２に関連する処理を図３、５を用いて詳述する。実施形態における駆動雑音はズーム駆動時に発する音であり、その発生原が撮像装置自身である。故に、駆動雑音の発生原と各マイク間の距離は、撮像の際の被写体と撮像装置間の距離よりも遥かに短い。故に、ＭＡＩＮマイク３０１、ＳＵＢマイク３０２が検出する駆動雑音の位相差は無視できるほど小さいと言える。一方、ＭＡＩＮマイク３０１、ＳＵＢマイク３０２が検出する装置外から伝播する音は、当然、位相差を有する点に注意されたい。

図３において、Ａ／Ｄ変換部３０３は、予め設定されたサンプリング周期（例えば４４．１ＫＨｚ）で、ＭＡＩＮマイク３０１およびＳＵＢマイク３０２の音声信号をデジタル信号に変換する。Ｍ−Ｓ演算部３０４は、このＭＡＩＮマイク３０１、ＳＵＢマイク３０２から得た音声信号から駆動雑音の有無の判定部として機能する。

Ｍ−Ｓ演算部３０４の動作を図５の動作タイミングチャートに示す。

図５において、ＭＡＩＮ［ｔ］、ＳＵＢ［ｔ］は、ＭＡＩＮマイク３０１およびＳＵＢマイク３０２のｔサンプル目の音声信号、ＭＡＩＮ［ｔ］―ＳＵＢ［ｔ］はＭＡＩＮマイク３０１の音声信号からＳＵＢマイク３０２の信号を差し引いた減算量を示す。また、ｔ１−ｔ２は、ズームレンズの駆動期間を示す。

先に説明したように、ＭＡＩＮマイク３０１、ＳＵＢマイク３０２は、装置外からの音声、並びに、装置内の駆動源からの駆動雑音が重畳して検出される。ただし、ＭＡＩＮマイク３０１は、サブマイク３０２と比較して、装置外からの音声を主要ターゲットとしている。逆に、ＳＵＢマイク３０２はＭＡＩＮマイク３０１と比較して駆動雑音を主要なターゲットとしている。それ故、タイミングｔ１以前のズームレンズを非駆動状態にある期間では、駆動雑音が発生しないので、ＭＡＩＮ［ｔ］―ＳＵＢ［ｔ］は概ね図示の如く正の値を持つ。

そして、ズームレンズの駆動期間であるタイミングｔ１からｔ２の期間では、ＳＵＢ［ｔ］がＭＡＩＮ［ｔ］に対して大きく上まっており、減算量ＭＡＩＮ［ｔ］―ＳＵＢ［ｔ］が負の値となって、ズーム検出閾値５０１（負の値を持つ閾値）を下回るのが分る。つまり、タイミングｔ１からｔ２の期間は雑音発生状態を示す期間であると言える。

Ｍ−Ｓ演算部３０４は、入力したＭＡＩＮ［ｔ］、ＳＵＢ［ｔ］の信号から、減算量ＭＡＩＮ［ｔ］―ＳＵＢ［ｔ］を求め、この減算量がズーム検出閾値を下回った期間におけるＭＡＩＮ［ｔ］、ＳＵＢ［ｔ］の信号を、Ｍ_ｘ［ｔ］、Ｓ_ｘ［ｔ］として出力する。ここで、Ｍ_ｘ［ｔ］はＭＡＩＮ［ｔ］に対応し、Ｓ_ｘ［ｔ］はＳＵＢ［ｔ］に対応する。

図５のタイミングチャートに図示の通り、ＭＡＩＮ［ｔ］の期間ｔ１からｔ２の出力がＭ_ｘ［ｔ］、ＳＵＢ［ｔ］の期間ｔ１からｔ２の出力がＳ_ｘ［ｔ］となる。なお、減算量ＭＡＩＮ［ｔ］―ＳＵＢ［ｔ］が０もしくは正の値を持つ期間では、Ｍ_ｘ［ｔ］、Ｓ_ｘ［ｔ］はゼロの値を持つ。

この時、ｔは時間を表す単位であり、ｘ［ｔ］は、時系列の音声デジタルデータｘにおけるｔ番目のサンプルをあらわす。

なお、実施形態ではＭ−Ｓ演算部３０４は、負の値の閾値Ｔｈとしたとき、
ＭＡＩＮ［ｔ］−ＳＵＢ［ｔ］＜Ｔｈ
を満たす状態で駆動雑音有りと判定し、その際のＭＡＩＮ［ｔ］、ＳＵＢ［ｔ］の値を出力した。そして、Ｍ−Ｓ演算部３０４は、
ＭＡＩＮ［ｔ］−ＳＵＢ［ｔ］≧Ｔｈ
を満たす場合に、ＭＡＩＮ［ｔ］＝ＳＵＢ［ｔ］＝０として出力した。

しかし、閾値との判定法は上記に限らない。例えば、適当な正の閾値Ｔｈを定義し、ＳＵＢ［ｔ］−ＭＡＩＮ［ｔ］＞Ｔｈの場合に駆動雑音有りと判定しても良い。要するに、ＳＵＢマイク３０２により音声データの値が、ＭＡＩＮマイク３０１で得られた音声データの値より十分に大きいことを条件に駆動雑音有りと判定できれば良い。

次に、Ｍ−Ｓ演算部３０４は、出力データＭ_ｘ［ｔ］、Ｓ_ｘ［ｔ］を相互相関処理部３０５および位相差検波処理３０６へ順次供給する。相互相関処理部３０５および位相差検波処理３０６は、駆動音の正確な判別・抽出を目的とした処理を行う。相互相関処理部３０５および位相差検波処理３０６は、Ｍ−Ｓ演算部３０４から出力されたデジタルデータＭ_ｘ［ｔ］、Ｓ_ｘ［ｔ］から、ズーミング制御により生じる駆動音のみを正確に抽出する為の処理を行う。

まず、相互相関処理部３０５では、Ｍ−Ｓ演算部３０４からのＭＡＩＮマイクの出力信号であるＭ_ｘ［ｔ］、およびＳＵＢマイクの出力信号であるＳ_ｘ［ｔ］との相互相関を調べる。

Ｍ−Ｓ演算部３０４の出力は、マイク出力間の差分が大きく、且つ、減算量がズーム検出閾値５０１を超えた（ズーム検出閾値５０１を下回った）期間におけるＭＡＩＮ［ｔ］、ＳＵＢ［ｔ］の信号である。この為、これらデータには、ズーム期間中に生じた環境音なども含まれてしまう場合がある。

相互相関処理部３０５は、これらデータから駆動音のみを抽出する為に行われ、相互的に相関の高い信号を選別し出力する。これらのデータである２つの入力Ｍ_ｘ［ｔ］、Ｓ_ｘ［ｔ］にはレベルの差はあるが、立ち上がり時間、立下り時間が概ね揃っており、波形が重なり易く、相互相関値が高くなる傾向にある。この処理の内容を次式（３）に示す。

この２つの入力を、Ｍサンプルずらし、和をとる。Ｍはあらかじめ設定された値であり、図２中の記録部２３０に保存される。Ｍは、製品の本体構成等に影響を受けるが、極力小さな値（１乃至５程度）であることが望ましい。

式（３）において、φmsが正の値を取る場合、相互相関が高いと判定できる。それ故、相互相関処理部３０５は、φmsが正で最大となる場合のＭを求める。そして、相互相関処理部３０５は求めたＭと、そのずらした結果をＭ_ｘ’［ｔ］、Ｓ_ｘ’［ｔ］として出力する。

また、この総和の閾値は、製品の本体構成やマイク配置に影響を受ける為、製品毎に調整し、補正項などを加算する構成があってもよい。この場合、補正項は、不揮発性メモリ２２０などの不揮発性の記録手段に保持する。

相互相関処理部３０５の出力Ｍ_ｘ’［ｔ］、Ｓ_ｘ’［ｔ］は、次に位相差検波処理部３０６に入力される。そして、位相差検波処理部３０６は、位相差検波処理を行い、ＭＡＩＮ、ＳＵＢ用の時系列の音声データを生成する。その処理の内容を、図６を用いて説明する。

図６において、ＭＡＩＮマイク３０１、ＳＵＢマイク間の距離をＬｍｉｃ、音の入ってくる入射角をθと定義すると、位相差は次式で導出される。

Ｃは音速であり、ｊは式（３）における相関を取る為にずらしたサンプル数である。Ｇは、△θの閾値であり撮影装置の構成に合わせて検討された値があらかじめ図２中の不揮発性メモリ２２０に記録されている。

式（４）、（５）を演算すると音声データの位相が揃う場合、θ＝０になる。

駆動音は、撮影装置内を伝搬する為、マイクユニットを保持する様々な部材を伝い音声データとして記録される。様々な伝搬経路がある為、図６のような位相検知を行った場合、音の入ってくる入射角θの値が一定とならず、時間的な変化が激しくなる。

この特性を利用し、本実施形態では、位相検波処理部３０６では、筐体内部を伝搬してきたノイズを選別する為に、単位時間当たりの位相差Δθが閾値Ｇより大きい場合に音声データを通過させ、Δθが閾値Ｇ以下の場合にゼロを出力する構成をとる。位相検波処理部３０６は、式（６）に該当するＭ_ｘ’［ｔ］、Ｓ_ｘ’［ｔ］をＭ_ｘ"［ｔ］、Ｓ_ｘ"［ｔ］として後段の処理へ出力する事で、筐体内を伝う駆動音を判別して抽出する事が出来る。

ＭＡＩＮチャネル用の適応フィルタ３０７は、位相検波を通過した信号Ｍ_ｘ"［ｔ］と、Ａ／Ｄ変換部３０３を通過した信号ＭＡＩＮ［ｔ］とを入力して、フィルタ処理を行い、駆動雑音を除去もしくは低減させた、ステレオの一方のチャネルの音声信号（図４によればステレオＲチャネル用音声信号）として出力する。

一方、ＳＵＢチャネル用の適応フィルタ３０８は、位相検波を通過した信号Ｓ_ｘ"［ｔ］と、Ａ／Ｄ変換部３０３を通過した信号ＳＵＢ［ｔ］とを入力して、フィルタ処理を行い、駆動雑音を除去もしくは低減させた、ステレオの他方のチャネルの音声信号（図４によればステレオＬチャネル用音声信号）として出力する。

そして、システム制御回路２１８により、各チャネルのゲインの調整処理やステレオ感強調処理を施した後、動画データと結合し、ＭＯＶやＭＰＥＧなどのファイルへ変換し、図２中の記録部２３０に音声付動画像ファイルとして保存することになる。

以上、相互相関が取れず、且つ、位相検波のできない音声信号を、駆動音が筐体内部を伝搬したノイズとして分離し、該信号を参照信号として、適応フィルタ処理による雑音除去を行う構成を取ることで、駆動音の除去を行う事が可能となる。

なお、実施形態では、図３に示す雑音除去部３０９の各構成要素が、システム制御回路２１８によるプログラムを実行する機能部として説明した。この場合、各構成要素は関数として実装することになり、それらの間の処理のシーケンスは図３に示す通りとなる。故に、図３は、システム制御回路２１８が実行するフローチャートと見ることもできる。なお、図３の要素の一部もしくは全部をハードウェアで実現させても構わない。

以上説明したように実施形態によれば、ＦＦＴ（高速フーリエ変換）を用いる従来と被比較し、ＦＦＴ変換のための多数の音声データを蓄える期間がなくなる分、駆動雑音除去に係る処理の遅延量は少なくできる。この結果、例えばデジタルビデオカメラ等の撮像装置に実施形態で示した雑音除去部３０９を搭載した場合、ヘッドホン等で実際のノイズ除去後の音声を確認しながら撮像画像の記録操作を行うこともできる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２０１…撮像装置、２１８…システム制御回路、２３２…マイクユニット、２３３…音声処理回路、３０１…ＭＡＩＮマイク、３０２…ＳＵＢマイク、３０３…Ａ／Ｄ変換部、３０４…Ｍ−Ｓ演算部、３０５…相互相関処理部、３０６…位相検波処理部、３０７、３０８…適用フィルタ

Claims

音声処理装置であって、
駆動部と、
主要の取得対象を前記装置外からの音声とする第１のマイクと、
前記第１のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第２のマイクと、
前記第１のマイク及び前記第２のマイクそれぞれより得られた時系列の音声データの差分に基づき、前記駆動部が発生する駆動雑音を低減した２チャンネルの音声データを生成する雑音除去部とを有し、
前記雑音除去部は、
前記第１、第２のマイクより得られた時系列の音声データの差分から前記駆動雑音の発生を判定する判定部と、
該判定部により駆動雑音の発生状態と判定された場合の前記第１、前記第２のマイクより得られた時系列の音声データの位相の相関値を求める相関処理部と、
前記相関値に基づき、前記第１、前記第２のマイクそれぞれからの時系列の音声データのうち、前記第１、前記第２のマイクへの外部からの音声の入射角の誤差が予め設定された閾値を超えると判定された、時系列の音声データを生成する生成部と、
前記第１のマイクより得られた時系列の音声データと、前記生成部により生成された前記第１のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの一方のチャネルの音声データを生成する第１の適応フィルタ、
前記第２のマイクより得られた時系列の音声データと、前記生成部により生成された前記第２のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの他方のチャネルの音声データを生成する第２の適応フィルタと
を有することを特徴とする音声処理装置。
前記判定部は、前記第１のマイクから得られた時系列の音声データに対し、前記第２のマイクから得られた時系列の音声データが予め設定された閾値より大きい場合に、駆動雑音有りと判定する
ことを特徴とする請求項１に記載の音声処理装置。
前記相関処理部は、
前記判定部から得た前記第１、前記第２のマイクからの時系列の音声データをＭ_ｘ［ｔ］、Ｓ_ｘ［ｔ］としたとき、

φmsが正であって最大となるＭを、相関値して判定する
ことを特徴とする請求項１又は２に記載の音声処理装置。
前記第１のマイクは、前記音声処理装置の筐体の所定の位置に設けられた第１の開口部を介して伝播してくる、装置外からの音声を主要なターゲットとするマイクであり、
前記第２のマイクは、前記第１の開口部よりも面積が小さい第２の開口部を介して入ってくる音声を電気信号に変換するマイクであって、前記音声処理装置が有する前記駆動部からの駆動雑音を前記第２のマイクに伝播するため、前記第２のマイクと前記２の開口部との間での空間の容積は、前記第１のマイクと前記第１の開口部との間の容積よりも大きい
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声処理装置。
前記第１、前記第２のマイクの間に撮像部を設ける
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声処理装置。
駆動部、主要の取得対象を前記装置外からの音声とする第１のマイク、前記第１のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第２のマイクを有する音声処理装置の制御方法であって、
前記第１のマイク及び前記第２のマイクそれぞれより得られた時系列の音声データの差分に基づき、前記駆動部が発生する駆動雑音を低減した２チャンネルの音声データを生成する雑音除去工程を有し、
当該雑音除去工程は、
前記第１、第２のマイクより得られた時系列の音声データの差分から前記駆動雑音の発生を判定する判定工程と、
該判定工程により駆動雑音の発生状態と判定された場合の前記第１、前記第２のマイクより得られた時系列の音声データの位相の相関値を求める相関処理工程と、
前記相関値に基づき、前記第１、前記第２のマイクそれぞれからの時系列の音声データのうち、前記第１、前記第２のマイクへの外部からの音声の入射角の誤差が予め設定された閾値を超えると判定された、時系列の音声データを生成する生成工程と、
前記第１のマイクより得られた時系列の音声データと、前記生成工程により生成された前記第１のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの一方のチャネルの音声データを生成する第１のフィルタ工程と、
前記第２のマイクより得られた時系列の音声データと、前記生成工程により生成された前記第２のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの他方のチャネルの音声データを生成する第２のフィルタ工程と
を有することを特徴とする音声処理装置の制御方法。
駆動部、主要の取得対象を前記装置外からの音声とする第１のマイク、前記第１のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第２のマイクを有する音声処理装置におけるプロセッサが読み込み実行するプログラムであって、
前記プロセッサに、請求項６に記載の各工程を実行させるためのプログラム。