JP6902961B2 - 音声処理装置及びその制御方法 - Google Patents

音声処理装置及びその制御方法 Download PDF

Info

Publication number
JP6902961B2
JP6902961B2 JP2017157616A JP2017157616A JP6902961B2 JP 6902961 B2 JP6902961 B2 JP 6902961B2 JP 2017157616 A JP2017157616 A JP 2017157616A JP 2017157616 A JP2017157616 A JP 2017157616A JP 6902961 B2 JP6902961 B2 JP 6902961B2
Authority
JP
Japan
Prior art keywords
microphone
time
unit
audio data
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017157616A
Other languages
English (en)
Other versions
JP2019036867A (ja
Inventor
祐介 鳥海
祐介 鳥海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017157616A priority Critical patent/JP6902961B2/ja
Priority to US16/058,268 priority patent/US10418049B2/en
Publication of JP2019036867A publication Critical patent/JP2019036867A/ja
Application granted granted Critical
Publication of JP6902961B2 publication Critical patent/JP6902961B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は音声処理技術に関するものである。
近年、カメラなどの撮影装置の高機能化が進んでいる。高機能化の一環として動画/静止画の両方を撮影可能なカメラが多数みられる。これらのカメラは、動画撮影において、撮像装置は動画を取得すると同時に音声も取得し、動画と同期させて記録を行う。少なからずのカメラは、光学系の駆動部が発生する駆動音(フォーカシングレンズやズームレンズの駆動音)を雑音として記録されるという問題を抱えている。
このようなフォーカスやズームの駆動の際に発生する駆動音を除去もしくは低減させるノイズ除去手法を開示する文献に特許文献1がある。
特開2011−114465号公報
特許文献1は、駆動部の雑音を検出するためのノイズ録音用マイクを有し、通常の音声録音用マイクで取得した音声信号から、ノイズ録音用マイクで取得した音声信号を減算する事で、駆動ノイズを低減している。
しかし、デジタルカメラのような撮影装置では、小型化、集積化が進んでいる。当然、マイクなどの集音部、画像を確認する表示部、操作部材などが互いに近接した位置に配置される。このため、ノイズ録音用マイクを新たに追加する事は、コストアップや面積増の要因となる。
また、一般に、駆動部の雑音の除去は、時系列の音声信号を一旦FFTなどにより周波数領域へ変換し、駆動部の雑音を判別、除去し、再度時間領域の信号へ変換(逆FFT)する構成をとる。周波数領域への変換は時系列のまとまったデータを元に行う為、雑音除去処理の実行時には録音音声に遅延が発生してしまうという問題もある。
本発明は、ノイズ検出のための専用マイクを新たに追加することなく、2チャンネルのマイク構成で、音声処理のための処理も発生せず、駆動部からの雑音の除去もしくは低減を行う技術を提供しようとするものである。
この課題を解決するため、例えば本発明の音声処理装置は以下の構成を備える。すなわち、
音声処理装置であって、
駆動部と、
主要の取得対象を前記装置外からの音声とする第1のマイクと、
前記第1のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第2のマイクと、
前記第1のマイク及び前記第2のマイクそれぞれより得られた時系列の音声データの差分に基づき、前記駆動部が発生する駆動雑音を低減した2チャンネルの音声データを生成する雑音除去部とを有し、
前記雑音除去部は、
前記第1、第2のマイクより得られた時系列の音声データの差分から前記駆動雑音の発生を判定する判定部と、
該判定部により駆動雑音の発生状態と判定された場合の前記第1、前記第2のマイクより得られた時系列の音声データの位相の相関値を求める相関処理部と、
前記相関値に基づき、前記第1、前記第2のマイクそれぞれからの時系列の音声データのうち、前記第1、前記第2のマイクへの外部からの音声の入射角の誤差が予め設定された閾値を超えると判定された、時系列の音声データを生成する生成部と、
前記第1のマイクより得られた時系列の音声データと、前記生成部により生成された前記第1のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの一方のチャネルの音声データを生成する第1の適応フィルタ、
前記第2のマイクより得られた時系列の音声データと、前記生成部により生成された前記第2のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの他方のチャネルの音声データを生成する第2の適応フィルタとを有する。
本発明によれば、ノイズ検出のための専用マイクを新たに追加することなく、2チャンネルのマイク構成で、音声処理のための処理も発生せず、駆動部からの雑音の除去もしくは低減を行うことが可能になる。
実施形態における適応フィルタを示すブロック図。 実施形態におけるデジタルカメラのシステム構成を示すブロック図。 実施形態における雑音除去システムを示すブロック図。 実施形態におけるM−S演算部の動作タイミングチャート。 実施形態におけるマイクユニットの構成を示すメカ構成図。 実施形態における位相差検知の概念図。
以下、添付図面に従って本発明に係る実施形態における音声処理装置を詳細に説明する。なお、以下では音声処理装置を搭載する装置としてデジタルカメラに代表される撮像装置を例に説明するが、駆動雑音を発生する駆動部を有する装置であれば適用できるので、これによって本発明が限定されるものではない。具体例を示すことで理解を容易にするためであると認識されたい。
図2は実施形態が適用する撮影装置201のブロック構成図である。シャッター202は絞り機能を備える。撮像素子204は光学像を電気信号に変換し、光の強度を表すアナログ信号を出力する。A/D変換器205は撮像素子204のアナログ信号出力をデジタル信号に変換する。タイミング発生回路206は、メモリ制御回路208及びシステム制御回路218により制御され、撮像素子204、 A/D変換器205、 D/A変換器210にクロック信号や制御信号を供給する。画像処理回路207は、 A/D変換器205からのデータ或いはメモリ制御回路208からのデータに対して所定の画素補間処理や色変換処理を行う。
また、画像処理回路207は、撮像した画像データを用いて所定の演算処理を行う。そして、システム制御回路218は、画像処理回路207から得た演算結果に基づいて、AF(オートフォーカス)処理、AE(自動露出)処理、不図示のEF(フラッシュ)の発光処理を行う。さらに、画像処理回路207は、撮像した画像データを用いて所定の演算処理を行い、得られた演算結果に基づいてTTL方式のAWB(オートホワイトバランス)処理も行う。
メモリ制御回路208は、A/D変換器205、タイミング発生回路206、画像処理回路207、画像表示メモリ209、D/A変換器210、メモリ213、圧縮・伸長回路214を制御する。A/D変換器205のデータが画像処理回路207、メモリ制御回路208を介して、或いはA/D変換器205のデータが直接メモリ制御回路208を介して、画像表示メモリ209或いはメモリ213に書き込まれる。
外部出力コネクタ211は、D/A変換器210の出力を外部モニタに出力する。システム制御回路218は、外部出力コネクタ211にコネクタが挿されているか否かを外部出力接続検知部235からの信号により検知できる。なお、外部出力コネクタ211は、例えばコンポジットインターフェースである。ただし、HDMI(登録商標)コネクタであっても構わない。
画像表示部212は、TFT LCD等から成り、画像表示メモリ209に書き込まれた表示用の画像データをD/A変換器210を介して受信し、表示する。画像表示部212に、撮像した画像データを逐次表示すれば、ライブビュー機能を実現することが可能である。また、画像表示部212は、システム制御回路218の指示により任意に表示をON/OFFすることが可能であり、表示をOFFにした場合には撮影装置201の電力消費を大幅に低減することが出来る。
メモリ213は、撮影した静止画像や動画像を一時的に格納するためのメモリであり、所定枚数の静止画像や所定時間の動画像を格納するのに十分な記憶量を備えている。これにより、複数枚の静止画像を連続して撮影する連写撮影やパノラマ撮影の場合にも、高速かつ大量の画像書き込みをメモリ213に対して行うことが可能となる。また、メモリ213はシステム制御回路218の作業領域としても使用することが可能である。更に、メモリ213は、記録媒体229の書き込み用バッファとしても使われる。
圧縮・伸長回路214は、適応離散コサイン変換等により画像データを圧縮・伸長する回路であり、メモリ213に格納された画像を読み込んで圧縮処理或いは伸長処理を行い、処理を終えたデータをメモリ213に書き込む。
絞り機能を備えるシャッター202は絞りやシャッターを駆動するモータ等の駆動部を有する。露光制御部215は駆動部の動作を制御することにより、絞り機能を備えるシャッター202を制御する。撮影レンズ203はレンズを駆動するモータなどの駆動部を有する。測距制御部216は撮影レンズ203の駆動部を制御してフォーカシングを制御する。また、ズーム制御部217は撮影レンズ203の駆動部を制御してズーミングを制御する。
露光制御部215、測距制御部216はTTL方式を用いた制御を行う。これらの制御は、システム制御回路218が行う。つまり、システム制御部218は、撮像して得た画像データに対する画像処理回路207によって演算した演算結果に基づき、露光制御部215、測距制御部216に対する制御を行う。
システム制御回路218は、撮影装置201全体を制御する回路である。システム制御回路218は、不揮発性メモリ220に記録されたプログラムを実行することで、後述する各実施形態の処理を実現する。
メモリ219は、システム制御回路218の動作用の定数、変数、並びに、不揮発性メモリ220から読み出したプログラム等を展開するメモリであり、メモリ213よりもアクセス速度が早いメモリである。典型的にはメモリ213はDRAM、メモリ219はSRAMである。不揮発性メモリ220は電気的に消去・記録可能なメモリである。不揮発性メモリ220には、システム制御回路218の動作用の定数、プログラム等が記憶される。ここでいう、プログラムとは、後述の各実施形態における各種フローチャートを実行するためのプログラムのことである。
シャッタースイッチSW221、SW222、及び、操作部223は、システム制御回路218の各種の動作指示を入力するための操作部であり、スイッチやダイアル、タッチパネル、音声認識装置等の単数或いは複数の組み合わせで構成される。ここで、これらの操作部の具体的な説明を行う。シャッタースイッチSW221は、シャッターボタンの操作途中でONとなり、AF(オートフォーカス)処理、AE(自動露出)処理、AWB(オートホワイトバランス)処理等の動作開始を指示する。シャッタースイッチSW222は、シャッターボタンの操作完了でONとなる。このシャッタースイッチSW222がONになると、システム制御部218は、撮像素子204からの映像信号をA/D変換器205でデジタルの画像データに変換し、その画像データをメモリ制御回路208を介してメモリ213に画像データを書き込む露光処理を行う。同時に、システム制御部218は、必要に応じて不図示のEF(フラッシュ発光)処理の開始を指示する。また、システム制御部218は、画像処理回路207やメモリ制御回路208での演算を用いた現像処理を行わせる。また、システム制御部218は、メモリ213から画像データを読み出し、圧縮・伸長回路214で圧縮を行い、記録媒体229に画像データを書き込む記録処理という一連の処理を行う。また動画撮影の場合、システム制御部218は、各種回路に動画撮影の開始・停止を指示することになる。
操作部223は各種ボタンやタッチパネル等から構成される。ボタンの種類としては、メニューボタン、セットボタン、マクロボタン、マルチ画面再生改ページボタン、フラッシュ設定ボタン、単写/連写/セルフタイマー切り替えボタン、メニュー移動+(プラス)ボタン、メニュー移動−(マイナス)ボタンが含まれる。また、再生画像移動+(プラス)ボタン、再生画像−(マイナス)ボタン、撮影画質選択ボタン、露出補正ボタン、日付/時間設定ボタン。各種機能の選択及び切り替えを設定する選択/切り替えボタン、各種機能の決定及び実行を設定する決定ボタンが含まれる。また、画像表示部212のON/OFFを設定する表示ボタンも含まれる。撮影直後に撮影した画像データを自動再生するクイックレビュー機能を設定するクイックレビューON/OFFスイッチも含まれる。更に、撮影時にズームと広角を調節や、再生時の画像の拡大/縮小を調節、1画面表示/マルチ画面表示を切り替えるズーム操作部も操作部223に含まれる。更に、JPEG圧縮の圧縮率を選択するため、或いは撮像素子の信号をそのままデジタル化して記録媒体に記録するCCDRAWモードを選択するための圧縮モードスイッチも含まれる。
電源制御部225は、電池の装着の有無、電池の種類、電池残量の検出を行い、検出結果及びシステム制御回路218の指示に基づいて、必要な電圧を必要な期間、記録媒体を含む各部へ供給する。
電源部228は、アルカリ電池やリチウム電池等の一次電池やNiCd電池やNiMH電池、Li電池等の二次電池、ACアダプター等からなる。電源制御部225と電源部228とは、それぞれの電極226、227を介して互いに接続される。
インタフェース224はメモリカードやハードディスク等の記録媒体とのインタフェースである。インタフェース224としては、SDカードやコンパクトフラッシュ(登録商標)カード等の規格に準拠したものを用いて構成して構わない。さらに、インタフェース224に各種通信カードを接続することにより、他機器との間で画像データや画像データに付属した管理情報を転送し合うことが出来る。
保護部231は、装置の電源に連動し、電源OFF時に撮影装置201のレンズ203を含む撮像部を覆う事により、撮像部の汚れや破損を防止するバリアとして機能する。
マイクユニット232は、マイクからの音声データ取得部である。音声処理回路233は、マイクユニット232で得られた音声データをシステム制御回路218で取得するためにA/D変換を行う。また、ステレオマイクユニット232は、2ch以上のマイクユニットであるが、実施形態では簡単のため、2ch(ステレオ)マイクであるものとして説明する。
スピーカユニット234は、スピーカからの音声データへの音声データ出力部である。システム制御回路218は、処理された音声データを音声処理回路233にてD/A変換させ、スピーカユニット234に出力させることで、音声を再生させることになる。
記録媒体229はメモリカードやハードディスク等の記録媒体である。また、この記録媒体229がPCMCIAカードやコンパクトフラッシュ(登録商標)カード等の場合は、性能が記されている情報記憶回路を内蔵している事もある。
姿勢検知部236は、撮影装置201の傾きや回転を検知して該装置姿勢を示す姿勢情報を出力する。加速度検出部237は、装置の3軸方向の移動量に対する加速度を導出し、該加速度情報を出力する。
以上、実施形態における撮像装置201の構造と処理/機能の説明を行った。
次に、図1、3、4、5、6を用いて実施形態における駆動音の除去処理を詳細に説明する。ここで言う、駆動音とは、ズーム制御部217により撮影レンズ203のズーミング制御を行った際に駆動部が発する雑音を指す。
はじめに、図1を用いて適応フィルタ(Adaptive Filter)の構成を説明する。図1は、適応フィルタの構成をブロック図で示している。この適応フィルタは、図2における、メモリ219にあらかじめ記録された不図示のプログラムにより実施される一連の演算処理でもある。不図示のプログラムをシステム制御回路218がメモリ219から読出し、音声処理回路233を介して入力された音声データに対し逐次実行する。この適応フィルタの構成および演算処理について詳述する。
適応フィルタは、2つの入力A、Bを持ち、入力Bからのデータに対して積和演算を行うトランスバーサルフィルタ回路101と、適応アルゴリズムによる評価関数に基づきトランスバーサルフィルタ回路101が利用する係数を更新する評価部103と、トランスバーサルフィルタ回路101の出力と入力Aを加算する加算器102とを備えている。
一般的に、入力A側を所望信号、入力B側を参照信号、出力側を所望信号と呼ぶ。適応フィルタを雑音除去部として用いる場合、所望信号には除去対象となる雑音源から発生する音声信号を、参照信号には観測したい音声信号に前記雑音が付加された音声信号をそれぞれ印加し、出力信号として雑音の除去された音声信号を得る。
トランスバーサルフィルタ回路101は、入力Bより得られた参照信号x(t)を遅延する不図示の複数の遅延素子と、x(t)及び遅延した各信号x(t−1)、x(t−2)に対して評価部103が評価関数に従って設定した係数h0(t)、h1(t)、h2(t)を乗算する複数の乗算器と、該乗算器の出力を加算して推定信号y(t)を出力する複数の加算器とを備えている。この時、tは時間を表す単位であり、x(t)は、時系列の音声デジタルデータxにおけるt番目のサンプルを表す。
推定信号y(t)は、次式で与えられる。mは係数の個数、Nは自然数を示し、適応フィルタが係数としてh0(t)、h1(t)、h2(t)をもつ場合、m=2、N=3となる。
Figure 0006902961
また、所望信号d(t)から推定信号y(t)を減算する減算器102を備え、減算器の出力である推定信号y(t)と所望信号d(t)の差である誤差信号e(t)が0に近づくように評価関数103によって、トランスバーサルフィルタ回路101の係数を更新する。
係数更新のアルゴリズムとしては、最小平均自乗(LeastMeanSquare:LMS)アルゴリズムが、従来から広く用いられている。このアルゴリズムでは、誤差信号e(t)の平均自乗誤差E[e(t)2]を最小化するように係数の更新が行われる。あらかじめ設定していた係数h0(t)、h1(t)、h2(t)を更新し、h0(t+1)、h1(t+1)、h2(t+1)の導出を行う。
次式に係数更新の一例であるLMSアルゴリズムを示す。
Figure 0006902961
この数式内のμは、ステップサイズと呼ばれ、係数更新の大きさを決める役割を持つ。通常、一定値を用い、0.05〜0.10程度の値を使用する。撮影装置201の構成に合わせてあらかじめ決めておく事が望ましく、小さくすると正確な推定が可能だが、大きすぎるとフィルタ出力が発散してしまう。
参照信号x(t)には除去したい雑音成分、所望信号d(t)には雑音成分の含まれる音声信号を入力する。上記一連の処理を繰り返す事で、誤差信号e(t)を0に近づける、即ち雑音の除去を行う事が可能となる。
また、FFTなどと異なりまとまった時系列の音声データを使うことなく、1サンプルの音声データ毎に処理を行う事ができる為、該処理による遅延は発生しない。
上記を踏まえ、実施形態における雑音除去システムを図3のブロック構成図を参照して説明する。
この雑音除去システムは、MAINマイク301、SUBマイク302、A/D変換部303および雑音除去部309から構成される。MAINマイク301、SUBマイク302は、2chのマイクユニット232を構成するマイクである。詳細は後述から明らかにするが、MAINマイク301は、主要の取得対象を装置外からの音声とするマイクである。また、SUBマイク302はMAINマイク301と比較し、主要の取得対象を駆動部からの駆動雑音とするものである。A/D変換部303は、音声処理回路233に内包される回路である。また、雑音除去部309は、図2中のメモリ219にあらかじめ記録された不図示のプログラムをシステム制御回路218が実行する一連の演算処理である。このプログラムは、不揮発性メモリ220に記憶されており、システム制御回路218がメモリ219に読み出て実行するものである。システム制御回路218は、このプログラムを逐次実行して、音声処理回路233より入力された音声データに対して処理することになる。
ここで、本実施形態の2ch分のマイクユニット232を構成するメカ構成について、図4(A)、(B)を用いて詳述する。
図4(A)は、本実施形態の撮像装置の外観図である。撮像装置を被写体に向けて構えた際の撮影者側から見て、向かって右がMAINマイク301、左がSUBマイク302となる。MAINマイク301、SUBマイク302は、最終的にはステレオマイクとして機能するために、撮像部の視点の中心位置に対して線対称になっている。
図4(A)においての拡大図は、マイクユニット232の一部であるMAINマイク301とSUBマイク302のメカ構成部であり、図4(B)は、メカ構成の破線а−а‘部分を示す断面の拡大図である。
空気を伝播する音響振動を通過させための開口部(以下、マイク穴)を構成する外装部401、MAINマイク301を保持するMAINマイクブッシュ403、SUBマイク302を保持するSUBマイクブッシュ402、其々のマイクブッシュを外装部401へ押し付け保持をする押し付け部406により構成される。外装部401、押し付け部406についてはPC材等のモールド部材で構成されるが、アルミ、ステンレス等の金属部材であっても問題ない。また、MAINマイクブッシュ403、SUBマイクブッシュ402については、エチレンプロピレンジエンゴム等のゴム材にて構成される。
ここで、外装部401におけるマイク穴の穴径(面積)について説明する。SUBマイク302へのマイク穴401bの径は、MAINマイク301へのマイク穴401aの径に対して小さく、所定の倍率にて縮小された構成をとる。マイク穴形状については円状、楕円状が望ましいが、方形状でも構わない。また、其々の穴形状について、同形状でも別形状でも構わない。この構成は、撮像装置内部でマイクに空気伝搬して伝わる駆動雑音についてSUBマイク302のマイク穴側から外部へ漏れにくくなる事を目的とする。
次に、外装部401とマイクブッシュで構成されるマイク前面の空間について説明する。外装部401とSUBマイクブッシュ402で構成されるSUBマイク302前面の空間は、外装部401とMAINマイクブッシュ403で構成されるMAINマイク301前面の空間に対して、空間容積を大きく、所定の倍率の容積を確保する構成をとる。この構成により、SUBマイク302の前面の空間において、空間内の気圧変化が大きくなり、駆動部(実施形態ではズームレンズの駆動音)からの駆動雑音が強調される。
前述の通り、マイク入力のメカ構成におけるSUBマイク302の入力は、MAINマイク301入力に対して、駆動雑音の振幅が大きく強調される構成をとる。駆動雑音が其々のマイクへ入力される音声レベルの関係は、SUBマイク302の方がMAINマイク301より大きい。また逆に、マイク穴の前面から空気伝搬により其々のマイクへ入力される音声(本来の集音目的である周辺環境の音)のレベル関係は、MAINマイク301の方がSUBマイク302より大きくなる。
このように、マイクユニット232を構成する2チャンネルのマイクのうち、片方がマイク(MAINマイク301)の構造などが外部の音声を拾いやすく、内部の音声を拾いにくい保持構成とし、環境音を取得する役割を持たせる。そして、もう一方のマイク(SUBマイク302)は、内部の音声を拾いやすく、外部の音声を拾いにくい保持構成 とし、駆動音の情報を取得する役割を持たせる。かかる構成では、駆動音は、MAINマイクと比較しSUBマイクの方がより大きく記録されるが、被写体周囲の音は、両マイクよりも充分に遠い位置にある為、両マイクともにほぼ同じ大きさで出力される。
次に、このMAINマイク301、SUBマイク302に関連する処理を図3、5を用いて詳述する。実施形態における駆動雑音はズーム駆動時に発する音であり、その発生原が撮像装置自身である。故に、駆動雑音の発生原と各マイク間の距離は、撮像の際の被写体と撮像装置間の距離よりも遥かに短い。故に、MAINマイク301、SUBマイク302が検出する駆動雑音の位相差は無視できるほど小さいと言える。一方、MAINマイク301、SUBマイク302が検出する装置外から伝播する音は、当然、位相差を有する点に注意されたい。
図3において、A/D変換部303は、予め設定されたサンプリング周期(例えば44.1KHz)で、MAINマイク301およびSUBマイク302の音声信号をデジタル信号に変換する。M−S演算部304は、このMAINマイク301、SUBマイク302から得た音声信号から駆動雑音の有無の判定部として機能する。
M−S演算部304の動作を図5の動作タイミングチャートに示す。
図5において、MAIN[t]、SUB[t]は、MAINマイク301およびSUBマイク302のtサンプル目の音声信号、MAIN[t]―SUB[t]はMAINマイク301の音声信号からSUBマイク302の信号を差し引いた減算量を示す。また、t1−t2は、ズームレンズの駆動期間を示す。
先に説明したように、MAINマイク301、SUBマイク302は、装置外からの音声、並びに、装置内の駆動源からの駆動雑音が重畳して検出される。ただし、MAINマイク301は、サブマイク302と比較して、装置外からの音声を主要ターゲットとしている。逆に、SUBマイク302はMAINマイク301と比較して駆動雑音を主要なターゲットとしている。それ故、タイミングt1以前のズームレンズを非駆動状態にある期間では、駆動雑音が発生しないので、MAIN[t]―SUB[t]は概ね図示の如く正の値を持つ。
そして、ズームレンズの駆動期間であるタイミングt1からt2の期間では、SUB[t]がMAIN[t]に対して大きく上まっており、減算量MAIN[t]―SUB[t]が負の値となって、ズーム検出閾値501(負の値を持つ閾値)を下回るのが分る。つまり、タイミングt1からt2の期間は雑音発生状態を示す期間であると言える。
M−S演算部304は、入力したMAIN[t]、SUB[t]の信号から、減算量MAIN[t]―SUB[t]を求め、この減算量がズーム検出閾値を下回った期間におけるMAIN[t]、SUB[t]の信号を、M_x[t]、S_x[t]として出力する。ここで、M_x[t]はMAIN[t]に対応し、S_x[t]はSUB[t]に対応する。
図5のタイミングチャートに図示の通り、MAIN[t]の期間t1からt2の出力がM_x[t]、SUB[t]の期間t1からt2の出力がS_x[t]となる。なお、減算量MAIN[t]―SUB[t]が0もしくは正の値を持つ期間では、M_x[t]、S_x[t]はゼロの値を持つ。
この時、tは時間を表す単位であり、x[t]は、時系列の音声デジタルデータxにおけるt番目のサンプルをあらわす。
なお、実施形態ではM−S演算部304は、負の値の閾値Thとしたとき、
MAIN[t]−SUB[t]<Th
を満たす状態で駆動雑音有りと判定し、その際のMAIN[t]、SUB[t]の値を出力した。そして、M−S演算部304は、
MAIN[t]−SUB[t]≧Th
を満たす場合に、MAIN[t]=SUB[t]=0として出力した。
しかし、閾値との判定法は上記に限らない。例えば、適当な正の閾値Thを定義し、SUB[t]−MAIN[t]>Thの場合に駆動雑音有りと判定しても良い。要するに、SUBマイク302により音声データの値が、MAINマイク301で得られた音声データの値より十分に大きいことを条件に駆動雑音有りと判定できれば良い。
次に、M−S演算部304は、出力データM_x[t]、S_x[t]を相互相関処理部305および位相差検波処理306へ順次供給する。相互相関処理部305および位相差検波処理306は、駆動音の正確な判別・抽出を目的とした処理を行う。相互相関処理部305および位相差検波処理306は、M−S演算部304から出力されたデジタルデータM_x[t]、S_x[t]から、ズーミング制御により生じる駆動音のみを正確に抽出する為の処理を行う。
まず、相互相関処理部305では、M−S演算部304からのMAINマイクの出力信号であるM_x[t]、およびSUBマイクの出力信号であるS_x[t]との相互相関を調べる。
M−S演算部304の出力は、マイク出力間の差分が大きく、且つ、減算量がズーム検出閾値501を超えた(ズーム検出閾値501を下回った)期間におけるMAIN[t]、SUB[t]の信号である。この為、これらデータには、ズーム期間中に生じた環境音なども含まれてしまう場合がある。
相互相関処理部305は、これらデータから駆動音のみを抽出する為に行われ、相互的に相関の高い信号を選別し出力する。これらのデータである2つの入力M_x[t]、S_x[t]にはレベルの差はあるが、立ち上がり時間、立下り時間が概ね揃っており、波形が重なり易く、相互相関値が高くなる傾向にある。この処理の内容を次式(3)に示す。
Figure 0006902961
この2つの入力を、Mサンプルずらし、和をとる。Mはあらかじめ設定された値であり、図2中の記録部230に保存される。Mは、製品の本体構成等に影響を受けるが、極力小さな値(1乃至5程度)であることが望ましい。
式(3)において、φmsが正の値を取る場合、相互相関が高いと判定できる。それ故、相互相関処理部305は、φmsが正で最大となる場合のMを求める。そして、相互相関処理部305は求めたMと、そのずらした結果をM_x’[t]、S_x’[t]として出力する。
また、この総和の閾値は、製品の本体構成やマイク配置に影響を受ける為、製品毎に調整し、補正項などを加算する構成があってもよい。この場合、補正項は、不揮発性メモリ220などの不揮発性の記録手段に保持する。
相互相関処理部305の出力M_x’[t]、S_x’[t]は、次に位相差検波処理部306に入力される。そして、位相差検波処理部306は、位相差検波処理を行い、MAIN、SUB用の時系列の音声データを生成する。その処理の内容を、図6を用いて説明する。
図6において、MAINマイク301、SUBマイク間の距離をLmic、音の入ってくる入射角をθと定義すると、位相差は次式で導出される。
Figure 0006902961
Cは音速であり、jは式(3)における相関を取る為にずらしたサンプル数である。Gは、△θの閾値であり撮影装置の構成に合わせて検討された値があらかじめ図2中の不揮発性メモリ220に記録されている。
式(4)、(5)を演算すると音声データの位相が揃う場合、θ=0になる。
駆動音は、撮影装置内を伝搬する為、マイクユニットを保持する様々な部材を伝い音声データとして記録される。様々な伝搬経路がある為、図6のような位相検知を行った場合、音の入ってくる入射角θの値が一定とならず、時間的な変化が激しくなる。
この特性を利用し、本実施形態では、位相検波処理部306では、筐体内部を伝搬してきたノイズを選別する為に、単位時間当たりの位相差Δθが閾値Gより大きい場合に音声データを通過させ、Δθが閾値G以下の場合にゼロを出力する構成をとる。位相検波処理部306は、式(6)に該当するM_x’[t]、S_x’[t]をM_x"[t]、S_x"[t]として後段の処理へ出力する事で、筐体内を伝う駆動音を判別して抽出する事が出来る。
MAINチャネル用の適応フィルタ307は、位相検波を通過した信号M_x"[t]と、A/D変換部303を通過した信号MAIN[t]とを入力して、フィルタ処理を行い、駆動雑音を除去もしくは低減させた、ステレオの一方のチャネルの音声信号(図4によればステレオRチャネル用音声信号)として出力する。
一方、SUBチャネル用の適応フィルタ308は、位相検波を通過した信号S_x"[t]と、A/D変換部303を通過した信号SUB[t]とを入力して、フィルタ処理を行い、駆動雑音を除去もしくは低減させた、ステレオの他方のチャネルの音声信号(図4によればステレオLチャネル用音声信号)として出力する。
そして、システム制御回路218により、各チャネルのゲインの調整処理やステレオ感強調処理を施した後、動画データと結合し、MOVやMPEGなどのファイルへ変換し、図2中の記録部230に音声付動画像ファイルとして保存することになる。
以上、相互相関が取れず、且つ、位相検波のできない音声信号を、駆動音が筐体内部を伝搬したノイズとして分離し、該信号を参照信号として、適応フィルタ処理による雑音除去を行う構成を取ることで、駆動音の除去を行う事が可能となる。
なお、実施形態では、図3に示す雑音除去部309の各構成要素が、システム制御回路218によるプログラムを実行する機能部として説明した。この場合、各構成要素は関数として実装することになり、それらの間の処理のシーケンスは図3に示す通りとなる。故に、図3は、システム制御回路218が実行するフローチャートと見ることもできる。なお、図3の要素の一部もしくは全部をハードウェアで実現させても構わない。
以上説明したように実施形態によれば、FFT(高速フーリエ変換)を用いる従来と被比較し、FFT変換のための多数の音声データを蓄える期間がなくなる分、駆動雑音除去に係る処理の遅延量は少なくできる。この結果、例えばデジタルビデオカメラ等の撮像装置に実施形態で示した雑音除去部309を搭載した場合、ヘッドホン等で実際のノイズ除去後の音声を確認しながら撮像画像の記録操作を行うこともできる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
201…撮像装置、218…システム制御回路、232…マイクユニット、233…音声処理回路、301…MAINマイク、302…SUBマイク、303…A/D変換部、304…M−S演算部、305…相互相関処理部、306…位相検波処理部、307、308…適用フィルタ

Claims (7)

  1. 音声処理装置であって、
    駆動部と、
    主要の取得対象を前記装置外からの音声とする第1のマイクと、
    前記第1のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第2のマイクと、
    前記第1のマイク及び前記第2のマイクそれぞれより得られた時系列の音声データの差分に基づき、前記駆動部が発生する駆動雑音を低減した2チャンネルの音声データを生成する雑音除去部とを有し、
    前記雑音除去部は、
    前記第1、第2のマイクより得られた時系列の音声データの差分から前記駆動雑音の発生を判定する判定部と、
    該判定部により駆動雑音の発生状態と判定された場合の前記第1、前記第2のマイクより得られた時系列の音声データの位相の相関値を求める相関処理部と、
    前記相関値に基づき、前記第1、前記第2のマイクそれぞれからの時系列の音声データのうち、前記第1、前記第2のマイクへの外部からの音声の入射角の誤差が予め設定された閾値を超えると判定された、時系列の音声データを生成する生成部と、
    前記第1のマイクより得られた時系列の音声データと、前記生成部により生成された前記第1のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの一方のチャネルの音声データを生成する第1の適応フィルタ、
    前記第2のマイクより得られた時系列の音声データと、前記生成部により生成された前記第2のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの他方のチャネルの音声データを生成する第2の適応フィルタと
    を有することを特徴とする音声処理装置。
  2. 前記判定部は、前記第1のマイクから得られた時系列の音声データに対し、前記第2のマイクから得られた時系列の音声データが予め設定された閾値より大きい場合に、駆動雑音有りと判定する
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記相関処理部は、
    前記判定部から得た前記第1、前記第2のマイクからの時系列の音声データをM_x[t]、S_x[t]としたとき、
    Figure 0006902961
    φmsが正であって最大となるMを、相関値して判定する
    ことを特徴とする請求項1又は2に記載の音声処理装置。
  4. 前記第1のマイクは、前記音声処理装置の筐体の所定の位置に設けられた第1の開口部を介して伝播してくる、装置外からの音声を主要なターゲットとするマイクであり、
    前記第2のマイクは、前記第1の開口部よりも面積が小さい第2の開口部を介して入ってくる音声を電気信号に変換するマイクであって、前記音声処理装置が有する前記駆動部からの駆動雑音を前記第2のマイクに伝播するため、前記第2のマイクと前記2の開口部との間での空間の容積は、前記第1のマイクと前記第1の開口部との間の容積よりも大きい
    ことを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
  5. 前記第1、前記第2のマイクの間に撮像部を設ける
    ことを特徴とする請求項1乃至4のいずれか1項に記載の音声処理装置。
  6. 駆動部、主要の取得対象を前記装置外からの音声とする第1のマイク、前記第1のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第2のマイクを有する音声処理装置の制御方法であって、
    前記第1のマイク及び前記第2のマイクそれぞれより得られた時系列の音声データの差分に基づき、前記駆動部が発生する駆動雑音を低減した2チャンネルの音声データを生成する雑音除去工程を有し、
    当該雑音除去工程は、
    前記第1、第2のマイクより得られた時系列の音声データの差分から前記駆動雑音の発生を判定する判定工程と、
    該判定工程により駆動雑音の発生状態と判定された場合の前記第1、前記第2のマイクより得られた時系列の音声データの位相の相関値を求める相関処理工程と、
    前記相関値に基づき、前記第1、前記第2のマイクそれぞれからの時系列の音声データのうち、前記第1、前記第2のマイクへの外部からの音声の入射角の誤差が予め設定された閾値を超えると判定された、時系列の音声データを生成する生成工程と、
    前記第1のマイクより得られた時系列の音声データと、前記生成工程により生成された前記第1のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの一方のチャネルの音声データを生成する第1のフィルタ工程と、
    前記第2のマイクより得られた時系列の音声データと、前記生成工程により生成された前記第2のマイクに対応する時系列の音声データとを入力して適応フィルタ処理を行い、ステレオの他方のチャネルの音声データを生成する第2のフィルタ工程と
    を有することを特徴とする音声処理装置の制御方法。
  7. 駆動部、主要の取得対象を前記装置外からの音声とする第1のマイク、前記第1のマイクと比較し、主要の取得対象を前記駆動部からの駆動雑音とする第2のマイクを有する音声処理装置におけるプロセッサが読み込み実行するプログラムであって、
    前記プロセッサに、請求項6に記載の各工程を実行させるためのプログラム。
JP2017157616A 2017-08-17 2017-08-17 音声処理装置及びその制御方法 Active JP6902961B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017157616A JP6902961B2 (ja) 2017-08-17 2017-08-17 音声処理装置及びその制御方法
US16/058,268 US10418049B2 (en) 2017-08-17 2018-08-08 Audio processing apparatus and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017157616A JP6902961B2 (ja) 2017-08-17 2017-08-17 音声処理装置及びその制御方法

Publications (2)

Publication Number Publication Date
JP2019036867A JP2019036867A (ja) 2019-03-07
JP6902961B2 true JP6902961B2 (ja) 2021-07-14

Family

ID=65635984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017157616A Active JP6902961B2 (ja) 2017-08-17 2017-08-17 音声処理装置及びその制御方法

Country Status (1)

Country Link
JP (1) JP6902961B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822621B (zh) * 2019-11-18 2023-02-28 瑞昱半导体股份有限公司 双声道麦克风的测试电路、测试方法及音频编译码器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4196431B2 (ja) * 1998-06-16 2008-12-17 パナソニック株式会社 機器内蔵型マイクロホン装置及び撮像装置
JP4542396B2 (ja) * 2004-08-27 2010-09-15 オリンパス株式会社 録音装置
JP2013223223A (ja) * 2012-04-19 2013-10-28 Nikon Corp 録音装置
JP6511897B2 (ja) * 2015-03-24 2019-05-15 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及びプログラム

Also Published As

Publication number Publication date
JP2019036867A (ja) 2019-03-07

Similar Documents

Publication Publication Date Title
JP5594133B2 (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP4934968B2 (ja) カメラ装置、カメラ制御プログラム及び記録音声制御方法
US9495950B2 (en) Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
US20150271439A1 (en) Signal processing device, imaging device, and program
JP5361398B2 (ja) 撮像装置
JP2011077604A (ja) ノイズ除去装置、レンズ装置、撮像装置、ノイズ除去方法
US10418049B2 (en) Audio processing apparatus and control method thereof
US10535363B2 (en) Audio processing apparatus and control method thereof
JP5998483B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP5656586B2 (ja) 撮像装置とその制御方法並びに音声処理装置及び方法
JP6902961B2 (ja) 音声処理装置及びその制御方法
JP2013117585A (ja) 撮像装置、情報処理装置及びその制御方法、プログラム、並びに音声処理装置
US9160460B2 (en) Noise cancelling device
JP4931198B2 (ja) 撮像装置及び撮像装置の制御方法
JP4542396B2 (ja) 録音装置
JP2011188374A (ja) 撮影機器
JP6912969B2 (ja) 音声処理装置及びその制御方法
US9294835B2 (en) Image capturing apparatus, signal processing apparatus and method
US20120060614A1 (en) Image sensing device
JP5736839B2 (ja) 信号処理装置、撮像装置、及びプログラム
JP2018207313A (ja) 音声処理装置及びその制御方法
JP2012165219A (ja) 撮像装置
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP5473786B2 (ja) 音声信号処理装置、及びその制御方法
JP2011070046A (ja) 情報記録再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200713

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210622

R151 Written notification of patent or utility model registration

Ref document number: 6902961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151