JP2019057795A

JP2019057795A - 音声信号処理装置、その制御方法およびプログラム

Info

Publication number: JP2019057795A
Application number: JP2017180396A
Authority: JP
Inventors: 和広並木; Kazuhiro Namiki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-04-11

Abstract

【課題】超音波を搬送波とする音声が入力される場合に、記録の際に生じる歪みを抑制した音声を出力することが可能な音声信号処理装置を提供する。
【解決手段】本発明に係る音声信号処理装置は、入力された音声信号を第一の増幅率で増幅する処理を含む第一の処理を行う第一の処理手段と、入力された音声信号を、第一の増幅率よりも大きな第二の増幅率で増幅する処理を含む第二の処理を行う第二の処理手段と、入力された音声信号に含まれる超音波の搬送波を検出する検出手段と、第一の処理手段からの音声信号と、第二の処理手段からの音声信号の何れかを、記録のための音声信号として出力する出力手段とを有し、出力手段は、検出手段により超音波の搬送波が検出された場合に、第一の処理手段からの音声信号を記録のための音声信号として出力する。
【選択図】図１

Description

本発明は、音声信号処理装置、その制御方法およびプログラムに関する。

近年、可聴音を直進性の高い超音波（人の耳には聞こえない高い振動数の音）に変調して狙った方向に照射し、ビーム状の音場を形成することにより、可聴音を再現する超指向性音響システムスピーカー（パラメトリックスピーカーともいう）が知られている。パラメトリックスピーカーは、例えば、博物館などの展示会場において、複数の展示物の説明をそれぞれ音声出力する場合に有効である。複数の展示物の説明を従来のスピーカーでそれぞれ音声出力する場合、互いの音声が混合して聞こえてしまう。パラメトリックスピーカーでは、その指向性により音声が混合されず、一方の音声説明のみをユーザに届ける（音分化）ことができる。また、発せられる音を特定領域に対して届けることにより、駅に隣接した住宅に対する静音化を実現することができる。

特開平０６―１６４２７８号公報

パラメトリックスピーカーでは、超音波を搬送波として、可聴音により超音波を変調して空気中に送出することで、空気の非線形性により可聴音が復調される。このとき、その搬送波レベルがビデオカメラ等の記録装置にある音声入力のＡＤ変換部の入力可能な範囲を超える場合、（信号がクリップされて）変調した音がつぶれた状態で処理され、可聴音が歪む又は可聴音と関係のないノイズが記録される場合がある。

マイクから入力した音声のレベルを改善する技術として、演奏者の演奏をマイクから収音してその場のスピーカーで再生するシステムにおいて、ゲインの増加によって発生するハウリングを抑制する技術が知られている（特許文献１）。特許文献１の技術では、可聴音のピーク周波数のレベルと平均的なレベルとからハウリングを検出し、ハウリングに係るピーク周波数のゲインを低下させる。しかしながら、搬送波を超音波とする音声を扱うことは考慮されておらず、搬送波を超音波とする可聴音の歪みを改善するためには、超音波を含む高周波領域のレベルも考慮しなければならない。

本発明は、上記課題に鑑みてなされ、その目的は、超音波を搬送波とする音声が入力される場合に、記録の際に生じる歪みを抑制した音声を出力することが可能な技術を実現することである。

この課題を解決するため、例えば本発明の音声信号処理装置は以下の構成を備える。すなわち、入力された音声信号を第一の増幅率で増幅する処理を含む第一の処理を行う第一の処理手段と、入力された音声信号を、前記第一の増幅率よりも大きな第二の増幅率で増幅する処理を含む第二の処理を行う第二の処理手段と、前記入力された音声信号に含まれる超音波の搬送波を検出する検出手段と、前記第一の処理手段からの音声信号と、前記第二の処理手段からの音声信号の何れかを、記録のための音声信号として出力する出力手段とを有し、前記出力手段は、前記検出手段により前記超音波の搬送波が検出された場合に、前記第一の処理手段からの音声信号を前記記録のための音声信号として出力することを特徴とする。

本発明によれば、超音波を搬送波とする音声が入力される場合に、記録の際に生じる歪みを抑制した音声を出力することが可能になる。

本実施形態に係る音声信号処理装置とデジタルカメラの機能構成例を示す図本実施形態に係る第一フィルタ部及び第一サブサンプリング部の動作を説明する図本実施形態に係る第二フィルタ部及び第二サブサンプリング部の動作を説明する図本実施形態に係る第一サブサンプリング部の出力信号の周波数帯域と第二サブサンプリング部の出力信号の周波数帯域の例を示す図本実施形態に係るダイナミックレンジ拡張部の動作を説明する図

（実施形態１）
（音声信号処理装置の構成）
図１（ａ）は、本実施形態に係る音声信号処理装置１００の機能構成例を示すブロック図である。なお、以下の説明では、音声信号処理装置が信号処理用のＩＣ（集積回路）によって実現される例について説明する。しかし、図１（ａ）に示す機能ブロックの１つ以上が、ＣＰＵやＭＰＵ等のプログラマブルプロセッサがソフトウェアを実行することによって実現されてもよく、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。従って、以下の説明において、異なる機能ブロックが動作主体として記載されている場合であっても、同じハードウェアが主体として実現されうる。

また、図１（ｂ）は、音声信号処理装置１００を内蔵するデジタルカメラ１８０の機能構成例を示している。撮像部１５１は撮像素子を含み、被写体光学像を画像データに変換して画像データをバス１５８経由で出力する。音声信号処理装置１００は、入力した音声信号に後述の処理を施して処理後の音声信号をバス１５８経由で出力する。制御部１５６は、例えばＣＰＵ及びＲＯＭを含み、ＲＯＭに記録されたプログラムをメモリ１５２に展開、実行することにより、デジタルカメラ１８０の各種機能を実現するように各部を制御する。制御部１５６は、更に、音声信号処理装置１００からの音声信号に対して所定の音声処理や圧縮処理を施したり、撮像部１５１からの画像データに対して所定の画像処理や圧縮処理を施したりして記録部１５４に出力する。記録部１５４は、制御部１５６からの信号を、例えば半導体メモリ等の記録媒体１５５に記録する記録装置である。操作部１５７はユーザがデジタルカメラ１８０を操作するためのボタンやタッチパネルを含む。表示部１５３は、撮像された画像や記録媒体に記録された画像や映像を表示するほか、操作のためのメニュー表示を表示する。なお、本実施形態に係る音声信号処理装置１００は、デジタルカメラに限らず、スマートフォン等の携帯型電話機やタブレットＰＣ、パーソナルコンピュータ、ゲーム機、医療機器、ＰＣＭレコーダ等の録音可能な装置に内蔵され得る。

再び図１（ａ）を参照すると、マイクロホン１０１は、例えばステレオマイクを構成し、周囲の音を収音し、電気信号に変換する。なお、図１（ａ）は、音声信号処理装置１００が備えるマイクロホンが２つのチャンネルを有する場合の、一方のチャンネルに対する構成を示している。マイクロホン１０１は、変換したアナログデータを、複数の経路を構成するＭａｉｎ_ｃｈ１０００とＳｕｂ_ｃｈ１００１にそれぞれ入力する。

アナログ増幅器１０２とアナログ増幅器１０３は、アナログ信号を増幅する増幅器であるが、それぞれ異なるゲイン係数を有する。本実施形態では、Ｍａｉｎ_ｃｈ１０００のアナログ増幅器１０３の増幅率Ｇｍは、Ｓｕｂ_ｃｈ１００１のアナログ増幅器１０２の増幅率Ｇｓよりも大きい。アナログ増幅器１０２はアナログ・デジタルコンバータ（ＡＤＣ）１０４に、また、アナログ増幅器１０３はＡＤＣ１０５に、それぞれの増幅率で増幅した信号を供給する。

ＡＤＣ１０４及びＡＤＣ１０５は、デルタシグマ変調器によるアナログ・デジタルコンバータである。本実施形態におけるデルタシグマ変調器は、記録するサンプリング周波数ｆｓ（例えば、ｆｓ＝４８ｋＨｚ）よりも高い周波数でオーバーサンプリングを行い、例えば、サンプリング周波数ｆｓにオーバーサンプリング率Ｋを乗じた周波数で動作する。オーバーサンプリング率Ｋは、サンプリング周波数ｆｓの値に対して、例えば、２桁から３桁ほど大きな周波数となるように定められる。すなわち、ＡＤＣ１０４及びＡＤＣ１０５は、デジタル音声信号を、オーバーサンプリングでかつ多ビット化された状態で出力する。

Ｍａｉｎ_ｃｈ１０００とＳｕｂ_ｃｈ１００１は、それぞれ、ＡＤＣの出力から記録用の音声信号を取得するための、２つのフィルタと２つのサブサンプリングを適用する一連の処理を行う。まず、Ｓｕｂ_ｃｈ１００１側のフィルタ及びサブサンプリング部の構成について説明する。Ｓｕｂ_ｃｈ１００１では、ＡＤＣ１０４からの信号に対して、所望のサンプリング周波数で記録するためのサブサンプリングを行う。図１（ａ）の例では、第一フィルタ部１０６と第一サブサンプリング部１０８とが第１段階のサブサンプリングを行う構成に含まれ、第二フィルタ部１１０と第二サブサンプリング部１１２とが第二段階のサブサンプリングを行う構成に含まれる。

第一フィルタ部１０６は、第一サブサンプリング部１０８が、ＡＤＣ１０４からの出力信号を間引いてサンプリング周波数を落とした場合に生じ得る、可聴帯域に折り返る雑音成分の発生を予め除去する。第一フィルタ部１０６は、ＡＤＣ１０４からの出力信号に対し、例えば、可聴帯域に折り返る雑音成分が存在する周波数帯域に極を持つ移動平均フィルタを適用する。これにより、第一サブサンプリング部１０８が音声信号のサンプリング周波数を落とす際に、可聴帯域に折り返る雑音成分の発生を防止することができる。なお、第一フィルタ部１０６の特性については、図２を参照して後述する。

次に、第二フィルタ部１１０は、第一サブサンプリング部１０８の出力信号に対し、例えば、サンプリング周波数ｆｓの半分の周波数で十分に値を落とすことができるローパスフィルタを適用する。続いて、第二サブサンプリング部１１２は、記録部１５４において記録するための所望のサンプリング周波数まで第二フィルタ部１１０の出力信号を間引く。このとき、可聴帯域に折り返る雑音成分は、第二フィルタ部１１０によって予め除去されている。なお、第二フィルタ部１１０の特性については、図３を参照して後述する。

同様に、Ｍａｉｎ_ｃｈ１０００側では、第三フィルタ部１０７が、可聴帯域に折り返る雑音成分が存在する周波数帯域に極を持つ移動平均フィルタを用いて、折り返り雑音を予め除去する。また、第四フィルタ部１１１は、第三サブサンプリング部１０９の出力信号に対し、例えば、サンプリング周波数ｆｓの半分の周波数以上の音声信号を除去するような特性を持ったローパスフィルタを適用し、可聴帯域に折り返る雑音成分を予め除去する。第四サブサンプリング部１１３は、記録部１５４において記録するためのサンプリング周波数まで第四フィルタ部１１１の出力信号を間引く。

次に、Ｓｕｂ_ｃｈ１００１側では、２つの検出部が各サブサンプリング部からの出力信号の振幅レベルのピーク値を検出する。本実施形態では、第一検出部１１４は第一サブサンプリング部１０８の出力信号の振幅レベルを測定して、ピーク値を検出する。また、第二検出部１１５は第二サブサンプリング部１１２の出力信号の振幅レベルを測定し、ピーク値を検出する。

レベル比較部１１６は、第一検出部１１４で検出した音声信号のピーク値と第二検出部１１５で検出したピーク値とを比較する。レベル比較部１１６は、ピーク値の比較結果をリカバリ回路１２０に入力する。

次に、ダイナミックレンジ拡張部１００２について説明する。ダイナミックレンジ拡張部１００２は、Ｓｕｂ_ｃｈ１００１側の出力信号とＭａｉｎ_ｃｈ１０００側の出力信号を入力して、いずれかの側の信号に出力を切り替える。具体的には、Ｄレンジレベル検出部１２２はＭａｉｎ_ｃｈ１０００側の振幅レベルを計測し、その振幅レベルが閾値レベルよりも大きい場合、切り替え制御部１２１がＳｕｂ_ｃｈ１００１側に出力を切り替える。

可変増幅器１１７は、第二サブサンプリング部１１２の出力信号のレベルが第四サブサンプリング部１１３の出力のレベルと同等になるように、第二サブサンプル部の出力信号を増幅する。増幅する際の増幅率は、例えば、アナログ増幅器１０２の増幅率Ｇｍとアナログ増幅器１０３の増幅率Ｇｓの比率によって予め定められてよい。加算器１１８は、可変増幅器１１７の出力信号にＤＣ成分を付加する。

リカバリ回路１２０は、レベル比較部１１６で求められる、第一検出部で検出されたピーク値と第二検出部で検出されたピーク値の大小関係に応じて、音声信号から超音波の搬送波を検出する（超音波検出手段）。リカバリ回路１２０は、音声信号から超音波の搬送波が検出されたかに応じて、スイッチ１１９の切り替えを切り替え制御部１２１に指示する（切替手段）。このとき、リカバリ回路１２０は、所定の時定数Ｔｒをもつようにスイッチ１１９を切り替えるタイミングを制御する。

Ｄレンジレベル検出部１２２は、第四サブサンプリング部１１３の出力信号の振幅レベルを検出し、閾値レベルとの比較の結果によってスイッチ１１９を制御するように切り替え制御部１２１に指示を出す。

切り替え制御部１２１は、リカバリ回路１２０からの指示に基づいて、スイッチ１１９を制御する。ただし、後述するように、第一検出部１１４で検出されたピーク値が第二検出部で検出されたピーク値よりも小さい場合（すなわち超音波の搬送波が検出されない場合）は、Ｄレンジレベル検出部１２２の指示を優先させる。

（音声信号処理装置１００における信号処理の詳細）
次に、上述した音声信号処理装置１００の各部による信号処理について、より詳細に説明する。

ＡＤＣ１０４及びＡＤＣ１０５（すなわちデルタシグマ変調回路）は、それぞれオーバーサンプリング率を適用したサンプリング周波数（Ｋｆｓ）で音声信号を出力する。そして、それぞれの出力信号に対し、第一フィルタ部１０６と第三フィルタ部１０７とがそれぞれフィルタ処理を適用する。その後、第一サブサンプリング部１０８及び第三サブサンプリング部１０９は、周波数Ｋ´ｆｓ（例えば、Ｋ´＜Ｋ、Ｋ´＝Ｋ／ｎ、ｎは整数）までサブサンプリング処理を行う。これらのフィルタ及びサブサンプリング処理について、図２及び図３を参照して説明する。図２は、第一フィルタ部１０６及び第三フィルタ部１０７の特性を示している。ＡＤＣの出力信号を（フィルタを適用せずに）単にＫ´ｆｓまでサブサンプリングすると、可聴帯域内の標本化周波数の整数倍の周波数付近に、図２に示すような折り返し作用による通過帯域が現れる。そこで、本実施形態の第一フィルタ部１０６及び第三フィルタ部１０７では、図２に示すような折り返し雑音を通過させない特性（標本化周波数の整数倍に極を持つ特性）を有する櫛形フィルタ（移動平均フィルタ）を用いて、折り返し雑音を抑制する。そして、第一サブサンプリング部１０８及び第三サブサンプリング部１０９が、第一フィルタ部１０６及び第三フィルタ部１０７から出力されたデータをサンプリング周波数Ｋ´ｆｓの周波数までデータを間引く（１段目のサブサンプル）。これにより、折り返し雑音を抑制したサブサンプルを行うことができる。例えば、サンプリング周波数Ｋ´ｆｓは、サンプリング周波数ｆｓの２倍以上である。

次に、第二サブサンプリング部１１２及び第四サブサンプリング部１１３は、サンプリング周波数Ｋ´ｆｓまでサブサンプルされたデータを、記録部１５４で記録するためのサンプリング周波数ｆｓまでサブサンプルする処理（２段目のサブサンプル）を行う。図３は、第二サブサンプリング部１１２及び第四サブサンプリング部１１３が当該サブサンプルを行う前に適用する第二フィルタ部１１０及び第四フィルタ部１１１のフィルタ特性を示している。第二フィルタ部１１０及び第四フィルタ部１１１は、第二サブサンプリング部１１２及び第四サブサンプリング部１１３が、サンプリング周波数Ｋ´ｆｓまでサブサンプルされたデータをサブサンプルした場合に現れる折り返し雑音を抑制する。図３に示すように、サンプリング周波数の整数倍の帯域で折り返し雑音が含まれるが、サンプリング周波数はｆｓ（例えば、４８ｋＨｚ）であるため、サンプリング定理により２４ｋＨｚまでの音声成分があればよい。このため、本実施形態では、カットオフ周波数ｆｃを例えば２０ｋＨｚとしたローパスフィルタを適用する。これにより、第二サブサンプリング部１１２及び第四サブサンプリング部１１３は、折り返し雑音が抑制されたサブサンプル後の音声信号を出力することができる。

このようにフィルタ処理とサブサンプリング処置とを組み合わせることで、ＡＤＣから出力されたデジタル音声信号から低周波成分を取り出すことができる。また、音声信号処理装置１００より後段では（すなわちスイッチ１１９からの出力信号に対して）、記録部１５４が記録するためのサンプリング周波数ｆｓを用いて音声信号処理を行うことができるようになる。

次に、サブサンプリングされた音声信号を用いて、マイクロホン１０１から入力した音声信号にパラメトリックスピーカーによる超音波の搬送波が含まれるかを判定する処理について説明する。第一検出部１１４は、第一サブサンプリング部１０８の出力信号の振幅レベルを測定し、ピーク値を保持する。このとき、測定する振幅レベルは、例えば第一サブサンプリング部１０８の出力信号の絶対値である。また、第一検出部１１４は、振幅レベルのピーク値を、時定数Ｔを用いて更新する。時定数Ｔは可変値であってよく、時定数Ｔを変更することにより、検出した振幅レベルのピーク値の更新間隔を変更することができる。すなわち、時定数が短い時間であれば、ピーク値が短時間で更新され、また時定数が長くなれば、ピーク値が更新される時間間隔が長くなる。第一検出部１１４によって検出されたデジタル音声信号のピーク値は、サンプリング定理により、周波数Ｋ´ｆｓ／２までの信号が含まれる音声信号である。つまり、第一検出部１１４で検出された振幅レベルのピーク値は、パラメトリックスピーカーによって出力された搬送波が含まれる音声信号のピーク値を示す。この第一検出部１１４で検出される振幅レベルのピーク値を具体的に表すと、図４（ａ）のようになる。なお、図４（ａ）は、第一サブサンプリング部１０８による出力信号の周波数帯域の例（ａ）を示している。

図４（ａ）では、第一検出部１１４によって検出可能な音声信号の周波数帯域を示しており、４０１はパラメトリックスピーカーによって出力された搬送波を示す。第一検出部１１４によって検出可能な音声信号の周波数帯域は、Ｋ´ｆｓ／２であるため、パラメトリックスピーカーによって出力された搬送波４０１の周波数もこの帯域に含まれている。

一方、第二検出部１１５は、第二サブサンプリング部１１２の出力信号の振幅レベルを測定する。ここで、測定する振幅レベルを例えば第二サブサンプリング部１１２の出力信号の絶対値とする。このとき、第二サブサンプリング部１１２が出力する出力信号の周波数帯域の例は、図４（ｂ）に示すようになる。第二サブサンプリング部１１２の出力信号の出力ｆｓ／２以降では、ｆｓ／２の周波数帯域のみが出力される。なお、第二検出部１１５は、振幅レベルのピーク値の更新を、第一検出部１１４と同様に時定数Ｔを用いて更新する。

このように、２段階のサブサンプリングでは、先行するサブサンプリングにおいてパラメトリックスピーカーの搬送波の周波数が含まれるようにサブサンプリングし、後段のサブサンプリングでは、当該搬送波の周波数が含まれないようにサブサンプリングする。

レベル比較部１１６は、第一検出部１１４で検出した音声信号（先行するサブサンプリング後の音声信号）のピーク値と第二検出部１１５で検出した音声信号（後段でサブサンプリングした音声信号）のピーク値を比較する。例えば比較方法として、第一検出部１１４で検出した音声信号のピーク値をＰ１、第二検出部１１５で検出した音声信号のピーク値をＰ２とした場合、式（１）を算出する。そして、算出した値を閾値（例えば１）と比較する。

すなわち、レベル比較部１１６は、以下の式（２）に示すように、第一検出部１１４で検出した音声信号のピーク値が、第二検出部１１５で検出した音声信号のピーク値よりも大きいかを判定する。第一検出部１１４で検出した音声信号のピーク値が、第二検出部１１５で検出した音声信号のピーク値よりも大きい場合、音声信号にはパラメトリックスピーカーによる大きなレベルの搬送波（例えば４０ｋＨｚ付近の超音波）が含まれていると判定する。

レベル比較部１１６は、判定結果をリカバリ回路１２０に入力する。リカバリ回路１２０は、レベル比較部１１６の結果に基づき、スイッチ１１９を切り替えるタイミングを所定の時定数Ｔｒを用いて切り替え制御部１２１に指示する。具体的には、リカバリ回路１２０は、パラメトリックスピーカーによる大きなレベルの搬送波が含まれている（式（２）を満たす）と判定した場合、低ゲインであるＳｕｂ_ｃｈ１００１側の信号に切り替えるように切り替え制御部１２１を制御する。なお、可変である所定の時定数Ｔｒの値が短い時間に設定された場合、リカバリ回路１２０から切り替え制御部１２１への指示が短い時間で更新される。すなわち、時定数に応じて、スイッチ１１９による音声信号の一方から他方への切り替えを短い時間で行うことになる。一方、時定数の値が長い時間に設定された場合、リカバリ回路１２０から切り替え制御部１２１への指示が長い時間で更新される。

Ｓｕｂ_ｃｈ１００１側の音声信号には相対的に低いゲインが適用されるため、大きな振幅レベルの音声信号が入力された場合であっても、音声信号が歪みにくい。このため、パラメトリックスピーカーからの音声信号が、デジタルカメラ１８０の記録部１５４に入力された場合であっても、Ｍａｉｎ_ｃｈ１０００側の音声信号と比較して歪みにくい。

また、式（３）に示すように、第二検出部１１５で検出した音声信号のピーク値Ｐ２が第一検出部１１４で検出した音声信号のピーク値Ｐ１と同等或いは大きい場合、レベル比較部１１６は、入力された音声信号に超音波の搬送波は含まれていないと判定する。すなわち、入力された音声信号には、可聴帯域の音声信号のみが含まれていると判定する。換言すれば、図４（ａ）に示したパラメトリックスピーカーの搬送波４０１は検出されていない。

リカバリ回路１２０は、レベル比較部１１６によって式（３）を満たすと判定された場合、Ｍａｉｎ_ｃｈ１０００側の信号に切り替えるように切り替え制御部１２１を制御する。なお、後述するようにＤレンジレベル検出部１２２がＭａｉｎ_ｃｈ１０００の音声信号の振幅レベルが所定の閾値レベルより大きいと判定した場合には、切り替え制御部１２１は、Ｄレンジレベル検出部１２２の指示を優先する。

更に、ダイナミックレンジ拡張部１００２におけるダイナミックレンジに関する処理について説明する。上述したように、本実施形態では、Ｍａｉｎ_ｃｈ１０００のアナログ増幅器１０３の増幅率Ｇｍは、Ｓｕｂ_ｃｈ１００１のアナログ増幅器１０３の増幅率Ｇｓより大きくしている。このため、入力した音声信号が超音波の搬送波を含む場合、Ｍａｉｎ_ｃｈ１０００側の音声信号はＳｕｂ_ｃｈ１００１側よりもＳ／Ｎ比は良好になる。しかし、搬送波の振幅レベルが大きく、ＡＤＣでの入力レベルの最大値を超える場合、音声信号はＡＤＣにおいて（音声信号の可聴成分が）クリップされて歪んでしまう。一方、Ｓｕｂ_ｃｈ１００１側の音声信号は、Ｍａｉｎ_ｃｈ１０００側と比較してＳ／Ｎ比は劣化するが大きな振幅レベルの音声信号が入力されても歪みにくい。

このため、ダイナミックレンジ拡張部１００２では、Ｄレンジレベル検出部１２２がＭａｉｎ_ｃｈ１０００側の振幅レベルを計測し、当該振幅レベルが閾値レベルよりも大きい場合、切り替え制御部１２１でＳｕｂ_ｃｈ１００１側に切り替えるようにする。

更に、図５を参照して、Ｍａｉｎ_ｃｈ１０００とＳｕｂ_ｃｈ１００１の音声信号を切り替える際の信号の様子を説明する。図５の５０１は、マイクロホン１０１から入力されたアナログ音声信号を示している。５０２は、Ｍａｉｎ_ｃｈ１０００側において音声信号が増幅率Ｇｍで増幅された後にデジタル信号に変換され、その後、記録するためのサンプリング周波数までサブサンプリングされたデジタル音声信号を表す。一方、５０３は、Ｓｕｂ_ｃｈ１００１側において音声信号が増幅率Ｇｓで増幅された後にデジタル信号に変換され、記録するためのサンプリング周波数までサブサンプリングされた音声信号を表す。更に、５０４は、ダイナミックレンジ拡張部１００２における処理によって音声信号が切り替えられ、そのダイナミックレンジを拡張した様子を表す。

５０２において、ＡＤＣ１０５は、最大レンジを超えた振幅レベルの音声信号をデジタル変換することができないため、音声信号は、ＡＤＣ１０５のレンジの最大値で歪んだ音声信号となる。一方、５０３に示すように、Ｓｕｂ_ｃｈ１００１のＡＤＣ１０４では、音声信号はＡＤＣ１０４の最大レンジを超えないため、クリップされること無く正常にデジタル変換される。

Ｄレンジレベル検出部１２２は、Ｍａｉｎ_ｃｈ１０００側の音声信号の振幅レベルが所定の閾値レベル（ＡＤＣ１０５の最大レンジを超えない範囲の任意レベル値）に達した場合、Ｓｕｂ_ｃｈ１００１側の音声信号に切り替える。Ｓｕｂ_ｃｈ１００１側の音声信号は、可変増幅器１１７でＧｖ倍（Ｇｖ＞０）に増幅され、更に加算器１１８でＤＣ成分が加算されて、スイッチ１１９を介して音声信号処理装置から出力される。５０４に示す音声信号の破線部分は、このようにして出力されたＳｕｂ_ｃｈ側の音声信号である。可変増幅器１１７は、アナログ増幅器１０２、１０３の増幅率の差を用いて増幅率を調整し、Ｓｕｂ_ｃｈのデジタル音声信号をＭａｉｎ_ｃｈのデジタル音声信号の振幅レベルに合うように補正する。

なお、上述の本実施形態では、音声信号処理装置１００の動作を、パラメトリックスピーカーから出力された音声信号を入力した場合を例に説明した。しかし、この場合に限らず、大きな振幅レベルの超音波成分を含む音声信号が入力される場合に適用可能である。

以上説明したように、本実施形態では、異なる増幅率で増幅したＭａｉｎ_ｃｈ１０００側の音声信号とＳｕｂ_ｃｈ１００１側の音声信号とを、音声信号に超音波の搬送波が含まれるかに応じて切り替えて出力するようにした。更に、音声信号に超音波の搬送波が含まれる場合、又は高い増幅率で増幅したＭａｉｎ_ｃｈ１０００側の音声信号の振幅の大きさが所定より大きい場合に、Ｓｕｂ＿ｃｈ１００１側の音声信号を出力する。また、超音波の周波数帯域を含むようにしたサブサンプリングの音声信号の振幅レベルと、当該周波数帯域を含まないようにしたサブサンプリングの音声信号の振幅レベルとの比較に基づいて音声信号中の超音波の搬送波を検出するようにした。このようにすることで、超音波を搬送波とする音声が入力される場合であっても音声信号のダイナミックレンジを拡張しつつ、音声信号が歪む可能性を低減することができる。また、ＡＤＣ部の最大レンジを超える音声信号が入力される場合にも音声信号が歪む可能性を低減することができる。すなわち、記録の際の生じる歪みを抑制した音声信号を、後段の制御部１５６や記録部１５４に出力することができる。

（実施形態２）
次に実施形態２について説明する。実施形態１では、第二検出部１１５で検出された音声信号のピーク値を第一検出部１１４で検出された音声信号のピーク値で除算するようにした。これに対し、本実施形態では、第一検出部１１４で検出された音声信号のピーク値と第二検出部１１５で検出された音声信号のピーク値の差分値を用いてレベル比較を行う例を説明する。なお、本実施形態は、レベル比較部１１６による処理が異なるが、音声信号処理装置の構成は実施形態１と同一である。このため、同一の構成については同一の符号を付して重複する説明は省略し、相違点について重点的に説明する。

以下、本実施形態に係る、パラメトリックスピーカーによる超音波の搬送波が入力した音声信号に含まれるかを判定する処理について説明する。

第一検出部１１４で検出した音声信号のピーク値をＰ１´、第二検出部１１５で検出したピーク値をＰ２´とした場合、レベル比較部１１６は、式（４）に従うピーク値の差分を求め、算出結果の正負を用いてピーク値のレベル比較を行う。

レベル比較部１１６は、式（５）に示すように、式（４）の算出結果が正である場合、パラメトリックスピーカーの大きなレベルの搬送波（例えば４０ｋＨｚ付近の超音波）が入力された音声信号に含まれていると判定する。

一方、レベル比較部１１６は、式（６）に示すように、式（４）の算出結果が０以下である場合、パラメトリックスピーカーの搬送波が入力された音声信号に含まれず、可聴帯域の音声信号のみが含まれる音声信号である判定する。つまり、この条件では図４（ａ）に示したパラメトリックスピーカーの搬送波４０１は検出されないため、Ｐ１≦Ｐ２となる。

このように、本実施形態では、Ｓｕｂ_ｃｈ１００１の第一サブサンプリング後の音声信号の振幅レベルと第二サブサンプリング後の音声信号の振幅レベルとの差分を算出することで、パラメトリックスピーカーの搬送波を検出するようにした。これにより、パラメトリックスピーカーの搬送波の有無に応じて、実施形態１と同様に、ダイナミックレンジ拡張部１００２のスイッチ１１９を切り替えることができる。すなわち、パラメトリックスピーカーの搬送波のレベルがＡＤＣの最大レンジを超える場合であっても、音声信号が歪む可能性を低減することができる。すなわち、記録の際の生じる歪みを抑制した音声信号を、後段の制御部１５６や記録部１５４に出力することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０２…アナログ増幅器、１０３…アナログ増幅器、１０８…第一サブサンプリング部、１０９…第三サブサンプリング部、１１０…第二サブサンプリング部、１１１…第四サブサンプリング部、１１６…レベル比較部、１２１…切り替え制御部、１１９…スイッチ

Claims

入力された音声信号を第一の増幅率で増幅する処理を含む第一の処理を行う第一の処理手段と、
入力された音声信号を、前記第一の増幅率よりも大きな第二の増幅率で増幅する処理を含む第二の処理を行う第二の処理手段と、
前記入力された音声信号に含まれる超音波の搬送波を検出する検出手段と、
前記第一の処理手段からの音声信号と、前記第二の処理手段からの音声信号の何れかを、記録のための音声信号として出力する出力手段とを有し、
前記出力手段は、前記検出手段により前記超音波の搬送波が検出された場合に、前記第一の処理手段からの音声信号を前記記録のための音声信号として出力することを特徴とする音声信号処理装置。
前記第一の処理手段は、前記第一の増幅率で増幅された音声信号をサブサンプルする第一のサブサンプリング手段と、前記第一のサブサンプリング手段からの音声信号をサブサンプルする第二のサブサンプリング手段とを含み、
前記第一のサブサンプリング手段は、前記第一のサブサンプリング手段からの音声信号に前記超音波の周波数帯域が含まれるようにサブサンプリングを行い、
前記第二のサブサンプリング手段は前記第二のサブサンプリング手段からの音声信号に前記超音波の周波数帯域が含まれないようにサブサンプリングを行い、
前記検出手段は、前記第一のサブサンプリング手段からの音声信号の振幅レベルと前記第二のサブサンプリング手段からの音声信号の振幅レベルとに基づいて、前記超音波の搬送波を検出する、ことを特徴とする請求項１に記載の音声信号処理装置。
前記検出手段は、前記第一のサブサンプリング手段によって得られる音声信号の振幅レベルのピーク値が前記第二のサブサンプリング手段によって得られる音声信号の振幅レベルのピーク値より大きい場合に、前記超音波の搬送波を検出したものとする、ことを特徴とする請求項２に記載の音声信号処理装置。
前記第一の処理手段は、前記第一のサブサンプリング手段のサブサンプリングによって可聴帯域に折り返る音声信号を除去するためのフィルタを含み、前記フィルタからの音声信号を前記第一のサブサンプリング手段に出力することを特徴とする請求項２または３に記載の音声信号処理装置。
前記第一の処理手段は、前記第一のサブサンプリング手段から出力された音声信号における、前記記録のための音声信号のサンプリング周波数の半分より大きい周波数の音声信号を除去するローパスフィルタを有し、前記ローパスフィルタからの音声信号を前記第二のサブサンプリング手段に出力することを特徴とする請求項４に記載の音声信号処理装置。
前記入力された音声信号はアナログ音声信号であり、前記第一の処理手段は、前記記録のための音声信号のサンプリング周波数よりも高い周波数でサンプリングすることにより、前記第一の増幅率で増幅した音声信号をデジタル信号に変換する変換手段を含み、前記第一のサブサンプリング手段は、前記変換手段からの音声信号をサブサンプルすることを特徴とする請求項２から５の何れか１項に記載の音声信号処理装置。
前記出力手段は、出力する音声信号を、前記第一の処理手段からの音声信号と前記第二の処理手段からの音声信号の一方から他方に切り替える場合、予め定められた時定数に従って、前記第一の処理手段からの音声信号と前記第二の処理手段からの音声信号とを切り替える、ことを特徴とする請求項１から６の何れか１項に記載の音声信号処理装置。
前記出力手段は、前記第一の処理手段からの音声信号を出力する場合、前記第一の処理手段からの音声信号と前記第二の処理手段からの音声信号とのレベルの差を補正する補正手段を更に含む、ことを特徴とする請求項１から７の何れか１項に記載の音声信号処理装置。
前記第二の処理手段は、前記第二の増幅率で増幅した音声信号の振幅レベルを計測する計測手段を有し、
前記出力手段は、前記検出手段により前記超音波の搬送波が検出されない場合で、前記計測手段により計測された振幅レベルが所定の閾値を超えた場合、前記第一の処理手段からの音声信号を前記記録のための音声信号として出力する、ことを特徴とする請求項１から８の何れか１項に記載の音声信号処理装置。
前記超音波の搬送波を含む音声信号は、パラメトリックスピーカーから出力された音声信号である、ことを特徴とする請求項１から８の何れか１項に記載の音声信号処理装置。
撮像手段と、
前記出力手段から出力された音声信号を記録する記録手段とを有することを特徴とする請求項１から１０の何れか１項に記載の音声信号処理装置。
第一の処理手段が、入力された音声信号を第一の増幅率で増幅する処理を含む第一の処理を行う第一の処理工程と、
第二の処理手段が、入力された音声信号を、前記第一の増幅率よりも大きな第二の増幅率で増幅する処理を含む第二の処理を行う第二の処理工程と、
検出手段が、前記入力された音声信号に含まれる超音波の搬送波を検出する検出工程と、
出力手段が、前記第一の処理工程による音声信号と、前記第二の処理工程による音声信号の何れかを、記録のための音声信号として出力する出力工程とを有し、
前記出力工程では、前記検出工程において前記超音波の搬送波が検出された場合に、前記第一の処理工程による音声信号を前記記録のための音声信号として出力する、ことを特徴とする音声信号処理装置の制御方法。
コンピュータを、請求項１から１１の何れか１項に記載の音声信号処理装置の各手段として機能させるためのプログラム。