JP2014017645A - 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 - Google Patents

音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2014017645A
JP2014017645A JP2012153363A JP2012153363A JP2014017645A JP 2014017645 A JP2014017645 A JP 2014017645A JP 2012153363 A JP2012153363 A JP 2012153363A JP 2012153363 A JP2012153363 A JP 2012153363A JP 2014017645 A JP2014017645 A JP 2014017645A
Authority
JP
Japan
Prior art keywords
input
spectrum
synthesis
unit
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012153363A
Other languages
English (en)
Inventor
Toshiyuki Sekiya
俊之 関矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012153363A priority Critical patent/JP2014017645A/ja
Priority to PCT/JP2013/060247 priority patent/WO2014010280A1/ja
Priority to US14/400,875 priority patent/US20150125011A1/en
Publication of JP2014017645A publication Critical patent/JP2014017645A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/405Non-uniform arrays of transducers or a plurality of uniform arrays with different transducer spacing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Abstract

【課題】筐体等の影響より複数のマイクロホンの入力特性に差が生じるようなマイクロホンの配置においても、当該マイクロホンの入力音声信号を用いて、所望の指向性を有する合成音声信号を良好に合成する。
【解決手段】筐体に設けられた複数のマイクロホンから入力された入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成する周波数変換部と、前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択する第1の入力選択部と、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する第1の合成部と、を備える、音声信号処理装置。
【選択図】図13

Description

本開示は、音声信号処理装置、音声信号処理方法、プログラム及び記録媒体に関する。
室内で、DVD(Digital Versatile Disk)、BD(Blu−Ray Disk)等の記録媒体に録音された音声を再生する際、複数のスピーカを用いて、当該各スピーカの特性に対応する指向性を有する複数の音声をサラウンド再生する音声再生システムが提案されている。このような音声再生装置は、映画館又は音楽ホール等のように臨場感あふれる音場を再現するためのサラウンド技術を用いて、各スピーカの特性に合わせてサラウンド記録された音声を再生することができる。
このようにサラウンド技術を用いた音声再生環境を実現するために、スピーカの特性(設置数や配置、音質等)に応じて、5.1チャンネル、7.1チャンネルなどのサラウンド再生システムが提案されている。例えば、5.1chのサラウンド再生システムでは、聴取者の前方方向に対して、左前(L:Front Left)、中央前(C:Front Center)、右前(R:Front Right)、左後方の左サラウンド(SL:Surround Left)、右後方の右サラウンド(SR:Surround Right)に配置される5チャンネルのスピーカと、0.1チャンネルのサブウーファ(SW:Sub Woofer)が設置される。このサラウンドシステムによって、聴取者の周囲に5.1チャンネル対応のサラウンド再生を実現している。
上記サラウンド再生を実現するためには、録音時に、それぞれのスピーカ特性に合わせたサラウンド録音を行うことが望ましい。ここで、サラウンド録音とは、複数のマイクロホンから入力された入力音声信号から、サラウンド再生環境のスピーカ特性に応じた指向性を有する複数の合成音声信号を合成して(以下、「指向性合成」という。)、記録することをいう。この指向性合成では、基本的には、サラウンド再生環境のスピーカの方向から録音装置に到来する音声以外を低減することで、当該スピーカの方向から到来する音声を相対的に強調するような合成処理が行われる。
近年では、動作撮像機能を有する撮像装置においても、撮像された動画の音声を、5.1ch等のサラウンド再生環境で再生できるように、撮像装置に複数のマイクロホンを設置して、サラウンド録音を実現することが提案されている。例えば、特許文献1には、ビデオカメラに3つの無指向性マイクロホンを正三角形の頂点の位置に配置し、これらマイクロホンから入力された入力音声信号から、5ch若しくは7chの単一指向性を有する音声信号を合成することが開示されている。また、特許文献2には、ビデオカメラに4つの無指向性マイクロホンを正四角形の頂点の位置に配置し、これらマイクロホンから入力された入力音声信号から、5chの単一指向性を有する音声信号を合成することが開示されている。
特開2008−160588号公報 特開2002−223493号公報
ところで、上記特許文献1、2記載の技術では、複数のマイクロホンを正三角形又は正四角形の頂点位置に対象に配置し、かつ、相互に近接(例えば、マイクロホンの相互間距離が1.0cm程度)して配置しなければならないという制約条件があった。複数のマイクロホンを対称位置に配置することで、対称性に優れた指向性合成を実現することができ、また、近接配置することで、マイクロホンに音が入力されるときのマイクロホンの入力特性が等しくなるという利点がある。
しかしながら、上記特許文献1、2記載の技術では、複数のマイクロホンの配置が上記制約条件を満たさない場合には、当該マイクロホンからの入力音声信号を利用した指向性合成を良好に実現できなかった。この理由は、マイクロホンが設置される録音装置の筐体等の影響により、複数のマイクロホンの入力特性が相違してしまうからである。このようにマイクロホンの入力特性が相違すると、特許文献1、2記載の技術のように入力音声信号自体を合成する処理や、当該入力音声信号を周波数変換した音声スペクトルを合成する処理によって、指向性合成を適切に行うことはできない。
例えば、図1に示すようにデジタルカメラ1に設置された3つのマイクロホンM、M、Mで得られた入力音声信号から、図2に示すように5chのサラウンド再生環境で用いられる合成音声信号を生成する場合を考える。図2に示すサラウンド再生環境では、聴取者であるユーザの周囲に、5つのスピーカC、L、R、SL、SRが配置されており、これらスピーカからは、その配置に合った指向性を有する5つの再生音声z、z、z、zSL、zSRがそれぞれ出力されることが望ましい。
図1に示すように、デジタルカメラ1の前面側(レンズ2が配置された側)に2つのマイクロホンM、Mが配置され、デジタルカメラ1の背面側(画面3が配置された側)に1つのマイクロホンMが配置されている。このため、前面側のマイクロホンM、Mと背面側のマイクロホンMとの間にデジタルカメラ1の筐体4が存在するため、筐体4の影響により各マイクロホンM、M、Mに対する音声の入力特性が相違することとなる。つまり、デジタルカメラ1の背面方向から到来する音声は、筐体4によりかなり減衰されて、前面側のマイクロホンM、Mに対して入力される。このため、背面方向から到来する音声に関し、主たる音声信号を得られるのは、マイクロホンMの1つだけとなる。従って、デジタルカメラ1の背面側については、左右方向の音声情報が得られないので、図2に示すSL方向及びSR方向の指向性を有する合成音声信号zSL、zSRを良好に合成することができない。
また、図1に示したようにマイクロホンM、MとマイクロホンMの間の距離が大きくなると、これらマイクロホン間に空間エイリアスが生じるため、合成音声信号の指向性に歪みが生じてしまう。
さらに、近年では、デジタルカメラ等の録音装置の小型化の要求や機能面の制約から、複数のマイクロホンを筐体の自由な位置に配置できないため、上記特許文献1、2記載の技術におけるマイクロホンの配置の制約条件を満たさない場合も多い。従って、筐体に対するマイクロホンの配置に係わらず、所望の指向性を有する合成音声信号を適切に生成可能な技術が希求されていた。
上記事情に鑑みれば、筐体等の影響より複数のマイクロホンの入力特性に差が生じるようなマイクロホンの配置においても、当該マイクロホンの入力音声信号を用いて、所望の指向性を有する合成音声信号を良好に合成できることが望ましい。
本開示によれば、
筐体に設けられた複数のマイクロホンから入力された入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成する周波数変換部と、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択する第1の入力選択部と、
前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する第1の合成部と、
を備える、音声信号処理装置が提供される。
また、本開示によれば、
筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
を含む、音声信号処理方法が提供される。
また、本開示によれば、
筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
をコンピュータに実行させるためのプログラムが提供される。
また、本開示によれば、
筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体が提供される。
上記構成によれば、筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルが生成され、前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルが選択され、前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルが生成される。このようにパワースペクトル領域で入力音声スペクトルを演算する。これにより、筐体に対するマイクロホンの配置の影響により、マイクロホンに対する音の入力特性に差が生じる場合であっても、第1の合成方向の指向性を有する合成音声スペクトルを好適に生成できる。
以上説明したように本開示によれば、筐体等の影響より複数のマイクロホンの入力特性に差が生じるようなマイクロホンの配置においても、当該マイクロホンの入力音声信号を用いて、所望の指向性を有する合成音声信号を良好に合成できる。
3つのマイクロホンが設置されたデジタルカメラを示す斜視図である。 5chのサラウンド再生環境を示す模式図である。 マイクロホンと筐体に対する音の到来方向を示す説明図である。 前面マイクロホン、背面マイクロホンの入力特性を測定した結果を示す図である。 マイクロホン配置と入力特性、サラウンド再生環境を示す図である。 本開示の第1の実施形態に係る指向性合成の原理を示す模式図である。 同実施形態に係る指向性合成の原理を示す模式図である。 同実施形態に係る指向性合成の原理を示す模式図である。 マイクロホンとスピーカの配置を示す平面図である。 各種のパワースペクトルを示す波形図である。 パワースペクトルを示す波形図である。 同実施形態に係る音声信号処理装置が適用されたデジタルカメラのハードウェア構成を示すブロック図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る第1の入力選択部の構成を示すブロック図である。 同実施形態に係る第1の合成部の構成を示すブロック図である。 同実施形態に係る音声信号処理装置の指向性合成機能の具体例を示すブロック図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 同実施形態に係る第1の入力選択部の動作を示すフローチャートである。 同実施形態に係る第1の合成部の動作を示すフローチャートである。 周波数帯域ごとに、前面マイクロホン、背面マイクロホンの入力特性を測定した結果を示す図である。 指向性合成の原理を示す模式図である。 本開示の第2の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る第2の入力選択部の構成を示すブロック図である。 同実施形態に係る第2の合成部の構成を示すブロック図である。 第2の実施形態に係る音声信号処理装置の指向性合成機能の具体例を示すブロック図である。 同実施形態に係る指向性合成の原理を示す模式図である。 各種のパワースペクトルを示す波形図である。 マイクロホンとスピーカの配置を示す模式図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 同実施形態に係る第2の入力選択部の動作を示すフローチャートである。 同実施形態に係る第2の合成部の動作を示すフローチャートである。 同実施形態に係る第1の入力選択部の動作を示すフローチャートである。 同実施形態に係る第1の合成部の動作を示すフローチャートである。 本開示の第3の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る出力選択部の構成を示すブロック図である。 同実施形態に係るマイクロホン配置とサラウンド再生環境を示す図である。 本開示の第3の実施形態に係る音声信号処理装置の指向性合成機能の具体例を示すブロック図である。 同実施形態に係るマイクロホンの入力特性を測定した結果を示す図である。 同実施形態に係る合成音声スペクトルの特性を示す図である。 同実施形態に係る全方向パワースペクトルと合成音声スペクトルの特性を示す図である。 同実施形態に係る音声信号処理方法を示すフローチャートである。 同実施形態に係るSLチャンネル用の第1の合成部の動作を示すフローチャートである。 同実施形態に係る3つのマイクロホンが配置されたビデオカメラを示す図である。 同実施形態に係る3次元的なサラウンド再生環境を示す模式図である。 同実施形態に係るC、L、R方向の指向性を有する合成音声スペクトルを示す模式図である。 同実施形態に係る指向性合成におけるマイクロホンの入力特性と、合成音声スペクトルの特性を示す模式図である。 同実施形態に係る合成音声スペクトルの特性を示す模式図である。 2.1ch、3.1ch、5.1chのサラウンド再生環境を示す説明図である。 本開示の第4の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 ユーザがサラウンド再生環境を選択するためのGUI画面を示す図である。 同実施形態に係る第2の指向性合成部の保持部が保持するID系列及び重み付け係数wを示す。 同実施形態に係る第1の指向性合成部の保持部が保持するID系列及び重み付け係数g、fを示す。 同実施形態に係る第2の入力選択部の動作を示すフローチャートである。 同実施形態に係る第2の合成部の動作を示すフローチャートである。 同実施形態に係る第1の入力選択部の動作を示すフローチャートである。 同実施形態に係る第1の合成部の動作を示すフローチャートである。 同実施形態に係る内蔵マイクロホンと外部マイクロホンが設置されたビデオカメラ7を示す説明図である。 サラウンド再生環境を示す説明図である。 本開示の第5の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る外部マイクロホンの入力特性と、合成音声スペクトルの特性を示す模式図である。 合成音声スペクトルの特性を示す模式図である。 同実施形態に係る第1の入力選択部の動作を示すフローチャートである。 同実施形態に係る第1の合成部の動作を示すフローチャートである。 同実施形態に係るスマートフォンのマイクロホンの配置を示す図である。 本開示の第6の実施形態に係る動画撮像用マイクロホンと通話用マイクロホンの振幅特性を示す図である。 同実施形態に係る補正係数を示す図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る補正部の動作を示すフローチャートである。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.第1の実施の形態
1.1.指向性合成の概要
1.2.用語の定義
1.3.指向性合成の原理
1.4.音声信号処理装置の構成
1.4.1.音声信号処理装置のハードウェア構成
1.4.2.音声信号処理装置の機能構成
1.5.音声信号処理方法
1.5.1.音声信号処理装置の全体動作
1.5.2.第1の入力選択部の動作
1.5.3.第1の合成部の動作
1.6.効果
2.第2の実施の形態
2.1.第2の実施形態の概要
2.2.音声信号処理装置の機能構成
2.3.音声信号処理方法
2.3.1.音声信号処理装置の全体動作
2.3.2.第2の入力選択部の動作
2.3.3.第2の合成部の動作
2.3.4.第1の入力選択部の動作
2.3.5.第1の合成部の動作
2.4.効果
3.第3の実施の形態
3.1.第3の実施形態の概要
3.2.音声信号処理装置の機能構成
3.3.音声信号処理方法
3.3.1.音声信号処理装置の全体動作
3.3.2.第1の合成部の動作
3.3.3.出力選択部の動作
3.4.具体例
3.5.効果
4.第4の実施の形態
4.1.第4の実施形態の概要
4.2.音声信号処理装置の機能構成
4.3.音声信号処理方法
4.3.1.第2の入力選択部の動作
4.3.2.第2の合成部の動作
4.3.3.第1の入力選択部の動作
2.3.4.第1の合成部の動作
4.4.効果
5.第5の実施の形態
5.1.第5の実施形態の概要
5.2.音声信号処理装置の機能構成
5.3.音声信号処理方法
5.3.1.第1の入力選択部の動作
5.3.2.第1の合成部の動作
5.4.効果
6.第6の実施の形態
6.1.第5の実施形態の概要
6.2.音声信号処理装置の機能構成
6.3.音声信号処理方法
6.3.1.補正部の動作
6.4.効果
<1.第1の実施の形態>
[1.1.指向性合成の概要]
まず、本開示の第1の実施形態に係る音声信号処理装置及び方法による指向性合成処理の概要について説明する。
上述したように5.1ch、7.1ch等のサラウンド再生を実現するためには、録音装置による録音時に、サラウンド再生環境の各スピーカの特性に合わせたサラウンド録音を行うことが望ましい。サラウンド録音するためには、複数のマイクロホンにより得られた入力音声信号を、サラウンド再生環境の各チャンネルに合わせて指向性合成する必要がある。
この際、従来技術では、一般に、マイクロホンから入力される入力音声信号自体を合成する、或いは当該入力音声信号を周波数変換した入力音声スペクトルを合成することで、サラウンド再生環境に応じた合成音声信号生成していた。
ところで、上記特許文献1、2に記載の従来の指向性合成技術では、複数のマイクロホンの配置に制約条件(正三角形等の対称配置、近接配置等)があった。当該制約条件を満たさない場合には、良好な指向性合成を実現できなかった。この理由は、図1、図2で説明したように、録音装置(デジタルカメラ1)の筐体4を挟んで両側にマイクロホンM、M、Mが配置されている場合、筐体4の影響で、各マイクロホンM、M、Mに対する音の入力特性が相違するためであった。
例えば、図1のマイクロホン配置の例では、筐体4の背面方向から到来する音声は、筐体4により妨害されるため、前面側の2つのマイクロホンM、Mに対して減衰して入力されるが、背面側の1つのマイクロホンMに対しては減衰せずに入力される。これとは逆に、筐体4の前面方向から到来する音声についても同様である。この結果、マイクロホンM、MとマイクロホンMの入力特性が相違することになる。従って、上記従来技術では、3つのマイクロホンM、M、Mの入力音声信号を用いたとしても、入力特性の相違により、合成音声を良好に生成できなくなる。特に、筐体4の背面側には、1つのマイクロホンMしか設置されておらず、筐体4の背面方向から到来する音に対して、主たる情報を得る手段がマイクロホンMのみある。従って、上記従来技術では、筐体4の背面側の左右方向(SL方向、SR方向)の合成音声信号を適切に合成することができない。図示の例では、マイクロホンMの入力音声信号を用いて、SR方向の合成音声信号をある程度適切に生成することができるが、SL方向の合成音声信号を適切に生成することはできない。
本実施形態に係る音声信号処理装置及び方法は、従って、上記のように複数のマイクロホンが対称かつ近接配置されていないため、筐体4等の影響により複数のマイクロホンの入力特性が相違する場合などに好適に適用される。即ち、本実施形態に係る音声信号処理装置及び方法は、マイクロホンの配置や設置数の制約により、多チャンネルのサラウンド録音のために必要な入力音声信号の一部が不足している場合においても、良好な指向性合成を実現可能とすることを目的としている。
そのために、本実施形態では、従来技術のような音声信号の時間領域や複素スペクトル領域ではなく、パワースペクトル領域で音声信号を合成する処理(指向性合成)を行う。例えば、上記図1の例では、前面側のマイクロホンM、Mに対しては、背面方向からの音声成分は減衰していても、前面方向からの音声成分は減衰せずに入力される。従って、マイクロホンM、M、Mの入力音声信号をパワースペクトル領域で適切に混合することで、前面側、背面側の音声信号の双方を含む全方向パワースペクトルPallを合成することができる。そして、合成方向であるSL方向以外の方向からの音声成分を含む非合成方向パワースペクトルPelseを合成し、上記全方向パワースペクトルPallから非合成方向パワースペクトルPelseを減算することで、SL方向の音声成分を生成することができる。SL方向以外の方向からの音声成分は、主として、前方及び右側方向の音声成分であり、主に前面側のマイクロホンM、Mの入力音声信号を利用して、当該SL方向以外の音声成分のパワースペクトルPelseを生成することができる。
以上のように、本実施形態によれば、複数のマイクロホンで得られた音声信号をパワースペクトル領域で演算することにより、従来技術ではサラウンド録音を実現できないマイクロホン配置においても、多チャンネルの指向性合成を良好に実現できる。
[1.2.用語の定義]
本明細書において、音声(audio)とは、人間や動物の声(voice)のみならず、音楽、楽曲、音響、機械音、自然音、環境音などを含む全ての音(sound)を意味する。
合成方向とは、合成音声信号の指向性の方向であり、サラウンド再生環境において聴取者(ユーザ)からスピーカに向かう方向に対応している。Nチャンネルのサラウンド再生を実現するために、N個の合成方向の合成音声信号を生成すればよい。例えば、図2に示した5チャンネルのサラウンド再生を行うためには、合成方向は、L方向、C方向、R方向、SL方向、SR方向の5方向となり、音の記録時又は再生時に、L方向、C方向、R方向、SL方向、SR方向の5つの合成音声信号を生成する必要がある。
指向性合成とは、複数のマイクロホンから入力された入力音声信号から、サラウンド再生環境における各スピーカの特性(方向、配置、音質等)に応じた指向性を有する複数の合成音声信号を合成する処理を意味する。
サラウンド録音とは、上記指向性合成により、複数(再生環境のチャンネル数)の合成音声信号を生成し、記録媒体に記録することを意味する。また、サラウンド再生とは、サラウンド再生システムにおいて、記録媒体に記録されている複数の合成音声信号を再生し、複数のスピーカから音声出力することを意味する。
全方向パワースペクトルとは、録音装置の周囲の全方向から到来する音声成分をほぼ等しく含むようなパワースペクトルを意味する。また、非合成方向パワースペクトルとは、特定の合成方向以外の方向から到来する音声成分を含むようなパワースペクトルを意味する。非合成方向パワースペクトルは、全方向パワースペクトルから、特定の合成方向から到来する音声成分のパワースペクトルを除外したパワースペクトルに相当する。
入力音声信号をパワースペクトル領域で合成するとは、時間領域の入力音声信号xを周波数領域の音声スペクトルXに変換し、さらに、当該音声スペクトルXのパワースペクトルPを計算し、当該パワースペクトルPを合成することを意味する。また、入力音声信号を複素スペクトル領域(音声スペクトル領域)で合成するとは、時間領域の入力音声信号xを周波数領域の音声スペクトルXに変換し、さらに、当該音声スペクトルXを合成することを意味する。
また、以下の説明において、「x」、「x(n)」は、マイクロホンから入力された入力音声信号(時間領域)を表す。「X」、「X(k)」は、マイクロホンから入力された音声信号(時間領域)を周波数変換した入力音声スペクトルを表す。「Z」、「Z(k)」は、第1の合成部により指向性合成された合成音声スペクトルを表す。「Y」、「Y(k)」は、第2の合成部により指向性合成された合成音声スペクトルを表す。「z」、「z(n)」は、音声信号処理装置から出力される合成音声信号若しくは入力音声信号(時間領域)を表す。
また、「n」は時間インデックス(音声信号を所定時間毎にサンプリングしたときの各時間成分を表す指標)、「k」は周波数インデックス(音声スペクトル信号を所定の周波数帯域毎に分割したときの各周波数成分を表す指標)である。以下では、説明の便宜上、周波数成分やフレームを明示する必要がない場合は、時間インデックスnや、周波数インデックスkを適宜省略して表記する。
[1.3.指向性合成の原理]
次に、本実施形態に係る音声信号処理装置及び方法による指向性合成処理の原理について説明する。
まず、図3〜図5を参照して、本実施形態に係る指向性合成を行う必要がある根拠、即ち、録音装置の筐体4等の影響により複数のマイクロホンの入力特性が相違する理由について説明する。
基本的に、複数のマイクロホンの間に録音装置の筐体4などが存在し、当該筐体4などが音の伝播の障害物となる場合には、マイクロホンの入力特性は相違することになる。つまり、音源から到来する音は、障害物である筐体4に当たることで、反射したり減衰したりするため、筐体4の前面側と背面側では、マイクロホンにより観測される音声信号レベルが変化する。
例えば図3に示すように、録音装置の筐体4の前面側に1つのマイクロホンM、背面側に1つのマイクロホンMが配置されているときに、筐体4の周囲の任意の方向に存在する音源から筐体4に向かって音5が到来したとき場合を考える。この際、筐体4の音5の到来方向と筐体4の正面方向との成す角度をθとし、音5の到来方向が筐体4の正面方向と一致する場合に、θ=0°とする。以下、音の到来方向をθで表す。
図4は、上記図3のマイクロホン配置において、θ=0°から10°刻みの方向から音を発生させ、当該音を前面マイクロホンM、背面マイクロホンMで収音したときに、前面マイクロホンM、背面マイクロホンMの入力特性を測定した結果を示す。図4において、円周上の0から330の値は、上記の音5の到来方向θを示す角度であり、また、0.5、1.0という値は、音の強さの比率を表す。
図4に示すように、背面マイクロホンMでは、180°方向からの音の強さを1とすると、0°方向からの音の強さは0.5、つまり、半分に減衰して入力されることが分かる。同様に、前面マイクロホンMについても、背面方向(180°方向)からの音は、半分以下に減衰して入力されることが分かる。このように、2つのマイクロホンM、Mの間に筐体4が存在する場合、筐体4を挟んで反対側から到来する音は、かなり減衰して、マイクロホンM、Mに入力されることが分かる。
従って、図5Aに示す3つのマイクロホンM、M、Mの配置においては、筐体4の影響により、各マイクロホンM、M、Mの入力特性は、図5Bに示す入力特性S、S、Sとなる。筐体4の前面側のマイクロホンMは、主に左前方(L方向)からの音に対する指向性が高くなり、マイクロホンMは、主に右前方(E方向)からの音に対する指向性が高くなる。一方、筐体4の背面側のマイクロホンMは、主に右後方(SR方向)からの音に対する指向性が高くなる。
このように、図5Aに示すマイクロホン配置では、L、R、SR方向の入力音の情報を得ることはできるが、筐体4の左後方(SL方向)の入力音の情報を十分に得ることはできず、3つのマイクロホンM、M、Mの入力特性S、S、Sも相違する。従って、複数のマイクロホンの入力特性が一致していることを前提としている従来の指向性合成方法では、図5Aに示すマイクロホン配置の場合には、SL方向の合成音声信号を良好に生成できないので、図5Cに示すような4チャンネルのサラウンド再生環境を好適に実現することはできない。
次に、図6〜図8を参照して、本実施形態に係る指向性合成の原理について説明する。
図5Bに示した各マイクロホンM、M、Mの入力特性S、S、Sによれば、前面マイクロホンM、Mにおいては、背面方向からの音は減衰するものの、その音の信号レベルは0にはならず、ある程度は当該背面方向の音を観測可能である。同様に、背面マイクロホンMにおいても、前面方向からの音は減衰するものの、その音の信号レベルは0にはならない。つまり、図6Aに示したマイクロホン配置であっても、各マイクロホンM、M、Mに入力される音は、減衰しているとはいえどもSL方向の音声成分を含んでいる。
そこで、本実施形態に係る指向性合成方法では、図6に示すように、マイクロホンM、M、Mから入力される3つの入力音声信号x、x、xをパワースペクトル領域で合成することで、録音装置の周囲の全方向の音声信号成分を等しく含むようなパワースペクトル(即ち、全方向パワースペクトルPall)を求める。この際、各々の入力音声信号x、x、xを周波数変換して、入力音声スペクトルX、X、Xを生成し、当該入力音声スペクトルX、X、XのパワースペクトルP、P、Pを計算する。そして、マイクロホンM、M、Mの配置に応じて設定された重み付け係数g、g、g(第1の重み付け係数)を用いて、パワースペクトルP、P、Pを適切に重み付け加算することで、全方向パワースペクトルPallを計算する。
さらに、図7に示すように、マイクロホンM、M、Mから入力される3つの入力音声信号x、x、xをパワースペクトル領域で合成することで、合成方向であるSL方向以外の方向からの音声成分を含むパワースペクトル(即ち、非合成方向パワースペクトルPelse)を求める。この際、マイクロホンM、M、Mの配置に応じて設定された重み付け係数f、f、f(第2の重み付け係数)を用いて、パワースペクトルP、P、Pを適切に重み付け加算することで、非合成方向パワースペクトルPelseを計算する。
そして、図8に示すように、全方向パワースペクトルPallから非合成方向パワースペクトルPelseを減算することで、SL方向から到来する音声成分のパワースペクトルPSLを推定する。そして、当該SL方向のパワースペクトルPSLの平方根を求め、適切な位相を付与することで、パワースペクトルPSLからSL方向の入力音声の複素スペクトルXSLに復元することができる。このようにして、本実施形態では、従来技術では得られなかったSL方向の指向性合成結果を得ることができる。
ここで、図9〜図11を参照して、本実施形態に係る全方向パワースペクトルPallと非合成方向パワースペクトルPelseの算出方法について、より詳細に説明する。
図9に示すように、マイクロホンMの周囲(マイクロホンMを中心とした円周上)に10°ごとに多数のスピーカ6が配置されており、各スピーカ6から順に音を再生する場合を考える。この場合において、全方向パワースペクトルPallとは、図10Aに示すように、マイクロホンMの周囲の水平面上における全ての方向から到来する音を、等しい信号レベルで含むようなパワースペクトルを意味する。
ところが、上記の図5Aに示したように、マイクロホンMの傍に筐体4等の障害物が存在する場合には、マイクロホンMに対して、全ての方向からの音が等しいレベルで入力されない。このため、筐体4が存在しない特定の方向の音は減衰されず、強い信号レベルで入力されるが、筐体4が存在する他の特定の方向の音は減衰されて、弱い信号レベルで入力される。図10Bは、前面マイクロホンMの入力音声信号xのパワースペクトルPを示すが、音の到来方向θによってパワースペクトルPが増減している。
この結果、筐体4等の障害物の一側と他側に配置されたマイクロホンMの間には、入力特性Sに差が生じる(図5B参照。)。かかるマイクロホンMの入力特性Sは、筐体4に対するマイクロホンMの配置によって決まり、マイクロホンMごとに異なるものとなる。このため、図10Cに示すように、前面マイクロホンMのパワースペクトルPと、前面マイクロホンMのパワースペクトルPと、背面マイクロホンMのパワースペクトルPとは、異なる波形となる。
そこで、図10Dに示すように、既存のマイクロホンM、M、Mにより得られるパワースペクトルP、P、Pに適切な重み付けをして合成することで、全ての方向(θ=0°〜360°)から到来する音を、できるだけ等しく含むような全方向パワースペクトルPallを生成する。このPallの合成処理は、例えば、次の式(10)に示すように、重み付け係数g、g、gを用いたパワースペクトルP、P、Pの重み付け加算により実現される。
all=g・P+g・P+g・P ・・・(10)
以下に、この重み付け加算に用いられる重み付け係数gの算出手法について説明する。なお、入力音声信号x、x、xを周波数変換した音声スペクトル(複素スペクトル)のパワースペクトル領域でPallを演算するので、音声スペクトルの全周波数帯域のうち、ある周波数kに着目して検討する。
あるマイクロホンMが、音の到来方向θによって、図11に示すような入力特性を有する場合、このマイクロホンMの入力特性を表すパワースペクトルを、「P(θ)」と表現する。同様に、他のマイクロホンM、M、・・・、Mの入力特性を表すパワースペクトルを、「P(θ)」、「P(θ)」、・・・、「P(θ)」と表現する。
ここで、M個のマイクロホンM、M、・・・MのパワースペクトルP(θ)、P(θ)、・・・、P(θ)を、重み付け係数g、g、・・・、gを用いて重み付け加算して、全方向パワースペクトルPall(θ)を合成する。この重み付け加算は、以下の式(11)で表される。
all(θ)=g・P(θ)+g・P(θ)+・・・+g・P(θ)
・・・(11)
ここで、全方向パワースペクトルPall(θ)は、以下の式(12)に示すように、全てのθについて、同一の値Pvとなることが求められる。なお、θ、θ、・・・、θは、図11に示した0°、10°等を示しており、360°をn分割した角度である。
Pv=Pall(θ)=g・P(θ)+g・P(θ)+・・・+g・P(θ
Pv=Pall(θ)=g・P(θ)+g・P(θ)+・・・+g・P(θ
・・・
Pv=Pall(θ)=g・P(θ)+g・P(θ)+・・・+g・P(θ
・・・(12)
そして、上記式(12)の方程式を行列で表記すると、以下の式(13)となる。以下の式(13)の解を求めることで、重み付け係数g、g、・・・、gを得ることができる。この係数g、g、・・・、gは、筐体4に対するマイクロホンM、M、・・・、Mの配置などに応じて決定され、録音装置の設計段階で開発者により予め設定される。
Figure 2014017645
次に、非合成方向パワースペクトルPelseを求めるための重み付け係数fの算出方法について説明する。上記と全方向パワースペクトルPall(θ)同様に、M個のマイクロホンM、M、・・・MのパワースペクトルP(θ)、P(θ)、・・・、P(θ)を、重み付け係数f、f、・・・、fを用いて重み付け加算して、非合成方向パワースペクトルPelse(θ)を合成する。この重み付け加算は、以下の式(14)で表される。
else(θ)=f・P(θ)+f・P(θ)+・・・+f・P(θ)
・・・(14)
ここで、非合成方向パワースペクトルPelse(θ)は、以下の式(15)に示すように、合成方向θについてはゼロとし、このθの前後の角度θm−1、θm+1についてはPvより小さい値Pv’となり、これら以外のθについて、同一の値Pvとなることが求められる。例えば、図8に示したように、SL方向(θ=225°)以外の非合成方向パワースペクトルPelse(θ)を求める場合には、Pelse(θ=225°)=0となり、225°の前後α°のPelse(θm−1)、Pelse(θm+1)の値も、Pvより小さい値に設定すればよい。
Pv=Pelse(θ)=f・P(θ)+f・P(θ)+・・・+f・P(θ
Pv=Pelse(θ)=f・P(θ)+f・P(θ)+・・・+f・P(θ
・・・
Pv’=Pelse(θm−1)=f・P(θm−1)+f・P(θm−1)+・・・+f・P(θm−1
0=Pelse(θ)=f・P(θ)+f・P(θ)+・・・+f・P(θ
Pv’=Pelse(θm+1)=f・P(θm+1)+f・P(θm+1)+・・・+f・P(θm+1
・・・
Pv=Pelse(θ)=f・P(θ)+f・P(θ)+・・・+f・P(θ
・・・(15)
そして、上記式(15)の方程式を行列で表記した式(16)の解を求めることで、重み付け係数f、f、・・・、fを得ることができる。この係数f、f、・・・、fも、筐体4に対するマイクロホンM、M、・・・、Mの配置などに応じて決定され、録音装置の設計段階で開発者により予め設定される。
Figure 2014017645
[1.4.音声信号処理装置の構成]
[1.4.1.音声信号処理装置のハードウェア構成]
次に、図12を参照して、本実施形態に係る音声信号処理装置のハードウェア構成例について説明する。図12は、本実施形態に係る音声信号処理装置が適用されたデジタルカメラ1のハードウェア構成を示すブロック図である。
本実施形態に係るデジタルカメラ1は、例えば、動画撮像中に動画と共に音声も記録可能な撮像装置である。このデジタルカメラ1は、被写体を撮像して、当該撮像により得られた撮像画像(静止画又は動画のいずれでもよい。)をデジタル方式の画像データに変換し、音声とともに記録媒体に記録する。
図12に示すように、本実施形態に係るデジタルカメラ1は、概略的には、撮像部10と、画像処理部20と、表示部30と、記録媒体40と、収音部50と、音声処理部60と、制御部70と、操作部80とを備える。
撮像部10は、被写体を撮像して、撮像画像を表すアナログ画像信号を出力する。撮像部10は、撮像光学系11と、撮像素子12と、タイミングジェネレータ13と、駆動装置14とを備える。
撮像光学系11は、フォーカスレンズ、ズームレンズ、補正レンズ等の各種レンズや、不要な波長を除去する光学フィルタ、シャッター、絞り等の光学部品からなる。被写体から入射された光学像(被写体像)は、撮像光学系11における各光学部品を介して、撮像素子12の露光面に結像される。撮像素子12(イメージセンサ)は、例えば、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などの固体撮像素子で構成される。この撮像素子12は、撮像光学系11から導かれた光学像を光電変換し、撮像画像を表す電気信号(アナログ画像信号)を出力する。
撮像光学系11には、該撮像光学系11の光学部品を駆動するための駆動装置14が機械的に接続されている。この駆動装置14は、例えば、ズームモータ15、フォーカスモータ16、絞り調整機構(図示せず。)などを含む。駆動装置14は、後述する制御部70の指示に従って、撮像光学系11の光学部品を駆動させ、ズームレンズ、フォーカスレンズを移動させたり、絞りを調整したりする。例えば、ズームモータ15は、ズームレンズをテレ/ワイド方向に移動させることで、画角を調整するズーム動作を行う。また、フォーカスモータ16は、フォーカスレンズを移動させることで、被写体に焦点を合わせるフォーカス動作を行う。
また、タイミングジェネレータ(TG)13は、制御部70の指示に従って、撮像素子12に必要な動作パルスを生成する。例えば、TG13は、垂直転送のための4相パルス、フィールドシフトパルス、水平転送のための2相パルス、シャッタパルスなどの各種パルスを生成し、撮像素子12に供給する。このTG13により撮像素子12を駆動させることで、被写体像が撮像される。また、TG13が、撮像素子12のシャッタースピードを調整することで、撮像画像の露光量や露光期間が制御される(電子シャッター機能)。上記の撮像素子12が出力した画像信号は画像処理部20に入力される。
画像処理部20は、マイクロコントローラなどの電子回路で構成され、撮像素子12から出力される画像信号に対して所定の画像処理を施し、当該画像処理後の画像信号を表示部30や制御部70に出力する。画像処理部20は、アナログ信号処理部21、アナログ/デジタル(A/D)変換部22、デジタル信号処理部23を備える。
アナログ信号処理部21は、画像信号を前処理する所謂アナログフロントエンドである。該アナログ信号処理部21は、例えば、撮像素子12から出力される画像信号に対して、CDS(correlated double sampling:相関2重サンプリング)処理、プログラマブルゲインアンプ(PGA)によるゲイン処理などを行う。A/D変換部22は、アナログ信号処理部21から入力されたアナログ画像信号をデジタル画像信号に変換して、デジタル信号処理部23に出力する。デジタル信号処理部23は、入力されたデジタル画像信号に対して、例えば、ノイズ除去、ホワイトバランス調整、色補正、エッジ強調、ガンマ補正等のデジタル信号処理を行って、表示部30や制御部70等に出力する。
表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機ELディスプレイなどの表示装置で構成される。表示部30は、制御部70による制御に従って、入力された各種の画像データを表示する。例えば、表示部30は、撮像中に画像処理部20からリアルタイムで入力される撮像画像(スルー画像)を表示する。これにより、ユーザは、デジタルカメラ1で撮像中のスルー画像を見ながら、デジタルカメラ1を操作することができる。また、記録媒体40に記録されている撮像画像を再生したときに、表示部30は、当該再生画像を表示する。これにより、ユーザは、記録媒体40に記録されている撮像画像の内容を確認することができる。
記録媒体40は、上記撮像画像のデータ、そのメタデータなどの各種のデータを記憶する。記録媒体40は、例えば、メモリカード等の半導体メモリ、又は、光ディスク、ハードディスク等のディスク状記録媒体などを使用できる。なお、光ディスクは、例えば、ブルーレイディスク(Blu−ray Disc)、DVD(Digital Versatile Disc)又はCD(Compact Disc)等を含む。なお、記録媒体40は、デジタルカメラ1に内蔵されてもよいし、デジタルカメラ1に着脱可能なリムーバブルメディアであってもよい。
収音部50は、デジタルカメラ1周辺の外部音声を収音する。本実施形態に係る収音部50は、M個のマイクロホンM、M、・・・、M(以下、「マイクロホンM」と総称する場合もある。)で構成される。Mは少なくとも3以上の整数である。3個以上のマイクロホンを具備することで、本実施形態に係る指向性合成を実現可能となる。マイクロホンMは、無指向性マイクロホンであってもよいし、指向性マイクロホンであってもよいが、以下では、無指向性マイクロホンである例について説明する。また、マイクロホンMは、外部音声の集音用マイクロホン(例えばステレオマイクロホン)であってもよいし、スマートフォンなどに設けられる通話用のマイクロホンであってもよい。
これらマイクロホンMは、デジタルカメラ1の同一の筐体4に設置されるが、上記特許文献1、2記載のように対称かつ近接して配置(例えば、正三角形、正四角形等の頂点の位置に近接配置)される必要はなく、筐体4の任意の位置に配置してよい。このように、本実施形態においては、マイクロホンMの配置の自由度が高い。上記のマイクロホンMは、外部音声を収音して得られた入力音声信号をそれぞれ出力する。かかる収音部50により、動画撮像中に外部音声を収音して、動画と共に記録できるようになる。
音声処理部60は、マイクロコントローラなどの電子回路で構成され、音声信号に対して所定の音声処理を施して、記録用の音声信号を出力する。この音声処理は、例えば、AD変換処理、雑音低減処理などを含む。本実施形態は、この音声処理部60による指向性合成処理を特徴としているが、その詳細説明は後述する。
制御部70は、マイクロコントローラなどの電子回路で構成され、デジタルカメラ1の全体の動作を制御する。制御部70は、例えば、CPU71、EEPROM(Electrically Erasable Programmable ROM)72、ROM(Read Only Memory)73、RAM(Random Access Memory)74を備える。かかる制御部70は、デジタルカメラ1内の各部を制御する。
制御部70におけるROM73には、CPU71に各種の制御処理を実行させるためのプログラムが格納されている。CPU71は、該プログラムに基づいて動作して、RAM74を用いながら、上記各制御のための必要な演算・制御処理を実行する。該プログラムは、デジタルカメラ1に内蔵された記憶装置(例えば、EEPROM72、ROM73等)に予め格納しておくことができる。また、当該プログラムは、ディスク状記録媒体、メモリカードなどのリムーバブル記録媒体に格納されて、デジタルカメラ1に提供されてもよいし、LAN、インターネット等のネットワークを介してデジタルカメラ1にダウンロードされてもよい。
ここで、制御部70による制御の具体例について説明する。制御部70は、上記撮像部10のTG13や駆動装置14を制御して、撮像部10による撮像処理を制御する。例えば、制御部70は、上記撮像光学系11の絞りの調整、撮像素子12の電子シャッタースピードの設定、アナログ信号処理部21のAGCのゲイン設定などにより、自動露光制御を行う(AE機能)。また、制御部70は、上記撮像光学系11のフォーカスレンズを移動させて、フォーカスポジションを変更することで、特定の被写体に対して撮像光学系11の焦点を自動的に合わせるオートフォーカス制御を行う(AF機能)。また、制御部70は、上記撮像光学系11のズームレンズを移動させて、ズームポジションを変更することで、撮像画像の画角を調整する。また、制御部70は、記録媒体40に対して撮像画像、メタデータなどの各種のデータを記録し、また、記録媒体40に記録されているデータを読み出して再生する。さらに、制御部70は、表示部30に表示するための各種の表示画像を生成し、表示部30を制御して該表示画像を表示させる。また、制御部70は、L、51Rにより収音された音声信号から雑音を低減するために、音声処理部60の動作を制御する。
操作部80、表示部30は、ユーザがデジタルカメラ1の動作を操作するためのユーザインターフェースとして機能する。操作部80は、ボタン、レバー等の各種の操作キー、又はタッチパネル等で構成され、例えば、ズームボタン、シャッターボタン、電源ボタンなどを含む。操作部80は、ユーザ操作に応じて、各種の撮像動作を指示するための指示情報を制御部70に出力する。
[1.4.2.音声信号処理装置の機能構成]
次に、図13を参照して、本実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図13は、本実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図13に示すように、本実施形態に係る音声信号処理装置は、M個のマイクロホンM、M、・・・Mと、M個の周波数変換部100と、第1の入力選択部101と、第1の合成部102と、時間変換部103とを備える。このうち、周波数変換部100、第1の入力選択部101、第1の合成部102及び時間変換部103は、上記図12の音声処理部60を構成する。これら音声処理部60の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声処理部60が備えるプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
マイクロホンMは、上記のように無指向性マイクロホンで構成され、5.1ch、7.1ch等の多チャンネルの音声信号をサラウンド録音するために用いられる。各マイクロホンM、M、・・・、Mは、デジタルカメラ1の周囲の音(外部音声)を収音して、入力音声信号x(n)、x(n)、・・・、x(n)を生成して出力する。以下、入力音声信号x(n)、x(n)、・・・、x(n)を、「入力音声信号x」又は「音声信号x」と総称する場合もある。入力音声信号x(n)は、時間領域の信号であり、マイクロホンMにより収音された音の時間波形値(時系列の波形データそのもの)を表す。
周波数変換部100は、M個のマイクロホンM、M、・・・Mにそれぞれ対応して設けられる。周波数変換部100は、フレーム単位で、時間領域の入力音声信号xを、周波数領域の入力音声スペクトルX(k)、X(k)、・・・、X(k)に変換する。ここで、入力音声スペクトルXは、周波数スペクトル値(複素スペクトル)を表し、nは時間インデックス、kは周波数インデックスを表す。以下、入力音声スペクトルX(k)、X(k)、・・・、X(k)を、「入力音声スペクトルX」又は「音声スペクトルX」と総称する場合もある。
各周波数変換部100は、各マイクロホンMから入力された入力音声信号x(n)を所定時間のフレーム単位で分割し、当該分割された音声信号x(n)をフーリエ変換(例えばFFT)することで、入力音声スペクトルX(k)を生成する。この際、入力音声信号xの時間変化に追従するために、周波数変換部100は、例えば20〜30ms毎に周波数変換することが望ましい。
第1の入力選択部101は、周波数変換部100から入力されるM個の入力音声スペクトルX(k)、X(k)、・・・、X(k)の中から、第1の合成部102による合成対象の入力音声スペクトルX(k)を選択する。ここで、合成対象の入力音声スペクトルX(k)とは、サラウンド再生環境の特定チャンネルに対応する合成方向(第1の合成方向)の指向性を有する音声信号(以下、「特定チャンネルの合成音声信号」という。)を合成するために必要な複数の入力音声スペクトルである。第1の入力選択部101は、デジタルカメラ1の筐体4に対するM個のマイクロホンMの配置に基づいて、合成対象の入力音声スペクトルX(k)を選択する。
ここで、図14を参照して、本実施形態に係る第1の入力選択部101の構成を詳述する。図14は、本実施形態に係る第1の入力選択部101の構成を示すブロック図である。図14に示すように、第1の入力選択部101は、選択部104と、保持部105を備える。
保持部105は、サラウンド再生環境の特定チャンネル(例えば、L、R、SL、SR等)の識別情報と、当該特定チャンネルの合成音声信号を合成するために必要なマイクロホンMの識別情報とを、関連づけて保持している。ここで、マイクロホンMの識別情報は、例えば、当該合成に必要な複数のマイクロホンMを表す識別ID(例えば、マイクロホン番号)を含むID系列である。当該合成に必要なマイクロホンMは、サラウンド再生環境のチャンネルごと及び周波数帯域ごとに、予め開発者により決定され、当該決定されたマイクロホンMの識別IDが保持部105に保持される。
選択部104は、筐体4に対するM個のマイクロホンMの配置に基づいて、周波数変換部100から入力されるM個の入力音声スペクトルXの中から、少なくとも2つの合成対象の入力音声スペクトルXを選択する。この際、選択部104は、保持部105に保持されているマイクロホンMの識別情報を参照して、後段の第1の合成部102により特定チャンネルの合成音声信号を合成するために必要なマイクロホンMを選択し、当該選択されたマイクロホンMに対応する入力音声スペクトルXを選択する。このようにして、選択部104は、チャンネルごとに予め設定されたマイクロホンMに対応する入力音声スペクトルXのみを選択して、後段の第1の合成部102に出力する。これにより、所望のチャンネルの指向性合成に最適な入力音声スペクトルXを抽出できる。
例えば、SL方向の合成音声信号を合成するために、3個のマイクロホンM、M、Mが必要であれば、保持部105には、SLチャンネルに関連づけてマイクロホンM、M、MのIDが保持されている。選択部104は、保持部105から読み出したマイクロホンM、M、MのIDに基づいて、M個の入力音声スペクトルX、X、・・・、Xの中から、マイクロホンM、M、Mに対応する入力音声スペクトルX、X、Xを選択する。選択部104は、選択した入力音声スペクトルXを、後段の第1の合成部102に出力する。
第1の合成部102は、上記第1の入力選択部101により選択された複数の入力音声スペクトルXのパワースペクトルPを合成することにより、上記特定チャンネルの合成方向(第1の合成方向)の指向性を有する合成音声スペクトルZ(k)を生成する。このように、第1の合成部102は、パワースペクトル領域での指向性合成処理を行う。
ここで、図15を参照して、本実施形態に係る第1の合成部102の構成を詳述する。図15は、本実施形態に係る第1の合成部102の構成を示すブロック図である。
図15に示すように、第1の合成部102は、第1の演算部106と、第1の保持部107と、第2の演算部108と、第2の保持部109と、減算部110と、第3の演算部111を備える。
第1の保持部107は、前述した全方向パワースペクトルPallを算出するための重み付け係数g、g、・・・、g(第1の重み付け係数)を、合成方向ごとに保持している。また、第2の保持部109は、上記特定チャンネルの合成方向(例えばSL方向)以外の方向の非合成方向パワースペクトルPelseを算出するための重み付け係数f、f、・・・、f(第2の重み付け係数)を、合成方向ごとに保持している。これらの重み付け係数g、fは、デジタルカメラ1の開発者により、筐体4に対するマイクロホンM、M、・・・、Mの配置に応じて、合成方向ごとに予め設定される。
第1の演算部106は、第1の入力選択部101により選択された複数の入力音声スペクトルXのパワースペクトルPをそれぞれ計算し、重み付け係数gを用いて当該パワースペクトルPを合成することにより、全方向パワースペクトルPallを算出する(図6参照。)。例えば、第1の入力選択部101により入力音声スペクトルX、X、Xが選択された場合、第1の演算部106は、入力音声スペクトルX、X、XのパワースペクトルP、P、Pに対して、第1の保持部107から読み出した重み付け係数g、g、gをそれぞれ乗算して、加算することにより、全方向パワースペクトルPallを算出する。
第2の演算部108は、第1の入力選択部101により選択された複数の入力音声スペクトルXのパワースペクトルPをそれぞれ計算し、重み付け係数fを用いて当該パワースペクトルPを合成することにより、非合成方向パワースペクトルPelseを算出する(図7参照。)。例えば、第1の入力選択部101により入力音声スペクトルX、X、Xが選択された場合、第2の演算部108は、入力音声スペクトルX、X、XのパワースペクトルP、P、Pに対して、第2の保持部109から読み出した重み付け係数f、f、fをそれぞれ乗算して、加算することにより、非合成方向パワースペクトルPelseを算出する。
減算部110は、上記全方向パワースペクトルPallから非合成方向パワースペクトルPelseを減算して、上記特定チャンネルの合成方向(例えばSL方向)のパワースペクトルPを生成する(図8参照。)。第3の演算部111は、当該パワースペクトルPに基づいて、上記特定チャンネルの合成方向(例えばSL方向)の指向性を有する合成音声スペクトルZを生成する。
このように、第1の合成部102は、第1の入力選択部101により選択された複数の入力音声スペクトルXを、パワースペクトル領域で合成することにより、上記特定チャンネルの合成方向(例えばSL方向)の指向性を有する合成音声スペクトルZを生成する。第1の合成部102は、生成した合成音声スペクトルZを時間変換部103に出力する。
時間変換部103は、第1の合成部102から入力される周波数領域の合成音声スペクトルZ(k)を、時間領域の音声信号z(n)に逆変換する。例えば、時間変換部103は、第1の合成部102により合成された特定チャンネルの合成音声スペクトルZSL(k)を逆フーリエ変換することで、フレーム単位ごとの音声信号zSL(n)を生成する。
次に、図16を参照して、本実施形態に係る音声信号処理装置による指向性合成機能の具体例について説明する。図16は、本実施形態に係る音声信号処理装置の指向性合成機能の具体例を示すブロック図である。
図16は、図5Aに示したマイクロホン配置において、図5Cに示した4チャンネル(L、R、SL、SR)の指向性合成を行う例を示している。上述したように、図5Aに示したマイクロホン配置の場合、従来の指向性合成技術により、L、R、SR方向の合成音声信号z、z、zSRを合成することはできても、SL方向の合成音声信号zSLを良好に合成することは困難であった。
これに対し本実施形態によれば、SL方向の合成音声信号zSLを生成するために、上記パワースペクトル領域での指向性合成を行う。即ち、図16に示すように、まず、3つの周波数変換部100により、3つのマイクロホンM、M、Mの入力音声信号x、x、xをそれぞれ周波数変換して、入力音声スペクトルX、X、Xを生成する。次いで、第1の入力選択部101により、X、X、Xの中から、SL方向の指向性合成に必要な入力音声スペクトルXを選択する。この例では、全てのマイクロホンM、M、Mの入力音声スペクトルX、X、Xが選択される。さらに、第1の合成部102により、入力音声スペクトルX、X、Xから、全方向パワースペクトルPallと非合成方向パワースペクトルPelseを生成し、両者の差分からSL方向の合成音声スペクトルZSL(複素スペクトル)を生成する。その後、時間変換部103により、合成音声スペクトルZSLを逆フーリエ変換することで、SL方向の合成音声信号zSL(時間波形)を生成する。
一方、L、R、SR方向については、図16に示すように、3つのマイクロホンM、M、Mの入力音声信号x、x、xをそのまま、L、R、SR方向の合成音声信号z、z、zSRとして出力する。これは、図5に示したように、筐体4の影響により3つのマイクロホンM、M、MがそれぞれL、R、SR方向の指向性を有するため、特に、当該方向の合成処理を行う必要がないからである。
以上のように、本実施形態によれば、3つのマイクロホンM、M、Mの入力音声信号x、x、xを用いて、4チャネルの合成音声信号z、z、zSL、zSRを出力できる。特に、従来では良好に合成できなかったSL方向の合成音声信号zSLを良好に合成できるという効果がある。
[1.5.音声信号処理方法]
次に、本実施形態に係る音声信号処理装置による音声信号処理方法(指向性合成方法)について説明する。
[1.5.1.音声信号処理装置の全体動作]
まず、図17を参照して、本実施形態に係る音声信号処理装置の全体動作について説明する。図17は、本実施形態に係る音声信号処理方法を示すフローチャートである。
音声信号処理装置は、M個のマイクロホンM、M、・・・Mからそれぞれ入力される音声信号x、x、・・・、xを複数のフレームに分割し、フレーム単位で指向性合成処理を行う。
図17に示すように、まず、マイクロホンM、M、・・・Mにより、デジタルカメラ1周辺の音(外部音声)を収音し、入力音声信号x、x、・・・、xを生成する(S10)。
次いで、周波数変換部100により、各マイクロホンM、M、・・・Mから入力された入力音声信号x、x、・・・、xを周波数変換(例えばFFT)し、入力音声スペクトルX、X、・・・、Xを生成する(S12)。この周波数変換処理は、音声信号xのフレーム単位で行われる。即ち、周波数変換部100は、n番目のフレームの入力音声信号x(n)が入力されると、当該音声信号x(n)をフーリエ変換して、n番目のフレームの入力音声スペクトルX(k)を周波数成分kごとに出力する。この入力音声スペクトルの周波数成分X(k)は、Xを所定の周波数帯域に分割したものである。
次いで、第1の入力選択部101により、S12で得られた入力音声スペクトルX、X、・・・、Xから、所望の特定チャンネルを合成するために必要な複数の入力音声スペクトルXを選択する(S14)。さらに、第1の合成部102により、S14で選択された入力音声スペクトルXのパワースペクトルPを合成することで、特定チャンネルの合成音声スペクトルZ(k)を生成する(S16)。この合成処理も、入力音声スペクトルX(k)の周波数成分k(k=0、1、・・・、L−1)ごとに行われる。
その後、時間変換部103により、S16で合成された合成音声スペクトルZ(k)を時間変換(例えば逆FFT)して、時間領域の合成音声信号z(n)を生成する(S18)。さらに、デジタルカメラ1の制御部70により、当該合成音声信号z(n)が記録媒体40に記録される(S20)。この際、上記特定チャンネルの合成音声信号z(n)とともに、他のチャンネルの合成音声信号z(n)や動画像も記録媒体40に記録されてもよい。
[1.5.2.第1の入力選択部の動作]
次に、図18を参照して、本実施形態に係る第1の入力選択部101の動作(図15の第1の入力選択処理S14)について説明する。図18は、本実施形態に係る第1の入力選択部101の動作を示すフローチャートである。なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。
図18に示すように、まず、第1の入力選択部101は、周波数変換部100から出力されたM個の入力音声スペクトルX(k)、X(k)、・・・、X(k)を取得する(S100)。
次いで、第1の入力選択部101は、保持部105からID系列を取得する(S102)。上述したように、このID系列は、特定チャンネルの合成音声信号を合成するために必要なマイクロホンMの識別情報(例えばマイクロホン番号)である。当該ID系列は、サラウンド再生環境のチャンネルごとに、マイクロホンM、M、・・・Mの配置に応じて予め設定されている。第1の入力選択部101は、当該ID系列により、次のS104で選択すべき入力音声スペクトルX(k)を判断できる。
さらに、第1の入力選択部101は、S102で取得したID系列に基づいて、S100で取得した入力音声スペクトルX(k)、X(k)、・・・、X(k)の中から、一部又は全部の入力音声スペクトルX(k)を選択する(S104)。ここで、選択されるX(k)は、特定チャンネルの合成音声信号を合成するために必要な音声スペクトルであり、上記ID系列で指定されたマイクロホンMから出力された入力音声スペクトルに相当する。
例えば、図5の例では、3個のマイクロホンM、M、Mが設置されており、SL方向の合成音声信号zSLを合成するためには、全てのマイクロホンM、M、Mの入力音声スペクトルX(k)、X(k)、X(k)が必要である。この場合には、ID系列には、全てのマイクロホンM、M、MのID(例えば、ID=1、2、3)が記述されている。このため、S104にて、第1の入力選択部101は、全てのX(k)、X(k)、X(k)を選択する。
その後、第1の入力選択部101は、S104で選択した入力音声スペクトルX(k)を、後段の第1の合成部102に出力する(S106)。
[1.5.3.第1の合成部の動作]
次に、図19を参照して、本実施形態に係る第1の合成部102の動作(図15の第1の合成処理S16)について説明する。図19は、本実施形態に係る第1の合成部102の動作を示すフローチャートである。なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。
まず、第1の合成部102は、合成対象の音声スペクトルとして、上記第1の入力選択部101により選択された複数の入力音声スペクトルX(k)を取得する(S110)。例えば、図5のマイクロホン配置の場合、合成対象の入力音声スペクトルX(k)は、全てのマイクロホンM、M、Mの入力音声スペクトルX(k)、X(k)、X(k)である。
次いで、第1の合成部102は、S110で取得した入力音声スペクトルX(k)のパワースペクトルPXiをそれぞれ計算する(S112)。Xは複素スペクトルであるので(X=a+j・b)、このXからPを計算することができる(P=a+b)。例えば、図5のマイクロホン配置の場合、パワースペクトルPX1、PX2、PX3が計算される。
さらに、第1の合成部102は、第1の保持部107から、全方向パワースペクトルPXallを求めるために各パワースペクトルPXiに乗算する重み付け係数gを取得する(S114)。上述したように、第1の保持部107は、合成対象の特定チャンネルごとに、マイクロホン配置に応じた重み付け係数gを保持している。そこで、第1の合成部102は、合成対象の特定チャンネルに対応する重み付け係数gを、第1の保持部107から読み出す。
その後、第1の合成部102は、S114で取得した重み付け係数gを用いて、S112で計算したパワースペクトルPXiを重み付け加算することにより、全方向パワースペクトルPXallを計算する(S116)。例えば、図5のマイクロホン配置の場合、以下の式(17)でパワースペクトルPXallが計算される(図6参照。)。
Xall=g・PX1+g・PX2+g・PX3 ・・・(17)
次いで、第1の合成部102は、第2の保持部109から、非合成方向パワースペクトルPXelseを求めるために各パワースペクトルPXiに乗算する重み付け係数fを取得する(S118)。上述したように、第2の保持部109は、合成対象の特定チャンネルごとに、マイクロホン配置に応じた重み付け係数fを保持している。そこで、第1の合成部102は、合成対象の特定チャンネルに対応する重み付け係数fを、第2の保持部109から読み出す。
さらに、第1の合成部102は、S118で取得した重み付け係数fを用いて、S112で計算したパワースペクトルPXiを重み付け加算することにより、非合成方向パワースペクトルPXelseを計算する(S120)。例えば、図5のマイクロホン配置の場合、以下の式(18)で、SL方向以外の非合成方向パワースペクトルPXelseが計算される(図7参照。)。
Xelse=f・PX1+f・PX2+f・PX3 ・・・(18)
その後、第1の合成部102は、S116で求めた全方向パワースペクトルPXallから、S120で求めた非合成方向パワースペクトルPXelseを減算する(S122)。この減算処理により、合成対象の特定チャンネル(合成方向)のパワースペクトルPzが得られる(Pz=PXall−PXelse)。例えば、図5のマイクロホン配置の場合、Pzとして、SL方向のパワースペクトルPSLが計算される(図8参照。)。
さらに、第1の合成部102は、S122で求めた合成対象の特定チャンネル(合成方向)のパワースペクトルPzから、当該特定チャンネルの複素スペクトルZ(k)を復元する(S124)。具体的には、第1の合成部102は、Pzの平方根に対して位相∠Xを付与することで、パワースペクトルPzを複素スペクトルZ(k)に復元できる。この複素スペクトルZ(k)は、合成対象の特定チャンネル(合成方向)の合成音声スペクトルZに相当する。
ここで、S124の復元処理について詳述する。一般に、音声スペクトルとしての複素スペクトルXは、実部と虚部からなり、X=a+b・jで表される。この複素スペクトルXは、音声信号の振幅及び位相の観点から表現すると、以下の式(19)で表される。式(19)において、振幅は(a+b0.5であり、位相は∠Xである。
Figure 2014017645
また、パワースペクトルPは以下の式(20)で表される。式(20)から分かるように、複素スペクトルXの実部aと虚部bの平方和を計算することで、パワースペクトルPを求めることができる。
P=a+b ・・・(20)
以上により、パワースペクトルPの平方根を求めることで、複素スペクトルXの振幅を復元できる。この振幅に位相を付与すれば、複素スペクトルX自体を復元することができることになる。
一般に、音声波形などでは、パワースペクトルPの復元が重要であり、位相は正確なものでなくても、人間の聴覚に対してはあまり影響がないといわれている。そこで、本実施形態では、上記PSLから求めた振幅(a+b0.5に対して、マイクロホンMの入力音声信号xの位相∠X(k)を付与することで、SL方向のパワースペクトルPSLからSL方向の複素スペクトルXSLを推定している。
[1.6.効果]
以上、本開示の第1の実施形態に係る音声信号処理装置及び方法について詳細に説明した。本実施形態によれば、第1の入力選択部101により選択された複数の入力音声スペクトルXを、第1の合成部102によりパワースペクトル領域で合成することにより、合成対象の特定チャンネル(合成方向)の指向性を有する合成音声スペクトルZを生成する。
この合成音声スペクトルZは、従来の音声信号の時間領域若しくは複素スペクトル領域での指向性合成技術では、良好に生成できないものである。即ち、前述したように、筐体4に対するマイクロホンMの配置が原因で、複数のマイクロホンMの間の入力特性Sが相違するため、特定チャンネルの合成方向、例えばSL方向の合成音声スペクトルZSLを生成するために必要な情報が不足する場合がある(図3〜図5参照。)。この場合、限られた数のマイクロホンM、M、Mの入力音声信号を、従来技術のように時間領域又は複素スペクトル領域で合成したとしても、SL方向の合成音声スペクトルZSLを適切に生成できない。
しかし、本実施形態によれば、マイクロホン配置に応じて、特定チャンネルの合成方向(例えばSL方向)の指向性合成に必要な入力音声スペクトルXを選択し、当該選択された入力音声スペクトルXをパワースペクトル領域で合成する。これにより、上記マイクロホンMの間の入力特性Sが相違するようなマイクロホン配置においても、所望の合成方向の合成音声スペクトルZを良好に生成できる。
このように、本実施形態によれば、従来ではマイクロホン配置の影響により実現できなかったサラウンド録音を、好適に実現することができる。換言すると、より少ない数のマイクロホンで、所望のチャンネル数の指向性合成を行うことが可能になる。
さらに、本実施形態によれば、自由度の高いマイクロホン配置が可能となり、上記特許文献1、2記載のように複数のマイクロホンMを対称かつ近接して配置する必要がなく、筐体4の任意の位置に配置してよい。従って、筐体4に対するマイクロホンMの配置の自由度が高いので、デジタルカメラ1、携帯電話、携帯情報端末などの録音機器の小型化、設計の容易化、多機能化等に貢献できる。特に、スマートフォンは、通話機能、録音機能などの多機能を有するため、複数のマイクロホンが筐体4の一側と他側に離隔して配置されることが多い。従って、上記本実施形態によるマイクロホン配置の自由度が高いという利点は、スマートフォンなどの機器にとって有用である。
また、一般的には、複数のマイクロホンMが離隔しすぎると、マイクロホンM間で空間エイリアスが生じるため、合成音声信号の指向性に歪みが生じてしまう。しかし、本実施形態によれば、パワースペクトル領域での合成処理により、この歪みの影響を低減することができる。また、これにより、マイクロホンMを離隔配置できるので、マイクロホン配置の自由度がさらに向上する。
<2.第2の実施の形態>
次に、本開示の第2の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第2の実施形態は、上記入力音声スペクトルXに加えて第2の指向性合成処理の結果も利用して、上記第1の指向性合成処理を行うことを特徴としている。第2の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[2.1.第2の実施形態の概要]
まず、第2の実施形態に係る音声信号処理装置及び方法の概要について説明する。
前述したように、複数のマイクロホンMの間に筐体4などが存在し、音の伝播の障害物となる場合には、複数のマイクロホンMの入力特性に偏りが生じることになる。つまり、音が障害物に当たると、反射又は減衰するので、障害物の一側と他側ではマイクロホンMに入力される音の特性が相違する。
しかしながら、音には回析という現象があり、波長が長い低周波数帯域の音ほど回析しやすい。このため、たとえ障害物(筐体4など)が存在したとしても、障害物のサイズに対して十分大きな波長を有する音の低周波数成分は、障害物を回り込んで、障害物の裏側にあるマイクロホンに入力される。このような音の回析により、結果的にマイクロホンMの入力特性に偏りが生じない場合がある。
かかる音の周波数帯域による音の回析の影響を、前述した図3に示すマイクロホン配置の例を挙げて説明する。図20は、上記図3のマイクロホン配置において、θ=0°から10°刻みの方向から、400Hz、1000Hz、2500Hzの音を発生させたときの、前面マイクロホンM、背面マイクロホンMの入力特性を測定した結果を示す。
図20に示すように、音の周波数によって、マイクロホンMの入力特性は変化する。例えば、2500Hzの高周波数帯域では、前面マイクロホンMには、後方から到来する音はかなり減衰して入力される。前方から到来する音の背面マイクロホンMに対する入力特性も同様である。このように、高周波数帯域では、音の到来方向θによって各マイクロホンM、Mの入力特性に偏りが生じるので、筐体4の前面と背面に設けられたマイクロホンM、M間の入力特性の差が大きくなる。
これに対し、1000Hzの中周波数帯域、400Hzの低周波数帯域の結果から分かるように、音の周波数は低周波数帯域になるにつれて、マイクロホンMの入力特性の偏りが小さくなる。特に、400Hzの低周波数帯域の場合、後方から到来する音は、大きく回析するために、前面マイクロホンMに対して前面マイクロホンMと同様な振幅で入力されており、両マイクロホンM、M間で入力特性の差はほとんど生じていない。
以上のように、マイクロホンM、Mの間に筐体4等の障害物が存在する場合において、高周波数帯域の音が入力されるときは、音の到来方向θによって各マイクロホンM、Mの入力特性に偏りが生じるが、低周波数帯域の音が入力されるときは、当該入力特性の偏りは小さくなる。
マイクロホンMの入力特性の偏りが小さい場合、複数のマイクロホンMの入力音声信号xを、パワースペクトル領域で合成したとしても、上記第1の実施形態のように、SL方向以外の非合成方向パワースペクトルPelseを生成することは難しい。この理由について、図21を参照して説明する。
図21は、図5Aに示した3つのマイクロホンM、M、Mの配置において、低周波数帯域(例えば400Hz)の音が入力された時の入力特性を示す模式図である。前述したように、低周波数帯域の音が入力された場合、音の到来方向θによって各マイクロホンM、M、Mの入力特性に偏りは生じない。このため、図21Aに示すように、筐体4が存在したとしても、各マイクロホンM、M、Mの入力パワースペクトルP、P、Pは、無指向性であり、全ての方向θの音声成分を等しく含むようになる。
かかる場合、第1の実施形態の方法により入力パワースペクトルP、P、Pを合成することで、図21Bに示すように、全方向パワースペクトルPallを適切に生成することはできるが、図21Cに示すように、非合成方向パワースペクトルPelseを適切に生成することは困難となる。つまり、各マイクロホンM、M、Mの入力特性に偏りが有る場合には、図7に示したように、適切な係数f、f、fを用いて、P、P、Pを重み付け加算することで、SL方向以外の非合成方向パワースペクトルPelseを生成できる。しかし、図21Aに示したように、各マイクロホンM、M、Mの入力特性に偏りが無い場合には、P、P、Pを重み付け加算したとしても、SL方向の音声成分を十分に低減することができず、図21Cに示すように、不完全な非合成方向パワースペクトルPelseしか生成できない。
以上の理由から、低周波数帯域の音が入力され、マイクロホンMの入力特性に偏りが生じない場合であっても、非合成方向パワースペクトルPelseを良好に生成できる方法が求められる。
ところで、マイクロホンMの入力特性に偏りが生じない場合(即ち、入力特性が揃っている場合)においては、既存のマイクロホンアレイ処理技術を有効に使用することができる。このマイクロホンアレイ処理技術は、複素スペクトル領域で入力音声信号を合成するものであり、例えば、「delay−and−sum array(遅延和アレイ)」又は、カージオイド型の指向性を利用した技術などである。マイクロホンの入力特性が揃っている場合には、当該技術を用いて、特定チャンネルの合成方向(例えば図5の例のSL方向)の音声成分を含まない複素スペクトルを適切に生成することが可能である。
そこで、第2の実施形態では、パワースペクトル領域で指向性合成を行う際に、マイクロホンMの入力音声スペクトルXだけを利用するのではなく、既存のマイクロホンアレイ処理技術を利用した指向性合成結果も利用する。このように第2の実施形態では、第1の実施形態に係る指向性合成に対して、既存のマイクロホンアレイ処理技術を適用する。これにより、低周波数帯域の音を合成する場合において、第1の指向性合成の性能を向上させることができる。
以上のように、第2の実施形態によれば、3つのマイクロホンM、M、Mの入力音声信号x、x、xを用いて、4チャネルの合成音声信号z、z、zSL、zSRを出力できる。特に、マイクロホンMに低周波数帯域の音が入力され、マイクロホンMの入力特性に偏りが生じない場合であっても、SL方向以外の非合成方向パワースペクトルPYelseを好適に合成できる。従って、より広い周波数帯域において良好な指向性合成が可能になる。以下に、上記のような指向性合成を実現するための第2の実施形態に係る音声信号処理装置及び方法について述べる。
[2.2.音声信号処理装置の機能構成]
次に、図22を参照して、第2の実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図22は、第2の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図22に示すように、第2の実施形態に係る音声信号処理装置は、M個のマイクロホンM、M、・・・Mと、M個の周波数変換部100と、第1の入力選択部101と、第1の合成部102と、時間変換部103と、N個の第2の入力選択部121と、N個の第2の合成部122と、を備える。このうち、周波数変換部100、第1の入力選択部101、第1の合成部102、時間変換部103、第2の入力選択部121及び複数の第2の合成部122は、上記図12の音声処理部60を構成する。これら音声処理部60の各部は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声処理部60が備えるプロセッサが、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。
このように、第2の実施形態に係る音声信号処理装置は、上記第1の実施形態に係る第1の入力選択部101及び第1の合成部102を有する第1の指向性合成部112に加えて、第2の入力選択部121及び第2の合成部122を有する第2の指向性合成部120を備える。この第2の指向性合成部120は、既存マイクロホンアレイ処理技術を利用して、複素スペクトル領域で入力音声信号xを合成する第2の指向性合成処理を行い、その合成結果である複数の合成方向の合成音声スペクトルYを上記第1の指向性合成部112に出力する。
ここで、第2の指向性合成部120について詳述する。図22に示すように、第2の指向性合成部120は、N個の第2の入力選択部121−1〜Nと、当該各第2の入力選択部121に対応するN個の第2の入力選択部121−1〜Nを備える。Nは、サラウンド再生環境のチャンネル数であり、例えば、図5Cに示した4チャンネルのサラウンド再生環境では、N=4である。つまり、サラウンド再生環境のチャンネル(例えば、L、R、SL、SR)ごとに、第2の入力選択部121及び第2の入力選択部121の組がそれぞれ設けられる。例えば、第2の入力選択部121−1及び第2の入力選択部121−1の組は、第1番目のチャンネル(例えばLチャンネル)の合成音声信号を生成するための指向性合成処理を行う。
第2の入力選択部121は、周波数変換部100から入力されるM個の入力音声スペクトルX(k)、X(k)、・・・、X(k)の中から、第2の合成部122による合成対象の入力音声スペクトルX(k)を選択する。ここで、合成対象の入力音声スペクトルX(k)とは、サラウンド再生環境の複数チャンネルに対応する複数の合成方向の指向性を有する音声信号(以下、「複数チャンネルの合成音声信号」という。)をそれぞれ合成するために必要な複数の入力音声スペクトルである。第2の入力選択部121は、デジタルカメラ1の筐体4に対するM個のマイクロホンMの配置に基づいて、合成対象の入力音声スペクトルX(k)を選択する。
ここで、図23を参照して、本実施形態に係る第2の入力選択部121の構成を詳述する。図23は、本実施形態に係る第2の入力選択部121の構成を示すブロック図である。
図23に示すように、第2の入力選択部121は、選択部123と、保持部124を備える。
保持部124は、サラウンド再生環境の各チャンネル(例えば、L、R、SL、SR等)の識別情報と、当該各チャンネルの合成音声信号を合成するために必要なマイクロホンMの識別情報C、C、・・・、Cp−1とを、関連づけて保持している。ここで、マイクロホンMの識別情報は、例えば、当該合成に必要な複数のマイクロホンMを表す識別ID(例えば、マイクロホン番号)を含むID系列である。当該合成に必要なマイクロホンMは、サラウンド再生環境のチャンネルごと及び周波数帯域ごとに、予め開発者により決定され、当該決定されたマイクロホンMの識別IDが保持部124に保持される。
選択部123は、筐体4に対するM個のマイクロホンMの配置に基づいて、周波数変換部100から入力されるM個の入力音声スペクトルXの中から、少なくとも2つの合成対象の入力音声スペクトルXを選択する。この際、選択部123は、保持部124に保持されているマイクロホンMの識別情報C、C、・・・、Cp−1を参照して、後段の第2の合成部122により各チャンネルの合成音声信号を合成するために必要なマイクロホンMを選択し、当該選択されたマイクロホンMに対応する入力音声スペクトルXを選択する。このようにして、選択部123は、チャンネルごとに予め設定されたマイクロホンMに対応する入力音声スペクトルXのみを選択して、後段の第2の合成部122に出力する。これにより、所望のチャンネルの指向性合成に最適な入力音声スペクトルXを抽出できる。
例えば、L方向の合成音声信号を合成するために、2個のマイクロホンM、Mが必要であれば、保持部124には、Lチャンネルに関連づけてマイクロホンM、MのIDが保持されている。選択部123は、保持部124から読み出したマイクロホンM、MのIDに基づいて、M個の入力音声スペクトルX、X、・・・、Xの中から、マイクロホンM、Mに対応する入力音声スペクトルX、Xを選択する。選択部123は、選択した入力音声スペクトルXを、後段の第2の合成部122に出力する。
第2の合成部122は、上記第2の入力選択部121により選択された複数の入力音声スペクトルXを合成することにより、上記各チャンネルに対応する合成方向の指向性を有する合成音声スペクトルY(k)を生成する。この際、第2の合成部122は、上記選択された複数の入力音声スペクトルXを、マイクロホンMの配置に応じて予め設定された重み付け係数wを用いて重み付け加算することで、各チャンネルの合成音声スペクトルYに合成する。
このように、第2の合成部122は、既存のマイクロホンアレイ信号処理技術を利用して、複素スペクトル領域での指向性合成処理を行う。このマイクロホンアレイ信号処理技術は、例えば、「delay−and−sum array(遅延和アレイ)」でもよいし、カージオイド型の指向性を有するものでもよい。
ここで、図24を参照して、本実施形態に係る第2の合成部122の構成を詳述する。図24は、本実施形態に係る第2の合成部122の構成を示すブロック図である。
図24に示すように、第2の合成部122は、演算部125と、保持部126を備える。
保持部126は、各チャンネルの合成方向の合成音声スペクトルYを算出するための重み付け係数w、w、・・・、w(第3の重み付け係数)を保持している。この重み付け係数wは、デジタルカメラ1の開発者により、筐体4に対するマイクロホンM、M、・・・、Mの配置に応じて、合成方向ごとに予め設定される。
演算部125は、第2の入力選択部121により選択された複数の入力音声スペクトルXを、保持部126に保持されている重み付け係数wを用いて合成することにより、各チャンネルの合成音声スペクトルYを算出する。例えば、Lチャンネルの指向性合成を行うために、第2の入力選択部121によりLチャンネルに適した入力音声スペクトルX、Xが選択された場合、演算部125は、入力音声スペクトルX、Xに対して、保持部126から読み出した重み付け係数w、wをそれぞれ乗算して、加算することにより、Lチャンネルの合成音声スペクトルYを算出する。
このように、第2の合成部122−1〜Nは、第2の入力選択部121−1〜Nにより選択された複数の入力音声スペクトルXを、複素スペクトル領域でそれぞれ合成することにより、各チャンネルの合成方向(例えばL、R、SL、SR)の指向性を有するN個の合成音声スペクトルY(k)、Y(k)、・・・、Y(k)を生成する。第2の合成部122−1〜Nは、生成した合成音声スペクトルY(k)、Y(k)、・・・、Y(k)の一部又は全部を、第1の指向性合成部112の第1の入力選択部101に出力する。
次に、第2の実施形態に係る第1の指向性合成部112の第1の入力選択部101及び第1の合成部102の構成について説明する。第1の入力選択部101及び第1の合成部102の基本構成は、第1の実施形態と同様である(図13、図14参照。)
第1の入力選択部101には、第1の実施形態と同様に周波数変換部100からM個の入力音声スペクトルX、X、・・・、Xが入力されるだけでなく、上記第2の合成部122からN個の合成音声スペクトルY(k)、Y(k)、・・・、Y(k)が入力される。第1の入力選択部101は、デジタルカメラ1の筐体4に対するマイクロホンMの配置に基づいて、M個の入力音声スペクトルX(k)、X(k)、・・・、X(k)の中から、第1の合成部102による合成対象の入力音声スペクトルX(k)を選択する。さらに、第1の入力選択部101は、当該マイクロホンMの配置に基づいて、N個の合成音声スペクトルY(k)、Y(k)、・・・、Y(k)の中から、第1の合成部102による合成対象の合成音声スペクトルY(k)も選択する。
ここで、第1の合成部102により選択される入力音声スペクトルX(k)は、前述の全方向パワースペクトルPallを合成するために用いられる。一方、第1の合成部102により選択される合成音声スペクトルY(k)は、前述の非合成方向パワースペクトルPelseを合成するために用いられる。第1の合成部102は、選択した入力音声スペクトルX(k)及び合成音声スペクトルY(k)を第1の合成部102に出力する。
第1の合成部102は、第1の入力選択部101から入力された入力音声スペクトルX(k)のパワースペクトルPを計算し、当該パワースペクトルPを合成することにより、全方向パワースペクトルPXallを生成する。また、第1の合成部102は、第1の入力選択部101から入力された合成音声スペクトルY(k)のパワースペクトルPを計算し、当該パワースペクトルPを合成することにより、特定チャネルの合成方向(第1の合成方向。例えばSL方向)以外の非合成方向パワースペクトルPYelseを生成する。
例えば、SL方向以外の非合成方向パワースペクトルPYelseを求める場合、第1の合成部102は、SL方向以外のL、R、SR方向の合成音声スペクトルY、Y、YSRのパワースペクトルPYL、PYR、PYSRを合成することで、SL方向以外の非合成方向パワースペクトルPYelseを計算する。
さらに、第1の合成部102は、上記全方向パワースペクトルXallから非合成方向パワースペクトルPelseを減算したパワースペクトルPzを複素スペクトルZに復元することで、特定チャネルの合成方向の指向性を有する合成音声スペクトルZを生成する。
以上のように、第1の合成部102は、マイクロホンMから得られた入力音声スペクトルXに加えて、第2の合成部122により生成された合成音声スペクトルYをも利用して、特定チャンネルの合成方向(例えばSL方向)の合成音声スペクトルZを生成する。この際、第1の合成部102は、入力音声スペクトルXを合成することで、全方向パワースペクトルPXallを生成するが、特定チャンネル方向以外の非合成方向パワースペクトルPYelseを合成する際には、入力音声スペクトルXの代わりに、第2の合成部122から得た合成音声スペクトルYを用いる。つまり、第1の合成部102は、特定チャンネルの方向以外の複数の合成方向の合成音声スペクトルYのパワースペクトルPを算出し、当該パワースペクトルPを合成することで、当該非合成方向パワースペクトルPYelseを計算する。
これにより、マイクロホンMに低周波数帯域(例えば400Hz前後)の音が入力され、マイクロホンMの入力特性に偏りが生じない場合(図21A参照。)であっても、図21Cに示したようなSL方向以外の非合成方向パワースペクトルPelseを容易かつ正確に生成できる。従って、入力音声スペクトルXから生成した全方向パワースペクトルPXallから、非合成方向パワースペクトルPYelseを減算して、SL方向の合成音声スペクトルZSLを良好に生成できる。
次に、図25を参照して、第2の実施形態に係る音声信号処理装置による指向性合成機能の具体例について説明する。図25は、第2の実施形態に係る音声信号処理装置の指向性合成機能の具体例を示すブロック図である。
図25は、図5Aに示したマイクロホン配置において、マイクロホンMに低周波数帯域の音が入力され、マイクロホンMの入力特性に偏りが生じない場合に、図5Cに示した4チャンネル(L、R、SL、SR)の指向性合成を行う例を示している。上述したように、図5Aに示したマイクロホン配置の場合、従来の指向性合成技術により、L、R、SR方向の合成音声信号z、z、zSRを合成することはできても、SL方向の合成音声信号zSLを良好に合成することは困難であった。さらに、第1の実施形態に係る指向性合成方法では、マイクロホンMの入力特性に偏りが生じない場合に、SL方向以外の非合成方向パワースペクトルPelseを良好に求めることが困難である(図21参照。)。
これに対し、第2の実施形態によれば、SL方向の合成音声信号zSLを生成するために、上記パワースペクトル領域での指向性合成を行う。即ち、図25に示すように、まず、3つの周波数変換部100により、3つのマイクロホンM、M、Mの入力音声信号x、x、xを入力音声スペクトルX、X、Xに周波数変換する。
次いで、第2の入力選択部121L、121R、121SRにより、X、X、Xの中から、L、R、SR方向の指向性合成に必要な入力音声スペクトルXを選択する。例えば、L、R方向の指向性合成のために、前方向からのX、Xが選択され、SR方向の指向性合成のために、X、X、Xが選択される。さらに、第2の合成部122L、122R、122SRにより、入力音声スペクトルX、X、Xから、L、R、SR方向の合成音声スペクトルY、Y、YSRがそれぞれ合成され、第1の入力選択部101に出力される。
その後、第1の入力選択部101により、X、X、Xの中から、SL方向の指向性合成に必要な入力音声スペクトルXを選択する。この例では、全てのマイクロホンM、M、Mの入力音声スペクトルX、X、Xが選択される。さらに、第1の入力選択部101により、Y、Y、YSRの中から、SL方向の指向性合成に必要な合成音声スペクトルYを選択する。この例では、全ての合成音声スペクトルY、Y、YSRが選択される。
さらに、第1の合成部102により、入力音声スペクトルX、X、Xを合成して、全方向パワースペクトルPXallを生成し、合成音声スペクトルY、Y、YSRを合成して、SL方向以外の非合成方向パワースペクトルPYelseを生成する。そして、両者の差分からSL方向の合成音声スペクトルZSL(複素スペクトル)を生成する。その後、時間変換部103により、合成音声スペクトルZSLを逆フーリエ変換することで、SL方向の合成音声信号zSL(時間波形)を生成する。
一方、L、R、SR方向については、図25に示すように、3つのマイクロホンM、M、Mの入力音声信号x、x、xをそのまま、L、R、SR方向の合成音声信号z、z、zSRとして出力する。この点は第1の実施形態と同様である。
以上のように、第2の実施形態によれば、3つのマイクロホンM、M、Mの入力音声信号x、x、xを用いて、4チャネルの合成音声信号z、z、zSL、zSRを出力できる。特に、マイクロホンMに低周波数帯域の音が入力され、マイクロホンMの入力特性に偏りが生じない場合であっても、SL方向以外の非合成方向パワースペクトルPYelseを好適に合成できる。従って、より広い周波数帯域において良好な指向性合成が可能になるという効果がある。
ここで、上記第2の指向性合成部120による複素スペクトル領域での合成により得られる指向性について、より詳細に説明する。
第2の実施形態では、例えば、図5に示すマイクロホン配置において、SL方向の合成音声信号zSLを適切に合成することが目的である。このために、第1の指向性合成部112は、マイクロホンMから得られた入力音声スペクトルXをパワースペクトル領域で合成して、全方向パワースペクトルPXallを推定する。さらに、第1の指向性合成部112は、第2の指向性合成部120で得られた合成音声スペクトルYをスペクトル領域で合成して、非合成方向パワースペクトルPYelseを推定する。
そのため、第1の指向性合成部112から出力される合成音声スペクトルY(k)から求めた非合成方向パワースペクトルPYelseは、図26に示すように、SL方向の音声成分に対して相対的にL、R、SR方向の音声成分を多く含むものになる。
ところで、入力音声スペクトルX(k)は、マイクロホンMからの入力音声信号x(n)を周波数変換したものであり、合成音声スペクトルY(k)は、X(k)を重み付け加算したものである。そして、第1の指向性合成部112では、Y(k)のパワースペクトルPを重み付け加算することで、非合成方向パワースペクトルPYelseを推定する。
また、前述したように、400Hzなどの低周波数帯域の音がマイクロホンMに入力される場合には、図27Aに示すように、マイクロホンMの入力特性に偏りが生じないため、どの到来方向θからの音も、ほぼ同一の入力特性となる。この場合、図27Cに示すような全方向パワースペクトルPallを合成可能であるが、図27Bに示すような特定方向の音声成分だけを低減させた特性、即ち、SL方向だけを含まない非合成方向パワースペクトルPelseを合成することはできない。
しかしながら、X(k)のパワースペクトルPだけではなく、位相情報をも利用して、複素スペクトル領域で演算することで、図27Dに示すように、SL方向の音声成分を含まない複素スペクトルYを生成することが可能である。この方法は、既存のマイクロホンアレイ技術を用いた指向性合成に相当する。上記のように低周波数帯域の音が入力される場合には、マイクロホンMの入力特性が揃っているので、当該マイクロホンアレイ技術を適用することができる。
このマイクロホンアレイ技術では、重み付け係数wを用いて複素スペクトルXを重み付け加算するものである。そこで、以下に当該重み付け係数wの求め方の一例を説明する。なお、入力音声信号を複素スペクトル領域で演算するため、以下では、ある周波数成分kの入力音声スペクトルX(k)について検討するものとする。
図28に示すように、3つのマイクロホンM、M、Mが配置された筐体4の周囲に、L、R、SR方向にスピーカを設置し、それぞれのスピーカから個別にテスト信号(白色雑音)を再生し、入力音声スペクトルXを測定する。この結果、L方向からテスト信号を再生した場合に得られた複素スペクトルをXL_i(k)、R方向からテスト信号を再生した場合に得られた複素スペクトルをXR_i(k)、SR方向からテスト信号を再生した場合に得られた複素スペクトルをXSR_i(k)とする。
ここで、SL方向のみが低減された特性を得るためには、以下の方程式(22)を満たす係数wを求めればよい。
1=w・aL_1(k)+w・aL_2(k)+w・aL_3(k)
1=w・aR_1(k)+w・aR_2(k)+w・aR_3(k)
1=w・aSR_1(k)+w・aSR_2(k)+w・aSR_3(k)
0=w・aSL_1(k)+w・aSL_2(k)+w・aSL_3(k)
・・・(22)
この式(22)は、L、R、SR方向の音声成分は利得1で通過させ、SL方向の音声成分の利得を0にすることを意味している。一般化逆行列により、上記方程式(22)の解として、w〜wを求めることができる。
なお、式(22)におけるaL_i(k)、aR_i(k)、aSR_i(k)は、XL_i(k)、XR_i(k)、XSR_i(k)を上記テスト信号の振幅値で正規化したものである。テスト信号の周波数成分kの成分をS(k)とすると、L方向の入力音声スペクトルaL_i(k)は、以下の式(23)で表される。他の方向も同様である。
Figure 2014017645
以上、第2の実施形態に係る係数wの計算例について説明した。上記計算例によれば、第2の合成部122によりサラウンド再生環境の各チャンネルの合成音声を計算するための重み付け係数wを適切に求めることができる。
[2.3.音声信号処理方法]
次に、第2の実施形態に係る音声信号処理装置による音声信号処理方法(指向性合成方法)について説明する。
[2.3.1.音声信号処理装置の全体動作]
まず、図29を参照して、本実施形態に係る音声信号処理装置の全体動作について説明する。図29は、本実施形態に係る音声信号処理方法を示すフローチャートである。
第2の実施形態は、第1の実施形態と比べて、第2の入力選択処理(S32)と第2の合成処理(S34)が追加されている点で相違する。
図29に示すように、まず、マイクロホンM、M、・・・Mにより、デジタルカメラ1周辺の音(外部音声)を収音し、入力音声信号x、x、・・・、xを生成する(S30)。次いで、周波数変換部100により、各マイクロホンM、M、・・・Mから入力された入力音声信号x、x、・・・、xを周波数変換(例えばFFT)し、入力音声スペクトルX、X、・・・、Xを生成する(S32)。このS30及びS32の処理は第1の実施形態の図17のS10及びS12の処理と同様である。
次いで、第2の入力選択部121により、S32で得られた入力音声スペクトルX、X、・・・、Xから、サラウンド再生環境の各チャンネルを合成するために必要な複数の入力音声スペクトルXをそれぞれ選択する(S34)。さらに、第2の合成部122により、S34で選択された入力音声スペクトルXを合成することで、各チャンネルの合成音声スペクトルY、Y、・・・、Yをそれぞれ生成する(S36)。この合成処理は、入力音声スペクトルX(k)の周波数成分k(k=0、1、・・・、L−1)ごとに行われる。
次いで、第1の入力選択部101により、S32で得られた入力音声スペクトルX、X、・・・、Xから、全方向パワースペクトルPXallを合成するために必要な複数の入力音声スペクトルXを選択する(S38)。さらに、第1の入力選択部101により、S36で得られた合成音声スペクトルY、Y、・・・、Yから、特定チャンネル方向以外の非合成方向パワースペクトルPYelseを合成するために必要な複数の入力音声スペクトルYを選択する(S38)。
さらに、第1の合成部102により、S38で選択された入力音声スペクトルX及び合成音声スペクトルYを合成することで、特定チャンネルの合成音声スペクトルZ(k)を生成する(S40)。この際、入力音声スペクトルXから全方向パワースペクトルPXallを合成し、合成音声スペクトルYから特定チャンネル方向以外の非合成方向パワースペクトルPYelseを合成し、PXallとPYelseの差分を計算する。かかる合成処理も、入力音声スペクトルX(k)及び合成音声スペクトルY(k)の周波数成分k(k=0、1、・・・、L−1)ごとに行われる。
その後、時間変換部103により、S40で合成された合成音声スペクトルZ(k)を時間変換(例えば逆FFT)して、時間領域の合成音声信号z(n)を生成する(S42)。さらに、デジタルカメラ1の制御部70により、当該合成音声信号z(n)が記録媒体40に記録される(S44)。この際、上記特定チャンネルの合成音声信号z(n)とともに、他のチャンネルの合成音声信号z(n)や動画像も記録媒体40に記録されてもよい。
[2.3.2.第2の入力選択部の動作]
次に、図30を参照して、本実施形態に係る第2の入力選択部121の動作(図29の第2の入力選択処理S34)について説明する。図30は、本実施形態に係る第2の入力選択部121の動作を示すフローチャートである。なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。
図30に示すように、まず、第2の入力選択部121は、周波数変換部100から出力されたM個の入力音声スペクトルX(k)、X(k)、・・・、X(k)を取得する(S200)。
次いで、第2の入力選択部121は、保持部124からP個のマイクロホンMの識別情報C、C、・・・、Cp−1を含むID系列を取得する(S202)。上述したように、このID系列は、サラウンド再生環境の各チャンネルの合成音声信号を合成するために必要なマイクロホンMの識別情報(例えばマイクロホン番号)である。当該ID系列は、サラウンド再生環境のチャンネルごとに、マイクロホンM、M、・・・Mの配置に応じて予め設定されている。第2の入力選択部121は、当該ID系列により、次のS204で選択すべき入力音声スペクトルX(k)を判断できる。
さらに、第2の入力選択部121は、S202で取得したID系列に基づいて、S200で取得した入力音声スペクトルX(k)、X(k)、・・・、X(k)の中から、一部又は全部の入力音声スペクトルX(k)を選択する(S204)。ここで、選択されるX(k)は、各チャンネルの合成音声信号を合成するために必要な音声スペクトルであり、上記ID系列に踏むまれる識別情報C、C、・・・、Cp−1で指定されたマイクロホンMから出力された入力音声スペクトルに相当する。
その後、第2の入力選択部121は、S204で選択したp個の入力音声スペクトルX(k)を、後段の第2の合成部122に出力する(S206)。
[2.3.3.第2の合成部の動作]
次に、図31を参照して、本実施形態に係る第2の合成部122の動作(図29の第2の合成処理S36)について説明する。図31は、本実施形態に係る第2の合成部122の動作を示すフローチャートである。なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。
まず、第2の合成部122は、合成対象の音声スペクトルとして、上記第2の入力選択部121により選択されたp個の入力音声スペクトルX(k)を取得する(S210)。
次いで、第2の合成部122は、保持部126から、各チャンネルの合成方向の合成音声スペクトルYを求めるための重み付け係数wを取得する(S212)。上述したように、保持部126は、チャンネルごとに、マイクロホン配置に応じた重み付け係数wを保持している。そこで、第2の合成部122は、合成対象の各チャンネルに対応する重み付け係数wを、保持部126から読み出す。
さらに、第2の合成部122は、S212で取得した重み付け係数wを用いて、S210で取得した入力音声スペクトルX(k)を重み付け加算することにより、各チャンネルの合成方向の合成音声スペクトルY(k)を合成する(S214)。つまり、以下の式(21)のように、X(k)に係数gを乗算し、乗算した値を加算することで、合成音声スペクトルY(k)を算出する。この合成処理は、既存のマイクロホンアレイ信号処理技術を用いた合成処理に相当する。
Y(k)=w・X(k)+w・X(k)+・・・+wp−1・Xp−1(k)
・・・(21)
その後、第2の合成部122は、S214の合成結果である合成音声スペクトルY(k)を第1の入力選択部101に出力する(S216)。
以上の処理を、N個のチャンネルについて行うことにより、M個の入力音声スペクトルX(k)、X(k)、・・・、X(k)が複素スペクトル領域で合成されて、N個のチャンネルの合成方向の合成音声スペクトルY(k)がそれぞれ生成される。
[2.3.4.第1の入力選択部の動作]
次に、図32を参照して、本実施形態に係る第1の入力選択部101の動作(図29の第1の入力選択処理S38)について説明する。図32は、本実施形態に係る第1の入力選択部101の動作を示すフローチャートである。なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。
図32に示すように、まず、第1の入力選択部101は、M個の周波数変換部100から出力されたM個の入力音声スペクトルX(k)、X(k)、・・・、X(k)を取得する(S220)。さらに、第1の入力選択部101は、N個の第2の合成部122−1〜Nから出力されたN個の合成音声スペクトルY(k)、Y(k)、・・・、Y(k)を取得する(S222)。
次いで、第1の入力選択部101は、保持部105からp個のIDを含むID系列を取得する(S224)。保持部105(図14参照)には、各チャンネルの合成音声信号を合成するために必要なマイクロホンMの識別情報(ID)と、合成音声スペクトルYの識別情報(ID)とを含むID系列が保持されている。これらID系列は、開発者により、サラウンド再生環境のチャンネルごとに、マイクロホンM、M、・・・Mの配置に応じて予め設定されている。第1の入力選択部101は、当該ID系列により、次のS226で選択すべき入力音声スペクトルX(k)と合成音声スペクトルY(k)とを判断できる。
さらに、第1の入力選択部101は、S224で取得したID系列に基づいて、M個の入力音声スペクトルX(k)、X(k)、・・・、X(k)の中から、第1の合成部102による合成対象の入力音声スペクトルX(k)を選択する(S226)。また、第1の入力選択部101は、S224で取得したID系列に基づいて、N個の合成音声スペクトルY(k)、Y(k)、・・・、Y(k)の中から、第1の合成部102による合成対象の合成音声スペクトルY(k)を選択する(S226)。ここで、選択されるX(k)、Y(k)は、特定チャンネルの合成音声信号を合成するために必要な音声スペクトルである。選択されるX(k)は、上記S224で取得したIDに対応するマイクロホンMから出力された入力音声スペクトルであり、選択されるY(k)は、上記S224で取得したIDに対応する合成音声スペクトルY(k)である。
例えば、図5の例では、3個のマイクロホンM、M、Mが設置されており、SL方向の合成音声信号zSLを合成するためには、全てのマイクロホンM、M、Mの入力音声スペクトルX(k)、X(k)、X(k)が必要である。この場合には、ID系列には、全てのマイクロホンM、M、MのIDが記述されている。このため、S226にて、第1の入力選択部101は、全てのX(k)、X(k)、X(k)を選択する。
また、SL方向以外の非合成方向パワースペクトルPelseを適切に合成するためには、L、S、SR方向の合成音声スペクトルY(k)、Y(k)、YSR(k)が必要である。この場合には、ID系列には、当該Y(k)、Y(k)、YSR(k)のIDが記述されている。このため、S226にて、第1の入力選択部101は、Y(k)、Y(k)、YSL(k)、YSR(k)の中から、Y(k)、Y(k)、YSR(k)を選択する。
その後、第1の入力選択部101は、S226で選択したm個の入力音声スペクトルX(k)とn個の合成音声スペクトルY(k)を、後段の第1の合成部102に出力する(S228)。ここで、m+n=pであり、上記p個のIDで特定される音声スペクトルとして、m個をXから、n個をYから選択することになる。
[2.3.5.第1の合成部の動作]
次に、図33を参照して、本実施形態に係る第1の合成部102の動作(図29の第1の合成処理S40)について説明する。図33は、本実施形態に係る第1の合成部102の動作を示すフローチャートである。なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。
図33に示すように、まず、第1の合成部102は、合成対象の音声スペクトルとして、上記第1の入力選択部101により選択された複数の入力音声スペクトルX(k)を取得する(S230)。次いで、第1の合成部102は、S230で取得した入力音声スペクトルX(k)のパワースペクトルPXiをそれぞれ計算する(S232)。
さらに、第1の合成部102は、第1の保持部107から、全方向パワースペクトルPXallを求めるために各パワースペクトルPXiに乗算する重み付け係数gを取得する(S234)。その後、第1の合成部102は、S234で取得した重み付け係数gを用いて、S232で計算したパワースペクトルPXiを重み付け加算することにより、全方向パワースペクトルPXallを計算する(S236)。以上のS230〜S236は、第1の実施形態に係る図19のS110〜S16と同様であるので、詳細説明は省略する。
次いで、第1の合成部102は、合成対象の音声スペクトルとして、上記第1の入力選択部101により選択された複数の合成音声スペクトルY(k)を取得する(S238)。例えば、図5のマイクロホン配置の場合、合成対象の入力音声スペクトルY(k)は、L、R、SR方向の合成音声スペクトルY(k)、Y(k)、YSR(k)である。
次いで、第1の合成部102は、S238で取得した合成音声スペクトルY(k)のパワースペクトルPYjをそれぞれ計算する(S240)。Yは複素スペクトルであるので(Y=a+j・b)、このYからPを計算することができる(P=a+b)。例えば、図5のマイクロホン配置の場合、パワースペクトルPYL、PYR、PYSRが計算される。
次いで、第1の合成部102は、第2の保持部109から、非合成方向パワースペクトルPYelseを求めるために各パワースペクトルPYjに乗算する重み付け係数fを取得する(S242)。第2の保持部109は、合成対象の特定チャンネルごとに、マイクロホン配置に応じた重み付け係数fを保持している。そこで、第1の合成部102は、合成対象の特定チャンネルに対応する重み付け係数fを、第2の保持部109から読み出す。
さらに、第1の合成部102は、S242で取得した重み付け係数fを用いて、S240で計算したパワースペクトルPYjを重み付け加算することにより、非合成方向パワースペクトルPYelseを計算する(S244)。例えば、図5のマイクロホン配置の場合、以下の式(24)で、SL方向以外の非合成方向パワースペクトルPYelseが計算される(図7参照。)。
Yelse=f・PY1+f・PY2+f・PY3 ・・・(24)
その後、第1の合成部102は、S236で求めた全方向パワースペクトルPXallから、S244で求めた非合成方向パワースペクトルPXelseを減算する(S246)。この減算処理により、合成対象の特定チャンネル(合成方向)のパワースペクトルPzが得られる(Pz=PXall−PYelse)。例えば、図5のマイクロホン配置の場合、Pzとして、SL方向のパワースペクトルPSLが計算される(図8参照。)。
さらに、第1の合成部102は、S246で求めた合成対象の特定チャンネル(合成方向)のパワースペクトルPzから、当該特定チャンネルの複素スペクトルZ(k)を復元する(S248)。この復元処理は、第1の実施形態で説明した通りである(図19のS124を参照。)。
[2.4.効果]
以上、第2の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第2の実施形態によれば、上記第1の実施形態の効果に加え、次の効果を得ることができる。
第2の実施形態によれば、既存のマイクロホンアレイ信号処理技術を利用して、上記第1の実施形態に係るパワースペクトル領域での指向性合成処理の精度を向上できる。
即ち、前述したように400Hzなどの低周波数帯域の音は回析するため、マイクロホンMの入力特性に偏りが発生しなくなり、当該入力特性が全方向θで揃ってしまう。この場合には、入力音声スペクトルXをパワースペクトル領域で合成する方法だけでは、求めたい合成方向の非合成方向パワースペクトルPYelseを精度よく生成することが難しい。
そこで、第2の実施形態では、上記第1の実施形態と同様にマイクロホンMからの入力音声スペクトルXから全方向パワースペクトルPXallを合成するとともに、既存のマイクロホンアレイ信号処理技術により複素スペクトル領域で合成した合成音声スペクトルYから非合成方向パワースペクトルPYelseを生成する。マイクロホンMの入力特性が全方向θで揃っている場合には、複素スペクトルを合成することで、所望の合成方向以外の方向(例えば、SL方向以外のL、R、SR方向)の合成音声スペクトルYを適切に求めることができる。従って、これら合成音声スペクトルYを重み付け加算することで、所望の合成方向以外の非合成方向パワースペクトルPYelseを高精度で生成できる。
従って、中・高周波数帯域のみならず、低周波数帯域の入力音声に対しても、所望の合成方向の合成音声スペクトルZを高精度で求めることができる。よって、より広い周波数帯域において良好な指向性合成が可能になるという効果がある。
<3.第3の実施の形態>
次に、本開示の第3の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第3の実施形態は、周波数帯域に応じて、上記第1の指向性合成部112と第2の指向性合成部120を使い分けることで、周波数ごとに簡易かつ適切な指向性合成結果を得ることを特徴としている。第3の実施形態のその他の機能構成は、上記第2の実施形態と実質的に同一であるので、その詳細説明は省略する。
[3.1.第3の実施形態の概要]
まず、第3の実施形態に係る音声信号処理装置及び方法の概要について説明する。
前述した第2の実施形態では、第2の指向性合成部120は、あくまで第1の指向性合成部112によるパワースペクトル領域での指向性合成のための補助情報として、合成音声スペクトルYを算出していた。
しかし、所定周波数未満の低周波数帯域(400Hzなど)の入力音声信号を合成する場合、第2の指向性合成部120による合成結果(複素スペクトル領域での合成された合成音声スペクトルY)のみを利用しても、目的の指向性を有する合成音声を簡易かつ良好に生成可能である。前述のとおり、低周波数帯域の音に対するマイクロホンMの入力特性は偏りが生じないので(図20参照。)、第2の指向性合成部120による複素スペクトル領域での指向性合成により、各チャンネルの方向の指向性を有する合成音声スペクトルYを良好に合成できる。
一方、所定周波数以上の中・高周波数帯域(1000Hz、2500Hzなど)の入力音声信号を合成する場合、マイクロホンMの入力特性は偏りが生じる。(図20参照。)。このため、第2の指向性合成部120による指向性合成では、良好な合成音声スペクトルYを合成するのは困難であり、第1の指向性合成部112によるパワースペクトル領域での指向性合成を行うことが好ましい。
そこで、本実施形態では、入力音声信号の周波数帯域に応じて、上記第1の指向性合成方法と第2の指向性合成方法を使い分けることを特徴としている。つまり、基準周波数(例えば1000Hz)未満の低周波数帯域の音声成分を合成する場合には、第2の指向性合成部120により複素スペクトル領域で合成された合成音声スペクトルYを選択して出力する。一方、基準周波数(例えば1000Hz)以上の中・高周波数帯域の音声成分を合成する場合には、第1の指向性合成部112によりパワースペクトル領域で合成された合成音声スペクトルZを選択して出力する。これにより、周波数帯域ごとに簡易かつ適切な指向性合成結果を得ることができる。以下に、上記のような指向性合成を実現するための第3の実施形態に係る音声信号処理装置及び方法について述べる。
[3.2.音声信号処理装置の機能構成]
次に、図34を参照して、第3の実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図34は、第3の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図34に示すように、第3の実施形態に係る音声信号処理装置は、M個のマイクロホンM、M、・・・Mと、M個の周波数変換部100と、第1の入力選択部101と、第1の合成部102と、時間変換部103と、N個の第2の入力選択部121−1〜Nと、N個の第2の合成部122−1〜Nと、出力選択部130とを備える。なお、Mはマイクロホンの設置数、Nはサラウンド再生環境のチャンネル数である。
図34から分かるように、第3の実施形態に係る音声信号処理装置は、上記第2の実施形態に係る音声信号処理装置(図22参照。)の構成要素に加えて、出力選択部130を更に備える。また、第2の指向性合成部120の各々の第2の合成部122−1〜Nによって生成された合成音声スペクトルY(k)、Y(k)、・・・、Y(k)は、第1の入力選択部101のみならず、出力選択部130にも出力される。さらに、第1の指向性合成部112の第1の合成部102によって生成された合成音声スペクトルZ(k)は、出力選択部130に出力される。
出力選択部130は、合成音声スペクトルの周波数帯域に応じて、各チャンネルの合成方向の指向性を有する合成音声スペクトルZ’(k)として、第1の指向性合成部112による合成結果(合成音声スペクトルZ(k))、又は第2の指向性合成部120による合成結果(合成音声スペクトルY(k))のいずれか一方を選択して出力する。出力選択部130から出力された合成音声スペクトルZ’(k)は、時間変換部103に出力されて、各チャンネルの指向性を有する合成音声信号z(k)に時間変換される。
より詳細には、出力選択部130は、基準周波数未満(例えば1000Hz未満)の低周波数帯域については、合成音声スペクトルZ’(k)として、第2の合成部122により生成された合成音声スペクトルY(k)のみを選択して出力する。一方、前記所定周波数以上(例えば1000Hz以上)の高周波数帯域については、出力選択部130は、筐体4に対するマイクロホンMの配置に基づいて、合成音声スペクトルZ’(k)として、第1の合成部102により生成された合成音声スペクトルZ(k)、又は第2の合成部122により生成された合成音声スペクトルY(k)のいずれかを選択して出力する。
ここで、図35を参照して、本実施形態に係る出力選択部130の構成を詳述する。図35は、本実施形態に係る出力選択部130の構成を示すブロック図である。図35に示すように、出力選択部130は、選択部131と、保持部132を備える。
保持部132は、サラウンド再生環境の各チャンネル(例えば、C、L、R、SL、SR等)の識別情報(チャンネルID)と、合成音声信号の周波数帯域を表す識別情報(周波数帯域ID)と、選択すべき指向性合成方法の識別情報(合成方法ID)とを、関連づけて保持している。
ここで、周波数帯域IDは、上記基準周波数未満の低周波数帯域(例えば、周波数帯域ID=b1)と、上記基準周波数以上の中・高周波数帯域(例えば、周波数帯域ID=b2)のいずれかを表す。また、合成方法IDは、上記第1の指向性合成部112によるパワースペクトル領域での指向性合成方法(例えば、合成方法ID=m1)と、上記第2の指向性合成部120による複素スペクトル領域での指向性合成方法(例えば、合成方法ID=m2)のいずれかを表す。合成方法IDは、筐体4に対するマイクロホンMの配置に応じて、サラウンド再生環境のチャンネルごと及び周波数帯域ごとに、予め開発者により決定され、当該決定された合成方法IDが保持部132に保持される。
選択部131には、第1の合成部102から、第1の指向性合成方法により合成された各チャンネルの音声スペクトルZが入力されるとともに、第2の合成部122から、第2の指向性合成方法により合成された各チャンネルの音声スペクトルYが入力される。選択部131は、上記保持部132に保持されているID系列に基づいて、サラウンド再生環境のチャンネルごと、及び周波数帯域ごとに、最終的に出力する合成音声スペクトルZ’として、音声スペクトルZ又は音声スペクトルYのいずれか一方を選択して、時間変換部103に出力する。
この際、選択部131は、合成音声信号の周波数帯域に応じて、第1の合成部102により合成された合成音声スペクトルZ又は第2の合成部122により合成された合成音声スペクトルYを選択する。例えば、低周波数帯域の音声成分を合成する場合(例えば、周波数帯域ID=b1)、選択部131は、全てのチャンネル(例えば、チャンネルID=C、L、R、SL、SR)に関し、合成音声スペクトルYを選択する(例えば、合成方法ID=m2)。一方、中・高周波数帯域の音声成分を合成する場合(例えば、周波数帯域ID=b2)、選択部131は、チャンネルごとに設定された合成方法IDに基づいて、第1の合成部102により合成された合成音声スペクトルZ又は上記合成音声スペクトルYのうちいずれか一方を選択する。例えば、Lチャンネルに対して合成方法ID=m2が設定されている場合には、第2の合成部122からのYが選択され、SLチャンネルに対して合成方法ID=m1が設定されている場合には、第1の合成部102からのZが選択される。
以上、出力選択部130の機能構成を詳述した。以上説明した点を除いては、第3の実施形態に係る周波数変換部100、第1の入力選択部101、第1の合成部102、時間変換部103、第2の入力選択部121、第2の合成部122の機能構成は、第2の実施形態と同様であるので、詳細説明は省略する。
次に、上述した第3の実施形態に係る音声信号処理装置を、図36Aに示すマイクロホン配置のデジタルカメラ1に適用して、図36Bに示す5.1chのサラウンド再生環境を実現する例について説明する。
この例では、図36Aに示すように、デジタルカメラ1の前面に2つのマイクロホンM、M、背面の1つのマイクロホンMが配置されている。また、図36Bに示すように、サラウンド再生環境では、ユーザの周囲に5つのチャンネルC、L、R、SL、SRのスピーカが配置されている。ここでは、上記3つのマイクロホンM、M、Mを利用して、5.1chのサラウンド録音を実現することを目的とする。
前述したように、音の到来方向とマイクロホンMの間に筐体4などの障害物が存在すると、到来する音の周波数が大きくなるにつれて、筐体4を挟んで反対の方向から到来する音声成分は、かなり減衰してマイクロホンMに入力される。つまり、筐体4の背面側から到来する音は、かなり減衰して前面マイクロホンM、Mに入力されることとなる。
この場合、中・高周波数帯域(例えば、1000Hz以上)については、主として背面側のマイクロホンのみを用いて、SL、SR方向の指向性を有する音声を合成する必要がある。しかし、図36Aの例では、筐体4の背面側に1つのマイクロホンMしか存在しないため、従来の合成技術では、SL、SR方向という左右二つの合成音声を適切に合成することは困難であった。そこで、第3の実施形態では、SL、SR方向については、第1の指向性合成部112を利用して、パワースペクトル領域で指向性合成を行う。
一方、前面側のL、C、R方向については、主として前面側から到来する音声成分を取得することが大切であり、2つの前面マイクロホンM、Mのみを利用して、L、C、R方向の合成音声を十分に合成可能である。従って、第3の実施形態では、第1の指向性合成部112を利用せずに、第2の指向性合成部120による既存のマイクロホンアレイ技術を用いて、L、C、R方向の合成音声を簡易に合成する。
また、低周波数帯域(前述の400Hzなど)では、全てのマイクロホンM、M、Mの入力特性が揃ってくる(図20参照。)。そこで、第3の実施形態では、C、L、R、SL、SR方向の全ての合成音声スペクトルYを、第2の指向性合成部120により合成することができる。
なお、低周波数帯域については、第2の実施形態のように、第2の指向性合成部120による合成結果(合成音声スペクトルY)と、マイクロホンMからの入力音声スペクトルXの双方を利用して、第1の指向性合成部112による合成する方法で、C、L、R、SL、SR方向の合成音声を生成することもできる。第2の実施形態に係る合成方法、又は第3の実施形態に係る合成方法のいずれを採用するかは、マイクロホン配置等に応じて、適切に選択すればよい。
次に、図37を参照して、第3の実施形態に係る音声信号処理装置による指向性合成機能の具体例について説明する。図37は、第3の実施形態に係る音声信号処理装置の指向性合成機能の具体例を示すブロック図である。
図37は、図36Aに示したマイクロホン配置において、図36Bに示した5チャンネル(C、L、R、SL、SR)の指向性合成を行うための構成例を示している。図34に示した基本構成では、周波数成分kごとに各機能部を具備する構成を示したが、図37に示す構成例では、低周波数帯域と中・高周波数帯域の2つに分けて、各機能部を示している。なお、図37では、周波数帯域を2つに区分し、合成音声スペクトルY又はZのいずれが選択されているかが明示されているため、図34に示した出力選択部130を省略して図示してある。
この図37の構成例では、第1の指向性合成部112(第1の入力選択部101と第1の合成部102)は、中・高周波数帯域の信号処理のみで機能する。これに対し、第2の指向性合成部120(第2の入力選択部121と第2の合成部122)は、低周波数帯域及び中・高周波数帯域の双方の信号処理で機能する。即ち、音の到来方向θによってマイクロホンM、M、Mの入力特性に偏りが生じない低周波数帯域(例えば1000Hz未満)においては、第2の指向性合成部のみで指向性合成を行う。また、マイクロホンM、M、Mの入力特性に偏りが生じる中・高周波数帯域(例えば1000Hz未満)においては、第2の指向性合成部のみで指向性合成を行う。
上述したように、図36に示したマイクロホン配置の場合、低周波数帯域の音声成分については、第2の指向性合成部120のみにより、複素スペクトル領域でC、L、R、SL、SR方向の合成音声を好適に生成できる。一方、中・高周波数帯域の音声成分については、第2の指向性合成部120により、SL、SR方向の合成音声を好適に生成できないので、第1の指向性合成部112により、パワースペクトル領域でSL、SR方向の合成音声を合成する必要がある。
そこで、第3の実施形態では、図37に示すように、低周波数帯域の音声成分については、第2の指向性合成部120のみを利用して、全てのチャンネルC、L、R、SL、SRの指向性合成を行う。
詳細には、まず、周波数変換部100によりマイクロホンM、M、Mの入力音声信号x、x、xを入力音声スペクトルX、X、Xに周波数変換し、第2の入力選択部121C〜121SRに出力する。次いで、第2の入力選択部121C〜121SR及び第2の合成部122C〜122SRにより、X、X、Xを複素スペクトル領域で合成して、C、L、R、SL、SR方向の合成音声スペクトルY、Y、Y、YSL、YSRをそれぞれ生成する。そして、当該合成音声スペクトルY、Y、Y、YSL、YSRが、時間変換部103C〜103SRにそれぞれ出力され、時間領域の合成音声信号z、z、z、zSL、zSRに変換されて、最終合成結果として記録媒体40に記録される。
一方、中・高周波数帯域の音声成分については、第2の指向性合成部120のみを利用して、前面側のチャンネルC、L、Rの指向性合成を行うとともに、第1の指向性合成部112及び第2の指向性合成部120を利用して、背面側のチャンネルSL、SRの指向性合成を行う。
詳細には、まず、周波数変換部100によりマイクロホンM、M、Mの入力音声信号x、x、xを入力音声スペクトルX、X、Xに周波数変換し、第2の入力選択部121C〜121SRと第1の入力選択部101SL、101SRに出力する。次いで、第2の入力選択部121C、121L、121R及び第2の合成部122C、122L、122Rにより、X、X、XのうちX、Xを複素スペクトル領域で合成して、C、L、R方向の合成音声スペクトルY、Y、Yをそれぞれ生成する。そして、当該Y、Y、Yは、時間変換部103C、103L、103Rのみならず、第1の入力選択部101SL、101SRにも出力される。
また、第1の入力選択部101SL、101SR及び第1の合成部102SL、102SRにより、X、X、XとY、Y、Yをパワースペクトル領域で合成して、SL、SR方向の合成音声スペクトルZSL、ZSRをそれぞれ生成する。この際、X、X、Xから全方向パワースペクトルPXallが生成され、Y、Y、Yから非合成方向パワースペクトルPYelseが生成され、PXallとPYelseの差分から、ZSL、ZSRが生成される。
ここで、上記の例において、周波数帯域に応じて第2の入力選択部121と第1の入力選択部101が選択する信号をまとめると以下の通りである。
第2の入力選択部121C、121L、121Rは、低周波数帯域については、全てのマイクロホンM、M、Mからの入力音声スペクトルX、X、Xを選択し、中・高周波数帯域については、前面側のマイクロホンM、Mからの入力音声スペクトルX、Xのみを選択する。また、第2の入力選択部121SL、121SRは、低周波数帯域については、全てのマイクロホンM、M、Mからの入力音声スペクトルX、X、Xを選択し、中・高周波数帯域については、動作しない。
一方、第1の入力選択部101SLは、低周波数帯域については、動作せず、中・高周波数帯域については、全てのマイクロホンM、M、Mからの入力音声スペクトルX、X、Xと、第2の合成部122C、122Rから出力された入力音声スペクトルY、Yを選択する。また、第1の入力選択部101SRは、低周波数帯域については、動作せず、中・高周波数帯域については、全てのマイクロホンM、M、Mからの入力音声スペクトルX、X、Xと、第2の合成部122C、122Lから出力された入力音声スペクトルY、Yを選択する。
その後、上記第2の合成部122C、122L、122Rにより生成された合成音声スペクトルY、Y、Yと、第1の合成部102SL、102SRにより生成されたZSL、ZSRが、時間変換部103C〜103SRにそれぞれ出力され、時間領域の合成音声信号z、z、z、zSL、zSRに変換されて、最終合成結果として記録媒体40に記録される。
以上のように、第3の実施形態では、入力音声の周波数帯域に応じて、第1の指向性合成部112と第2の指向性合成部120の動作を切り替える。これにより、簡易かつ適切に5チャンネルの指向性合成を行うことができる。
ここで、上記図37の構成例による中・高周波数領域(4000Hz)における指向性合成の具体例について説明する。
図38は、マイクロホンM、M、Mから入力された入力音声スペクトルX、X、Xの特性を示す。図38に示すように、X、Xは前面方向(θ=0°)の指向性を有し、Xは前面方向(θ=180°)の指向性を有している。しかし、X、X、Xのいずれも、左右方向(θ=90°、270°)の指向性を有していないので、この状態のX、X、XのからSL、SR方向の指向性を有する合成音声を生成することは困難である。
図39は、本実施形態に係る第2の合成部122により入力音声スペクトルX、Xを合成して得られた合成音声スペクトルY、Y、Yの特性を示す。図39に示すように、前面側(θ=0°)に指向性を有する2つの入力音声スペクトルX、Xのみを利用することで、前面側のC、L、Rという3つの方向の指向性を有する合成音声スペクトルY、Y、Yを生成することが可能である。
図40は、X、X、Xを合成して得られた全方向パワースペクトルPXallと、第1の合成部102により合成された合成音声スペクトルZSL、ZSRの特性を示す。図40に示すように、第1の合成部102により前面及び背面方向の指向性を有する3つの入力音声スペクトルX、X、Xを合成することで、全方向パワースペクトルPXallを生成できる。さらに、第2の合成部122により生成されたC、L、R方向の合成音声スペクトルY、Y、Yに適切な係数wを乗算した値(非合成方向パワースペクトルPSLelse、PSRelse)を求め、上記PXallから、PSLelse、PSRelseを減算することで、Sl方向、SR方向の指向性を有する合成音声スペクトルZSL、ZSRを生成することが可能である。
以上のように、中・高周波数領域(4000Hz)においても、第2の合成部122による指向性合成と第1の合成部102による指向性合成を併用することで、5チャンネルC、L、R、SL、SRの指向性を有する合成音声スペクトルY、Y、Y、ZSL、ZSRを良好に生成できる。
[3.3.音声信号処理方法]
次に、第3の実施形態に係る音声信号処理装置による音声信号処理方法(指向性合成方法)について説明する。
[3.3.1.音声信号処理装置の全体動作]
まず、図41を参照して、本実施形態に係る音声信号処理装置の全体動作について説明する。図41は、本実施形態に係る音声信号処理方法を示すフローチャートである。
第3の実施形態は、第3の実施形態と比べて、周波数帯域の判定処理(S54)と第2の入力選択処理(S56)と第2の合成処理(S58)が追加されている点で相違する。
図41に示すように、まず、マイクロホンM、M、・・・Mにより、デジタルカメラ1周辺の音(外部音声)を収音し、入力音声信号x、x、・・・、xを生成する(S50)。次いで、周波数変換部100により、各マイクロホンM、M、・・・Mから入力された入力音声信号x、x、・・・、xを周波数変換(例えばFFT)し、入力音声スペクトルX、X、・・・、Xを生成する(S52)。このS50及びS52の処理は第1の実施形態の図17のS10及びS12の処理と同様である。
次いで、不図示の周波数帯域判定部により、現在入力されている入力音声スペクトルXの周波数成分kが、低周波数帯域であるか、中・高周波数帯域であるかを判定する(S54)。低周波数帯域は、所定の基準周波数(例えば1000Hz)未満の周波数帯域であり、中・高周波数帯域は、当該基準周波数以上の周波数帯域である。この基準周波数は、マイクロホンM配置や入力特性などに応じて適宜設定される。このS54にて、低周波数帯域であると判定された場合、S56及びS58の処理が行われ、中・高周波数帯域であると判定された場合、S60〜S66の処理が行われる。
上記S54にて低周波数帯域であると判定された場合には、第2の指向性合成部120による指向性合成処理のみが行われる(S56、S58)。
具体的には、まず、第2の入力選択部121により、S52で得られた入力音声スペクトルX、X、・・・、Xから、サラウンド再生環境の各チャンネルを合成するために必要な複数の入力音声スペクトルXをそれぞれ選択する(S56)。さらに、第2の合成部122により、S56で選択された入力音声スペクトルXを合成することで、各チャンネルの合成音声スペクトルY、Y、・・・、Yをそれぞれ生成する(S58)。この合成処理は、入力音声スペクトルX(k)の周波数成分k(k=0、1、・・・、L−1)ごとに行われる。
S58の後に、時間変換部103により、S58で合成された合成音声スペクトルY、Y、・・・、Yを、時間変換(例えば逆FFT)して、時間領域の合成音声信号z(n)、z(n)、・・・、z(n)に変換する(S68)。さらに、デジタルカメラ1の制御部70により、当該合成音声信号z(n)が記録媒体40に記録される(S70)。
一方、上記S54にて中・高周波数帯域であると判定された場合には、第2の指向性合成部120による指向性合成処理(S60、S62)と、第1の指向性合成部112による指向性合成処理(S64、S66)が行われる。
具体的には、まず、第2の入力選択部121により、S52で得られた入力音声スペクトルX、X、・・・、Xから、サラウンド再生環境の各チャンネルを合成するために必要な複数の入力音声スペクトルXをそれぞれ選択する(S60)。さらに、第2の合成部122により、S60で選択された入力音声スペクトルXを合成することで、各チャンネルの合成音声スペクトルY、Y、・・・、Yをそれぞれ生成する(S62)。この合成処理は、入力音声スペクトルX(k)の周波数成分k(k=0、1、・・・、L−1)ごとに行われる。
次いで、第1の入力選択部101により、S52で得られた入力音声スペクトルX、X、・・・、Xから、全方向パワースペクトルPXallを合成するために必要な複数の入力音声スペクトルXを選択する(S64)。さらに、第1の入力選択部101により、S62で得られた合成音声スペクトルY、Y、・・・、Yから、特定チャンネル方向以外の非合成方向パワースペクトルPYelseを合成するために必要な複数の入力音声スペクトルYを選択する(S64)。
さらに、第1の合成部102により、S66で選択された入力音声スペクトルX及び合成音声スペクトルYを合成することで、特定チャンネルの合成音声スペクトルZ(k)を生成する(S66)。この際、入力音声スペクトルXから全方向パワースペクトルPXallを合成し、合成音声スペクトルYから特定チャンネル方向以外の非合成方向パワースペクトルPYelseを合成し、PXallとPYelseの差分を計算する。かかる合成処理も、入力音声スペクトルX(k)及び合成音声スペクトルY(k)の周波数成分k(k=0、1、・・・、L−1)ごとに行われる。
その後、時間変換部103により、S66で合成された特定チャンネル(例えば、SL、SR)の合成音声スペクトルZ(k)と、S62で合成された特定チャンネル以外のチャンネル(例えば、C、L、R)の合成音声スペクトルY(k)を時間変換(例えば逆FFT)して、時間領域の合成音声信号z(n)を生成する(S68)。さらに、デジタルカメラ1の制御部70により、当該合成音声信号z(n)が記録媒体40に記録される(S70)。この際、上記特定チャンネルの合成音声信号z(n)とともに、他のチャンネルの合成音声信号z(n)や動画像も記録媒体40に記録されてもよい。
[3.3.2.第1の合成部の動作]
次に、図42を参照して、図37に示した構成例に係るSLチャンネル用の第1の合成部102SLの動作(図41の第1の合成処理S66)について詳述する。図42は、本実施形態に係るSLチャンネル用の第1の合成部102SLの動作を示すフローチャートである。
なお、以下では、入力音声スペクトルXのk番目の周波数成分x(k)について説明するが、周波数成分は、k=0、1、・・・、L−1まで存在し、すべて同様の処理となる。また、第2の合成部122SLと第2の合成部122SRは、参照データが異なるのみで、動作は実質的に同一である。このため、以下では、第2の合成部122SLの動作のみを述べるが、第2の合成部122SRの動作も同様である。
図42に示すように、まず、第1の合成部102SLは、第1の入力選択部101SLから、合成対象の音声スペクトルとして選択された複数の入力音声スペクトルX(k)、X(k)、X(k)を取得する(S300)。さらに、第1の合成部102SLは、第1の入力選択部101SLから、合成対象の音声スペクトルとして選択された複数の合成音声スペクトルY(k)、Y(k)を取得する(S302)。
次いで、第1の合成部102SLは、S300で取得した入力音声スペクトルX(k)、X(k)、X(k)のパワースペクトルPX1、X2、X3をそれぞれ計算する(S304)。
さらに、第1の合成部102SLは、第1の保持部107から、全方向パワースペクトルPXallを求めるために各パワースペクトルg、g、gに乗算する重み付け係数g、g、gを取得する(S306)。その後、第1の合成部102SLは、S306で取得した重み付け係数g、g、gを用いて、S304で計算したパワースペクトルPX1、X2、X3を重み付け加算することにより、全方向パワースペクトルPXallを計算する(S308)。
次いで、第1の合成部102SLは、S302で取得した合成音声スペクトルY(k)、Y(k)のパワースペクトルPYC、PYRをそれぞれ計算する(S310)。Yは複素スペクトルであるので(Y=a+j・b)、このYからPを計算することができる(P=a+b)。
その後、第1の合成部102SLは、第2の保持部109から、非合成方向パワースペクトルPYelseを求めるために各パワースペクトルPYC、PYRに乗算する重み付け係数f、fを取得する(S312)。
さらに、第1の合成部102SLは、S312で取得した重み付け係数f、fを用いて、S310で計算したパワースペクトルPYC、PYRを重み付け加算することにより、非合成方向パワースペクトルPYelseを計算する(S314)。
その後、第1の合成部102SLは、S308で求めた全方向パワースペクトルPXallから、S314で求めた非合成方向パワースペクトルPXelseを減算する(S316)。この減算処理により、SL方向のパワースペクトルPSLが得られる(PSL=PXall−PYelse)。
さらに、第1の合成部102SLは、S316で求めたSL方向のパワースペクトルPSLから、当該SL方向の複素スペクトルZSL(k)を復元する(S318)。この復元処理は、第1の実施形態で説明した通りである(図19のS124を参照。)。
以上、図42を参照して、第3の実施形態に係る第1の合成部102の動作について説明した。なお、第3の実施形態に係る第2の入力選択部121、第2の合成部122、第1の入力選択部101の動作は、前述の第2の実施形態と同様であるので、詳細説明は省略する(図30、図31、図32参照。)。
[3.4.具体例]
次に、第3の実施形態に係る音声信号処理装置をビデオカメラ7に適用するときのマイクロホンMの配置の具体例について説明する。
ここでは、図43に示すマイクロホン配置のビデオカメラ7でサラウンド録音し、図44に示すサラウンド再生環境を実現する例について説明する。図43は、3つのマイクロホンMが配置されたビデオカメラ7を示し、図44は、3次元的なサラウンド再生環境を示す。
図43に示すように、ビデオカメラ7の前面4cの下部における左右両側に2つのマイクロホンM、Mが配置され、ビデオカメラ7の上面4aの中央に1つのマイクロホンMが配置されている。ビデオカメラ7のレンズ8の向きと、マイクロホンM、Mの向きは共に前方である。また、図44に示すサラウンド再生環境では、ユーザの前方方向に対して、左前(L)、中央前(C)、右前(R)、左前上方(FHL:Front High Left)、右前上方(FHR:Front High Right)に配置される5チャンネルのスピーカが設置されている。
この場合、マイクロホンMの入力特性に差が生じない低周波数帯域(例えば1000Hz未満)の音声成分については、3つのマイクロホンM、M、Mの入力音声スペクトルX、X、Xを利用して、C、L、R、FHL、FHRの5チャンネルの合成音声信号z、z、z、zFHL、zFHRを合成できる。
しかし、中・高周波数帯域(例えば1000Hz以上)の音声成分については、マイクロホンM、MとマイクロホンMは、設置面が異なるため、徐々に入力特性に差が生じる。このため、入力音声スペクトルX、X、Xを複素スペクトル領域で合成する従来技術では、良好な指向性を有する合成音声信号zを生成することができない。
そこで、中・高周波数帯域の音声成分については、入力特性がある程度一致する2つのマイクロホンM、Mの入力音声スペクトルX、Xを複素スペクトル領域で合成(第2の指向性合成)することで、C、L、R方向の指向性を有する合成音声信号z、z、zを生成する。一方、FHL、FHR方向の指向性を有する合成音声信号zFHL、zFHRについては、パワースペクトル領域での合成(第1の指向性合成)を利用する。以下に、中・高周波数帯域における指向性合成の手順について説明する。
まず、図45に示すように、第2の指向性合成部120により、2つの前面マイクロホンM、Mの入力音声スペクトルX、Xを重み付け加算することで、C、L、R方向の指向性を有する合成音声スペクトルY、Y、Yを生成する。
次いで、FHL方向の合成音声スペクトルZFHLを合成する。FHL方向の合成音声スペクトルZFHLを合成するためには、全方向パワースペクトルPallから、C、R方向の音声成分を除けばよい。
具体的には、まず、第1の指向性合成部112により、マイクロホンMの入力音声スペクトルXを利用して、全方向パワースペクトルPallを生成する。ここでは、マイクロホンM、M、Mの入力音声スペクトルX、X、XからPallを推定するのではなく、マイクロホンMの入力音声スペクトルXのみからPallを求める。次いで、第2の指向性合成部120で生成された合成音声スペクトルY、Yを利用して、FHL方向以外の非合成方向パワースペクトルPFHLalseを生成する。その後、全方向パワースペクトルPallから、非合成方向パワースペクトルPFHLalseを減算することで、FHL方向の合成音声スペクトルZFHLを合成する。
さらに、FHR方向の合成音声スペクトルZFHRを合成する。FHR方向の合成音声スペクトルZFHLを合成するためには、全方向パワースペクトルPallから、C、L方向の音声成分を除けばよい。そこで、まず、上記FHLと同様に、マイクロホンMの入力音声スペクトルXからPallを生成する。次いで、合成音声スペクトルY、Yを利用して、FHR方向以外の非合成方向パワースペクトルPFHRalseを生成する。その後、PallからPFHLalseを減算することで、FHR方向の合成音声スペクトルZFHRを合成する。
ここで、図46、図47を参照して、上記中・高周波数帯域におけるFHL方向の指向性合成の原理について説明する。図46は、上記指向性合成におけるマイクロホンMの入力特性(入力音声スペクトルXの特性)と、合成音声スペクトルY、Y、Yの特性を示す。また、図47は、合成音声スペクトルZFHLの特性を示す。
図46に示すように、マイクロホンM、Mは、ビデオカメラ7の前面下部に設置されている。従って、このマイクロホンM、Mの入力音声スペクトルX、Xから指向性合成された合成音声スペクトルY、Y、Yは、マイクロホンMの入力音声スペクトルXと比べて、上方向の音声成分を少なく含む。一方で、マイクロホンMの入力音声スペクトルXは、上方向の音声成分を多く含むが、Xから左右方向の特性を識別することができない。
従って、上記Y、Y、YとXを組み合わせることで、上方向かつ左右方向の特性を生成できる。よって、図47に示すように、左斜め上方のFHL方向の合成音声スペクトルZFHLを合成できる。
[3.5.効果]
以上、第3の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第3の実施形態によれば、上記第1及び第2の実施形態の効果に加え、次の効果を得ることができる。
第3の実施形態によれば、周波数帯域に応じて、パワースペクトル領域での第1の指向性合成と、複素スペクトル領域での第2の指向性合成を使い分ける。これにより、各々の周波数帯域で簡易かつ適切な指向性合成結果を得ることができ、合成精度が向上する。
<4.第4の実施の形態>
次に、本開示の第4の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第4の実施形態は、ユーザにより選択されたサラウンド再生環境に応じて、上記第1及び第2の指向性合成で用いる音声スペクトルX、Yと重み付け係数g、f、wを変更することを特徴としている。第4の実施形態のその他の機能構成は、上記第2、3の実施形態と実質的に同一であるので、その詳細説明は省略する。
[4.1.第4の実施形態の概要]
まず、第4の実施形態に係る音声信号処理装置及び方法の概要について説明する。
通常のサラウンド録音では、常に、サラウンド再生環境のチャンネル数を特定のチャンネル数、例えば5.1chに設定しておき、当該設定された5.1chの合成音声信号を合成して記録する。そして、2chのサラウンド再生環境で再生する場合には、5.1chの合成音声信号を2chの合成音声信号にダウンミックスして、再生している。このように、サラウンド録音のチャンネル数は、主要なサラウンド再生環境のチャンネル数に合わせて固定的であり、サラウンド録音時にチャンネル数を変更しないことが一般的であった。
ところが、近年ではサラウンド再生環境が多様化しており、チャンネル数のバリエーションも増加している。さらに、ユーザが、自身の好みに合わせて、チャンネル数やスピーカの配置を調整する場合もある。
図48は、2.1ch、3.1ch、5.1chのサラウンド再生環境を示す説明図である。図48に示すように、サラウンド再生環境のチャンネル数に応じて、スピーカの設置数や配置が異なる。このため、録音装置を用いたサラウンド録音時に、ユーザが所望するサラウンド再生環境のチャンネル数に合わせて、合成音声を生成しておくことが望ましい。例えば、図48Bに示す3.1chのサラウンド再生環境の場合には、L、R、B(Back)、LFE(Low Frequency Effect)という3チャンネル+1チャンネルの合成音声信号を生成・記録してくことが望ましい。
そこで、上記事情に鑑み、第4の実施形態では、録音装置を用いた録音時に、ユーザがサラウンド再生環境を選択できるようにする。そして、ユーザにより選択されたサラウンド再生環境に応じて、サラウンド録音のチャンネル数、つまり、記録する合成音声信号zのチャンネル数を可変とする。
ところで、上記のようにマイクロホンMの配置に依存してマイクロホンMの入力特性は変化するので、合成したい指向性の方向(合成方向)に応じて、指向性合成に利用するマイクロホンMを選択(即ち、合成対象の音声スペクトルX、Yを選択)する必要がある。上記のようにサラウンド再生環境が変われば、サラウンド録音時に生成すべき合成音声信号の数や指向性の方向も変化する。このため、選択されたサラウンド再生環境に応じて、各チャンネルの指向性合成に利用されるマイクロホンMを変更する必要がある。また、選択されるマイクロホンMの変更に伴い、指向性合成に用いる重み付け係数g、f、wも変更する必要がある。
そこで、第4の実施形態では、第1の指向性合成部112及び第2の指向性合成部120の動作を制御する制御部を設ける。この制御部は、選択されたサラウンド再生環境に応じて、第1の指向性合成部112及び第2の指向性合成部120により合成する音声スペクトルX、Yと、合成処理で用される各種の重み付け係数g、f、wを変更する。そして、第1の指向性合成部112及び第2の指向性合成部120は、制御部により設定された音声スペクトルX、Yと重み付け係数g、f、wを用いて、上述した指向性合成処理を行う。
これにより、ユーザにより選択されたサラウンド再生環境のチャンネル数に応じて、適切な合成音声信号を合成して記録することができる。以下に、上記のような指向性合成を実現するための第4の実施形態に係る音声信号処理装置及び方法について述べる。
[4.2.音声信号処理装置の機能構成]
次に、図49を参照して、第4の実施形態に係るデジタルカメラ1に適用された音声信号処理装置の機能構成例について説明する。図49は、第4の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図49に示すように、第4の実施形態に係る音声信号処理装置は、M個のマイクロホンM、M、・・・Mと、M個の周波数変換部100と、第1の入力選択部101と、第1の合成部102と、時間変換部103と、N個の第2の入力選択部121−1〜Nと、N個の第2の合成部122−1〜Nと、N個の時間変換部103−1〜Nと、制御部140とを備える。なお、Mはマイクロホンの設置数、Nはサラウンド再生環境のチャンネル数である。また、制御部140は、図12に示したデジタルカメラ1の制御部70と兼用されてもよい。
図49から分かるように、第4の実施形態に係る音声信号処理装置は、上記第2、3の実施形態に係る音声信号処理装置(図22、図34参照。)の構成要素に加えて、制御部140を更に備える。第4の実施形態では、制御部140により、ユーザにより選択されたサラウンド再生環境に応じて、第1の入力選択部101、第1の合成部102、第2の入力選択部121、第2の合成部122の動作を切り替えることを特徴としている。第4の実施形態に係るその他の機能構成は上記第2、3の実施形態と同様であるので、詳細説明は省略する。
図49に示すように、制御部140は、例えばユーザ選択に応じてサラウンド再生環境を設定し、当該サラウンド再生環境に基づいて、第1の入力選択部101、第1の合成部102、第2の入力選択部121、第2の合成部122を制御する。
本実施形態では、合成音声スペクトルZ、Z、・・・、Zの合成方向(L方向、R方向等)は、サラウンド再生環境の各チャンネルに対応している。そして、ユーザは、サラウンド再生環境のチャンネル数、即ち、サラウンド録音するチャンネル数を選択可能である。
図50は、ユーザがサラウンド再生環境を選択するためのGUI画面31を示す。図50に示すように、例えば、サラウンド録音開始時にデジタルカメラ1の表示部30にGUI画面31を表示する。GUI画面31には、選択可能なサラウンド再生環境(2.1ch、3.1ch、5.1ch)が表示されている。ユーザは、デジタルカメラ1の操作部80(ダイアル、キー、タッチパネルなど)を操作することで、GUI画面31上で所望のサラウンド再生環境を選択することができる。図示の例では、3.1chのサラウンド再生環境が選択されている。
制御部140は、サラウンド再生環境を選択するユーザ操作を受け付けると、当該ユーザにより選択されたサラウンド再生環境の各チャンネルに対応する合成音声スペクトルZを合成するように、上記の各部を制御する。
詳細には、制御部140は、第1の入力選択部101や第2の入力選択部121により選択される入力音声スペクトルX、Yや、第1の合成部102及び第2の合成部122により用いる重み付け係数g、f、w等を、サラウンド再生環境に応じて変更するように制御する。このために、制御部140は、ユーザにより選択されたサラウンド再生環境を表す識別情報(例えば、後述するs_id)を、第1の入力選択部101、第2の入力選択部121、第1の合成部102及び第2の合成部122に通知する。第1の入力選択部101、第2の入力選択部121、第1の合成部102及び第2の合成部122は、制御部140から通知されたサラウンド再生環境を表す識別情報に基づいて、上述した指向性合成の処理内容を切り替える。
具体的には、第1の入力選択部101は、複数の入力音声スペクトルXの中から、第1の合成部102による合成対象として選択する音声スペクトルXを、上記サラウンド再生環境に応じて変更する。第1の入力選択部101は、サラウンド再生環境ごとに選択するべきマイクロホンMを表すID系列(選択マイクロホンID)を保持部105(図14参照。)に保持している。第1の入力選択部101は、この選択マイクロホンIDに基づいて、サラウンド再生環境に適した全方向パワースペクトルPallや非合成方向パワースペクトルPelseを合成するために必要なマイクロホンMの入力音声スペクトルXを選択する。
また、第1の合成部102は、第1の入力選択部101により選択された複数の音声スペクトルX、YのパワースペクトルPを重み付け加算するときに用いる重み付け係数gを、上記サラウンド再生環境に応じて変更する。第1の合成部102は、サラウンド再生環境ごとに設定された重み付け係数g、fを保持部107、109(図15参照。)に保持している。第1の合成部102は、この重み付け係数g、f用いて、入力音声スペクトルXを重み付け加算して、サラウンド再生環境に適した全方向パワースペクトルPallや非合成方向パワースペクトルPelseを合成する。
また、第2の入力選択部121は、複数の入力音声スペクトルXの中から、第2の合成部122による合成対象として選択する音声スペクトルXを、上記サラウンド再生環境に応じて変更する。第2の入力選択部121は、サラウンド再生環境のチャンネルごとに選択するべきマイクロホンMを表すID系列(選択マイクロホンID)を保持部124(図23参照。)に保持している。第2の入力選択部121は、この選択マイクロホンIDに基づいて、サラウンド再生環境の各チャンネルの合成音声スペクトルYを合成するために必要なマイクロホンMの入力音声スペクトルXを選択する。
第2の合成部122は、第2の入力選択部121により選択された複数の音声スペクトルを重み付け加算するときに用いる重み付け係数wを、上記サラウンド再生環境に応じて変更する。第2の合成部122は、サラウンド再生環境ごとに設定された重み付け係数wを保持部126(図24参照。)に保持している。第2の合成部122は、この重み付け係数wを用いて、入力音声スペクトルXを重み付け加算して、サラウンド再生環境の各チャンネルの合成音声スペクトルYを合成する。
ここで、図51及び図52を参照して、サラウンド再生環境ごとに設定されるID系列及び重み付け係数g、f、wについて説明する。図51は、第2の指向性合成部120の保持部124、126が保持するID系列及び重み付け係数wを示す。
図51に示すように、第2の指向性合成部120の保持部124、126には、環境設定情報141のテーブルが保持されている。この環境設定情報141のテーブルには、サラウンド再生環境を表す識別情報s_idと、チャンネルIDと、選択マイクロホンIDと、重み付け係数wとが関連づけて記述されている。
チャンネルIDは、サラウンド再生環境の複数のチャンネルを識別するためのIDである。例えば、サラウンド再生環境が2.1chである場合、LチャンネルとRチャンネルの2つのチャンネルIDが記述される。
選択マイクロホンIDは、第2の入力選択部121により、サラウンド再生環境の各チャンネルの合成音声スペクトルYを合成するために選択されるマイクロホンのIDである。例えば、マイクロホンIDは、マイクロホンM、M、M、・・・に対して固有に付与されたマイクロホン番号1、2、3、・・・などである。
前述したように、あるチャンネルの指向性を有する合成音声スペクトルYを合成するために利用するマイクロホンMは、全体のサラウンド再生環境(例えば、2.1ch、3.1ch等)によって変化する。例えば、2.1chの再生環境におけるLchの合成音声スペクトルYを生成するために、上記マイクロホンM、M、M、・・・のうち2つのマイクロホンM、Mが選択される場合を考える。つまり、Lch用の第2の合成部122により、マイクロホンM、Mの入力音声スペクトルX、Xを複素スペクトル領域で合成することで、Lchの合成音声スペクトルYを生成する場合である。この場合、図51に示すように、2.1chにおけるLchの選択マイクロホンIDとして、マイクロホンM、MのID(マイクロホン番号=1、3)が記述される。
また、図51に示す重み付け係数wは、第2の合成部122により合成音声スペクトルYを合成するときに、上記選択マイクロホンIDにより選択されたマイクロホンMの入力音声スペクトルXに対して乗算される係数である。入力音声スペクトルXは複素スペクトルであるので、重み付け係数wも、複素数の係数である。上記第2の入力選択部121で選択されたマイクロホンMの入力音声スペクトルXに対して、どの程度の重み付けを行うかも、サラウンド再生環境によって変化する。そこで、その重み付け係数wも、サラウンド再生環境のチャンネルごとに設定される。
なお、上述したように、第2の入力選択部121、第2の合成部122は、周波数成分kごとに設けられる。よって、上記図51の環境設定情報141のテーブルに保持するデータは、ある周波数成分kのときに利用する選択マイクロホンID、重み付け係数wであり、他の周波数成分kについては、当該選択マイクロホンID、重み付け係数wのデータを変化させてもよい。
また、図51の例では、第2の指向性合成部120により2.1chのRchの指向性合成を行わないので、Rchの選択マイクロホンIDは記述されていない。第2の指向性合成部120によりRchの指向性合成も行う場合には、上記Lchと同様に、Rchの選択マイクロホンID、係数w等が設定される。また、3.1ch、5.1chの場合も、上記2.1chの場合と同様に、選択マイクロホンID、係数wが設定される。
また、図52は、第1の指向性合成部112の保持部105、107、109が保持するID系列及び重み付け係数g、fを示す。図52に示すように、第1の指向性合成部112の保持部105、107、109には、環境設定情報142のテーブルが保持されている。この環境設定情報142のテーブルには、サラウンド再生環境を表す識別情報s_idと、チャンネルIDと、Pall用の選択ID及び重み付け係数gと、Pelse用の選択ID及び重み付け係数fとが関連づけて記述されている。
all用選択IDは、第1の合成部102により全方向パワースペクトルPallを合成するために選択されるマイクロホンMのIDである。Pallを合成するために、M個のマイクロホンM、M、・・・、MのうちのいくつかのマイクロホンMが選択される。図示の例では、2.1chのサラウンド再生環境において、マイクロホンM、M、Mが選択されるようになっており、当該マイクロホンM、M、Mの入力音声スペクトルX、X、Xを合成して、全方向パワースペクトルPallが生成されることになる。
all用の重み付け係数gは、第1の合成部102により全方向パワースペクトルPallを合成するときに、上記選択IDにより選択されたマイクロホンMの入力音声スペクトルXに対して乗算される係数である。図示の例では、マイクロホンM、M、Mの入力音声スペクトルX、X、Xに対して、均等な値(=0.333・・)の係数gが乗算されることになる。
else用選択マイクロホンIDは、第1の合成部102により非合成方向パワースペクトルPelseを合成するために選択される、第2の合成部122の出力のIDである。Pelseを合成するために、N個の第2の合成部122から出力される合成音声スペクトルY、Y、・・・、Yうちのいくつかが選択される。図示の例では、2.1chのサラウンド再生環境において、選択ID=1が付与された第2の合成部122−1の合成音声スペクトルYから、非合成方向パワースペクトルPelseが生成されることになる。
else用の重み付け係数fは、第1の合成部102により非合成方向パワースペクトルPelseを合成するときに、上記選択IDにより選択された音声スペクトルX、Yに対して乗算される係数である。図示の例では、第2の合成部122−1の合成音声スペクトルYに対して、係数f(=0.7)が乗算されることになる。
なお、上述したように、第1の入力選択部101、第1の合成部102は、周波数成分kごとに設けられる。よって、上記図52の環境設定情報142のテーブルに保持するデータは、ある周波数成分kのときに利用する選択ID、重み付け係数g、fであり、他の周波数成分kについては、当該選択ID、重み付け係数wのデータを変化させてもよい。
以下では、例えば、サラウンド再生環境が2.1chであるときに、第2の合成部122―1がLチャンネルの指向性合成を行い、第1の合成部102が、Rチャンネルの指向性合成を行う例について説明する。
[4.3.音声信号処理方法]
次に、第4の実施形態に係る音声信号処理装置による音声信号処理方法(指向性合成方法)について説明する。
なお、第4の実施形態に係る音声信号処理装置の全体動作は、上記第2、第3の実施形態(図29、図41参照。)と同様であるので、全体フローの図示は省略する。ただし、第4の実施形態では、マイクロホンMによる収音処理(図29のS30、図41のS50)の開始前に、ユーザにより所望のサラウンド再生環境が選択されたときに、制御部140は、当該サラウンド再生環境を第1の指向性合成部112及び第2の指向性合成部120の各部に通知する。そして、当該各部は、サラウンド再生環境に応じて指向性合成処理(選択する音声スペクトル、重み付け係数w、g、fを切り替える。
[4.3.1.第2の入力選択部の動作]
次に、図53を参照して、本実施形態に係る第2の入力選択部121の動作について説明する。図53は、本実施形態に係る第2の入力選択部121の動作を示すフローチャートである。
図53に示すように、まず、第2の入力選択部121は、制御部140から、サラウンド再生環境を表すs_idを取得する(S400)。次いで、第2の入力選択部121は、保持部124に保持されている環境設定情報141のテーブルから、当該s_idに対応する選択マイクロホンIDのID系列を読み出す(S402)。図51及び図53に示す環境設定情報141では、サラウンド再生環境が2.1chの場合(s_id=2.1ch)、Lチャンネルの指向性合成用にマイクロホンM、Mを選択することが規定されている(選択マイクロホンID=1、3)。
次いで、第2の入力選択部121は、周波数変換部100から出力されたM個の入力音声スペクトルX、X、・・・、Xを取得する(S404)。さらに、第2の入力選択部121は、S404で取得した入力音声スペクトルX、X、・・・、Xの中から、S402で取得した選択マイクロホンIDに対応するマイクロホンM、Mの入力音声スペクトルX、Xを選択する(S406)。その後、第2の入力選択部121は、S406で選択した入力音声スペクトルX、Xを、第2の合成部122に出力する(S408)。
以上により、第2の入力選択部121は、制御部140から通知されたサラウンド再生環境に応じて、合成音声スペクトルYを合成するための入力音声スペクトルXを適切に選択する。
[4.3.2.第2の合成部の動作]
次に、図54を参照して、本実施形態に係る第2の合成部122の動作について説明する。図54は、本実施形態に係る第2の合成部122の動作を示すフローチャートである。
図54に示すように、まず、第2の合成部122は、制御部140から、サラウンド再生環境を表すs_idを取得する(S410)。次いで、第2の合成部122は、保持部126に保持されている環境設定情報141のテーブルから、当該s_idに対応する重み付け係数wを読み出す(S412)。図51及び図54に示す環境設定情報141では、サラウンド再生環境が2.1chの場合(s_id=2.1ch)、マイクロホンM、Mの入力音声スペクトルX、Xに乗算する重み付け係数w、wがそれぞれ、「0.99−0.06i」、「0.99+0.06i」であることが規定されている。
次いで、第2の合成部122は、上記第2の入力選択部121により選択されたマイクロホンM、Mの入力音声スペクトルX、Xを取得する(S414)。さらに、第2の合成部122は、S412で取得した重み付け係数w、wを用いて、S414で取得した入力音声スペクトルX、Xを重み付け加算することにより、Lチャンネルの合成音声スペクトルYを合成する(S416)。
その後、第2の合成部122は、S416の合成結果であるLチャンネルの合成音声スペクトルYを第1の入力選択部101に出力する(S418)。
以上により、第2の合成部122は、制御部140から通知されたサラウンド再生環境に応じて、適切な重み付け係数w、wを用いて、Lチャンネルの合成音声スペクトルYを合成する。
[4.3.3.第1の入力選択部の動作]
次に、図55を参照して、本実施形態に係る第1の入力選択部101の動作について説明する。図55は、本実施形態に係る第1の入力選択部101の動作を示すフローチャートである。
図55に示すように、まず、第1の入力選択部101は、制御部140から、サラウンド再生環境を表すs_idを取得する(S420)。次いで、第1の入力選択部101は、保持部105に保持されている環境設定情報142のテーブルから、当該s_idに対応する選択IDのID系列を読み出す(S422)。図52及び図55に示す環境設定情報142では、サラウンド再生環境が2.1chの場合(s_id=2.1ch)、全方向パワースペクトルPall用にマイクロホンM、M、Mを選択し(選択ID=1、2、3)、非合成方向パワースペクトルPelse用に第2の合成部122−1の出力(選択ID=1)を選択することが規定されている。
次いで、第1の入力選択部101は、周波数変換部100から出力されたM個の入力音声スペクトルX、X、・・・、Xを取得する(S424)。さらに、第1の入力選択部101は、N個の第2の合成部122−1〜Nから出力されたN個の合成音声スペクトルY、Y、・・・、Yを取得する(S426)。
次いで、第1の入力選択部101は、S424、S426で取得した入力音声スペクトルX、X、・・・、Xと、合成音声スペクトルY、Y、・・・、Yの中から、S422で取得した選択IDに対応する音声スペクトルX、X、X、Yを選択する(S428)。その後、第1の入力選択部101は、S406で選択した音声スペクトルX、X、X、Yを、第1の合成部102に出力する(S429)。
以上により、第1の入力選択部101は、制御部140から通知されたサラウンド再生環境に応じて、全方向パワースペクトルPallと非合成方向パワースペクトルPelseを合成するための音声スペクトルX、Yを適切に選択する。
[4.3.4.第1の合成部の動作]
次に、図56を参照して、本実施形態に係る第1の合成部102の動作について説明する。図56は、本実施形態に係る第1の合成部102の動作を示すフローチャートである。
図56に示すように、まず、第1の合成部102は、制御部140から、サラウンド再生環境を表すs_idを取得する(S430)。次いで、第1の合成部102は、保持部107、109に保持されている環境設定情報142のテーブルから、当該s_idに対応する重み付け係数gi、fiを読み出す(S432)。図52及び図56に示す環境設定情報142では、サラウンド再生環境が2.1chの場合(s_id=2.1ch)、入力音声スペクトルX、X、XのパワースペクトルPX1、PX2、PX3に乗算する重み付け係数g、g、gと、合成音声スペクトルYのパワースペクトルPY1に乗算する重み付け係数fが規定されている。
次いで、第1の合成部102は、上記第1の入力選択部101により選択されたマイクロホンM、M、Mの入力音声スペクトルX、X、Xを取得する(S434)。さらに、第1の合成部102は、入力音声スペクトルX、X、XのパワースペクトルPX1、PX2、PX3をそれぞれ計算する(S436)。その後、第1の合成部102は、S432で取得した重み付け係数g、g、gを用いて、パワースペクトルPX1、PX2、PX3を重み付け加算することにより、全方向パワースペクトルPXallを計算する(S438)。
さらに、第1の合成部102は、上記第1の入力選択部101により選択された合成音声スペクトルYを取得する(S440)。さらに、第1の合成部102は、合成音声スペクトルYのパワースペクトルPY1を計算する(S442)。その後、第1の合成部102は、S432で取得した重み付け係数fを用いて、パワースペクトルPY1を重み付け加算することにより、非合成方向パワースペクトルPYelseを計算する(S444)。
その後、第1の合成部102は、全方向パワースペクトルPXallから非合成方向パワースペクトルPYelseを減算することで、RチャンネルのパワースペクトルPを生成する(S446)。さらに、第1の合成部102は、S446で求めたパワースペクトルPから、Rチャンネルの合成音声スペクトルZ(複素スペクトル)を復元する(S448)。
以上により、第1の合成部102は、制御部140から通知されたサラウンド再生環境に応じて、適切な重み付け係数g、g、fを用いて、Rチャンネルの合成音声スペクトルZ(k)を合成する。
[4.4.効果]
以上、第4の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第4の実施形態によれば、上記第1〜第3の実施形態の効果に加え、次の効果を得ることができる。
第4の実施形態によれば、制御部140により、ユーザ選択されたサラウンド再生環境に応じて、指向性合成に利用する音声スペクトルや重み付け係数を切り替えるように、第1の指向性合成部112及び第2の指向性合成部120を制御する。これにより、サラウンド再生環境に適した指向性合成を行い、サラウンド再生環境の各チャンネルに対応する合成音声信号zを好適に生成して記録できる。
従って、サラウンド再生環境に対応したサラウンド記録を行うことができるので、サラウンド再生環境の変更に柔軟に対処できる。従って、ユーザは、所望するサラウンド再生環境を選択することが可能となり、そのサラウンド再生環境のチャンネルに適した合成音声信号zを得ることができる。
<5.第5の実施の形態>
次に、本開示の第5の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第5の実施形態は、録音装置に外部マイクロホンを装着することで、内蔵マイクロホンMのみでは実現困難な指向性合成を実現することを特徴としている。第5の実施形態のその他の機能構成は、上記第3の実施形態と実質的に同一であるので、その詳細説明は省略する。
[5.1.第5の実施形態の概要]
まず、第5の実施形態に係る音声信号処理装置及び方法の概要について説明する。
上述した第1〜第4の実施形態では、全てのマイクロホンMは、内蔵マイクロホン(内部マイクロホン)である例について説明した。内蔵マイクロホンは、録音装置に予め設置されているマイクロホンであり、録音装置の筐体4内に固定されているため、当該内蔵マイクロホンを着脱することはできない。
一方、第5の実施形態では、上記内蔵マイクロホンに加えて、外部マイクロホンを用いて、内蔵マイクロホンのみでは実現不可能な指向性を有する合成音声を生成する。外部マイクロホンは、録音装置に対して事後的に追加設置されるマイクロホン(外付けマイクロホン)であり、録音装置の筐体4に対して着脱可能である。外部マイクロホンの装着位置は、筐体4の任意の位置であってよいが、後述するように、多様な方向の入力特性を得る観点から、他の内蔵マイクロホンから離隔した位置であることが好ましい。
第5の実施形態では、録音装置の筐体4の一側に複数の内蔵マイクロホンが偏って配置され、筐体4の他側に少なくとも1つの外部マイクロホンが配置される。このような筐体4に対する内蔵マイクロホン及び外部マイクロホンの配置の影響により、内蔵マイクロホンと外部マイクロホンの間で入力特性が相違する。第5の実施形態は、この入力特性の相違を利用して、内蔵マイクロホンのみでは合成困難な方向の指向性を有する合成音声を得ることを目的としている。
ここで、図57を参照して、第5の実施形態に係るマイクロホンMの配置の具体例について説明する。図57は、本実施形態に係る内蔵マイクロホンM、M、Mと外部マイクロホンMが設置されたビデオカメラ7を示す説明図である。
図57Aに示すように、ビデオカメラ7の筐体4の底面4bに3つの内蔵マイクロホンM、M、Mが設置されている。内蔵マイクロホンM、M、Mは、カメラ前方側(レンズ8側)の底面4b上において、三角形の頂点の位置に配置されている。
このように、内蔵マイクロホンM、M、Mが、ビデオカメラ7の底面4b前方側に偏って配置されている場合、内蔵マイクロホンM、M、Mを用いて、ビデオカメラ7の前後方向及び左右方向の入力特性を得ることはできても、ビデオカメラ7の上下方向の入力特性を得ることは困難である。従って、内蔵マイクロホンM、M、Mで得られた入力音声を合成することで、図58Aに示す5.1chのサラウンド再生環境(C、L、R、SL、SR、LFE)を実現することはできるが、図58Bに示すFHL、FHRを含む7.1chのサラウンド再生環境を実現することは困難である。
そこで、本実施形態では、図57Bに示すように、ビデオカメラ7の筐体4の上面4aに対して、外部マイクロホンMを追加設置し、外部マイクロホンMにより上下方向の音声成分の情報も得る。そして、かかる外部マイクロホンMからの入力音声を利用して、図58Bに示す7.1chのサラウンド再生環境の指向性合成を実現する。なお、内蔵マイクロホンM、M、Mも外部マイクロホンMも、無指向性マイクロホンで構成されている。
ところで、上記のように上面4aに配置された外部マイクロホンMは、底面4bに配置された内蔵マイクロホンM、M、Mから上下方向に離隔しており、外部マイクロホンMと内蔵マイクロホンM、M、Mの間には筐体4が存在する。従って、外部マイクロホンMと内蔵マイクロホンM、M、Mの間で、入力特性が大きく相違することになる。
このように入力特性が相違する場合、従来の複素スペクトル領域での指向性合成方法では、上述した理由から、外部マイクロホンMの入力音声信号xを利用することは難しい。即ち、マイクロホンMの入力音声信号xを他のマイクロホンM、M、Mの入力音声信号x、x、xとともに複素スペクトル領域で合成しても、良好な指向性合成結果を得ることができない。
そこで、第5の実施形態では、第1の指向性合成部112により、外部マイクロホンMの入力音声信号xのパワースペクトルを求め、パワースペクトル領域で入力音声を演算する。これにより、外部マイクロホンMと内蔵マイクロホンM、M、Mの入力音声を好適に指向性合成できるので、図58Bに示す7.1chのサラウンド再生環境を実現できる。
[5.2.音声信号処理装置の機能構成]
次に、図59を参照して、第5の実施形態に係るビデオカメラ7に適用された音声信号処理装置の機能構成例について説明する。図59は、第5の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図59は、図57に示したマイクロホン配置において、図58Bに示した7.1チャンネル(C、L、R、SL、SR、FHL、FHR、LFE)の指向性合成を行うための構成例を示している。
図59に示すように、第5の実施形態に係る音声信号処理装置は、3個の内蔵マイクロホンM、M、M及び周波数変換部100−1〜3と、1個の外部マイクロホンM及び周波数変換部100−4と、2チャンネルの第1の入力選択部101FHL、101FHR、第1の合成部102FHL、102FHR、及び時間変換部103FHL、103FHRと、5チャンネルの第2の入力選択部121C〜121SR、第2の合成部122C〜121SR、及び時間変換部103C〜103SRとを備える。
上述したように、図57に示したマイクロホン配置の場合、内蔵マイクロホンM、M、Mは三角形の頂点位置に近接配置されており、当該M、M、Mの入力特性が揃っている。従って、第2の指向性合成部120により、内蔵マイクロホンM、M、Mの入力音声スペクトルX、X、Xを複素スペクトル領域で合成することで、水平方向の5つのチャンネルC、L、R、SL、SRの合成音声スペクトルY、Y、Y、YSL、YSRを適切に生成できる。そして、このY、Y、Y、YSL、YSRを、時間変換部103C〜103SRにより時間変換することで、C、L、R、SL、SRチャンネルの合成音声信号z、z、z、zSL、zSRを出力する。
詳細には、まず、周波数変換部100−1〜3により内蔵マイクロホンM、M、Mの入力音声信号x、x、xを入力音声スペクトルX、X、Xに周波数変換し、第2の入力選択部121C〜121SRに出力する。次いで、第2の入力選択部121C〜121SR及び第2の合成部122C〜122SRにより、X、X、Xを複素スペクトル領域で合成して、C、L、R、SL、SR方向の合成音声スペクトルY、Y、Y、YSL、YSRをそれぞれ生成する。そして、当該合成音声スペクトルY、Y、Y、YSL、YSRが、時間変換部103C〜103SRにそれぞれ出力され、時間領域の合成音声信号z、z、z、zSL、zSRに変換されて、最終合成結果として記録媒体40に記録される。
ところが、内蔵マイクロホンM、M、Mは、筐体4の底面4bに偏って配置されているため、当該M、M、Mの入力音声スペクトルX、X、Xは、上下方向の入力特性に差が無い。従って、第2の指向性合成部120により、X、X、Xのみから上下方向の2つのチャンネルFHL、FHRの合成音声スペクトルYFHL、YFHRを合成することは困難である。このため、第1の指向性合成部112により、パワースペクトル領域でFHL、FHRチャンネルの合成音声スペクトルYFHL、YFHRを合成する必要がある。
そこで、第5の実施形態では、図59に示すように、筐体4の上面4aに外部マイクロホンMを追加設置する。そして、当該外部マイクロホンMの入力音声信号Xを周波数変換部100−4で周波数変換して、入力音声スペクトルXを第1の指向性合成部112に出力する。
第1の指向性合成部112は、第2の指向性合成部120からの合成音声スペクトルY、Y、Y、YSL、YSRと、上記外部マイクロホンMの入力音声スペクトルXを、パワースペクトル領域で合成する。これにより、FHL、FHRチャンネルの合成音声スペクトルZFHL、ZFHRを適切に合成できる
詳細には、まず、内蔵マイクロホンM、M、Mの入力音声信号x、x、xを、周波数変換部100−1〜3により入力音声スペクトルX、X、Xに周波数変換し、第2の入力選択部121C〜121SRと第1の入力選択部101SL、101SRに出力する。次いで、上記第2の入力選択部121C〜121SR及び第2の合成部122C〜122SRにより合成された合成音声スペクトルY、Y、Y、YSL、YSRも、第1の入力選択部101FHL、101FHRに出力する。さらに、外部マイクロホンMの入力音声信号xを、周波数変換部100−4により入力音声スペクトルXに周波数変換し、第1の入力選択部101SL、101SRに出力する。
そして、第1の入力選択部101FHL、101FHL及び第1の合成部102FHL、102FHLにより、X、X、X、XとY、Y、Y、YSL、YSRをパワースペクトル領域で合成して、FHL、FHR方向の合成音声スペクトルZFHL、ZFHRをそれぞれ生成する。
この際、例えば、第1の入力選択部101FHL、101FHRは、FHL、FHR方向の指向性を有する成音声スペクトルZFHL、ZFHRを合成するために用いる音声スペクトルとして、外付け外部マイクロホンMの入力音声スペクトルXと、第2の合成部122により生成された合成音声スペクトルY、Y、Y、YSL、YSRを選択してもよい。そして、第1の合成部102FHL、102FHLは、第1の入力選択部101FHL、101FHRにより選択されたXから全方向パワースペクトルPXallを生成し、Y、Y、Y、YSL、YSRから非合成方向パワースペクトルPYelseを生成し、PXallとPYelseの差分から、ZFHL、ZFHRを生成してもよい。その後、当該合成音声スペクトルZFHL、ZFHRが、時間変換部103FHL〜103SFHRにそれぞれ出力され、時間領域の合成音声信号zFHL、zFHRに変換されて、最終合成結果として記録媒体40に記録される。
以上のように、第5の実施形態では、内蔵マイクロホンM、M、Mとは異なる入力特性を有する外部マイクロホンMを利用して、7.1chなどの多チャンネルの指向性合成を実現することができる。
ここで、図60、図61を参照して、上記外部マイクロホンMを利用したFHL、FHR方向の指向性合成の原理について説明する。図60は、上記指向性合成における外部マイクロホンMの入力特性(入力音声スペクトルXの特性)と、合成音声スペクトルY、Y、Y、YSL、YSRの特性を示す。また、図61は、合成音声スペクトルZFHL、ZFHRの特性を示す。
図60に示すように、3つの内蔵マイクロホンM、M、Mは、ビデオカメラ7の筐体4の底面4bに設置されている。当該内蔵マイクロホンM、M、Mの入力音声スペクトルX、X、Xから指向性合成された合成音声スペクトルY、Y、Y、YSL、YSRは、水平方向の指向性を有する。しかし、当該Y、Y、Y、YSL、YSRは、上下方向の音声成分を、ほぼ等しく含んでおり、上下方向の特性には差がない。これに対し、外部マイクロホンMの入力音声スペクトルXは、上記Y、Y、Y、YSL、YSRと比べて、上方向の音声成分を多く含んでいる。
従って、上記Y、Y、Y、YSL、YSRとXを組み合わせることで、上方向かつ左右方向の特性を生成できる。よって、図61に示すように、Xの特性からY、Y、YSL、YSRの特性を除くことで、左斜め上方のFHL方向の合成音声スペクトルZFHLが得られる。また、Xの特性からY、Y、YSL、YSRの特性を除くことで、右斜め上方のFHR方向の合成音声スペクトルZFHRが得られる。
[5.3.音声信号処理方法]
次に、第5の実施形態に係る音声信号処理装置による音声信号処理方法(指向性合成方法)について説明する。
なお、第5の実施形態に係る音声信号処理装置の全体動作は、上記第2、第3の実施形態(図29、図41参照。)と同様であるので、全体フローの図示は省略する。ただし、第5の実施形態では、内蔵マイクロホンM、M、Mのみならず、外部マイクロホンMの入力音声信号Xも利用して指向性合成を行う。
以下では、第5の実施形態に係る第1の入力選択部101と第1の合成部102の動作を詳述し、第2の入力選択部121と第2の合成部122の動作は、上記第2、第3の実施形態と同様であるので、その詳細説明は省略する。
また、以下では、主に、FHLチャンネルの第1の入力選択部101FHL及び第1の合成部102FHLの動作を説明する。しかし、第1の入力選択部101FHL及び第1の合成部102FHLと、第1の入力選択部101FHRと第1の合成部102FHRは、参照しているデータが異なるのみで動作は同様である。以下のLとRを入れ替えれば、第1の入力選択部101FHRと第1の合成部102FHRの動作となるので、その詳細説明は省略する。
[5.3.1.第1の入力選択部の動作]
次に、図62を参照して、本実施形態に係る第1の入力選択部101FHLの動作について説明する。図62は、本実施形態に係る第1の入力選択部101FHLの動作を示すフローチャートである。
図62に示すように、まず、第1の入力選択部101FHLは、周波数変換部100−4から外部マイクロホンMの入力音声スペクトルXを取得する(S500)。さらに、第1の入力選択部101FHLは、第2の合成部122C〜122SRから出力された5チャンネルの合成音声スペクトルY、Y、Y、YSL、YSRを取得する(S502)。
次いで、第1の入力選択部101FHLは、保持部105から選択IDを含むID系列を取得する(S504)。保持部105(図14参照)には、FHLチャンネルの合成音声スペクトルZFHLを合成するために必要なマイクロホンMの識別情報(ID)と、合成音声スペクトルYの識別情報(ID)とを含むID系列が保持されている。これらID系列は、開発者により、サラウンド再生環境のチャンネルごとに、マイクロホンM、M、・・・、Mの配置に応じて予め設定されている。
さらに、第1の入力選択部101FHLは、S500、S502で取得した入力音声スペクトルXと、合成音声スペクトルY、Y、Y、YSL、YSRの中から、S504で取得した選択IDに対応する音声スペクトルX、Y、Y、YSL、YSRを選択する(S506)。ここでは、Yを除く合成音声スペクトルY、Y、YSL、YSRと、外部マイクロホンMの入力音声スペクトルXが選択される。その後、第1の入力選択部101FHLは、S506で選択した音声スペクトルX、Y、Y、YSL、YSRを、第1の合成部102FHLに出力する(S508)。
以上により、第1の入力選択部101FHLは、全方向パワースペクトルPallと非合成方向パワースペクトルPelseを合成するための音声スペクトルX、Yを適切に選択する。
[5.3.2.第1の合成部の動作]
次に、図63を参照して、本実施形態に係る第1の合成部102FHLの動作について説明する。図63は、本実施形態に係る第1の合成部102FHLの動作を示すフローチャートである。
図63に示すように、まず、第1の合成部102FHLは、第1の入力選択部101FHLから、外部マイクロホンMの入力音声スペクトルXを取得する(S510)。さらに、第1の入力選択部101FHLは、第1の入力選択部101FHLにより選択された合成音声スペクトルY、Y、YSL、YSRを取得する(S512)。
次いで、第1の合成部102FHLは、さらに、第1の合成部102FHLは、外部マイクロホンMの入力音声スペクトルXのパワースペクトルPX4を計算する(S514)。さらに、第1の合成部102FHLは、パワースペクトルPX4から全方向パワースペクトルPXallを計算する(S516)。ここでは、外部マイクロホンMが筐体4の上面4aに設置され、Mから入力されるXが水平方向の全周の音声成分を含んでいることから(図60参照、)、PXall=PX4とする。
さらに、第1の合成部102FHLは、合成音声スペクトルY、Y、YSL、YSRのパワースペクトルPYC、PYR、PYSL、PYSRを計算する(S518)。次いで、第1の合成部102FHLは、保持部109から、非合成方向パワースペクトルPYelseを求めるための重み付け係数f、f、fSL、fSRを取得する(S520)。その後、第1の合成部102FHLは、S520で取得した重み付け係数f、f、fSL、fSRを用いて、パワースペクトルPYC、PYR、PYSL、PYSRを重み付け加算することにより、非合成方向パワースペクトルPYelseを計算する(S522)。このPYelseは、FHL方向以外の方向の指向性を有する音声成分のパワースペクトルに相当する。
その後、第1の合成部102FHLは、全方向パワースペクトルPXallから非合成方向パワースペクトルPYelseを減算することで、FHLチャンネルのパワースペクトルPFHLを生成する(S524)。さらに、第1の合成部102FHLは、S524で求めたパワースペクトルPFHLから、FHLチャンネルの合成音声スペクトルZFHL(複素スペクトル)を復元する(S526)。
以上により、第1の合成部102FHLは、合成音声スペクトルY、Y、YSL、YSRと、外部マイクロホンMの入力音声スペクトルXを利用して、FHLチャンネルの合成音声スペクトルZFHL(k)を適切に合成できる。
[5.4.効果]
以上、第5の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第5の実施形態によれば、上記第1〜第3の実施形態の効果に加え、次の効果を得ることができる。
第5の実施形態によれば、ビデオカメラ7の筐体4の一側に偏って内蔵マイクロホンM、M、Mが配置されているときに、筐体4を挟んで他側に外部マイクロホンMを装着する。かかるマイクロホン配置に依れば、筐体4の影響により、外部マイクロホンMは、他の内蔵マイクロホンM、M、Mとは異なる入力特性を有することになる。このため、マイクロホンMの入力音声スペクトルXは、M、M、Mの入力音声スペクトルX、X、Xでは得られない上下方向の音声成分も含むことがでできる。
従って、第2の指向性合成部120により、X、X、Xから5チャンネルの合成音声スペクトルY、Y、Y、YSL、YSRを求め、さらに、第1の指向性合成部112により、XとY、Y、Y、YSL、YSRから、FHL、FHRチャンネルの合成音声スペクトルZFHL、ZFHRを求めることができる。これにより、内蔵マイクロホンM、M、Mのみでは実現困難な7.1chのサラウンド再生環境を実現できる。
以上のように、第5の実施携帯によれば、録音装置に対して外部マイクロホンMを増設することで、既存の内蔵マイクロホンM、M、Mのみでは実現困難な多チャンネルのサラウンド再生環境を実現できる。
<6.第6の実施の形態>
次に、本開示の第6の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第6の実施形態は、マイクロホンM自体の特性が相違する場合に、マイクロホンの入力音声信号xの周波数特性(振幅特性、位相特性等)を補正した上で、上述の指向性合成を行うことを特徴としている。第6の実施形態のその他の機能構成は、上記第1〜3の実施形態と実質的に同一であるので、その詳細説明は省略する。
[6.1.第6の実施形態の概要]
まず、第6の実施形態に係る音声信号処理装置及び方法の概要について説明する。
上述した第1〜第5の実施形態では、録音装置の筐体4に対するマイクロホンの配置により、各マイクロホンに対する音の入力特性が相違するという問題に対する対処を講じてきた。これに対し、第6の実施形態では、マイクロホン自体の特性が相違するため、複数のマイクロホン間で入力音声信号xの周波数特性(振幅、位相等)が相違するという問題にも対処する。
録音装置に設置されている複数のマイクロホンMの種類が異なる場合(例えば、通話用マイクロホンと動画撮像用マイクロホン)や、同種のマイクロホンMであっても素子誤差(個体差)がある場合などには、複数のマイクロホンMの間で入力音声信号xの周波数特性が相違することになる。
例えば、図64に示すように、録音装置が、動画撮像機能と通話機能を備えた携帯電話、例えばスマートフォン9である場合を考える。スマートフォン9の筐体4の前面4c(カメラのレンズ2側)の上部には、動画撮像用のマイクロホンとして、左右一対のステレオマイクロホンM、Mが配置される。このマイクロホンM、Mは、主にスマートフォン9の前方から到来する音を収音することを主目的としている。一方、スマートフォン9の筐体4の背面4d(画面3側)の下部には、通話用のマイクロホンMが配置される。このマイクロホンMは、ユーザの通話音を収音することを主目的としている。
上記スマートフォン9に代表される通話機能と録画機能を有する機器において、通話用マイクロホンMを、動画撮像用(サラウンド録音用)マイクロホンM、Mと併用することで、上述した多チャンネルのサラウンド録音を実現する場合を考える。この場合、動画撮像用マイクロホンM、Mと通話用マイクロホンMとの間で機器特性に差があるため、両マイクロホンMの間で入力音声信号xの周波数特性にも差が生じる。
図65は、動画撮像用マイクロホンMと通話用マイクロホンMの振幅特性を示す図である。図65に示すように、マイクロホンMの種類が異なれば、各マイクロホンMからの入力音声スペクトルXの振幅特性等が異なる。通話用マイクロホンMの振幅特性は、4000Hz前後で顕著に低下しているが、他の周波数帯域では、動画撮像用マイクロホンMの振幅特性とほぼ同一である。
従って、通話用マイクロホンMの振幅特性と動画撮像用マイクロホンMの振幅特性を一致させるためには、4000Hz前後の周波数帯域で、通話用マイクロホンMの入力音声スペクトルXの振幅(ゲイン)を増加させるように、当該入力音声スペクトルXを補正すればよい。
この補正方法としては、例えば、通話用マイクロホンMの入力音声スペクトルXに補正係数Gを乗算する方法がある。即ち、周波数成分kごとに、動画撮像用マイクロホンMの入力音声スペクトルXと通話用マイクロホンMの入力音声信号xとの差分を算出し、当該差分に基づいて、周波数成分kごとに補正係数Gを算出する。そして、通話用マイクロホンMの入力音声スペクトルXに補正係数Gを乗算すればよい。
図66は、図65の例において、動画撮像用マイクロホンMの入力音声スペクトルXと通話用マイクロホンMの入力音声信号xとの差分から算出された補正係数Gを示す。図66に示すように、補正係数Gは、4000Hz前後の周波数帯域で約2にまで増加し、他の周波数帯域ではほぼ1である。かかる補正係数Gを通話用マイクロホンMの入力音声スペクトルXに乗算すれば、4000Hz前後の周波数帯域で入力音声スペクトルXの振幅を増加させ、動画撮像用マイクロホンMの入力音声スペクトルXに合わせることができる。
以下に、上記のような入力音声の補正を行った上で、前述の指向性合成を実現するための第6の実施形態に係る音声信号処理装置及び方法について述べる。
[6.2.音声信号処理装置の機能構成]
次に、図67を参照して、第6の実施形態に係るビデオカメラ7に適用された音声信号処理装置の機能構成例について説明する。図67は、第6の実施形態に係る音声信号処理装置の機能構成を示すブロック図である。
図67に示すように、第6の実施形態に係る音声信号処理装置は、M個のマイクロホンM、M、・・・Mと、M個の周波数変換部100と、第1の入力選択部101と、第1の合成部102と、時間変換部103と、N個の第2の入力選択部121−1〜Nと、N個の第2の合成部122−1〜Nと、N個の時間変換部103−1〜Nとを備える。なお、Mはマイクロホンの設置数、Nはサラウンド再生環境のチャンネル数である。
図67に示すように、第6の実施形態に係る音声信号処理装置は、上記第2、3の実施形態に係る音声信号処理装置(図22、図34参照。)の構成要素に加えて、補正部150を更に備える。第6の実施形態では、補正部150により、他のマイクロホンM、M、・・・、MM−1(例えば、動画撮像用マイクロホン)と特性の異なるマイクロホンM(例えば通話用マイクロホン)から出力された入力音声スペクトルXを、補正部150で補正することを特徴としている。第6の実施形態に係るその他の機能構成は上記第2、3の実施形態と同様であるので、詳細説明は省略する。
補正部150は、複数のマイクロホンM、M、・・・、Mの特性が相違するときに、複数のマイクロホンM、M、・・・Mから入力される入力音声スペクトルX、X、・・・Xの差分に基づいて、他のマイクロホンM、M、・・・、MM−1と特性の異なる少なくとも1つのマイクロホンMから入力される入力音声スペクトルXを補正する。例えば、補正部150は、補正係数G(k)を用いてマイクロホンMの入力音声スペクトルXを補正し、当該補正後の入力音声スペクトルX’を、第2の入力選択部121及び第1の入力選択部101に出力する。このために、補正部150は、不図示の保持部に補正係数G(k)を保持している。
補正係数G(k)は、あるマイクロホンMの入力音声スペクトルXの周波数特性(振幅特性、位相特性等)を補正して、他のマイクロホンM、M、・・・、MM−1の入力音声スペクトルXの周波数特性に合わせるための係数である。この補正係数G(k)は、録音装置の開発者により、マイクロホンMの入力音声スペクトルXとマイクロホンMの入力音声スペクトルXとの差分に基づいて、予め設定されている(図66、図67参照。)。かかる補正係数G(k)は、入力音声スペクトルXの周波数成分kごとに設定される。
補正部150は、以下の式(60)のように、入力音声スペクトルX(k)の周波数成分kごとに、上記補正係数G(k)をマイクロホンMの入力音声スペクトルX(k)に乗算することにより、X(k)を補正し、補正後の入力音声スペクトルX’(k)を出力する。
X’(k)=G(k)・X(k) ・・・(60)
[6.3.音声信号処理方法]
次に、第6の実施形態に係る音声信号処理装置による音声信号処理方法(指向性合成方法)について説明する。
なお、第6の実施形態に係る音声信号処理装置の全体動作は、上記第2、第3の実施形態(図29、図41参照。)と同様であるので、全体フローの図示は省略する。ただし、第6の実施形態では、周波数変換処理(図29のS32、図41のS52)の後に、上記補正部150により、特定のマイクロホンMの入力音声スペクトルZを補正する補正処理を含む。
また、以下では、第6の実施形態に係る補正部150の動作を詳述するが、第1の入力選択部101、第1の合成部102、第2の入力選択部121、及び第2の合成部122の動作は、上記第2、第3の実施形態と同様であるので、その詳細説明は省略する。
[6.3.1.補正部の動作]
次に、図68を参照して、本実施形態に係る補正部150の動作について説明する。図68は、本実施形態に係る補正部150の動作を示すフローチャートである。
図68に示すように、まず、補正部150は、周波数インデックスkを0に設定した後に(S600)、補正対象のマイクロホンMからの入力音声スペクトルXの全ての周波数成分X(k)を取得する(S602)。
次いで、補正部150は、周波数インデックスkに対応する補正係数G(k)を、保持部から取得する(S604)。さらに、上記S602で取得した入力音声スペクトルXの周波数成分X(k)に対して、S604で取得した補正係数G(k)を乗算する(S606)。これにより、X(k)がX’(k)に補正される。X’(k)は、補正対象のマイクロホンMの入力音声スペクトルXの周波数特性を、他のマイクロホンMの入力音声スペクトルXの周波数特性に合わせたものである。
さらに、補正部150は、周波数インデックスkを1だけ増加させてから(S608)、周波数インデクスkがLになるまで、上記S604〜S608までの処理を繰り返す(S610)。これにより、周波数成分ごとに、補正係数G(k)を用いてX(k)が順次補正されて、X(k)が生成される。
その度、補正部150は、上記補正処理により得られた補正後の入力音声スペクトルX’の全ての周波数成分X’(k)を、第1の入力選択部101及び第2の入力選択部121に出力する。
以上により、補正対象のマイクロホンMからの入力音声スペクトルXを、他のマイクロホンMの特性に合わせて補正した上で、第1の指向性合成部112及び第2の指向性合成部120に出力できる。
[6.4.効果]
以上、第6の実施形態に係る音声信号処理装置及び方法について詳細に説明した。第6の実施形態によれば、上記第1〜第3の実施形態の効果に加え、次の効果を得ることができる。
第6実施形態によれば、補正部150により入力音声スペクトルXを補正することで、マイクロホンM自体の特性の相違(マイクロホンMの種類の相違やマイクロホン素子の個体差等)による影響を排除して、前述の指向性合成を好適に実現できる。特に、スマートフォン9などの通話機能と録音機能を備えた機器において、通話用マイクロホンMを、サラウンド録音用のマイクロホンMとして併用する際に、上記補正は有用である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、音声信号処理装置としてデジタルカメラ1、ビデオカメラ7、スマートフォン9を例示して説明したが、本技術はかかる例に限定されない。本技術の音声信号処理装置は、上記の指向性合成を実行可能なプロセッサを具備する機器であれば、音声記録装置に限られず、音声再生装置などの任意の機器に適用できる。例えば、音声信号処理装置は、記録再生装置(例えば、ブルーレイディスク/DVDレコーダ)、テレビジョン受像器、システムステレオ装置、撮像装置(例えば、デジタルカメラ、デジタルビデオカメラ)、携帯端末(例えば、携帯型音楽/映像プレーヤ、携帯型ゲーム機、ICレコーダ)、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ATM、キオスク端末など、任意の電子機器に適用できる。
なお、本技術は以下のような構成も取ることができる。
(1)筐体に設けられた複数のマイクロホンから入力された入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成する周波数変換部と、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択する第1の入力選択部と、
前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する第1の合成部と、
を備える、音声信号処理装置。
(2)前記第1の合成部は、
前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルをそれぞれ計算し、
前記筐体に対する前記マイクロホンの配置に基づいて、前記パワースペクトルを合成することにより、前記筐体の周囲の全方向の音声信号成分を含む全方向パワースペクトルと、前記第1の合成方向以外の方向の音声信号成分を含む非合成方向パワースペクトルを生成し、
前記全方向パワースペクトルから前記非合成方向パワースペクトルを減算したパワースペクトルに基づいて、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、(1)に記載の音声信号処理装置。
(3)前記第1の合成部は、
前記筐体に対する前記マイクロホンの配置に応じて設定された第1の重み付け係数を用いて、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを重み付け加算することにより、前記全方向パワースペクトルを生成し、
前記筐体に対する前記マイクロホンの配置に応じて設定された第2の重み付け係数を用いて、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを重み付け加算することにより、前記非合成方向パワースペクトルを生成する、(2)に記載の音声信号処理装置。
(4)前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、複数の合成方向のうちの各合成方向に対応する入力音声スペクトルをそれぞれ選択する複数の第2の入力選択部と、
前記第2の入力選択部により選択された前記入力音声スペクトルを合成することにより、前記各合成方向の指向性を有する合成音声スペクトルをそれぞれ生成する複数の第2の合成部と、
を更に備える、(1)〜(3)のいずれか一項に記載の音声信号処理装置。
(5)前記筐体に対する前記マイクロホンの配置の影響により前記複数のマイクロホンの間で入力特性が相違する場合に、前記第1の合成部を用いて、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを合成することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成し、
前記複数のマイクロホンの間で入力特性が相違しない場合に、前記第2の合成部を用いて、前記第2の入力選択部により選択された前記入力音声スペクトルを合成することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、(4)に記載の音声信号処理装置。
(6)前記第1の入力選択部は、前記筐体に対する前記マイクロホンの配置に基づいて、前記第2の合成部により生成された前記合成音声スペクトル及び前記入力音声スペクトルの中から、前記第1の合成方向に対応する音声スペクトルを選択し、
前記第1の合成部は、
前記第1の入力選択部により選択された前記音声スペクトルのパワースペクトルをそれぞれ計算し、当該パワースペクトルを合成することにより、前記筐体の周囲の全方向の音声信号成分を含む全方向パワースペクトルを生成し、
前記第1の入力選択部により選択された前記音声スペクトルのパワースペクトルをそれぞれ計算し、当該パワースペクトルを合成することにより、前記第1の合成方向以外の方向の音声信号成分を含む非合成方向パワースペクトルを生成し、
前記全方向パワースペクトルから前記非合成方向パワースペクトルを減算したパワースペクトルに基づいて、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、(4)又は(5)に記載の音声信号処理装置。
(7)前記合成音声スペクトルの周波数帯域に応じて、前記第1の合成方向の指向性を有する合成音声スペクトルとして、前記第1の合成部により生成された前記合成音声スペクトル、又は、前記第2の合成部により生成された前記合成音声スペクトルのいずれかを選択して出力する出力選択部を更に備える、(4)又は(5)に記載の音声信号処理装置。
(8)前記出力選択部は、
所定周波数未満の周波数帯域については、前記第1の合成方向を含む前記複数の合成方向のうちの各合成方向の指向性を有する合成音声スペクトルとして、前記第2の合成部により生成された前記合成音声スペクトルのみを選択して出力し、
前記所定周波数以上の周波数帯域については、前記筐体に対する前記マイクロホンの配置に基づいて、前記第1の合成方向を含む前記複数の合成方向うちの各合成方向の指向性を有する合成音声スペクトルとして、前記第1の合成部により生成された前記合成音声スペクトル、又は前記第2の合成部により生成された前記合成音声スペクトルのいずれかを選択して出力する、(7)に記載の音声信号処理装置。
(9)前記第1の合成方向を含む前記複数の合成方向は、サラウンド再生環境の複数のチャンネルに対応しており、
前記第1の入力選択部は、前記第2の合成部により生成された前記合成音声スペクトル及び前記入力音声スペクトルの中から、前記第1の合成方向の指向性を有する合成音声スペクトルを生成するために選択する音声スペクトルを、前記サラウンド再生環境に応じて変更し、
前記第1の合成部は、前記第1の入力選択部により選択された前記音声スペクトルのパワースペクトルを重み付け加算するときに用いる重み付け係数を、前記サラウンド再生環境に応じて変更し、
前記第2の入力選択部は、前記入力音声スペクトルの中から、前記複数の合成方向のうちの各合成方向の指向性を有する合成音声スペクトルを生成するために選択する入力音声スペクトルを、前記サラウンド再生環境に応じて変更し、
前記第2の合成部は、前記第2の入力選択部により選択された前記入力音声スペクトルを重み付け加算するときに用いる重み付け係数を、前記サラウンド再生環境に応じて変更する、(4)〜(8)のいずれか一項に記載の音声信号処理装置。
(10)前記マイクロホンは、
前記筐体の一側に設置される複数の内蔵マイクロホンと、
前記筐体の多側に着脱可能に設置される少なくとも1つの外部マイクロホンと、
を含み、
前記筐体に対する前記内蔵マイクロホン及び前記外部マイクロホンの配置の影響により、前記内蔵マイクロホンと前記外部マイクロホンの間で入力特性が相違し、
前記第1の入力選択部は、
前記第1の合成方向の指向性を有する合成音声スペクトルを生成するために選択する前記入力音声スペクトルとして、前記外部マイクロホンの前記入力音声スペクトルと、前記第2の合成部により生成された前記合成音声スペクトルを選択し、
前記第1の合成部は、
前記第1の入力選択部により選択された前記入力音声スペクトル及び前記合成音声スペクトルのパワースペクトルを合成することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、(4)〜(9)のいずれか一項に記載の音声信号処理装置。
(11)前記複数のマイクロホンの間で特性が相違するときに、前記複数のマイクロホンから入力される前記入力音声スペクトルの差分に基づいて、少なくとも1つの前記マイクロホンから入力される前記入力音声スペクトルを補正する補正部を更に備える、(1)〜(10)のいずれか一項に記載の音声信号処理装置。
(12)筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
を含む、音声信号処理方法。
(13)筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
をコンピュータに実行させるためのプログラム。
(14)筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。
1 デジタルカメラ
2 レンズ
3 画面
4 筐体
5 音
6 スピーカ
7 ビデオカメラ
8 レンズ
9 スマートフォン
40 記録媒体
50 収音部
60 音声処理部
70 制御部
80 操作部
100 周波数変換部
101 第1の入力選択部
102 第1の合成部
103 時間変換部
104 選択部
105 保持部
106 第1の演算部
107 保持部
108 第2の演算部
109 保持部
110 減算部
111 第3の演算部
112 第1の指向性合成部
120 第2の指向性合成部
121 第2の入力選択部
122 第2の合成部
123 選択部
124 保持部
125 演算部
126 保持部
130 出力選択部
131 選択部
132 保持部
140 制御部
141 環境設定情報
142 環境設定情報
150 補正部
M マイクロホン

Claims (14)

  1. 筐体に設けられた複数のマイクロホンから入力された入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成する周波数変換部と、
    前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択する第1の入力選択部と、
    前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する第1の合成部と、
    を備える、音声信号処理装置。
  2. 前記第1の合成部は、
    前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルをそれぞれ計算し、
    前記筐体に対する前記マイクロホンの配置に基づいて、前記パワースペクトルを合成することにより、前記筐体の周囲の全方向の音声信号成分を含む全方向パワースペクトルと、前記第1の合成方向以外の方向の音声信号成分を含む非合成方向パワースペクトルを生成し、
    前記全方向パワースペクトルから前記非合成方向パワースペクトルを減算したパワースペクトルに基づいて、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、請求項1に記載の音声信号処理装置。
  3. 前記第1の合成部は、
    前記筐体に対する前記マイクロホンの配置に応じて設定された第1の重み付け係数を用いて、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを重み付け加算することにより、前記全方向パワースペクトルを生成し、
    前記筐体に対する前記マイクロホンの配置に応じて設定された第2の重み付け係数を用いて、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを重み付け加算することにより、前記非合成方向パワースペクトルを生成する、請求項2に記載の音声信号処理装置。
  4. 前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、複数の合成方向のうちの各合成方向に対応する入力音声スペクトルをそれぞれ選択する複数の第2の入力選択部と、
    前記第2の入力選択部により選択された前記入力音声スペクトルを合成することにより、前記各合成方向の指向性を有する合成音声スペクトルをそれぞれ生成する複数の第2の合成部と、
    を更に備える、請求項1に記載の音声信号処理装置。
  5. 前記筐体に対する前記マイクロホンの配置の影響により前記複数のマイクロホンの間で入力特性が相違する場合に、前記第1の合成部を用いて、前記第1の入力選択部により選択された前記入力音声スペクトルのパワースペクトルを合成することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成し、
    前記複数のマイクロホンの間で入力特性が相違しない場合に、前記第2の合成部を用いて、前記第2の入力選択部により選択された前記入力音声スペクトルを合成することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、請求項4に記載の音声信号処理装置。
  6. 前記第1の入力選択部は、前記筐体に対する前記マイクロホンの配置に基づいて、前記第2の合成部により生成された前記合成音声スペクトル及び前記入力音声スペクトルの中から、前記第1の合成方向に対応する音声スペクトルを選択し、
    前記第1の合成部は、
    前記第1の入力選択部により選択された前記音声スペクトルのパワースペクトルをそれぞれ計算し、当該パワースペクトルを合成することにより、前記筐体の周囲の全方向の音声信号成分を含む全方向パワースペクトルを生成し、
    前記第1の入力選択部により選択された前記音声スペクトルのパワースペクトルをそれぞれ計算し、当該パワースペクトルを合成することにより、前記第1の合成方向以外の方向の音声信号成分を含む非合成方向パワースペクトルを生成し、
    前記全方向パワースペクトルから前記非合成方向パワースペクトルを減算したパワースペクトルに基づいて、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、請求項4に記載の音声信号処理装置。
  7. 前記合成音声スペクトルの周波数帯域に応じて、前記第1の合成方向の指向性を有する合成音声スペクトルとして、前記第1の合成部により生成された前記合成音声スペクトル、又は、前記第2の合成部により生成された前記合成音声スペクトルのいずれかを選択して出力する出力選択部を更に備える、請求項4に記載の音声信号処理装置。
  8. 前記出力選択部は、
    所定周波数未満の周波数帯域については、前記第1の合成方向を含む前記複数の合成方向のうちの各合成方向の指向性を有する合成音声スペクトルとして、前記第2の合成部により生成された前記合成音声スペクトルのみを選択して出力し、
    前記所定周波数以上の周波数帯域については、前記筐体に対する前記マイクロホンの配置に基づいて、前記第1の合成方向を含む前記複数の合成方向うちの各合成方向の指向性を有する合成音声スペクトルとして、前記第1の合成部により生成された前記合成音声スペクトル、又は前記第2の合成部により生成された前記合成音声スペクトルのいずれかを選択して出力する、請求項7に記載の音声信号処理装置。
  9. 前記第1の合成方向を含む前記複数の合成方向は、サラウンド再生環境の複数のチャンネルに対応しており、
    前記第1の入力選択部は、前記第2の合成部により生成された前記合成音声スペクトル及び前記入力音声スペクトルの中から、前記第1の合成方向の指向性を有する合成音声スペクトルを生成するために選択する音声スペクトルを、前記サラウンド再生環境に応じて変更し、
    前記第1の合成部は、前記第1の入力選択部により選択された前記音声スペクトルのパワースペクトルを重み付け加算するときに用いる重み付け係数を、前記サラウンド再生環境に応じて変更し、
    前記第2の入力選択部は、前記入力音声スペクトルの中から、前記複数の合成方向のうちの各合成方向の指向性を有する合成音声スペクトルを生成するために選択する入力音声スペクトルを、前記サラウンド再生環境に応じて変更し、
    前記第2の合成部は、前記第2の入力選択部により選択された前記入力音声スペクトルを重み付け加算するときに用いる重み付け係数を、前記サラウンド再生環境に応じて変更する、請求項4に記載の音声信号処理装置。
  10. 前記マイクロホンは、
    前記筐体の一側に設置される複数の内蔵マイクロホンと、
    前記筐体の多側に着脱可能に設置される少なくとも1つの外部マイクロホンと、
    を含み、
    前記筐体に対する前記内蔵マイクロホン及び前記外部マイクロホンの配置の影響により、前記内蔵マイクロホンと前記外部マイクロホンの間で入力特性が相違し、
    前記第1の入力選択部は、
    前記第1の合成方向の指向性を有する合成音声スペクトルを生成するために選択する前記入力音声スペクトルとして、前記外部マイクロホンの前記入力音声スペクトルと、前記第2の合成部により生成された前記合成音声スペクトルを選択し、
    前記第1の合成部は、
    前記第1の入力選択部により選択された前記入力音声スペクトル及び前記合成音声スペクトルのパワースペクトルを合成することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成する、請求項4に記載の音声信号処理装置。
  11. 前記複数のマイクロホンの間で特性が相違するときに、前記複数のマイクロホンから入力される前記入力音声スペクトルの差分に基づいて、少なくとも1つの前記マイクロホンから入力される前記入力音声スペクトルを補正する補正部を更に備える、請求項1に記載の音声信号処理装置。
  12. 筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
    前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
    前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
    を含む、音声信号処理方法。
  13. 筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
    前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
    前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
    をコンピュータに実行させるためのプログラム。
  14. 筐体に設けられた複数のマイクロホンから入力された複数の入力音声信号をそれぞれ周波数変換することにより、複数の入力音声スペクトルを生成することと、
    前記筐体に対する前記マイクロホンの配置に基づいて、前記入力音声スペクトルの中から、第1の合成方向に対応する入力音声スペクトルを選択することと、
    前記選択された入力音声スペクトルのパワースペクトルを演算することにより、前記第1の合成方向の指向性を有する合成音声スペクトルを生成することと、
    をコンピュータに実行させるためのプログラムが記録された、コンピュータ読み取り可能な記録媒体。


JP2012153363A 2012-07-09 2012-07-09 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体 Pending JP2014017645A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012153363A JP2014017645A (ja) 2012-07-09 2012-07-09 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
PCT/JP2013/060247 WO2014010280A1 (ja) 2012-07-09 2013-04-03 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
US14/400,875 US20150125011A1 (en) 2012-07-09 2013-04-03 Audio signal processing device, audio signal processing method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012153363A JP2014017645A (ja) 2012-07-09 2012-07-09 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2014017645A true JP2014017645A (ja) 2014-01-30

Family

ID=49915757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012153363A Pending JP2014017645A (ja) 2012-07-09 2012-07-09 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体

Country Status (3)

Country Link
US (1) US20150125011A1 (ja)
JP (1) JP2014017645A (ja)
WO (1) WO2014010280A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9930467B2 (en) 2015-10-29 2018-03-27 Xiaomi Inc. Sound recording method and device
US10320964B2 (en) 2015-10-30 2019-06-11 Mitsubishi Electric Corporation Hands-free control apparatus

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9232310B2 (en) * 2012-10-15 2016-01-05 Nokia Technologies Oy Methods, apparatuses and computer program products for facilitating directional audio capture with multiple microphones
JP2015152437A (ja) * 2014-02-14 2015-08-24 株式会社デンソー 車両用ナビゲーション装置
US20170236547A1 (en) * 2015-03-04 2017-08-17 Sowhat Studio Di Michele Baggio Portable recorder
US9788109B2 (en) 2015-09-09 2017-10-10 Microsoft Technology Licensing, Llc Microphone placement for sound source direction estimation
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
US10609479B2 (en) * 2017-09-14 2020-03-31 Fujitsu Limited Device and method for determining a sound source direction
WO2020031719A1 (ja) * 2018-08-08 2020-02-13 日本電信電話株式会社 集音装置
US10966017B2 (en) * 2019-01-04 2021-03-30 Gopro, Inc. Microphone pattern based on selected image of dual lens image capture device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5190859B2 (ja) * 2006-11-17 2013-04-24 学校法人早稲田大学 音源分離装置、音源分離方法、音源分離プログラム及び記録媒体
JP4901542B2 (ja) * 2007-03-20 2012-03-21 三洋電機株式会社 音声信号生成装置及び方法
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
EP2600344B1 (en) * 2010-07-26 2015-02-18 Panasonic Corporation Multi-input noise suppresion device, multi-input noise suppression method, program, and integrated circuit
JP2012109799A (ja) * 2010-11-17 2012-06-07 Primo Co Ltd 雑音抑圧型マイクロホン

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9930467B2 (en) 2015-10-29 2018-03-27 Xiaomi Inc. Sound recording method and device
KR101848458B1 (ko) * 2015-10-29 2018-04-13 시아오미 아이엔씨. 레코딩 방법 및 그 장치
US10320964B2 (en) 2015-10-30 2019-06-11 Mitsubishi Electric Corporation Hands-free control apparatus

Also Published As

Publication number Publication date
US20150125011A1 (en) 2015-05-07
WO2014010280A1 (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
WO2014010280A1 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP4269883B2 (ja) マイクロホン装置、再生装置及び撮像装置
US10944936B2 (en) Beam forming for microphones on separate faces of a camera
US20060227224A1 (en) Imaging device, sound record device, and sound record method
US20090303350A1 (en) Multi-channel sound collecting apparatus, multi-channel sound reproducing apparatus, and multi-channel sound collecting and reproducing apparatus
GB2447320A (en) Reducing a wind noise component of an input audio signal that has a frequency less than or equal to a predetermined frequency
US20120162471A1 (en) Audio signal processing device, audio signal processing method, and program
JP4670682B2 (ja) オーディオ装置及び指向音生成方法
JPWO2006057131A1 (ja) 音響再生装置、音響再生システム
JP2014127737A (ja) 撮像装置
US11657794B2 (en) Audio processing apparatus for reducing noise using plurality of microphones, control method, and recording medium
JP2013017160A (ja) カメラ本体およびカメラ本体に装着可能な交換レンズ
JP5998483B2 (ja) 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP2002232988A (ja) マルチチャンネル収音装置
JP2012119803A (ja) 超広角映像の記録及び再生装置
KR101121030B1 (ko) 촬상장치
JP5063489B2 (ja) 判定装置及びそれを備えた電子機器並びに判定方法
JP5908199B2 (ja) 音響処理装置及び集音装置
US11729548B2 (en) Audio processing apparatus, control method, and storage medium, each for performing noise reduction using audio signals input from plurality of microphones
US20220383891A1 (en) Sound processing apparatus and control method
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP2022054316A (ja) 音声処理装置、制御方法、およびプログラム
JP2022054317A (ja) 音声処理装置、制御方法、およびプログラム
JP2022054318A (ja) 音声処理装置、制御方法、およびプログラム
JP6445407B2 (ja) 音生成装置、音生成方法、プログラム