JP6078461B2 - 音響処理装置、音響処理方法、及び音響処理プログラム - Google Patents

音響処理装置、音響処理方法、及び音響処理プログラム Download PDF

Info

Publication number
JP6078461B2
JP6078461B2 JP2013261544A JP2013261544A JP6078461B2 JP 6078461 B2 JP6078461 B2 JP 6078461B2 JP 2013261544 A JP2013261544 A JP 2013261544A JP 2013261544 A JP2013261544 A JP 2013261544A JP 6078461 B2 JP6078461 B2 JP 6078461B2
Authority
JP
Japan
Prior art keywords
transfer function
sound
unit
acoustic signal
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013261544A
Other languages
English (en)
Other versions
JP2015119343A (ja
Inventor
圭佑 中村
圭佑 中村
一博 中臺
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013261544A priority Critical patent/JP6078461B2/ja
Priority to US14/572,941 priority patent/US9549274B2/en
Publication of JP2015119343A publication Critical patent/JP2015119343A/ja
Application granted granted Critical
Publication of JP6078461B2 publication Critical patent/JP6078461B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。
室内に放送する音響信号に対して、音質音量を調整する音響システムが提案されている。このような音響システムでは、室内に設置されたスピーカーから予め定められた複数の帯域ノイズ信号を出力し、スピーカーの音場に設けられたマイクロホンによって検出されたノイズ信号を分析することで伝達関数を測定している(例えば、特許文献1参照)。
また、このようにスピーカーから発した音響信号をマイクロホンで収音し、収音した音響信号から求めた伝達関数は、雑音抑圧、音源の方向や位置の推定に用いられている。
特開2002−328682号公報
しかしながら、上述した技術では、話者が発生した音声信号に対する処理を行う場合、スピーカーでの計測点と話者の発話位置が少しでもズレると精度が劣化する。また、上述した技術では、実際の発話者の音量と、伝達関数を測定するための事前計測の音量を一致させることは困難である。この結果、上述した技術では、音量の違いから反響特性などが変化するため、精度が十分に出ないという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、音場における伝達関数を精度良く推定することができる音響処理装置、音響処理方法、及び音響処理プログラムを提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音響処理装置は、音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部と、前記第1収音部よりも発話者に近い位置に移動可能に配置され、前記音響信号を収録する第2収音部と、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第2収音部及び前記第1収音部によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、を備えることを特徴とする。
(2)上記目的を達成するため、本発明の一態様に係る音響処理装置は、音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部と、前記第1収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部と、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音部によって収録された音響信号と推定した前記発話者位置を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、を備えることを特徴としている。
(3)上記目的を達成するため、本発明の一態様に係る音響処理装置は、音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホンを用いて収録する第1収音部と、前記第1収音部によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延部と、前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択部と、予め測定された音場の伝達関数を用いずに、前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延部によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、を備えることを特徴とする。
(4)本発明に係るその他の様態は、前記第2収音部は、発話者の直接音が収録できる位置に配置されることを特徴とする(1)の音響処理装置である。
(5)本発明に係るその他の様態は、前記伝達関数推定部が推定した伝達関数を記憶する記憶部と、発話者を特定する発話者特定部と、を備え、前記伝達関数推定部は、前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されている場合、前記記憶部に記憶されている発話者に対応する前記伝達関数を選択することを特徴とする(1)から(4)のいずれかの音響処理装置である。
(6)本発明に係るその他の様態は、前記伝達関数推定部は、前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されていない場合、発話者に発話を促す報知を行うことを特徴とする(5)の音響処理装置である。
(7)本発明に係るその他の様態は、前記第1収音部は、発話者が発話したときの音響信号を収録し、前記伝達関数推定部は、前記第1収音部が収録した音響信号に基づいて、前記伝達関数を逐次更新することを特徴とする(1)から(6)のいずれかの音響処理装置である。
(8)本発明に係るその他の様態は、予め所定の伝達関数が記憶されている記憶部を備え、前記伝達関数推定部は、前記記憶部に予め記憶されている伝達関数を、前記第1収音部及び前記第2収音部によって収録された音響信号に基づいて推定された伝達関数を用いて補間することを特徴とする(1)に記載の音響処理装置である。
(9)本発明のその他の態様は、音場に取り付けられた第1収音部が、発話者の発話である音響信号を収録する第1収音手順と、前記第1収音部よりも発話者に近い位置に移動可能に配置される第2収音部が、前記音響信号を収録する第2収音手順と、伝達関数推定部が、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音手順及び前記第2収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、音響信号処理部が、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を含むことを特徴とする音響処理方法である。
(10)本発明のその他の態様は、音場に取り付けられた第1収音部が、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、遅延部が、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、選択部が、前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、伝達関数推定が、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、音響信号処理部が、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を含むことを特徴としている。
(11)本発明のその他の態様は、音場に取り付けられた第1収音部と前記第1収音部よりも発話者に近い位置に移動可能に配置される第2収音部とを有する音響処理装置のコンピュータに、音響信号を収録する第1収音手順と、発話者の発話である音響信号を収録する第2収音手順と、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音手順及び前記第2収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を実行させる音響処理プログラムである。
(12)本発明のその他の態様は、音場に取り付けられた第1収音部を有する音響処理装置のコンピュータに、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、を実行させる音響処理プログラムである。
上述した(1)、(9)又は(11)の構成によれば、音場における伝達関数を精度良く推定することができる。
本発明の態様(2)によれば、第2収音部が不要であるため、装置を小型化でき、また、発話者が発話したときに伝達関数を推定することができる。
本発明の態様(3)、(10)、(12)によれば、第1収音部のみによって、遅延された音響信号と選択された代表信号に基づいて、伝達関数を精度良く推定することができる。
本発明の態様(4)によれば、第2収音部は、発話者が発話した音響信号を反射音がない状態で収録できるので、伝達関数を精度良く推定することができる。
本発明の態様(5)によれば、すでに記憶部に記憶されている伝達関数を用いることができるので、伝達関数を推定する手間を省くことができる。
本発明の態様(6)によれば、記憶部に伝達関数が記憶されていないときに、発話者が発話する音響信号を収録できるので、伝達関数を効率よく推定することができる。
本発明の態様(7)、(8)によれば、推定した伝達関数を逐次更新、補間することができるので、伝達関数を精度良く推定することができる。
第1実施形態に係る音響処理装置の構成を示すブロック図である。 車両内に本実施形態の音響処理装置を適用する例を説明する図である。 第1実施形態に係る第1収音部のマイクロホンが1個の場合の音響モデルを説明する図である。 第1実施形態に係る第1収音部のマイクロホンがM個の場合の音響モデルを説明する図である。 TD手法により算出された伝達関数の特性の一例を示す図である。 FD手法により算出された伝達関数の特性の一例を示す図である。 FDA手法により算出された伝達関数の特性の一例を示す図である。 FDN手法により算出された伝達関数の特性の一例を示す図である。 FDP手法により算出された伝達関数の特性の一例を示す図である。 FDC手法により算出された伝達関数の特性の一例を示す図である。 FDS手法により算出された伝達関数の特性の一例を示す図である。 第1実施形態に係るFDS手法において伝達関数推定部が行う処理手順のフローチャートである。 従来のスピーカーから発した音声をマイクロホンで収録して伝達関数を推定した場合の音声認識率の一例を説明する図である。 第1実施形態にかかる音響処理装置を用いた場合の音声認識率の一例を説明する図である。 第2実施形態に係る音響処理装置の構成を示すブロック図である。 第2実施形態に係る伝達関数更新部の構成を示すブロック図である。 最も早く発話者の音響信号が到達する1番目のマイクロホンが収録した音響信号と、n番目のマイクロホンが収録した音響信号の波形の例を説明する図である。 第2実施形態に係る伝達関数を設定する処理のフローチャートである。 第2実施形態に係る伝達関数を設定する処理のフローチャートである。 第2実施形態に係る伝達関数を設定する処理のフローチャートである。 第3実施形態に係る音響処理装置の構成を示すブロック図である。 第3実施形態に係る話者Spと収音部のマイクロホンとの位置関係を説明する図である。 第3実施形態に係るマイクロホンアレイにおける信号と伝達関数を説明する図である。 代表チャネルにおける伝達関数のインパルスの開始時刻を0とした場合、各チャネルの伝達関数のタイミングを説明する図である。 取得された全ての音響信号を開始時刻をTだけ遅延させた場合、各チャネルの伝達関数のタイミングを説明する図である。 第3実施形態に係る伝達関数推定部が推定した伝達関数の結果を示す図である。 第3実施形態に係る音響処理装置を用いて60度の角度から出力された音源について音源定位させた結果を示す図である。 第3実施形態に係る音響処理装置を用いて30度の角度から出力された音源について音源定位させた結果を示す図である。 第3本実施形態に係る音響処理装置を用いて0度の角度から出力された音源について音源定位させた結果を示す図である。 第3実施形態に係る音響処理装置を用いて−30度の角度から出力された音源について音源定位させた結果を示す図である。 第3実施形態に係る音響処理装置を用いて−60度の角度から出力された音源について音源定位させた結果を示す図である。
まず、車両内などのように狭い空間において、話者を想定して、スピーカーが発した音響信号をマイクロホンで収音して伝達関数を推定する場合の課題を説明する。
例えば、スピーカーの口径が話者の口より大きいため、スピーカーの振動板の中心から周辺までの位置毎に発せられた音響信号に対する反射音の反射時間が異なる。また、スピーカーから発する音量によっては、多数回の反射が生じることがある。ここで、多数回の反射は、例えば、車両の座席シートに反射後、さらに車両のハンドルで反射することで、2回反射する。このような場合、想定している話者が発した音声信号とは異なってしまうため、この音響信号を用いて精度の良い伝達関数を推定することができない。また、車両内において、話者の口の位置と同じ位置にスピーカーを設置するのは困難であった。
このような課題があったため、車両内にスピーカーとマイクロホンを設置し、スピーカーから発した音響信号をマイクロホンで収音し、収音した音響信号から伝達関数を推定した場合、この伝達関数を用いた音声認識では、認識率が30%程度しか得られないという問題点があった。
次に、本発明の概要を説明する。
本発明の音響処理装置では、実際の話者による発話によって音場の伝達関数を推定する。
これにより、上述したスピーカーの口径によって生じる反射の差が解消され、室内における反射回数も実際の話者に合わせたものとなり、話者の口の位置に関する課題も解決することができる。
[第1実施形態]
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音響処理装置10の構成を示すブロック図である。図1に示すように、音響処理システム1は、音響処理装置10、第2収音部20、及び第1収音部30を備える。また、音響処理装置10は、第2音響信号取得部101、第1音響信号取得部102、伝達関数推定部103、音源定位部104、音源分離部105、音響特徴量抽出部106、発話認識部107、出力部108、及び記憶部109を備えている。また、音響処理装置10には、第2収音部20及び第1収音部30が接続されている。
第2収音部20は、1チャネルの音響信号を収録し、収録した1チャネルの音響信号を音響処理装置10に送信する。第2収音部20は、話者が装着する接話マイクロホンである。第2収音部20は、例えば周波数帯域(例えば200Hz〜4kHz)の成分を有する音波を受信する1個のマイクロホンを備えている。第2収音部20は、収録した1チャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。
また、第2収音部20は、例えば、マイクロホンを有する携帯電話であってもよい。この場合、携帯電話は、取得した音響信号を、例えば無線で、第2音響信号取得部101に送信するようにしてもよい。
第1収音部30は、M個(Mは1よりも大きい整数、例えば8個)のチャネルの音響信号を収録し、収録したMチャネルの音響信号を音響処理装置10に送信する。第1収音部30は、例えば周波数帯域(例えば200Hz〜4kHz)の成分を有する音波を受信するM個のマイクロホン301−1〜301−Mを備えている。以下、マイクロホン301−1〜301−Mのうち、特定しない場合は、単にマイクロホン301という。第1収音部30は、収録したMチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Mが1よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。
第2音響信号取得部101は、第2収音部20の1個のマイクロホンによって収録された1個の音響信号を取得する。第2音響信号取得部101は、取得した1個の音響信号を伝達関数推定部103に出力する。または、第2音響信号取得部101は、取得した1個の音響信号に対して、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。第2音響信号取得部101は、フーリエ変換した1個の音響信号を伝達関数推定部103に出力する。
第1音響信号取得部102は、第1収音部30のM個のマイクロホン301によって収録されたM個の音響信号を取得する。第1音響信号取得部102は、取得したM個の音響信号を伝達関数推定部103に出力する。または、第1音響信号取得部102は、取得したM個の音響信号に対して、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。第1音響信号取得部102は、フーリエ変換したM個の音響信号を伝達関数推定部103に出力する。
伝達関数推定部103は、第2音響信号取得部101及び第1音響信号取得部102から入力された音響信号を用いて後述するように伝達関数を推定し、推定した伝達関数を記憶部109に記憶させる。なお、伝達関数推定部103は、例えば、車両を使用する運転者が複数いるような場合、発話者と伝達関数とを関連づけて記憶部109に記憶させるようにしてもよい。この場合、伝達関数推定部103は、例えば、不図示の操作部から運転者によって入力された情報に応じて、記憶部109に記憶させた伝達関数から、運転者に対応する伝達関数を読み出して使用する。
記憶部109には、伝達関数が記憶される。また、車両を使用する運転者が複数いるような場合、記憶部109には、発話者と伝達関数とが関連づけて記憶される。
音源定位部104は、第1音響信号取得部102から入力された音響信号に対して、記憶部109に記憶されている伝達関数を読み出し、読み出した伝達関数を用いて音源方向を推定する(以下、音源定位という)。音源定位部104は、音源定位させた結果を示す情報を音源分離部105に出力する。
音源分離部105は、音源定位部104から入力された音源定位させた結果を示す情報に対して、記憶部109に記憶されている伝達関数を読み出し、読み出した伝達関数を用いて目的音と雑音との音源分離を行う。音源分離部105は、音源分離した各音源に対応する信号を音響特徴量抽出部106に出力する。なお、目的音とは、例えば、発話者から発せられた音声である。雑音(ノイズ)とは、目的音以外の、例えば、風切り音、集音された部屋に置かれている他の装置が発する音などである。
音響特徴量抽出部106は、音源分離部105から入力された各音源に対応する信号の音響特徴量を抽出し、抽出した各音響特徴量を示す情報を発話認識部107に出力する。
発話認識部107は、音源に人間が発話した音声が含まれている場合、音響特徴量抽出部106から入力された音響特徴量に基づいて音声認識し、認識した認識結果を出力部108に出力する。
出力部108は、例えば表示装置、音響信号出力装置等である。出力部108は、発話認識部107から入力された認識結果に基づく情報を、例えば表示部に表示する。
図2は、車両内に本実施形態の音響処理装置10を適用する例を説明する図である。図2に示すように、第2収音部20は、例えば、利用者が装着している接話マイクのため、利用者の口元にある。第1収音部30は、例えば、車両のルームミラー付近に取り付けられている。
また、符号401が示す矢印の画像のように、第2収音部20には、発話者が発話した音響信号が直接伝搬される。一方、符号402が示す矢印の画像のように、第1収音部30には、発話者が発話した音響信号が、直接伝搬され、または、車両のシート及びハンドル等に反射した後、伝搬される。
ここで、第2収音部20及び第1収音部30が収録する音響信号と、伝達関数との関係について説明する。
図3は、本実施形態に係る第1収音部30のマイクロホン301が1個の場合の音響モデルを説明する図である。
図3において、信号s(t)は、第2収音部20が収録した音響信号を時間領域の信号であり、信号x(t)は、第1収音部30が収録した音響信号を時間領域の信号である。a(t)は、伝達関数である。このため、時間領域における信号x(t)は、次式(1)のように表される。
Figure 0006078461
式(1)において、丸の中にXの演算子は、テルソン積の演算子である。また、次数Nとした場合、式(1)は次式(2)のように表される。
Figure 0006078461
また、式(1)を周波数領域で表すと、次式(3)のように表される。
Figure 0006078461
次に、第1収音部30のマイクロホン301がM個の場合の音響モデルを説明する。
図4は、本実施形態に係る第1収音部30のマイクロホン301がM個の場合の音響モデルを説明する図である。
図4において、信号s(t)は、図3と同様に、第2収音部20が収録した時間領域の信号であり、信号x(t)〜x(t)おのおのは、第1収音部30のマイクロホン301−1〜301−Mが収録した時間領域の信号である。a(t)〜a(t)は、伝達関数である。時間領域における信号x(t)〜a(t)は、次式(4)のように表される。
Figure 0006078461
また、次数Nとした場合、式(4)は次式(5)のように表される。
Figure 0006078461
また、式(4)を周波数領域で表すと、次式(6)のように表される。
Figure 0006078461
次に、本実施形態における伝達関数の推定方法を説明する。本実施形態では、伝達関数推定部103が、以下の7つの手法のうち、いずれかの手法を用いて伝達関数を推定する。
<TD手法>
まず、伝達関数推定部103が、リグレッションモデル(regression model)を用いて、伝達関数を算出する手法について説明する。また、リグレッションモデルとは、独立した値の相関関係を調べるときなどに用いられるモデルである。そして、リグレッションモデルは、リグレッサ(独立変数)と未知のパラメータである基底パラメータとの積により表される。なお、以下に説明する手法を、以下、TD(Time Domain)手法ともいう。
まず、1からNサンプル目を1フレームとすると、時間領域における1フレームの観測値x[N] は、次式(7)のように表される。
Figure 0006078461
なお、式(7)において、x[N] 、s[1:N] 、及びa(t)おのおのは、リグレションモデルにおける観測値、リグレッサ、及び基底パラメータである。また、x[N] は、第1収音部30によって収録された音響信号に基づく値であり、s[1:N] は、第2収音部20によって収録された音響信号に基づく値であり、a(t)は、求める伝達関数である。また、式(7)において、上付きのTは、転置行列を表す。
次に、Fフレーム分は、次式(8)のように表される。
Figure 0006078461
式(8)において、フレーム間のシフト長は任意であるが、本実施形態におけるTD手法では、1が一般的である。このため、Fフレームの場合は、次式(9)を用いてもよい。
Figure 0006078461
式(8)において、左辺の項をx[N|1:F]、右辺のsに関する項をΦとすると、残差二乗和を最小にする伝達関数a(t)の最小二乗推定値は、次式(10)のように表される。すなわち、伝達関数推定部103は、式(10)を用いて、伝達関数を推定する。
Figure 0006078461
式(10)において、(ΦΦ)−1Φは、Φの疑似逆行列である。すなわち、式(10)は、観測値のx[N|1:F]に、Φの疑似逆行列を乗じることで、伝達関数a(t)を推定することを意味している。
なお、本実施形態では、信号の内、先頭からTサンプルのみを使用する。以降、Tを使用次数とする。
図5は、TD手法により算出された伝達関数の特性の一例を示す図である。図5において、横軸はサンプル数、縦軸は信号の大きさを表す。図5において、符号501で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、
符号502で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図5に示した例では、収録した音響信号は、次数が4096、使用サンプル数が16384×3である。また、TD手法に用いた使用次数が4096、フレーム長が4096、シフト長が1である。また、図5に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
なお、本実施形態では、音響信号における伝達関数の推定を行う例を説明したが、メカニカルなシステムの制御などにおいて、非線形モデルにおける伝達関数の推定に本手法を適用することができる。例えば、本実施形態によれば、非線形メカニカルシステムの一つである倒立振子の質量や慣性モーメントなどのモデルのパラメータを、ラグランジュの運動方程式から導出されるリグレッションモデルを用いて推定することが可能である。
<FD手法>
次に、伝達関数推定部103が、周波数領域における複素リグレッションモデルを用いて、伝達関数を推定する手法について説明する。なお、複素リグレッションモデルとは、リグレッションモデルにおいて、時間領域のモデルを複素拡張したものである。なお、以下に説明する手法を、以下、FD(Frequency Domain)手法ともいう。
まず、1からNサンプル目を1フレームとすると、周波数領域における1フレームの観測値X[N] は、次式(11)のように表される。
Figure 0006078461
なお、式(11)において、X[N] 、S[N]、及びA(ω)おのおのは、リグレションモデルにおける観測値、リグレッサ、及び基底パラメータである。また、X[N] は、第1収音部30によって収録された音響信号に基づく値であり、S[N]は、第2収音部20によって収録された音響信号に基づく値であり、A(ω)は、求める伝達関数である。また、式(11)において、S[N]は複素スカラである。
次に、Fフレーム分は、次式(12)のように表される。
Figure 0006078461
式(12)において、左辺の項をx[N|1:F]、右辺のSに関する項をΦとすると、残差二乗和を最小にする伝達関数A(ω)の最小二乗推定値は、次式(13)のように表される。すなわち、伝達関数推定部103は、式(13)を用いて、伝達関数を推定する。
Figure 0006078461
式(10)と同様に式(13)は、観測値のx[N|1:F]に、Φの疑似逆行列を乗じることで、伝達関数A(ω)を推定することを意味している。
なお、上述したFD手法では、信号の内、先頭からTサンプルのみを使用する。
図6は、FD手法により算出された伝達関数の特性の一例を示す図である。図6において、横軸はサンプル数、縦軸は信号の大きさを表す。図6において、符号511で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、符号512で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図6に示した例では、収録した音響信号は、図5と同様である。また、FD手法に用いた使用次数が4096、フレーム長が16384、シフト長が10、窓関数がハミング関数である。また、図6に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
上述したFD手法では、X[n] をx[n] にフーリエ変換するとき、及びS[n]をs[n]にフーリエ変換するとき窓関数を用いることができる。例えば、用いる窓関数は、ハミング窓関数である。これにより、上述したFD手法では、伝達関数の推定に用いるとき、信号の中から切り出すサンプル数を適切に選択できるので、TD手法と比較して演算量を削減できる。
ここで、用いる窓関数の選択について説明する。
伝達関数推定部103は、用いる窓関数を、予め定めておいてもよい。または、伝達関数推定部103は、用いる窓関数を複数用意しておき、音場や発話者に応じて選択するようにしてもよい。例えば、図1に示した構成により、音声認識を行い、音声認識を行った認識率が高い窓関数を選択するようにしてもよい。窓関数の選択は、周波数分解能を細かくすることと、ダイナミックレンジを広くすることがトレードオフの関係にあるため、状況に応じて適切な窓関数を用いるようにしてもよい。
また、FD手法におけるフレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FD手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
また、FD手法の場合、リグレッションモデルを用いているため、観測サンプル内で二乗誤差が最小となる伝達関数を求めることができるので、精度の高い伝達関数を推定することができる。
<FDA手法>
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDA(Frequency Domain Average)手法ともいう。
まず、FD手法と同様に、1からNサンプル目を1フレームとすると、1フレームの観測値X[N] は、FD手法の式(11)と同じである。また、Fフレーム分は、FD手法の式(12)と同じである。
出力値を入力値で除算した値の平均を算出することで、伝達関数推定部103は、伝達関数A(ω)を、次式(14)によって推定する。
Figure 0006078461
式(14)に示すように、フレーム間において、出力値である第1収音部30によって収録された音響信号に基づく値X[N] を、入力値である第2収音部20によって収録された音響信号に基づく値S[N]によって除算した値の平均値を算出することで、伝達関数A(ω)を推定することを意味している。
なお、伝達関数A(ω)を逆フーリエ変換すると、Nサンプルあるが、本実施形態では、信号の内、先頭からTサンプルのみを使用する。
図7は、FDA手法により算出された伝達関数の特性の一例を示す図である。図7において、横軸はサンプル数、縦軸は信号の大きさを表す。図7において、符号521で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、符号522で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図7に示した例では、収録した音響信号は、図5と同様である。また、FDA手法に用いた使用次数が4096、フレーム長が4096、シフト長が10、窓関数がハミング関数である。また、図7に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
上述したFDA手法では、FD手法と同様に、X[n] をx[n] にフーリエ変換するとき、及びS[n]をs[n]にフーリエ変換するとき窓関数を用いることができる。例えば、用いる窓関数は、ハミング窓関数である。これにより、上述したFDA手法では、伝達関数の推定に用いるとき、信号の中から切り出すサンプル数を適切に選択できるので、TD手法と比較して演算量を削減できる。
また、FDA手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDA手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
<FDN手法>
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDN(Frequency Domain Normalize)手法ともいう。
まず、FD手法と同様に、1からNサンプル目を1フレームとすると、1フレームの観測値X[N] は、FD手法の式(11)と同じである。また、Fフレーム分は、FD手法の式(12)と同じである。
出力値の平均値と、入力値の平均値とを別に算出し、算出した出力の平均値を入力の平均値で除算することで、伝達関数推定部103は、伝達関数A(ω)を、次式(15)によって推定する。
Figure 0006078461
式(15)に示すように、フレーム間において、出力値である第1収音部30によって収録された音響信号に基づく値X[N] の平均値を、入力値である第2収音部20によって収録された音響信号に基づく値S[N]の平均値によって除算することで、伝達関数A(ω)を推定することを意味している。
なお、伝達関数A(ω)を逆フーリエ変換すると、Nサンプルあるが、本実施形態では、信号の内、先頭からTサンプルのみを使用する。
図8は、FDN手法により算出された伝達関数の特性の一例を示す図である。図8において、横軸はサンプル数、縦軸は信号の大きさを表す。図8において、符号531で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、符号532で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図8に示した例では、収録した音響信号は、図5と同様である。また、FDN手法に用いた使用次数が4096、フレーム長が16384、シフト長が16384、窓関数がハミング関数である。また、図8に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
上述したFDN手法では、FD手法と同様に、X[n] をx[n] にフーリエ変換するとき、及びS[n]をs[n]にフーリエ変換するとき窓関数を用いることができる。例えば、用いる窓関数は、ハミング窓関数である。これにより、上述したFDN手法では、伝達関数の推定に用いるとき、信号の中から切り出すサンプル数を適切に選択できるので、TD手法と比較して演算量を削減できる。
また、FDN手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDN手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
<FDP手法>
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均によって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDP(Frequency Domain Phase Average)手法ともいう。
まず、FD手法と同様に、1からNサンプル目を1フレームとすると、1フレームの観測値X[N] は、FD手法の式(11)と同じである。また、Fフレーム分は、FD手法の式(12)と同じである。
振幅値は、フレーム間を平均し、かつ、位相は、一番信頼できそうなフレーム(kとする;ただしkは1以上かつF以下の値)選択することで、伝達関数A(ω)は、次式(16)のようになる。
Figure 0006078461
式(16)において、∠は、位相角度である。式(16)の右辺1項目は、フレーム間において、第1収音部30によって収録された音響信号に基づく値X[N] の絶対値の平均値を、第2収音部20によって収録された音響信号に基づく値S[N]の絶対値の平均値によって除算する。すなわち、右辺1項目は、フレーム間において振幅を平均することを意味している。
次に、右辺2項目は、信頼できそうなkフレームにおける第1収音部30によって収録された音響信号に基づく値X[N] の位相角度を、第2収音部20によって収録された音響信号に基づく値S[N]の位相角度によって除算することを意味している。
そして、この右辺1項目に、右辺2項目を乗じることで、伝達関数A(ω)を推定する。
なお、伝達関数推定部103は、一番信頼できそうなk番目のフレームを、に基づいて選択する。選択の指標については、使用周波数帯域の全域に対して大きなパワーとなるフレームを選ぶことが望ましい。
伝達関数A(ω)を逆フーリエ変換すると、Nサンプルあるが、本実施形態では、信号の内、先頭からTサンプルのみを使用する。
図9は、FDP手法により算出された伝達関数の特性の一例を示す図である。図9において、横軸はサンプル数、縦軸は信号の大きさを表す。図9において、符号541で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、符号542で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図9に示した例では、収録した音響信号は、図5と同様である。また、FDP手法に用いた使用次数が4096、フレーム長が16384、シフト長が16384、窓関数がハミング関数である。また、図9に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
上述したFDP手法によれば、FD手法等と同様に、X[n] をx[n] にフーリエ変換する窓をかけることができる。同様に、S[n]をs[n]にフーリエ変換する窓をかけることができる。このため、FDP手法では、TD手法と比較して演算量を削減できる。
また、FDP手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDP手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
<FDC手法>
次に、伝達関数推定部103が、周波数領域におけるフレーム間の加算平均に、さらにクロススペクトル法を適用するによって、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDC(Frequency Domain Cross Spectrum)手法ともいう。
まず、FD手法と同様に、1からNサンプル目を1フレームとすると、1フレームの観測値X[N] は、FD手法の式(11)と同じである。また、Fフレーム分は、FD手法の式(12)と同じである。
クロススペクトル法を用いることで、伝達関数A(ω)は、次式(17)のようになる。なお、式(17)において、上付き*(アスタリスク)は、複素共役を表す。
Figure 0006078461
ここで、クロススペクトル法について説明する。
自己相関関数Rをフーリエ変換することで、パワースペクトル密度関数S(f)が得られ、相互相関関数Rxyをフーリエ変換することで、クロススペクトル密度Sxy(f)が得られる。
さらに、時間軸領域の畳み込みの関係が周波数領域で積となる合成積則より、クロススペクトル密度Sxy(f)は、インパルス応答の周波数領域表現、すなわち伝達関数であるH(f)とパワースペクトル密度関数S(f)との積で表される。
さらに、パワースペクトル密度と、信号のフーリエ変換の関係より、ワースペクトル密度関数S(f)は、次式(18)のように表され、クロススペクトル密度Sxy(f)は、次式(19)のように表される。
Figure 0006078461
Figure 0006078461
すなわち、観測した入力信号x(t)、出力信号y(t)か、これらの信号の離散時間表現x(n)、y(n)のフーリエ変換を求め、式(18)及び式(19)の演算を行うことでインパルス応答の推定を行うことができる。
上述した式(17)において、右辺の項の分母は式(18)の総和であり、分子は式(19)の総和に相当する。従って、式(18)の総和を、式(19)の総和で除算することで、伝達関数H(f)=A(ω)を算出することができる。
なお、伝達関数A(ω)を逆フーリエ変換すると、Nサンプルあるが、本実施形態では、信号の内、先頭からTサンプルのみを使用する。
図10は、FDC手法により算出された伝達関数の特性の一例を示す図である。図10において、横軸はサンプル数、縦軸は信号の大きさを表す。図10において、符号551で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、符号552で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図10に示した例では、収録した音響信号は、図5と同様である。また、FDC手法に用いた使用次数が4096、フレーム長が16384、シフト長が16384、窓関数がハミング関数である。また、図10に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
上述したように、FDC手法では、FD手法等と同様に、X[n] をx[n] にフーリエ変換する窓をかけることができる。同様に、S[n]をs[n]にフーリエ変換する窓をかけることができる。このため、FDC手法では、TD手法と比較して演算量を削減できる。
また、FDC手法においても、フレーム間のシフト長は、音場の伝達関数は時不変であることから任意であってよい。シフト長を長くした場合は計算量を削減できるが、伝達関数推定に使用するフレーム数が少なくなるため、推定の性能が劣化する。このため、FDC手法におけるフレーム間のシフト長は、所望の推定精度によって適切に設定する。
<FDS手法>
次に、伝達関数推定部103が、周波数領域の1フレームで、伝達関数の推定する手法について説明する。なお、以下に説明する手法を、以下、FDS(Frequency Domain Single frame)手法ともいう。
まず、FD手法と同様に、1からMサンプル目を1フレームとすると、1フレームの観測値X[N] は、FD手法の式(11)と同じである。
式(11)より、1フレーム分について伝達関数A(ω)を算出すると、次式(20)のようになる。
Figure 0006078461
なお、1フレーム分のみで伝達関数を推定するため、FD手法等で用いる1フレームのサンプル数より多くする。
図11は、FDS手法により算出された伝達関数の特性の一例を示す図である。図11において、横軸はサンプル数、縦軸は信号の大きさを表す。図11において、符号561で示す領域の画像は、1チャネル目における第2収音部20と第1収音部30との間の伝達関数、符号562で示す領域の画像は、2チャネル目における第2収音部20と第1収音部30との間の伝達関数である。図11に示した例では、収録した音響信号は、図5と同様である。また、FDS手法に用いた使用次数が4096、フレーム長が16384×3、窓関数がハミング関数である。また、図11に示した例では、伝達関数推定部103は、先頭から4092サンプルを伝達関数として使用する。
次に、FDS手法において伝達関数推定部103が行う処理手順について説明する。図12は、本実施形態に係るFDS手法において伝達関数推定部103が行う処理手順のフローチャートである。なお、第2収音部20及び第1収音部30が収録した音響信号には、1〜Zサンプル目が含まれているとする。
(ステップS101)第2音響信号取得部101及び第1音響信号取得部102は、音響信号を取得する。
(ステップS102)伝達関数推定部103は、N−Z=TとなるようなTサンプルを選択する。なお、Tは、最後に伝達関数として採用する使用次数である。
(ステップS103)伝達関数推定部103は、出力側であるX[N]の残響を軽減するため、S[N]のZ+1〜Nサンプル目を0で埋める。なお、伝達関数推定部103は、X[N]は、そのまま使用する。
(ステップS104)伝達関数推定部103は、式(20)を用いて、逆フーリエ変換して、最初のTサンプルを伝達関数として決定する。
上述したように、FDS手法では、FD手法等と同様に、X[n] をx[n] にフーリエ変換する窓をかけることができる。同様に、S[n]をs[n]にフーリエ変換する窓をかけることができる。このように、FDS手法では、TD手法と比較して演算量を削減できる。
以上のように、本実施形態の音響処理装置10は、音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部20と、第1収音部よりも発話者に近い位置に移動可能に配置され、音響信号を収録する第2収音部30と、音場の所定の位置に発話者がいる際に第1収音部及び第2収音部によって収録された音響信号から伝達関数を推定する伝達関数推定部103と、伝達関数推定部で推定した伝達関数を用いて音響信号の処理を行う音響信号処理部(音源定位部104、音源分離部105、音響特徴量抽出部106、発話認識部107)と、を備える。
また、本実施形態の音響処理装置10は、第2収音部20は、発話者の直接音が収録できる位置に配置される。
この構成によって、本実施形態の音響処理装置10は、音場における伝達関数を精度良く推定することができる。
次に、本実施形態の音響処理装置10を用いた場合の実験結果について説明する。
図13は、従来のスピーカーから発した音声をマイクロホンで収録して伝達関数を推定した場合の音声認識率の一例を説明する図である。図14は、本実施形態にかかる音響処理装置10を用いた場合の音声認識率の一例を説明する図である。なお、図14に示す例では、伝達関数推定部13は、FD手法を用いて、伝達関数を推定した。なお、FD手法を用いた理由は、評価した結果、FD手法が上述した7つの手法のうち、最も音声認識率が高かったためである。
図13において、符号601が示す画像は、第1計測点の音声認識率を示し、符号602が示す画像は、第2計測点の音声認識率を示している。
図13において、横軸は測定点、縦軸は音声認識率を表す。図14において、横軸は話者、縦軸は音声認識率を表す。符号611が示す画像は、第1話者の音声認識率を示し、符号612が示す画像は、第2話者の音声認識率を示し、符号613が示す画像は、第3話者の音声認識率を示し、符号614が示す画像は、第4話者の音声認識率を示している。
図13に示すように、従来技術の音声認識率は、測定点1では約28%、測定点2では約25%であった。
一方、図14に示すように、本実施形態では、話者1から話者4の各の音声認識率は、約72%、74%、67%、64%であった。
すなわち、本実施形態の音響処理装置10では、従来技術と比較して、音声認識率を約40%改善することができた。
なお、上述した各手法によって伝達関数を推定するのは、最初の1回のみでもよい。伝達関数推定部103は、推定した伝達関数を記憶部109に記憶させ、2回目以降は、記憶部109に記憶させた伝達関数を用いるようにしてもよい。なお、1回目の計測は、例えば、車両内のシート位置を調整するときなどに、車両の各種制御を行う制御部からの指示に応じて行うようにしてもよい。
また、第2収音部20がスマートフォン等の携帯電話の場合、運転者が車両を停止させている際に携帯電話で通話を行ったときに、伝達関数推定部103は、音響信号を取得して伝達関数を推定するようにしてもよい。さらに、運転者が携帯電話で通話を行ったとき、逐次、伝達関数を更新するようにしてもよい。
また、本実施形態では、発話者の例として、運転者のみを説明したが、助手席または後部座席等に座っている人の音響信号についても、上述したように伝達関数を推定することができる。この場合、例えば、運転者または他の人が不図示の操作部を操作した結果に応じて、伝達関数推定部103は、記憶部109に記憶させた伝達関数を切り替えるようにしてもよい。
なお、第1実施形態では、伝達関数推定部103は、上述した手法のうち1つの手法を用いて伝達関数を推定する例を説明したが、これに限られない。伝達関数推定部103は、2つ以上の手法を用いて伝達関数を推定するようにしてもよい。
例えば、伝達関数推定部103は、FD手法とTD手法を統合して、以下のように伝達関数を推定するようにしてもよい。伝達関数推定部103は、最小二乗推定で得られたA(ω)とa(t)とを統合する。そして、伝達関数推定部103は、伝達関数補間のときの類推を行う。また、伝達関数推定部103は、FD手法における位相の精度と、TD手法における振幅の精度を算出する。そして、伝達関数推定部103は、算出した位相の精度または振幅の精度と、予め定められている精度と比較する。伝達関数推定部103は、
位相の精度が予め定められている精度より良い場合、FD手法によって伝達関数を推定する。一方、伝達関数推定部103は、振幅の精度が予め定められている精度より良い場合、TD手法によって伝達関数を推定する。
また、第1実施形態では、第2収音部20と第1収音部30とを用いて発話者が発話した音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明したが、これに限られない。第1収音部30は、発話者のかわりにスピーカーから出力された音響信号を取得する。そして、伝達関数推定部103は、取得した音響信号を観測値として伝達関数を求めて、求めた伝達関数と、上述した手法のいずれかで推定した伝達関数とを統合するようにしてもよい。
第2収音部20と第1収音部30とが収録した発話者の音響信号に基づいて推定された伝達関数A(ω)は、次式(21)及び式(23)のように表される。なお、式(21)〜式(24)において、伝達関数A(ω)は、スピーカーから出力した音響信号を用いて計測された伝達関数である。
Figure 0006078461
なお、式(21)において、Dは、A(ω)は、次式(22)である。
Figure 0006078461
Figure 0006078461
なお、式(23)において、補間された伝達関数A(ω)は、次式(24)である。
Figure 0006078461
式(21)と式(23)より、A(ω)は、次式(25)である。
Figure 0006078461
なお、Dの値によって、式(21)と式(23)のどちらに重みをかけるか調整することができる。
スピーカーから出力された音響信号に基づいて計測された伝達関数と、第2収音部20と第1収音部30とが収録した発話者の音響信号に基づいて推定された伝達関数とを統合する意味合いは、同じ方向の2つの伝達関数の間を補間し、さらに後述するGMMを補間することになる。
以上のように、スピーカーから出力された音響信号に基づいて計測された伝達関数と、第2収音部20と第1収音部30とが収録した発話者の音響信号に基づいて推定された伝達関数とを統合することで、運転者の個人差(例えば、背の高さや発話の向き)を考慮した伝達関数を推定することが可能になる。
また、複数の発話者の伝達関数を切り替える場合、伝達関数推定部103は、第1収音部30が収録した音響信号を用いて話者同定を行って、同定した話者に対応する伝達関数に切り替えるようにしてもよい。この場合、話者同定には、GMM(混合ガウシアンモデル)を用いて、事前学習させておくようにしてもよい。または、伝達関数推定部103は、第2収音部20と第1収音部30とが収録した音響信号に基づいて伝達関数を推定したときの音響信号から、同定に用いる音響モデルを生成し、生成した音響モデルを記憶部109に記憶させるようにしてもよい。そして、伝達関数推定部103は、音響特徴量抽出部106が抽出した特徴量を用いて、GMMの発話者毎の尤度を求める。そして、このように算出した尤度の比を用いて、式(21)及び式(23)におけるDを決定するようにしてもよい。換言すると、最も大きな値の尤度に対応する音響モデルの伝達関数を採用することを意味している。なお、手動で使用する伝達関数が切り替えられる場合、Dは、0または1である。
[第2実施形態]
第1実施形態では、接話マイクである第2収音部20と、マイクロホンアレイである第1収音部30とを用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明した。本実施形態では、第2収音部20を用いずに、第1収音部30を用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明する。
図15は、本実施形態に係る音響処理装置10Aの構成を示すブロック図である。図15に示すように、音響処理システム1Aは、音響処理装置10A、第1収音部30、及び撮像部40を備える。また、音響処理装置10Aは、第1音響信号取得部102、伝達関数推定部103A、音源定位部104、音源分離部105、音響特徴量抽出部106、発話認識部107、出力部108、記憶部109、及び口元位置推定部110を備えている。伝達関数推定部103Aは、伝達関数更新部103A−1を備えている。また、音響処理装置10Aには、第1収音部30が接続されている。なお、第1実施形態で説明した図1の音響処理装置10と同じ機能を有する機能部については、同じ符号を用いて説明を省略する。
口元位置推定部110には、例えば発話者の口元を含む画像を撮像する撮像部40が接続されている。口元位置推定部110は、撮像部40によって撮像された画像に基づいて、第1収音部30に対する発話者の口元の位置を推定する。口元位置推定部110は、例えば、撮像された画像に含まれる口元の画像の大きさに基づいて、第1収音部30に対する発話者の口元の位置を推定する。口元位置推定部110は、推定した口元位置を示す情報を伝達関数推定部103Aに出力する。
なお、カルマンフィルタを用いて音響信号だけに基づいて音源の位置を推定する場合、口元位置推定部110は、伝達関数推定部103Aが備えていてもよい。
伝達関数推定部103Aは、口元位置推定部110が出力した口元位置を示す情報と、第1収音部30が収録した音響信号とを用いて伝達関数を推定し、推定した伝達関数を記憶部109に記憶させる。
図16は、本実施形態に係る伝達関数更新部103A−1の構成を示すブロック図である。図16に示すように、伝達関数更新部103A−1は、観測モデル部701、更新部702、予測部703、及び観測部704を備えている。
観測モデル部701には、後述する1番目のマイクロホン301を基準とした時間差t[l]と、マイクロホン301に対する発話者の位置を示す情報とが入力される。観測モデル部701は、後述するように、観測モデルを用いて、観測モデルζ[l]を算出し、算出したζ[l]を更新部702に出力する。
更新部702は、観測モデル部701から入力される観測モデルζ[l]、予測部703から入力される分散P [l|l−1]、及び観測部704から入力される観測値h(ζ [l])を用いて、観測モデルζ [l]と分散P [l]を更新し、更新した観測モデルζ [l]と分散P [l]を予測部703に出力する。
予測部703は、更新部702から入力された観測モデルζ [l]と分散P [l]とを用いて、1つに先の観測モデルζ [l|l−1]と分散P [l|l−1]とを予測する。予測部703は、予測した観測モデルζ [l|l−1]と分散P [l|l−1]とを観測部704に出力し、予測した分散P [l|l−1]を更新部702に出力する。
観測部704は、予測部703から入力された観測モデルζ [l|l−1]と分散P [l|l−1]とを用いて観測値h(ζ [l])を算出し、算出した観測値h(ζ [l])を更新部702に出力する。
ここで、伝搬波モデルについて説明する。以下の説明では、発話者が発話した音響信号に基づく周波数領域の信号をS(ω)とし、マイクロホンが収録する音響信号に基づく周波数領域の信号をX[n](ω)とし、伝達関数をA(ξ,ξm[n],ω)とする。
音響信号は1チャネルの場合の周波数領域の信号をX[n](ω)は、次式(26)のように表される。なお、nは、マイクロホンの番号、ξは発話位置、ξm[n]は、n番目のマイクロホンの位置である。
Figure 0006078461
なお、式(26)において、ξは次式(27)、ξm[n]は次式(28)である。
Figure 0006078461
Figure 0006078461
また、音響信号はマルチチャネルの場合の周波数領域の信号をX(ω)は、次式(29)のように表される。
Figure 0006078461
なお、式(29)において、伝達関数A(ξ,ξ,ω)は次式(30)である。
Figure 0006078461
図17は、最も早く発話者の音響信号が到達する1番目のマイクロホン301が収録した音響信号と、n番目のマイクロホン301が収録した音響信号の波形の例を説明する図である。図17において、横軸は時刻、縦軸は信号の大きさを表す。時刻t=0のとき、発話者が発話し、上述したように、発話者の位置はξであり、n番目のマイクロホンの位置はξm[n]である。また、発話者とn番目のマイクロホンとの距離をD[n]とする。
図17に示すように、時刻t[1]のとき、1番目のマイクロホン301が発話者によって発話された音響信号が始まり、時刻t[n]のとき、n番目のマイクロホン301が発話者によって発話された音響信号が始まる。1番目のマイクロホン301に対するn番目のマイクロホン301の遅延時間t[n]は、次式(31)のように表される。
Figure 0006078461
なお、式(31)において、cは光速である。距離D[n]は、式(27)、式(28)より、次式(32)のように表される。
Figure 0006078461
次に、運動モデルについて説明する。
発話者の運動モデル(ランダムウォークモデル)は、次式(33)のように表される。
Figure 0006078461
なお、式(33)において、Ws[l]は、次式(34)である。
Figure 0006078461
また、マイクロホンの運動モデル(ランダムウォークモデル)は、次式(35)のように表される。
Figure 0006078461
なお、式(35)において、Wm[l]は、次式(36)であり、Wm[n][l]は、次式(37)である。
Figure 0006078461
Figure 0006078461
なお、式(36)においてRは、共分散行列である。
次に、観測モデルについて説明する。なお、以下の観測モデルは、観測モデル部701に記憶される。
1番目のマイクロホン301を基準とした時間差を観測すると、時間差は、次式(38)のように表される。
Figure 0006078461
また、観測モデルは、次式(39)のように表される。
Figure 0006078461
観測モデル部701は、式(38)と式(39)を用いて観測モデルζ[l]を算出し、算出した観測モデルζ[l]を更新部702に出力する。
次に、予測部703が行う予測ステップについて説明する。
予測部703は、次式(40)を用いて、平均のアップデートを行う。
Figure 0006078461
また、予測部703は、次式(41)を用いて、分散Pのアップデートを行う。
Figure 0006078461
式(41)において、Iは単位行列、diag()は、対角行列を表している。また、Pは、分散であり、Fはシステムの時間変移に関する線形モデルであり、Rは共分散行列である。予測部703は、更新部702から入力された観測モデルζ [l−1]を観測モデルζ [l|l−1]に更新して、更新した観測モデルζ [l|l−1]を観測部704に出力する。また、予測部703は、更新部702から入力された分散P [l−1]を分散P [l|l−1]に更新して、更新した分散P [l|l−1]を観測部704と更新部702とに出力する。
次に、観測部704が行う観測ステップについて説明する。
観測部704は、予測部703から入力された観測モデルζ [l|l−1]を観測し、次式(42)により、観測値h(ζ [l])を算出し、算出した観測値h(ζ [l])を更新部702に出力する。
Figure 0006078461
次に、更新部702が行う、更新ステップについて説明する。
更新部702は、次式(43)により、カルマンゲインKを更新する。
Figure 0006078461
なお、式(43)において、Hは、状態空間に観測空間を線形写像する役割をする観測モデルであり、Qは共分散行列である。
また、更新部702は、次式(44)により、観測モデルζ [l]を更新する。
Figure 0006078461
なお、式(43)において、P[l]は、次式(45)であり、H[l]は、次式(46)であり、Q[l]は、次式(47)である。
Figure 0006078461
Figure 0006078461
Figure 0006078461
なお、式(47)において、σは、観測に対する分散である。
更新部702は、観測モデル部701から入力された観測モデルζ[l]と、観測部704から入力された観測値h(ζ [l])と、予測部703から入力された分散P [l|l−1]と、上述した式(44)〜(47)を用いて、観測モデルζ [l]と分散P [l]を更新し、更新した観測モデルζ [l]と分散P [l]を予測部703に出力する。
伝達関数更新部103A−1は、上述した更新を、推定誤差が最小になるまで行って伝達関数A(ξ s[l],ξ m[l],ω)を推定する。
以上のように、本実施形態の音響処理装置10Aは、音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部30と、第1収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部(口元位置推定部110)と、音場の所定の位置に発話者がいる際に第1収音部によって収録された音響信号と推定した発話者位置から伝達関数を推定する伝達関数推定部103と、伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部(104〜107)と、を備える。
この構成によって、本実施形態によれば、第2収音部20を用いず、第1収音部30のみで伝達関数を推定することができる。
なお、第2収音部20と第1収音部30とを用いてを収録し、収録した音響信号に基づいて最初の1回目のみ伝達関数を推定した場合、2回目以降は、第1収音部30を用いて音響信号を収録するようにしてもよい。そして、伝達関数推定部103は、第1収音部30によって収録された音響信号を観測値とし、1回目で推定した伝達関数を、カルマンフィルタを逐次更新することで補正していくことで、伝達関数を補正するようにしてもよい。
なお、このように逐次更新をおこなうため、伝達関数推定部103は、上述した手法のうち時間領域の手法を用いて、伝達関数を推定するようにしてもよい。
なお、第1実施形態では、運転者が複数いる場合、第2収音部20と第1収音部30とを用いて音響信号を収録し、収録した音響信号に基づいて伝達関数を推定する例を説明したが、これに限らない。
例えば、第1運転者の発話のみを、第2収音部20と第1収音部30とを用いてを収録し、収録した音響信号に基づいて伝達関数を推定する。そして、他の運転者の発話は、第1収音部30を用いて収録する。そして、伝達関数推定部103または103Aは、収録した運転者の音響信号である観測値とし、第1運転者の伝達関数を、カルマンフィルタを逐次更新することで補正していくことで、第1運転者の伝達関数を補正するようにしてもよい。このように補正した伝達関数を、伝達関数推定部103または103Aは、発話者である運転者と関連づけて記憶部109に記憶させるようにしてもよい。
同様に、逐次更新をおこなうため、伝達関数推定部103または103Aは、上述した手法のうち時間領域の手法をもちいて、伝達関数を推定するようにしてもよい。
なお、第1実施形態の音響処理装置10においても、上述した発話者の同定を行うようにしてもよい。伝達関数推定部103または103Aは、同定された発話者に対応する伝達関数が、すでに記憶部109に記憶されているか否かを判別する。伝達関数推定部103または103Aは、記憶部109に、すでに発話者に対応する伝達関数が記憶されている場合、発話者に対応する伝達関数を記憶部109から読み出して用いる。
一方、伝達関数推定部103または103Aは、記憶部109に、すでに発話者に対応する伝達関数が記憶されていない場合、発話者に対して発話を促す報知を行うようにしてもよい。報知は、例えば、音響処理装置10に接続されている不図示のスピーカー等から音響信号として報知してもよく、または、音響処理装置10(または10A)に接続されている不図示の表示部等から画像や文字情報として報知してもよい。
ここで、発話者の同定を行って伝達関数を設定する処理手順の例を、図18〜図20を用いて説明する。図18〜図20は、本実施形態に係る伝達関数を設定する処理のフローチャートである。以下の説明では、図15の構成の音響処理装置10Aが伝達関数を設定する処理する例を説明するが、図1の構成の音響処理装置10が伝達関数を設定する処理するようにしてもよい。
まず、伝達関数を設定する処理の一例を、図18を用いて説明する。
(ステップS201)伝達関数推定部103Aは、撮像部40が音響処理装置10Aに接続されている場合、撮像装置が撮像した画像に基づいて、座席シートに乗員が着席したか否かを判別する。なお、伝達関数推定部103Aは、座席シートに取り付けられている不図示の乗員検知センサが検出した結果に基づいて、座席シートに乗員が着席したか否かを判別するようにしてもよい。伝達関数推定部103Aは、座席シートに乗員が着席したと判別した場合(ステップS201;YES)、ステップS202に進み、座席シートに乗員が着席していないと判別した場合(ステップS201;NO)、ステップS201を繰り返す。
(ステップS202)伝達関数推定部103Aは、例えば、第1音響信号取得部102が取得した音響信号に基づいて、座席シートに座った利用者の同定を自動的に行う。なお、伝達関数推定部103Aは、撮像部40が撮像した画像を用いて、利用者の同定を行うようにしてもよい。または、音響処理装置10Aに接続されている不図示の操作部を利用者が操作することで、利用者に関する情報を選択または入力するようにしてもよい。
(ステップS203)伝達関数推定部103Aは、ステップS202で同定した利用者に対応する伝達関数が記憶部109に記憶されているか否か判別する。伝達関数推定部103Aは、同定した利用者に対応する伝達関数が記憶部109に記憶されていないと判別した場合(ステップS203;NO)、ステップS206に進み、同定した利用者に対応する伝達関数が記憶部109に記憶されていると判別した場合(ステップS203;YES)、ステップS205に進む。
(ステップS205)伝達関数推定部103Aは、記憶部109に記憶されている伝達関数を読み出して、読み出した伝達関数を利用者の発話に対して用いるように設定する。伝達関数推定部103Aは、設定後、処理を終了する。
(ステップS206)伝達関数推定部103Aは、例えば予め記憶部109に記憶されている発話を要請する旨の音声信号を出力部108に出力することで、利用者に発話要請を行う。
(ステップS207)伝達関数推定部103Aは、第1音響信号取得部102が取得した音響信号に基づいて、伝達関数を計測する。
(ステップS208)伝達関数推定部103Aは、計測した伝達関数を記憶部109に保存する。
次に、伝達関数を設定する処理手順の他の例を、図19を用いて説明する。
(ステップS301〜S302)伝達関数推定部103Aは、ステップS301〜S302の処理を、ステップS201〜S202(図18)と同様に処理を行う。なお、伝達関数推定部103Aは、ステップS301終了後、ステップS302を行わずに、ステップS303に処理を進めてもよい。
(ステップS303)伝達関数推定部103Aは、不図示の操作部を利用者が操作した結果に基づいて、伝達関数の測定を行うか否かを判別する。伝達関数推定部103Aは、伝達関数の測定を行わないと判別した場合(ステップS303:NO)、ステップS304に進み、伝達関数の測定を行うと判別した場合(ステップS303:YES)、ステップS305に進む。
(ステップS304〜S306)伝達関数推定部103Aは、ステップS303〜S306の処理を、ステップS205、S207、及びS208と同様に行う。
ステップS303において、例えば、利用者が、音声認識機能を利用しないことを示す情報を選択した場合、伝達関数推定部103Aは、伝達関数の測定を行わないと判別するようにしてもよい。または、利用者が、音声認識機能を利用することを示す情報を選択した場合、伝達関数推定部103Aは、伝達関数の測定を行うと判別するようにしてもよい。
次に、伝達関数を設定する処理手順の他の例を、図20を用いて説明する。
(ステップS401〜S403)伝達関数推定部103Aは、ステップS401〜S404の処理を、ステップS303〜S305(図19)と同様に処理を行う。例えば、利用者が操作部を操作したことに応じて、ステップS401の処理を開始する。伝達関数推定部103Aは、ステップS403終了後、処理をステップS404に進める。
(ステップS404)伝達関数推定部103Aは、伝達関数推定部103Aは、計測した伝達関数をアップデートして、記憶部109に保存する。または、伝達関数推定部103Aは、伝達関数推定部103Aは、計測した伝達関数を記憶部109に、新規に保存する。
図20に示した例において、すでに記憶部109に記憶されている伝達関数を用いて認識処理を音響処理装置10Aが行っていても、利用者にとって認識率が低いと感じた場合、利用者は、再度、伝達関数の計測を行うように操作部を操作するようにしてもよい。この操作に応じて音響処理装置10Aは、ステップS401において、伝達関数の計測を行うと判別するようにしてもよい。
なお、図18〜図20に示した例は一例であり、これに限られない。例えば、記憶部109には、複数の音響モデルや言語モデルが利用者を示す情報と関連づけて記憶されていてもよい。そして、伝達関数推定部103Aは、利用者を同定した結果に基づいて、利用者に対応する音響モデルや言語モデルを記憶部109から読み出して用いるようにしてもよい。
このように複数の音響モデルや言語モデルを用いることで、例えば、第1利用者が日本語を話す男性、第2利用者が英語を話す女性のような場合であっても、本実施形態の音響処理装置10Aは、車両等の空間において、利用者毎に音響モデルや言語モデルを用いて伝達関数を計測することができる。この結果、本実施形態によれば、車両等の空間において、音声認識率を向上させることができる。
[第3実施形態]
第1実施形態では、接話マイクロホンである第2収音部20と、マイクアレイである第1収音部30とが収録した音響信号に基づいて、伝達関数推定部103が、伝達関数を推定する例を説明した。
本実施形態では、接話マイクロホンを用いずに、マイクロホンアレイのみを用いて、伝達関数を推定する例を説明する。
図21は、本実施形態に係る音響処理装置10Bの構成を示すブロック図である。図21に示すように、音響処理システム1Bは、音響処理装置10B及び第1収音部30Bを備える。また、音響処理装置10Bは、第1音響信号取得部102B、伝達関数推定部103B、音源定位部104、音源分離部105、音響特徴量抽出部106、発話認識部107、出力部108、記憶部109、遅延部111、及び選択部112を備えている。また、音響処理装置10には、第1収音部30Bが接続されている。なお、音響処理装置10と同じ機能を有する機能部については、同じ符号を用いる。また、第1音響信号取得部102Bは、第1音響信号取得部102(図1)の対応し、第1収音部30Bは、第1収音部30(図1)に対応する。
第1音響信号取得部102Bは、第1収音部30のM個のマイクロホン301によって収録されたM個の音響信号を取得する。第1音響信号取得部102Bは、取得したM個の音響信号を伝達関数推定部103B、遅延部111、及び選択部112に出力する。
遅延部111は、第1音響信号取得部102Bから入力されたM個の音響信号に対して、予め定められている時間遅延させる。ここで、予め定められている時間とは、後述するように、選択部112によって選択された代表チャネルに対応するマイクロホン301より音源に近い音響信号のインパルス応答が、演算に正の時刻となる時間である。遅延部111は、時間遅延させたM個の音響信号を、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。遅延部111は、フーリエ変換したM個の音響信号を伝達関数推定部103Bに出力する。なお、音源定位部104に入力される音響信号は、遅延部111によって遅延され、フーリエ変換される前の信号であってもよい。
選択部112は、第1音響信号取得部102Bから入力されたM個の音響信号の中から、1つの音響信号を選択する。選択する音響信号は、任意であってもよく、予め定められたマイクロホン301に対応するものであってもよい。選択部112は、選択した結果を示す情報を伝達関数推定部103Bに出力する。なお、音響信号の選択は、伝達関数推定部103Bが行ってもよい。
伝達関数推定部103Bは、選択部112から入力された選択された結果を示す情報と、遅延部111から入力された音響信号とを用いて後述するように伝達関数を推定し、推定した伝達関数を音源定位部104に出力する。また、伝達関数推定部103Bは、推定した伝達関数を記憶部109に記憶させる。なお、伝達関数推定部103Bは、例えば、車両を使用する運転者が複数いるような場合、発話者と伝達関数とを関連づけて記憶部109に記憶させるようにしてもよい。この場合、伝達関数推定部103Bは、例えば、不図示の操作部から運転者によって入力された情報に応じて、記憶部109に記憶させた伝達関数から、運転者に対応する伝達関数を読み出して使用する。
図22は、本実施形態に係る話者Spと第1収音部30Bのマイクロホン301との位置関係を説明する図である。図22において、話者Spがいる床の面をxy平面、話者Spの前方方向をx軸方向、話者Spの左手方向をy軸方向、高さ方向をz軸方向とする。
図22に示す例では、第1収音部30Bが4つのマイクロホン301−1〜301−4を備えている。4つのマイクロホン301−1〜301−4によって、マイクロホンアレイが構成される。マイクロホンアレイは、例えばxy平面上に構成されている。
図22のように、話者Spの口元と各マイクロホン301−1〜301−4とのそれぞれの距離は、L1、L2、L3、L4である。図22に示した例では、マイクロホン301−4と話者Spの口元との距離L4が、最も短い、すなわち最も近い。マイクロホン301−1と話者Spの口元との距離L1は、距離L4より長く距離L3より短い。マイクロホン301−3と話者Spの口元との距離L3は、距離L1より長く距離L2より短い。マイクロホン301−4と話者Spの口元との距離L4が、最も長い、すなわち最も遠い。このように、第1実施形態の図2で説明したような車両に設置されるマイクロホンアレイと、話者Spとの口元との距離は、マイクロホン301毎に異なっている。
なお、以下の説明では、マイクロホン301−1に到達する1ch(チャネル)目の音響信号を1ch、マイクロホン301−2に到達する2ch目の音響信号を2ch、マイクロホン301−3に到達する3ch目の音響信号を3ch、マイクロホン301−4に到達する4ch目の音響信号を4chという。
図23は、本実施形態に係るマイクロホンアレイにおける信号と伝達関数を説明する図である。
図23では、マイクロホン301−1に到達する音響信号を代表チャネルとしている。信号x(t)〜x(t)ぞれぞれは、マイクロホン301−1〜301−4それぞれが収録した音響信号を時間領域の信号である。また、a (t)は、マイクロホン301−1とマイクロホン301−1との間の推定される伝達関数、a (t)は、マイクロホン301−1とマイクロホン301−2との間の推定される伝達関数である。a (t)は、マイクロホン301−1とマイクロホン301−3との間の推定される伝達関数、a (t)は、マイクロホン301−1とマイクロホン301−4との間の推定される伝達関数である。
次に、マイクロホン301がM個の場合を説明する。
(t)〜a(t)それぞれは、マイクロホン301−1〜304−4の各伝達関数である。まず、マイクロホン301−1が収録する音響信号を代表チャネルとする。次数Nとした場合、時間領域における信号x[N]〜a[N]は、次式(48)のように表される。
Figure 0006078461
図24は、代表チャネルにおける伝達関数のインパルスの開始時刻を0とした場合、各チャネルの伝達関数のタイミングを説明する図である。
図24において、横軸は時刻、縦軸は信号の大きさを表している。また、図24は、4本のマイクロホン301−1〜301−4で収録された直接波の例であり、各マイクロホン301−1〜301−4と話者Spの口元との距離L1〜L4は、図22で説明した関係であるとする。符号g1が示す波形は、1chの伝達関数のインパルス応答の波形、符号g2が示す波形は、2chの伝達関数のインパルス応答の波形、符号g3が示す波形は、3chの伝達関数のインパルス応答の波形、符号g4が示す波形は、4chの伝達関数のインパルス応答の波形である。
ここで、1chを代表チャネルとし、符号g1のように、1chの伝達関数のインパルス応答の開始時刻を0とする。符号g2のように、時刻t13のときが、2chの伝達関数のインパルス応答の開始時刻であり、符号g3のように、時刻t12のときが、3chの伝達関数のインパルス応答の開始時刻である。符号g4のように、時刻−t11のときが、4chの伝達関数のインパルス応答の開始時刻である。
すなわち、マイクロホン301のうち、任意のマイクロホン301を選択した場合、選択されたマイクロホン301より、話者Spの口元に近いマイクロホン301があると、そのマイクロホン301については、伝達関数のインパルス応答が負の時間に直接波が到来することになってしまう。
このため、本実施形態では、マイクロホン301のうち、任意のマイクロホン301を選択部112によって選択した場合でも、代表チャネルより音源に近いチャネルが、負の時刻にならないように遅延部111によって所定時刻Tだけ遅延させて、伝達関数の推定を行う。
図25は、取得された全ての音響信号を開始時刻をTだけ遅延させた場合、各チャネルの伝達関数のタイミングを説明する図である。図25において、横軸は時刻、縦軸は信号の大きさを表す。
図25に示すように、代表チャネルである1chのインパルス応答の開始時刻を時刻0からTだけずらしている。この結果、符号g11が示す波形のように、時刻t22のときが、1chの伝達関数のインパルス応答の開始時刻であり、符号g12が示す波形のように、時刻t24のときが、2chの伝達関数のインパルス応答の開始時刻である。符号g13が示す波形のように、時刻t23のときが、3chの伝達関数のインパルス応答の開始時刻であり、符号g14が示す波形のように、時刻t21のときが、4chの伝達関数のインパルス応答の開始時刻である。
すなわち、マイクロホン301のうち、任意のマイクロホン301を選択し、選択されたマイクロホン301より、話者Spの口元に近いマイクロホン301があっても、全てのマイクロホン301について、伝達関数のインパルス応答が正の時刻に直接波が到来することになる。
マイクロホン301がM個、次数Nとした場合、時間領域における信号x[N]〜a[N]は、式(48)から時刻Tだけ遅延させたものであるため、次式(49)のように表される。
Figure 0006078461
式(49)において、左辺をx[N]、右辺の第1項をa(t)、右辺の第2項をx1[1―T:N−T]と置く。
式(49)をフーリエ変換すると、式(49)は次式(50)のようになる。
Figure 0006078461
式(50)において、ωは、周波数領域における周波数であり、X1[N]は複素スカラである。
式(50)より、1からNサンプル目を1フレームとすると、周波数領域における1フレームの観測値X[N] は、次式(51)のように表される。
Figure 0006078461
伝達関数推定部103Bは、1フレームの観測値である式(51)を用いて、第1実施形態で説明したTD手法、FD手法、FDA手法、FDN手法、FDP手法、FDC手法、及びFDS手法と同様の手順で、伝達関数を推定する。
次に、本実施形態の音響処理装置10Bを用いた場合の実験結果について説明する。
まず、実験を行った条件について説明する。実験に用いた音源は、30度毎に角度を変化させることができるスピーカーを用いた。そして、人間が発した音声を録音し、録音された音響信号をこのスピーカーから出力した。また、8本のマイクロホン301を用いて音響信号の収録を行った。
音響処理装置10Bにおいて、次数Nは4096、使用サンプル数は16384×1である。また、伝達関数推定部103Bは、FD手法を用いて、伝達関数を推定した。推定の条件は、使用次数Tが4096、フレーム長Nが1638、シフト長が10、窓関数としてハミング(Hamming)関数を使用、そして遅延量Tが128である。そして、−60度、−30度、0度、30度、及び60度にスピーカーの角度を変化させて、実験を行った。
図26は、伝達関数推定部103Bが推定した伝達関数の結果を示す図である。図26において、紙面に向かって左右方向はマイクロホンの番号、紙面に向かって奥行き方向は時間、紙面に向かって縦方向は信号の大きさである。また、図26において、マイクロホンNo.0が収録する音響信号を代表チャネルとしている。また、図26において、符号g20が示す波形は、マイクロホンNo.0の伝達関数、符号g21〜g27が示す波形それぞれは、マイクロホンNo.1〜No.7の伝達関数である。図26の符号g21〜g27が示す波形のように、マイクロホンNo.0〜No.7の伝達関数は、全て時刻が正になっている。このように、実験において、音響処理装置10Bが、所定の時刻Tずらした伝達関数を用いて音源定位させた。
次に、音響処理装置10Bを用いて音源定位させた結果を説明する。
図27は、本実施形態に係る音響処理装置10Bを用いて60度の角度から出力された音源について音源定位させた結果を示す図である。図28は、本実施形態に係る音響処理装置10Bを用いて30度の角度から出力された音源について音源定位させた結果を示す図である。図29は、本実施形態に係る音響処理装置10Bを用いて0度の角度から出力された音源について音源定位させた結果を示す図である。図30は、本実施形態に係る音響処理装置10Bを用いて−30度の角度から出力された音源について音源定位させた結果を示す図である。図31は、本実施形態に係る音響処理装置10Bを用いて−60度の角度から出力された音源について音源定位させた結果を示す図である。
図27〜図31において、横軸は時刻、縦軸は推定された角度(方位)である。
また、符号g31、g41、g51、g61、及びg71が示す線は、第1の音声信号(例えば、第一声「あー」)を音源定位させた結果を示している。符号g32、g42、g52、g62、及びg72が示す線は、第2の音声信号(例えば、第二声「あー」)を音源定位させた結果を示している。符号g33、g43、g53、g63、及びg73が示す線は、第3の音声信号(例えば、第三声「あー」)を音源定位させた結果を示している。
図27の符号g31〜g33のように、60度の角度から発せられた音響信号を定位させた結果、60度の定位結果が得られた。図28の符号g41〜g43のように、30度の角度から発せられた音響信号を定位させた結果、30度の定位結果が得られた。図29の符号g51〜g53のように、0度の角度から発せられた音響信号を定位させた結果、0度の定位結果が得られた。図30の符号61〜63のように、−30度の角度から発せられた音響信号を定位させた結果、−30度の定位結果が得られた。図31の符号g71〜g73のように、−60度の角度から発せられた音響信号を定位させた結果、−60度の定位結果が得られた。
以上のように、本実施形態の音響処理装置10Bは、音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホン301−1〜301−Mを用いて収録する第1収音部(第1収音部30B、第1音響信号取得部102B)と、第1収音部によって集音された全ての音響信号を所定の時間だけ遅延させる遅延部111と、複数のマイクロホンの中から1つのマイクロホンを選択し、選択したマイクロホンを選択する選択部112と、選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、遅延部によって遅延された音響信号を用いて伝達関数を推定する伝達関数推定部103Bと、伝達関数推定部で推定した伝達関数を用いて音響信号の処理を行う音響信号処理部(音源定位部104、音源分離部105、音響特徴量抽出部106、発話認識部107)と、を備える。
この構成によって、本実施形態の音響処理装置10Bでは、第1収音部30Bが備える複数のマイクロホン301の中から、任意のマイクロホン301を代表チャネルとする。そして、この代表チャネルの伝達関数におけるインパルスの開始時刻を時刻Tずらすことにより、選択された代表チャネルに対応するマイクロホン301より音源に近いマイクロホン301があっても、伝達関数を推定することができる。この結果、接話マイクロホンを用いることなく、車両等の狭い空間であっても、マイクロホンアレイを用いて、精度良く伝達関数を推定することができる。
なお、本実施形態では、図22、図23において、マイクロホン301が4本の例を説明したが、これに限られず、2本以上であればよい。また、複数のマイクロホン301の配置は、例えば図22において、xy平面に限られず、xyz空間に3次元配置するようにしてもよい。
また、音響処理装置10Bは、第2実施形態で説明した口元位置推定部110(図15)を備えていてもよい。さらに、音響処理装置10Bは、第2実施形態で説明したように、推定誤差が最小になるまで行って伝達関数を推定するようにしてもよい。
また、本実施形態では、取得された音響信号を、予め定められた時間Tだけ遅延させる例を説明したが、遅延させる時間Tは、音響処理装置10Bが算出するようにしてもよい。例えば、車両に音響処理装置10Bが取り付けられている場合、運転者の口元が想定される位置から既知の音響信号を発し、発せられた音響信号を第1収音部30B、を第1音響信号取得部102Bで取得する。そして、音響処理装置10Bは、取得された各チャネルの音響信号のタイミングに基づいて、遅延させる時間Tを算出するようにしてもよい。音響処理装置10Bは、例えば、最も速く音響信号が取得された時刻と、最も遅く音響信号が取得された時刻との差を算出し、算出した差に所定のマージンを加算または所定の値を乗じた時間を遅延させる時間Tとして算出するようにしてもよい。
なお、第1〜第3実施形態では、音場の例として、車両を説明したが、これに限られない。例えば、音場は、室内の部屋、会議室等であってもよい。この場合、例えば、発話者は、部屋に設置されているソファー等に座っている等、発話者の位置がほぼ固定されている場合もある。このように、発話者の位置がほぼ固定されている場合、音響処理装置10において第2収音部20と第1収音部30が収録した音響信号に基づいて伝達関数を推定するのは、1回のみでもよい。または、音響処理装置10Aにおいて第1収音部30Aが収録した音響信号に基づいて伝達関数を推定するのは、1回のみでもよい。または、音響処理装置10Bにおいて第1収音部30Bが収録した音響信号に基づいて伝達関数を推定するのは、1回のみでもよい。推定後は、記憶部109に記憶させた伝達関数を用いて、または記憶させた伝達関数を第1収音部30(または30A、30B)が収録した音響信号を用いて更新した伝達関数を用いて、音声認識を行うようにしてもよい。このように、音場が部屋等の場合にも、音響処理装置10において第2収音部20は携帯電話等であってもよい。音響処理装置10において第2収音部20が携帯電話等の場合、発話者が通話を行ったときに、伝達関数を推定し、または伝達関数を更新するようにしてもよい。
音響処理装置10、10A及び10Bは、このように音声認識された結果を、例えば室内に設置されている機器(例えば、テレビ、エアコン、プロジェクター)等に出力する。室内に設置されている機器は、入力された音声認識結果に応じて、動作するようにしてもよい。
なお、本発明における音響処理装置10(または10A、10B)の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1、1A、1B…音響処理システム、10、10A、10B…音響処理装置、20…第1収音部、30…第1収音部、30A…収音部、40…撮像部、101…第2音響信号取得部、102…第1音響信号取得部、102…音響信号取得部、103、103A、103B…伝達関数推定部、104…音源定位部、105…音源分離部、106…音響特徴量抽出部、107…発話認識部、108…出力部、109…記憶部、301、301−1〜301−M…マイクロホン、103A−1…伝達関数更新部、701…観測モデル部、702…更新部、703…予測部、704…観測部

Claims (12)

  1. 音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部と、
    前記第1収音部よりも発話者に近い位置に移動可能に配置され、前記音響信号を収録する第2収音部と、
    予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第2収音部及び前記第1収音部によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、
    前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
    を備えることを特徴とする音響処理装置。
  2. 音場に取り付けられ、発話者の発話である音響信号を収録する第1収音部と、
    前記第1収音部に対する発話者の位置である発話者位置を推定する発話者位置推定部と、
    予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音部によって収録された音響信号と推定した前記発話者位置を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、
    前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
    を備えることを特徴とする音響処理装置。
  3. 音場に取り付けられ、発話者の発話である音響信号を複数のマイクロホンを用いて収録する第1収音部と、
    前記第1収音部によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延部と、
    前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択部と、
    予め測定された音場の伝達関数を用いずに、前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延部によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定部と、
    前記伝達関数推定部で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理部と、
    を備えることを特徴とする音響処理装置。
  4. 前記第2収音部は、
    発話者の直接音が収録できる位置に配置される
    ことを特徴とする請求項1に記載の音響処理装置。
  5. 前記伝達関数推定部が推定した伝達関数を記憶する記憶部と、
    発話者を特定する発話者特定部と、
    を備え、
    前記伝達関数推定部は、
    前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されている場合、前記記憶部に記憶されている発話者に対応する前記伝達関数を選択する
    ことを特徴とする請求項1から請求項4のいずれか1項に記載の音響処理装置。
  6. 前記伝達関数推定部は、
    前記発話者特定部が特定した発話者の伝達関数が、前記記憶部に記憶されていない場合、発話者に発話を促す報知を行う
    ことを特徴とする請求項5に記載の音響処理装置。
  7. 前記第1収音部は、
    発話者が発話したときの音響信号を収録し、
    前記伝達関数推定部は、
    前記第1収音部が収録した音響信号に基づいて、前記伝達関数を逐次更新する
    ことを特徴とする請求項1から請求項6のいずれか1項に記載の音響処理装置。
  8. 予め所定の伝達関数が記憶されている記憶部を備え、
    前記伝達関数推定部は、
    前記記憶部に予め記憶されている伝達関数を、前記第1収音部及び前記第2収音部によって収録された音響信号に基づいて推定された伝達関数を用いて補間する
    ことを特徴とする請求項1に記載の音響処理装置。
  9. 音場に取り付けられた第1収音部が、発話者の発話である音響信号を収録する第1収音手順と、
    前記第1収音部よりも発話者に近い位置に移動可能に配置される第2収音部が、前記音響信号を収録する第2収音手順と、
    伝達関数推定部が、予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音手順及び前記第2収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
    音響信号処理部が、前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
    を含むことを特徴とする音響処理方法。
  10. 音場に取り付けられた第1収音部が、発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、
    遅延部が、前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、
    選択部が、前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、
    伝達関数推定が、予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
    音響信号処理部が、前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
    を含むことを特徴とする音響処理方法。
  11. 音場に取り付けられた第1収音部と前記第1収音部よりも発話者に近い位置に移動可能に配置される第2収音部とを有する音響処理装置のコンピュータに、
    音響信号を収録する第1収音手順と、
    発話者の発話である音響信号を収録する第2収音手順と、
    予め測定された音場の伝達関数を用いずに、前記音場の所定の位置に発話者がいる際に前記第1収音手順及び前記第2収音手順によって収録された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
    前記伝達関数推定手順で推定した伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
    を実行させる音響処理プログラム。
  12. 音場に取り付けられた第1収音部を有する音響処理装置のコンピュータに、
    発話者の発話である音響信号を複数のマイクロホンを用いて収録する収音手順と、
    前記収音手順によって集音された全ての音響信号を、任意のマイクロホンを選択した場合でも、選択された代表チャネルより音源に近いチャネルが、負の時刻にならないような所定の時間だけ遅延させる遅延手順と、
    前記複数のマイクロホンの中から1つのマイクロホンを選択し、選択した前記マイクロホンを選択する選択手順と、
    予め測定された音場の伝達関数を用いずに、前記選択手順によって前記選択された1つのマイクロホンに対する他のマイクロホンの伝達関数を、前記遅延手順によって遅延された音響信号を用いて、回帰モデルを用いて解析する複数の統計的手法のうち少なくとも1つによって伝達関数を推定する伝達関数推定手順と、
    前記伝達関数推定手順によって推定された伝達関数を用いて前記音響信号の処理を行う音響信号処理手順と、
    を実行させる音響処理プログラム。
JP2013261544A 2013-12-18 2013-12-18 音響処理装置、音響処理方法、及び音響処理プログラム Active JP6078461B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013261544A JP6078461B2 (ja) 2013-12-18 2013-12-18 音響処理装置、音響処理方法、及び音響処理プログラム
US14/572,941 US9549274B2 (en) 2013-12-18 2014-12-17 Sound processing apparatus, sound processing method, and sound processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013261544A JP6078461B2 (ja) 2013-12-18 2013-12-18 音響処理装置、音響処理方法、及び音響処理プログラム

Publications (2)

Publication Number Publication Date
JP2015119343A JP2015119343A (ja) 2015-06-25
JP6078461B2 true JP6078461B2 (ja) 2017-02-08

Family

ID=53370127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013261544A Active JP6078461B2 (ja) 2013-12-18 2013-12-18 音響処理装置、音響処理方法、及び音響処理プログラム

Country Status (2)

Country Link
US (1) US9549274B2 (ja)
JP (1) JP6078461B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
KR101610161B1 (ko) * 2014-11-26 2016-04-08 현대자동차 주식회사 음성인식 시스템 및 그 방법
JP6606784B2 (ja) * 2015-09-29 2019-11-20 本田技研工業株式会社 音声処理装置および音声処理方法
JP6466863B2 (ja) * 2016-02-09 2019-02-06 日本電信電話株式会社 最適化装置、最適化方法、およびプログラム
DE112017001830B4 (de) * 2016-05-06 2024-02-22 Robert Bosch Gmbh Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
US10743107B1 (en) * 2019-04-30 2020-08-11 Microsoft Technology Licensing, Llc Synchronization of audio signals from distributed devices
CN111688580B (zh) 2020-05-29 2023-03-14 阿波罗智联(北京)科技有限公司 智能后视镜进行拾音的方法以及装置
US11546689B2 (en) 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4482247B2 (ja) 2001-04-26 2010-06-16 パナソニック株式会社 自動音質音量調整音響システムおよびその音質音量調整方法
JP3506138B2 (ja) * 2001-07-11 2004-03-15 ヤマハ株式会社 複数チャンネルエコーキャンセル方法、複数チャンネル音声伝送方法、ステレオエコーキャンセラ、ステレオ音声伝送装置および伝達関数演算装置
JP4929740B2 (ja) * 2006-01-31 2012-05-09 ヤマハ株式会社 音声会議装置
EP1818912A1 (en) * 2006-02-08 2007-08-15 Nederlandse Organisatie voor Toegepast-Natuuurwetenschappelijk Onderzoek TNO System for giving intelligibility feedback to a speaker
JP2007302155A (ja) * 2006-05-12 2007-11-22 Matsushita Electric Ind Co Ltd 車載用マイクロホン装置及びその指向性制御方法
US20090034752A1 (en) * 2007-07-30 2009-02-05 Texas Instruments Incorporated Constrainted switched adaptive beamforming
JP5699844B2 (ja) * 2011-07-28 2015-04-15 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
KR101669866B1 (ko) * 2011-12-29 2016-10-27 인텔 코포레이션 음향 신호 조정
EP2901667B1 (en) * 2012-09-27 2018-06-27 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system

Also Published As

Publication number Publication date
JP2015119343A (ja) 2015-06-25
US20150172842A1 (en) 2015-06-18
US9549274B2 (en) 2017-01-17

Similar Documents

Publication Publication Date Title
JP6078461B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6644197B2 (ja) 雑音除去装置および雑音除去方法
RU2717895C2 (ru) Устройство и способ для формирования отфильтрованного звукового сигнала, реализующего рендеризацию угла места
JP5092974B2 (ja) 伝達特性推定装置、雑音抑圧装置、伝達特性推定方法及びコンピュータプログラム
EP2748817B1 (en) Processing signals
JP5207479B2 (ja) 雑音抑圧装置およびプログラム
JP5572445B2 (ja) 残響抑圧装置、及び残響抑圧方法
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP4104626B2 (ja) 収音方法及び収音装置
RU2591026C2 (ru) Аудиосистема и способ ее работы
JP6454916B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP6019969B2 (ja) 音響処理装置
JP2015526767A (ja) 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
JP2001309483A (ja) 収音方法および収音装置
JP5451562B2 (ja) 音響処理システム及びこれを用いた機械
JP5459220B2 (ja) 発話音声検出装置
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム
JP5405130B2 (ja) 音再生装置および音再生方法
JP5698166B2 (ja) 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム
JP2019086724A (ja) 音声処理装置
JP2016158072A (ja) 集音装置、音声処理方法、および音声処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170116

R150 Certificate of patent or registration of utility model

Ref document number: 6078461

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150