JP5841986B2 - 音声処理装置、音声処理方法、及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法、及び音声処理プログラム Download PDF

Info

Publication number
JP5841986B2
JP5841986B2 JP2013200391A JP2013200391A JP5841986B2 JP 5841986 B2 JP5841986 B2 JP 5841986B2 JP 2013200391 A JP2013200391 A JP 2013200391A JP 2013200391 A JP2013200391 A JP 2013200391A JP 5841986 B2 JP5841986 B2 JP 5841986B2
Authority
JP
Japan
Prior art keywords
sound
unit
sound source
signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013200391A
Other languages
English (en)
Other versions
JP2015070321A (ja
Inventor
ランディ ゴメス
ランディ ゴメス
一博 中臺
一博 中臺
圭佑 中村
圭佑 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013200391A priority Critical patent/JP5841986B2/ja
Priority to US14/495,012 priority patent/US9478230B2/en
Publication of JP2015070321A publication Critical patent/JP2015070321A/ja
Application granted granted Critical
Publication of JP5841986B2 publication Critical patent/JP5841986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Description

本発明は、音声処理装置、音声処理方法、及び音声処理プログラムに関する。
室内で放射された音は、壁面や設置物で反射が繰り返されることによって残響が生じる。残響が付加されると周波数特性が原音声から変化するため、音声認識を行う音声認識装置では、音声認識率が低下することがある。また、音声認識装置では、過去に発された音声が現在発されている音声に重畳するため明瞭度が低下することがある。そこで、残響環境下で収録した音声から残響成分を抑圧する残響抑圧技術が従来から開発されている。
例えば、特許文献1には、逆フィルタ処理部で適応的に同定した帰還経路のインパルス応答を用いて残響空間の伝達関数を求め、残響音声信号を伝達関数の大きさで除算することにより音源信号を復元する残響除去方法について記載されている。特許文献1に記載の残響除去方法では、残響特性を示すインパルスレスポンスを推定するが、残響時間は0.2〜2.0秒と比較的長いため、演算量が過大になり処理遅延が著しくなる。そのため、音声認識等への応用が広がらなかった。
また、非特許文献1には、予め残響時間が異なる残響環境下で学習しておいた音響モデルを複数個準備しておき、音声が収録された環境において最も尤度が高くなる音響モデルを検索する方法が記載されている。残響時間とは、最大値を基準とした残響の強度が所定の強度に減衰するまでの時間である。特許文献1に記載の技術では、検索した音響モデルを用いて音声認識が行われる。
特許第4396449号公報
H−G.Hirsch,Harald Finster,A New Approach for the Adaptation of HMMs to Reveberation and Backgraound Noise,Speech Communication,Elsevier,2008,244−263
しかしながら、特許文献1に記載の技術では、音声認識を行う装置に対して、発話者の向きが変化した場合が考慮されていないため、発話者の向きが変化した場合に残響抑圧性能が低下して音声認識精度が低下するという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、音源の向きが変化した場合であっても、音声認識精度を向上する残響抑圧を実現できる音声処理装置、音声処理方法、及び音声処理プログラムを提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る音声処理装置は、音響信号を収録する収音部と、前記収音部が収録した前記音響信号の音源の向きを推定し、前記音響信号に対して作用させる拡張フィルタであって、推定した前記音源の向きに対応する前記拡張フィルタを選択する音源向き推定部と、前記拡張フィルタを用いて、前記音響信号を補正する残響抑圧フィルタ算出部と、前記残響抑圧フィルタ算出部によって補正された音響信号と、前記収音部が収録した前記音響信号とを用いて残響抑圧する抑圧処理部と、を備えことを特徴としている。
)本発明に係るその他の様態は、前記音源向き推定部は、前記収音部が収録した1つの前記音響信号の特徴ベクトルと前記音源の向き毎の確率モデルを用いて前記音源向きを推定することを特徴とする音声処理装置である。
)本発明に係るその他の様態は、前記収音部が収録した複数の前記音響信号から残響信号と後期反射音信号とを分離する音源分離部、を備え、前記音源向き推定部は、前記音源分離部によって分離された前記後期反射音信号を用いて前記収音部が収録した前記音響信号の音源の向きを推定し、前記残響抑圧フィルタ算出部は、前記後期反射音信号に対して前記拡張フィルタを用いて補正し、前記抑圧処理部は、前記残響音信号のパワーから前記残響抑圧フィルタ算出部によって補正された後期反射音信号のパワーを除算して、前記残響音信号から残響音信号を抑圧することで残響抑圧することを特徴とする音声処理装置である。
)本発明に係るその他の様態は、前記抑圧処理部は、前記音源分離部によって分離された前記残響音信号と、前記残響抑圧フィルタ算出部によって補正された前記後期反射音信号と前記拡張フィルタ用いて、前記残信号から前記後期反射音信号を抑圧することで残響抑圧することを特徴とする音声処理装置である。
)本発明に係るその他の様態は、第1の室内伝達関数に基づいて、前記収音部が収録した複数の前記音響信号の第1の特徴ベクトルを算出する第1の音響信号処理部と、第2の室内伝達関数に基づいて、前記収音部が収録した複数の前記音響信号の第2の特徴ベクトルを算出する第2の音響信号処理部と、を備え、前記音源分離部は、前記第1の音響信号処理部によって算出された前記第1の特徴ベクトルに基づいて、残響音信号を分離する第1の音源分離部と、前記第2の音響信号処理部によって算出された前記第2の特徴ベクトルに基づいて、前記後期反射音信号を分離する第2の音源分離部と、を備え、前記抑圧処理部は、前記第1の音響信号処理部によって分離された前記残響音信号と、前記残響抑圧フィルタ算出部によって補正された前記後期反射音信号と前記拡張フィルタ用いて、前記残響音信号から、前記第2の音源分離部によって分離された前記後期反射音信号を抑圧することを特徴とする音声処理装置である。
)本発明に係るその他の様態は、前記音源向き推定部が、撮像部によって撮像された画像、または前記音源の近傍に取り付けられている方位検出器の検出結果の少なくとも一方に基づいて前記音源の向きを推定することを特徴とする音声処理装置である。
)本発明のその他の態様は、収音部が、音響信号を収録する収音手順と、音源向き推定部が、前記収音手順によって収録された前記音響信号の音源の向きを推定し、前記音響信号に対して作用させる拡張フィルタであって、推定した前記音源の向きに対応する前記拡張フィルタを選択する音源向き推定手順と、残響抑圧フィルタ算出部が、前記拡張フィルタを用いて、前記音響信号を補正する残響抑圧フィルタ算出手順と、抑圧処理部が、前記残響抑圧フィルタ算出手順によって補正された音響信号と、前記収音手順によって収録された前記音響信号とを用いて残響抑圧する抑圧処理手順と、を含むことを特徴とする音声処理方法である。
)本発明に係るその他の様態は、音響処理装置のコンピュータに、音響信号を収録する収音手順と、前記収音手順によって収録された前記音響信号の音源の向きを推定し、前記音響信号に対して作用させる拡張フィルタであって、推定した前記音源の向きに対応する前記拡張フィルタを選択する音源向き推定手順と、前記拡張フィルタを用いて、前記音響信号を補正する残響抑圧フィルタ算出手順と、前記残響抑圧フィルタ算出手順によって補正された音響信号と、前記収音手順によって収録された前記音響信号とを用いて残響抑圧する抑圧処理手順と、実行させる音声処理プログラムである。
上述した(1)、()又は()の構成によれば、音響信号を発した音源の向きに応じて選択された拡張フィルタを前記音響信号に作用させることで残響抑圧が行えるので、音源の向きが変化した場合であっても、音声認識精度を向上する残響抑圧を実現できる。
上述した()の構成によれば、拡張フィルタを用いているため、少ない演算量で残響抑圧を行うことができる。
上述した()の構成によれば、収音部が収録した1つの音響信号を用いて音源の向きを推定できるので、少ない演算量で音源の向きを推定できる。
上述した()の構成によれば、収音部が収録した複数の音響信号を用いて音源の向きを推定し、推定した音源の向きに応じて算出された拡張フィルタを前記音響信号に作用させることで残響抑圧が行えるので、音声認識精度を向上する残響抑圧を実現できる。
上述した()の構成によれば、拡張フィルタによって後期反射成分(後期反射音信号)を抑圧できるので、少ない演算量で残響抑圧を行うことができる。
上述した()の構成によれば、第1の音源分離部によって分離された残響音信号から、第2の音源分離部によって分離された後期反射音信号を抑圧できるので、少ない演算量で残響抑圧を行うことができる。
上述した()の構成によれば、撮像された画像、または方位検出器の検出結果に応じて音源の向きを推定できるので、少ない演算量で音源の向きを推定できる。
第1実施形態に係る音声処理システムの配置例を示す平面図である。 第1実施形態に係る音声処理装置の構成を示すブロック図である。 第1実施形態に係る音源分離部と抑圧部の構成を示すブロック図である。 第1実施形態に係る音声処理を示すフローチャートである。 第1実施形態に係る実験を行った環境を説明する図である。 第1設定の部屋の主成分分析結果を説明する図である。 第2設定の部屋の主成分分析結果を説明する図である。 第3設定の部屋の主成分分析結果を説明する図である。 第4設定の部屋の主成分分析結果を説明する図である。 発話者の向き推定の有効性を説明する図である。 第1実施形態の音声処理装置を用いて実験室Aで音声認識処理を行ったときの結果を説明する図である。 第1実施形態の音声処理装置を用いて実験室Bで音声認識処理を行ったときの結果を説明する図である。 実験室Aにおける図11及び図12に示した手法A、B、E、F、及びGによる単語認識率を説明する図である。 実験室Bにおける図11及び図12に示した手法A、B、E、F、及びGによる単語認識率を説明する図である。 第2実施形態に係る抑圧部の構成を説明するブロック図である。
まず、本発明の概要を説明する。
本発明の音声処理装置は、収録した音響信号を残響音信号と後期反射音信号とに分離する。また、本発明の音声処理装置は、後期反射音信号に基づいて装置に対する発話者(音源)の向きを推定し、推定した音源の向きに基づいて音響信号に作用させる残響抑圧フィルタを算出する。そして、本発明の音声処理装置は、分離された後期反射音信号を残響抑圧フィルタによって補正する。さらに、本発明の音声処理装置は、補正後の後期反射音信号に基づいて、残響音信号に対して抑圧処理を行う。この結果、本発明の音声処理装置は、音源の向きが変化した場合であっても、音声認識精度を向上する残響抑圧を実現できる。
なお、音源は指向性のあるスピーカ等であってもよい。
[第1実施形態]
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の配置例を示す平面図である。図1に示すように、音声処理システム1は、音声処理装置11及び収音部12を備えている。
この配置例では、残響環境として部屋Rmにおいて発話者Spが収音部12の中心部から距離dだけ離れた位置に所在していることを示す。また、収音部12に対する発話者Sp(音源)の向き(azimuth)を、例えば反時計回りにθ、・・・、θ、・・・、θとする。部屋Rmは、到来した音波を反射する内壁を有する。収音部12は、音源として発話者Spから直接到来した音声l(ω)と、内壁を反射した音声e(ω)を収録する。なお、ωは、周波数である。
また、発話者Sp(音源)の向きは、水平面上の方位角に限られず、垂直方向の方位角も含む。垂直方向の方位角は、例えば、部屋Rmの天井方向(上方向)、床方向(下方向)などである。
音源から直接到来した音声、反射した音声を、それぞれ直接音(direct sound)、反射音(reflection)と呼ぶ。反射音のうち、直接音が発されてからの経過時間が所定の時間よりも比較的短く(例えば、約30ms以下)、反射回数が比較的少なくそれぞれの反射パターンが区別される部分は、初期反射(early reflection)と呼ばれる。反射音のうち、それよりも経過時間が長く、反射回数が多くそれぞれの反射パターンを区別できない部分は、後期反射(late reflection)、後期残響(late reverberation)又は単に残響(reverberation)と呼ばれる。初期反射と後期反射とを区分する時間は、部屋Rmの大きさによっても異なるが、音声認識においては処理単位となるフレーム長がその時間に相当する。前フレームで処理した直接音及び初期反射に係る後期反射が、現フレームの処理に影響することによる。
図1において、発話者Spが収音部12に対して正面を向いている(θ)場合、収音部12には、発話者Spが発した音声信号が直接音の音声l(ω)として届く。一方、発話者Spが収音部12に対して左を向いている(θ)場合、収音部12には、発話者Spが発した音声信号が左の内壁に反射した音声e(ω)が届く。
残響が付加されると周波数特性が原音声から変化するため、音声認識を行う音声認識装置では、音声認識率が低下することがある。また、音声認識装置では、過去に発された音声が現在発されている音声に重畳するため明瞭度が低下することがある。このため、本実施形態では、後期反射信号を抑圧することで、音声認識率を向上できる。
一般に、音源が収音部12に近接する(距離dが小さい)ほど、音源からの直接音が主となり相対的に残響の割合が少なくなる。以下の説明では、収音部12で収録される音声のうち、残響成分を含まない又は無視できるほど少ない音声をクリーン音声(clean speech)と呼ぶ。
収音部12は、1個又は複数(N個、Nは0よりも大きい整数)のチャネルの音響信号を収録し、収録したNチャネルの音響信号を音声処理装置11に送信する。収音部12には、N個のマイクロホンが、例えばそれぞれ異なる位置に配置されている。収音部12は、例えば周波数帯域(例えば200Hz〜4kHz)の音波を受信するマイクロホンである。収音部12は、収録したNチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Nが1よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。収音部12の位置は、固定されていてもよいし、車両、航空機、ロボット等の移動体に設置され、移動が可能であってもよい。
音声処理装置11は、発話者Spの向きに応じた室内伝達関数(RTF;Room Transfer Function)A(ω)を記憶する。音声処理装置11は、記憶した室内伝達関数に基づいて、収録した音声を残響音信号(Full Reverberant signal)と後期反射音信号(Late reflection signal)とに分離する。音声処理装置11は、分離した後期反射音信号に基づいて、発話者Spの向きを推定する。音声処理装置11は、推定した発話者Spの向きと、分離した後期反射音信号とに基づいて、雑音抑圧フィルタの特性を算出する。音声処理装置11は、算出した雑音抑圧フィルタの特性に基づいて、分離された残響音信号に対して残響抑圧を行う残響抑圧処理を行う。そして、音声処理装置11は、残響抑圧処理を行った後の音声信号に対して音声認識処理を行う。
次に、本実施形態に係る音声処理装置11の構成について説明する。
図2は、本実施形態に係る音声処理装置11の構成を示すブロック図である。図2に示すように、音声処理装置11は、音源分離部101、抑圧部102、音声認識部103、及び記憶部104を備えている。
記憶部104には、室内伝達関数(第1の室内伝達関数)A(ω)と室内伝達関数第2の室内伝達関数)A(ω)とが記憶されている。なお、上付き文字Lは、後期反射に関する信号、情報を表す。
音源分離部101は、収音部12が送信したNチャネルの音響信号を取得し、記憶部104に記憶されている室内伝達関数A(ω)に基づいて、取得したNチャネルの音響信号を残響音信号s(ω)と後期反射音信号(後期反射音成分)s(ω)とに分離する。音源分離部101は、分離した残響音信号s(ω)と後期反射音信号s(ω)と抑圧部102に出力する。なお、音源分離部101の構成については後述する。
抑圧部102は、音源分離部101から入力された後期反射音信号s(ω)に基づいて、発話者Spの向きを推定する。抑圧部102は、推定した発話者Spの向きと、入力された後期反射音信号s(ω)とに基づいて、雑音抑圧フィルタの特性を算出する。抑圧部102は、算出した雑音抑圧フィルタの特性に基づいて、入力された残響音信号s(ω)に対して残響抑圧を行う残響抑圧処理を行う。抑圧部102は、残響抑圧処理が行われた音響信号の推定値(以下、残響抑圧後音響信号という)eθ^(ω)を音声認識部103に出力する。なお、θ^は、推定された発話者Spの推定された向きの角度である。
音声認識部103は、抑圧部102から入力された残響抑圧後音響信号eθ^(ω)に対して音声認識処理を行って発話内容(例えば、単語、文を示すテキスト)を認識し、認識した発話内容を示す認識データを外部に出力する。音声認識部103は例えば、音響モデルである隠れマルコフモデル(HMM:Hidden Markov Model)と単語辞書を備える。
ここで、音声認識部103は、残響抑圧後音響信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、34次のメル周波数ケプストラム(MFCC;Mel−Frequency Cepstrum Coefficients)、静的メル尺度対数スペクトル(static MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である特性ベクトル(feature vector)、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組等である。音声認識部103は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から単語辞書を用いて単語を認識する。
次に、音源分離部101と抑圧部102について、図3を用いて説明する。図3は、本実施形態に係る音源分離部101と抑圧部102の構成を示すブロック図である。
まず、音源分離部101について説明する。図3に示すように、音源分離部101は、音響信号処理部1011、音響信号処理部1012、音源分離処理部1013、及び音源分離処理部1014を備えている。
音響信号処理部1011は、収音部12の複数のマイクロホンが収録した音響信号u(ω)が入力される。なお、u(ω)は、音源がK個ある場合のベクトル[u(ω)、・・・、u(ω)]である。そして、M個のマイクロホンで観察された信号を含むベクトルx(ω)は、次式(1)のように表される。
記憶部104に記憶されている室内伝達関数A(ω)が集合CM×KのK×M次元であるとすると、音響信号処理部1011は、式(1)に基づいて、ベクトルx(ω)を次式(2)のように演算する。なお、集合Cは、M個のマイクロホン、K個の音源の組み合わせによる集合を表している。音響信号処理部1011は、算出したベクトルx(ω)を音源分離処理部1013に出力する。なお、A(ω)は、例えば予め測定や実験によって求めた初期反射の室内伝達関数である。また、A(ω)は、毎回測定するようにしてもよい。
同様に記憶部104に記憶されている室内伝達関数A(ω)を用いて、音響信号処理部1012は、ベクトルx(ω)を次式(3)のように演算する。音響信号処理部1012は、算出したベクトルx(ω)を音源分離処理部1014に出力する。なお、A(ω)は、例えば予め測定や実験によって求めた後期反射の室内伝達関数である。また、A(ω)は、毎回測定するようにしてもよい。
音源分離処理部1013は、音響信号処理部1011から入力されたベクトルx(ω)に対して音源分離処理を行い1個又は複数の音源の音響信号に分離する。音源分離処理部1013は、分離した残響音信号s(ω)を抑圧部102に出力する。なお、残響音信号s(ω)は、残響信号r(ω)とほぼ等しい。なお、残響信号r(ω)は、初期反射信号e(ω)と後期反射信号l(ω)とにより、次式(4)のように表される。
音源分離処理部1013は、音源分離処理として、例えば、GHDSS(Geometric−constrained Highorder Decorrelation−based Source Separation)法を用いて、次式(5)のように残響音信号s(ω)を算出する。
音源分離処理部1014は、音響信号処理部1012から入力されたベクトルx(ω)に対して音源分離処理を行い1個又は複数の音源の音響信号に分離する。音源分離処理部1014は、分離した後期反射音信号s(ω)を抑圧部102に出力する。音源分離処理部1014は、音源分離処理として、例えば、GHDSS法を用いて、次式(6)のように後期反射音信号s(ω)を算出する。
なお、音源分離処理部1013及び音源分離処理部1014は、GHDSS法に代えて、例えば、音源方向を推定し、指定した音源方向に感度が最も高くなるように指向性を制御する適応ビームフォーミング法(adaptive beamforming)を用いてもよい。また、音源方向を推定する際、音源分離処理部1013及び音源分離処理部1014は、MUSIC(Multiple Signal Classification)法を用いてもよい。
ここで、 次に、GHDSS法について説明する。
GHDSS法は、収録された多チャネルの音響信号を音源毎の音響信号に分離する一つの方法である。この方法では、分離行列(separation matrix)[V(ω)](残響音信号s(ω)または後期反射音信号s(ω))が逐次に算出され、入力音声ベクトル[x(ω)]に分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]が推定される。分離行列[V(ω)]は、各音源から収音部12の各マイクロホンまでの伝達関数を要素とする伝達関数行列[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素とするベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素とするベクトルである。
音源分離処理部1013及び音源分離処理部1014は、分離行列[V(ω)]を算出する際、分離尖鋭度(separation sharpness)JSS、幾何制約度(geometric constraints)JGCといった2つのコスト関数をそれぞれ最小化するように音源ベクトル[u(ω)]を算出する。
分離尖鋭度JSSは、1つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、式(7)で表される。
式(7)において、||…||は、…のフロベニウスノルム(Frobenius norm)を示す。*は、ベクトル又は行列の共役転置(conjugate transpose)を示す。diag(…)は、…の対角要素からなる対角行列(diagonal matrix)を示す。
また、幾何制約度JGC(ω)は、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、式(8)で表される。
なお、式(8)において、[I]は、単位行列(unit matrix)を示す。
次に、抑圧部102について説明する。図3に示すように、抑圧部102は、ベクトルパラメータ推定部1021、向き推定部(音源向き推定部)1022、残響抑圧フィルタ算出部1023、及び残響抑圧部(抑圧処理部)1024を備えている。
音源分離処理部1014から入力された後期反射音信号s(ω)には、時間領域で冗長な情報を含んでいる。このため、ベクトルパラメータ推定部1021は、後期反射音信号s(ω)の特徴量ベクトルfを、次式(9)によって推定し、推定した特徴量ベクトルfを向き推定部1022に出力する。
式(9)において、Fは、特徴量ベクトルfを得る特徴抽出手順を示している。なお、特徴量ベクトルとは、例えば12次のメル周波数ケプストラム(MFCC;Mel−Frequency Cepstrum Coefficients)、12次のデルタMFCC、1次のデルタEnergyである。
向き推定部1022は、ベクトルパラメータ推定部1021から入力された特徴量ベクトルfを、次式(10)の尤度に基づいて評価することで、発話者Spの向きθの推定値θ^を推定する。
式(10)において、arg max p(…)は、…を最大とするpを与える関数である。また、μθgは、向きの集合{θ、・・・、θ、・・・、θ}の確モデルである。向き推定部1022は、算出した値が最も大きくなるθ を、適切なイコライザの拡張フィルタHθ^を選択するために用いる。
式(10)において、確率モデルμθは、例えば予め学習を行う。確率モデルμθの学習において、後期反射音信号s(ω)は、式(3)及び式(6)より、次式(11)のように表される。
そして、向きθにおける特徴量ベクトルf θは、パラメータ化されるイコライザの拡張フィルタHθによって、次式(12)のように表される。
なお、発話者Sp(音源)の向きθ毎の複数の拡張フィルタHθは、例えば予め実験や計測によって、向き推定部1022に記憶されている。
向き推定部1022は、式(12)の拡張フィルタHθを記憶されている拡張フィルタHθから選択し、選択した拡張フィルタHθを推定値Hθ^として残響抑圧フィルタ算出部1023に出力する。
また、式(10)における確率モデルμθは、向きの集合{θ、・・・、θ、・・・、θ}を用いて次式(13)によって学習する。この処理は、オフラインで行われる。
式(13)において、μは、未知のモデルパラメータである。また、fθiは、i番目の後期反射のトレーニングベクトルであり、トレーニングベクトルは、拡張フィルタHθによってイコライザされたものである。
残響抑圧フィルタ算出部1023は、音源分離処理部1014から入力された後期反射音信号s(ω)を、向き推定部1022から入力された拡張フィルタの推定値Hθ^に応じたイコライザ特性によって補正する。残響抑圧フィルタ算出部1023は、補正後の後期反射音信号s θ ^(ω)を残響抑圧部1024に出力する。
ここで、理論的には、室内伝達関数A(ω)は、発話者Spの向きθ毎に必要である。この理由は、発話者Spの向きθが変化する毎に、部屋Rmの残響特性が変化するためである。特に、発話者Spの向きθの変化によって、後期反射音信号s(ω)が変化することが実験によって確認された。しかしながら、M個のマイクロホンにおける発話者Spの向きθ毎の室内伝達特性を測定することは困難である。このため、本実施形態では、音源分離部101によってマルチチャネルから分離された後期反射音信号s(ω)を用いることで、等価的に演算を行う。これにより、本実施形態では、フィルタリングされた1チャネルの音響信号において、マルチチャネルの室内伝達関数における発話者Spの向きθの影響を単純化することができる。
すなわち、残響抑圧フィルタ算出部1023は、イコライザされた補正後の後期反射音信号s θ (ω)を、次式(14)のように算出する。
式(14)において、後期反射音信号s(ω)は、拡張フィルタHθによってイコライザされる間、一般的な室内伝達関数を使用した分離された後期反射である。
なお、拡張フィルタHθは、例えば、実際の発話者Spの向きθに応じて、後期反射音信号s(ω)を実測することで求めたフィルタ特性である
お、残響抑圧フィルタ算出部1023には、例えば、発話者Spの向きθ毎に対応付けられている向きモデルを記憶させておく。向きモデルは、例えば、GMM(Gaussian Mixture Model、混合ガウスモデル)である。GMMは、入力された音響特徴量に対する出力確率を複数(例えば、256個)の正規分布を基底として重みづけ加算して表す音響モデルの一種である。従って、向きモデルは、混合重み係数、平均値、共分散行列といった統計量で規定される。各向きθについてGMMを学習させる際、各向きθにおいて残響特性が付加された学習用音声信号を用いて尤度が最大となるように、これらの統計量を予め定めておくようにしてもよい。なお、向きモデルとして、HMMを用いたり、またはSVM(Support vector machine;サポートベクターマシン)等の一般的な判別器を用いるようにしてもよい。
向き推定部1022によって拡張フィルタHθ^が推定された後、残響抑圧フィルタ算出部1023は、式(14)によって分離された後期反射音信号sL(ω)を補正する。
残響抑圧部1024には、音源分離処理部1013から残響音信号s(ω)と、残響抑圧フィルタ算出部1023から補正された後期反射音信号s θ (ω)とが入力される。残響抑圧部1024では、1チャネルの残響モデルを用いる。残響抑圧部1024は、フレームtにおける初期反射信号の周波数領域係数e(ω、t)を、次式(15)を用いて算出する。
なお、式(15)において、|…|は、…の絶対値である。
式(15)において、|s(ω、t)|は、分離された反射音信号(ただし、|s(ω、t)|は|r(ω、t)|にほぼ等しい)のパワーである。また、|s θ (ω、t)|は、後期反射音信号s(ω)のパワーである。残響抑圧部1024は、算出した初期反射信号の周波数領域係数e(ω、t)を時間領域に変換した残響抑圧後音響信号eθ^(ω)を生成し、生成した残響抑圧後音響信号eθ^(ω)を音声認識部103に出力する。
以上のように、本実施形態では、残響抑圧フィルタ算出部1023によるイコライジング処理により、式(15)のように初期反射信号の周波数領域係数e(ω、t)を算出することができる。
次に、本実施形態に係る音声処理について説明する。
図4は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)音響信号処理部1011は、収音部12から入力されたNチャネルの音響信号について、記憶部104に記憶されている室内伝達関数A(ω)を用いて、式(2)によりベクトルx(ω)を算出する。次に、音響信号処理部1011は、算出したベクトルx(ω)を音源分離処理部1013に出力する。音響信号処理部1011は、ステップS101終了後、処理をステップS102に進める。
(ステップS102)音響信号処理部1012は、収音部12から入力されたNチャネルの音響信号について、記憶部104に記憶されている室内伝達関数A(ω)を用いて、式(3)によりベクトルx(ω)を算出する。次に、音響信号処理部1012は、算出したベクトルx(ω)を音源分離処理部1014に出力する。音響信号処理部1012は、ステップS102終了後、処理をステップS103に進める。なお、ステップS101とS102の実行順番は逆であってもよく、または同時に処理を行ってもよい。
(ステップS103)音源分離処理部1013は、音響信号処理部1011から入力されたベクトルx(ω)に対して例えばGHDSS法によって音源分離処理を行い、1個又は複数の音源の音響信号に分離し、分離した残響音信号s(ω)を抑圧部102に出力する。音源分離処理部1013は、ステップS103終了後、処理をステップS104に進める。
(ステップS104)音源分離処理部1014は、音響信号処理部1012から入力されたベクトルx(ω)に対して例えばGHDSS法によって音源分離処理を行い、1個又は複数の音源の音響信号に分離し、分離した残響音信号s(ω)を抑圧部102に出力する。音源分離処理部1014は、ステップS104終了後、処理をステップS105に進める。なお、ステップS103とS104の実行順番は逆であってもよく、または同時に処理を行ってもよい。
(ステップS105)ベクトルパラメータ推定部1021は、音源分離処理部1014から入力された後期反射音信号s(ω)の特徴量ベクトルfを、式(12)によって推定し、推定した特徴量ベクトルfを向き推定部1022に出力する。ベクトルパラメータ推定部1021は、ステップS105終了後、処理をステップS106に進める。
(ステップS106)向き推定部1022は、ベクトルパラメータ推定部1021から入力された特徴量ベクトルfを、式(10)の尤度に基づいて発話者Spの向きを推定する。次に、向き推定部1022は、式(12)を用いてイコライザ特性Hθを推定し、推定した拡張フィルタHθを残響抑圧フィルタ算出部1023に出力する。向き推定部1022は、ステップS106終了後、処理をステップS107に進める。
(ステップS107)残響抑圧フィルタ算出部1023は、音源分離処理部1014から入力された後期反射音信号s(ω)を、向き推定部1022から入力された拡張フィルタの推定値Hθ^に応じたイコライザ特性によって補正する。残響抑圧フィルタ算出部1023は、補正後の後期反射音信号s θ ^(ω)を残響抑圧部1024に出力する。残響抑圧フィルタ算出部1023は、ステップS107終了後、処理をステップS108に進める。
(ステップS108)残響抑圧部1024は、音源分離処理部1013から入力された残響音信号s(ω)と、残響抑圧フィルタ算出部1023から入力された補正された後期反射音信号s θ (ω)に基づいて、残響抑圧後音響信号eθ^(ω)を推定する。残響抑圧部1024は、残響抑圧後音響信号eθ^(ω)を音声認識部103に出力する。残響抑圧部1024は、ステップS108終了後、処理をステップS109に進める。
(ステップS109)音声認識部103は、音声認識部103は、抑圧部102から入力された残響抑圧後音響信号eθ^(ω)に対して音声認識処理を行って発話内容(例えば、単語、文を示すテキスト)を認識し、認識した発話内容を示す認識データを外部に出力する。
以上で、音声処理を終了する。
(実験結果)
次に、本実施形態に係る音声処理装置11を用いて音声認識精度を検証した実験結果について説明する。実験は、図5に示す環境で行った。図5は、本実施形態に係る実験を行った環境を説明する図である。図5に示すように、実験室の短手方向の幅が4.8m、長手方向の幅が5.5mである。図5に示すように、収音部12は、長手方向のほぼ中央、短手方向の紙面に向かって左端に配置されている。また、実験室の長手方向の両端には、ガラスの窓301がある。また、実験室の紙面に向かって右下に扉302がある。さらに実験室内には、ホワイトボート303、テーブル304、ソファ305、及び冷蔵庫306が配置されている。そして、異なる2つの残響音の実験室を実験に用いた。実験室Aは、残響時間が240msであり、実験室Bは、残響時間が640msである。また、発話者Spの向きを、θ、・・、θ、・・・、θとする。なお、向きθのとき、発話者Spは、収音部12に対して垂直な向きである。
まず、音声認識部103を、日本語新聞記事文(JNAS:Japanese Newspaper Article Sentence)コーパス(corpus)を用いて、24人の発話者に200回発話させて学習させた。用いた言語モデルは、連続HMMの一種である、計8256個の正規分布からなるPTM(Phonetically Tied Mixture、音素内タイドミクスチャ)HMMを用いた。
収音部12と発話者Spとの距離が、0.5m、1.0m、1.5m、2.0m、及び2.5mで行い、この距離毎に発話者Spの向きが、θ=30°、θ=15°、θ=0°、θ=−15°、及びθ=−30°について実験を行った。ここで、θ=0°は、発話者Spの向きが、収音部12に対して垂直な向きである。また、各々の位置で200回ずつ行った。なお、各位置では、上述した5つの角度について実験を行った。また、同じ実験室において、これらの位置と向きについての室内伝達関数を測定し、記憶部104に記憶させておいた。
次に、第1設定の部屋〜第4設定の部屋について、図6〜図9を用いて説明する。図6〜図9は、発話者Spの向きθが30°と−30°のときの後期反射のベクトル推定の主成分分析結果を説明する図である。図6は、第1設定の部屋の主成分分析結果を説明する図である。図7は、第2設定の部屋の主成分分析結果を説明する図である。図8は、第3設定の部屋の主成分分析結果を説明する図である。図9は、第4設定の部屋の主成分分析結果を説明する図である。図6〜図9において、横軸は第2主成分、縦軸は第1主成分である。また、図6〜図9において、符号401に示す画像は、発話者Spの向きθが−30°の主成分分析結果を表し、符号402に示す画像は、発話者Spの向きθが30°の主成分分析結果を表す。
図6〜図9に示す第1設定の部屋〜第4設定の部屋は、部屋の密閉性と対称性をシミュレーションするために部屋の状態を決定したものである。図6に示す第1設定の部屋は最も対照的であり、図9に示す第4設定の部屋は最も不均整である。図7に示す第2設定の部屋はやや対照的であり、図8に示す第3設定の部屋はやや不均整である。
また、図6に示すように、第1設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果がほぼ同じである。そして、図7の第2設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果が図6より分離し、図8の第3設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果が図7より分離する。そして、図9の第4設定の部屋では、発話者Spの向きθが−30°と30°との主成分分析結果が最も分離している。
次に、図10を用いて、発話者Spの向き推定の有効性を説明する。図10は、発話者Spの向き推定の有効性を説明する図である。
発話者Spの向きθ^の適切な選択は、最適平均化パラメータ(optimal equalization parameter)である拡張フィルタの推定値Hθ^を選択するために有効である。まず、上述した第1設定の部屋〜第4設定の部屋において、3つのランダムな互いに異なる位置(第1位置〜第3位置)を選択する。図10に示す各欄の値は、発話者Spの向きの推定値の精度を表している。図10の1行目に示すように、対称性が最も良い第1の設定の部屋では、第1位置〜第3位置において、発話者Spの向きの推定値の精度が全て100%である。2行目に示すように、第2の設定の部屋では、発話者Spの向きの推定値の精度が98%〜99%である。3行目に示すように、第3の設定の部屋では、発話者Spの向きの推定値の精度が94%〜95%である。4行目に示すように、第4の設定の部屋では、発話者Spの向きの推定値の精度が88%〜90%である。すなわち、対称性の良い第1の設定の部屋が最もパフォーマンスが良く、不均整な第4の設定の部屋が最もパフォーマンスが悪い。
次に、実験室Aと実験室Bにおいて、本実施形態の音声処理装置11を用いて音声認識処理を行ったときの結果を説明する。図11は、本実施形態の音声処理装置11を用いて実験室Aで音声認識処理を行ったときの結果を説明する図である。図12は、本実施形態の音声処理装置11を用いて実験室Bで音声認識処理を行ったときの結果を説明する図である。図11及び図12において、縦軸は単語認識率を表している。
また、図11及び図12において、符号501が示す領域の画像は、発話者Spの位置が収音部12から0.5mの位置である場合の結果の画像を表している。符号502が示す領域の画像は、発話者Spの位置が収音部12から1.0mの位置である場合の結果の画像を表している。符号503が示す領域の画像は、発話者Spの位置が収音部12から1.5mの位置である場合の結果の画像を表している。符号504が示す領域の画像は、発話者Spの位置が収音部12から2.0mの位置である場合の結果の画像を表している。符号505が示す領域の画像は、発話者Spの位置が収音部12から2.5mの位置である場合の結果の画像を表している。
また、図11及び図12において、符号511が示す画像は、残響が無く、1チャネルの残響信号による音声認識結果を表す画像である(この手法を以下、手法Aという)。符号512が示す画像は、残響が無く、マルチチャネルから分離された残響信号による音声認識結果を表す画像である(この手法を以下、手法Bという)。符号513が示す画像は、非特許文献3に示すウェーブレット解析(wavelet−based)による残響信号の音声認識結果を表す画像である(この手法を以下、手法Cという)。符号514が示す画像は、非特許文献4に示すブラインド残響信号(Blind dereverberation based)のよる音声認識結果を表す画像である(この手法を以下、手法Dという)。符号515が示す画像は、複数の室内伝達関数RTFを適合させたときの音声認識結果を表す画像である(この手法を以下、手法Eという)。符号516が示す画像は、本実施形態の音声処理装置11による音声認識結果を表す画像である(この手法を以下、手法Fという)。符号517が示す画像は、本実施形態の音声処理装置11にさらに複数の室内伝達関数RTFを適合させたときの音声認識結果を表す画像である(この手法を以下、手法Gという)。
非特許文献3;S. Griebel and M. Brandstein, “Wavelet Transform Extrema Clustering for Multi−channel Speech Dereverberation”
非特許文献4;B. Yegnanarayana and P. Satyaranyarana, ”Enhancement of Reverberant Speech Using LP Residual Signals”, In Proceedings of IEEE Trans. on Audio, Speech and Lang. Proc., 2000.
図11に示すように、残響時間が240msの実験室Aにおいて、単語認識率は、手法Aが最も低く、手法Gが最も高い。そして、本実施形態の手法である手法Fは、手法Gの単語認識率と同等である。
例えば、発話者Spとの距離が0.5mのとき、各単語認識率は、手法Aが約68%、手法Bが約70%、手法Cが約72%、手法Dが約72.5%である。また、各単語認識率は、手法Eが約74%、手法Fが約77.5%、手法Gが約78%である。
また、例えば、発話者Spとの距離が2.5mのとき、各単語認識率は、手法Aが約15%、符号手法Bが約25%、手法Cが約27%、手法Dが約28%である。また、各単語認識率は、手法Eが約30%、手法Fが約46%、手法Gが約47%である。
図12に示すように、残響時間が640msの実験室Bにおいても、単語認識率は、手法Aが最も低く、手法Gが最も高い。そして、本実施形態の手法である手法Fは、手法Gの単語認識率と同等である。
例えば、発話者Spとの距離が1.0mのとき、各単語認識率は、手法Aが約11%、手法Bが約20%、手法Cが約22%、手法Dが約24%である。また、各単語認識率は、手法Eが約26%、手法Fが約39%、手法Gが約40%である。
また、例えば、発話者Spとの距離が2.0mのとき、各単語認識率は、手法Aが約−14%、手法Bが約7%、手法Cが約10%、手法Dが約12%である。また、各単語認識率は、手法Eが約14%、手法Fが約26%、手法Gが約27%である。
次に、発話者Spの向きθに対する単語認識率の一例を、図13及び図14を用いて説明する。図13は、実験室Aにおける図11及び図12に示した手法A、B、E、F、及びGによる単語認識率を説明する図である。図14は、実験室Bにおける図11及び図12に示した手法A、B、E、F、及びGによる単語認識率を説明する図である。図13及び図14において、横軸は発話者Spの向きθ、縦軸は単語認識率である。また、図13及び図14において、符号511、512、515、516、及び517が示す画像は、手法A、B、E、F、及びGによる単語認識率を表している。
まず、残響時間240msの実験室Aの実験結果を説明する。
図13に示すように、単語認識率は、手法A(符号511)が発話者Spの向きにかかわらず約44%であり、手法B(符号512)が発話者Spの向きにかかわらず約50%であり、手法E(符号515)が発話者Spの向きにかかわらず約53%である。一方、本実施形態の手法である手法F(符号516)は、発話者Spの向きによって単語認識率が変化し、単語認識率は約58%〜63%である。すなわち、手法Fでは、収音部12の正面方向である発話者の向き0°に近くなるほど単語認識率が高くなり、0°から離れるほど単語認識率が下がっている。さらに手法G(符号517)では、単語認識率が発話者Spの向きにかかわらず約63%である。このように、本実施形態の音声処理装置11は、残響時間が短い実験室Aにおいて、他の手法に対して単語認識率に有意な差がある。
次に、残響時間640msの実験室Aの実験結果を説明する。
図14に示すように、単語認識率は、手法A(符号511)が発話者Spの向きにかかわらず−1%であり、手法B(符号512)が発話者Spの向きにかかわらず約12%であり、手法E(符号515)が発話者Spの向きにかかわらず約22%である。一方、本実施形態の手法である手法F(符号516)は、発話者Spの向きによって単語認識率が変化し、単語認識率は約27%〜35%である。すなわち、手法Fでは、収音部12の正面方向である発話者の向き0°に近くなるほど単語認識率が高くなり、0°から離れるほど単語認識率が下がっている。さらに手法G(符号517)では、単語認識率が発話者Spの向きにかかわらず約35%である。このように、本実施形態の音声処理装置11は、残響時間が長い実験室Bにおいても、他の手法に対して単語認識率に有意な差がある。
以上のように、本実施形態の音声処理装置11は、音響信号を収録する収音部12と、収音部12が収録した音源の向きを推定する音源向き推定部(向き推定部1022)と、収音部12が収録した音響信号に対して作用させる残響抑圧フィルタを算出する残響抑圧フィルタ算出部1023と、残響抑圧フィルタ算出部1023によって算出された残響抑圧フィルタを音響信号に作用させる抑圧処理部(残響抑圧部1024)と、を備え、残響抑圧フィルタ算出部1023は、音源向き推定部(向き推定部1022)によって推定された音源の向きに基づいて作用させる残響抑圧フィルタを算出する。
この構成により、本実施形態の音声処理装置11は、音響信号を発した音源の向きに応じて算出された残響抑圧フィルタを音響信号に作用させることで残響抑圧が行えるので、音源の向きが変化した場合であっても、音声認識精度を向上する残響抑圧を実現できる。
例えば、従来の装置では、音源の向きの変化に対するシステムの頑丈さ(robustness)は、音源の全ての向きに対応した室内伝達関数をマイクロホンで収録して算出する必要がった。一方、本実施形態の音声処理装置11では、複数のチャネルの音響信号に対して処理を行わずに単純なイコライザ処理によって、音源の向きの変化に対するシステムの頑丈さを確保することができる。さらに、本実施形態の音声処理装置11では、従来のように複数のチャネルの音響信号に対して処理を行わなくて済むので、演算量を軽減することができる。
[第2実施形態]
第1実施形態では、抑圧部102は、収録されたNチャネルの音響信号が、音源分離部101によって分離された残響音信号s(ω)と後期反射音信号(後期反射音成分)s(ω)とを用いて、発話者Spの向きの推定、残響抑圧を行う例を説明した。
発話者Spの向きの推定や、残響抑圧は、抑圧部102のみでも行うことができる。
図15は、本実施形態に係る抑圧部102Aの構成を説明するブロック図である。図15に示すように、抑圧部102Aは、ベクトルパラメータ推定部1021、向き推定部(音源向き推定部)1022、残響抑圧フィルタ算出部1023、残響抑圧部(抑圧処理部)1024、及び取得部1025を備えている。
例えば、抑圧部102Aには、予め収録されている残響音信号s(ω)と後期反射音信号s(ω)が直接入力されてもよい。
または、収音部12が備えるマイクロホンのうち1つのマイクロホンが収録した音響信号が、音源分離部101によって分離された残響音信号s(ω)と後期反射音信号(後期反射音成分)s(ω)とが抑圧部102Aに入力されてもよい。
さらに、抑圧部102Aの取得部1025は、撮像装置によって撮像された画像を取得し、取得した画像を向き推定部1022に出力するようにしてもよい。そして、向き推定部1022は、撮像された画像に基づいて発話者SP(音源)の向きを推定するようにしてもよい。
また、取得部1025は、発話者Spの例えば頭部に取り付けられている方位センサー等が出力した検出値を取得し、取得した検出値を向き推定部1022に出力するようにしてもよい。そして、向き推定部1022は、取得した検出値に基づいて発話者SP(音源)の向きを推定するようにしてもよい。
あるいは、収音部12が備えるマイクロホン毎に抑圧部102Aが接続されていてもよい。
また、本実施形態では、発話者Spが発した単語を認識する例を説明したが、これに限られない。収音部12が収録する音響信号は音声のみに限られず、音楽であってもよい。この場合であっても、音声処理装置11は、図示しないビートトラッキング処理を行い、さらに音源の向きを推定することで、例えば楽曲のテンポを推定するようにしてもよい。
音声処理装置11を組み込む機器は、例えば、ロボット、車両、携帯端末等であってもよい。また、この場合、ロボット、車両、携帯端末は、収音部12を備えていてもよい。
なお、本発明における音声処理装置11の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…音声処理システム、11…音声処理装置、12…収音部、101…音源分離部、102、102A…抑圧部、103…音声認識部、104…記憶部、1011…音響信号処理部、1012…音響信号処理部、1013…音源分離処理部、1014…音源分離処理部、1021…パラメータ推定部、1022…向き推定部(音源向き推定部)、1023…残響抑圧フィルタ算出部、1024…残響抑圧部(抑圧処理部)、1025…取得部

Claims (8)

  1. 音響信号を収録する収音部と、
    前記収音部が収録した前記音響信号の音源の向きを推定し、前記音響信号に対して作用させる拡張フィルタであって、推定した前記音源の向きに対応する前記拡張フィルタを選択する音源向き推定部と、
    記拡張フィルタを用いて、前記音響信号を補正する残響抑圧フィルタ算出部と、
    前記残響抑圧フィルタ算出部によって補正された音響信号と、前記収音部が収録した前記音響信号とを用いて残響抑圧する抑圧処理部と、
    を備え
    ことを特徴とする音声処理装置。
  2. 前記音源向き推定部は、
    前記収音部が収録した1つの前記音響信号の特徴ベクトルと前記音源の向き毎の確率モデルを用いて前記音源向きを推定する
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記収音部が収録した複数の前記音響信号から残響信号と後期反射音信号とを分離する音源分離部、を備え、
    前記音源向き推定部は、前記音源分離部によって分離された前記後期反射音信号を用いて前記収音部が収録した前記音響信号の音源の向きを推定し、
    前記残響抑圧フィルタ算出部は、
    前記後期反射音信号に対して前記拡張フィルタを用いて補正し、
    前記抑圧処理部は、
    前記残響音信号のパワーから前記残響抑圧フィルタ算出部によって補正された後期反射音信号のパワーを除算して、前記残響音信号から残響抑圧する
    ことを特徴とする請求項1または請求項のいずれか1項に記載の音声処理装置。
  4. 前記抑圧処理部は、
    前記音源分離部によって分離された前記残響音信号と、前記残響抑圧フィルタ算出部によって補正された前記後期反射音信号と前記拡張フィルタ用いて、前記残信号から前記後期反射音信号を抑圧することで残響抑圧する
    ことを特徴とする請求項に記載の音声処理装置。
  5. 第1の室内伝達関数に基づいて、前記収音部が収録した複数の前記音響信号の第1の特徴ベクトルを算出する第1の音響信号処理部と、
    第2の室内伝達関数に基づいて、前記収音部が収録した複数の前記音響信号の第2の特徴ベクトルを算出する第2の音響信号処理部と、
    を備え、
    前記音源分離部は、
    前記第1の音響信号処理部によって算出された前記第1の特徴ベクトルに基づいて、残響音信号を分離する第1の音源分離部と、
    前記第2の音響信号処理部によって算出された前記第2の特徴ベクトルに基づいて、前記後期反射音信号を分離する第2の音源分離部と、
    を備え、
    前記抑圧処理部は、
    前記第1の音響信号処理部によって分離された前記残響音信号と、前記残響抑圧フィルタ算出部によって補正された前記後期反射音信号と前記拡張フィルタ用いて、前記残響音信号から、前記第2の音源分離部によって分離された前記後期反射音信号を抑圧することで残響抑圧する
    ことを特徴とする請求項に記載の音声処理装置。
  6. 前記音源向き推定部は、
    撮像部によって撮像された画像、または前記音源の近傍に取り付けられている方位検出器の検出結果の少なくとも一方に基づいて前記音源向きを推定する
    ことを特徴とする請求項1から請求項のいずれか1項に記載の音声処理装置。
  7. 収音部が、音響信号を収録する収音手順と、
    音源向き推定部が、前記収音手順によって収録された前記音響信号の音源の向きを推定し、前記音響信号に対して作用させる拡張フィルタであって、推定した前記音源の向きに対応する前記拡張フィルタを選択する音源向き推定手順と、
    残響抑圧フィルタ算出部が、前記拡張フィルタを用いて、前記音響信号を補正する残響抑圧フィルタ算出手順と、
    抑圧処理部が、前記残響抑圧フィルタ算出手順によって補正された音響信号と、前記収音手順によって収録された前記音響信号とを用いて残響抑圧する抑圧処理手順と、
    を含むこと特徴する音声処理方法。
  8. 音響処理装置のコンピュータに、
    音響信号を収録する収音手順と、
    前記収音手順によって収録された前記音響信号の音源の向きを推定し、前記音響信号に対して作用させる拡張フィルタであって、推定した前記音源の向きに対応する前記拡張フィルタを選択する音源向き推定手順と、
    記拡張フィルタを用いて、前記音響信号を補正する残響抑圧フィルタ算出手順と、
    前記残響抑圧フィルタ算出手順によって補正された音響信号と、前記収音手順によって収録された前記音響信号とを用いて残響抑圧する抑圧処理手順と、
    実行させる音声処理プログラム。
JP2013200391A 2013-09-26 2013-09-26 音声処理装置、音声処理方法、及び音声処理プログラム Active JP5841986B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013200391A JP5841986B2 (ja) 2013-09-26 2013-09-26 音声処理装置、音声処理方法、及び音声処理プログラム
US14/495,012 US9478230B2 (en) 2013-09-26 2014-09-24 Speech processing apparatus, method, and program of reducing reverberation of speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013200391A JP5841986B2 (ja) 2013-09-26 2013-09-26 音声処理装置、音声処理方法、及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2015070321A JP2015070321A (ja) 2015-04-13
JP5841986B2 true JP5841986B2 (ja) 2016-01-13

Family

ID=52691709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013200391A Active JP5841986B2 (ja) 2013-09-26 2013-09-26 音声処理装置、音声処理方法、及び音声処理プログラム

Country Status (2)

Country Link
US (1) US9478230B2 (ja)
JP (1) JP5841986B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
CN105338449A (zh) * 2015-11-26 2016-02-17 宁波柏人艾电子有限公司 一种音效处理电路
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
US10717197B2 (en) * 2018-01-08 2020-07-21 Digital Dream Labs, Llc Spatial acoustic filtering by a mobile robot
KR102087307B1 (ko) * 2018-03-15 2020-03-10 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
CN110610702B (zh) * 2018-06-15 2022-06-24 惠州迪芬尼声学科技股份有限公司 以自然语言声控均衡器的方法及计算器可读存储介质
CN110164469B (zh) * 2018-08-09 2023-03-10 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
JP7351401B2 (ja) 2020-02-26 2023-09-27 日本電信電話株式会社 信号処理装置、信号処理方法、およびプログラム
US11546689B2 (en) * 2020-10-02 2023-01-03 Ford Global Technologies, Llc Systems and methods for audio processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4396449B2 (ja) 2004-08-25 2010-01-13 パナソニック電工株式会社 残響除去方法及びその装置
WO2007013525A1 (ja) * 2005-07-26 2007-02-01 Honda Motor Co., Ltd. 音源特性推定装置
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
WO2009151578A2 (en) * 2008-06-09 2009-12-17 The Board Of Trustees Of The University Of Illinois Method and apparatus for blind signal recovery in noisy, reverberant environments
JP5231139B2 (ja) * 2008-08-27 2013-07-10 株式会社日立製作所 音源抽出装置
US8867754B2 (en) * 2009-02-13 2014-10-21 Honda Motor Co., Ltd. Dereverberation apparatus and dereverberation method
JP5235722B2 (ja) * 2009-03-02 2013-07-10 日本電信電話株式会社 発話向き推定装置、方法及びプログラム
JP5376173B2 (ja) * 2010-08-03 2013-12-25 日本電信電話株式会社 放射指向特性推定方法とその装置とプログラム
JP5285665B2 (ja) * 2010-08-05 2013-09-11 日本電信電話株式会社 反射音情報推定装置、反射音情報推定方法、プログラム
JP5697079B2 (ja) * 2010-11-15 2015-04-08 独立行政法人情報通信研究機構 音再現システム、音再現装置および音再現方法
JP6169910B2 (ja) * 2013-07-08 2017-07-26 本田技研工業株式会社 音声処理装置

Also Published As

Publication number Publication date
US20150088497A1 (en) 2015-03-26
JP2015070321A (ja) 2015-04-13
US9478230B2 (en) 2016-10-25

Similar Documents

Publication Publication Date Title
JP5841986B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5572445B2 (ja) 残響抑圧装置、及び残響抑圧方法
US9972315B2 (en) Speech processing device, speech processing method, and speech processing system
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
JP5738020B2 (ja) 音声認識装置及び音声認識方法
JP4896449B2 (ja) 音響信号処理方法、装置及びプログラム
JP6169910B2 (ja) 音声処理装置
US10283115B2 (en) Voice processing device, voice processing method, and voice processing program
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
Kumatani et al. Microphone array processing for distant speech recognition: Towards real-world deployment
Nakajima et al. An easily-configurable robot audition system using histogram-based recursive level estimation
Delcroix et al. Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds
Zhang et al. Distant-talking speaker identification by generalized spectral subtraction-based dereverberation and its efficient computation
Huang et al. Multi-microphone adaptive noise cancellation for robust hotword detection
Kumatani et al. Maximum kurtosis beamforming with a subspace filter for distant speech recognition
Gomez et al. Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication
Wolf et al. Towards microphone selection based on room impulse response energy-related measures
JP2005258215A (ja) 信号処理方法及び信号処理装置
Dat et al. A comparative study of multi-channel processing methods for noisy automatic speech recognition in urban environments
Sivasankaran et al. SLOGD: Speaker location guided deflation approach to speech separation
Aprilyanti et al. Optimized joint noise suppression and dereverberation based on blind signal extraction for hands-free speech recognition system
Mizumachi et al. Design of robust subtractive beamformer for noisy speech recognition
Takeda et al. Upper-limit evaluation of robot audition based on ICA-BSS in multi-source, barge-in and highly reverberant conditions
Gomez et al. Improved hands-free automatic speech recognition in reverberant environment condition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151116

R150 Certificate of patent or registration of utility model

Ref document number: 5841986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250