JP2017067879A - 音声処理装置及び音声処理方法 - Google Patents
音声処理装置及び音声処理方法 Download PDFInfo
- Publication number
- JP2017067879A JP2017067879A JP2015190593A JP2015190593A JP2017067879A JP 2017067879 A JP2017067879 A JP 2017067879A JP 2015190593 A JP2015190593 A JP 2015190593A JP 2015190593 A JP2015190593 A JP 2015190593A JP 2017067879 A JP2017067879 A JP 2017067879A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- unit
- utterance
- sound source
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 144
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 433
- 238000010606 normalization Methods 0.000 claims abstract description 105
- 230000005236 sound signal Effects 0.000 claims description 67
- 238000001514 detection method Methods 0.000 claims description 65
- 238000000926 separation method Methods 0.000 claims description 27
- 230000008859 change Effects 0.000 claims description 20
- 230000004807 localization Effects 0.000 claims description 18
- 238000012546 transfer Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 53
- 238000004364 calculation method Methods 0.000 description 49
- 230000008569 process Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 17
- 239000013598 vector Substances 0.000 description 15
- 230000007423 decrease Effects 0.000 description 14
- 230000007246 mechanism Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 6
- 238000012935 Averaging Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示すブロック図である。
音声処理システム1は、音声処理装置10、入力部20及び出力部30を含んで構成される。
次に、音声処理装置10の構成について説明する。
音声処理装置10は、音源定位部101、音源追跡部102、音源分離部103、特徴量取得部104、発話状態判定部105、平均スペクトル算出部106、スペクトル正規化部107及び音声認識部108を含んで構成される。
例えば、現発話kの直前の前発話k−1に係るスペクトル平均の周波数毎の強度Xk−1’は、式(1)に示すように前発話k−1内のフレームf毎のスペクトルの周波数毎の強度Xk−1(f)のフレーム間平均値となる。
平均スペクトル算出部106は、スペクトル正規化部107から平均スペクトル要求情報が入力されるとき、その応答として平均スペクトル要求情報で指定される音源について現発話よりも過去の発話の平均スペクトルをスペクトル正規化部107に出力する。過去の発話は、例えば、現発話の直前の発話である前発話であってもよいし、現発話よりも所定数前の発話であってもよい。
即ち、現発話kに係る正規化スペクトルの周波数毎の強度は、Xk(fc)−Xk−1’と表される。スペクトル正規化部107は、その音源について算出した正規化スペクトルを音声認識部108に出力する。
図3は、平均スペクトル算出部106で算出された平均スペクトルの例を示す図である。この平均スペクトルは、図2に示す発話に対する前発話における平均スペクトルである。図3が表す横縞の模様は、発話区間内で周波数毎の濃淡が時刻によらず共通であること、つまり強度が発話区間内で共通であることを示す。
図4は、スペクトル正規化部107で算出された正規化スペクトルの例を示す図である。この正規化スペクトルは、図2に示すスペクトルについて図3に示すスペクトルを用いて正規化して得られる。図2を比較すると、図4に示すスペクトルは、正規化により定常的な背景雑音が除去され、発話に伴うスペクトルの時間変化が顕著であることを表す。
次に、本実施形態に係る音声処理について説明する。
図5は、本実施形態に係る音声処理を示すフローチャートである。
(ステップS101)音源定位部101は、入力部20からのPチャネルの音声信号に基づいて音源の方向をフレーム毎に定める。その後、ステップS102に進む。
(ステップS102)音源追跡部102は、発話状態判定部105が発話中であると判定した音源毎に音源定位部101が定めた音源の方向を特定する。その後、ステップS103に進む。
(ステップS103)音源分離部103は、Pチャネルの音声信号を音源毎の音源方向に基づいて音源毎の音源別音声信号に分離する。その後、ステップS104に進む。
(ステップS104)特徴量取得部104は、音源毎の音源別音声信号についてスペクトルを算出する。その後、ステップS105に進む。
(ステップS106)音声認識部108は、音源毎に算出した正規化スペクトルについて音声認識処理を行って発話データを生成し、生成した発話データを出力部30に出力する。その後、図5に示す処理を終了する。
この構成により、取得された音声信号のスペクトルから、音声以外の他の成分、例えば、定常的な背景雑音のスペクトルが除去され、発話によるスペクトルの時間変化が得られる。得られた成分について音声認識処理を行うことで、音声認識精度を損なわずに発話開始から音声認識の終了までの時間を短縮することができる。
この構成により、現発話の終了を待たずに既に終了した発話における平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、現発話について音声認識の終了までにかかる時間を短縮することができる。
この構成により、現発話に最も近い過去の発話における音声以外の他の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差が減少する。そのため、音声認識精度の低下が抑制される。
この構成により、特定の方向に所在する音源からの音源別音声信号について、そのスペクトルから、他の方向からの成分が除去される。その特定の方向からの発話によるスペクトルの時間変化の成分について音声認識処理を行うことで、さらに音声認識精度を向上させることができる。
次に、図面を参照しながら本発明の第2の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Aは、音声処理装置10A、入力部20及び出力部30を含んで構成される。
音声処理装置10Aは、音声処理装置10(図1)において平均スペクトル算出部106に代えて平均スペクトル記憶部111Aを備え、スペクトル正規化部107に代えてスペクトル正規化部107Aを備える。
スペクトル正規化部107Aは、その音源について算出した正規化スペクトルを音声認識部108に出力する。
次に、本実施形態に係る音声処理について説明する。
図7は、本実施形態に係る音声処理を示すフローチャートである。
図7に示す音声処理は、ステップS101−S104及びステップS106に加え、ステップS107A及びステップS105Aを有する。
図7に示す音声処理において、ステップS104の処理が終了した後、ステップS107Aに進む。
(ステップS105A)スペクトル正規化部107Aは、発話中であると判定された音源毎に、その時点のスペクトルを読み出した平均スペクトルで正規化して正規化スペクトルを算出する。その後、ステップS106に進む。
この構成により、多様な音響的特徴が平均化された平均スペクトルが正規化に用いられるので、話者や時間経過による音響的特徴に変動が生じても全体として音声認識精度の低下が抑制される。
次に、図面を参照しながら本発明の第3の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Bは、音声処理装置10B、入力部20及び出力部30を含んで構成される。
音声処理装置10Bは、音声処理装置10(図1)において平均スペクトル算出部106に代えて平均スペクトル算出部106Bを備え、スペクトル正規化部107に代えてスペクトル正規化部107Bを備える。
即ち、現フレームfcにおけるスペクトル平均の周波数毎の強度Xk’は、式(2)に示すように現発話kの開始時点から現フレームfcまでのフレームf毎のスペクトルの周波数毎の強度Xk(f)のフレーム間平均値となる。
平均スペクトル算出部106Bは、各音源について算出した平均スペクトルをスペクトル正規化部107Bに出力する。
次に、本実施形態に係る音声処理について説明する。
図9は、本実施形態に係る音声処理を示すフローチャートである。
図9に示す音声処理は、ステップS101−S104及びステップS106に加え、ステップS107B及びステップS105Bを有する。
図9に示す音声処理において、ステップS104の処理が終了した後、ステップS107Bに進む。
(ステップS105B)スペクトル正規化部107Bは、発話状態判定部105において発話中であると判定された音源毎に、その時点のスペクトルを逐次に算出された平均スペクトルで正規化して正規化スペクトルを算出する。その後、ステップS106に進む。
次に、本実施形態に係る音声処理装置10Bの性能を評価するために行った評価実験について説明する。評価実験は、残響時間RT20が1.0sである実験室内において行われた、入力部20として、人型ロボットの頭部に埋め込まれた8個のマイクロホンを有するマイクロホンアレイを用いた。音源の位置は、ロボットの頭部から1.5m離れ、ロボットの正面を基準として左方20°から右方20°の範囲内の位置である。音源とは別個に並行して、ロボットの正面とは異なる方向であり、都度ランダムに異なる方向から雑音を提示した。音源として、824個の発話音声を用いた。音声信号の標本化周波数、周波数領域に変換する際の1フレーム内のFFT点数、フレームのシフト長は、それぞれ16KHz、512、160である。そして、各試行では、それぞれ1つの発話について音声認識処理が行われた。音声認識処理により得られた認識結果を集約して単語正解精度を求めた。比較のために、本実施形態の他、オフラインSMN(Spectral Mean Normalization)、第1の実施形態、第2の実施形態についても同様の実験を行った。オフラインSMNとは、オフライン処理により、各時点のスペクトルをその時点における発話の平均スペクトルで正規化して得られる正規化スペクトルについて音声認識を行う手法である。これに対し、第1の実施形態、第2の実施形態、本実施形態に係る音声処理は、いずれもオンラインで実行可能である。
単語正解精度は、オンラインで実行可能な処理のうち本実施形態に係る処理について最も高く、第1の実施形態に係る処理、第2の実施形態に係る処理がこれに続く。本実施形態によれば、オフラインSMNと同等の性能が得られる。例えば、単語正解率は、オフラインSMNでは80.24%であるのに対し、本実施形態では80.34%である。単語認識率は、オフラインSMNでは85.99%であるのに対し、本実施形態では84.94%である。この結果は、本実施形態では、正規化によってその時点における音響環境の影響が極力排除されるので、オンラインの音声認識精度が向上することを示す。
この構成により、現発話の既に取得した区間における平均スペクトルを、その時点におけるスペクトルの正規化に用いる平均スペクトルとして取得できる。そのため、現発話について音声認識の終了までにかかる時間を短縮することができる。また、その時点までの発話における音声以外の成分の平均スペクトルが、その時点におけるスペクトルの正規化に用いられるので、時間経過に伴う平均スペクトルの変動による誤差がさらに減少する。そのため、音声認識精度の低下がさらに抑制される。
次に、図面を参照しながら本発明の第4の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Cは、音声処理装置10C、入力部20及び出力部30を含んで構成される。
音声処理装置10Cは、音声処理装置10B(図8)においてスペクトル正規化部107Bに代えてスペクトル正規化部107Cを備え、さらに平均スペクトル記憶部111Cを備える。
次に、本実施形態に係る音声処理について説明する。
図13は、本実施形態に係る音声処理を示すフローチャートである。
図13に示す音声処理は、ステップS101−S104及びステップS106に加え、ステップS107B、ステップS105C及びステップS111C−113Cを有する。
図13に示す音声処理において、ステップS104の処理が終了した後、ステップS107Bに進む。
(ステップS111C)スペクトル正規化部107Cは、発話状態判定部105において発話状態が発話中である各音源について、現発話の開始時点からの経過時間が所定の経過時間の閾値を超えているか否かを判定する。超えていると判定するとき(ステップS111C YES)、ステップS112Cに進む。超えていないと判定するとき(ステップS111C NO)、ステップS113Cに進む。
(ステップS112C)スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして平均スペクトル算出部106Bが逐次に算出する平均スペクトルを選択する。その後、ステップS105Cに進む。
(ステップS105C)スペクトル正規化部107Cは、その時点における音源毎のスペクトルを、対応する音源についてステップS112C又はステップS113Cで選択した平均スペクトルで正規化して正規化スペクトルを算出する。スペクトル正規化部107Cは、算出した正規化スペクトルを音声認識部108に出力する。その後、ステップS106に進む。
この構成により、発話開始直後における時間経過に伴う平均スペクトルの変動が起こらないため、その変動による音声認識精度の低下が解消される。
次に、図面を参照しながら本発明の第5の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付してその説明を援用する。
本実施形態に係る音声処理システム1Dは、音声処理装置10D、入力部20及び出力部30を含んで構成される。次に、本実施形態に係る音声処理装置10Dの構成について説明する。
音声処理装置10Dは、音声処理装置10C(図12)において平均スペクトル算出部106Bに代えて平均スペクトル算出部106Dを備え、さらにイベント検出部112Dを備える。
次に、本実施形態に係る音声処理について説明する。
図17は、本実施形態に係る音声処理を示すフローチャートである。
図17に示す音声処理は、ステップS101−S104、ステップS106、ステップS107B、ステップS105C、ステップS111C、ステップ113C、ステップS112D、ステップS114D、及びステップS115Dを有する。
図17に示す音声処理のステップS111Cにおいて、スペクトル正規化部107Cは、発話状態判定部105において発話状態が発話中である音源について、現発話の開始時点からの経過時間が所定の経過時間の閾値を超えていると判定するとき(ステップS111C YES)、ステップS114Dに進む。
(ステップS112D)平均スペクトル算出部106Dは、発話開始後その時点までの各音源の平均スペクトルを逐次に算出する。スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして、平均スペクトル算出部106Bが発話開始後その時点まで逐次に算出される平均スペクトルを選択する。その後、ステップS105Cに進む。
(ステップS115D)平均スペクトル算出部106Dは、平均スペクトルの算出を再開する。スペクトル正規化部107Cは、正規化に用いる平均スペクトルとして、平均スペクトル算出部106Bがイベント検出後その時点まで逐次に算出される平均スペクトルを選択する。その後、ステップS105Cに進む。
本実施形態に係る音声処理装置10Dは、次のように変形して実施可能である。
図19は、本実施形態に係る音声処理システム1Dの変形例1の構成を示すブロック図である。音声処理システム1Dは、音声処理装置10D、入力部20、ロボット制御部21D及び出力部30を含んで構成される。
図19に示す音声処理システム1Dは、ロボット(図示せず)に搭載される。入力部20はロボットの頭部に格納され、出力部30はロボットの胸部に設置される。音声処理装置10D及びロボット制御部21Dは、ロボットの本体に内蔵される。
データ入力部114Dは、ロボット制御部21Dから入力される動作信号を動作検出部115Dに出力し、合成音声信号を合成音声検出部116Dに出力する。
合成音声信号の信号値の絶対値が所定の信号値の閾値よりも小さい状態から、合成音声信号の信号値が当該閾値よりも大きくなる状態に変化するとき、合成音声の発生開始をイベントとして検出してもよい。合成音声検出部116Dは、検出した合成音声の発生開始を示すイベント検出情報を平均スペクトル算出部106Dに出力する。合成音声の発生開始を契機に、その時点以降において生ずる合成音声に係る平均スペクトルをもって、その都度算出される音源別音声信号のスペクトルが正規化される。合成音声検出部116Dは、入力された合成音声信号を再生部117Dに出力する。
再生部117Dは、合成音声検出部116Dから入力される合成音声信号に基づく合成音声を再生する。再生部117Dは、例えば、スピーカを含んで構成される。
(S1−1)動作検出部115Dは、該当音源について特徴量取得部104が算出した音源別音声信号のスペクトルについてパワースペクトルを算出し、算出したパワースペクトルに基づいて定常雑音レベルを算出する。定常雑音レベルを算出する手法として、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いることができる。
(S1−2)発話状態判定部105が当該音源の発話状態が発話中ではないと判定するとき、動作検出部115Dは、(S1−1)において算出したパワースペクトルと雑音パワースペクトルに基づいて、音源別音源信号に対する音声成分利得を算出する。
(S1−3)動作検出部115Dは、音源別音声信号のスペクトルに算出した音声成分の利得を乗算して推定目標スペクトルを算出する。発話状態が発話中ではない場合には、推定目標スペクトルは、音源別音声信号から定常雑音成分が除去された非定常雑音成分のスペクトルに相当する。
(S1−4)発話状態が発話中であると判定されるとき、動作検出部115Dは、定常雑音レベルと非定常雑音レベルとを加算して動作音の音声信号のスペクトルを算出する。算出されたスペクトルが正規化に用いるスペクトルとして用いられる。発話状態が発話中である場合には、推定目標スペクトルは、非定常雑音成分と音声成分とが重畳した重畳成分のスペクトルに相当する。
本実施形態に係る音声処理装置10Dは、また次のように変形して実施可能である。
図20は、本実施形態に係る音声処理システム1Dの変形例2の構成を示すブロック図である。音声処理システム1Dは、音声処理装置10D、入力部20、電子制御ユニット22D及び出力部30を含んで構成される。
図20に示す音声処理システム1Dは、車両(図示せず)の車室内に設置される。入力部20と出力部30は、乗員の着座位置、例えば、運転席の前方正面に設置される。音声処理装置10Dと電子制御ユニット22Dは、例えば、運転席の前方下部のダッシュボードに設置される。音声処理装置10Dと電子制御ユニット22Dは、CAN(Controller Area Network;コントローラエリアネットワーク)で接続され、相互間において各種のデータを送受信可能することができる。
この構成により、イベントの検出に伴い、その時点のスペクトルの正規化に用いる平均スペクトルが再設定される。そのため、イベントに起因する音響環境の変化による音声認識精度の低下を回避することができる。
この構成により、イベントに伴って発生した音の成分が正規化により除去されるので、発生した音による音声認識精度の低下を防ぐことができる。
例えば、音声処理装置10、10A、10B、10C、10Dにおいて、音源定位部101、音源追跡部102及び音源分離部103は省略されてもよい。その場合には、入力部20は、少なくとも1チャネルの音声信号を取得できればよい。入力部20は、取得した音声信号を特徴量取得部104に出力する。特徴量取得部104、発話状態判定部105、平均スペクトル算出部106、106B及びスペクトル正規化部107A、107B、107Cは、音源毎の音源別音声信号について行うことに代え、入力部20が取得した音声信号について行う。また、上述した実施形態ならびに変形例の構成は、相互に組み合わされてもよいし、その一部の構成が省略されてもよい。
Claims (10)
- 音声信号のスペクトルをフレーム毎に取得する特徴量取得部と、
前記音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定部と、
現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化部と、
を備える音声処理装置。 - 前記スペクトル正規化部は、前記平均スペクトルとして、過去の発話における平均スペクトルを用いる請求項1に記載の音声処理装置。
- 前記スペクトル正規化部は、前記平均スペクトルとして、現発話の開始から現時点までの平均スペクトルを用いる請求項1に記載の音声処理装置。
- 音響環境を変化させるイベントを検出するイベント検出部を備え、
前記スペクトル正規化部は、前記現時点までに取得した平均スペクトルとして、前記イベントの検出以降の平均スペクトルを用いる請求項3に記載の音声処理装置。 - 前記イベント検出部は、
前記イベントに係る音を検出し、
前記スペクトル正規化部は、前記現発話の開始から現時点までの平均スペクトルとして、前記イベント検出部が検出した音の平均スペクトルを用いる請求項4に記載の音声処理装置。 - 前記スペクトル正規化部は、現発話の開始から所定時間までの間、前記現発話の開始から現時点までの平均スペクトルに代えて、過去の発話における平均スペクトルを用いる請求項3から請求項5のいずれか一項に記載の音声処理装置。
- 前記過去の発話は、現発話の直前の発話である請求項2または請求項6に記載の音声処理装置。
- 前記過去の発話は、予め記憶部に記憶された複数の発話である請求項2または請求項6に記載の音声処理装置。
- 複数のチャネルの音声信号に基づいて音源方向を定める音源定位部と、
前記複数のチャネルの音声信号を前記音源方向からの伝達関数に基づいて音源毎の音声信号に分離して音源別音声信号を前記特徴量取得部に出力する音源分離部と、
を備える請求項1から請求項8のいずれか一項に記載の音声処理装置。 - 音声処理装置における音声処理方法であって、
音声信号のスペクトルをフレーム毎に取得する特徴量取得ステップと、
前記音声信号に基づいてフレーム毎に発話状態を判定する発話状態判定ステップと、
現発話におけるフレーム毎のスペクトルを少なくとも現時点までに取得した平均スペクトルで正規化して現発話における正規化スペクトルを算出するスペクトル正規化ステップと、
を有する音声処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015190593A JP6532021B2 (ja) | 2015-09-29 | 2015-09-29 | 音声処理装置及び音声処理方法 |
US15/235,532 US9786295B2 (en) | 2015-09-29 | 2016-08-12 | Voice processing apparatus and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015190593A JP6532021B2 (ja) | 2015-09-29 | 2015-09-29 | 音声処理装置及び音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017067879A true JP2017067879A (ja) | 2017-04-06 |
JP6532021B2 JP6532021B2 (ja) | 2019-06-19 |
Family
ID=58406567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015190593A Active JP6532021B2 (ja) | 2015-09-29 | 2015-09-29 | 音声処理装置及び音声処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9786295B2 (ja) |
JP (1) | JP6532021B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256234A (zh) * | 2020-11-06 | 2021-01-22 | 易普森智慧健康科技(深圳)有限公司 | 一种控制音量的方法、装置及计算机可读介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3455719A1 (en) | 2016-05-10 | 2019-03-20 | Google LLC | Implementations for voice assistant on devices |
CN108604180A (zh) | 2016-05-13 | 2018-09-28 | 谷歌有限责任公司 | 用于语音用户界面的视觉效果的led设计语言 |
WO2018155480A1 (ja) | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
JP7075064B2 (ja) * | 2018-03-09 | 2022-05-25 | 日本電気株式会社 | 信号源識別装置、信号源識別方法、プログラム |
US11322019B2 (en) * | 2019-10-23 | 2022-05-03 | Zoox, Inc. | Emergency vehicle detection |
KR20210061115A (ko) * | 2019-11-19 | 2021-05-27 | 엘지전자 주식회사 | 인공지능형 로봇 디바이스의 음성 인식 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0990990A (ja) * | 1995-09-25 | 1997-04-04 | Kokusai Denshin Denwa Co Ltd <Kdd> | 音声認識のための音響分析方法および装置 |
JP2000172291A (ja) * | 1998-12-02 | 2000-06-23 | Sony Corp | 音声認識装置 |
JP2003271190A (ja) * | 2002-03-15 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 |
US7440891B1 (en) * | 1997-03-06 | 2008-10-21 | Asahi Kasei Kabushiki Kaisha | Speech processing method and apparatus for improving speech quality and speech recognition performance |
JP2010237269A (ja) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | 音声認識装置、その方法及びそのプログラム |
-
2015
- 2015-09-29 JP JP2015190593A patent/JP6532021B2/ja active Active
-
2016
- 2016-08-12 US US15/235,532 patent/US9786295B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0990990A (ja) * | 1995-09-25 | 1997-04-04 | Kokusai Denshin Denwa Co Ltd <Kdd> | 音声認識のための音響分析方法および装置 |
US7440891B1 (en) * | 1997-03-06 | 2008-10-21 | Asahi Kasei Kabushiki Kaisha | Speech processing method and apparatus for improving speech quality and speech recognition performance |
JP2000172291A (ja) * | 1998-12-02 | 2000-06-23 | Sony Corp | 音声認識装置 |
JP2003271190A (ja) * | 2002-03-15 | 2003-09-25 | Matsushita Electric Ind Co Ltd | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 |
JP2010237269A (ja) * | 2009-03-30 | 2010-10-21 | Toshiba Corp | 音声認識装置、その方法及びそのプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256234A (zh) * | 2020-11-06 | 2021-01-22 | 易普森智慧健康科技(深圳)有限公司 | 一种控制音量的方法、装置及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6532021B2 (ja) | 2019-06-19 |
US20170092284A1 (en) | 2017-03-30 |
US9786295B2 (en) | 2017-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6532021B2 (ja) | 音声処理装置及び音声処理方法 | |
EP2058797B1 (en) | Discrimination between foreground speech and background noise | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP6140579B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
US20160071520A1 (en) | Speaker indexing device and speaker indexing method | |
JP3836815B2 (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
EP0911805A2 (en) | Speech recognition method and speech recognition apparatus | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
WO2018051945A1 (ja) | 音声処理装置、音声処理方法、および記録媒体 | |
Schulze-Forster et al. | Joint phoneme alignment and text-informed speech separation on highly corrupted speech | |
JP2016180839A (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
JP7426686B2 (ja) | 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法 | |
JP4556028B2 (ja) | 発話主体同定装置及びコンピュータプログラム | |
JP2002516419A (ja) | 発声言語における少なくとも1つのキーワードを計算器により認識する方法および認識装置 | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 | |
Gomez et al. | Optimized wavelet-domain filtering under noisy and reverberant conditions | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JP2024015817A (ja) | 閾値生成方法、閾値生成装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6532021 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |