JP6289774B2 - 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム - Google Patents
音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム Download PDFInfo
- Publication number
- JP6289774B2 JP6289774B2 JP2017553538A JP2017553538A JP6289774B2 JP 6289774 B2 JP6289774 B2 JP 6289774B2 JP 2017553538 A JP2017553538 A JP 2017553538A JP 2017553538 A JP2017553538 A JP 2017553538A JP 6289774 B2 JP6289774 B2 JP 6289774B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- unit
- noise suppression
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 119
- 230000001629 suppression Effects 0.000 claims description 209
- 238000012545 processing Methods 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 101001139126 Homo sapiens Krueppel-like factor 6 Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
実施の形態1.
まず、図1は、実施の形態1に係る音声認識装置100の構成を示すブロック図である。
音声認識装置100は、第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4を備えて構成されている。
第1の予測部1は、回帰器で構成される。回帰器としては、例えばNeural network(以下、NNと称する)を構築して適用する。NNの構築では、Mel-frequency Cepstral Coefficient(MFCC)またはフィルタバンク特徴利用など、一般的に利用される音響特徴量を利用し、回帰器として0以上1以下となる音声認識率を直接算出するNNを、例えば誤差逆伝搬法などを用いて構築する。誤差逆伝搬法とは、ある学習データが与えられた時に、当該学習データとNNの出力の誤差が小さくなるように各層の間の結合荷重・バイアス等を修正する学習法である。第1の予測部1は、例えば入力を音響特徴量とし、出力を音声認識率とするNNにより、入力された音響特徴量の音声認識率を予測する。
図2Aは、実施の形態1に係る音声認識装置100のハードウェア構成を示し、処理回路がハードウェアで実行される場合のブロック図を示す。図2Aに示すように、処理回路101が専用のハードウェアである場合、第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4の各機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて処理回路で実現してもよい。
図2Bに示すように、処理回路がプロセッサ102である場合、第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアやファームウェアはプログラムとして記述され、メモリ103に格納される。プロセッサ102はメモリ103に記憶されたプログラムを読み出して実行することにより、各部の機能を実行する。ここで、メモリ103とは、例えばRAM、ROM、フラッシュメモリーなどの不揮発性または揮発性の半導体メモリや、磁気ディスク、光ディスクなどが該当する。
まず、回帰器を適用した第1の予測部1は、音響特徴量を入力とし、出力を音声認識率とするNNで構成されている。第1の予測部1は、音響特徴量が短時間フーリエ変換のフレーム毎に入力されると、NNにより各騒音抑圧部3a,3b,3cのそれぞれが音声認識率を予測する。即ち、第1の予測部1は、それぞれ異なる騒音抑圧処理を適用した場合の音声認識率を音響特徴量のフレーム毎に算出する。抑圧手法選択部2は、第1の予測部1が算出した各騒音抑圧部3a,3b,3cを適用した場合の音声認識率を参照し、最も音声認識率が高い音声認識結果を導く騒音抑圧部3を選択し、選択した騒音抑圧部3に対して制御指示を出力する。
音声認識装置100には、外部のマイクなどを介して騒音音声データと、当該騒音音声データの音響特徴量とが入力されるものとする。なお、騒音音声データの音響特徴量は、外部の特徴量算出手段により算出されるものとする。
騒音音声データ、および当該騒音音声データの音響特徴量が入力されると(ステップST1)、第1の予測部1は入力された音響特徴量の短時間フーリエ変換のフレーム単位で、NNにより各騒音抑圧部3a,3b,3cで騒音抑圧処理を行った場合の音声認識率を予測する(ステップST2)。なお、ステップST2の処理は、設定された複数のフレームに対して処理が繰り返し行われる。第1の予測部1は、ステップST2においてフレーム単位且つ複数のフレームについて予測した音声認識率の平均、最大値、または最小値を求め、各騒音抑圧部3a,3b,3cで処理を行った場合のそれぞれの予測認識率を算出する(ステップST3)。第1の予測部1は算出した予測認識率を各騒音抑圧部3a,3b,3cと紐付けて抑圧手法選択部2に出力する(ステップST4)。
例えば従来の技術では、3つ候補となる騒音抑圧手法があった場合には、3つの手法すべてで騒音抑圧処理を行いその結果に基づいて最もよい騒音抑圧処理を選んでいたが、この実施の形態1によれば、候補となる騒音抑圧手法が3つあった場合にも、あらかじめ最も性能がよいであろう手法が予測できるので、その選ばれた手法でのみ騒音抑圧処理を行うことで騒音抑圧処理にかかる計算量を削減することができるという利点が得られる。
上述した実施の形態1では、回帰器を用いて音声認識率の高い音声認識結果を導く騒音抑圧部3を選択する構成を示したが、この実施の形態2では識別器を用いて音声認識率の高い音声認識結果を導く騒音抑圧部3を選択する構成を示す。
図4は、実施の形態2に係る音声認識装置100aの構成を示すブロック図である。
実施の形態2の音声認識装置100aは、実施の形態1で示した音声認識装置100の第1の予測部1および抑圧手法選択部2に替えて第2の予測部1aおよび抑圧手法選択部2aを設けて構成している。なお、以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
もちろんSVM(support vector machine)などの他の分類器を使うことも考えられる。
図5は、実施の形態2に係る音声認識装置100aの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置100と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声認識装置100aには、外部のマイクなどを介して騒音音声データと、当該騒音音声データの音響特徴量とが入力されるものとする。
騒音音声データ、および当該騒音音声データの音響特徴量が入力されると(ステップST1)、第2の予測部1aは入力された音響特徴量の短時間フーリエ変換のフレーム単位で、NNにより最も音声認識率の高い音声認識結果を導く騒音抑圧手法の抑圧手法IDを予測する(ステップST11)。
上述した実施の形態1,2では、音響特徴量を短時間フーリエ変換のフレーム毎に第1の予測部1または第2の予測部1aに入力し、入力されたフレーム毎に音声認識率または抑圧手法IDを予測する構成を示した。一方、この実施の形態3では、発話単位の音響特徴量を用いて、予め学習したデータの中から、実際に音声認識装置に入力される騒音音声データの音響特徴量に最も近い発話を選択し、選択した発話の音声認識率に基づいて騒音抑圧部の選択を行う構成を示す。
実施の形態3の音声認識装置100bは、実施の形態1で示した音声認識装置100の第1の予測部1および抑圧手法選択部2に替えて、特徴量算出部5、類似度算出部6、認識率データベース7を備える第3の予測部1cおよび抑圧手法選択部2bを設けて構成している。
なお、以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
図7は、実施の形態3に係る音声認識装置100bの認識率データベース7の構成例を示す図である。
認識率データベース7は、学習データの音響特徴量と、各学習データを各騒音抑圧部(図7の例では、第1,第2,第3の騒音抑圧部)により騒音抑圧処理を行った音声データの音声認識率とを対応付けて格納している。図7において、例えば、第1の音響特徴量V(r1)の学習データに対して、第1の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が80%であり、第2の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が75%であり、第3の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が78%であることを示している。なお、認識率データベース7は、学習データをクラスタリングし、クラスタリングした学習データの認識率と、音響特徴量とを対応付けて記憶し、データ量を抑制して格納するように構成してもよい。
発話単位の音響特徴量としては、音響特徴量の平均ベクトル、Universal background model(UBM)による平均尤度ベクトル、i-vectorなどが適用可能である。特徴量算出部5は、上述した音響特徴量を、認識対象の騒音音声データそれぞれに対して、発話単位で算出する。例えば音響特徴量としてi-vectorを適用する場合には、Gaussian mixture model (GMM)を発話rに対して適応し、得られたスーパーベクトルV(r)を、あらかじめ求めておいたUBMのスーパーベクトルvと低ランクの全変数平面を張る基底ベクトルから成る行列Tにより、以下の式(1)に基づいて因子分解する。
V(r)=v+Tw(r) (1)
上述した式(1)により得られるw(r)がi-vectorである。
なお、上述した説明では、騒音抑圧手法が2つの場合を例に説明を行ったが、騒音抑圧手法が3つ以上の場合にも適用可能である。
図8は、実施の形態3に係る音声認識装置100bの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置100と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声認識装置100bには、外部のマイクなどを介して騒音音声データが入力されるものとする。
騒音音声データが入力されると(ステップST21)、特徴量算出部5は入力された騒音音声データから音響特徴量を算出する(ステップST22)。類似度算出部6は、ステップST22で算出された音響特徴量と、認識率データベース7に格納された学習データの音響特徴量とを比較し、類似度を算出する(ステップST23)。類似度算出部6は、ステップST23で算出した音響特徴量の類似度のうち最も高い類似度を示す音響特徴量を選択し、認識率データベース7を参照して選択した音響特徴量に対応付けられた認識率の組を取得する(ステップST24)。ステップST24において、音響特徴量間の類似性としてEuclid距離を用いた場合には、最も距離の短い認識率の組を取得する。
上述した実施の形態3では、学習データの音響特徴量と音声認識率とを対応付けた認識率データベース7を参照して騒音抑圧手法を選択する構成を示したが、この実施の形態4では学習データの音響特徴量と音響指標とを対応付けた音響指標データベースを参照して騒音抑圧手法を選択する構成を示す。
図9は、実施の形態4に係る音声強調装置200の構成を示すブロック図である。
実施の形態4の音声強調装置200は、実施の形態3で示した音声認識装置100bの特徴量算出部5、類似度算出部6および認識率データベース7を備えた第3の予測部1cおよび抑圧手法選択部2bに替えて、特徴量算出部5、類似度算出部6aおよび音響指標データベース8を備えた第4の予測部1dおよび抑圧手法選択部2cを設けて構成している。また、音声認識部4を備えていない。
なお、以下では、実施の形態3に係る音声認識装置100bの構成要素と同一または相当する部分には、実施の形態3で使用した符号と同一の符号を付して説明を省略または簡略化する。
抑圧手法選択部2cは、類似度算出部6aから入力された音響指標の組を参照し、複数の騒音抑圧部3a,3b,3cから騒音抑圧を行う騒音抑圧部3を選択する。
図10は、実施の形態4に係る音声強調装置200の動作を示すフローチャートである。音声強調装置200には、外部のマイクなどを介して騒音音声データが入力されるものとする。
騒音音声データが入力されると(ステップST31)、特徴量算出部5は入力された騒音音声データから音響特徴量を算出する(ステップST32)。類似度算出部6aは、ステップST32で算出された音響特徴量と、音響指標データベース8に格納された学習データの音響特徴量とを比較し、類似度を算出する(ステップST33)。類似度算出部6aは、ステップST33で算出した音響特徴量の類似度のうち最も高い類似度を示す音響特徴量を選択し、選択した音響特徴量に対応付けられた音響指標の組を取得する(ステップST34)。
上述した実施の形態1−3の音声認識装置100,100a,100bおよび実施の形態4の音声強調装置200は、例えば音声による通話機能を備えたナビゲーションシステム、電話対応システム、エレベータなどに適用することができる。この実施の形態5では、実施の形態1の音声認識装置をナビゲーションシステムに適用した場合について示す。
図11は、実施の形態5に係るナビゲーションシステム300の構成を示す機能ブロック図である。
ナビゲーションシステム300は、例えば車両に搭載されて目的地までの経路案内を実行する装置であり、情報取得装置301、制御装置302、出力装置303、入力装置304、音声認識装置100、地図データベース305、経路算出装置306および経路案内装置307を備える。ナビゲーションシステム300の各装置の動作は、制御装置302によって統括的に制御される。
Claims (9)
- 入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、
前記騒音抑圧部により騒音信号が抑圧された音声データの音声認識を行う音声認識部と、
前記入力された騒音音声データの音響特徴量から、前記騒音音声データを前記複数の騒音抑圧部によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測する予測部と、
前記予測部が予測した音声認識率に基づいて、前記複数の騒音抑圧部から前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えた音声認識装置。 - 前記予測部は、前記音響特徴量の短時間フーリエ変換のフレーム毎に、前記音声認識率の予測を行うこと特徴とする請求項1記載の音声認識装置。
- 前記予測部は、前記音響特徴量を入力とし、前記音響特徴量の音声認識率を出力とするニューラルネットワークで構成されることを特徴とする請求項1記載の音声認識装置。
- 前記予測部は、前記音響特徴量を入力として分類処理を行い、音声認識率の高い前記騒音抑圧部を示す情報を出力とするニューラルネットワークで構成されることを特徴とする請求項1記載の音声認識装置。
- 前記予測部は、前記騒音音声データから発話単位で音響特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、予め蓄積された音声認識率を取得する類似度算出部とを備えたことを特徴とする請求1記載の音声認識装置。
- 入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、
前記入力された騒音音声データから発話単位で音響特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、あらかじめ蓄積された音響指標を取得する類似度算出部とを有する予測部と、
前記類似度算出部が取得した音響指標に基づいて、前記複数の騒音抑圧部から前記騒音音声データの騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えた音声強調装置。 - 予測部が、入力された騒音音声データの音響特徴量から、前記騒音音声データを前記複数の騒音抑圧手法によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測するステップと、
抑圧手法選択部が、前記予測された音声認識率に基づいて、前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択するステップと、
前記選択された騒音抑圧部が、前記入力された騒音音声データの騒音抑圧処理を行うステップと、
音声認識部が、前記騒音抑圧処理により騒音信号が抑圧された音声データの音声認識を行うステップとを備えた音声認識方法。 - 予測部の特徴量算出部が、入力された騒音音声データから発話単位で音響特徴量を算出するステップと、
予測部の類似度算出部が、前記算出された音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、あらかじめ蓄積された音響指標を取得するステップと、
抑圧手法選択部が、前記取得された音響指標に基づいて、前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択するステップと、
前記選択された騒音抑圧部が、前記入力された騒音音声データの騒音抑圧処理を行うステップとを備えた音声強調装置。 - 請求項1記載の音声認識装置と、
移動体の現在位置を当該移動体の出発地とし、前記音声認識装置の出力である音声認識結果を前記移動体の目的地とし、地図データを参照して、前記出発地から前記目的地までの経路を算出する経路算出装置と、
前記経路算出部が算出した経路に従って前記移動体の移動を案内する経路案内装置とを備えたナビゲーション装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/083768 WO2017094121A1 (ja) | 2015-12-01 | 2015-12-01 | 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017094121A1 JPWO2017094121A1 (ja) | 2018-02-08 |
JP6289774B2 true JP6289774B2 (ja) | 2018-03-07 |
Family
ID=58796545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017553538A Active JP6289774B2 (ja) | 2015-12-01 | 2015-12-01 | 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム |
Country Status (7)
Country | Link |
---|---|
US (1) | US20180350358A1 (ja) |
JP (1) | JP6289774B2 (ja) |
KR (1) | KR102015742B1 (ja) |
CN (1) | CN108292501A (ja) |
DE (1) | DE112015007163B4 (ja) |
TW (1) | TW201721631A (ja) |
WO (1) | WO2017094121A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7167554B2 (ja) | 2018-08-29 | 2022-11-09 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
JP7196993B2 (ja) * | 2018-11-22 | 2022-12-27 | 株式会社Jvcケンウッド | 音声処理条件設定装置、無線通信装置、および音声処理条件設定方法 |
CN109920434B (zh) * | 2019-03-11 | 2020-12-15 | 南京邮电大学 | 一种基于会议场景的噪声分类去除方法 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173255B1 (en) * | 1998-08-18 | 2001-01-09 | Lockheed Martin Corporation | Synchronized overlap add voice processing using windows and one bit correlators |
JP2000194392A (ja) | 1998-12-25 | 2000-07-14 | Sharp Corp | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 |
AU2003223359A1 (en) * | 2002-03-27 | 2003-10-13 | Aliphcom | Nicrophone and voice activity detection (vad) configurations for use with communication systems |
JP4352790B2 (ja) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
JP2005115569A (ja) | 2003-10-06 | 2005-04-28 | Matsushita Electric Works Ltd | 信号識別装置および信号識別方法 |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US20060206320A1 (en) * | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
US20070041589A1 (en) * | 2005-08-17 | 2007-02-22 | Gennum Corporation | System and method for providing environmental specific noise reduction algorithms |
JP2007206501A (ja) * | 2006-02-03 | 2007-08-16 | Advanced Telecommunication Research Institute International | 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム |
US7676363B2 (en) * | 2006-06-29 | 2010-03-09 | General Motors Llc | Automated speech recognition using normalized in-vehicle speech |
JP4730369B2 (ja) * | 2007-10-30 | 2011-07-20 | 株式会社デンソー | ナビゲーションシステム |
US8606573B2 (en) * | 2008-03-28 | 2013-12-10 | Alon Konchitsky | Voice recognition improved accuracy in mobile environments |
EP2362389B1 (en) * | 2008-11-04 | 2014-03-26 | Mitsubishi Electric Corporation | Noise suppressor |
JP5187666B2 (ja) * | 2009-01-07 | 2013-04-24 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
TWI404049B (zh) * | 2010-08-18 | 2013-08-01 | Hon Hai Prec Ind Co Ltd | 語音導航設備及語音導航方法 |
WO2012063963A1 (ja) * | 2010-11-11 | 2012-05-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
JP5916054B2 (ja) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
JP5932399B2 (ja) * | 2012-03-02 | 2016-06-08 | キヤノン株式会社 | 撮像装置及び音声処理装置 |
US9524730B2 (en) * | 2012-03-30 | 2016-12-20 | Ohio State Innovation Foundation | Monaural speech filter |
JP6169849B2 (ja) * | 2013-01-15 | 2017-07-26 | 本田技研工業株式会社 | 音響処理装置 |
JP6235938B2 (ja) * | 2013-08-13 | 2017-11-22 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
CN104575510B (zh) * | 2015-02-04 | 2018-08-24 | 深圳酷派技术有限公司 | 降噪方法、降噪装置和终端 |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
-
2015
- 2015-12-01 JP JP2017553538A patent/JP6289774B2/ja active Active
- 2015-12-01 DE DE112015007163.6T patent/DE112015007163B4/de active Active
- 2015-12-01 CN CN201580084845.6A patent/CN108292501A/zh not_active Withdrawn
- 2015-12-01 US US15/779,315 patent/US20180350358A1/en not_active Abandoned
- 2015-12-01 KR KR1020187014775A patent/KR102015742B1/ko active IP Right Grant
- 2015-12-01 WO PCT/JP2015/083768 patent/WO2017094121A1/ja active Application Filing
-
2016
- 2016-03-31 TW TW105110250A patent/TW201721631A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2017094121A1 (ja) | 2017-06-08 |
US20180350358A1 (en) | 2018-12-06 |
JPWO2017094121A1 (ja) | 2018-02-08 |
KR102015742B1 (ko) | 2019-08-28 |
CN108292501A (zh) | 2018-07-17 |
TW201721631A (zh) | 2017-06-16 |
KR20180063341A (ko) | 2018-06-11 |
DE112015007163B4 (de) | 2019-09-05 |
DE112015007163T5 (de) | 2018-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10468032B2 (en) | Method and system of speaker recognition using context aware confidence modeling | |
US10867621B2 (en) | System and method for cluster-based audio event detection | |
EP2216775B1 (en) | Speaker recognition | |
US10878807B2 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
US20160111084A1 (en) | Speech recognition device and speech recognition method | |
US10733986B2 (en) | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium | |
JP6289774B2 (ja) | 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム | |
KR20160010961A (ko) | 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 | |
EP2189976A1 (en) | Method for adapting a codebook for speech recognition | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
Vafeiadis et al. | Two-dimensional convolutional recurrent neural networks for speech activity detection | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
KR102550598B1 (ko) | 음성 화자 인식 장치 및 그 방법 | |
Feng et al. | On using heterogeneous data for vehicle-based speech recognition: A DNN-based approach | |
JP6481939B2 (ja) | 音声認識装置および音声認識プログラム | |
Loh et al. | Speech recognition interactive system for vehicle | |
US20170263250A1 (en) | Voice processing system and voice processing method | |
JP4860962B2 (ja) | 音声認識装置、音声認識方法、及び、プログラム | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP5867199B2 (ja) | 雑音推定装置、雑音推定方法及び雑音推定用コンピュータプログラム | |
CN110875034A (zh) | 用于语音识别的模板训练方法、语音识别方法及其系统 | |
JP7482086B2 (ja) | キーワード検出装置、方法及びプログラム | |
Delcroix et al. | Discriminative feature transforms using differenced maximum mutual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171113 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20171113 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20171218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6289774 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |