JP6289774B2 - 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム - Google Patents

音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム Download PDF

Info

Publication number
JP6289774B2
JP6289774B2 JP2017553538A JP2017553538A JP6289774B2 JP 6289774 B2 JP6289774 B2 JP 6289774B2 JP 2017553538 A JP2017553538 A JP 2017553538A JP 2017553538 A JP2017553538 A JP 2017553538A JP 6289774 B2 JP6289774 B2 JP 6289774B2
Authority
JP
Japan
Prior art keywords
noise
unit
noise suppression
speech recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017553538A
Other languages
English (en)
Other versions
JPWO2017094121A1 (ja
Inventor
勇気 太刀岡
勇気 太刀岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2017094121A1 publication Critical patent/JPWO2017094121A1/ja
Application granted granted Critical
Publication of JP6289774B2 publication Critical patent/JP6289774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Navigation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、音声認識技術および音声強調技術に関し、特に多様な騒音環境下における使用に対応した技術に関するものである。
騒音が重畳した音声を用いて音声認識を行う場合、音声認識処理を行う前に重畳した騒音を抑圧する処理(以下、騒音抑圧処理と称する)を行うのが一般的である。騒音抑圧処理の特性により、騒音抑圧処理に対して効果的な騒音と効果的でない騒音が存在する。例えば、騒音抑圧処理が定常騒音に対して強いスペクトル引き去り処理である場合には、非定常騒音に対する引き去り処理が弱くなる。一方、騒音抑圧処理が非定常騒音に追従性が高い処理である場合には、定常騒音に対する追従性が低い処理となる。このような問題を解決する手法として、従来音声認識結果の統合、あるいは音声認識結果の選択が用いられている。
当該従来の手法は、騒音が重畳された音声が入力された場合に、例えば定常騒音に追従性が高い抑圧処理と非定常騒音に追従性が高い抑圧処理とを行う2つの騒音抑圧部により騒音を抑圧して2つの音声を取得し、取得した2つの音声に対して2つの音声認識部で音声の認識を行う。音声認識によって得られた2つの音声認識結果をROVER(Recognition Output Voting Error Reduction)などの音声結合手法を用いて統合する、あるいは2つの音声認識結果のうち尤度の高い音声認識結果を選択し、統合あるいは選択した音声認識結果を出力する。しかし、当該従来の手法では、認識精度の改善程度は大きいが、音声認識のための処理が増加するという問題があった。
当該問題を解決する手法とし、例えば特許文献1には、入力騒音の音響特徴パラメータの各確率音声モデルに対する尤度を算出し、当該尤度から音確率音響モデルを選択する音声認識装置が開示されている。また、特許文献2には、入力された対象信号からノイズを除去し、対象信号の特徴を表す特徴量データを抽出する前処理を行った後、競合型ニューラルネットワークのクラスタリングマップの形状により対象信号を複数のカテゴリに分類し、処理内容を自動的に選択する信号識別装置が開示されている。
特開2000−194392号公報 特開2005−115569号公報
しかしながら、上述した特許文献1に開示された技術では、入力騒音の音響特徴パラメータの各確率音声モデルに対する尤度を用いているため、良好な音声認識率または音響指標が得られる騒音抑圧処理が選択されない場合があるという課題があった。また、特許文献2に開示された技術では、対象信号のクラスタリングが行われているものの、音声認識率または音響指標に紐付けたクラスタリングは行われていないため、良好な音声認識率または音響指標が得られる騒音抑圧処理が選択されない場合がある課題があった。また上記の2手法は共通して、性能予測のために騒音抑圧処理を行った音声が必要となるため、学習時・使用時ともに、一度すべての候補となる騒音抑圧処理を行わなければならないという課題があった。
この発明は、上記のような課題を解決するためになされたもので、騒音抑圧手法を選択するために使用時に騒音抑圧処理を行うことなく、騒音音声データだけから良好な音声認識率または音響指標が得られる騒音抑圧処理を高精度に選択することを目的とする。
この発明に係る音声認識装置は、入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、騒音抑圧部により騒音信号が抑圧された音声データの音声認識を行う音声認識部と、入力された騒音音声データの音響特徴量から、騒音音声データを複数の騒音抑圧部によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測する予測部と、予測部が予測した音声認識率に基づいて、複数の騒音抑圧部から騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えるものである。
この発明によれば、騒音抑圧手法を選択するために騒音抑圧処理を行うことなく、良好な音声認識率または音響指標が得られる騒音抑圧処理を選択することができる。
実施の形態1に係る音声認識装置の構成を示すブロック図である。 図2A、図2Bは実施の形態1に係る音声認識装置のハードウェア構成を示す図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。 実施の形態3に係る音声認識装置の構成を示すブロック図である。 実施の形態3に係る音声認識装置の認識率データベースの構成例を示す図である。 実施の形態3に係る音声認識装置の動作を示すフローチャートである。 実施の形態4に係る音声強調装置の構成を示すブロック図である。 実施の形態4に係る音声強調装置の動作を示すフローチャートである。 実施の形態5に係るナビゲーションシステムの構成を示す機能ブロック図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
まず、図1は、実施の形態1に係る音声認識装置100の構成を示すブロック図である。
音声認識装置100は、第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4を備えて構成されている。
第1の予測部1は、回帰器で構成される。回帰器としては、例えばNeural network(以下、NNと称する)を構築して適用する。NNの構築では、Mel-frequency Cepstral Coefficient(MFCC)またはフィルタバンク特徴利用など、一般的に利用される音響特徴量を利用し、回帰器として0以上1以下となる音声認識率を直接算出するNNを、例えば誤差逆伝搬法などを用いて構築する。誤差逆伝搬法とは、ある学習データが与えられた時に、当該学習データとNNの出力の誤差が小さくなるように各層の間の結合荷重・バイアス等を修正する学習法である。第1の予測部1は、例えば入力を音響特徴量とし、出力を音声認識率とするNNにより、入力された音響特徴量の音声認識率を予測する。
抑圧手法選択部2は、第1の予測部1が予測した音声認識率を参照し、複数の騒音抑圧部3a,3b,3cから騒音抑圧を行う騒音抑圧部3を選択する。抑圧手法選択部2は、選択した騒音抑圧部3に対して騒音抑圧処理を行うように制御指示を出力する。騒音抑圧部3は、複数の騒音抑圧部3a,3b,3cで構成され、各騒音抑圧部3a,3b,3cは入力された騒音音声データに対してそれぞれ異なる騒音抑圧処理を行う。それぞれ異なる騒音抑圧処理として、例えばスペクトル引き去り法(SS)、学習同定法(Normalized Least Mean Square Algorithm;NLMSアルゴリズム)などを適用した適応フィルタ法、Denoising auto encoderなどのNNを用いた手法などが適用可能である。また、騒音抑圧部3a,3b,3cのいずれにおいて騒音抑圧処理を行うかは、抑圧手法選択部2から入力される制御指示に基づいて決定される。なお、図1の例では、3つの騒音抑圧部3a,3b,3cで構成する例を示したが、構成数は3つに限定されるものではなく、適宜変更可能である。
音声認識部4は、騒音抑圧部3で騒音信号が抑圧された音声データに対して音声認識を行い、音声認識結果を出力する。音声認識は、例えばGaussian mixture modelまたはDeep neural networkによる音響モデルと、n-gramによる言語モデルとを用いて音声認識処理を行う。なお、音声認識処理については、公知の技術を適用して構成することが可能であるため、詳細な説明を省略する。
音声認識装置100の第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4は、処理回路により実現される。処理回路は、専用のハードウェアであっても、メモリに格納されるプログラムを実行するCPU(Central Processing Unit)、処理装置およびプロセッサなどであってもよい。
図2Aは、実施の形態1に係る音声認識装置100のハードウェア構成を示し、処理回路がハードウェアで実行される場合のブロック図を示す。図2Aに示すように、処理回路101が専用のハードウェアである場合、第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4の各機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて処理回路で実現してもよい。
図2Bは、実施の形態1に係る音声認識装置100のハードウェア構成を示し、処理回路がソフトウェアで実行される場合のブロック図を示す。
図2Bに示すように、処理回路がプロセッサ102である場合、第1の予測部1、抑圧手法選択部2、騒音抑圧部3および音声認識部4の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアやファームウェアはプログラムとして記述され、メモリ103に格納される。プロセッサ102はメモリ103に記憶されたプログラムを読み出して実行することにより、各部の機能を実行する。ここで、メモリ103とは、例えばRAM、ROM、フラッシュメモリーなどの不揮発性または揮発性の半導体メモリや、磁気ディスク、光ディスクなどが該当する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって上述の各機能を実現することができる。
次に、第1の予測部1および抑圧手法選択部2の詳細な構成について説明する。
まず、回帰器を適用した第1の予測部1は、音響特徴量を入力とし、出力を音声認識率とするNNで構成されている。第1の予測部1は、音響特徴量が短時間フーリエ変換のフレーム毎に入力されると、NNにより各騒音抑圧部3a,3b,3cのそれぞれが音声認識率を予測する。即ち、第1の予測部1は、それぞれ異なる騒音抑圧処理を適用した場合の音声認識率を音響特徴量のフレーム毎に算出する。抑圧手法選択部2は、第1の予測部1が算出した各騒音抑圧部3a,3b,3cを適用した場合の音声認識率を参照し、最も音声認識率が高い音声認識結果を導く騒音抑圧部3を選択し、選択した騒音抑圧部3に対して制御指示を出力する。
図3は、実施の形態1に係る音声認識装置100の動作を示すフローチャートである。
音声認識装置100には、外部のマイクなどを介して騒音音声データと、当該騒音音声データの音響特徴量とが入力されるものとする。なお、騒音音声データの音響特徴量は、外部の特徴量算出手段により算出されるものとする。
騒音音声データ、および当該騒音音声データの音響特徴量が入力されると(ステップST1)、第1の予測部1は入力された音響特徴量の短時間フーリエ変換のフレーム単位で、NNにより各騒音抑圧部3a,3b,3cで騒音抑圧処理を行った場合の音声認識率を予測する(ステップST2)。なお、ステップST2の処理は、設定された複数のフレームに対して処理が繰り返し行われる。第1の予測部1は、ステップST2においてフレーム単位且つ複数のフレームについて予測した音声認識率の平均、最大値、または最小値を求め、各騒音抑圧部3a,3b,3cで処理を行った場合のそれぞれの予測認識率を算出する(ステップST3)。第1の予測部1は算出した予測認識率を各騒音抑圧部3a,3b,3cと紐付けて抑圧手法選択部2に出力する(ステップST4)。
抑圧手法選択部2は、ステップST4で出力された予測認識率を参照し、最も高い予測認識率を示す騒音抑圧部3を選択し、選択した騒音抑圧部3に対して騒音抑圧処理を行うように制御指示を出力する(ステップST5)。ステップST5で制御指示が入力された騒音抑圧部3は、ステップST1で入力された実際の騒音音声データに対して騒音信号を抑圧する処理を行う(ステップST6)。音声認識部4は、ステップST6で騒音信号が抑圧された音声データに対して音声認識を行って音声認識結果を取得し、出力する(ステップST7)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
以上のように、この実施の形態1によれば、回帰器で構成され、音響特徴量を入力とし、出力を音声認識率とするNNで構成された第1の予測部1と、第1の予測部1が予測した音声認識率を参照して複数の騒音抑圧部3から最も音声認識率の高い音声認識結果を導く騒音抑圧部3を選択し、選択した騒音抑圧部3に対して制御指示を出力する抑圧手法選択部2と、複数の騒音抑圧手法を適用した複数の処理部を備え、抑圧手法選択部2の制御指示に基づいて騒音音声データの騒音抑圧処理を行う騒音抑圧部3と、騒音抑圧処理が行われた音声データの音声認識を行う音声認識部4とを備えるように構成したので、音声認識の処理量を増加させることなく、また騒音抑圧手法を選択するために騒音抑圧処理を行うことなく、有効な騒音抑圧手法を選択することができる。
例えば従来の技術では、3つ候補となる騒音抑圧手法があった場合には、3つの手法すべてで騒音抑圧処理を行いその結果に基づいて最もよい騒音抑圧処理を選んでいたが、この実施の形態1によれば、候補となる騒音抑圧手法が3つあった場合にも、あらかじめ最も性能がよいであろう手法が予測できるので、その選ばれた手法でのみ騒音抑圧処理を行うことで騒音抑圧処理にかかる計算量を削減することができるという利点が得られる。
実施の形態2.
上述した実施の形態1では、回帰器を用いて音声認識率の高い音声認識結果を導く騒音抑圧部3を選択する構成を示したが、この実施の形態2では識別器を用いて音声認識率の高い音声認識結果を導く騒音抑圧部3を選択する構成を示す。
図4は、実施の形態2に係る音声認識装置100aの構成を示すブロック図である。
実施の形態2の音声認識装置100aは、実施の形態1で示した音声認識装置100の第1の予測部1および抑圧手法選択部2に替えて第2の予測部1aおよび抑圧手法選択部2aを設けて構成している。なお、以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
第2の予測部1aは、識別器で構成される。識別器としては、例えばNNを構築して適用する。NNの構築では、MFCCまたはフィルタバンク特徴利用など、一般的に利用される音響特徴量を利用し、識別器として2クラス分類または多クラス分類などの分類処理を行い、最も認識率の高い抑圧手法の識別子を選択するNNを、誤差逆伝搬法を用いて構築する。第2の予測部1aは、例えば入力を音響特徴量とし、最終的な出力層をsoftmax層として2クラスまたは多クラス分類を行い、出力を最も音声認識率の高い音声認識結果を導く抑圧手法ID(identification)とするNNで構成される。NNの教師データは、音声認識率の最も高い音声認識結果を導く抑圧手法のみを「1」とし、他の手法を「0」としたベクトルや、認識率に対して、Sigmoidなどを掛けて、重みづけしたデータ(Sigmoid((当該システムの認識率-(max(認識率)-min(認識率)/2))/σ)を用いることができる。ここで、σはスケーリング係数である。
もちろんSVM(support vector machine)などの他の分類器を使うことも考えられる。
抑圧手法選択部2aは、第2の予測部1aが予測した抑圧手法IDを参照し、複数の騒音抑圧部3a,3b,3cから騒音抑圧を行う騒音抑圧部3を選択する。騒音抑圧部3には、実施の形態1と同様に、スペクトル引き去り法(SS)、適応フィルタ法、NNを用いた手法などが適用可能である。抑圧手法選択部2aは、選択した騒音抑圧部3に対して騒音抑圧処理を行うように制御指示を出力する。
次に、音声認識装置100aの動作について説明する。
図5は、実施の形態2に係る音声認識装置100aの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置100と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声認識装置100aには、外部のマイクなどを介して騒音音声データと、当該騒音音声データの音響特徴量とが入力されるものとする。
騒音音声データ、および当該騒音音声データの音響特徴量が入力されると(ステップST1)、第2の予測部1aは入力された音響特徴量の短時間フーリエ変換のフレーム単位で、NNにより最も音声認識率の高い音声認識結果を導く騒音抑圧手法の抑圧手法IDを予測する(ステップST11)。
第2の予測部1aは、ステップST11においてフレーム単位で予測した抑圧手法IDの最頻値または平均値を求め、当該最頻値又は平均値の抑圧手法IDを予測抑圧手法IDとして取得する(ステップST12)。抑圧手法選択部2aは、ステップST12で取得した予測抑圧手法IDを参照し、取得した予測抑圧手法IDに対応する騒音抑圧部3を選択し、選択した騒音抑圧部3に対して騒音抑圧処理を行うように制御指示を出力する(ステップST13)。その後、実施の形態1で示したステップST6およびステップST7と同一の処理を行う。
以上のように、この実施の形態2によれば、識別器が適用され、音響特徴量を入力とし、出力を最も音声認識率が高い音声認識結果を導く抑圧手法のIDとするNNで構成された第2の予測部1aと、第2の予測部1aが予測した抑圧手法IDを参照して複数の騒音抑圧部3から最も音声認識率の高い音声認識結果を導く騒音抑圧部3を選択し、選択した騒音抑圧部3に対して制御指示を出力する抑圧手法選択部2aと、複数の騒音抑圧処理それぞれに対応した複数の処理部を備え、抑圧手法選択部2aの制御指示に基づいて騒音音声データの騒音抑圧を行う騒音抑圧部3と、騒音抑圧処理が行われた音声データの音声認識を行う音声認識部4とを備えるように構成したので、音声認識の処理量を増加させることなく、また騒音抑圧手法を選択するために騒音抑圧処理を行うことなく、有効な騒音抑圧手法を選択することができる。
実施の形態3.
上述した実施の形態1,2では、音響特徴量を短時間フーリエ変換のフレーム毎に第1の予測部1または第2の予測部1aに入力し、入力されたフレーム毎に音声認識率または抑圧手法IDを予測する構成を示した。一方、この実施の形態3では、発話単位の音響特徴量を用いて、予め学習したデータの中から、実際に音声認識装置に入力される騒音音声データの音響特徴量に最も近い発話を選択し、選択した発話の音声認識率に基づいて騒音抑圧部の選択を行う構成を示す。
図6は、実施の形態3に係る音声認識装置100bの構成を示すブロック図である。
実施の形態3の音声認識装置100bは、実施の形態1で示した音声認識装置100の第1の予測部1および抑圧手法選択部2に替えて、特徴量算出部5、類似度算出部6、認識率データベース7を備える第3の予測部1cおよび抑圧手法選択部2bを設けて構成している。
なお、以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
第3の予測部1cを構成する特徴量算出部5は、入力された騒音音声データから、発話単位で音響特徴量を算出する。なお、発話単位の音響特徴量の算出手法の詳細については後述する。類似度算出部6は、認識率データベース7を参照し、特徴量算出部5が算出した発話単位の音響特徴量と、認識率データベース7に格納された音響特徴量とを照合し、音響特徴量の類似度を算出する。類似度算出部6は、算出した類似度のうち最も高い類似度を有する音響特徴量に対応付けられた各騒音抑圧部3a,3b,3cで騒音抑圧した場合の音声認識率の組を取得し、抑圧手法選択部2bに出力する。音声認識率の組とは、例えば「音声認識率1−1,音声認識率1−2,音声認識率1−3」および「音声認識率2−1,音声認識率2−2,音声認識率2−3」などである。抑圧手法選択部2bは、類似度算出部6から入力された音声認識率の組を参照し、複数の騒音抑圧部3a,3b,3cから騒音抑圧を行う騒音抑圧部3を選択する。
認識率データベース7は、複数の学習データの音響特徴量と、当該音響特徴量を各騒音抑圧部3a,3b,3cで騒音抑圧した場合の音声認識率とを対応付けて記憶した記憶領域である。
図7は、実施の形態3に係る音声認識装置100bの認識率データベース7の構成例を示す図である。
認識率データベース7は、学習データの音響特徴量と、各学習データを各騒音抑圧部(図7の例では、第1,第2,第3の騒音抑圧部)により騒音抑圧処理を行った音声データの音声認識率とを対応付けて格納している。図7において、例えば、第1の音響特徴量V(r1)の学習データに対して、第1の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が80%であり、第2の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が75%であり、第3の騒音抑圧部が騒音抑圧処理を行った音声データの音声認識率が78%であることを示している。なお、認識率データベース7は、学習データをクラスタリングし、クラスタリングした学習データの認識率と、音響特徴量とを対応付けて記憶し、データ量を抑制して格納するように構成してもよい。
次に、特徴量算出部5による発話単位の音響特徴量の算出の詳細について説明する。
発話単位の音響特徴量としては、音響特徴量の平均ベクトル、Universal background model(UBM)による平均尤度ベクトル、i-vectorなどが適用可能である。特徴量算出部5は、上述した音響特徴量を、認識対象の騒音音声データそれぞれに対して、発話単位で算出する。例えば音響特徴量としてi-vectorを適用する場合には、Gaussian mixture model (GMM)を発話rに対して適応し、得られたスーパーベクトルV(r)を、あらかじめ求めておいたUBMのスーパーベクトルvと低ランクの全変数平面を張る基底ベクトルから成る行列Tにより、以下の式(1)に基づいて因子分解する。
(r)=v+Tw(r) (1)
上述した式(1)により得られるw(r)がi-vectorである。
発話単位の音響特徴量の間の類似性を、以下の式(2)に示すように、Euclid距離またはcosine類似度を用いて測り、学習データr中から今の評価データrに最も近い発話r´を選択する。類似度をsimで表した場合、以下の式(3)で表される発話が選択される。
Figure 0006289774

Figure 0006289774
学習データrに対して、あらかじめi番目の騒音抑圧部3および音声認識部4を利用して得られた単語誤り率Wtr(i, r)を求めておけば、reに対して最適なシステムi´が以下の式(4)で示すように、認識性能に基づいて選択される。
Figure 0006289774
なお、上述した説明では、騒音抑圧手法が2つの場合を例に説明を行ったが、騒音抑圧手法が3つ以上の場合にも適用可能である。
次に、音声認識装置100bの動作について説明する。
図8は、実施の形態3に係る音声認識装置100bの動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置100と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
音声認識装置100bには、外部のマイクなどを介して騒音音声データが入力されるものとする。
騒音音声データが入力されると(ステップST21)、特徴量算出部5は入力された騒音音声データから音響特徴量を算出する(ステップST22)。類似度算出部6は、ステップST22で算出された音響特徴量と、認識率データベース7に格納された学習データの音響特徴量とを比較し、類似度を算出する(ステップST23)。類似度算出部6は、ステップST23で算出した音響特徴量の類似度のうち最も高い類似度を示す音響特徴量を選択し、認識率データベース7を参照して選択した音響特徴量に対応付けられた認識率の組を取得する(ステップST24)。ステップST24において、音響特徴量間の類似性としてEuclid距離を用いた場合には、最も距離の短い認識率の組を取得する。
抑圧手法選択部2bは、ステップST24で取得した認識率の組の中で最も高い認識率を示す騒音抑圧部3を選択し、選択した騒音抑圧部3に対して、騒音抑圧処理を行うように制御指示を出力する(ステップST25)。その後、上述したステップST6およびステップST7と同一の処理を行う。
以上のように、この実施の形態3によれば、騒音音声データから音響特徴量を算出する特徴量算出部5と、認識率データベース7を参照し、算出した音響特徴量と学習データの音響特徴量との類似度を算出し、最も高い類似度を示す音響特徴量に対応付けられた音声認識率の組を取得する類似度算出部6と、取得した音声認識率の組の中で最も高い音声認識率を示す騒音抑圧部3を選択する抑圧手法選択部2bとを備えるように構成したので、発話単位で音声認識性能の予測を行うことができ、音声認識性能を高度に予測し、固定次元の特徴量を用いることにより類似性の算出が容易になるという効果がある。
なお、上述した実施の形態3では、音声認識装置100bが認識率データベース7を備える構成を示したが、外部のデータベースを参照して類似度算出部6が音響特徴量との類似度の算出および認識率の取得を行うように構成してもよい。
なお、上述した実施の形態3において、発話単位で音声認識を行った場合に遅延が生じるが、当該遅延を許容できない場合には、発話開始後の初めの数秒の発話を用いて音響特徴量を参照するように構成してもよい。また、音声認識の対象となる発話の前に行われた発話との環境が変化しない場合には、前の発話での騒音抑圧部3の選択結果を用いて音声認識を行うように構成してもよい。
実施の形態4.
上述した実施の形態3では、学習データの音響特徴量と音声認識率とを対応付けた認識率データベース7を参照して騒音抑圧手法を選択する構成を示したが、この実施の形態4では学習データの音響特徴量と音響指標とを対応付けた音響指標データベースを参照して騒音抑圧手法を選択する構成を示す。
図9は、実施の形態4に係る音声強調装置200の構成を示すブロック図である。
実施の形態4の音声強調装置200は、実施の形態3で示した音声認識装置100bの特徴量算出部5、類似度算出部6および認識率データベース7を備えた第3の予測部1cおよび抑圧手法選択部2bに替えて、特徴量算出部5、類似度算出部6aおよび音響指標データベース8を備えた第4の予測部1dおよび抑圧手法選択部2cを設けて構成している。また、音声認識部4を備えていない。
なお、以下では、実施の形態3に係る音声認識装置100bの構成要素と同一または相当する部分には、実施の形態3で使用した符号と同一の符号を付して説明を省略または簡略化する。
音響指標データベース8は、複数の学習データの音響特徴量と、各学習データを各騒音抑圧部3a,3b,3cで騒音抑圧した場合の音響指標とを対応付けて記憶した記憶領域である。ここで、音響指標とは、騒音を抑圧した強調音声と、騒音を抑圧する前の騒音音声から算出されるPESQまたはSNR/SDRなどである。なお、音響指標データベース8は、学習データをクラスタリングし、クラスタリングした学習データの音響指標と、音響特徴量とを対応付けて記憶し、データ量を抑制して格納するように構成してもよい。
類似度算出部6aは、音響指標データベース8を参照し、特徴量算出部5が算出した発話単位の音響特徴量と、音響指標データベース8に格納された音響特徴量とを照合し、音響特徴量の類似度を算出する。類似度算出部6aは、算出した類似度のうち最も高い類似度を有する音響特徴量に対応付けられた音響指標の組を取得し、抑圧手法選択部2cに出力する。音響指標の組とは、例えば「PESQ1−1,PESQ1−2,PESQ1−3」および「PESQ2−1,PESQ2−2,PESQ2−3」などである。
抑圧手法選択部2cは、類似度算出部6aから入力された音響指標の組を参照し、複数の騒音抑圧部3a,3b,3cから騒音抑圧を行う騒音抑圧部3を選択する。
次に、音声強調装置200の動作について説明する。
図10は、実施の形態4に係る音声強調装置200の動作を示すフローチャートである。音声強調装置200には、外部のマイクなどを介して騒音音声データが入力されるものとする。
騒音音声データが入力されると(ステップST31)、特徴量算出部5は入力された騒音音声データから音響特徴量を算出する(ステップST32)。類似度算出部6aは、ステップST32で算出された音響特徴量と、音響指標データベース8に格納された学習データの音響特徴量とを比較し、類似度を算出する(ステップST33)。類似度算出部6aは、ステップST33で算出した音響特徴量の類似度のうち最も高い類似度を示す音響特徴量を選択し、選択した音響特徴量に対応付けられた音響指標の組を取得する(ステップST34)。
抑圧手法選択部2cは、ステップST34で取得した音響指標の組の中で最も高い音響指標を示す騒音抑圧部3を選択し、選択した騒音抑圧部3に対して、騒音抑圧処理を行うように制御指示を出力する(ステップST35)。ステップST35で制御指示が入力された騒音抑圧部3は、ステップST31で入力された実際の騒音音声データに対して騒音信号を抑圧する処理を行って強調音声を取得し、出力する(ステップST36)。その後、フローチャートはステップST31の処理に戻り、上述した処理を繰り返す。
以上のように、この実施の形態4によれば、騒音音声データから音響特徴量を算出する特徴量算出部5と、音響指標データベース8を参照し、算出した音響特徴量と学習データの音響特徴量との類似度を算出し、最も高い類似度を示す音響特徴量に対応付けられた音響指標の組を取得する類似度算出部6aと、取得した音響指標の組の中で最も高い音響指標を示す騒音抑圧部3を選択する抑圧手法選択部2cとを備えるように構成したので、発話単位で音声認識性能の予測を行うことができ、音声認識性能を高度に予測し、固定次元の特徴量を用いることにより類似性の算出が容易になるという効果がある。
なお、上述した実施の形態4では、音声強調装置200が音響指標データベース8を備える構成を示したが、外部のデータベースを参照して類似度算出部6aが音響特徴量との類似度の算出および音響指標の取得を行うように構成してもよい。
なお、上述した実施の形態4において、発話単位で音声認識を行った場合に遅延が生じるが、当該遅延を許容できない場合には、発話開始後の初めの数秒の発話を用いて音響特徴量を参照するように構成してもよい。また、強調音声取得の対象となる発話の前に行われた発話との環境が変化しない場合には、前の発話での騒音抑圧部3の選択結果を用いて強調音声の取得を行うように構成してもよい。
実施の形態5.
上述した実施の形態1−3の音声認識装置100,100a,100bおよび実施の形態4の音声強調装置200は、例えば音声による通話機能を備えたナビゲーションシステム、電話対応システム、エレベータなどに適用することができる。この実施の形態5では、実施の形態1の音声認識装置をナビゲーションシステムに適用した場合について示す。
図11は、実施の形態5に係るナビゲーションシステム300の構成を示す機能ブロック図である。
ナビゲーションシステム300は、例えば車両に搭載されて目的地までの経路案内を実行する装置であり、情報取得装置301、制御装置302、出力装置303、入力装置304、音声認識装置100、地図データベース305、経路算出装置306および経路案内装置307を備える。ナビゲーションシステム300の各装置の動作は、制御装置302によって統括的に制御される。
情報取得装置301は、例えば現在位置検出手段、無線通信手段および周囲情報検出手段などを備え、自車の現在位置、自車周囲、他車で検出された情報を取得する。出力装置303は、例えば表示手段、表示制御手段、音声出力手段および音声制御手段などを備え、ユーザに情報を通知する。入力装置304は、マイクなどの音声入力手段、ボタン、タッチパネルなどの操作入力手段によって実現され、ユーザからの情報入力を受け付ける。音声認識装置100は、実施の形態1で示した構成および機能を備えた音声認識装置であり、入力装置304を介して入力された騒音音声データに対して音声認識を行い、音声認識結果を取得し、制御装置302に出力する。
地図データベース305は、地図データを記憶する記憶領域であり、例えば、HDD(Hard Disk Drive)、RAM(Random Access Memory)などの記憶装置として実現される。経路算出装置306は、情報取得装置301が取得した自車の現在位置を出発地とし、音声認識装置100の音声認識結果を目的地とし、地図データベース305に記憶された地図データに基づいて出発地から目的地までの経路を算出する。経路案内装置307は、経路算出装置306により算出された経路に従って自車両を案内する。
ナビゲーションシステム300は、入力装置304を構成するマイクからユーザの発話を含む騒音音声データが入力されると、音声認識装置100は当該騒音音声データに対して上述した図3のフローチャートで示した処理を行い、音声認識結果を取得する。経路算出装置306は、制御装置302および情報取得装置301から入力される情報に基づいて、情報取得装置301が取得した自車の現在位置を出発地とし、音声認識結果が示す情報を目的地とし、地図データに基づいて出発地から目的地までの経路を算出する。経路案内装置307は、経路算出部306が算出した経路に従って算出した経路案内の情報を出力装置303を介して出力し、ユーザに対して経路案内を行う。
以上のように、この実施の形態5によれば、入力装置304に入力されたユーザの発話を含む騒音音声データに対して、音声認識装置100が、良好な音声認識率を示す音声認識結果を導くと予測された騒音抑圧部3により騒音抑圧処理を行い、音声認識を行うように構成したので、音声認識率が良好な音声認識結果に基づいて経路算出を行うことができ、ユーザの希望に合った経路案内を行うことができる。
なお、上述した実施の形態5では、ナビゲーションシステム300に実施の形態1で示した音声認識装置100を適用する構成を示したが、実施の形態2で示した音声認識装置100a、実施の形態3で示した音声認識装置100bまたは実施の形態4で示した音声強調装置200を適用して構成してもよい。ナビゲーションシステム300に音声強調装置200を適用する場合には、ナビゲーションシステム300側が強調音声を音声認識する機能を備えるものとする。
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声認識装置および音声強調装置は、良好な音声認識率または音響指標が得られる騒音抑圧手法を選択することができるので、ナビゲーションシステム、電話対応システムおよびエレベータなど通話機能を備えた装置に適用することができる。
1 第1の予測部、1a 第2の予測部、2,2a,2b 抑圧手法選択部、3,3a,3b,3c 騒音抑圧部、4 音声認識部、5 特徴量算出部、6,6a 類似度算出部、7 認識率データベース、8 音響指標データベース、100,100a,100b 音声認識装置、200 音声強調装置、300 ナビゲーションシステム、301 情報取得装置、302 制御装置、303 出力装置、304 入力装置、305 地図データベース、306 経路算出装置、307 経路案内装置。

Claims (9)

  1. 入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、
    前記騒音抑圧部により騒音信号が抑圧された音声データの音声認識を行う音声認識部と、
    前記入力された騒音音声データの音響特徴量から、前記騒音音声データを前記複数の騒音抑圧部によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測する予測部と、
    前記予測部が予測した音声認識率に基づいて、前記複数の騒音抑圧部から前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えた音声認識装置。
  2. 前記予測部は、前記音響特徴量の短時間フーリエ変換のフレーム毎に、前記音声認識率の予測を行うこと特徴とする請求項1記載の音声認識装置。
  3. 前記予測部は、前記音響特徴量を入力とし、前記音響特徴量の音声認識率を出力とするニューラルネットワークで構成されることを特徴とする請求項1記載の音声認識装置。
  4. 前記予測部は、前記音響特徴量を入力として分類処理を行い、音声認識率の高い前記騒音抑圧部を示す情報を出力とするニューラルネットワークで構成されることを特徴とする請求項1記載の音声認識装置。
  5. 前記予測部は、前記騒音音声データから発話単位で音響特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、予め蓄積された音声認識率を取得する類似度算出部とを備えたことを特徴とする請求1記載の音声認識装置。
  6. 入力された騒音音声データに対して、それぞれ異なる手法の騒音抑圧処理を行う複数の騒音抑圧部と、
    前記入力された騒音音声データから発話単位で音響特徴量を算出する特徴量算出部と、前記特徴量算出部が算出した音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、あらかじめ蓄積された音響指標を取得する類似度算出部とを有する予測部と、
    前記類似度算出部が取得した音響指標に基づいて、前記複数の騒音抑圧部から前記騒音音声データの騒音抑圧処理を行う騒音抑圧部を選択する抑圧手法選択部とを備えた音声強調装置。
  7. 予測部が、入力された騒音音声データの音響特徴量から、前記騒音音声データを前記複数の騒音抑圧手法によりそれぞれ騒音抑圧処理を行った場合に得られる音声認識率を予測するステップと、
    抑圧手法選択部が、前記予測された音声認識率に基づいて、前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択するステップと、
    前記選択された騒音抑圧部が、前記入力された騒音音声データの騒音抑圧処理を行うステップと、
    音声認識部が、前記騒音抑圧処理により騒音信号が抑圧された音声データの音声認識を行うステップとを備えた音声認識方法。
  8. 予測部の特徴量算出部が、入力された騒音音声データから発話単位で音響特徴量を算出するステップと、
    予測部の類似度算出部が、前記算出された音響特徴量とあらかじめ蓄積された音響特徴量との類似度に基づいて、あらかじめ蓄積された音響指標を取得するステップと、
    抑圧手法選択部が、前記取得された音響指標に基づいて、前記騒音音声データに対して騒音抑圧処理を行う騒音抑圧部を選択するステップと、
    前記選択された騒音抑圧部が、前記入力された騒音音声データの騒音抑圧処理を行うステップとを備えた音声強調装置。
  9. 請求項1記載の音声認識装置と、
    移動体の現在位置を当該移動体の出発地とし、前記音声認識装置の出力である音声認識結果を前記移動体の目的地とし、地図データを参照して、前記出発地から前記目的地までの経路を算出する経路算出装置と、
    前記経路算出部が算出した経路に従って前記移動体の移動を案内する経路案内装置とを備えたナビゲーション装置。
JP2017553538A 2015-12-01 2015-12-01 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム Active JP6289774B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/083768 WO2017094121A1 (ja) 2015-12-01 2015-12-01 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム

Publications (2)

Publication Number Publication Date
JPWO2017094121A1 JPWO2017094121A1 (ja) 2018-02-08
JP6289774B2 true JP6289774B2 (ja) 2018-03-07

Family

ID=58796545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017553538A Active JP6289774B2 (ja) 2015-12-01 2015-12-01 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム

Country Status (7)

Country Link
US (1) US20180350358A1 (ja)
JP (1) JP6289774B2 (ja)
KR (1) KR102015742B1 (ja)
CN (1) CN108292501A (ja)
DE (1) DE112015007163B4 (ja)
TW (1) TW201721631A (ja)
WO (1) WO2017094121A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7167554B2 (ja) 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
JP7196993B2 (ja) * 2018-11-22 2022-12-27 株式会社Jvcケンウッド 音声処理条件設定装置、無線通信装置、および音声処理条件設定方法
CN109920434B (zh) * 2019-03-11 2020-12-15 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN109817219A (zh) * 2019-03-19 2019-05-28 四川长虹电器股份有限公司 语音唤醒测试方法及系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173255B1 (en) * 1998-08-18 2001-01-09 Lockheed Martin Corporation Synchronized overlap add voice processing using windows and one bit correlators
JP2000194392A (ja) 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
AU2003223359A1 (en) * 2002-03-27 2003-10-13 Aliphcom Nicrophone and voice activity detection (vad) configurations for use with communication systems
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
JP2005115569A (ja) 2003-10-06 2005-04-28 Matsushita Electric Works Ltd 信号識別装置および信号識別方法
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
US20070041589A1 (en) * 2005-08-17 2007-02-22 Gennum Corporation System and method for providing environmental specific noise reduction algorithms
JP2007206501A (ja) * 2006-02-03 2007-08-16 Advanced Telecommunication Research Institute International 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
JP4730369B2 (ja) * 2007-10-30 2011-07-20 株式会社デンソー ナビゲーションシステム
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
EP2362389B1 (en) * 2008-11-04 2014-03-26 Mitsubishi Electric Corporation Noise suppressor
JP5187666B2 (ja) * 2009-01-07 2013-04-24 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
TWI404049B (zh) * 2010-08-18 2013-08-01 Hon Hai Prec Ind Co Ltd 語音導航設備及語音導航方法
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP5932399B2 (ja) * 2012-03-02 2016-06-08 キヤノン株式会社 撮像装置及び音声処理装置
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
JP6169849B2 (ja) * 2013-01-15 2017-07-26 本田技研工業株式会社 音響処理装置
JP6235938B2 (ja) * 2013-08-13 2017-11-22 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
CN104575510B (zh) * 2015-02-04 2018-08-24 深圳酷派技术有限公司 降噪方法、降噪装置和终端
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition

Also Published As

Publication number Publication date
WO2017094121A1 (ja) 2017-06-08
US20180350358A1 (en) 2018-12-06
JPWO2017094121A1 (ja) 2018-02-08
KR102015742B1 (ko) 2019-08-28
CN108292501A (zh) 2018-07-17
TW201721631A (zh) 2017-06-16
KR20180063341A (ko) 2018-06-11
DE112015007163B4 (de) 2019-09-05
DE112015007163T5 (de) 2018-08-16

Similar Documents

Publication Publication Date Title
US10468032B2 (en) Method and system of speaker recognition using context aware confidence modeling
US10867621B2 (en) System and method for cluster-based audio event detection
EP2216775B1 (en) Speaker recognition
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US20160111084A1 (en) Speech recognition device and speech recognition method
US10733986B2 (en) Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
JP6289774B2 (ja) 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
KR20160010961A (ko) 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
EP2189976A1 (en) Method for adapting a codebook for speech recognition
US9786295B2 (en) Voice processing apparatus and voice processing method
US10748544B2 (en) Voice processing device, voice processing method, and program
Vafeiadis et al. Two-dimensional convolutional recurrent neural networks for speech activity detection
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR102550598B1 (ko) 음성 화자 인식 장치 및 그 방법
Feng et al. On using heterogeneous data for vehicle-based speech recognition: A DNN-based approach
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
Loh et al. Speech recognition interactive system for vehicle
US20170263250A1 (en) Voice processing system and voice processing method
JP4860962B2 (ja) 音声認識装置、音声認識方法、及び、プログラム
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP5867199B2 (ja) 雑音推定装置、雑音推定方法及び雑音推定用コンピュータプログラム
CN110875034A (zh) 用于语音识别的模板训练方法、语音识别方法及其系统
JP7482086B2 (ja) キーワード検出装置、方法及びプログラム
Delcroix et al. Discriminative feature transforms using differenced maximum mutual information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171113

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171113

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180206

R150 Certificate of patent or registration of utility model

Ref document number: 6289774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350