JP2017054122A - 音響モデル生成装置及び方法、音声認識装置及び方法 - Google Patents

音響モデル生成装置及び方法、音声認識装置及び方法 Download PDF

Info

Publication number
JP2017054122A
JP2017054122A JP2016175350A JP2016175350A JP2017054122A JP 2017054122 A JP2017054122 A JP 2017054122A JP 2016175350 A JP2016175350 A JP 2016175350A JP 2016175350 A JP2016175350 A JP 2016175350A JP 2017054122 A JP2017054122 A JP 2017054122A
Authority
JP
Japan
Prior art keywords
noise
acoustic model
data
training
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016175350A
Other languages
English (en)
Other versions
JP6751322B2 (ja
Inventor
鎬 式 李
Ho-Shik Lee
鎬 式 李
喜 烈 崔
Hee Youl Choi
喜 烈 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017054122A publication Critical patent/JP2017054122A/ja
Application granted granted Critical
Publication of JP6751322B2 publication Critical patent/JP6751322B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】 音響モデル生成装置及び方法を提供すること。【解決手段】 音響モデル生成装置は、ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、音声データとノイズデータとを含む訓練用ノイジー音声データ、音声データに対応する音素列、及びノイズ表現を用いて、学習を通じて音響モデルを生成するプロセッサを含む。【選択図】 図1

Description

本発明は、音声認識技術に関し、特に、音響モデル生成装置及び方法、音声認識装置及び方法に関する。
最近の音声認識技術は、過去と比較して多くの注目を受けている状況である。その理由は、音声認識技術が具現される場合、インターネット情報利用や電子商取引、各種のユビキタス環境をより便利に音声を通じて操作し、かつ手を使いにくい車両運行のような場合にも、インターネットにアクセスするか、事務やその他のサービスを利用できて、ユーザの多様なニーズ(needs)を充足させるためである。
音声認識技術で重要な問題の1つは、周辺環境によって発生するノイズを効率的に除去することである。このような周辺環境によって生成されたノイズによって発生する、訓練環境と実際の音声認識環境との間の不一致は、音声認識システムの音声認識性能を低下させる主要原因の1つである。
したがって、多様なノイズを含む実際の音声認識環境で使われるノイズに頑健な(robust)音響モデル生成技術の必要性が台頭している。
本発明が解決しようとする課題は、音響モデル生成装置及び方法、音声認識装置及び方法を提供するところにある。
ノイズに頑健な音響モデル生成装置及び方法と、ノイズに頑健な音響モデルを用いる音声認識装置及び方法と、を提供することを目的とする。
一態様による音響モデル生成装置は、ノイズモデルを用いてノイズデータを代表するノイズ表現(noise representation)を算出し、音声(speech)データと前記ノイズデータとを含む訓練用ノイジー音声(training noisy speech)データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成するプロセッサを含み得る。
音響モデル生成装置は、命令(instructions)を保存するメモリをさらに含み、前記プロセッサは、前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成するように、前記プロセッサを構成する命令を実行することができる。
前記プロセッサは、前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出するノイズ表現算出部と、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する音響モデル生成部と、を含み得る。
前記ノイズ表現算出部は、前記ノイズデータの特徴(feature)を抽出する特徴抽出部と、前記ノイズモデルを用いて、前記抽出された特徴から前記ノイズデータを代表するノイズ表現を算出するノイズモデリング部と、を含み得る。
前記ノイズモデルは、訓練用ノイズ(training noise)データを用いてオートエンコーダ(Auto−encoder)を通じてあらかじめ生成され得る。
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。
前記プロセッサは、マルチタスクラーニング(Multi−Task Learning)技法を用いて前記音響モデルを生成することができる。
前記プロセッサは、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成し、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、ノイズ表現の推定に用いられ得る。
前記音響モデル生成部は、前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、前記生成された訓練用ノイジー音声データの特徴を抽出する特徴抽出部と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み得る。
他の態様による音響モデル生成方法は、ノイズモデルを用いてノイズデータのノイズ表現を算出する段階と、音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて音響モデルを生成する段階と、を含み得る。
前記ノイズ表現を算出する段階は、前記ノイズデータの特徴を抽出する段階と、前記ノイズモデルを用いて、前記抽出されたノイズデータの特徴に基づいて前記ノイズ表現を算出する段階と、を含み得る。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。
前記音響モデルを生成する段階は、マルチタスクラーニング技法を用いて前記音響モデルを生成することができる。
前記音響モデルを生成する段階は、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成する段階を含み、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、前記ノイズ表現の推定に用いられ得る。
前記音響モデルを生成する段階は、前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する段階と、前記生成された訓練用ノイジー音声データの特徴を抽出する段階と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する段階と、を含み得る。
さらに他の態様による音声認識装置は、音響モデルを保存する保存部と、前記保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出する算出部と、を含み、前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成され得る。
前記算出部は、前記入力されたノイジー音声データの特徴を抽出する特徴抽出部と、前記音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、を含み得る。
前記ノイズ表現は、ノイズモデルを用いて算出される。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。
前記音響モデルは、神経網基盤の音響モデルであり得る。
前記音響モデルは、マルチタスクラーニング技法を用いて生成され得る。
前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、前記ノイズ表現の推定に用いられ得る。
前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答(target)データとして、学習を通じて生成され得る。
さらに他の態様による音声認識方法は、入力されたノイジー音声(noisy speech)データの特徴を抽出する段階と、音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する段階と、を含み、前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成され得る。
前記ノイズ表現は、ノイズモデルを用いて算出される。
前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成され得る。
前記音響モデルは、神経網基盤の音響モデルであり得る。
前記音響モデルは、マルチタスクラーニング技法を用いて生成され得る。
前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、前記第1目的関数は、音素確率の推定に用いられ、前記第2目的関数は、前記ノイズ表現の推定に用いられ得る。
前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成され得る。
さらに他の態様による音響モデル生成装置は、音声データとノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、他のノイズデータから音響モデル訓練用ノイジー音声データを区分して、前記ノイジー音声データから特徴を抽出する特徴抽出部と、前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み、音素分類(phoneme classification)とノイズ表現の抽出が同時に行われる。
音響モデル生成装置は、特徴の入力を受信し、訓練用音声データの受信された入力に基づいて入力表現を算出し、入力表現に基づいて入力と最も類似した出力を再構成するオートエンコーダをさらに含み得る。
前記オートエンコーダは、訓練用ノイズデータを用いて前記ノイズモデルをあらかじめ生成することができる。
前記生成された音響モデルは、神経網基盤の音響モデルであり得る。
音響モデル生成装置の一実施形態を示すブロック図である。 ノイズモデルの生成を説明する例示図である。 音響モデルの生成を説明する例示図である。 音声認識装置の一実施形態を示すブロック図である。 音響モデル生成方法の一実施形態を示すフローチャートである。 図5のノイズ表現を算出する方法の例を示すフローチャートである。 図5の音響モデルを生成する方法の例を示すフローチャートである。 音声認識方法の一実施形態を示すフローチャートである。 ノイズモデル生成装置の一実施形態を示す図面である。 ノイズモデル生成方法の一実施形態を示すフローチャートである。
以下、添付図面を参照して、本発明の一実施形態を詳細に説明する。本発明を説明するにあたり、関連した公知機能または構成についての具体的な説明が、本発明の要旨を不明にするおそれがあると判断される場合には、その詳細な説明を省略する。また、後述される用語は、本発明での機能を考慮して定義された用語であって、これは、ユーザ、運用者の意図または慣例などによって変わり得る。したがって、その定義は、本明細書の全般に亘った内容に基づいて下されなければならない。
図1は、音響モデル生成装置の一実施形態を示すブロック図である。
図1を参照すれば、音響モデル生成装置100は、入力部110、ノイズ表現算出部120、及び音響モデル生成部130を含み得る。
入力部110は、音響モデル生成のための訓練用音声データ(training speech data)(以下、音響モデル訓練用音声データ)及び訓練用ノイズデータ(training noise data)(以下、音響モデル訓練用ノイズデータ)を入力され得る。
ノイズ表現算出部120は、あらかじめ生成されたノイズモデルを用いて、音響モデル訓練用ノイズデータを代表するノイズ表現を算出することができる。このために、ノイズ表現算出部120は、特徴抽出部121、ノイズモデル保存部122、及びノイズモデリング部123を含み得る。
特徴抽出部121は、抽出アルゴリズムを実行して音響モデル訓練用ノイズデータの特徴を抽出することができる。この際、抽出アルゴリズムは、音響モデル訓練用ノイズデータを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
ノイズモデル保存部122は、ノイズモデルを保存することができる。一実施形態によれば、ノイズモデルは、多様な訓練用ノイズデータ(以下、ノイズモデル訓練用ノイズデータ)を用いてオートエンコーダを通じてあらかじめ学習及び生成され得る。この際、ノイズモデル訓練用ノイズデータは、音響モデル生成に使われる音響モデル訓練用ノイズデータを含むあらゆるノイズデータを含み得る。
ノイズモデル保存部122は、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、SDまたはXDメモリなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read−Only Memory)、EEPROM(Electrically Erasable Programmable Read−Only Memory)、PROM(Programmable Read−Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つのタイプの記録媒体を含み得る。
一方、図1は、ノイズモデル保存部122が、ノイズ表現算出部120の内部に含まれていると示されているが、これに限定されるものではない。言い換えれば、ノイズモデル保存部122は、ノイズ表現算出部120の内部に具現されてもよく、ノイズ表現算出部120の外部の別個の構成要素として具現されてもよい。
ノイズモデリング部123は、ノイズモデル保存部122に保存されたノイズモデルを用いて、特徴抽出部121から抽出された音響モデル訓練用ノイズデータの特徴に基づいて音響モデル訓練用ノイズデータを代表するノイズ表現を算出することができる。
ノイズモデルの生成及び利用に関する説明は、図2を参照して後述する。
音響モデル生成部130は、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて音響モデルを生成することができる。一実施形態によれば、音響モデル生成部130は、マルチタスクラーニング技法を用いて音響モデルを生成することができる。このために、音響モデル生成部130は、混合部131、特徴抽出部132、及び音響モデル学習部133を含み得る。
混合部131は、音響モデル訓練用音声データ及び音響モデル訓練用ノイズデータを混合して訓練用ノイジー音声データ(training noisy speech data)(以下、音響モデル訓練用ノイジー音声データ)を生成することができる。
特徴抽出部132は、他のノイズデータから音響モデル訓練用ノイジー音声データを区別するために、アルゴリズムを用いて音響モデル訓練用ノイジー音声データから特徴を抽出することができる。前述したように、アルゴリズムは、音響モデル訓練用ノイジー音声データを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
音響モデル学習部133は、特徴抽出部132から抽出された音響モデル訓練用ノイジー音声データの特徴、音響モデル訓練用音声データに対応する音素列、及びノイズモデリング部123から算出された音響モデル訓練用ノイズデータのノイズ表現に基づいて音響モデルを学習することができる。言い換えれば、音響モデル学習部133は、マルチタスクラーニング技法を用いて音響モデルが音素分類とノイズ表現の抽出を同時に行うように音響モデルを学習することができる。
この際、音響モデルは、神経網(Neural Network)基盤の音響モデルであり得るが、これに限定されるものではない。
一方、神経網基盤の音響モデルの場合、複数の隠れ層を含み、典型的な誤謬逆伝播技法を用いて学習され得る。
一実施形態によれば、音響モデル学習部133は、数式(1)の目的関数(objective function)を用いて音響モデルを学習することができる。
ここで、Lは、音素確率を推定するために、音響モデルの学習に使われる目的関数(以下、第1目的関数)であり、Lは、ノイズ表現を推定するために、音響モデルの学習に使われる目的関数(以下、第2目的関数)である。
数式(1)から分かるように、音響モデル学習に用いられる目的関数は、第1目的関数と第2目的関数との加重和(weighted sum)から獲得される。
一実施形態によれば、第1目的関数Lは、マルチクラス分類(multi−class classification)に主に使われるクロスエントロピー(cross−entropy)を利用できる。それを数式で表現すれば、数式(2)のようである。
ここで、Kは、出力クラス(output class)の個数(例えば、音素の個数)を示す。tは、正答クラスである場合、1を、正答クラスではない場合、0の値を有する。
一実施形態によれば、第2目的関数Lは、回帰(regression)に主に使われるユークリッド距離(Euclidian distance)を利用できる。それを数式で表現すれば、数式(3)のようである。
ここで、Pは、入力(出力)特徴の次元(the dimension of input(output)feature)を示し、fは、p番目の入力ノードの活性化値(activation value of pth input nodes)を示し、gは、p番目の出力ノードの活性化値(activation value of pth output nodes)を示す。
一方、図1は、音響モデル生成装置100が、入力部110及びノイズモデル保存部122を含むものと示されているが、入力部110及びノイズモデル保存部122は、必須構成ではなく、システムの性能及び用途によって省略可能である。
図2は、ノイズモデルの生成を説明する例示図である。示された例のノイズモデルは、オートエンコーダ基盤のノイズモデルを示す。
一実施形態によれば、ノイズモデルは、オートエンコーダを通じて学習され得る。オートエンコーダは、複数個の隠れ層(hidden layer)を含み、フィルターバンク(filterbank)のような特徴を入力として受けて、入力から入力の表現(representation)210を算出し、表現210から入力と最も類似した出力を再構成するように学習される。
一実施形態によれば、オートエンコーダ基盤のノイズモデルは、数式(4)のような目的関数を用いて学習され得る。
ここで、xは、入力を示し、zは、出力を示す。Kは、音響モデル訓練用ノイズデータサンプルインデックスを示す。すなわち、オートエンコーダ基盤のノイズモデルは、出力が入力を再構成するように訓練される。
一実施形態によれば、オートエンコーダは、中間の隠れ層のノードの個数が入力/出力の次元(dimension)よりも小さいか、またはL1ノルム(L1 norm)のように希少性(sparseness)を与える制約(constraint)が必要である。例えば、123個のフィルターバンク(41 dim static filterbank+delta+delta−delta)が入力される場合、オートエンコーダの中間の隠れ層(特に、ノイズ表現部分のレイヤ)のノードの個数は、これよりも小さな40個とすることができる。このようなオートエンコーダを通じて、次元縮小(dimension reduction)と同じ効果が得られ、入力から入力を代表する表現を算出できるように学習する。
オートエンコーダは、入力を表現に変えるエンコーダ部分220と表現を再び出力に変えるデコーダ部分230とを含む。エンコーダ部分220及びデコーダ部分230は、それぞれプロセッサ、コントローラまたは回路などを含む構造的装置であり得るが、これに限定されるものではない。ノイズモデルは、学習されたオートエンコーダでデコーダ部分230を除去することで生成され得る。すなわち、ノイズモデルは、学習されたオートエンコーダのエンコーダ部分220のみで構成することができる。
図3は、音響モデルの生成を説明する例示図である。
図1及び図3を参照すれば、特徴抽出部121は、音響モデル訓練用ノイズデータ310を受信して音響モデル訓練用ノイズデータ310の特徴(fbank_noise)を抽出する。
ノイズモデリング部123は、あらかじめ生成されたノイズモデル340を用いて特徴(fbank_noise)から音響モデル訓練用ノイズデータ310に対応するノイズ表現350を算出する。
混合部131は、音響モデル訓練用音声データ320と音響モデル訓練用ノイズデータ310とを混合して音響モデル訓練用ノイジー音声データ330を生成する。
特徴抽出部132は、音響モデル訓練用ノイジー音声データ330を受信して音響モデル訓練用ノイジー音声データ330の特徴(fbank_noisy_speech)を抽出する。
音響モデル学習部133は、特徴(fbank_noisy_speech)を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現350を正答データとして、音響モデル370を学習する。言い換えれば、音響モデル学習部133は、マルチタスクラーニング技法を用いて音響モデル370が音素分類360とノイズ表現350の抽出を同時に行うように音響モデル370を学習する。
図4は、音声認識装置の一実施形態を示すブロック図である。図4を参照すれば、一実施形態による音声認識装置400は、入力部410、音響モデル保存部420、及び算出部430を含み得る。
入力部410は、音声認識の対象となる音声データとノイズデータとが混合されたノイジー音声データを入力され得る。
音響モデル保存部420は、あらかじめ学習されて生成された音響モデルを保存することができる。この際、音響モデルは、図1の音響モデル生成装置100から生成された音響モデルであり得る。
例えば、音響モデルは、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて生成された音響モデルであり得る。この際、ノイズ表現は、ノイズモデルを用いて算出され、ノイズモデルは、多様なタイプのノイズモデル訓練用ノイズデータに基づいてオートエンコーダを通じて生成され得る。
音響モデルは、神経網基盤の音響モデルであって、マルチタスクラーニング技法を用いて生成された音響モデルであり得る。言い換えれば、音響モデルは、音響モデル訓練用音声データと音響モデル訓練用ノイズデータとが混合された音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、学習を通じて生成された音響モデルであり得る。この際、音響モデルは、数式(1)ないし数式(3)の目的関数を用いて学習され得る。
音響モデル保存部420は、フラッシュメモリタイプ、ハードディスクタイプ、マルチメディアカードマイクロタイプ、カードタイプのメモリ(例えば、SDまたはXDメモリなど)、RAM、SRAM、ROM、EEPROM、PROM、磁気メモリ、磁気ディスク、光ディスクのうち、少なくとも1つのタイプの記録媒体を含み得る。
算出部430は、音響モデル保存部420に保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出することができる。このために、算出部430は、特徴抽出部431及び音素確率算出部432を含み得る。
特徴抽出部431は、アルゴリズムを用いて入力されたノイジー音声データの特徴を抽出することができる。前述したように、アルゴリズムは、ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
音素確率算出部432は、音響モデル保存部420に保存された音響モデルを用いて特徴抽出部431から抽出されたノイジー音声データの特徴に対応する音素の確率を算出することができる。
一方、図4は、音声認識装置400が、入力部410及び音響モデル保存部420を含むものと示されているが、入力部410及び音響モデル保存部420は、必須構成ではなくて、システムの性能及び用途によって省略可能である。
図5は、音響モデル生成方法の一実施形態を示すフローチャートである。
図1及び図5を参照すれば、音響モデル生成装置100は、あらかじめ生成されたノイズモデルを用いて、音響モデル訓練用ノイズデータを代表するノイズ表現を算出する(510)。
ここで、ノイズモデルは、多様なノイズモデル訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ学習及び生成され得る。この際、ノイズモデル訓練用ノイズデータは、音響モデル生成に使われる音響モデル訓練用ノイズデータを含むあらゆるタイプのノイズデータを含み得る。
ノイズモデルの生成に関する具体的な内容は、図2を参照して前述したので、その詳細な説明は省略する。
音響モデル生成装置100は、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて音響モデルを生成する(520)。
図6は、図5のノイズ表現を算出する段階(510)の詳細フローチャートである。
図1及び図6を参照すれば、音響モデル生成装置100は、アルゴリズムを用いて音響モデル訓練用ノイズデータの特徴を抽出する(610)。この際、アルゴリズムは、音響モデル訓練用ノイズデータを他のノイズデータから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
音響モデル生成装置100は、抽出された音響モデル訓練用ノイズデータの特徴に基づいて音響モデル訓練用ノイズデータを代表するノイズ表現を算出する(620)。
図7は、図5の音響モデルを生成する段階(520)の詳細フローチャートである。
図1及び図7を参照すれば、音響モデル生成装置100は、音響モデル訓練用音声データ及び音響モデル訓練用ノイズデータを混合して音響モデル訓練用ノイジー音声データを生成する(710)。
音響モデル生成装置100は、アルゴリズムを用いて音響モデル訓練用ノイジー音声データの特徴を抽出する(720)。前述したように、所定のアルゴリズムは、音響モデル訓練用ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
音響モデル生成装置100は、音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、音響モデルを学習する(730)。言い換えれば、音響モデル生成装置100は、マルチタスクラーニング技法を用いて音響モデルが音素分類とノイズ表現の抽出を同時に行うように音響モデルを学習することができる。
この際、音響モデルは、神経網基盤の音響モデルであり得るが、これに限定されるものではない。
一方、神経網基盤の音響モデルの場合、複数の隠れ層を含み、典型的な誤謬逆伝播技法を用いて学習され得る。
一実施形態によれば、音響モデル生成装置100は、数式(1)ないし数式(3)の目的関数を用いて音響モデルを学習することができる。
図8は、音声認識方法の一実施形態を示すフローチャートである。
図4及び図8を参照すれば、音声認識装置400は、アルゴリズムを用いて入力されたノイジー音声データから特徴を抽出する(810)。前述したように、アルゴリズムは、ノイジー音声データを他のノイジー音声データから区別する特徴を抽出することができるものであれば、その種類と機能に制限はない。
音声認識装置400は、音響モデルを用いて抽出されたノイジー音声データの特徴に対応する音素の確率を算出する(820)。
ここで、音響モデルは、音響モデル訓練用音声データ、音響モデル訓練用ノイズデータ、音響モデル訓練用音声データに対応する音素列、及び音響モデル訓練用ノイズデータのノイズ表現に基づいて学習を通じて生成された音響モデルであり得る。この際、ノイズ表現は、ノイズモデルを用いて算出され、ノイズモデルは、多数のノイズモデル訓練用ノイズデータに基づいてオートエンコーダを通じて生成され得る。
音響モデルは、神経網基盤の音響モデルであって、マルチタスクラーニング技法を用いて生成された音響モデルであり得る。言い換えれば、音響モデルは、音響モデル訓練用音声データと音響モデル訓練用ノイズデータとが混合された音響モデル訓練用ノイジー音声データの特徴を入力データとし、音響モデル訓練用音声データに対応する音素列及び音響モデル訓練用ノイズデータのノイズ表現を正答データとして、学習を通じて生成された音響モデルであり得る。この際、音響モデルは、数式(1)ないし数式(3)の目的関数を用いて学習され得る。
図9は、ノイズモデル生成装置の一実施形態を示す図面である。図9を参照すれば、ノイズモデル生成装置900は、学習部910及び生成部920を含み得る。
学習部910は、多数の訓練用ノイズデータを用いてオートエンコーダを学習することができる。この際、オートエンコーダは、入力を表現に変えるエンコーダ部分と表現を再び出力に変えるデコーダ部分とを含む。
一実施形態によれば、学習部910は、数式(4)の目的関数を用いてオートエンコーダを学習することができる。
生成部920は、学習されたオートエンコーダのデコーダ部分を除去してノイズモデルを生成することができる。
図10は、ノイズモデル生成方法の一実施形態を示すフローチャートである。
図9及び図10を参照すれば、ノイズモデル生成装置900は、多様な訓練用ノイズデータを用いてオートエンコーダを学習する(1010)。この際、オートエンコーダは、入力を表現に変えるエンコーダ部分と表現を再び出力に変えるデコーダ部分とを含む。
一実施形態によれば、ノイズモデル生成装置900は、数式(4)の目的関数を用いてオートエンコーダを学習することができる。
ノイズモデル生成装置900は、学習されたオートエンコーダのデコーダ部分を除去してノイズモデルを生成する(1020)。
図1、図4及び図9の入力部110、ノイズ表現算出部120、特徴抽出部121、ノイズモデリング部123、ノイズモデル保存部122、音響モデル生成部130、混合部131、特徴抽出部132、音響モデル学習部133、入力部410、特徴抽出部431、音響モデル保存部420、音素確率算出部432、学習部910、生成部920は、ハードウェアコンポーネントとして具現可能である。例えば、ハードウェアコンポーネントは、コントローラ、センサー、生成器、ドライバ、メモリ、比較器、算術論理ユニット、加算器、減算器、乗算器、除算器、積分器、及び多様な電子部品を含み得る。他の例を挙げれば、ハードウェアコンポーネントは、コンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータとして具現可能である。プロセッサまたはコンピュータは、マイクロコンピュータ、プログラマブルロジックコントローラ、フィールドプログラマブルゲートアレイ、プログラマブルロジックアレイ、マイクロプロセッサ、または他のデバイスまたはデバイスの結合のような1つ以上のプロセッシングエレメントとして具現可能である。例えば、プロセッサまたはコンピュータは、プロセッサまたはコンピュータによって実行されるインストラクションまたはソフトウェアを保存する1つ以上のメモリを含むか、1つ以上のメモリに連結され得る。プロセッサまたはコンピュータとして具現されるハードウェアコンポーネントは、運用体制(OS)及び運用体制上で動作する1つ以上のソフトウェアアプリケーションのようなインストラクションまたはソフトウェアを実行することができる。ハードウェアコンポーネントは、また、インストラクションまたはソフトウェアの実行に応答して、データに接近、操作、処理、生成及び保存することができる。本明細書では、便宜上、単数用語“プロセッサ”または“コンピュータ”を使っているが、複数のプロセッサまたはコンピュータを使い、プロセッサまたはコンピュータが、多数のプロセッシングエレメントまたは多数タイプのプロセッシングエレメントなどを含み得る。例えば、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントは、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラとして具現可能である。1つ以上のハードウェアコンポーネントは、1つ以上のプロセッサ、1つのプロセッサ及び1つのコントローラとして具現可能であり、1つ以上の他のプロセッサは、1つ以上の他のプロセッサ、1つの他のプロセッサ及び1つの他のコントローラとして具現可能である。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つのハードウェアコンポーネントまたは2つ以上のハードウェアコンポーネントを具現することができる。ハードウェアコンポーネントは、1つのプロセッサ、独立したプロセッサ、並列プロセッサ、シングルインストラクションシングルデータ(SISD)マルチプロセッシング、シングルインストラクションマルチプルデータ(SIMD)マルチプロセッシング、マルチプルインストラクションシングルデータ(MISD)マルチプロセッシング、及びマルチプルインストラクションマルチプルデータ(MIMD)マルチプロセッシングなどを含む1つ以上の互いに異なるプロセッシング構成を有し得る。
本明細書に開示された動作を行い、図5ないし図8及び図10に開示された方法は、動作を行う命令またはソフトウェアを実行する前述されたように具現されたコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータによって行われる。例えば、1つの動作または2つ以上の動作は、1つのプロセッサ、2つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われる。1つ以上の動作は、1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラによって行われ、1つ以上の他の動作は、1つ以上の他のプロセッサ、または1つの他のプロセッサ及び1つの他のコントローラによって行われる。1つ以上のプロセッサ、または1つのプロセッサ及び1つのコントローラは、1つの動作、または2つ以上の動作を行うことができる。
ハードウェアコンポーネントとして具現され、前述した方法を行うコンピューティングハードウェア、例えば、1つ以上のプロセッサまたはコンピュータを制御するための命令またはソフトウェアは、コンピュータプログラム、コードセグメント、命令またはこれらの結合であり得る。例えば、命令またはソフトウェアは、コンパイラによって生成されたマシンコードのような、1つ以上のプロセッサまたはコンピュータによって直接実行されるマシンコードを含む。他の例を挙げれば、命令またはソフトウェアは、インタプリタを用いて1つ以上のプロセッサまたはコンピュータによって実行されるハイレベル(higher−level)コードを含む。命令またはソフトウェアは、前述したハードウェアコンポーネント及び方法によって行われる動作を行うアルゴリズムを開示したブロック図及びフローチャートに基づいてプログラミング言語を用いて記述され得る。
命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、1つ以上の非一時的コンピュータ可読記録媒体に記録または保存することができる。例えば、非一時的コンピュータ可読記録媒体は、Read−Only Memory(ROM)、Random−Access Memory(RAM)、Flash Memory、CD−ROMs、CD−Rs、CD+Rs、CD−RWs、CD+RWs、DVD−ROMs、DVD−Rs、DVD+Rs、DVD−RWs、DVD+RWs、DVD−RAMs、BD−ROMs、BD−Rs、BD−R LTHs、BD−REs、magnetic tapes、floppy disks、magneto−optical data storage devices、optical data storage devices、hard disks、solid−state disks、及び非一時的方式で命令またはソフトウェア、関連データ、データファイル及びデータ構造を保存して、1つ以上のプロセッサまたはコンピュータに提供する他のデバイスを含み得る。例えば、命令またはソフトウェア、関連データ、データファイル、及びデータ構造は、ネットワーク連結コンピュータシステムに分散されて、1つ以上のプロセッサまたはコンピュータによって分散方式で実行可能である。
以上、本発明について、その望ましい実施形態を中心に説明した。当業者ならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態として具現可能であるということを理解できるであろう。したがって、本発明の範囲は、前述した実施形態に限定されず、特許請求の範囲に記載の内容と同等な範囲内にある多様な実施形態が含まれるように解釈されねばならない。
本発明は、音響モデル生成装置及び方法、音声認識装置及び方法関連の技術分野に適用可能である。

Claims (35)

  1. ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、かつ、音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する、プロセッサ、
    を含む音響モデル生成装置。
  2. 命令を保存するメモリをさらに含み、
    前記プロセッサは、
    前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出し、かつ、前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する、ように構成された命令を実行する、
    請求項1に記載の音響モデル生成装置。
  3. 前記プロセッサは、
    前記ノイズモデルを用いてノイズデータを代表するノイズ表現を算出するノイズ表現算出部と、
    前記音声データと前記ノイズデータとを含む前記訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて、学習を通じて音響モデルを生成する音響モデル生成部と、
    を含む、請求項1または2に記載の音響モデル生成装置。
  4. 前記ノイズ表現算出部は、
    前記ノイズデータの特徴を抽出する特徴抽出部と、
    前記ノイズモデルを用いて、前記抽出された特徴から前記ノイズデータを代表するノイズ表現を算出するノイズモデリング部と、
    を含む、請求項3に記載の音響モデル生成装置。
  5. 前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
    請求項1乃至4いずれか一項に記載の音響モデル生成装置。
  6. 前記生成された音響モデルは、神経網基盤の音響モデルである、
    請求項3に記載の音響モデル生成装置。
  7. 前記プロセッサは、マルチタスクラーニング技法を用いて前記音響モデルを生成する、
    請求項1乃至6いずれか一項に記載の音響モデル生成装置。
  8. 前記プロセッサは、第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成し、
    前記第1目的関数は、音素確率の推定に用いられ、
    前記第2目的関数は、ノイズ表現の推定に用いられる、
    請求項1に記載の音響モデル生成装置。
  9. 前記音響モデル生成部は、
    前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、
    前記生成された訓練用ノイジー音声データの特徴を抽出する特徴抽出部と、
    前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、
    を含む、請求項3に記載の音響モデル生成装置。
  10. ノイズモデルを用いてノイズデータのノイズ表現を算出する段階と、
    音声データと前記ノイズデータとを含む訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズ表現を用いて音響モデルを生成する段階と、
    を含む、音響モデル生成方法。
  11. 前記ノイズ表現を算出する段階は、
    前記ノイズデータの特徴を抽出する段階と、
    前記ノイズモデルを用いて、前記抽出されたノイズデータの特徴に基づいて前記ノイズ表現を算出する段階と、
    を含む、請求項10に記載の音響モデル生成方法。
  12. 前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
    請求項10または11に記載の音響モデル生成方法。
  13. 前記生成された音響モデルは、神経網基盤の音響モデルである、
    請求項10に記載の音響モデル生成方法。
  14. 前記音響モデルを生成する段階は、マルチタスクラーニング技法を用いて前記音響モデルを生成する、
    請求項10乃至13いずれか一項に記載の音響モデル生成方法。
  15. 前記音響モデルを生成する段階は、
    第1目的関数と第2目的関数との加重和から獲得される第3目的関数を用いて、前記音響モデルを生成する段階を含み、
    前記第1目的関数は、音素確率の推定に用いられ、
    前記第2目的関数は、前記ノイズ表現の推定に用いられる、
    請求項14に記載の音響モデル生成方法。
  16. 前記音響モデルを生成する段階は、
    前記音声データと前記ノイズデータとを混合して訓練用ノイジー音声データを生成する段階と、
    前記生成された訓練用ノイジー音声データの特徴を抽出する段階と、
    前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する段階と、
    を含む、請求項10に記載の音響モデル生成方法。
  17. 音響モデルを保存する保存部と、
    前記保存された音響モデルを用いて入力されたノイジー音声データの音素確率を算出する算出部と、を含み、
    前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声データ、前記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成される、音声認識装置。
  18. 前記算出部は、
    前記入力されたノイジー音声データの特徴を抽出する特徴抽出部と、
    前記音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する音素確率算出部と、
    を含む、請求項17に記載の音声認識装置。
  19. 前記ノイズ表現は、ノイズモデルを用いて算出される、
    請求項17に記載の音声認識装置。
  20. 前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
    請求項19に記載の音声認識装置。
  21. 前記音響モデルは、神経網基盤の音響モデルである、
    請求項17に記載の音声認識装置。
  22. 前記音響モデルは、マルチタスクラーニング技法を用いて生成される、
    請求項17乃至21いずれか一項に記載の音声認識装置。
  23. 前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、
    前記第1目的関数は、音素確率の推定に用いられ、
    前記第2目的関数は、前記ノイズ表現の推定に用いられる、
    請求項22に記載の音声認識装置。
  24. 前記音響モデルは、前記訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成される、
    請求項17に記載の音声認識装置。
  25. 入力されたノイジー音声データの特徴を抽出する段階と、
    音響モデルを用いて、前記抽出された特徴に対応する音素の確率を算出する段階と、を含み、
    前記音響モデルは、音声データとノイズデータとが混合された訓練用ノイジー音声、前 記音声データに対応する音素列、及び前記ノイズデータを代表するノイズ表現を用いて、学習を通じて生成される、音声認識方法。
  26. 前記ノイズ表現は、ノイズモデルを用いて算出される、
    請求項25に記載の音声認識方法。
  27. 前記ノイズモデルは、訓練用ノイズデータを用いてオートエンコーダを通じてあらかじめ生成される、
    請求項26に記載の音声認識方法。
  28. 前記音響モデルは、神経網基盤の音響モデルである、
    請求項25に記載の音声認識方法。
  29. 前記音響モデルは、マルチタスクラーニング技法を用いて生成される、
    請求項25乃至28いずれか一項に記載の音声認識方法。
  30. 前記音響モデルは、第1目的関数と第2目的関数との加重和から獲得された第3目的関数を用いて生成され、
    前記第1目的関数は、音素確率の推定に用いられ、
    前記第2目的関数は、前記ノイズ表現の推定に用いられる、
    請求項29に記載の音声認識方法。
  31. 前記音響モデルは、訓練用ノイジー音声データを入力データとし、前記音声データに対応する音素列及び前記ノイズ表現を正答データとして、学習を通じて生成される、
    請求項25に記載の音声認識方法。
  32. 音声データとノイズデータとを混合して訓練用ノイジー音声データを生成する混合部と、
    他のノイズデータから音響モデル訓練用ノイジー音声データを区分して、前記ノイジー音声データから特徴を抽出する特徴抽出部と、
    前記抽出された特徴、前記音声データに対応する音素列、及び前記ノイズ表現に基づいて音響モデルを学習する音響モデル学習部と、を含み、
    音素分類とノイズ表現の抽出が同時に行われる、音響モデル生成装置。
  33. 特徴の入力を受信し、訓練用音声データの受信された入力に基づいて入力表現を算出し、入力表現に基づいて入力と最も類似した出力を再構成するオートエンコーダを、
    さらに含む、請求項32に記載の音響モデル生成装置。
  34. 前記オートエンコーダは、訓練用ノイズデータを用いてノイズモデルをあらかじめ生成する請求項33に記載の音響モデル生成装置。
  35. 前記生成された音響モデルは、神経網基盤の音響モデルである、
    請求項32に記載の音響モデル生成装置。
JP2016175350A 2015-09-10 2016-09-08 音響モデル生成装置及び方法、音声認識装置及び方法 Active JP6751322B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150128456A KR102209689B1 (ko) 2015-09-10 2015-09-10 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR10-2015-0128456 2015-09-10

Publications (2)

Publication Number Publication Date
JP2017054122A true JP2017054122A (ja) 2017-03-16
JP6751322B2 JP6751322B2 (ja) 2020-09-02

Family

ID=56888976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016175350A Active JP6751322B2 (ja) 2015-09-10 2016-09-08 音響モデル生成装置及び方法、音声認識装置及び方法

Country Status (5)

Country Link
US (1) US10127905B2 (ja)
EP (1) EP3142106B1 (ja)
JP (1) JP6751322B2 (ja)
KR (1) KR102209689B1 (ja)
CN (1) CN106531155B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021050646A (ja) * 2019-09-24 2021-04-01 トヨタ自動車株式会社 内燃機関の点火時期制御装置
US11307111B2 (en) 2019-02-08 2022-04-19 Toyota Jidosha Kabushiki Kaisha Knocking detection system and knocking detection method of internal combustion engine

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR102218046B1 (ko) * 2017-11-28 2021-02-22 한국전자통신연구원 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
CN108416096B (zh) * 2018-02-01 2022-02-25 北京百度网讯科技有限公司 基于人工智能的远场语音数据信噪比估计方法及装置
KR20190136578A (ko) 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
CN109192216A (zh) * 2018-08-08 2019-01-11 联智科技(天津)有限责任公司 一种声纹识别用训练数据集仿真获取方法及其获取装置
CN109243429B (zh) * 2018-11-21 2021-12-10 苏州奇梦者网络科技有限公司 一种语音建模方法及装置
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
CN110473557B (zh) * 2019-08-22 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号编解码方法
KR20210119181A (ko) 2020-03-24 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR20220115453A (ko) * 2021-02-10 2022-08-17 삼성전자주식회사 음성 구간 인식의 향상을 지원하는 전자 장치
WO2023283965A1 (zh) * 2021-07-16 2023-01-19 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质
WO2023091124A1 (en) * 2021-11-16 2023-05-25 Landmark Graphics Corporation Random noise attenuation for seismic data
CN115116458B (zh) * 2022-06-10 2024-03-08 腾讯科技(深圳)有限公司 语音数据转换方法、装置、计算机设备及存储介质
KR20240011047A (ko) * 2022-07-18 2024-01-25 삼성전자주식회사 학습 데이터를 획득하기 위한 로봇 및 이의 제어 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132289A (ja) * 2000-10-23 2002-05-09 Seiko Epson Corp 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置
JP2004206063A (ja) * 2002-10-31 2004-07-22 Seiko Epson Corp 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
WO2011010647A1 (ja) * 2009-07-21 2011-01-27 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
US20150046377A1 (en) * 2013-08-08 2015-02-12 Adobe Systems Incorporated Joint Sound Model Generation Techniques

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0566015A3 (en) * 1992-04-14 1994-07-06 Eastman Kodak Co Neural network optical character recognition system and method for classifying characters in amoving web
JP3102195B2 (ja) * 1993-04-02 2000-10-23 三菱電機株式会社 音声認識装置
JP3702978B2 (ja) * 1996-12-26 2005-10-05 ソニー株式会社 認識装置および認識方法、並びに学習装置および学習方法
US6178398B1 (en) * 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
DE10052720C2 (de) 2000-10-24 2002-09-12 Siemens Ag Vorrichtung und Verfahren zur Ratenanpassung
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
ATE389934T1 (de) * 2003-01-24 2008-04-15 Sony Ericsson Mobile Comm Ab Rauschreduzierung und audiovisuelle sprachaktivitätsdetektion
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP4427530B2 (ja) * 2006-09-21 2010-03-10 株式会社東芝 音声認識装置、プログラムおよび音声認識方法
WO2008042900A2 (en) 2006-10-02 2008-04-10 University Of Florida Research Foundation, Inc. Pulse-based feature extraction for neural recordings
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR20080114023A (ko) 2007-06-26 2008-12-31 전자부품연구원 나노와이어 제작 방법
US8440467B2 (en) * 2007-09-28 2013-05-14 William Marsh Rice University Electronic switching, memory, and sensor devices from a discontinuous graphene and/or graphite carbon layer on dielectric materials
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
JP2012506621A (ja) * 2008-10-20 2012-03-15 ザ・リージェンツ・オブ・ザ・ユニバーシティ・オブ・ミシガン シリコン系ナノスケールクロスバーメモリ
CN101710490B (zh) * 2009-11-20 2012-01-04 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
KR101200150B1 (ko) 2010-03-08 2012-11-12 경기대학교 산학협력단 나노 와이어 제조 방법 및 나노 와이어를 갖는 전자 소자
US8972256B2 (en) * 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
JP2014122939A (ja) * 2012-12-20 2014-07-03 Sony Corp 音声処理装置および方法、並びにプログラム
JP6289891B2 (ja) * 2013-12-11 2018-03-07 株式会社藤商事 遊技機
CN103915103B (zh) * 2014-04-15 2017-04-19 成都凌天科创信息技术有限责任公司 语音质量增强系统
US20170249445A1 (en) * 2014-09-12 2017-08-31 Blacktree Fitness Technologies Inc. Portable devices and methods for measuring nutritional intake
CN204331706U (zh) * 2015-01-14 2015-05-13 郑州职业技术学院 一种计算机语音识别输入电路
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132289A (ja) * 2000-10-23 2002-05-09 Seiko Epson Corp 音声認識方法および音声認識処理プログラムを記録した記録媒体ならびに音声認識装置
JP2004206063A (ja) * 2002-10-31 2004-07-22 Seiko Epson Corp 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
WO2011010647A1 (ja) * 2009-07-21 2011-01-27 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
US20150046377A1 (en) * 2013-08-08 2015-02-12 Adobe Systems Incorporated Joint Sound Model Generation Techniques

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GIRI, R., ET AL.: "Improving speech recognition in reverberation using a room-aware deep neural network and multi-task", 2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), JPN6019051793, 19 April 2015 (2015-04-19), pages 5014 - 5018, XP033187715, ISSN: 0004188219, DOI: 10.1109/ICASSP.2015.7178925 *
SELTZER, M., ET AL.: "An investigation of deep neural networks for noise robust speech recognition", 2013 IEEE INTERNATIONAL CONFERECE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), JPN6019051792, 26 May 2013 (2013-05-26), pages 7398 - 7402, XP032508166, ISSN: 0004188218, DOI: 10.1109/ICASSP.2013.6639100 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11307111B2 (en) 2019-02-08 2022-04-19 Toyota Jidosha Kabushiki Kaisha Knocking detection system and knocking detection method of internal combustion engine
JP2021050646A (ja) * 2019-09-24 2021-04-01 トヨタ自動車株式会社 内燃機関の点火時期制御装置
US11346316B2 (en) 2019-09-24 2022-05-31 Toyota Jidosha Kabushiki Kaisha Ignition timing control device for internal combustion engine

Also Published As

Publication number Publication date
EP3142106B1 (en) 2023-03-15
KR102209689B1 (ko) 2021-01-28
US20170076719A1 (en) 2017-03-16
EP3142106A1 (en) 2017-03-15
US10127905B2 (en) 2018-11-13
CN106531155B (zh) 2022-03-15
KR20170030923A (ko) 2017-03-20
JP6751322B2 (ja) 2020-09-02
CN106531155A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
JP6751322B2 (ja) 音響モデル生成装置及び方法、音声認識装置及び方法
JP6861500B2 (ja) ニューラルネットワークトレーニング装置及び方法と、音声認識装置及び方法
CN105810193B (zh) 训练语言模型的方法和设备及识别语言的方法和设备
US11468324B2 (en) Method and apparatus with model training and/or sequence recognition
KR102619861B1 (ko) 기계 학습을 사용하여 분자의 후각 특성을 예측하기 위한 시스템 및 방법
US20200192985A1 (en) Method and apparatus with machine translation
JP2022550326A (ja) 言語タスクのための対照事前トレーニング
JP6611053B2 (ja) 主題推定システム、主題推定方法およびプログラム
US11361757B2 (en) Method and apparatus with speech recognition
US20210182687A1 (en) Apparatus and method with neural network implementation of domain adaptation
US11694677B2 (en) Decoding method and apparatus in artificial neural network for speech recognition
US20230267315A1 (en) Diffusion Models Having Improved Accuracy and Reduced Consumption of Computational Resources
EP3444726A1 (en) Method and apparatus for determining domain of sentence
US20220092266A1 (en) Method and device with natural language processing
JP2020086434A (ja) 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置
JP2024500730A (ja) 解きほぐされた学習を使用した解釈可能な深層学習モデルのトレーニング
CN114072809A (zh) 经由神经架构搜索的小且快速的视频处理网络
CA3143928C (en) Dynamic image resolution assessment
US20150332152A1 (en) Systems And Methods For Generating Models For Physical Systems Using Sentences In A Formal Grammar
EP3457397B1 (en) Oos sentence generating method and apparatus
US11437023B2 (en) Apparatus and method with speech recognition and learning
JP7231181B2 (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
EP3629248A1 (en) Operating method and training method of neural network and neural network thereof
EP4163834A1 (en) Electronic apparatus and method with uncertainty estimation implementing data labels
US12020136B2 (en) Operating method and training method of neural network and neural network thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200728

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200814

R150 Certificate of patent or registration of utility model

Ref document number: 6751322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250