JP6970345B2 - 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム - Google Patents
学習装置、音声認識装置、学習方法、音声認識方法およびプログラム Download PDFInfo
- Publication number
- JP6970345B2 JP6970345B2 JP2018154945A JP2018154945A JP6970345B2 JP 6970345 B2 JP6970345 B2 JP 6970345B2 JP 2018154945 A JP2018154945 A JP 2018154945A JP 2018154945 A JP2018154945 A JP 2018154945A JP 6970345 B2 JP6970345 B2 JP 6970345B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- model parameter
- parameter group
- voice
- series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000000605 extraction Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
本発明は、学習装置、音声認識装置、学習方法、音声認識方法およびプログラムに関する。
国際化の進展とともに、母国語でない言語を人が話す機会が増えてきている。特に、英語は世界的な共通語として、全世界で人が英語を話す様々な場面が見られる。以下では、ある言語を対象とした場合に、その言語を母国語とする話者をネイティブ話者と称し、その言語を母国語としない話者をノンネイティブ話者と称する。また、ネイティブ話者がその言語で発話した音声データをネイティブ音声データと称し、ノンネイティブ話者がその言語で発話した音声データをノンネイティブ音声データと称する。
ノンネイティブ話者が登場する具体的な場面として、国際会議などが挙げられる。国際会議では、英語についてのノンネイティブ話者同士が英語を介してコミュニケーションをとることが一般的になってきている。しかしながら、ノンネイティブ話者の発音は、ネイティブ話者の発音とは大きく異なるため、コミュニケーションが困難となることがある。特に、母国語が異なるノンネイティブ話者同士が会話する際にコミュニケーションが困難となることがある。例えば、インド人は日本人が話す英語を聞きとることが難しく、日本人はインド人が話す英語を聞きとることが難しいことなどが知られている。そこで、ある言語についてのノンネイティブ話者同士がコミュニケーションをとる場合において、音声認識を用いることでコミュニケーションの円滑化を図ることが期待される。すなわち、音声のままでは聞きとることが困難であっても、テキストに変換することができれば、発話内容を容易に理解できることが期待できる。そのためには、ノンネイティブ話者向けの音声認識の高度化が必要となる。
近年の音声認識システムで用いられている音響モデルは、Deep Neural Network(Convolutional Neural NetworkおよびRecurrent Neural Networkなどを含む)を用いた音響モデル(以下、「DNN音響モデル」と称する)である。DNN音響モデルは公知技術であり、代表的なモデル構造および計算方法などの詳細は、例えば、非特許文献1および非特許文献2に記載されている。
上述した背景から、ノンネイティブ話者向けの音声認識システムには、ノンネイティブ音声データから学習した音響モデルを用いることが有効である。しかしながら、ノンネイティブ話者向けの音響モデルを構築するために、ノンネイティブ音声データを大量に集めることは困難である。そこで、ノンネイティブ音声データとネイティブ音声データとを併用して音響モデルを学習することがしばしば行われる。例えば、非特許文献3には、ネイティブ音声データとノンネイティブ音声データとを併用してDNN音響モデルを学習する技術が記載されている。
背景技術としての非特許文献3に記載されている技術をより詳細に説明する。
<DNN音響モデルの学習>
DNN音響モデルの学習における入出力は以下の通りである。
入力:D=ノンネイティブ音声データの集合+ネイティブ音声データの集合
出力:θ=ノンネイティブ向けDNN音響モデルのモデルパラメータ群
音声データの集合Dは、音声データXとその音素列Sとのペア(S,X)が1個以上含まれたデータ集合である。学習では、以下の式(1)に基づき、モデルパラメータ群θが決定される。
DNN音響モデルの学習における入出力は以下の通りである。
入力:D=ノンネイティブ音声データの集合+ネイティブ音声データの集合
出力:θ=ノンネイティブ向けDNN音響モデルのモデルパラメータ群
音声データの集合Dは、音声データXとその音素列Sとのペア(S,X)が1個以上含まれたデータ集合である。学習では、以下の式(1)に基づき、モデルパラメータ群θが決定される。
<ノンネイティブ話者向けの音声認識>
ノンネイティブ話者向けの音声認識における入出力は以下の通りである。
入力:X=ノンネイティブ音声、モデルパラメータ群θを有するDNN音響モデル
出力:O=音素に対する事後確率系列
出力(事後確率系列O)をもとに音声認識が行われる。事後確率系列Oをもとに音声認識を行う方法は、公知であり、例えば、上述した非特許文献1および非特許文献2などに記載されているため、説明を省略する。
ノンネイティブ話者向けの音声認識における入出力は以下の通りである。
入力:X=ノンネイティブ音声、モデルパラメータ群θを有するDNN音響モデル
出力:O=音素に対する事後確率系列
出力(事後確率系列O)をもとに音声認識が行われる。事後確率系列Oをもとに音声認識を行う方法は、公知であり、例えば、上述した非特許文献1および非特許文献2などに記載されているため、説明を省略する。
G. Hinton, L. Deng, D. Yu, G. Dahl, A. rahman Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath, "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups," IEEE Signal Processing Magazine, pp. 82-97, 2012.
G. E. Dahl, D. Yu, L. Deng, and A. Acero, "Context-dependent pretrained deep neural networks for large-vocabulary speech recognition," IEEE transactions on Audio, Speech and Language Processing, vol. 20, pp. 30-42, 2012.
木菱裕志, 中川聖一, "DNN-HMMによる日本人英語音声の認識", 日本音響学会講演論文集, 2013年
上述した非特許文献3に記載されている技術は、ノンネイティブ音声データおよびネイティブ音声データの両方に対して音声認識性能(音素識別性能)が最大になるように学習したモデルパラメータ群を用いる技術である。そのため、非特許文献3に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と近い場合には、高い音声認識性能を得ることができる。一方、非特許文献3に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と大きく異なる場合には、ノンネイティブ音声に対する音声認識性能が低くなってしまうという課題がある。
例えば、日本人が英語で発話したノンネイティブ音声を音声認識対象とする場合、英語を十分に勉強し、ネイティブに近い発音が可能な話者によるノンネイティブ音声であれば、非特許文献3に記載されている技術により高い音声認識性能を実現することができる。一方、英語を勉強したばかりで日本語の音素をつないだような発音の話者によるノンネイティブ音声の場合、非特許文献3に記載されている技術では、高い音声認識性能を実現することができない。
なお、非特許文献3に記載されている技術では、ノンネイティブ話者の母国語の音声データを音響モデルの学習に活用することができない。例えば、日本人が話す英語向けの音響モデルを構築する場合に、非特許文献3に記載されている技術では、日本人が話す日本語の音声データを活用することができない。これは、ノンネイティブ話者の母国語の音声データに含まれる音素集合と、音声認識の対象としている言語の音素集合とが異なるため、ノンネイティブ話者の母国語の音声データが、音響モデルの学習データとして適合していないからである。
上記のような問題点に鑑みてなされた本発明の目的は、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる学習装置、音声認識装置、学習方法、音声認識方法およびプログラムを提供することにある。
上記課題を解決するため、本発明に係る学習装置は、入力音声の音声認識に用いられるパラメータを学習する学習装置であって、前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第1のモデルパラメータ群学習部と、前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習する第2のモデルパラメータ群学習部と、前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第3のモデルパラメータ群学習部と、を備える。
また、上記課題を解決するため、本発明に係る音声認識装置は、上記の学習装置により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換する第1の音韻気付き特徴量抽出部と、前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換する第2の音韻気付き特徴量抽出部と、前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備える。
また、上記課題を解決するため、本発明に係る学習方法は、入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、を含む。
また、上記課題を解決するため、本発明に係る音声認識方法は、請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含む。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習装置として機能させる。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の音声認識装置として機能させる。
本発明に係る学習装置、音声認識装置、学習方法、音声認識方法およびプログラムによれば、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
図1は、本発明の一実施形態に係る音声認識装置10の構成例を示す図である。本実施形態に係る音声認識装置10は、音声認識対象の言語についてのノンネイティブ話者が発話した音声を入力音声とし、その入力音声に対する音声認識結果のテキストを出力するものである。
以下では、2つの言語(言語1、言語2)と、3つのデータ集合(データ集合A、データ集合B、データ集合C)を定義する。
第1の言語としての言語1は、ノンネイティブ話者が発話する音声認識対象の言語である。例えば、日本人が英語で発話する音声の音声認識を行う例では、言語1は英語である。第2の言語としての言語2は、音声認識対象の言語についてのノンネイティブ話者の母国語である。上述した、日本人が英語で発話する音声の音声認識を行う例では、言語2は日本語である。
データ集合Aは、言語1を母国語とする話者が言語1で発話する音声データの集合である。データ集合Bは、言語2を母国語とする話者が言語2で発話する音声データの集合である。データ集合Cは、言語2を母国語とする話者が言語1で発話する音声データの集合である。すなわち、データ集合Cは、ノンネイティブ音声データの集合である。
図1に示す音声認識装置10は、言語1向け音韻気付き特徴量抽出部11と、言語2向け音韻気付き特徴量抽出部12と、ノンネイティブ話者向け音韻識別部13と、音声テキスト変換部14とを備える。
第1の音韻気付き特徴量抽出部としての言語1向け音韻気付き特徴量抽出部11は、第1のモデルパラメータ群としてのモデルパラメータ群θ1を用いて、入力音声の音響特徴量系列Xを、第1の言語向け音韻気付き特徴量系列としての言語1向け音韻気付き特徴量系列Aに変換する。
第2の音韻気付き特徴量抽出部としての言語2向け音韻気付き特徴量抽出部12は、第2のモデルパラメータ群としてのモデルパラメータ群θ2を用いて、入力音声の音響特徴量系列Xを、第2の言語向け音韻気付き特徴量系列としての言語2向け音韻気付き特徴量系列Bに変換する。
音韻認識部としてのノンネイティブ話者向け音韻識別部13は、第3のモデルパラメータ群としてのモデルパラメータ群θ3を用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、言語1の音素に対する事後確率系列Oを生成する。
音声テキスト変換部14は、事後確率系列Oに基づき音声認識を行い、音声認識結果のテキストを出力する。
なお、入力音声は、音響特徴量系列Xに変換して、音声認識装置10に入力される。音響特徴量としては任意のものを利用することができ、例えば、メル周波数ケプストラム係数、メル周波数ケプストラム係数に対して、正規化などの変換をしたもの、あるいは、時間的に前後する複数個の特徴量を結合したものなど、任意のものを利用することができる。音響特徴量は、短時間のインターバル(例えば、0.01秒ごと)で抽出されるものであり、音声は、音響特徴量の系列(音響特徴量系列)として扱うことできる。以下では、音響特徴量系列X=(x1,...,xT)と表す。なお、xtは、tフレーム目の音響特徴量である。
また、音韻気付き特徴量とは、音素を識別するための情報を含む特徴量である。具体的には、音韻気付き特徴量は、音素を弁別するように学習されたモデルを用いることで抽出できる特徴量である。
以下では、音声認識装置10が備える各部の動作について、より詳細に説明する。まず、言語1向け音韻気付き特徴量抽出部11について説明する。
言語1向け音韻気付き特徴量抽出部11は、入力音声の音響特徴量系列X=(x1,...,xT)およびモデルパラメータ群θ1を入力とし、言語1向け音韻気付き特徴量系列A=(a1,...,aT)を出力する。 言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θ1を用いて、入力音声の音響特徴量系列X=(x1,...,xT)を、言語1向け音韻気付き特徴量系列A=(a1,...,aT)に変換する。音響特徴量系列Xおよび言語1向け音韻気付き特徴量系列Aはともに、長さがTである。言語1向け音韻気付き特徴量抽出部11は、以下の式(2)に従い、音響特徴量系列Xを言語1向け音韻気付き特徴量系列Aに変換する。
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θ1は、後述する学習により推定されるモデルパラメータ群である。
次に、言語2向け音韻気付き特徴量抽出部12について説明する。
言語2向け音韻気付き特徴量抽出部12は、入力音声の音響特徴量系列X=(x1,...,xT)およびモデルパラメータ群θ2を入力とし、言語2向け音韻気付き特徴量系列B=(b1,...,bT)を出力する。言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θ2を用いて、入力音声の音響特徴量系列X=(x1,...,xT)を、言語2向け音韻気付き特徴量系列B=(b1,...,bT)に変換する。ここで、音響特徴量系列Xおよび言語2向け音韻気付き特徴量系列Bはともに、長さがTである。言語2向け音韻気付き特徴量抽出部12は、以下の式(3)に従い、音響特徴量系列Xを言語2向け音韻気付き特徴量系列Bに変換する。
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θ2は、後述する学習により推定されるモデルパラメータ群である。
次に、ノンネイティブ話者向け音韻識別部13について説明する。
ノンネイティブ話者向け音韻識別部13は、入力音声の音響特徴量系列X=(x1,...,xT)、言語1向け音韻気付き特徴量系列A=(a1,...,aT)、言語2向け音韻気付き特徴量系列B=(b1,...,bT)およびモデルパラメータ群θ3を入力とし、音素に対する事後確率系列O=(o1,...,oT)を出力する。ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θ3を用いて、入力音声の音響特徴量系列X=(x1,...,xT)と、言語1向け音韻気付き特徴量系列A=(a1,...,aT)と、言語2向け音韻気付き特徴量系列B=(b1,...,bT)とから、音素に対する事後確率系列O=(o1,...,oT)を生成する。
具体的には、ノンネイティブ話者向け音韻識別部13はまず、入力された各特徴量系列から新たなベクトル系列C=(c1,...,cT)を作成する。ここで、ノンネイティブ話者向け音韻識別部13は、ctを以下の式(4)に従い生成する。
式(4)において、Tは転置記号である。つまり、ctはxtatbtを並べたベクトルとして表される。
ノンネイティブ話者向け音韻識別部13は、以下の式(5)に従い、ベクトル系列Cから音素に対する事後確率系列Oを生成する。
INPUTtoPosteriorgram()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、INPUTtoPosteriorgram()は、5層のニューラルネットワークで、最終層をソフトマックス関数とすることで実現することができる。モデルパラメータ群θ3は、後述する学習により推定されるモデルパラメータ群である。
次に、音声テキスト変換部14について説明する。
音声テキスト変換部14は、音素に対する事後確率系列O=(o1,...,oT)を入力とし、音声認識結果のテキストを出力する。音声テキスト変換部14は、音素に対する事後確率系列O=(o1,...,oT)に基づき音声認識を行い、音声認識結果のテキストを出力する。音素に対する事後確率系列Oに基づく音声認識の方法は公知であり、例えば、上述した非特許文献1および非特許文献2に記載されているため、説明を省略する。
図2は、本発明の一実施形態に係る学習装置20の構成例を示す図である。本実施形態に係る学習装置20は、図1を参照して説明した音声認識装置10において用いられるモデルパラメータ群θ1〜θ3を学習するものである。
図2に示す学習装置20は、第1のモデルパラメータ群学習部21と、第2のモデルパラメータ群学習部22と、第3のモデルパラメータ群学習部23とを備える。
第1のモデルパラメータ群学習部21は、データ集合Aが入力され、上述した言語1向け音韻気付き特徴量抽出部11で用いられるモデルパラメータ群θ1を学習する。すなわち、第1のモデルパラメータ群学習部21は、入力音声を、言語1向け音韻気付き特徴量系列A(言語1において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θ1を、データ集合Aから学習する。
第2のモデルパラメータ群学習部22は、データ集合Bが入力され、上述した言語2向け音韻気付き特徴量抽出部12で用いられるモデルパラメータ群θ2を学習する。すなわち、第2のモデルパラメータ群学習部22は、入力音声を、言語2向け音韻気付き特徴量系列B(言語2において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θ2を、データ集合Bから学習する。
以下では、学習装置20が備える各部の動作について、より詳細に説明する。まず、第1のモデルパラメータ群学習部21について説明する。
第1のモデルパラメータ群学習部21は、データ集合A:DAを入力とし、モデルパラメータ群θ1を出力する。第1のモデルパラメータ群学習部21は、データ集合A(データ集合DA)から、モデルパラメータ群θ1を学習する。第1のモデルパラメータ群学習部21は、言語1向け音韻気付き特徴量系列A=(a1,...,aT)を事後確率系列O=(o1,...,oT)に変換するネットワークを連結したネットワークを構成する。このようなネットワークの具体的な構造を図3に示す。
図3に示すネットワーク構造は、以下の式(6)で表される。
なお、以下では、記号^が付されたθは、右辺を満たす(右辺により推定された)θであることを意味する。また、ot,sはotにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(7)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
次に、第2のモデルパラメータ群学習部22について説明する。
第2のモデルパラメータ群学習部22は、データ集合B:DBを入力とし、モデルパラメータ群θ2を出力する。第2のモデルパラメータ群学習部22は、データ集合B(データ集合DB)から、モデルパラメータ群θ2を学習する。第2のモデルパラメータ群学習部22は、言語2向け音韻気付き特徴量系列B=(b1,...,bT)を事後確率系列O=(o1,...,oT)に変換するネットワークを連結したネットワークを構成する。このようなネットワーク構造は、以下の式(8)で表される。
ここで、ot,sはotにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(9)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
次に、第3のモデルパラメータ群学習部23について説明する。
第3のモデルパラメータ群学習部23は、データ集合C:DC、モデルパラメータ群θ1およびモデルパラメータ群θ2が入力され、モデルパラメータ群θ3を出力する。第3のモデルパラメータ群学習部23は、モデルパラメータ群θ1およびモデルパラメータ群θ2を用いて、データ集合C(データ集合DC)からモデルパラメータ群θ3を学習する。具体的には、第3のモデルパラメータ群学習部23はまず、事前にデータ集合DCにおける音声データXについて、決定されたモデルパラメータ群θ1 ^およびモデルパラメータ群θ2 ^を用いて、ベクトル系列Cに変換する。第3のモデルパラメータ群学習部23は、以下の式(10)に従い、ベクトル系列Cに変換する。
第3のモデルパラメータ群学習部23は、作成したベクトル系列Cを用いて、モデルパラメータ群θ3を学習する。第3のモデルパラメータ群学習部23は、以下の式(11)に従い、モデルパラメータ群θ3を学習する。
ここで、ot,sはotにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(11)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
なお、本実施形態においては、音声認識装置10と学習装置20とを分けて記載しているが、これらの装置は一体的に形成されていてもよい。したがって、音声認識装置10が、学習装置20が備える各部を備えていてもよい。また、学習装置20が、音声認識装置10が備える各部を備えていてもよい。
次に、本実施形態に係る音声認識装置10における音声認識方法について、図4に示すフローチャートを参照して説明する。
言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θ1を用いて、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a1,...,aT)に変換する(ステップS11)。具体的には、言語1向け音韻気付き特徴量抽出部11は、上述した式(2)に従い、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a1,...,aT)に変換する。
言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θ2を用いて、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b1,...,bT)に変換する(ステップS12)。具体的には、言語2向け音韻気付き特徴量抽出部12は、上述した式(3)に従い、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b1,...,bT)に変換する。
なお、ステップS11の処理とステップS12の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θ3を用いて、入力音声の音響特徴量系列X=(x1,...,xT)と、言語1向け音韻気付き特徴量系列A=(a1,...,aT)と、言語2向け音韻気付き特徴量系列B=(b1,...,bT)とから、音素に対する事後確率系列O=(o1,...,oT)を生成する(ステップS13)。具体的には、ノンネイティブ話者向け音韻識別部13は、上述した式(5)に従い、事後確率系列O=(o1,...,oT)を生成する。
音声テキスト変換部14は、事後確率系列O=(o1,...,oT)に基づき音声認識を行い、音声認識結果のテキストを出力する(ステップS14)。
次に、本実施形態に係る学習装置20における学習方法について、図5に示すフローチャートを参照して説明する。
第1のモデルパラメータ群学習部21は、入力音声を言語1向け音韻気付き特徴量系列Aに変換するためのモデルパラメータ群θ1を、データ集合DA(言語1を母国語とする話者が言語1で発話する音声データの集合)を用いて学習する(ステップS21)。具体的には、第1のモデルパラメータ群学習部21は、上述した式(7)に従い、モデルパラメータ群θ1を学習する。
第2のモデルパラメータ群学習部22は、入力音声を言語2向け音韻気付き特徴量系列Bに変換するためのモデルパラメータ群θ2を、データ集合DB(言語2を母国語とする話者が言語2で発話する音声データの集合)を用いて学習する(ステップS22)。具体的には、第2のモデルパラメータ群学習部22は、上述した式(9)に従い、モデルパラメータ群θ2を学習する。
なお、ステップS21の処理とステップS22の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
第3のモデルパラメータ群学習部23は、入力音声から音素に対する事後確率系列Oを生成するためのモデルパラメータ群θ3を、モデルパラメータ群θ1、モデルパラメータ群θ2およびデータ集合DC(言語2を母国語とする話者が第1の言語で発話する音声データの集合)を用いて学習する(ステップS23)。具体的には、第3のモデルパラメータ群学習部23は、上述した式(11)に従い、モデルパラメータ群θ3を学習する。
このように本実施形態においては、音声認識装置10は、モデルパラメータ群θ3を用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、音素に対する事後確率系列Oを生成する。ここで、モデルパラメータ群θ3は、言語2を母国語とする話者が言語1で発話する音声データの集合、すなわち、ノンネイティブ音声データの集合から学習されている。そのため、ノンネイティブ音声を入力音声とした場合に、高い音声認識性能を得ることができる。
さらに本実施形態においては、モデルパラメータ群θ3の学習にあたり、言語2を母国語とする話者が言語2で発話する音声データの集合から学習されたモデルパラメータ群θ2も用いられている。そのため、ノンネイティブ音声の発音が、ネイティブ音声の発音とは大きく異なり、ノンネイティブ話者の母国語に近い発音である場合にも、高い音声認識性能を得ることができる。したがって、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
また、本実施形態においては、モデルパラメータ群θ3の学習にあたり、言語1を母国語とする話者が言語1で発話する音声データの集合から学習されたモデルパラメータ群θ2も用いられている。そのため、ネイティブ音声およびネイティブ音声の発音に近い発音のノンネイティブ音声に対しても、高い音声認識性能を得ることができる。
以上、音声認識装置10および学習装置20について説明したが、音声認識装置10および学習装置20として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、音声認識装置10および学習装置20の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMおよびDVD−ROMなどの記録媒体であってもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
10 音声認識装置
11 言語1向け音韻気付き特徴量抽出部(第1の音韻気付き特徴量抽出部)
12 言語2向け音韻気付き特徴量抽出部(第2の音韻気付き特徴量抽出部)
13 ノンネイティブ話者向け音韻識別部(音韻認識部)
14 音声テキスト変換部
20 学習装置
21 第1のモデルパラメータ群学習部
22 第2のモデルパラメータ群学習部
23 第2のモデルパラメータ群学習部
11 言語1向け音韻気付き特徴量抽出部(第1の音韻気付き特徴量抽出部)
12 言語2向け音韻気付き特徴量抽出部(第2の音韻気付き特徴量抽出部)
13 ノンネイティブ話者向け音韻識別部(音韻認識部)
14 音声テキスト変換部
20 学習装置
21 第1のモデルパラメータ群学習部
22 第2のモデルパラメータ群学習部
23 第2のモデルパラメータ群学習部
Claims (6)
- 入力音声の音声認識に用いられるパラメータを学習する学習装置であって、
前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第1のモデルパラメータ群学習部と、
前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習する第2のモデルパラメータ群学習部と、
前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第3のモデルパラメータ群学習部と、を備えることを特徴とする学習装置。 - 請求項1に記載の学習装置により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、
前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換する第1の音韻気付き特徴量抽出部と、
前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換する第2の音韻気付き特徴量抽出部と、
前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備えることを特徴とする音声認識装置。 - 入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、
前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、
前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習するステップと、
前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、を含むことを特徴とする学習方法。 - 請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、
前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、
前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、
前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含むことを特徴とする音声認識方法。 - コンピュータを請求項1に記載の学習装置として機能させるためのプログラム。
- コンピュータを請求項2に記載の音声認識装置として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018154945A JP6970345B2 (ja) | 2018-08-21 | 2018-08-21 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
PCT/JP2019/024826 WO2020039728A1 (ja) | 2018-08-21 | 2019-06-21 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
US17/269,705 US20210319783A1 (en) | 2018-08-21 | 2019-06-21 | Learning device, voice recognition device, learning method, voice recognition method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018154945A JP6970345B2 (ja) | 2018-08-21 | 2018-08-21 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020030286A JP2020030286A (ja) | 2020-02-27 |
JP6970345B2 true JP6970345B2 (ja) | 2021-11-24 |
Family
ID=69592808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018154945A Active JP6970345B2 (ja) | 2018-08-21 | 2018-08-21 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210319783A1 (ja) |
JP (1) | JP6970345B2 (ja) |
WO (1) | WO2020039728A1 (ja) |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021389A (en) * | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6119089A (en) * | 1998-03-20 | 2000-09-12 | Scientific Learning Corp. | Aural training method and apparatus to improve a listener's ability to recognize and identify similar sounds |
US6085160A (en) * | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
EP1134726A1 (de) * | 2000-03-15 | 2001-09-19 | Siemens Aktiengesellschaft | Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem |
EP1239459A1 (en) * | 2001-03-07 | 2002-09-11 | Sony International (Europe) GmbH | Adaptation of a speech recognizer to a non native speaker pronunciation |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
ATE357723T1 (de) * | 2002-11-06 | 2007-04-15 | Swisscom Fixnet Ag | Verfahren zur mehrsprachigen spracherkennung |
DE60316912T2 (de) * | 2003-04-29 | 2008-07-31 | Sony Deutschland Gmbh | Verfahren zur Spracherkennung |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
EP1769489B1 (fr) * | 2004-07-22 | 2009-09-09 | France Telecom | Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs |
US8221126B2 (en) * | 2004-11-22 | 2012-07-17 | Bravobrava L.L.C. | System and method for performing programmatic language learning tests and evaluations |
US8033831B2 (en) * | 2004-11-22 | 2011-10-11 | Bravobrava L.L.C. | System and method for programmatically evaluating and aiding a person learning a new language |
US8478597B2 (en) * | 2005-01-11 | 2013-07-02 | Educational Testing Service | Method and system for assessing pronunciation difficulties of non-native speakers |
GB2424742A (en) * | 2005-03-31 | 2006-10-04 | Ibm | Automatic speech recognition |
US20070015121A1 (en) * | 2005-06-02 | 2007-01-18 | University Of Southern California | Interactive Foreign Language Teaching |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
KR100815115B1 (ko) * | 2006-03-31 | 2008-03-20 | 광주과학기술원 | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 |
JP4528839B2 (ja) * | 2008-02-29 | 2010-08-25 | 株式会社東芝 | 音素モデルクラスタリング装置、方法及びプログラム |
EP2161718B1 (en) * | 2008-09-03 | 2011-08-31 | Harman Becker Automotive Systems GmbH | Speech recognition |
US8392190B2 (en) * | 2008-12-01 | 2013-03-05 | Educational Testing Service | Systems and methods for assessment of non-native spontaneous speech |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8498857B2 (en) * | 2009-05-19 | 2013-07-30 | Tata Consultancy Services Limited | System and method for rapid prototyping of existing speech recognition solutions in different languages |
US9378650B2 (en) * | 2009-09-04 | 2016-06-28 | Naomi Kadar | System and method for providing scalable educational content |
WO2012134877A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Computer-implemented systems and methods evaluating prosodic features of speech |
WO2013003749A1 (en) * | 2011-06-30 | 2013-01-03 | Rosetta Stone, Ltd | Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system |
WO2014005142A2 (en) * | 2012-06-29 | 2014-01-03 | Rosetta Stone Ltd | Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system |
US9117451B2 (en) * | 2013-02-20 | 2015-08-25 | Google Inc. | Methods and systems for sharing of adapted voice profiles |
US9928754B2 (en) * | 2013-03-18 | 2018-03-27 | Educational Testing Service | Systems and methods for generating recitation items |
US9472184B2 (en) * | 2013-11-06 | 2016-10-18 | Microsoft Technology Licensing, Llc | Cross-language speech recognition |
US9514412B2 (en) * | 2013-12-09 | 2016-12-06 | Google Inc. | Techniques for detecting deceptive answers to user questions based on user preference relationships |
US9613638B2 (en) * | 2014-02-28 | 2017-04-04 | Educational Testing Service | Computer-implemented systems and methods for determining an intelligibility score for speech |
JP2016009193A (ja) * | 2014-06-23 | 2016-01-18 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザ適合音声認識 |
US9922643B2 (en) * | 2014-12-23 | 2018-03-20 | Nice Ltd. | User-aided adaptation of a phonetic dictionary |
US9947322B2 (en) * | 2015-02-26 | 2018-04-17 | Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University | Systems and methods for automated evaluation of human speech |
US10446056B1 (en) * | 2015-03-06 | 2019-10-15 | English Language Training Solutions LLC | Game with visual cueing system and oral-aural learning routine |
US10283142B1 (en) * | 2015-07-22 | 2019-05-07 | Educational Testing Service | Processor-implemented systems and methods for determining sound quality |
WO2017049350A1 (en) * | 2015-09-22 | 2017-03-30 | Vendome Consulting Pty Ltd | Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition |
JP6546070B2 (ja) * | 2015-11-10 | 2019-07-17 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
JP6727607B2 (ja) * | 2016-06-09 | 2020-07-22 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
TWI610294B (zh) * | 2016-12-13 | 2018-01-01 | 財團法人工業技術研究院 | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 |
GB201706078D0 (en) * | 2017-04-18 | 2017-05-31 | Univ Oxford Innovation Ltd | System and method for automatic speech analysis |
US10431203B2 (en) * | 2017-09-05 | 2019-10-01 | International Business Machines Corporation | Machine training for native language and fluency identification |
WO2019065263A1 (ja) * | 2017-09-26 | 2019-04-04 | 日本電信電話株式会社 | 発音誤り検出装置、発音誤り検出方法、プログラム |
US10937444B1 (en) * | 2017-11-22 | 2021-03-02 | Educational Testing Service | End-to-end neural network based automated speech scoring |
US10783873B1 (en) * | 2017-12-15 | 2020-09-22 | Educational Testing Service | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora |
JP7040258B2 (ja) * | 2018-04-25 | 2022-03-23 | 日本電信電話株式会社 | 発音変換装置、その方法、およびプログラム |
-
2018
- 2018-08-21 JP JP2018154945A patent/JP6970345B2/ja active Active
-
2019
- 2019-06-21 US US17/269,705 patent/US20210319783A1/en active Pending
- 2019-06-21 WO PCT/JP2019/024826 patent/WO2020039728A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20210319783A1 (en) | 2021-10-14 |
WO2020039728A1 (ja) | 2020-02-27 |
JP2020030286A (ja) | 2020-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
KR20070098094A (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP7255032B2 (ja) | 音声認識 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
Vegesna et al. | Dnn-hmm acoustic modeling for large vocabulary telugu speech recognition | |
US20240265908A1 (en) | Methods for real-time accent conversion and systems thereof | |
WO2020136948A1 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
Arunachalam | A strategic approach to recognize the speech of the children with hearing impairment: different sets of features and models | |
KR20160061071A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
Jeyalakshmi et al. | Efficient speech recognition system for hearing impaired children in classical Tamil language | |
JP7423056B2 (ja) | 推論器および推論器の学習方法 | |
Zealouk et al. | Amazigh digits speech recognition system under noise car environment | |
JP7179216B1 (ja) | 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体 | |
JP6970345B2 (ja) | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
Shahrul Azmi | An improved feature extraction method for Malay vowel recognition based on spectrum delta | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Dalva | Automatic speech recognition system for Turkish spoken language | |
KR20200121260A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
Li et al. | Adversarial speech generation and natural speech recovery for speech content protection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211011 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6970345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |