JP6970345B2 - 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム - Google Patents

学習装置、音声認識装置、学習方法、音声認識方法およびプログラム Download PDF

Info

Publication number
JP6970345B2
JP6970345B2 JP2018154945A JP2018154945A JP6970345B2 JP 6970345 B2 JP6970345 B2 JP 6970345B2 JP 2018154945 A JP2018154945 A JP 2018154945A JP 2018154945 A JP2018154945 A JP 2018154945A JP 6970345 B2 JP6970345 B2 JP 6970345B2
Authority
JP
Japan
Prior art keywords
language
model parameter
parameter group
voice
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018154945A
Other languages
English (en)
Other versions
JP2020030286A (ja
Inventor
亮 増村
智大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018154945A priority Critical patent/JP6970345B2/ja
Priority to PCT/JP2019/024826 priority patent/WO2020039728A1/ja
Priority to US17/269,705 priority patent/US20210319783A1/en
Publication of JP2020030286A publication Critical patent/JP2020030286A/ja
Application granted granted Critical
Publication of JP6970345B2 publication Critical patent/JP6970345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本発明は、学習装置、音声認識装置、学習方法、音声認識方法およびプログラムに関する。
国際化の進展とともに、母国語でない言語を人が話す機会が増えてきている。特に、英語は世界的な共通語として、全世界で人が英語を話す様々な場面が見られる。以下では、ある言語を対象とした場合に、その言語を母国語とする話者をネイティブ話者と称し、その言語を母国語としない話者をノンネイティブ話者と称する。また、ネイティブ話者がその言語で発話した音声データをネイティブ音声データと称し、ノンネイティブ話者がその言語で発話した音声データをノンネイティブ音声データと称する。
ノンネイティブ話者が登場する具体的な場面として、国際会議などが挙げられる。国際会議では、英語についてのノンネイティブ話者同士が英語を介してコミュニケーションをとることが一般的になってきている。しかしながら、ノンネイティブ話者の発音は、ネイティブ話者の発音とは大きく異なるため、コミュニケーションが困難となることがある。特に、母国語が異なるノンネイティブ話者同士が会話する際にコミュニケーションが困難となることがある。例えば、インド人は日本人が話す英語を聞きとることが難しく、日本人はインド人が話す英語を聞きとることが難しいことなどが知られている。そこで、ある言語についてのノンネイティブ話者同士がコミュニケーションをとる場合において、音声認識を用いることでコミュニケーションの円滑化を図ることが期待される。すなわち、音声のままでは聞きとることが困難であっても、テキストに変換することができれば、発話内容を容易に理解できることが期待できる。そのためには、ノンネイティブ話者向けの音声認識の高度化が必要となる。
Figure 0006970345
近年の音声認識システムで用いられている音響モデルは、Deep Neural Network(Convolutional Neural NetworkおよびRecurrent Neural Networkなどを含む)を用いた音響モデル(以下、「DNN音響モデル」と称する)である。DNN音響モデルは公知技術であり、代表的なモデル構造および計算方法などの詳細は、例えば、非特許文献1および非特許文献2に記載されている。
上述した背景から、ノンネイティブ話者向けの音声認識システムには、ノンネイティブ音声データから学習した音響モデルを用いることが有効である。しかしながら、ノンネイティブ話者向けの音響モデルを構築するために、ノンネイティブ音声データを大量に集めることは困難である。そこで、ノンネイティブ音声データとネイティブ音声データとを併用して音響モデルを学習することがしばしば行われる。例えば、非特許文献3には、ネイティブ音声データとノンネイティブ音声データとを併用してDNN音響モデルを学習する技術が記載されている。
背景技術としての非特許文献3に記載されている技術をより詳細に説明する。
<DNN音響モデルの学習>
DNN音響モデルの学習における入出力は以下の通りである。
入力:D=ノンネイティブ音声データの集合+ネイティブ音声データの集合
出力:θ=ノンネイティブ向けDNN音響モデルのモデルパラメータ群
音声データの集合Dは、音声データXとその音素列Sとのペア(S,X)が1個以上含まれたデータ集合である。学習では、以下の式(1)に基づき、モデルパラメータ群θが決定される。
Figure 0006970345
<ノンネイティブ話者向けの音声認識>
ノンネイティブ話者向けの音声認識における入出力は以下の通りである。
入力:X=ノンネイティブ音声、モデルパラメータ群θを有するDNN音響モデル
出力:O=音素に対する事後確率系列
出力(事後確率系列O)をもとに音声認識が行われる。事後確率系列Oをもとに音声認識を行う方法は、公知であり、例えば、上述した非特許文献1および非特許文献2などに記載されているため、説明を省略する。
G. Hinton, L. Deng, D. Yu, G. Dahl, A. rahman Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath, "Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups," IEEE Signal Processing Magazine, pp. 82-97, 2012. G. E. Dahl, D. Yu, L. Deng, and A. Acero, "Context-dependent pretrained deep neural networks for large-vocabulary speech recognition," IEEE transactions on Audio, Speech and Language Processing, vol. 20, pp. 30-42, 2012. 木菱裕志, 中川聖一, "DNN-HMMによる日本人英語音声の認識", 日本音響学会講演論文集, 2013年
上述した非特許文献3に記載されている技術は、ノンネイティブ音声データおよびネイティブ音声データの両方に対して音声認識性能(音素識別性能)が最大になるように学習したモデルパラメータ群を用いる技術である。そのため、非特許文献3に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と近い場合には、高い音声認識性能を得ることができる。一方、非特許文献3に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と大きく異なる場合には、ノンネイティブ音声に対する音声認識性能が低くなってしまうという課題がある。
例えば、日本人が英語で発話したノンネイティブ音声を音声認識対象とする場合、英語を十分に勉強し、ネイティブに近い発音が可能な話者によるノンネイティブ音声であれば、非特許文献3に記載されている技術により高い音声認識性能を実現することができる。一方、英語を勉強したばかりで日本語の音素をつないだような発音の話者によるノンネイティブ音声の場合、非特許文献3に記載されている技術では、高い音声認識性能を実現することができない。
なお、非特許文献3に記載されている技術では、ノンネイティブ話者の母国語の音声データを音響モデルの学習に活用することができない。例えば、日本人が話す英語向けの音響モデルを構築する場合に、非特許文献3に記載されている技術では、日本人が話す日本語の音声データを活用することができない。これは、ノンネイティブ話者の母国語の音声データに含まれる音素集合と、音声認識の対象としている言語の音素集合とが異なるため、ノンネイティブ話者の母国語の音声データが、音響モデルの学習データとして適合していないからである。
上記のような問題点に鑑みてなされた本発明の目的は、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる学習装置、音声認識装置、学習方法、音声認識方法およびプログラムを提供することにある。
上記課題を解決するため、本発明に係る学習装置は、入力音声の音声認識に用いられるパラメータを学習する学習装置であって、前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第1のモデルパラメータ群学習部と、前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習する第2のモデルパラメータ群学習部と、前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第3のモデルパラメータ群学習部と、を備える。
また、上記課題を解決するため、本発明に係る音声認識装置は、上記の学習装置により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換する第1の音韻気付き特徴量抽出部と、前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換する第2の音韻気付き特徴量抽出部と、前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備える。
また、上記課題を解決するため、本発明に係る学習方法は、入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、を含む。
また、上記課題を解決するため、本発明に係る音声認識方法は、請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含む。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習装置として機能させる。
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の音声認識装置として機能させる。
本発明に係る学習装置、音声認識装置、学習方法、音声認識方法およびプログラムによれば、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
本発明の一実施形態に係る音声認識装置の構成例を示す図である。 本発明の一実施形態に係る学習装置の構成例を示す図である。 図2に示す第1のモデルパラメータ群学習部によるモデルパラメータ群の学習について説明するための図である。 図1に示す音声認識装置における音声認識方法について説明するためのフローチャートである。 図2に示す学習装置における学習方法について説明するためのフローチャートである。
以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
図1は、本発明の一実施形態に係る音声認識装置10の構成例を示す図である。本実施形態に係る音声認識装置10は、音声認識対象の言語についてのノンネイティブ話者が発話した音声を入力音声とし、その入力音声に対する音声認識結果のテキストを出力するものである。
以下では、2つの言語(言語1、言語2)と、3つのデータ集合(データ集合A、データ集合B、データ集合C)を定義する。
第1の言語としての言語1は、ノンネイティブ話者が発話する音声認識対象の言語である。例えば、日本人が英語で発話する音声の音声認識を行う例では、言語1は英語である。第2の言語としての言語2は、音声認識対象の言語についてのノンネイティブ話者の母国語である。上述した、日本人が英語で発話する音声の音声認識を行う例では、言語2は日本語である。
データ集合Aは、言語1を母国語とする話者が言語1で発話する音声データの集合である。データ集合Bは、言語2を母国語とする話者が言語2で発話する音声データの集合である。データ集合Cは、言語2を母国語とする話者が言語1で発話する音声データの集合である。すなわち、データ集合Cは、ノンネイティブ音声データの集合である。
図1に示す音声認識装置10は、言語1向け音韻気付き特徴量抽出部11と、言語2向け音韻気付き特徴量抽出部12と、ノンネイティブ話者向け音韻識別部13と、音声テキスト変換部14とを備える。
第1の音韻気付き特徴量抽出部としての言語1向け音韻気付き特徴量抽出部11は、第1のモデルパラメータ群としてのモデルパラメータ群θを用いて、入力音声の音響特徴量系列Xを、第1の言語向け音韻気付き特徴量系列としての言語1向け音韻気付き特徴量系列Aに変換する。
第2の音韻気付き特徴量抽出部としての言語2向け音韻気付き特徴量抽出部12は、第2のモデルパラメータ群としてのモデルパラメータ群θを用いて、入力音声の音響特徴量系列Xを、第2の言語向け音韻気付き特徴量系列としての言語2向け音韻気付き特徴量系列Bに変換する。
音韻認識部としてのノンネイティブ話者向け音韻識別部13は、第3のモデルパラメータ群としてのモデルパラメータ群θを用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、言語1の音素に対する事後確率系列Oを生成する。
音声テキスト変換部14は、事後確率系列Oに基づき音声認識を行い、音声認識結果のテキストを出力する。
なお、入力音声は、音響特徴量系列Xに変換して、音声認識装置10に入力される。音響特徴量としては任意のものを利用することができ、例えば、メル周波数ケプストラム係数、メル周波数ケプストラム係数に対して、正規化などの変換をしたもの、あるいは、時間的に前後する複数個の特徴量を結合したものなど、任意のものを利用することができる。音響特徴量は、短時間のインターバル(例えば、0.01秒ごと)で抽出されるものであり、音声は、音響特徴量の系列(音響特徴量系列)として扱うことできる。以下では、音響特徴量系列X=(x,...,x)と表す。なお、xは、tフレーム目の音響特徴量である。
また、音韻気付き特徴量とは、音素を識別するための情報を含む特徴量である。具体的には、音韻気付き特徴量は、音素を弁別するように学習されたモデルを用いることで抽出できる特徴量である。
以下では、音声認識装置10が備える各部の動作について、より詳細に説明する。まず、言語1向け音韻気付き特徴量抽出部11について説明する。
言語1向け音韻気付き特徴量抽出部11は、入力音声の音響特徴量系列X=(x,...,x)およびモデルパラメータ群θを入力とし、言語1向け音韻気付き特徴量系列A=(a,...,a)を出力する。 言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)を、言語1向け音韻気付き特徴量系列A=(a,...,a)に変換する。音響特徴量系列Xおよび言語1向け音韻気付き特徴量系列Aはともに、長さがTである。言語1向け音韻気付き特徴量抽出部11は、以下の式(2)に従い、音響特徴量系列Xを言語1向け音韻気付き特徴量系列Aに変換する。
Figure 0006970345
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θは、後述する学習により推定されるモデルパラメータ群である。
次に、言語2向け音韻気付き特徴量抽出部12について説明する。
言語2向け音韻気付き特徴量抽出部12は、入力音声の音響特徴量系列X=(x,...,x)およびモデルパラメータ群θを入力とし、言語2向け音韻気付き特徴量系列B=(b,...,b)を出力する。言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)を、言語2向け音韻気付き特徴量系列B=(b,...,b)に変換する。ここで、音響特徴量系列Xおよび言語2向け音韻気付き特徴量系列Bはともに、長さがTである。言語2向け音韻気付き特徴量抽出部12は、以下の式(3)に従い、音響特徴量系列Xを言語2向け音韻気付き特徴量系列Bに変換する。
Figure 0006970345
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θは、後述する学習により推定されるモデルパラメータ群である。
次に、ノンネイティブ話者向け音韻識別部13について説明する。
ノンネイティブ話者向け音韻識別部13は、入力音声の音響特徴量系列X=(x,...,x)、言語1向け音韻気付き特徴量系列A=(a,...,a)、言語2向け音韻気付き特徴量系列B=(b,...,b)およびモデルパラメータ群θを入力とし、音素に対する事後確率系列O=(o,...,o)を出力する。ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)と、言語1向け音韻気付き特徴量系列A=(a,...,a)と、言語2向け音韻気付き特徴量系列B=(b,...,b)とから、音素に対する事後確率系列O=(o,...,o)を生成する。
具体的には、ノンネイティブ話者向け音韻識別部13はまず、入力された各特徴量系列から新たなベクトル系列C=(c,...,c)を作成する。ここで、ノンネイティブ話者向け音韻識別部13は、cを以下の式(4)に従い生成する。
Figure 0006970345
式(4)において、Tは転置記号である。つまり、cはxを並べたベクトルとして表される。
ノンネイティブ話者向け音韻識別部13は、以下の式(5)に従い、ベクトル系列Cから音素に対する事後確率系列Oを生成する。
Figure 0006970345
INPUTtoPosteriorgram()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、INPUTtoPosteriorgram()は、5層のニューラルネットワークで、最終層をソフトマックス関数とすることで実現することができる。モデルパラメータ群θは、後述する学習により推定されるモデルパラメータ群である。
次に、音声テキスト変換部14について説明する。
音声テキスト変換部14は、音素に対する事後確率系列O=(o,...,o)を入力とし、音声認識結果のテキストを出力する。音声テキスト変換部14は、音素に対する事後確率系列O=(o,...,o)に基づき音声認識を行い、音声認識結果のテキストを出力する。音素に対する事後確率系列Oに基づく音声認識の方法は公知であり、例えば、上述した非特許文献1および非特許文献2に記載されているため、説明を省略する。
図2は、本発明の一実施形態に係る学習装置20の構成例を示す図である。本実施形態に係る学習装置20は、図1を参照して説明した音声認識装置10において用いられるモデルパラメータ群θ〜θを学習するものである。
図2に示す学習装置20は、第1のモデルパラメータ群学習部21と、第2のモデルパラメータ群学習部22と、第3のモデルパラメータ群学習部23とを備える。
第1のモデルパラメータ群学習部21は、データ集合Aが入力され、上述した言語1向け音韻気付き特徴量抽出部11で用いられるモデルパラメータ群θを学習する。すなわち、第1のモデルパラメータ群学習部21は、入力音声を、言語1向け音韻気付き特徴量系列A(言語1において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θを、データ集合Aから学習する。
第2のモデルパラメータ群学習部22は、データ集合Bが入力され、上述した言語2向け音韻気付き特徴量抽出部12で用いられるモデルパラメータ群θを学習する。すなわち、第2のモデルパラメータ群学習部22は、入力音声を、言語2向け音韻気付き特徴量系列B(言語2において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θを、データ集合Bから学習する。
Figure 0006970345
以下では、学習装置20が備える各部の動作について、より詳細に説明する。まず、第1のモデルパラメータ群学習部21について説明する。
第1のモデルパラメータ群学習部21は、データ集合A:Dを入力とし、モデルパラメータ群θを出力する。第1のモデルパラメータ群学習部21は、データ集合A(データ集合D)から、モデルパラメータ群θを学習する。第1のモデルパラメータ群学習部21は、言語1向け音韻気付き特徴量系列A=(a,...,a)を事後確率系列O=(o,...,o)に変換するネットワークを連結したネットワークを構成する。このようなネットワークの具体的な構造を図3に示す。
図3に示すネットワーク構造は、以下の式(6)で表される。
Figure 0006970345
Figure 0006970345
Figure 0006970345
なお、以下では、記号^が付されたθは、右辺を満たす(右辺により推定された)θであることを意味する。また、ot,sはoにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(7)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
次に、第2のモデルパラメータ群学習部22について説明する。
第2のモデルパラメータ群学習部22は、データ集合B:Dを入力とし、モデルパラメータ群θを出力する。第2のモデルパラメータ群学習部22は、データ集合B(データ集合D)から、モデルパラメータ群θを学習する。第2のモデルパラメータ群学習部22は、言語2向け音韻気付き特徴量系列B=(b,...,b)を事後確率系列O=(o,...,o)に変換するネットワークを連結したネットワークを構成する。このようなネットワーク構造は、以下の式(8)で表される。
Figure 0006970345
Figure 0006970345
Figure 0006970345
ここで、ot,sはoにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(9)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
次に、第3のモデルパラメータ群学習部23について説明する。
第3のモデルパラメータ群学習部23は、データ集合C:D、モデルパラメータ群θおよびモデルパラメータ群θが入力され、モデルパラメータ群θを出力する。第3のモデルパラメータ群学習部23は、モデルパラメータ群θおよびモデルパラメータ群θを用いて、データ集合C(データ集合D)からモデルパラメータ群θを学習する。具体的には、第3のモデルパラメータ群学習部23はまず、事前にデータ集合Dにおける音声データXについて、決定されたモデルパラメータ群θ およびモデルパラメータ群θ を用いて、ベクトル系列Cに変換する。第3のモデルパラメータ群学習部23は、以下の式(10)に従い、ベクトル系列Cに変換する。
Figure 0006970345
第3のモデルパラメータ群学習部23は、作成したベクトル系列Cを用いて、モデルパラメータ群θを学習する。第3のモデルパラメータ群学習部23は、以下の式(11)に従い、モデルパラメータ群θを学習する。
Figure 0006970345
ここで、ot,sはoにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(11)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
なお、本実施形態においては、音声認識装置10と学習装置20とを分けて記載しているが、これらの装置は一体的に形成されていてもよい。したがって、音声認識装置10が、学習装置20が備える各部を備えていてもよい。また、学習装置20が、音声認識装置10が備える各部を備えていてもよい。
次に、本実施形態に係る音声認識装置10における音声認識方法について、図4に示すフローチャートを参照して説明する。
言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θを用いて、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a,...,a)に変換する(ステップS11)。具体的には、言語1向け音韻気付き特徴量抽出部11は、上述した式(2)に従い、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a,...,a)に変換する。
言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θを用いて、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b,...,b)に変換する(ステップS12)。具体的には、言語2向け音韻気付き特徴量抽出部12は、上述した式(3)に従い、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b,...,b)に変換する。
なお、ステップS11の処理とステップS12の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)と、言語1向け音韻気付き特徴量系列A=(a,...,a)と、言語2向け音韻気付き特徴量系列B=(b,...,b)とから、音素に対する事後確率系列O=(o,...,o)を生成する(ステップS13)。具体的には、ノンネイティブ話者向け音韻識別部13は、上述した式(5)に従い、事後確率系列O=(o,...,o)を生成する。
音声テキスト変換部14は、事後確率系列O=(o,...,o)に基づき音声認識を行い、音声認識結果のテキストを出力する(ステップS14)。
次に、本実施形態に係る学習装置20における学習方法について、図5に示すフローチャートを参照して説明する。
第1のモデルパラメータ群学習部21は、入力音声を言語1向け音韻気付き特徴量系列Aに変換するためのモデルパラメータ群θを、データ集合D(言語1を母国語とする話者が言語1で発話する音声データの集合)を用いて学習する(ステップS21)。具体的には、第1のモデルパラメータ群学習部21は、上述した式(7)に従い、モデルパラメータ群θを学習する。
第2のモデルパラメータ群学習部22は、入力音声を言語2向け音韻気付き特徴量系列Bに変換するためのモデルパラメータ群θを、データ集合D(言語2を母国語とする話者が言語2で発話する音声データの集合)を用いて学習する(ステップS22)。具体的には、第2のモデルパラメータ群学習部22は、上述した式(9)に従い、モデルパラメータ群θを学習する。
なお、ステップS21の処理とステップS22の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
第3のモデルパラメータ群学習部23は、入力音声から音素に対する事後確率系列Oを生成するためのモデルパラメータ群θを、モデルパラメータ群θ、モデルパラメータ群θおよびデータ集合D(言語2を母国語とする話者が第1の言語で発話する音声データの集合)を用いて学習する(ステップS23)。具体的には、第3のモデルパラメータ群学習部23は、上述した式(11)に従い、モデルパラメータ群θを学習する。
このように本実施形態においては、音声認識装置10は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、音素に対する事後確率系列Oを生成する。ここで、モデルパラメータ群θは、言語2を母国語とする話者が言語1で発話する音声データの集合、すなわち、ノンネイティブ音声データの集合から学習されている。そのため、ノンネイティブ音声を入力音声とした場合に、高い音声認識性能を得ることができる。
さらに本実施形態においては、モデルパラメータ群θの学習にあたり、言語2を母国語とする話者が言語2で発話する音声データの集合から学習されたモデルパラメータ群θも用いられている。そのため、ノンネイティブ音声の発音が、ネイティブ音声の発音とは大きく異なり、ノンネイティブ話者の母国語に近い発音である場合にも、高い音声認識性能を得ることができる。したがって、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
また、本実施形態においては、モデルパラメータ群θの学習にあたり、言語1を母国語とする話者が言語1で発話する音声データの集合から学習されたモデルパラメータ群θも用いられている。そのため、ネイティブ音声およびネイティブ音声の発音に近い発音のノンネイティブ音声に対しても、高い音声認識性能を得ることができる。
以上、音声認識装置10および学習装置20について説明したが、音声認識装置10および学習装置20として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、音声認識装置10および学習装置20の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMおよびDVD−ROMなどの記録媒体であってもよい。
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
10 音声認識装置
11 言語1向け音韻気付き特徴量抽出部(第1の音韻気付き特徴量抽出部)
12 言語2向け音韻気付き特徴量抽出部(第2の音韻気付き特徴量抽出部)
13 ノンネイティブ話者向け音韻識別部(音韻認識部)
14 音声テキスト変換部
20 学習装置
21 第1のモデルパラメータ群学習部
22 第2のモデルパラメータ群学習部
23 第2のモデルパラメータ群学習部

Claims (6)

  1. 入力音声の音声認識に用いられるパラメータを学習する学習装置であって、
    前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第1のモデルパラメータ群学習部と、
    前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習する第2のモデルパラメータ群学習部と、
    前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第3のモデルパラメータ群学習部と、を備えることを特徴とする学習装置。
  2. 請求項1に記載の学習装置により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、
    前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換する第1の音韻気付き特徴量抽出部と、
    前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換する第2の音韻気付き特徴量抽出部と、
    前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、
    前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備えることを特徴とする音声認識装置。
  3. 入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、
    前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、
    前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習するステップと、
    前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、を含むことを特徴とする学習方法。
  4. 請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、
    前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、
    前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、
    前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、
    前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含むことを特徴とする音声認識方法。
  5. コンピュータを請求項1に記載の学習装置として機能させるためのプログラム。
  6. コンピュータを請求項2に記載の音声認識装置として機能させるためのプログラム。



JP2018154945A 2018-08-21 2018-08-21 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム Active JP6970345B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018154945A JP6970345B2 (ja) 2018-08-21 2018-08-21 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
PCT/JP2019/024826 WO2020039728A1 (ja) 2018-08-21 2019-06-21 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
US17/269,705 US20210319783A1 (en) 2018-08-21 2019-06-21 Learning device, voice recognition device, learning method, voice recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018154945A JP6970345B2 (ja) 2018-08-21 2018-08-21 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020030286A JP2020030286A (ja) 2020-02-27
JP6970345B2 true JP6970345B2 (ja) 2021-11-24

Family

ID=69592808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018154945A Active JP6970345B2 (ja) 2018-08-21 2018-08-21 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム

Country Status (3)

Country Link
US (1) US20210319783A1 (ja)
JP (1) JP6970345B2 (ja)
WO (1) WO2020039728A1 (ja)

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021389A (en) * 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
US6119089A (en) * 1998-03-20 2000-09-12 Scientific Learning Corp. Aural training method and apparatus to improve a listener's ability to recognize and identify similar sounds
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition
EP1134726A1 (de) * 2000-03-15 2001-09-19 Siemens Aktiengesellschaft Verfahren zur Erkennung von Sprachäusserungen nicht-muttersprachlicher Sprecher in einem Sprachverarbeitungssystem
EP1239459A1 (en) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Adaptation of a speech recognizer to a non native speaker pronunciation
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
ATE357723T1 (de) * 2002-11-06 2007-04-15 Swisscom Fixnet Ag Verfahren zur mehrsprachigen spracherkennung
DE60316912T2 (de) * 2003-04-29 2008-07-31 Sony Deutschland Gmbh Verfahren zur Spracherkennung
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
EP1769489B1 (fr) * 2004-07-22 2009-09-09 France Telecom Procede et systeme de reconnaissance vocale adaptes aux caracteristiques de locuteurs non-natifs
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US8478597B2 (en) * 2005-01-11 2013-07-02 Educational Testing Service Method and system for assessing pronunciation difficulties of non-native speakers
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
US20070015121A1 (en) * 2005-06-02 2007-01-18 University Of Southern California Interactive Foreign Language Teaching
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
JP4528839B2 (ja) * 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム
EP2161718B1 (en) * 2008-09-03 2011-08-31 Harman Becker Automotive Systems GmbH Speech recognition
US8392190B2 (en) * 2008-12-01 2013-03-05 Educational Testing Service Systems and methods for assessment of non-native spontaneous speech
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8498857B2 (en) * 2009-05-19 2013-07-30 Tata Consultancy Services Limited System and method for rapid prototyping of existing speech recognition solutions in different languages
US9378650B2 (en) * 2009-09-04 2016-06-28 Naomi Kadar System and method for providing scalable educational content
WO2012134877A2 (en) * 2011-03-25 2012-10-04 Educational Testing Service Computer-implemented systems and methods evaluating prosodic features of speech
WO2013003749A1 (en) * 2011-06-30 2013-01-03 Rosetta Stone, Ltd Statistical machine translation framework for modeling phonological errors in computer assisted pronunciation training system
WO2014005142A2 (en) * 2012-06-29 2014-01-03 Rosetta Stone Ltd Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system
US9117451B2 (en) * 2013-02-20 2015-08-25 Google Inc. Methods and systems for sharing of adapted voice profiles
US9928754B2 (en) * 2013-03-18 2018-03-27 Educational Testing Service Systems and methods for generating recitation items
US9472184B2 (en) * 2013-11-06 2016-10-18 Microsoft Technology Licensing, Llc Cross-language speech recognition
US9514412B2 (en) * 2013-12-09 2016-12-06 Google Inc. Techniques for detecting deceptive answers to user questions based on user preference relationships
US9613638B2 (en) * 2014-02-28 2017-04-04 Educational Testing Service Computer-implemented systems and methods for determining an intelligibility score for speech
JP2016009193A (ja) * 2014-06-23 2016-01-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド ユーザ適合音声認識
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
US9947322B2 (en) * 2015-02-26 2018-04-17 Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University Systems and methods for automated evaluation of human speech
US10446056B1 (en) * 2015-03-06 2019-10-15 English Language Training Solutions LLC Game with visual cueing system and oral-aural learning routine
US10283142B1 (en) * 2015-07-22 2019-05-07 Educational Testing Service Processor-implemented systems and methods for determining sound quality
WO2017049350A1 (en) * 2015-09-22 2017-03-30 Vendome Consulting Pty Ltd Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition
JP6546070B2 (ja) * 2015-11-10 2019-07-17 日本電信電話株式会社 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
TWI610294B (zh) * 2016-12-13 2018-01-01 財團法人工業技術研究院 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
GB201706078D0 (en) * 2017-04-18 2017-05-31 Univ Oxford Innovation Ltd System and method for automatic speech analysis
US10431203B2 (en) * 2017-09-05 2019-10-01 International Business Machines Corporation Machine training for native language and fluency identification
WO2019065263A1 (ja) * 2017-09-26 2019-04-04 日本電信電話株式会社 発音誤り検出装置、発音誤り検出方法、プログラム
US10937444B1 (en) * 2017-11-22 2021-03-02 Educational Testing Service End-to-end neural network based automated speech scoring
US10783873B1 (en) * 2017-12-15 2020-09-22 Educational Testing Service Native language identification with time delay deep neural networks trained separately on native and non-native english corpora
JP7040258B2 (ja) * 2018-04-25 2022-03-23 日本電信電話株式会社 発音変換装置、その方法、およびプログラム

Also Published As

Publication number Publication date
US20210319783A1 (en) 2021-10-14
WO2020039728A1 (ja) 2020-02-27
JP2020030286A (ja) 2020-02-27

Similar Documents

Publication Publication Date Title
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
CN115516552A (zh) 使用未说出的文本和语音合成的语音识别
KR20070098094A (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
JP6440967B2 (ja) 文末記号推定装置、この方法及びプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP7255032B2 (ja) 音声認識
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Vegesna et al. Dnn-hmm acoustic modeling for large vocabulary telugu speech recognition
US20240265908A1 (en) Methods for real-time accent conversion and systems thereof
WO2020136948A1 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
Arunachalam A strategic approach to recognize the speech of the children with hearing impairment: different sets of features and models
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
Jeyalakshmi et al. Efficient speech recognition system for hearing impaired children in classical Tamil language
JP7423056B2 (ja) 推論器および推論器の学習方法
Zealouk et al. Amazigh digits speech recognition system under noise car environment
JP7179216B1 (ja) 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
JP6970345B2 (ja) 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Shahrul Azmi An improved feature extraction method for Malay vowel recognition based on spectrum delta
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
Dalva Automatic speech recognition system for Turkish spoken language
KR20200121260A (ko) 발음 변이를 적용시킨 음성 인식 방법
Li et al. Adversarial speech generation and natural speech recovery for speech content protection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211011

R150 Certificate of patent or registration of utility model

Ref document number: 6970345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150