JP5442016B2 - 音声モデルの生成方法 - Google Patents

音声モデルの生成方法 Download PDF

Info

Publication number
JP5442016B2
JP5442016B2 JP2011526956A JP2011526956A JP5442016B2 JP 5442016 B2 JP5442016 B2 JP 5442016B2 JP 2011526956 A JP2011526956 A JP 2011526956A JP 2011526956 A JP2011526956 A JP 2011526956A JP 5442016 B2 JP5442016 B2 JP 5442016B2
Authority
JP
Japan
Prior art keywords
model
speech
female
speech model
adult
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011526956A
Other languages
English (en)
Other versions
JP2012502327A (ja
Inventor
アンドレア ヘイゲン,
ブライアン ぺロム,
カドリ ハショーグル,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rosetta Stone LLC
Original Assignee
Rosetta Stone LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rosetta Stone LLC filed Critical Rosetta Stone LLC
Publication of JP2012502327A publication Critical patent/JP2012502327A/ja
Application granted granted Critical
Publication of JP5442016B2 publication Critical patent/JP5442016B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は一般的には音声認識に関し、より特には、大人の既知の音声モデルを利用して、コンピュータを用いた子供用の音声モデルを生成する方法に関する。
コンピュータを用いた言語認識は、産業における広範な応用を見いだした。言語認識の1つの有益な応用は、言語学習におけるものである。特に、生徒が実際に言語を話して、その音声がモニターされ批評された場合には、その言語は遥かにより自然な方法で修得されうる。ほとんど若しくは全く訓練を必要としない汎用の言語認識コンピュータプログラムは、そのような用途にとって理想的である。例えば、生徒はネイティブスピーカによって話された予め録音された言語を聞いて、その音声を復唱することを試みることが可能である。言語認識プログラムは生徒の音声をモニターし、正しい表現を認証し、間違いが起こった場合にはいつでも示す。そして、生徒は自らの発音が受け入れられるまで再び試みることができる。
今日、コンピュータを用いた音声モデルは多くの言語において利用されており、記載された方法で利用されている。このことは、生徒がパーソナルコンピュータ上で自分のペースで言語を学ぶことを可能にする。しかしながら、音声モデルは大人の音声のためにある傾向がある。一方、言語学習は子供にとって特に容易であり、それは言語を学習するのに特に有効なときである。子供用の音声モデルは簡単には入手できず、大人のモデルでは子供の音声の特別な特性のためにうまく機能しない。子供の音声は女性の音声に比べても音の調子が高く、女性の音声に比べてより変わりやすく、男性の音声に比べてもより変わりやすい。
したがって、同じ言語で既知の成人男性及び/又は成人女性の音声モデルのみを利用して、子供の音声用の音声認識モデルを生成することを可能にすることは非常に望ましいことである。
本発明は、大人の音声モデルから子供のそれを導き出すための変換の使用に関する。変換は成人男性音声及び成人女性音声から導き出されるが、この変換は男性音声を女性音声に変えるために必要であったそれである。本発明に関して、その変換は予め決められた修正の対象となりうると共に、修正された変換が女性音声モデルに適用されて有効な子供音声モデルを生成しうる。よって、好適な実施の形態は、次の3つの工程からなる。すなわち、1)2つの大人の音声モデルを用いてそれらの間の関係を表す変換を導き出して、その変換の第1の大人の音声モデルへの適用が実質的に第2のものを生成する工程と、2)その変換を修正する工程と、3)修正された変換を前記2つの大人の音声モデルのうちの第2のものに適用して第3の音声モデルを生成する工程である。
以下のセクションでは、男性及び女性のベクトルが記載されている。男性及び女性のモデルはベクトル(各音素状態のガウス分布の平均ベクトル)の集合からなる。各モデルは、数千のベクトルで構成されることもある。推定変換は、二つのモデルのうちの1つのモデルのすべての平均ベクトルに適用されたときには、二つのモデルの間の全体的な平均自乗誤差を最小にする。また、他の誤り基準も可能である。例えば、最大尤度である。変換は各モデルにおいて複数回適用され、各ベクトルについて一度適用される。このことは以下のように数学的にも示される。すなわち、1つの平均ベクトルは39次元を有し、変換行列は39次元的である。ガウス分布を用いたHMMベースの音響モデルは、隠れマルコフモデルと音声認識における選択的応用のチュートリアルに示されている(Rabiner、L.R.著1989年2月刊のIEEE会報第77巻第2号の第257頁乃至第286頁参照)。
好適には、男性音声モデルと女性音声モデルは、それぞれの音声モデルを画定するキー値を表すベクトルの観点から表現されうる。好適には、行列の形式で、男性モデルのベクトルを女性モデルのベクトルに変換する変換が導き出される。最も単純にいえば、この変換は、単に男性ベクトルに変換行列を掛けたものである。そして、変換行列が修正され、修正された行列が女性ベクトルを合成された子供のベクトルに変換するために用いられる。行列に対する修正は、0よりも大きくそして1よりも小さい値を有する指数pを適用することを含んでいる。好適には、pは約0.25と約0.7の間にあり、より好適には、約0.4と約0.5の間にあり、最も好適には、約0.5である。
本発明の上記の簡単な説明と更なる目的、特徴、及び効果は、添付の図面に関し、本発明に関して現在好適であるが、にもかかわらず例示的である実施の形態の以下の詳細な説明からより完全に理解される。
システム用の隠れマルコフモデルを説明する状態遷移図である。 英語において女性音声モデルの子供の音声モデルへの変換行列を生成するために使用される指数の値と擬陰性率の変化量を示すグラフである。 スペイン語において女性音声モデルの子供の音声モデルへの変換行列を生成するために使用される指数の値と擬陰性率の変化量を示すグラフである。 特許請求された方法の実施の形態を示す短いフローチャートである。
「隠れマルコフモデル」(HMM)は、モデルとされるシステムがパラメータ未知のマルコフ過程であると想定される統計的モデルである。このモデルを使用するときには、隠れたパラメータが観測可能なパラメータから決定される。そして、抽出されたモデルパラメータは更なる分析を行うために使用される。
通常のマルコフモデルでは、システムの状態は直接観測者に可視であり、したがって、状態遷移確率は単なるパラメータである。HMMでは、状態は直接可視ではないが、状態によって影響された変数が可視である。各状態は可能な出力信号に亘る確率分布を有する。したがって、HMMによって生成された一連の出力信号は、一連の状態に関するある種の情報を与える。
例えば、図1はシステム用の隠れHMMの状態遷移図である。このシステムは3つの状態X1、X2、X3を有する。状態遷移確率は、遷移を表す番号の前の「a」によって示されている。例えば、「a12」は、状態X1から状態X2への遷移の確率である。一連の状態に応じて、各状態で可能な複数の出力も存在する。それらは2つの数の前の「b」によって示されている。ブロックY1、Y2、Y3、Y4は出力の可能な観測を示しているとともに、これらの観測から、各状態についての確定が成されうる。
当面のモデルにおいては、問題のパラメータはHMM状態平均値である。多くのこれらはグループ化されて「ベクトル」を定義する。例えば、男性音声モデルに対応する一連の状態平均値は、各状態の平均値に対応する成分を含む男性モデルソースベクトルmに集合される。相似ベクトルfが、女性ベクトルの対応成分に対する男性ベクトルマップのその各成分のような女性音声モデル用に構成される。そして、f=Tmのような行列形式の変換Tを定義することができる。ここでfは女性ベクトルであり、mは男性ベクトルであり、Tmは行列とベクトル間の積であり、ベクトル変換である。
行列Tの良好な推定はTmとfの間の自乗誤差を最小にする。このことは以下の数式1として数学的に表現される。
Figure 0005442016
この数式1の使用により、行列Tは帰納的に見られることができる。行列Aは、単位行列として初期化されうる。そして、各行列エントリーaijは、以下の数式2によって示されるように、最急降下法(gradient descent)によって更新される。
Figure 0005442016
ここでAは行列Aのi番目の行である。
最急降下法は行列のすべてのベクトル対(m,f)に亘って複数回行われ、変換行列Tの許容近似値に収束する。
本発明に関して、合成された子供の音声モデルは、修正された形式の行列Tを女性音声ベクトルに適用し、女性音声モデルを子供のそれに変換することによって生成される。修正された変換行列は、行列Tに小数点指数pを適用して修正行列T'=T(pは0よりも大きく1よりも小さい)とすることによって得られる。好適には、pは約0.25と約0.7の間にあり、より好適には、約0.4と約0.5の間にあり、最も好適には、約0.5である。更に、pは言語不変である。すなわち、言語にかかわらず、pのほぼ同じ最適値がすべての言語モデルに適用されるべきである。
図4のフローチャートは、開示された、子供用の音声モデルを生成するための方法を要約している。ブロック100で方法がスタートし、ブロック102で既存の男性音声モデルと既存の女性音声モデルが相互処理されて、男性音声モデルが与えられているとして、女性音声モデルを生成する変換を導き出す。好適な実施の形態において、このことは、男性モデルを表すベクトルと女性モデルを表すベクトルが与えられているとして、変換行列を導き出す反復処理を通じて行われた。
ブロック104において、この変換が修正される。好適な実施の形態においては、このことは変換行列に0と1の間の指数値を適用することに等しくなる。
ブロック106においては、修正された変換が女性音声モデルに対して適用されて、合成された子供の音声モデルを生成すると共に、ブロック108で方法が終了する。

実験
数式1と2によって記載された方法を用いて、英語とスペイン語の既存の男性音声モデルと女性音声モデルに関して行列Tが発生された。有効な子供用の音声モデルもそれぞれの言語において得られた。変換行列Tがそれぞれの言語モデルで発生され、一連の修正変換行列が0と1の間のp値を用いてそれぞれの言語で発生された。そして、異なるp値を用いた変換行列は、実際の子供の音声と共に試験され、異なるp値によって得られたモデルの質を決定した。図2は、変換に適用されたp値の関数としての英語の合成された子供のモデルの相対的偽陰性率削減のグラフである。偽陰性(FN)は話した言葉が本当は正しいのにそれが誤りであるとして検出されるときに起こる。
表1は、男性モデルと女性モデルと合成された子供モデルと基準の子供モデルに関連して英語について得られた結果を要約している。この表は偽陰性率だけではなく偽陽性率も示している。偽陽性は、正しいとして示された誤った話し言葉である。
Figure 0005442016
図3は図2と同様のグラフであり、スペイン語の合成された子供のモデルの相対的偽陰性率削減についてのp値の効果を示すグラフである。表2は、スペイン語における、男性モデルと女性モデルと合成された子供モデルと基準の子供モデルのパーフォーマンスを要約している。
Figure 0005442016
子供の音声は大人の音声よりも遥かにより可変である。音声のばらつきが、各HMM状態に関連する音響モデル共分散行列においてコード化される。これらの共分散の特徴は、音響モデルトレーニングにおいて決定され、基本的なトレーニングセットにおけるばらつきに影響する。子供の音声のばらつきを考慮して、共分散値が見積もられた。
HMMベースの音響モデルに良く適用された多変量ガウス分布にとって、対角共分散行列のみが使用される。これらの対角エントリは子供の音声における更なるばらつきを考慮して見積もられている。最初の6個のMFCC共分散特徴が以下の格子に示されたファクターによって見積もられた。
Figure 0005442016
そして、エネルギー値とデルタエネルギー値とデルタデルタエネルギー値が以下の格子に示されたように見積もられた。
Figure 0005442016
すべての他の特徴は変わらなかった。そのようなスケーリングは、例として上記の合成された子供のモデルにおける改善をもたらした。英語の合成モデルに関しては、偽陰性率は8.1%以下であり、偽陽性率は0.7%であった。スペイン語の合成子供モデルに関しては、偽陽性率が0.1%で偽陰性率が7.7に減った。偽陽性率が上がって偽陰性率が下がったので、スケーリングは注意深く成されねばならない。
本発明の好適な実施の形態は例示目的で説明したが、業界において通常の技量を有する者であれば、添付の特許請求の範囲によって請求された本発明の範囲や精神を逸脱することなく、多くの追加や改変や代替をすることができることは明らかである。

Claims (6)

  1. 言語を学習中の子供からなる第3の音声グループの子供音声モデルを発生する、コンピュータを用いた方法であって、
    成人男性からなる第1の音声グループの成人男性音声モデルと成人女性からなる第2の音声グループの成人女性音声モデルを受信する工程であって、第1の音声グループと第2の音声グループの音声が学習中の言語である工程と
    変換行列が成人男性音声モデルに対して適用されるときに成人男性の音声モデルから成人女性の音声モデルを生成する変換行列を導き出す工程であって、成人男性の音声モデルが統計モデルシステムにおいて状態を表す値の男性のベクトルとして表され、成人女性の音声モデルが統計モデルシステムにおいて状態を表す値の女性のベクトルとして表され、前記変換行列が男性のベクトルを女性のベクトルに変換するように構成されている工程と、
    前記変換行列に指数演算を適用して修正された変換行列を生成する工程と、
    成人女性音声モデルに前記修正された変換行列を適用して、子供の音声モデルを生成する工程であって、該子供の音声モデルがその子供の音声モデルの状態に関連した共分散値を含んでいて、言語学習中の第3の音声グループのメンバーから音声を認識するように構成されている工程とからなる方法。
  2. 前記指数演算が0と1の間の指数値で適用される前記請求項1に記載の方法。
  3. 前記指数演算が約0.25と約0.7の間の指数値で適用される前記請求項に記載の方法。
  4. 前記指数演算が約0.4と約0.5の間の指数値で適用される前記請求項に記載の方法。
  5. 前記指数演算が約0.5の指数値で適用される前記請求項に記載の方法。
  6. 前記共分散値が対角行列の形式であり、最初の6個の共分散値が以下のように見積もられ、
    Figure 0005442016

    そして、エネルギー値とデルタエネルギー値とデルタデルタエネルギー値が以下のように見積もられている前記請求項1に記載の方法。
    Figure 0005442016
JP2011526956A 2008-09-12 2009-09-10 音声モデルの生成方法 Expired - Fee Related JP5442016B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/209,569 2008-09-12
US12/209,569 US8645135B2 (en) 2008-09-12 2008-09-12 Method for creating a speech model
PCT/US2009/056460 WO2010030742A1 (en) 2008-09-12 2009-09-10 Method for creating a speech model

Publications (2)

Publication Number Publication Date
JP2012502327A JP2012502327A (ja) 2012-01-26
JP5442016B2 true JP5442016B2 (ja) 2014-03-12

Family

ID=42005463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011526956A Expired - Fee Related JP5442016B2 (ja) 2008-09-12 2009-09-10 音声モデルの生成方法

Country Status (7)

Country Link
US (1) US8645135B2 (ja)
EP (1) EP2332139B1 (ja)
JP (1) JP5442016B2 (ja)
KR (1) KR101664815B1 (ja)
CN (1) CN102203852B (ja)
CA (1) CA2737142C (ja)
WO (1) WO2010030742A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8756062B2 (en) 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN103530523B (zh) * 2013-10-23 2017-01-04 北京师范大学 儿童语言能力发展评估建模方法
US9904844B1 (en) 2016-08-04 2018-02-27 International Business Machines Corporation Clustering large database of images using multilevel clustering approach for optimized face recognition process
US10726828B2 (en) 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training
CN110164427A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音交互方法、装置、设备以及存储介质
CN110246489B (zh) * 2019-06-14 2021-07-13 思必驰科技股份有限公司 用于儿童的语音识别方法及系统
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법
CN115798455B (zh) * 2023-02-07 2023-06-02 深圳元象信息科技有限公司 语音合成方法、系统、电子设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
US6253181B1 (en) 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
EP1308929B1 (en) * 2000-07-13 2006-11-15 Asahi Kasei Kabushiki Kaisha Speech recognition device and speech recognition method
US6671686B2 (en) * 2000-11-02 2003-12-30 Guy Pardon Decentralized, distributed internet data management
JP2002366187A (ja) 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003122388A (ja) 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
JP2003255980A (ja) 2002-03-04 2003-09-10 Sharp Corp 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
US7797158B2 (en) * 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion

Also Published As

Publication number Publication date
US8645135B2 (en) 2014-02-04
EP2332139B1 (en) 2015-10-21
CA2737142A1 (en) 2010-03-18
EP2332139A4 (en) 2012-10-24
EP2332139A1 (en) 2011-06-15
KR101664815B1 (ko) 2016-10-11
US20100070278A1 (en) 2010-03-18
KR20110084402A (ko) 2011-07-22
WO2010030742A1 (en) 2010-03-18
CN102203852B (zh) 2015-05-13
CA2737142C (en) 2015-01-06
CN102203852A (zh) 2011-09-28
JP2012502327A (ja) 2012-01-26

Similar Documents

Publication Publication Date Title
JP5442016B2 (ja) 音声モデルの生成方法
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
WO2020118521A1 (en) Multi-speaker neural text-to-speech synthesis
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
US20120278081A1 (en) Text to speech method and system
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
US7505950B2 (en) Soft alignment based on a probability of time alignment
Ghule et al. Feature extraction techniques for speech recognition: A review
JP7393585B2 (ja) テキスト読み上げのためのWaveNetの自己トレーニング
JP2019215500A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
Liu et al. Using bidirectional associative memories for joint spectral envelope modeling in voice conversion
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Sriranjani et al. Improved acoustic modeling for automatic dysarthric speech recognition
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Sarfjoo et al. Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data.
Sandhu et al. Research insight of Indian tonal languages: A review
KR20110024624A (ko) 외국어 발음 평가 시스템 및 방법
Sandhu et al. Research Insight of Indian Tonal Languages: A
Kato et al. Tree‐based clustering for gaussian mixture HMMs
Hwang et al. CyFi-TTS: Cyclic Normalizing Flow with Fine-Grained Representation for End-to-End Text-to-Speech
JP2015194781A (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Oh et al. Decision Tree-Based Clustering with Outlier Detection for HMM-Based Speech Synthesis.

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121210

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130115

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130214

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130318

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130816

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees