JPH04219798A - 話者適応音声認識方法および装置 - Google Patents

話者適応音声認識方法および装置

Info

Publication number
JPH04219798A
JPH04219798A JP2412080A JP41208090A JPH04219798A JP H04219798 A JPH04219798 A JP H04219798A JP 2412080 A JP2412080 A JP 2412080A JP 41208090 A JP41208090 A JP 41208090A JP H04219798 A JPH04219798 A JP H04219798A
Authority
JP
Japan
Prior art keywords
speaker
speech
features
voice
conversion function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2412080A
Other languages
English (en)
Other versions
JP2980382B2 (ja
Inventor
Toru Sanada
真田 徹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2412080A priority Critical patent/JP2980382B2/ja
Publication of JPH04219798A publication Critical patent/JPH04219798A/ja
Application granted granted Critical
Publication of JP2980382B2 publication Critical patent/JP2980382B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,新規話者音声の特徴量
を標準話者音声の特徴量に変換する変換関数を生成して
用いる話者適応音声認識方法および装置に関する。音声
認識装置では,あらかじめ登録された音声特徴量と,入
力音声から抽出した音声特徴量とを照合することにより
,発声入力された音声の認識を行う。あらかじめ登録さ
れた音声特徴量が,認識する入力音声と同一人の発声に
より作成したものであれば,認識精度は高くなるが,不
特定話者用に標準的に作られたものであれば,特に個性
の強い発声に対して認識精度が落ちる。
【0002】しかしながら,特定(新規)話者対応に音
声特徴量の辞書を作成するのは,非常に大きな労力を要
する。そこで,あらかじめ標準的な音声の特徴量を示す
辞書を一つ作成しておき,新規話者音声に対して,その
音声特徴量を標準話者音声の特徴量に変換する変換関数
を学習により生成し,その変換関数を用いて入力音声の
特徴量を標準話者音声の特徴量に近い形に変換し,その
うえで照合する方法が用いられている。このときに用い
る変換関数の生成を簡単に高速に行う技術が必要とされ
る。
【0003】
【従来の技術】図7は従来技術の説明図である。変換関
数60を生成する際には,新規話者の音声から,新規話
者音声特徴量抽出手段1で音声認識に用いる特徴量時系
列を抽出し,この新規話者の音声に対応する標準話者の
音声の特徴量時系列を,標準話者音声特徴量記憶手段4
から読み出し,変換関数生成手段30によって,新規話
者音声の特徴量時系列を標準話者音声の特徴量時系列に
変換する単一の変換関数60を生成する。
【0004】新規話者の音声で音声認識を行う際には,
新規話者の音声から新規話者音声特徴量抽出手段1で音
声認識に用いる特徴量時系列を抽出し,この特徴量を変
換関数60で標準話者音声の特徴量時系列に変換し,こ
の特徴量時系列と標準話者音声特徴量記憶手段4に記憶
されている特徴量時系列を,標準話者音声認識手段7で
照合して認識結果を得る。
【0005】
【発明が解決しようとする課題】以上のような従来技術
によれば,すべての新規話者音声の特徴量を標準話者音
声の特徴量に単一の変換関数によって変換することにな
るため,変換関数がきわめて複雑になり,変換関数を生
成するのに長時間を要するので,新規話者の負担が大き
いという問題があった。また,変換精度のよい変換関数
を得るのが難しいという問題があった。
【0006】本発明は上記問題点の解決を図り,精度の
よい変換関数を短時間で生成する手段を提供し,新規話
者の負担を軽減することを目的としている。
【0007】
【課題を解決するための手段】図1は本発明の原理ブロ
ック図である。本発明では,新規話者音声の特徴量を変
換関数で標準話者音声の特徴量に変換する際に,複数の
変換関数の中から新規話者音声の各時刻における音響特
性に対応する変換関数を選択し,変換に用いる変換関数
を切り換えながら新規話者音声の特徴量を標準話者音声
の特徴量に変換する。
【0008】N種の音響特性に対応するN個の変換関数
(1),(2),…(N) からなる変換関数群を生成
する際には,以下の処理を行う。入力された新規話者の
音声から新規話者音声特徴量抽出手段1で新規話者音声
の特徴量時系列を抽出する。特徴量時系列から音響特性
抽出手段2でN個の変換関数に対応する音響特性時系列
を抽出する。
【0009】変換関数生成手段3は,入力された新規話
者音声に対応する標準話者音声の特徴量時系列を標準話
者音声特徴量記憶手段4から読み出し,各時刻の音響特
性に対応して,新規話者音声の特徴量を標準話者音声の
特徴量に変換するN個の変換関数からなる変換関数群を
生成する。
【0010】新規話者の音声で音声認識を行う際には,
以下の処理を行う。新規話者の音声から新規話者音声特
徴量抽出手段1で新規話者音声の特徴量時系列を抽出す
る。特徴量時系列から音響特性抽出手段2でN個の変換
関数に対応する音響特性時系列を抽出する。
【0011】変換関数切り換え手段5は,各時刻の音響
特性に対応する変換関数を,N個の変換関数群から選択
する。音声特徴量変換手段6は,選択された変換関数を
用いて,入力された新規話者音声の特徴量を標準話者音
声の特徴量に変換する。すなわち,変換関数群によって
,新規話者音声の特徴量時系列が標準話者音声の特徴量
時系列に変換される。
【0012】標準話者音声認識手段7は,標準話者音声
特徴量記憶手段4から読み出した標準話者音声の特徴量
時系列と,音声特徴量変換手段6によって新規話者音声
の特徴量時系列から変換されて得られた特徴量時系列と
を照合し,認識結果を出力する。
【0013】音響特性抽出手段2が抽出する音響特性と
して,弁別素性(distinctive featu
re)を用いることができる。弁別素性とは,例えば母
音性,子音性,単ホルマント性,鼻音性,エネルギー性
,…というような音響的性質を示すものである。
【0014】また,具体的には,音響特性として,有声
音,無声音および無音などの性質を選び,これらの各性
質ごとに変換関数を用意してもよい。
【0015】変換関数生成手段3は,各音響特性ごとに
,変換関数を回帰分析で求めることができる。また,変
換関数生成手段3は,変換関数をニューラルネットで求
め,音声特徴量変換手段6は,音響特性に応じたニュー
ラルネットで実現される変換関数により,新規話者音声
の特徴量を変換することもできる。
【0016】
【作用】本発明では,入力音声の音響特性に対応する複
数の変換関数を生成して,認識の際には入力音声の各時
刻での音響特性により,これらの変換関数を切り換えて
用い,新規話者音声の特徴量を標準話者音声の特徴量に
変換するので,各々の変換関数が単純になり,例えば変
換関数の生成のために100語の音声入力による学習が
必要であったのに対し,きわめて少ない語数の入力によ
る学習でも,精度のよい変換関数を実現することが可能
になる。
【0017】
【実施例】図2は本発明の実施例を示す。図2において
,帯域スペクトル時系列計算部11は,図1に示す新規
話者音声特徴量抽出手段1に対応する。有声音・無声音
・無音判定部21は,図1に示す音響特性抽出手段2に
対応する。DPマッチング部31,帯域スペクトル対記
憶選択部32,各音響特性ごとの帯域スペクトル対記憶
部群33および線型回帰分析部34は,図1に示す変換
関数生成手段3に対応する。標準話者単語音声帯域スペ
クトル時系列テンプレート記憶部41は,図1に示す標
準話者音声特徴量記憶手段4に対応する。変換関数選択
部51は,図1に示す変換関数切り換え手段5に対応す
る。音声特徴量変換部61は,図1に示す音声特徴量変
換手段6に対応する。DPマッチング音声認識部71は
,図1に示す標準話者音声認識手段7に対応する。
【0018】音声特徴量変換部61は,有声用,無声用
,無音用の変換関数61a,61b,61cを持つ。 これらの変換関数群を生成する際には,以下の処理を行
う。
【0019】帯域スペクトル時系列計算部11は,新規
話者音声を帯域スペクトル時系列に変換する。有声音・
無声音・無音判定部21は,帯域スペクトル時系列から
各時刻における音響特性が有声音であるか無声音である
か無音であるかを判定する。無音であるか否かは帯域ス
ペクトルの全パワーの大小で判定する。有声音であるか
無声音であるかは,帯域スペクトルの低域パワーと高域
パワーの相対的大小で判定する。
【0020】DPマッチング部31は,入力された新規
話者の帯域スペクトル時系列と,標準話者単語音声帯域
スペクトル時系列テンプレート記憶部41中の入力音声
に対応する帯域スペクトル時系列との時間整合をとり,
帯域スペクトル対を生成する。帯域スペクトル対は,時
間整合によって対応づけられた新規話者の帯域スペクト
ルと標準話者の帯域スペクトルの対である。
【0021】帯域スペクトル対記憶選択部32は,有声
音・無声音・無音判定部21の判定に従って,帯域スペ
クトル対を帯域スペクトル対記憶部群33中の有声音帯
域スペクトル対記憶部・無声音帯域スペクトル対記憶部
・無音帯域スペクトル対記憶部のいずれかに格納し蓄積
する。例えば,有声音・無声音・無音判定部21の判定
が有声音であれば,帯域スペクトル対は有声音帯域スペ
クトル対記憶部に格納され蓄積される。
【0022】線型回帰分析部34は,帯域スペクトル対
記憶部群33の中の各記憶部に蓄積された帯域スペクト
ル対に線型回帰分析を行って,各変換関数を求め,音声
特徴量変換部61にそれを通知し格納する。例えば,有
声音帯域スペクトル対記憶部に蓄積された帯域スペクト
ル対に対して線型回帰分析を行うことにより,入力音声
が有声音である場合の変換関数が生成され,音声特徴量
変換部61が管理する変換関数群中に有声用変換関数6
1aとして格納される。
【0023】新規話者の音声で音声認識を行う際には,
以下の処理を行う。帯域スペクトル時系列計算部11は
,新規話者音声を帯域スペクトル時系列に変換する。 有声音・無声音・無音判定部21は,帯域スペクトル時
系列から各時刻における音響特性が有声音であるか無声
音であるか無音であるかを判定する。この判定に従って
,変換関数選択部51は,音声特徴量変換部61で使用
する変換関数群中のいずれかの変換関数を選択する。
【0024】ある時刻において,例えば有声音・無声音
・無音判定部21が有声音と判定した場合には,変換関
数選択部51は,その時刻の新規話者音声の帯域スペク
トルを標準話者音声の帯域スペクトルに変換する変換関
数として,有声用変換関数61aを選択する。
【0025】音声特徴量変換部61は,選択された変換
関数に従って新規話者音声の帯域スペクトル時系列を標
準話者音声の帯域スペクトル時系列に変換する。DPマ
ッチング音声認識部71は,変換された帯域スペクトル
時系列と標準話者単語音声帯域スペクトル時系列テンプ
レート記憶部41中の単語ごとの帯域スペクトル時系列
とを照合して認識結果を出力する。
【0026】図3は,図2に示す実施例による変換関数
生成時の処理フロー,すなわち学習時の処理フローを示
している。以下,図3に示す処理(a) 〜(l) に
従って説明する。
【0027】(a) 学習のための新規話者の発声する
単語は,あらかじめ決められている。新規話者が発声す
ると,帯域スペクトル時系列計算部11により,音声の
新規話者波形を帯域スペクトル時系列に変換する。 (b) DPマッチング部31において,新規話者帯域
スペクトル時系列と,同じ単語の標準話者帯域スペクト
ル時系列とのDP照合を行い,帯域スペクトル対を生成
する。
【0028】(c) 時系列が終了するまで,処理(d
) 〜処理(i) を繰り返す。終了したならば,処理
(j) へ移る。 (d) 有声音・無声音・無音判定部21により,帯域
スペクトルが有声音・無声音・無音のいずれであるかを
判定する。 (e) 〜(f) 有声音であれば,帯域スペクトル対
記憶部群33中の有声音帯域スペクトル対記憶部に帯域
スペクトル対を格納する。 (g) 〜(h) 無声音であれば,帯域スペクトル対
記憶部群33中の無声音帯域スペクトル対記憶部に帯域
スペクトル対を格納する。 (i) 無音であれば,帯域スペクトル対記憶部群33
中の無音帯域スペクトル対記憶部に帯域スペクトル対を
格納する。その後,処理(c) へ戻り,同様に処理を
繰り返す。
【0029】(j) 時系列が終了したならば,線型回
帰分析で無音用変換関数61cを生成し,格納する。な
お,線型回帰分析の手法については周知であるので,こ
こでの詳しい説明は省略する。 (k) 同様に,線型回帰分析で無声音用変換関数61
bを生成し,格納する。(l) 同様に,線型回帰分析
で有声音用変換関数61aを生成し,格納する。以上の
処理により,変換関数の生成処理を終了する。
【0030】図4は,図2に示す実施例による認識時の
処理フローを示している。以下,図4に示す処理(a)
 〜(k) に従って説明する。
【0031】(a) 新規話者が発声した音声を,帯域
スペクトル時系列計算部11により,帯域スペクトル時
系列に変換する。
【0032】(b) 時系列が終了するまで,処理(c
) 〜処理(i) を繰り返す。終了したならば,処理
(j) へ移る。 (c) 有声音・無声音・無音判定部21により,帯域
スペクトルが有声音・無声音・無音のいずれであるかを
判定する。 (d) 〜(e) 有声音であれば,変換関数として有
声用変換関数を選択する。 (f) 〜(g) 無声音であれば,変換関数として無
声用変換関数を選択する。 (h) 無音であれば,変換関数として無音用変換関数
を選択する。 (i) 音声特徴量変換部61において,選択された変
換関数を用いることにより,帯域スペクトルを標準話者
のものに変換する。その後,処理(b) へ戻り,同様
に処理を繰り返す。
【0033】(j) 認識対象の時系列が終了したなら
ば,DPマッチング音声認識部71により,変換された
帯域スペクトル時系列と,標準話者の帯域スペクトル時
系列テンプレートとについて,DP(ダイナミックプロ
グラミング)マッチングを行う。 (k) DPマッチングの結果,スコアの最も良かった
語句を認識結果とし,処理を終了する。
【0034】変換関数群を複数のニューラルネットで構
成してニューラルネット群とし,線型回帰分析部34を
,バックプロパゲーションによるニューラルネット学習
部として,同様の機能を実現することも可能である。 図5は,そのニューラルネットを用いた本発明の実施例
を示している。
【0035】図5において,図2と同符号のものは図2
に示すものに対応する。35はニューラルネットに対す
る学習のためのバックプロパゲーション部,52は有声
音・無声音・無音の判定によって変換に使用するニュー
ラルネットを選択するニューラルネット選択部,62は
ニューラルネットにより帯域スペクトルを変換する変換
部,62aは有声用ニューラルネット,62bは無声用
ニューラルネット,62cは無音用ニューラルネットを
表す。
【0036】図5に示す実施例で,変換関数群,すなわ
ち有声用ニューラルネット62a,無声用ニューラルネ
ット62b,無音用ニューラルネット62cを生成する
場合,帯域スペクトル対記憶部群33中の有声音・無声
音・無音別に設けられた記憶部に,帯域スペクトル対を
分けて格納するまでの処理は,図2の実施例と同様であ
る。
【0037】本実施例では,変換関数をニューラルネッ
トで実現するため,バックプロパゲーション部35によ
る学習を行う。ここでは,記憶種別ごとに帯域スペクト
ル対を帯域スペクトル対記憶部群33から読み出し,例
えば新規話者音声の帯域スペクトルをニューラルネット
に与える入力信号とし,標準話者音声の帯域スペクトル
を教師信号とすることにより各ニューロンの内部状態を
決める学習を行う。
【0038】ニューラルネットは,一般には入力層,中
間層,出力層に配置されたニューロンで構成されること
が多いが,本実施例の場合,変換関数が単純化されるの
で,実質的には線型変換でもかなりの変換精度を保つこ
とができる。そのため,図6に示すように中間層を省略
して,入力層と出力層だけからなるニューラルネットと
してもよい。無音用ニューラルネット62cは,入力層
の入力信号をそのまま出力層に伝えるものでよい。
【0039】学習によって各ニューラルネット62a,
62b,62cが作成されると,それを用いた音声認識
は,次のように行う。
【0040】図5において,新規話者音声の帯域スペク
トル時系列について,有声音・無声音・無音判定部21
により,各時刻における音響特性が,有声音・無声音・
無音のいずれであるかを判定するまでの処理は,図2に
示す実施例と同様である。
【0041】ニューラルネット選択部52は,有声音・
無声音・無音判定部21の判定結果により,変換部62
で使用するニューラルネットを選択する。すなわち,図
6に示すように,有声用ニューラルネット62a,無声
用ニューラルネット62b,無音用ニューラルネット6
2cと3種あるニューラルネットの中から1つを選択し
,新規話者帯域スペクトル時系列を,その選択したニュ
ーラルネットに対する入力信号とする。この入力により
,出力層から出力される信号が標準話者音声の帯域スペ
クトル時系列に相当するものとなる。
【0042】ニューラルネットにより変換した帯域スペ
クトル時系列を,DPマッチング音声認識部71に渡す
。その後の音声認識処理は,図2に示す実施例と同様で
ある。
【0043】以上の実施例では,音響特性として有声音
・無声音・無音の例を取り上げたが,本発明はこれに限
らず,各種の弁別素性を用いて同様に実施することが可
能である。
【0044】
【発明の効果】以上説明したように,本発明によれば,
音響特性に対応する複数の変換関数を用いるので,個々
の変換関数が単純になり,変換関数を短時間で生成でき
るようになる。したがって,新規話者の負担が小さくな
る。また,変換精度がよくなり,良好な認識結果を得る
ことができるようになる。
【図面の簡単な説明】
【図1】本発明の原理ブロック図である。
【図2】本発明の実施例説明図である。
【図3】本発明の実施例による変換関数生成時の処理フ
ローを示す図である。
【図4】本発明の実施例による認識時の処理フローを示
す図である。
【図5】本発明のニューラルネットを用いた実施例説明
図である。
【図6】本発明の実施例に係るニューラルネットの例を
示す図である。
【図7】従来技術の説明図である。
【符号の説明】
1    新規話者音声特徴量抽出手段2    音響
特性抽出手段 3    変換関数生成手段 4    標準話者音声特徴量記憶手段5    変換
関数切り換え手段 6    音声特徴量変換手段 7    標準話者音声認識手段

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】  新規話者音声の特徴量を標準話者音声
    の特徴量に変換する変換関数を生成して用いる話者適応
    音声認識方法において,入力音声の各時刻における音響
    特性に対応する複数の変換関数を,学習により生成する
    過程と,認識時に,入力音声の各時刻における音響特性
    により,複数の変換関数中で使用する変換関数を切り換
    えて,新規話者音声の特徴量を標準話者音声の特徴量に
    変換する過程とを備えたことを特徴とする話者適応音声
    認識方法。
  2. 【請求項2】  請求項1記載の話者適応音声認識方法
    において,複数の変換関数に各々対応する音響特性とし
    て,弁別素性を用いることを特徴とする話者適応音声認
    識方法。
  3. 【請求項3】  請求項1記載の話者適応音声認識方法
    において,複数の変換関数に各々対応する音響特性とし
    て,有声音,無声音および無音を用いることを特徴とす
    る話者適応音声認識方法。
  4. 【請求項4】  請求項1,請求項2または請求項3記
    載の話者適応音声認識方法において,変換関数を回帰分
    析で求めることを特徴とする話者適応音声認識方法。
  5. 【請求項5】  請求項1,請求項2または請求項3記
    載の話者適応音声認識方法において,変換関数をニュー
    ラルネットで求め,音響特性に応じたニューラルネット
    で実現される複数の変換関数により入力音声の特徴量を
    標準話者音声の特徴量に変換することを特徴とする話者
    適応音声認識方法。
  6. 【請求項6】  新規話者音声の特徴量を標準話者音声
    の特徴量に変換する変換関数を生成して用いることによ
    り音声認識を行う話者適応音声認識装置において,入力
    された新規話者の音声からその特徴量を抽出する新規話
    者音声特徴量抽出手段(1) と,抽出した特徴量から
    ,あらかじめ定められた複数の音響特性に関する音響特
    性時系列を抽出する音響特性抽出手段(2) と,認識
    時に参照する標準話者音声の特徴量時系列を記憶する標
    準話者音声特徴量記憶手段(4) と,入力された新規
    話者の音声に対応する標準話者音声の特徴量時系列を,
    前記標準話者音声特徴量記憶手段(4) から読み出し
    ,各時刻の音響特性に対応して新規話者音声の特徴量を
    標準話者音声の特徴量に変換する複数の変換関数を,前
    記音響特性抽出手段(2) により抽出した音響特性に
    応じて生成する変換関数生成手段(3) と,音声認識
    時に前記音響特性抽出手段(2) により抽出した入力
    音声の各時刻における音響特性により,使用する変換関
    数を切り換える変換関数切り換え手段(5) と,この
    変換関数切り換え手段(5) によって選択された変換
    関数により,新規話者音声の特徴量を標準話者音声の特
    徴量に変換する音声特徴量変換手段(6) と,変換さ
    れた音声の特徴量と,前記標準話者音声特徴量記憶手段
    (4) から読み出した標準音声の特徴量との照合によ
    り音声認識を行う標準話者音声認識手段(7) とを備
    えたことを特徴とする話者適応音声認識装置。
JP2412080A 1990-12-19 1990-12-19 話者適応音声認識方法および装置 Expired - Fee Related JP2980382B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2412080A JP2980382B2 (ja) 1990-12-19 1990-12-19 話者適応音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2412080A JP2980382B2 (ja) 1990-12-19 1990-12-19 話者適応音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH04219798A true JPH04219798A (ja) 1992-08-10
JP2980382B2 JP2980382B2 (ja) 1999-11-22

Family

ID=18520966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2412080A Expired - Fee Related JP2980382B2 (ja) 1990-12-19 1990-12-19 話者適応音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP2980382B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2009151318A (ja) * 2001-01-31 2009-07-09 Qualcomm Inc 音響特性ベクトル変形を使用する分散型音声認識システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2816163B2 (ja) 1988-01-20 1998-10-27 株式会社リコー 話者照合方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08297495A (ja) * 1995-04-26 1996-11-12 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号パターン認識装置の学習方法及び学習装置
JP2009151318A (ja) * 2001-01-31 2009-07-09 Qualcomm Inc 音響特性ベクトル変形を使用する分散型音声認識システム
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2980382B2 (ja) 1999-11-22

Similar Documents

Publication Publication Date Title
Valle et al. Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens
Nishimura et al. Singing Voice Synthesis Based on Deep Neural Networks.
CN101578659B (zh) 音质转换装置及音质转换方法
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
CN110827857B (zh) 基于谱特征和elm的语音情感识别方法
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Nanavare et al. Recognition of human emotions from speech processing
WO2023221345A1 (zh) 一种情感语音的合成方法及合成装置
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
KR102508640B1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP3014177B2 (ja) 話者適応音声認識装置
Zhao et al. Research on voice cloning with a few samples
Toman et al. Data Requirements, Selection and Augmentation for DNN-based Speech Synthesis from Crowdsourced Data.
JPH04219798A (ja) 話者適応音声認識方法および装置
Cristea et al. New cepstrum frequency scale for neural network speaker verification
Syed et al. Concatenative Resynthesis with Improved Training Signals for Speech Enhancement.
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
Polur et al. Isolated speech recognition using artificial neural networks
Wenjing et al. A hybrid speech emotion perception method of VQ-based feature processing and ANN recognition
Venkateswarlu et al. Developing efficient speech recognition system for Telugu letter recognition
Alam et al. Bangla Speaker Accent Variation Classification from Audio Using Deep Neural Networks: A Distinct Approach
Jagtap et al. A survey on speech emotion recognition using MFCC and different classifier
US11735158B1 (en) Voice aging using machine learning
Zhing-Xuan et al. A kind of fuzzy-neural networks for text-independent speaker identification
Kamble et al. Automatic Speech Processing of Marathi Speaker İdentification for Isolated Words System

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990831

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees