JPH10254473A - 音声変換方法及び音声変換装置 - Google Patents

音声変換方法及び音声変換装置

Info

Publication number
JPH10254473A
JPH10254473A JP9060313A JP6031397A JPH10254473A JP H10254473 A JPH10254473 A JP H10254473A JP 9060313 A JP9060313 A JP 9060313A JP 6031397 A JP6031397 A JP 6031397A JP H10254473 A JPH10254473 A JP H10254473A
Authority
JP
Japan
Prior art keywords
spectrum information
voice
whisper
normal
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9060313A
Other languages
English (en)
Inventor
Yoshihisa Nakato
良久 中藤
Mitsuhiko Serikawa
光彦 芹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9060313A priority Critical patent/JPH10254473A/ja
Publication of JPH10254473A publication Critical patent/JPH10254473A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ささやき音声を通常音声に変換すること。 【解決手段】 ささやき音声分析手段12は、多量の学
習用データ中のささやき音声を音声分析して、ささやき
スペクトル情報を抽出する。また通常音声分析手段13
は、学習用データ中の通常音声を音声分析して通常スペ
クトル情報を抽出する。そして写像関数推定手段14は
多量のささやきスペクトル情報と通常スペクトル情報の
対から写像関数を推定して記憶する。ささやき音声が入
力されると、入力音声分析手段11は音声分析して入力
スペクトル情報を抽出する。そしてスペクトル変換手段
15は入力スペクトル情報を写像関数により変換スペク
トル情報へと変換する。音声合成手段16は変換スペク
トル情報から通常音声を合成して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ささやいて発声さ
れたささやき音声を、通常の発声の方法で発声された通
常音声へと変換する音声変換方法及び音声変換装置に関
するものである。
【0002】
【従来の技術】近年の携帯電話やPHSの普及に見られ
るように、小型携帯型の端末での通話は、人々の生活に
欠くことのできないものとなりつつある。しかし、旧来
からあるアナログ電話や携帯型の電話、とりわけ携帯電
話では、音質をさらに改善することは重要な研究課題と
いえる。
【0003】一方、通常の話し方だけでなく、例えば電
話固有のささやき音声による通話など、別の通話形態に
おいても、明瞭度や音質が向上するれば、非常に有用な
技術となると考えられる。しかし、このような観点での
検討は学会レベルでも行われておらず、特許公報や実用
新案公報等にもこのような提案はなされていない。
【0004】
【発明が解決しようとする課題】携帯電話をはじめとす
る通信端末の高度化が進み、その際の通話品質の議論が
盛んになされている。電話は多くの人にとって、その発
明から今日に至るまで欠くことのできない重要な通信手
段であり、その品質を向上させることは非常に重要な研
究課題である。この技術が確立されれば、公共の交通機
関である車内や、静粛性を要求される場所で携帯電話を
使用するに際し、非常に有用な技術となると考えられ
る。本発明は特に通常の通話形態とは別の話し方、即ち
ささやき音声(別の言い方では、ひそひそ声又は無声化
音声)を高明瞭化し、高音質化する方法と装置を実現す
るものである。
【0005】
【課題を解決するための手段】上記のような課題を解決
するため、本願の請求項1記載の発明は、ささやいて発
声されたささやき音声を、通常の発声の方法で発声され
た通常音声へと変換して出力することを特徴とするもの
である。
【0006】また本願の請求項2記載の発明は、ささや
いて発声されたささやき音声を、通常の発声の方法で発
声された通常音声へと変換して出力する音声変換装置で
あって、前記ささやき音声を音声分析することにより、
ささやきスペクトル情報を抽出する音声分析手段と、前
記ささやきスペクトル情報から、通常音声のスペクトル
情報である通常スペクトル情報へと変換するスペクトル
変換手段と、前記スペクトル変換手段で変換された通常
スペクトル情報を用いて通常音声を合成する音声合成手
段と、を具備することを特徴とするものである。
【0007】また本願の請求項3記載の発明は、ささや
いて発声されたささやき音声を、通常の発声の方法で発
声された通常音声へと変換して出力する音声変換装置で
あって、話者が発声したささやき音声と通常音声との複
数の同一内容の学習用語彙の対における前記ささやき音
声を音声分析することにより、ささやきスペクトル情報
を抽出するささやき音声分析手段と、話者が発声したさ
さやき音声と通常音声との複数の同一内容の学習用語彙
の対における前記通常音声を音声分析することにより、
通常スペクトル情報を抽出する通常音声分析手段と、前
記ささやき音声分析手段で分析された複数の前記ささや
きスペクトル情報、及び前記通常音声分析手段で分析さ
れた通常スペクトル情報の対を用いて、前記ささやきス
ペクトル情報と前記通常スペクトル情報との関係を写像
関数として推定する写像関数推定手段と、入力されたさ
さやき音声をフレーム毎に音声分析することにより、入
力スペクトル情報を抽出する入力音声分析手段と、前記
入力音声分析手段より与えられた入力スペクトル情報
を、前記写像関数推定手段の写像関数を用いて変換スペ
クトル情報へと変換するスペクトル変換手段と、前記ス
ペクトル変換手段で変換された変換スペクトル情報か
ら、通常音声を合成する音声合成手段と、を具備するこ
とを特徴とするものである。
【0008】また本願の請求項4記載の発明は、ささや
いて発声されたささやき音声を、通常の発声の方法で発
声された通常音声へと変換して出力する音声変換方法で
あって、話者が発声したささやき音声と通常音声との複
数の同一内容の学習用語彙の対における前記ささやき音
声を音声分析することにより、ささやきスペクトル情報
を抽出し、話者が発声したささやき音声と通常音声との
複数の同一内容の学習用語彙の対における前記通常音声
を音声分析することにより、通常スペクトル情報を抽出
し、前記ささやきスペクトル情報をクラスタリングし、
前記ささやきスペクトル情報と代表コードを対にしたさ
さやき符号帳を作成しておき、前記複数のささやきスペ
クトル情報と前記通常スペクトル情報の対を用いて、前
記ささやきスペクトル情報と前記通常スペクトル情報と
の関係を、ささやき符号帳中の代表コード毎に写像関数
として推定しておき、入力されたささやき音声をフレー
ム毎に音声分析することにより、入力スペクトル情報を
抽出し、前記入力スペクトル情報を前記写像関数を用い
て変換スペクトル情報へと変換し、変換後の前記変換ス
ペクトル情報から通常音声を合成することを特徴とする
ものである。
【0009】また本願の請求項5記載の発明は、前記写
像関数を用いてささやきスペクトル情報から変換スペク
トル情報へと変換する方法として、入力されたささやき
音声のささやきスペクトル情報を抽出し、前記ささやき
スペクトル情報が、ささやき符号帳中のどの代表コード
に最も近い距離にあるかを判定し、判定された代表コー
ドに対応する写像関数を用いて、前記ささやきスペクト
ル情報を変換スペクトル情報へと変換することを特徴と
するものである。
【0010】また本願の請求項6記載の発明は、前記写
像関数を用いてささやきスペクトル情報から変換スペク
トル情報へと変換する方法として、入力されたささやき
音声のささやきスペクトル情報を抽出し、前記ささやき
スペクトル情報とささやき符号帳中の各代表コードとの
距離を計算し、前記ささやきスペクトル情報を前記ささ
やき符号帳中の各代表コードに対応する写像関数を用い
て変換スペクトル情報に変換し、各代表コード毎に得ら
れた前記距離と各代表コード毎に得られた前記変換スペ
クトル情報との重みづけ加算により、最終的な変換スペ
クトル情報に変換することを特徴とするものである。
【0011】また本願の請求項7記載の発明は、前記さ
さやきスペクトル情報と前記通常スペクトル情報との関
係を、ささやき符号帳中の代表コード毎に写像関数とし
て推定する方法として、話者が発声したささやき音声と
通常音声との複数の同一内容の学習用語彙の対における
前記ささやき音声を音声分析することにより、ささやき
スペクトル情報を抽出し、話者が発声したささやき音声
と通常音声との複数の同一内容の学習用語彙の対におけ
る前記通常音声を音声分析することにより、通常スペク
トル情報を抽出し、前記ささやきスペクトル情報を、類
似したスペクトル毎にクラスタリングにより適当なグル
ープ毎に分割し、前記ささやきスペクトル情報の各グル
ープを代表的に表現するいくつかの代表コードを持つさ
さやき符号帳を作成し、前記ささやきスペクトル情報
が、前記ささやき符号帳中のどの代表コードに最も近い
距離にあるかを判定し、最も近い距離にあるささやきス
ペクトル情報をその代表コードに対するささやきスペク
トル情報とし、これを全データに渡って実施すること
で、前記代表コード毎のささやきスペクトル情報群とし
て蓄積し、前記ささやきスペクトル情報と対応づけされ
る通常スペクトル情報を、前記ささやきスペクトル情報
群により各代表コード毎に選別し、これを全データに渡
って実施することで、前記代表コード毎の通常スペクト
ル情報群として蓄積し、前記ささやきスペクトル情報群
と前記通常スペクトル情報群を用いて、各代表コード毎
の写像関数を推定することを特徴とするものである。
【0012】また本願の請求項8記載の発明は、写像関
数として線形写像を用いることを特徴とするものであ
る。
【0013】また本願の請求項9記載の発明は、写像関
数として2次写像を用いることを特徴とするものであ
る。
【0014】また本願の請求項10記載の発明は、写像
関数としてニューラルネットワークを含む非線形変換を
用いることを特徴とするものである。
【0015】また本願の請求項11記載の発明は、写像
関数としてコードブック写像を用いることを特徴とする
ものである。
【0016】また本願の請求項12記載の発明は、ささ
やいて発声されたささやき音声を、通常の発声の方法で
発声された通常音声へと変換して出力する音声変換装置
であって、話者が発声したささやき音声と通常音声との
複数の同一内容の学習用語彙の対における前記ささやき
音声を音声分析することにより、ささやきスペクトル情
報を抽出するささやき音声分析手段と、話者が発声した
ささやき音声と通常音声との複数の同一内容の学習用語
彙の対における前記通常音声を音声分析することによ
り、通常スペクトル情報を抽出する通常音声分析手段
と、前記学習用データ中のささやきスペクトル情報を類
似したスペクトル毎にクラスタリングにより適当なグル
ープ毎に分割して、前記ささやきスペクトル情報の各グ
ループを代表的に表現するものを代表コードとすると
き、前記複数の代表コードを収めたささやき符号帳を作
成する符号帳作成手段と、前記ささやきスペクトル情報
が、前記ささやき符号帳中のどの代表コードに最も近い
距離にあるかを判定するコード判定手段と、最も近い距
離にあるささやきスペクトル情報を、その代表コードに
対するささやきスペクトル情報として全データに渡って
実施することで、前記代表コード毎のささやきスペクト
ル情報群を蓄積するささやきスペクトル蓄積手段と、前
記ささやきスペクトル情報と対応づけされる前記通常ス
ペクトル情報を、前記ささやきスペクトル情報群により
各代表コード毎に選別するベクトル量子化手段と、前記
ベクトル量子化手段により全データに渡ってベクトル量
子化することで、前記代表コード毎の通常スペクトル情
報群として蓄積する通常スペクトル蓄積手段と、前記さ
さやきスペクトル情報群と前記通常スペクトル情報群を
用いて、各代表コード毎の写像関数を推定する写像関数
推定手段と、入力されたささやき音声を音声分析するこ
とにより、ささやきスペクトル情報を抽出する入力音声
分析手段と、前記ささやきスペクトル情報と前記ささや
き符号帳中の各代表コードとの距離を計算する距離計算
手段と、前記ささやきスペクトル情報を、前記ささやき
符号帳中の各代表コードに対応する前記写像関数推定手
段の写像関数を用いて変換スペクトル情報に変換するス
ペクトル変換手段と、各代表コード毎に得られた前記距
離と各代表コード毎に得られた前記変換スペクトル情報
との重みづけ加算により、最終的な変換スペクトル情報
に変換する重みづけ加算手段と、前記重みづけ加算手段
で得られた最終的な変換スペクトル情報を用いて、通常
音声を合成する音声合成手段と、を具備することを特徴
とするものである。
【0017】このような音声変換方法によれば、あらか
じめ学習用データを用いて、ささやきスペクトル情報か
ら通常スペクトル情報へと変換する写像関数を推定して
おく。そしてこの写像関数を用いて、入力されたささや
きスペクトル情報を通常スペクトル情報へと直接的に変
換する。こうすると、高性能でしかも簡単な構成により
ささやき音声を通常音声に変換することができる。
【0018】
【発明の実施の形態】以下ささやき音声を通常音声に変
換する本発明の実施の形態について説明する。 (実施の形態1)図1は本発明の実施の形態1における
音声変換装置10の全体構成を示すブロック図である。
この音声変換装置10は、入力音声分析手段11、ささ
やき音声分析手段12、通常音声分析手段13、写像関
数推定手段14、スペクトル変換手段15、音声合成手
段16を含んで構成される。
【0019】入力音声分析手段11は、ささやき音声を
入力音声として、フレーム毎に音声分析を行い、入力ス
ペクトル情報を抽出する手段である。入力音声のスペク
トル情報としては、例えばフレーム毎にLPC分析(線
形予測分析)して得られるケプストラム係数を算出して
も良い。またフレーム毎にPSE分析して得られるPS
Eケプストラム係数やフレーム毎にケプストラム分析し
て得られるケプストラム係数や、フレーム毎にウェーブ
レット変換して得られる係数などを用いてもよい。いず
れにしても、上記の係数は、音声の周波数軸上の特性を
表現している特徴量であることには変わりないので、い
ずれの係数を使用しても何等差し支えない。また、これ
らの係数をいくつかのグループに分け、それぞれを別々
の変換方法でささやき音声から通常音声へと変換しても
良い。
【0020】これらの係数を求める方法はすでに公知で
あり、パワースペクトル包絡(PSE)分析に関して
は、中島、鈴木:“パワースペクトル包絡音声分析・合
成系”、日本音響学会誌44巻11号,pp.824-832,(19
88)に記載されている。LPC分析及びケプストラム分
析に関しては、L.R.Rabiner とR.W.Schafer の共著、鈴
木久喜訳の、”音声のディジタル信号処理(上)
(下)”、コロナ社、に詳しく記載されている。また、
ウェーブレット変換に関しては、河原:“ウェーブレッ
ト解析の聴覚研究への応用”、日本音響学会誌、47
巻、6号,pp.424-429,(1991)、に詳しく記載されてい
る。
【0021】また、入力音声のスペクトル情報として
は、LPC分析により得られるスペクトル包絡情報と、
音源情報(パワー、ピッチ、残差信号、音源コード等)
を別々に求める方法があり、これらを別々の変換方法で
ささやき音声から通常音声へと変換しても良い。例え
ば、スペクトル包絡情報としては、線形予測係数、PA
RCOR係数、反射係数、LSP係数、LPCケプスト
ラム係数、LPCメルケプストラム係数等がある。線形
予測係数、PARCOR係数、反射係数、LPCケプス
トラム係数、LPCメルケプストラム係数などの特徴量
に関しては、L.R.Rabiner とR.W.Schafer の共著、鈴木
久喜訳の、”音声のディジタル信号処理(上)
(下)”、コロナ社に詳しく記載されている。またLS
P係数に関しては、F.K. Soong,B.H.Juang :"Line Sp
ectrum Pair(LSP) and Speech Data Compression",Pro
c.ICASSP,84,pp.1.10.1-1.10.4 、に記載されている。
これらは全て音声のスペクトル上の特徴を表現している
もので、いずれの係数を用いてもよいし、変換の際に使
用しても差し支えない。
【0022】一方、音源情報としては、パワー、ピッ
チ、マルチパルス列、音源符号帳等が考えられるが、こ
れらはすべて音声分析後に得られる残差を用いて表現す
ることができる情報である。ピッチやマルチパルス列に
関しては、古井:”音響・音声工学”、近代科学社に詳
しく記載されている。また音源符号帳に関しては、小
野:“音声符号化技術の最近の進展”, 日本音響学会
誌, 48巻、1号,pp.52-59,(1992)に記載されてい
る。本実施の形態の入力音声分析手段11では、入力音
声のスペクトル情報としてはケプストラム係数を用いる
ことにする。
【0023】次に図1のささやき音声分析手段12は、
同一内容の語彙について、複数の或いは一人の話者が発
声した多量のささやき音声と通常音声との対を、あらか
じめ学習用データとして用意し、図示しない学習用デー
タ記憶手段に記憶しておく。そしてささやき音声分析手
段12は、この学習用データ中のささやき音声を入力音
声分析手段11の場合と同様に音声分析することによ
り、ささやきスペクトル情報を抽出する。
【0024】一方、通常音声分析手段13は、学習用デ
ータ中の通常音声を入力音声分析手段11と同様に音声
分析することにより、通常スペクトル情報を抽出するも
のである。学習用データとしては例えば、ある標準話者
1名が様々に発声した音声を用いてもよい。また複数の
話者のデータを用いると、話者の発声の変動に強い写像
関数を作成する際に有用となる。
【0025】写像関数推定手段14は、これら多量のさ
さやきスペクトル情報と通常スペクトル情報の対を用い
て、ささやきスペクトル情報と通常スペクトル情報との
関係を写像関数として推定する手段である。本実施の形
態では、推定する写像関数として線形写像を使用するこ
とにする。なお線形写像以外に、2次変換や、ニューラ
ルネットワークなどの非線形変換、コードブック写像等
があり、これらの変換を用いても、ささやきスペクトル
情報から通常スペクトル情報へと直接的に変換している
点では変わりがない。
【0026】2次変換に関しては、F.Class 、A.Kalten
meier 、P.Regel 、and K.Trottler:"Fast speaker
adaptation for speech recognition systems",Proc. I
EEEICASSP,pp.133-136,(Apr.1990)にその詳細が記載
されている。ニューラルネットワークによる変換は、
磯、麻生、吉田、渡辺:”ニューラルネットワークによ
る話者適応”、音響学会講演論文集, 1−6−16,
(1989.3)に報告されている。さらにコードブック写像
に関しては、中村、鹿野:”ファジィベクトル量子化を
用いたスペクトログラムの正規化”、音響学会誌, 4
5、pp107−114, (1989)に記載されている。
【0027】次にスペクトル変換手段15は、写像関数
推定手段14で求めた写像関数を用いて、入力スペクト
ル情報を直接的にスペクトル情報へと変換する手段であ
る。また音声合成手段で16は、この変換スペクトル情
報から、通常音声を合成する手段である。
【0028】このように構成された音声変換装置10の
動作について説明する。まず、音声信号が入力音声分析
手段11に入力されると、一定の時間間隔を有するフレ
ームiでM次のケプストラム係数Ci (M)が抽出され
る。一定の時間間隔とは、ここでは例えばサンプリング
周波数を8KHz(帯域幅4KHz)とすると、サンプ
リングポイント160点の所要時間(20ms)であ
り、この時間単位をフレームと呼ぶ。このような音声分
析の手順を例として図2に示す。
【0029】ステップS1で音声データが入力される
と、ステップS2で所定のハミング窓でフィルタリング
する。ここでは分析フレーム周期を10msecとし、分析窓
幅を20msecとする。そしてステップS3では、サンプリ
ングした音声データの自己相関係数を算出する。このと
きの分析次数を12次とする。
【0030】次にステップS4でプリエンファシスを行
い(プリエンファシス係数0.9 )、ステップS5で自己
相関係数をパワーで正規化する。そしてステップS6で
は、12個の線形予測係数を算出し、ステップS7で1
5個のケプストラム係数を算出する。こうして音声のス
ペクトル包絡情報とスペクトル微細構造情報を得る。
【0031】ささやき音声分析手段12では、同一内容
の語彙について複数の或いは一人の話者が発声した多量
のささやき音声と通常音声の対を、予め学習用データと
して用意しておく。そしてこの学習用データ中のささや
き音声を、入力音声分析手段11と同様に音声分析する
ことにより、ささやきスペクトル情報を抽出する。ま
た、通常音声分析手段13では、学習用データ中の通常
音声を、入力音声分析手段11と同様に音声分析するこ
とにより通常スペクトル情報を抽出する。
【0032】このようにして求めたささやきスペクトル
情報と通常スペクトル情報は、別々に発生した音声であ
るため、時間軸方向に対応付けがなされていない。そこ
で、ささやきスペクトル情報と通常スペクトル情報との
時間軸方向の対応付けを行うために、ここではDPマッ
チング(動的計画法)により最適な対応付けをとる。D
Pマッチングは、主に音声認識分野で良く行われる方法
であり、既知の技術である。この結果、フレーム毎に時
間方向に対応づけられたささやきスペクトル情報と通常
スペクトル情報とを求めることができ、以降はこの対応
付けされたスペクトル情報を用いる。
【0033】次に写像関数推定手段14では、ささやき
スペクトル情報と通常スペクトル情報との関係を写像関
数として推定する。本実施の形態では、写像関数として
線形写像を用い、ささやきスペクトル情報から通常スペ
クトル情報へとスペクトル変換を行う。具体的には、さ
さやきスペクトル情報xi の変換後の変換スペクトル情
報をzi とすると、変換スペクトル情報zi と目標とな
る通常スペクトル情報yi との間の差の二乗誤差を最小
化することで写像関数{A}を推定する。すなわち全学
習データの全フレームにおいて、(1)式で与えられる
目的関数J({A})を最小化することで求められる。
【数1】
【0034】ただし、(1)式の{A}は、M×M次元
のマトリックスであり、xi 、yi、zi はM次元のベ
クトルである。
【0035】次にスペクトル変換手段15は、iフレー
ム目のささやきスペクトル情報xiを入力音声分析手段
11により抽出し、写像関数{A}を用いて変換スペク
トル情報zi に変換する。具体的には(2)式により変
換を行う。
【数2】
【0036】最後に音声合成手段16は、LPC合成に
より変換スペクトル情報から通常音声を音声合成する。
以上のように本実施の形態によれば、ささやき音声を通
常音声へと正確に変換して出力することができる。
【0037】(実施の形態2)次に、本発明の実施の形
態2における音声変換装置について図3を参照しつつ説
明する。図3は本実施の形態における音声変換装置20
の全体構成を示すブロック図である。この音声変換装置
20は、入力音声分析手段21、ささやき音声分析手段
22、通常音声分析手段23、符号帳作成手段24、さ
さやきスペクトル蓄積手段25、通常スペクトル蓄積手
段26、写像関数推定手段27、距離計算手段28、ス
ペクトル変換手段29、音声合成手段30を含んで構成
される。
【0038】この音声変換装置20は、実施の形態1の
ものより更に高性能な音声変換装置である。この音声変
換装置20が音声変換装置10と大きく異なる部分は、
入力音声を音声分析して求めた入力スペクトル情報を、
いくつかの部分空間に選別し、それぞれ区分化した複数
の部分空間毎に、直接的に写像を行うことである。この
ことにより精密なスペクトル変換が実現できる。
【0039】ここでも写像関数としては、線形写像、2
次変換、又はニューラルネットワークなどの非線形変
換、更にはコードブック写像等のいずれを用いても差し
支えない。コードブック写像では、クラスタリング処理
によりいくつかのコードに離散化された符号帳を用い
て、ささやきコードから通常コードへと写像する方法が
ある。このコードの頻度とスペクトルとの重ね合わせを
用いることで、より正確なスペクトル変換が可能とな
る。なお、本実施の形態では、写像関数として線形写像
を用いることにする。
【0040】図3において入力音声分析手段21は、入
力音声をフレーム毎に例えばPSE分析等をして、これ
で得られる入力スペクトル情報を抽出する手段である。
ささやき音声分析手段22及び通常音声分析手段23
は、同一内容の語彙について、複数の或いは一人の話者
が発声した多量のささやき音声と通常音声の対を、予め
学習用データとして用意し、図示しない学習用データ記
憶手段に記憶する。音声分析手段22,23は、これら
を夫々音声分析する部分であり、その内容は図1に示す
ものと同様である。
【0041】符号帳作成手段24は、ささやき音声分析
手段22で得られたささやきスペクトル情報を、類似し
たスペクトルのグループにクラスタリングし、この結果
から各グループを代表的に表現するいくつかの代表コー
ドを検索するためのささやき符号帳を作成する手段であ
る。この代表コードにより、スペクトル情報をコード数
個の部分空間に区分化する(コード判定手段)。クラス
タリング方法としては、代表的なものとしてベクトル量
子化法(ベクトル量子化手段)があり、多量のデータ
(母集団)の特徴を少ないデータで効率的に表現するこ
とが可能となる。
【0042】以下、本実施の形態では、クラスタリング
のアルゴリズムとしてベクトル量子化法を用いることと
する。また符号帳を作成する方法としては、Linde
らのLBGアルゴリズム(Y .Linde, A.buzo and R.M.G
ray :"An algorithm for vector quantizer design",IE
EE Trans.Commun.,COM-28,1,pp.84-95(Jan.1980))が代
表的な手法としてある。
【0043】また別のクラスタリング方法としては、音
声をいくつかの音韻毎にグループ分けして、各音韻毎の
スペクトル情報の平均値と標準偏差を求めておき、各音
韻に対応する写像関数によりスペクトル変換することも
可能である。このときグループ分けの際に用いる距離尺
度としては、音韻毎の平均値と標準偏差を用いた統計的
距離、例えばマハラノビス距離や対数尤度などが有効で
ある。
【0044】また、ユークリッド距離や、WLR距離、
WGD距離、RPS距離等を用いても良い。そして変換
の際には、音韻毎の写像関数により変換を行うことで、
各音韻のスペクトル特徴に基づいた変換が可能となる。
このように、音声データ中の話者の特徴空間(スペクト
ル空間)を効率的にクラスタリングする方法であれば、
いかなる手法を用いても差し支えない。
【0045】次にささやきスペクトル蓄積手段25は、
ささやき音声分析手段22で得られたささやきスペクト
ル情報が、ささやき符号帳中のどの代表コードに最も近
い距離にあるかを判定する。そしてささやきスペクトル
蓄積手段25は、最も近い距離にあるささやきスペクト
ル情報を、その代表コードに対するささやきスペクトル
情報とし、これを全学習用データに渡って調べること
で、ささやきスペクトル情報群を作成して蓄積する。実
際にベクトル量子化によりささやきスペクトル情報群を
作成する際には、まずjフレーム目のささやきスペクト
ル情報xj に対するk番目のコードVk (コード数L)
に対する量子化歪Djkを、(3)式を用いて計算する。
【数3】 ただし、xj 、Vk はM次元のベクトル(M次元の特徴
量)である。また量子化歪(距離)を計算する方法とし
ては、前述したクラスタリングで用いた他の距離尺度を
用いてもよい。
【0046】そして、この歪が最も小さいコードがjフ
レーム目のささやきスペクトル情報に対するコードにな
る。このささやきスペクトル情報とコードとの対応関係
を全ての学習データについて調べ、各コード毎のささや
きスペクトル情報群を作成する。さらに通常スペクトル
蓄積手段26は、すでに明らかなささやきスペクトル情
報と通常スペクトル情報との時間対応関係から、この通
常スペクトル情報とコードとの対応関係を全ての学習デ
ータについて調べ、各コード毎の通常スペクトル情報群
を作成する手段である。ささやきスペクトル情報と通常
スペクトル情報との時間対応づけは、DPマッチングや
ビタビアルゴリズムにより可能である。
【0047】写像関数推定手段27は、このささやきス
ペクトル情報群と通常スペクトル情報群とを用いて写像
関数を推定する手段である。図4に、写像関数として線
形写像を用いた場合の写像関数の推定方法を示す。以
下、その具体的な手順を部分的にステップT1〜ステッ
プT5に示す。
【0048】ステップT1 学習用音声データから得られた通常音声とささやき音声
から、それぞれのスペクトル情報を音声分析手段により
抽出する。
【0049】ステップT2 LBGアルゴリズムにより、ステップT1で求めたささ
やきスペクトル情報から、ささやき符号帳を作成する。
ここでは距離尺度としてユークリッド距離を用いるが、
絶対値距離や他の歪尺度など種々考えられる。入力音声
の特徴量が、ささやき符号帳中のどのコードに対応する
かを決定する意味では、どのような距離尺度を用いても
差し支えない。
【0050】ステップT3 ささやきスペクトル情報をささやき符号帳によりベクト
ル量子化(VQ)して対応するコードを検索する。この
ベクトル量子化の際には、距離尺度としてユークリッド
距離や他の様々な歪尺度を用いてもよい。そして、各コ
ード(各部分空間の代表点)に対応するささやきスペク
トル情報を蓄積し、部分空間毎のささやきスペクトル情
報群(クラスタ)を作成する。
【0051】ステップT4 DPマッチングにより、ささやきスペクトル情報と通常
スペクトル情報の時間対応をとることにより、各コード
に対応する通常スペクトル情報を蓄積し、通常スペクト
ル情報群を求める。
【0052】ステップT5 各クラスタ毎(部分空間毎)の通常スペクトル情報とさ
さやきスペクトル情報との組を教師データとして、写像
関数を推定する。
【0053】具体的には、例えばk番目のコードに対応
する写像関数{Ak }は、入力音声のスペクトル情報の
変換後のスペクトル情報、すなわち変換スペクトル情報
iと目標となる通常スペクトル情報yi との間の差の
二乗誤差を最小化することにより推定される。そして全
学習データの全フレームに関する目的関数J
({Ak})を(4)式を用いて求める。
【数4】 ただし、{Ak }はM×M次元のマトリックスであり、
i とzi はM次元のベクトルである。
【0054】この(4)式を解くと、写像関数{Ak
は(5)式のように与えられる。
【数5】 ただし、Rのs行t列の小行列をRstとすると、Rst
m はそれぞれ(6)式、(7)式で与えられる。
【数6】
【数7】
【0055】次に距離計算手段28は、入力音声から入
力音声声分析手段21により得られた入力スペクトル情
報と、ささやき符号帳中の各代表コードとの距離を計算
する手段である。具体的な処理は、ささやきスペクトル
蓄積手段25の中で行っている距離計算手続きと同様で
ある。そしてスペクトル変換手段29は、距離計算手段
28で得られた各コード毎の距離と、そのコードに対応
する写像関数を用いて、入力音声のスペクトル情報を通
常スペクトル情報へと変換する手段である。
【0056】具体的には、ささやきスペクトル情報xi
を通常スペクトル情報zi へと変換する方法としては、
スペクトル空間をM個の部分空間{Ωk }(例えばささ
やき符号帳で分割された空間)に分割し、各部分空間毎
にあらかじめ推定しておいた写像行列Ak により線形写
像を行い、更にそれらを(9)式のような重み係数wik
で補間した(8)式によりスペクトル変換を行う(重み
づけ加算手段)。
【数8】
【数9】
【0057】ここで部分空間{Ωk }はささやき符号帳
の代表点{Vk }との最小距離で分類され、またpは内
挿の平滑度を制御するパラメータである。また、上記の
説明でスペクトル空間をM個の代表点でファジィ区分化
したと考えれば、内挿パラメータpはファジネスFと
(10)式の関係がある。
【数10】
【0058】このように、各部分空間毎の線形写像で変
換した変換スペクトル情報を、重み係数で補間すなわち
内挿することで、より精密なスペクトル変換が行える。
ここで、重み係数で補間せずに、入力音声のスペクトル
情報を、最も近い部分空間の写像関数で変換してもよ
い。さらに部分空間数が1の場合には、実施の形態1の
場合と同じになる。
【0059】音声合成手段30は、この変換スペクトル
情報を用いて通常音声を合成する手段である。合成法と
しては、LPC合成、PSE合成、FFT合成等の音声
分析の手法に適した方法を用いれば良い。このように、
ささやきスペクトル情報から元の通常スペクトル情報を
推定することを考えるとき、音韻や個人差などに相当す
る個々のスペクトルの持つ特徴を踏まえて、いくつかの
グループ毎にスペクトル変換を施せば、誤差の少ない正
確な変換が可能になると考えられる。
【0060】ここで以下に、本方式におけるささやきス
ペクトル情報から通常スペクトル情報へと変換する手順
を示す。 1.入力されたささやき音声を音声分析し、入力スペク
トル情報を抽出する。 2.入力スペクトル情報を、あらかじめ求めておいたさ
さやき符号帳によりベクトル量子化し、各部分空間(対
応コード)毎の距離を計算する。 3.学習用音声を用いてあらかじめ作成しておいた写像
関数を用いて、ステップ2で得られた各部分空間(対応
コード)毎の距離と対応する写像関数により、変換スペ
クトル情報に変換し、これを重み付け加算して最終的な
変換スペクトル情報を求める。 4.通常スペクトル情報から音声合成により通常音声を
得る。
【0061】以下に、実際に本実施の形態の音声変換方
法によりコンピュータシミュレーション実験した結果を
図5〜図7に示す。写像関数としては線形写像を用いて
実験している。音声データは、男性3名が発声した21
6単語(語彙はATR音素連鎖バランス単語に準拠)の
単語音声であり、同一話者内の17〜216番目の20
0単語を写像関数の推定に用い、それ以外の1〜16番
目の16語を評価に用いた。収録条件としては、防音室
で音声をコンデンサーマイクロフォンで収録後、サンプ
リング周波数16kHzで16bitに量子化する。
【0062】図5に音声分析の条件を示す。ここでは、
スペクトル情報としては線形予測分析により得られる1
5次のLPCケプストラム係数を用いた。この係数はス
ペクトルの包絡情報を表現している。評価方法として
は、変換後のスペクトルの時間系列と、目標となる通常
音声のスペクトルの時間系列との平均スペクトル歪み
(ケプストラム距離)で変換精度の評価を行った。
【0063】最初に、補間なしの場合(補間パラメータ
p=∞)の部分空間数Mとスペクトル歪み[dB]との
関係を図6に示す。この結果、部分空間数Mが16程度
のとき、スペクトル歪みは極小(3. 76dB)とな
る。変換しない場合(6. 75dB)と比較して、大き
く歪みは減少していることが分かる。
【0064】次に、部分空間数Mを16としたときの補
間パラメータpの効果を図7に示す。その結果、補間パ
ラメータpが0. 5のとき歪みは極小(3. 69dB)
となり、補間した方が歪みが小さくなっていることが分
かる。以上のように本実施の形態により、ささやき音声
を通常音声へと正確に変換し出力することができる。
【0065】
【発明の効果】以上のような発明によれば、比較的簡単
な構成で、ささやき音声を通常音声へと正確に変換し出
力することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における音声変換装置の
全体構成を示すブロック図である。
【図2】本実施の形態における音声分析方法を示すフロ
ーチャートである。
【図3】本発明の実施の形態2における音声変換装置の
全体構成を示すブロック図である。
【図4】実施の形態2における写像関数の推定方法を示
すフローチャートである。
【図5】実施の形態2における音声の分析条件の説明図
である。
【図6】実施の形態2における部分空間数とスペクトル
歪みとの関係を示す説明図である。
【図7】実施の形態2における補間パラメータとスペク
トル歪みとの関係を示す説明図である。
【符号の説明】
10,20 音声変換装置 11,21 入力音声分析手段 12,22 ささやき音声分析手段 13,23 通常音声分析手段 14,27 写像関数推定手段 15,29 スペクトル変換手段 16,30 音声合成手段 24 符号帳作成手段 25 ささやきスペクトル蓄積手段 26 通常スペクトル蓄積手段 28 距離計算手段

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 ささやいて発声されたささやき音声を、
    通常の発声の方法で発声された通常音声へと変換して出
    力することを特徴とする音声変換方法。
  2. 【請求項2】 ささやいて発声されたささやき音声を、
    通常の発声の方法で発声された通常音声へと変換して出
    力する音声変換装置であって、 前記ささやき音声を音声分析することにより、ささやき
    スペクトル情報を抽出する音声分析手段と、 前記ささやきスペクトル情報から、通常音声のスペクト
    ル情報である通常スペクトル情報へと変換するスペクト
    ル変換手段と、 前記スペクトル変換手段で変換された通常スペクトル情
    報を用いて通常音声を合成する音声合成手段と、を具備
    することを特徴とする音声変換装置。
  3. 【請求項3】 ささやいて発声されたささやき音声を、
    通常の発声の方法で発声された通常音声へと変換して出
    力する音声変換装置であって、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記ささやき音声を音声
    分析することにより、ささやきスペクトル情報を抽出す
    るささやき音声分析手段と、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記通常音声を音声分析
    することにより、通常スペクトル情報を抽出する通常音
    声分析手段と、 前記ささやき音声分析手段で分析された複数の前記ささ
    やきスペクトル情報、及び前記通常音声分析手段で分析
    された通常スペクトル情報の対を用いて、前記ささやき
    スペクトル情報と前記通常スペクトル情報との関係を写
    像関数として推定する写像関数推定手段と、 入力されたささやき音声をフレーム毎に音声分析するこ
    とにより、入力スペクトル情報を抽出する入力音声分析
    手段と、 前記入力音声分析手段より与えられた入力スペクトル情
    報を、前記写像関数推定手段の写像関数を用いて変換ス
    ペクトル情報へと変換するスペクトル変換手段と、 前記スペクトル変換手段で変換された変換スペクトル情
    報から、通常音声を合成する音声合成手段と、を具備す
    ることを特徴とする音声変換装置。
  4. 【請求項4】 ささやいて発声されたささやき音声を、
    通常の発声の方法で発声された通常音声へと変換して出
    力する音声変換方法であって、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記ささやき音声を音声
    分析することにより、ささやきスペクトル情報を抽出
    し、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記通常音声を音声分析
    することにより、通常スペクトル情報を抽出し、 前記ささやきスペクトル情報をクラスタリングし、前記
    ささやきスペクトル情報と代表コードを対にしたささや
    き符号帳を作成しておき、 前記複数のささやきスペクトル情報と前記通常スペクト
    ル情報の対を用いて、前記ささやきスペクトル情報と前
    記通常スペクトル情報との関係を、ささやき符号帳中の
    代表コード毎に写像関数として推定しておき、 入力されたささやき音声をフレーム毎に音声分析するこ
    とにより、入力スペクトル情報を抽出し、 前記入力スペクトル情報を前記写像関数を用いて変換ス
    ペクトル情報へと変換し、 変換後の前記変換スペクトル情報から通常音声を合成す
    ることを特徴とする音声変換方法。
  5. 【請求項5】 前記写像関数を用いてささやきスペクト
    ル情報から変換スペクトル情報へと変換する方法とし
    て、 入力されたささやき音声のささやきスペクトル情報を抽
    出し、 前記ささやきスペクトル情報が、ささやき符号帳中のど
    の代表コードに最も近い距離にあるかを判定し、 判定された代表コードに対応する写像関数を用いて、前
    記ささやきスペクトル情報を変換スペクトル情報へと変
    換することを特徴とする請求項4記載の音声変換方法。
  6. 【請求項6】 前記写像関数を用いてささやきスペクト
    ル情報から変換スペクトル情報へと変換する方法とし
    て、 入力されたささやき音声のささやきスペクトル情報を抽
    出し、 前記ささやきスペクトル情報とささやき符号帳中の各代
    表コードとの距離を計算し、 前記ささやきスペクトル情報を前記ささやき符号帳中の
    各代表コードに対応する写像関数を用いて変換スペクト
    ル情報に変換し、 各代表コード毎に得られた前記距離と各代表コード毎に
    得られた前記変換スペクトル情報との重みづけ加算によ
    り、最終的な変換スペクトル情報に変換することを特徴
    とする請求項4記載の音声変換方法。
  7. 【請求項7】 前記ささやきスペクトル情報と前記通常
    スペクトル情報との関係を、ささやき符号帳中の代表コ
    ード毎に写像関数として推定する方法として、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記ささやき音声を音声
    分析することにより、ささやきスペクトル情報を抽出
    し、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記通常音声を音声分析
    することにより、通常スペクトル情報を抽出し、 前記ささやきスペクトル情報を、類似したスペクトル毎
    にクラスタリングにより適当なグループ毎に分割し、 前記ささやきスペクトル情報の各グループを代表的に表
    現するいくつかの代表コードを持つささやき符号帳を作
    成し、 前記ささやきスペクトル情報が、前記ささやき符号帳中
    のどの代表コードに最も近い距離にあるかを判定し、 最も近い距離にあるささやきスペクトル情報をその代表
    コードに対するささやきスペクトル情報とし、これを全
    データに渡って実施することで、前記代表コード毎のさ
    さやきスペクトル情報群として蓄積し、 前記ささやきスペクトル情報と対応づけされる通常スペ
    クトル情報を、前記ささやきスペクトル情報群により各
    代表コード毎に選別し、これを全データに渡って実施す
    ることで、前記代表コード毎の通常スペクトル情報群と
    して蓄積し、 前記ささやきスペクトル情報群と前記通常スペクトル情
    報群を用いて、各代表コード毎の写像関数を推定するこ
    とを特徴とする請求項4記載の音声変換方法。
  8. 【請求項8】 写像関数として線形写像を用いることを
    特徴とする請求項4〜7のいずれか1項記載の音声変換
    方法。
  9. 【請求項9】 写像関数として2次写像を用いることを
    特徴とする請求項4〜7のいずれか1項記載の音声変換
    方法。
  10. 【請求項10】 写像関数としてニューラルネットワー
    クを含む非線形変換を用いることを特徴とする請求項4
    〜7のいずれか1項記載の音声変換方法。
  11. 【請求項11】 写像関数としてコードブック写像を用
    いることを特徴とする請求項4〜7のいずれか1項記載
    の音声変換方法。
  12. 【請求項12】 ささやいて発声されたささやき音声
    を、通常の発声の方法で発声された通常音声へと変換し
    て出力する音声変換装置であって、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記ささやき音声を音声
    分析することにより、ささやきスペクトル情報を抽出す
    るささやき音声分析手段と、 話者が発声したささやき音声と通常音声との複数の同一
    内容の学習用語彙の対における前記通常音声を音声分析
    することにより、通常スペクトル情報を抽出する通常音
    声分析手段と、 前記学習用データ中のささやきスペクトル情報を類似し
    たスペクトル毎にクラスタリングにより適当なグループ
    毎に分割して、前記ささやきスペクトル情報の各グルー
    プを代表的に表現するものを代表コードとするとき、前
    記複数の代表コードを収めたささやき符号帳を作成する
    符号帳作成手段と、 前記ささやきスペクトル情報が、前記ささやき符号帳中
    のどの代表コードに最も近い距離にあるかを判定するコ
    ード判定手段と、 最も近い距離にあるささやきスペクトル情報を、その代
    表コードに対するささやきスペクトル情報として全デー
    タに渡って実施することで、前記代表コード毎のささや
    きスペクトル情報群を蓄積するささやきスペクトル蓄積
    手段と、 前記ささやきスペクトル情報と対応づけされる前記通常
    スペクトル情報を、前記ささやきスペクトル情報群によ
    り各代表コード毎に選別するベクトル量子化手段と、 前記ベクトル量子化手段により全データに渡ってベクト
    ル量子化することで、前記代表コード毎の通常スペクト
    ル情報群として蓄積する通常スペクトル蓄積手段と、 前記ささやきスペクトル情報群と前記通常スペクトル情
    報群を用いて、各代表コード毎の写像関数を推定する写
    像関数推定手段と、 入力されたささやき音声を音声分析することにより、さ
    さやきスペクトル情報を抽出する入力音声分析手段と、 前記ささやきスペクトル情報と前記ささやき符号帳中の
    各代表コードとの距離を計算する距離計算手段と、 前記ささやきスペクトル情報を、前記ささやき符号帳中
    の各代表コードに対応する前記写像関数推定手段の写像
    関数を用いて変換スペクトル情報に変換するスペクトル
    変換手段と、 各代表コード毎に得られた前記距離と各代表コード毎に
    得られた前記変換スペクトル情報との重みづけ加算によ
    り、最終的な変換スペクトル情報に変換する重みづけ加
    算手段と、 前記重みづけ加算手段で得られた最終的な変換スペクト
    ル情報を用いて、通常音声を合成する音声合成手段と、
    を具備することを特徴とする音声変換装置。
JP9060313A 1997-03-14 1997-03-14 音声変換方法及び音声変換装置 Pending JPH10254473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9060313A JPH10254473A (ja) 1997-03-14 1997-03-14 音声変換方法及び音声変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9060313A JPH10254473A (ja) 1997-03-14 1997-03-14 音声変換方法及び音声変換装置

Publications (1)

Publication Number Publication Date
JPH10254473A true JPH10254473A (ja) 1998-09-25

Family

ID=13138568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9060313A Pending JPH10254473A (ja) 1997-03-14 1997-03-14 音声変換方法及び音声変換装置

Country Status (1)

Country Link
JP (1) JPH10254473A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529226B2 (en) 1998-05-14 2003-03-04 Matsushita Electric Industrial Co., Ltd. Thermal printer and driving device for the same
US6842731B2 (en) 2001-05-18 2005-01-11 Kabushiki Kaisha Toshiba Prediction parameter analysis apparatus and a prediction parameter analysis method
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JP2008116534A (ja) * 2006-11-01 2008-05-22 Yamaha Corp 音声通信装置
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
US8209167B2 (en) 2007-09-21 2012-06-26 Kabushiki Kaisha Toshiba Mobile radio terminal, speech conversion method and program for the same
US10535335B2 (en) 2015-09-14 2020-01-14 Kabushiki Kaisha Toshiba Voice synthesizing device, voice synthesizing method, and computer program product

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529226B2 (en) 1998-05-14 2003-03-04 Matsushita Electric Industrial Co., Ltd. Thermal printer and driving device for the same
US6842731B2 (en) 2001-05-18 2005-01-11 Kabushiki Kaisha Toshiba Prediction parameter analysis apparatus and a prediction parameter analysis method
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JPWO2008015800A1 (ja) * 2006-08-02 2009-12-17 国立大学法人 奈良先端科学技術大学院大学 音声処理方法、音声処理プログラム、音声処理装置
US8155966B2 (en) 2006-08-02 2012-04-10 National University Corporation NARA Institute of Science and Technology Apparatus and method for producing an audible speech signal from a non-audible speech signal
JP2008116534A (ja) * 2006-11-01 2008-05-22 Yamaha Corp 音声通信装置
JP2008203543A (ja) * 2007-02-20 2008-09-04 Toshiba Corp 声質変換装置及び音声合成装置
US8209167B2 (en) 2007-09-21 2012-06-26 Kabushiki Kaisha Toshiba Mobile radio terminal, speech conversion method and program for the same
US10535335B2 (en) 2015-09-14 2020-01-14 Kabushiki Kaisha Toshiba Voice synthesizing device, voice synthesizing method, and computer program product

Similar Documents

Publication Publication Date Title
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JP2733955B2 (ja) 適応型音声認識装置
US6219642B1 (en) Quantization using frequency and mean compensated frequency input data for robust speech recognition
EP0718820B1 (en) Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US6347297B1 (en) Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
JP4109063B2 (ja) 音声認識装置及び音声認識方法
JP3189598B2 (ja) 信号合成方法および信号合成装置
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
EP1886303A1 (en) Method of adapting a neural network of an automatic speech recognition device
CN1162365A (zh) 语音识别
JP3001037B2 (ja) 音声認識装置
JPH075892A (ja) 音声認識方法
KR20010102549A (ko) 화자 인식 방법 및 장치
US5943647A (en) Speech recognition based on HMMs
Badhon et al. State of art research in bengali speech recognition
Devi et al. A novel approach for speech feature extraction by cubic-log compression in MFCC
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH08248994A (ja) 声質変換音声合成装置
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Jiang et al. A robust compensation strategy for extraneous acoustic variations in spontaneous speech recognition
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
JPH05232989A (ja) 音響モデルの話者適応化法
JPH10149190A (ja) 音声認識方法及び音声認識装置
JP3003353B2 (ja) タスク適応標準パターン学習装置
KR100701253B1 (ko) 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050907

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060718