JPH10254473A

JPH10254473A - 音声変換方法及び音声変換装置

Info

Publication number: JPH10254473A
Application number: JP9060313A
Authority: JP
Inventors: Yoshihisa Nakato; 良久中藤; Mitsuhiko Serikawa; 光彦芹川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-03-14
Filing date: 1997-03-14
Publication date: 1998-09-25

Abstract

(57)【要約】【課題】ささやき音声を通常音声に変換すること。【解決手段】ささやき音声分析手段１２は、多量の学
習用データ中のささやき音声を音声分析して、ささやき
スペクトル情報を抽出する。また通常音声分析手段１３
は、学習用データ中の通常音声を音声分析して通常スペ
クトル情報を抽出する。そして写像関数推定手段１４は
多量のささやきスペクトル情報と通常スペクトル情報の
対から写像関数を推定して記憶する。ささやき音声が入
力されると、入力音声分析手段１１は音声分析して入力
スペクトル情報を抽出する。そしてスペクトル変換手段
１５は入力スペクトル情報を写像関数により変換スペク
トル情報へと変換する。音声合成手段１６は変換スペク
トル情報から通常音声を合成して出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ささやいて発声さ
れたささやき音声を、通常の発声の方法で発声された通
常音声へと変換する音声変換方法及び音声変換装置に関
するものである。

【０００２】

【従来の技術】近年の携帯電話やＰＨＳの普及に見られ
るように、小型携帯型の端末での通話は、人々の生活に
欠くことのできないものとなりつつある。しかし、旧来
からあるアナログ電話や携帯型の電話、とりわけ携帯電
話では、音質をさらに改善することは重要な研究課題と
いえる。

【０００３】一方、通常の話し方だけでなく、例えば電
話固有のささやき音声による通話など、別の通話形態に
おいても、明瞭度や音質が向上するれば、非常に有用な
技術となると考えられる。しかし、このような観点での
検討は学会レベルでも行われておらず、特許公報や実用
新案公報等にもこのような提案はなされていない。

【０００４】

【発明が解決しようとする課題】携帯電話をはじめとす
る通信端末の高度化が進み、その際の通話品質の議論が
盛んになされている。電話は多くの人にとって、その発
明から今日に至るまで欠くことのできない重要な通信手
段であり、その品質を向上させることは非常に重要な研
究課題である。この技術が確立されれば、公共の交通機
関である車内や、静粛性を要求される場所で携帯電話を
使用するに際し、非常に有用な技術となると考えられ
る。本発明は特に通常の通話形態とは別の話し方、即ち
ささやき音声（別の言い方では、ひそひそ声又は無声化
音声）を高明瞭化し、高音質化する方法と装置を実現す
るものである。

【０００５】

【課題を解決するための手段】上記のような課題を解決
するため、本願の請求項１記載の発明は、ささやいて発
声されたささやき音声を、通常の発声の方法で発声され
た通常音声へと変換して出力することを特徴とするもの
である。

【０００６】また本願の請求項２記載の発明は、ささや
いて発声されたささやき音声を、通常の発声の方法で発
声された通常音声へと変換して出力する音声変換装置で
あって、前記ささやき音声を音声分析することにより、
ささやきスペクトル情報を抽出する音声分析手段と、前
記ささやきスペクトル情報から、通常音声のスペクトル
情報である通常スペクトル情報へと変換するスペクトル
変換手段と、前記スペクトル変換手段で変換された通常
スペクトル情報を用いて通常音声を合成する音声合成手
段と、を具備することを特徴とするものである。

【０００７】また本願の請求項３記載の発明は、ささや
いて発声されたささやき音声を、通常の発声の方法で発
声された通常音声へと変換して出力する音声変換装置で
あって、話者が発声したささやき音声と通常音声との複
数の同一内容の学習用語彙の対における前記ささやき音
声を音声分析することにより、ささやきスペクトル情報
を抽出するささやき音声分析手段と、話者が発声したさ
さやき音声と通常音声との複数の同一内容の学習用語彙
の対における前記通常音声を音声分析することにより、
通常スペクトル情報を抽出する通常音声分析手段と、前
記ささやき音声分析手段で分析された複数の前記ささや
きスペクトル情報、及び前記通常音声分析手段で分析さ
れた通常スペクトル情報の対を用いて、前記ささやきス
ペクトル情報と前記通常スペクトル情報との関係を写像
関数として推定する写像関数推定手段と、入力されたさ
さやき音声をフレーム毎に音声分析することにより、入
力スペクトル情報を抽出する入力音声分析手段と、前記
入力音声分析手段より与えられた入力スペクトル情報
を、前記写像関数推定手段の写像関数を用いて変換スペ
クトル情報へと変換するスペクトル変換手段と、前記ス
ペクトル変換手段で変換された変換スペクトル情報か
ら、通常音声を合成する音声合成手段と、を具備するこ
とを特徴とするものである。

【０００８】また本願の請求項４記載の発明は、ささや
いて発声されたささやき音声を、通常の発声の方法で発
声された通常音声へと変換して出力する音声変換方法で
あって、話者が発声したささやき音声と通常音声との複
数の同一内容の学習用語彙の対における前記ささやき音
声を音声分析することにより、ささやきスペクトル情報
を抽出し、話者が発声したささやき音声と通常音声との
複数の同一内容の学習用語彙の対における前記通常音声
を音声分析することにより、通常スペクトル情報を抽出
し、前記ささやきスペクトル情報をクラスタリングし、
前記ささやきスペクトル情報と代表コードを対にしたさ
さやき符号帳を作成しておき、前記複数のささやきスペ
クトル情報と前記通常スペクトル情報の対を用いて、前
記ささやきスペクトル情報と前記通常スペクトル情報と
の関係を、ささやき符号帳中の代表コード毎に写像関数
として推定しておき、入力されたささやき音声をフレー
ム毎に音声分析することにより、入力スペクトル情報を
抽出し、前記入力スペクトル情報を前記写像関数を用い
て変換スペクトル情報へと変換し、変換後の前記変換ス
ペクトル情報から通常音声を合成することを特徴とする
ものである。

【０００９】また本願の請求項５記載の発明は、前記写
像関数を用いてささやきスペクトル情報から変換スペク
トル情報へと変換する方法として、入力されたささやき
音声のささやきスペクトル情報を抽出し、前記ささやき
スペクトル情報が、ささやき符号帳中のどの代表コード
に最も近い距離にあるかを判定し、判定された代表コー
ドに対応する写像関数を用いて、前記ささやきスペクト
ル情報を変換スペクトル情報へと変換することを特徴と
するものである。

【００１０】また本願の請求項６記載の発明は、前記写
像関数を用いてささやきスペクトル情報から変換スペク
トル情報へと変換する方法として、入力されたささやき
音声のささやきスペクトル情報を抽出し、前記ささやき
スペクトル情報とささやき符号帳中の各代表コードとの
距離を計算し、前記ささやきスペクトル情報を前記ささ
やき符号帳中の各代表コードに対応する写像関数を用い
て変換スペクトル情報に変換し、各代表コード毎に得ら
れた前記距離と各代表コード毎に得られた前記変換スペ
クトル情報との重みづけ加算により、最終的な変換スペ
クトル情報に変換することを特徴とするものである。

【００１１】また本願の請求項７記載の発明は、前記さ
さやきスペクトル情報と前記通常スペクトル情報との関
係を、ささやき符号帳中の代表コード毎に写像関数とし
て推定する方法として、話者が発声したささやき音声と
通常音声との複数の同一内容の学習用語彙の対における
前記ささやき音声を音声分析することにより、ささやき
スペクトル情報を抽出し、話者が発声したささやき音声
と通常音声との複数の同一内容の学習用語彙の対におけ
る前記通常音声を音声分析することにより、通常スペク
トル情報を抽出し、前記ささやきスペクトル情報を、類
似したスペクトル毎にクラスタリングにより適当なグル
ープ毎に分割し、前記ささやきスペクトル情報の各グル
ープを代表的に表現するいくつかの代表コードを持つさ
さやき符号帳を作成し、前記ささやきスペクトル情報
が、前記ささやき符号帳中のどの代表コードに最も近い
距離にあるかを判定し、最も近い距離にあるささやきス
ペクトル情報をその代表コードに対するささやきスペク
トル情報とし、これを全データに渡って実施すること
で、前記代表コード毎のささやきスペクトル情報群とし
て蓄積し、前記ささやきスペクトル情報と対応づけされ
る通常スペクトル情報を、前記ささやきスペクトル情報
群により各代表コード毎に選別し、これを全データに渡
って実施することで、前記代表コード毎の通常スペクト
ル情報群として蓄積し、前記ささやきスペクトル情報群
と前記通常スペクトル情報群を用いて、各代表コード毎
の写像関数を推定することを特徴とするものである。

【００１２】また本願の請求項８記載の発明は、写像関
数として線形写像を用いることを特徴とするものであ
る。

【００１３】また本願の請求項９記載の発明は、写像関
数として２次写像を用いることを特徴とするものであ
る。

【００１４】また本願の請求項１０記載の発明は、写像
関数としてニューラルネットワークを含む非線形変換を
用いることを特徴とするものである。

【００１５】また本願の請求項１１記載の発明は、写像
関数としてコードブック写像を用いることを特徴とする
ものである。

【００１６】また本願の請求項１２記載の発明は、ささ
やいて発声されたささやき音声を、通常の発声の方法で
発声された通常音声へと変換して出力する音声変換装置
であって、話者が発声したささやき音声と通常音声との
複数の同一内容の学習用語彙の対における前記ささやき
音声を音声分析することにより、ささやきスペクトル情
報を抽出するささやき音声分析手段と、話者が発声した
ささやき音声と通常音声との複数の同一内容の学習用語
彙の対における前記通常音声を音声分析することによ
り、通常スペクトル情報を抽出する通常音声分析手段
と、前記学習用データ中のささやきスペクトル情報を類
似したスペクトル毎にクラスタリングにより適当なグル
ープ毎に分割して、前記ささやきスペクトル情報の各グ
ループを代表的に表現するものを代表コードとすると
き、前記複数の代表コードを収めたささやき符号帳を作
成する符号帳作成手段と、前記ささやきスペクトル情報
が、前記ささやき符号帳中のどの代表コードに最も近い
距離にあるかを判定するコード判定手段と、最も近い距
離にあるささやきスペクトル情報を、その代表コードに
対するささやきスペクトル情報として全データに渡って
実施することで、前記代表コード毎のささやきスペクト
ル情報群を蓄積するささやきスペクトル蓄積手段と、前
記ささやきスペクトル情報と対応づけされる前記通常ス
ペクトル情報を、前記ささやきスペクトル情報群により
各代表コード毎に選別するベクトル量子化手段と、前記
ベクトル量子化手段により全データに渡ってベクトル量
子化することで、前記代表コード毎の通常スペクトル情
報群として蓄積する通常スペクトル蓄積手段と、前記さ
さやきスペクトル情報群と前記通常スペクトル情報群を
用いて、各代表コード毎の写像関数を推定する写像関数
推定手段と、入力されたささやき音声を音声分析するこ
とにより、ささやきスペクトル情報を抽出する入力音声
分析手段と、前記ささやきスペクトル情報と前記ささや
き符号帳中の各代表コードとの距離を計算する距離計算
手段と、前記ささやきスペクトル情報を、前記ささやき
符号帳中の各代表コードに対応する前記写像関数推定手
段の写像関数を用いて変換スペクトル情報に変換するス
ペクトル変換手段と、各代表コード毎に得られた前記距
離と各代表コード毎に得られた前記変換スペクトル情報
との重みづけ加算により、最終的な変換スペクトル情報
に変換する重みづけ加算手段と、前記重みづけ加算手段
で得られた最終的な変換スペクトル情報を用いて、通常
音声を合成する音声合成手段と、を具備することを特徴
とするものである。

【００１７】このような音声変換方法によれば、あらか
じめ学習用データを用いて、ささやきスペクトル情報か
ら通常スペクトル情報へと変換する写像関数を推定して
おく。そしてこの写像関数を用いて、入力されたささや
きスペクトル情報を通常スペクトル情報へと直接的に変
換する。こうすると、高性能でしかも簡単な構成により
ささやき音声を通常音声に変換することができる。

【００１８】

【発明の実施の形態】以下ささやき音声を通常音声に変
換する本発明の実施の形態について説明する。（実施の形態１）図１は本発明の実施の形態１における
音声変換装置１０の全体構成を示すブロック図である。
この音声変換装置１０は、入力音声分析手段１１、ささ
やき音声分析手段１２、通常音声分析手段１３、写像関
数推定手段１４、スペクトル変換手段１５、音声合成手
段１６を含んで構成される。

【００１９】入力音声分析手段１１は、ささやき音声を
入力音声として、フレーム毎に音声分析を行い、入力ス
ペクトル情報を抽出する手段である。入力音声のスペク
トル情報としては、例えばフレーム毎にＬＰＣ分析（線
形予測分析）して得られるケプストラム係数を算出して
も良い。またフレーム毎にＰＳＥ分析して得られるＰＳ
Ｅケプストラム係数やフレーム毎にケプストラム分析し
て得られるケプストラム係数や、フレーム毎にウェーブ
レット変換して得られる係数などを用いてもよい。いず
れにしても、上記の係数は、音声の周波数軸上の特性を
表現している特徴量であることには変わりないので、い
ずれの係数を使用しても何等差し支えない。また、これ
らの係数をいくつかのグループに分け、それぞれを別々
の変換方法でささやき音声から通常音声へと変換しても
良い。

【００２０】これらの係数を求める方法はすでに公知で
あり、パワースペクトル包絡（ＰＳＥ）分析に関して
は、中島、鈴木：“パワースペクトル包絡音声分析・合
成系”、日本音響学会誌４４巻１１号,pp.824-832,（19
88）に記載されている。ＬＰＣ分析及びケプストラム分
析に関しては、L.R.Rabiner とR.W.Schafer の共著、鈴
木久喜訳の、”音声のディジタル信号処理（上）
（下）”、コロナ社、に詳しく記載されている。また、
ウェーブレット変換に関しては、河原：“ウェーブレッ
ト解析の聴覚研究への応用”、日本音響学会誌、４７
巻、６号,pp.424-429,（1991）、に詳しく記載されてい
る。

【００２１】また、入力音声のスペクトル情報として
は、ＬＰＣ分析により得られるスペクトル包絡情報と、
音源情報（パワー、ピッチ、残差信号、音源コード等）
を別々に求める方法があり、これらを別々の変換方法で
ささやき音声から通常音声へと変換しても良い。例え
ば、スペクトル包絡情報としては、線形予測係数、ＰＡ
ＲＣＯＲ係数、反射係数、ＬＳＰ係数、ＬＰＣケプスト
ラム係数、ＬＰＣメルケプストラム係数等がある。線形
予測係数、ＰＡＲＣＯＲ係数、反射係数、ＬＰＣケプス
トラム係数、ＬＰＣメルケプストラム係数などの特徴量
に関しては、L.R.Rabiner とR.W.Schafer の共著、鈴木
久喜訳の、”音声のディジタル信号処理（上）
（下）”、コロナ社に詳しく記載されている。またＬＳ
Ｐ係数に関しては、F.K. Soong,B.H.Juang ："Line Sp
ectrum Pair(LSP) and Speech Data Compression",Pro
c.ICASSP,84,pp.1.10.1-1.10.4 、に記載されている。
これらは全て音声のスペクトル上の特徴を表現している
もので、いずれの係数を用いてもよいし、変換の際に使
用しても差し支えない。

【００２２】一方、音源情報としては、パワー、ピッ
チ、マルチパルス列、音源符号帳等が考えられるが、こ
れらはすべて音声分析後に得られる残差を用いて表現す
ることができる情報である。ピッチやマルチパルス列に
関しては、古井：”音響・音声工学”、近代科学社に詳
しく記載されている。また音源符号帳に関しては、小
野：“音声符号化技術の最近の進展”, 日本音響学会
誌, ４８巻、１号,pp.52-59,（1992）に記載されてい
る。本実施の形態の入力音声分析手段１１では、入力音
声のスペクトル情報としてはケプストラム係数を用いる
ことにする。

【００２３】次に図１のささやき音声分析手段１２は、
同一内容の語彙について、複数の或いは一人の話者が発
声した多量のささやき音声と通常音声との対を、あらか
じめ学習用データとして用意し、図示しない学習用デー
タ記憶手段に記憶しておく。そしてささやき音声分析手
段１２は、この学習用データ中のささやき音声を入力音
声分析手段１１の場合と同様に音声分析することによ
り、ささやきスペクトル情報を抽出する。

【００２４】一方、通常音声分析手段１３は、学習用デ
ータ中の通常音声を入力音声分析手段１１と同様に音声
分析することにより、通常スペクトル情報を抽出するも
のである。学習用データとしては例えば、ある標準話者
１名が様々に発声した音声を用いてもよい。また複数の
話者のデータを用いると、話者の発声の変動に強い写像
関数を作成する際に有用となる。

【００２５】写像関数推定手段１４は、これら多量のさ
さやきスペクトル情報と通常スペクトル情報の対を用い
て、ささやきスペクトル情報と通常スペクトル情報との
関係を写像関数として推定する手段である。本実施の形
態では、推定する写像関数として線形写像を使用するこ
とにする。なお線形写像以外に、２次変換や、ニューラ
ルネットワークなどの非線形変換、コードブック写像等
があり、これらの変換を用いても、ささやきスペクトル
情報から通常スペクトル情報へと直接的に変換している
点では変わりがない。

【００２６】２次変換に関しては、F.Class 、A.Kalten
meier 、P.Regel 、and K.Trottler："Fast speaker
adaptation for speech recognition systems",Proc. I
EEEICASSP,pp.133-136,（Apr.1990）にその詳細が記載
されている。ニューラルネットワークによる変換は、
磯、麻生、吉田、渡辺：”ニューラルネットワークによ
る話者適応”、音響学会講演論文集, １−６−１６,
（1989.3）に報告されている。さらにコードブック写像
に関しては、中村、鹿野：”ファジィベクトル量子化を
用いたスペクトログラムの正規化”、音響学会誌, ４
５、ｐｐ１０７−１１４, （1989）に記載されている。

【００２７】次にスペクトル変換手段１５は、写像関数
推定手段１４で求めた写像関数を用いて、入力スペクト
ル情報を直接的にスペクトル情報へと変換する手段であ
る。また音声合成手段で１６は、この変換スペクトル情
報から、通常音声を合成する手段である。

【００２８】このように構成された音声変換装置１０の
動作について説明する。まず、音声信号が入力音声分析
手段１１に入力されると、一定の時間間隔を有するフレ
ームｉでＭ次のケプストラム係数Ｃ_i（Ｍ）が抽出され
る。一定の時間間隔とは、ここでは例えばサンプリング
周波数を８ＫＨｚ（帯域幅４ＫＨｚ）とすると、サンプ
リングポイント１６０点の所要時間（２０ｍｓ）であ
り、この時間単位をフレームと呼ぶ。このような音声分
析の手順を例として図２に示す。

【００２９】ステップＳ１で音声データが入力される
と、ステップＳ２で所定のハミング窓でフィルタリング
する。ここでは分析フレーム周期を10msecとし、分析窓
幅を20msecとする。そしてステップＳ３では、サンプリ
ングした音声データの自己相関係数を算出する。このと
きの分析次数を１２次とする。

【００３０】次にステップＳ４でプリエンファシスを行
い（プリエンファシス係数0.9 ）、ステップＳ５で自己
相関係数をパワーで正規化する。そしてステップＳ６で
は、１２個の線形予測係数を算出し、ステップＳ７で１
５個のケプストラム係数を算出する。こうして音声のス
ペクトル包絡情報とスペクトル微細構造情報を得る。

【００３１】ささやき音声分析手段１２では、同一内容
の語彙について複数の或いは一人の話者が発声した多量
のささやき音声と通常音声の対を、予め学習用データと
して用意しておく。そしてこの学習用データ中のささや
き音声を、入力音声分析手段１１と同様に音声分析する
ことにより、ささやきスペクトル情報を抽出する。ま
た、通常音声分析手段１３では、学習用データ中の通常
音声を、入力音声分析手段１１と同様に音声分析するこ
とにより通常スペクトル情報を抽出する。

【００３２】このようにして求めたささやきスペクトル
情報と通常スペクトル情報は、別々に発生した音声であ
るため、時間軸方向に対応付けがなされていない。そこ
で、ささやきスペクトル情報と通常スペクトル情報との
時間軸方向の対応付けを行うために、ここではＤＰマッ
チング（動的計画法）により最適な対応付けをとる。Ｄ
Ｐマッチングは、主に音声認識分野で良く行われる方法
であり、既知の技術である。この結果、フレーム毎に時
間方向に対応づけられたささやきスペクトル情報と通常
スペクトル情報とを求めることができ、以降はこの対応
付けされたスペクトル情報を用いる。

【００３３】次に写像関数推定手段１４では、ささやき
スペクトル情報と通常スペクトル情報との関係を写像関
数として推定する。本実施の形態では、写像関数として
線形写像を用い、ささやきスペクトル情報から通常スペ
クトル情報へとスペクトル変換を行う。具体的には、さ
さやきスペクトル情報ｘ_iの変換後の変換スペクトル情
報をｚ_iとすると、変換スペクトル情報ｚ_iと目標とな
る通常スペクトル情報ｙ_iとの間の差の二乗誤差を最小
化することで写像関数｛Ａ｝を推定する。すなわち全学
習データの全フレームにおいて、（１）式で与えられる
目的関数Ｊ（｛Ａ｝）を最小化することで求められる。

【数１】

【００３４】ただし、（１）式の｛Ａ｝は、Ｍ×Ｍ次元
のマトリックスであり、ｘ_i、ｙ_i、ｚ_iはＭ次元のベ
クトルである。

【００３５】次にスペクトル変換手段１５は、ｉフレー
ム目のささやきスペクトル情報ｘ_iを入力音声分析手段
１１により抽出し、写像関数｛Ａ｝を用いて変換スペク
トル情報ｚ_iに変換する。具体的には（２）式により変
換を行う。

【数２】

【００３６】最後に音声合成手段１６は、ＬＰＣ合成に
より変換スペクトル情報から通常音声を音声合成する。
以上のように本実施の形態によれば、ささやき音声を通
常音声へと正確に変換して出力することができる。

【００３７】（実施の形態２）次に、本発明の実施の形
態２における音声変換装置について図３を参照しつつ説
明する。図３は本実施の形態における音声変換装置２０
の全体構成を示すブロック図である。この音声変換装置
２０は、入力音声分析手段２１、ささやき音声分析手段
２２、通常音声分析手段２３、符号帳作成手段２４、さ
さやきスペクトル蓄積手段２５、通常スペクトル蓄積手
段２６、写像関数推定手段２７、距離計算手段２８、ス
ペクトル変換手段２９、音声合成手段３０を含んで構成
される。

【００３８】この音声変換装置２０は、実施の形態１の
ものより更に高性能な音声変換装置である。この音声変
換装置２０が音声変換装置１０と大きく異なる部分は、
入力音声を音声分析して求めた入力スペクトル情報を、
いくつかの部分空間に選別し、それぞれ区分化した複数
の部分空間毎に、直接的に写像を行うことである。この
ことにより精密なスペクトル変換が実現できる。

【００３９】ここでも写像関数としては、線形写像、２
次変換、又はニューラルネットワークなどの非線形変
換、更にはコードブック写像等のいずれを用いても差し
支えない。コードブック写像では、クラスタリング処理
によりいくつかのコードに離散化された符号帳を用い
て、ささやきコードから通常コードへと写像する方法が
ある。このコードの頻度とスペクトルとの重ね合わせを
用いることで、より正確なスペクトル変換が可能とな
る。なお、本実施の形態では、写像関数として線形写像
を用いることにする。

【００４０】図３において入力音声分析手段２１は、入
力音声をフレーム毎に例えばＰＳＥ分析等をして、これ
で得られる入力スペクトル情報を抽出する手段である。
ささやき音声分析手段２２及び通常音声分析手段２３
は、同一内容の語彙について、複数の或いは一人の話者
が発声した多量のささやき音声と通常音声の対を、予め
学習用データとして用意し、図示しない学習用データ記
憶手段に記憶する。音声分析手段２２，２３は、これら
を夫々音声分析する部分であり、その内容は図１に示す
ものと同様である。

【００４１】符号帳作成手段２４は、ささやき音声分析
手段２２で得られたささやきスペクトル情報を、類似し
たスペクトルのグループにクラスタリングし、この結果
から各グループを代表的に表現するいくつかの代表コー
ドを検索するためのささやき符号帳を作成する手段であ
る。この代表コードにより、スペクトル情報をコード数
個の部分空間に区分化する（コード判定手段）。クラス
タリング方法としては、代表的なものとしてベクトル量
子化法（ベクトル量子化手段）があり、多量のデータ
（母集団）の特徴を少ないデータで効率的に表現するこ
とが可能となる。

【００４２】以下、本実施の形態では、クラスタリング
のアルゴリズムとしてベクトル量子化法を用いることと
する。また符号帳を作成する方法としては、Ｌｉｎｄｅ
らのＬＢＧアルゴリズム（Y .Linde, A.buzo and R.M.G
ray :"An algorithm for vector quantizer design",IE
EE Trans.Commun.,COM-28,1,pp.84-95(Jan.1980)）が代
表的な手法としてある。

【００４３】また別のクラスタリング方法としては、音
声をいくつかの音韻毎にグループ分けして、各音韻毎の
スペクトル情報の平均値と標準偏差を求めておき、各音
韻に対応する写像関数によりスペクトル変換することも
可能である。このときグループ分けの際に用いる距離尺
度としては、音韻毎の平均値と標準偏差を用いた統計的
距離、例えばマハラノビス距離や対数尤度などが有効で
ある。

【００４４】また、ユークリッド距離や、ＷＬＲ距離、
ＷＧＤ距離、ＲＰＳ距離等を用いても良い。そして変換
の際には、音韻毎の写像関数により変換を行うことで、
各音韻のスペクトル特徴に基づいた変換が可能となる。
このように、音声データ中の話者の特徴空間（スペクト
ル空間）を効率的にクラスタリングする方法であれば、
いかなる手法を用いても差し支えない。

【００４５】次にささやきスペクトル蓄積手段２５は、
ささやき音声分析手段２２で得られたささやきスペクト
ル情報が、ささやき符号帳中のどの代表コードに最も近
い距離にあるかを判定する。そしてささやきスペクトル
蓄積手段２５は、最も近い距離にあるささやきスペクト
ル情報を、その代表コードに対するささやきスペクトル
情報とし、これを全学習用データに渡って調べること
で、ささやきスペクトル情報群を作成して蓄積する。実
際にベクトル量子化によりささやきスペクトル情報群を
作成する際には、まずｊフレーム目のささやきスペクト
ル情報ｘ_jに対するｋ番目のコードＶ_k（コード数Ｌ）
に対する量子化歪Ｄ_jkを、（３）式を用いて計算する。

【数３】ただし、ｘ_j、Ｖ_kはＭ次元のベクトル（Ｍ次元の特徴
量）である。また量子化歪（距離）を計算する方法とし
ては、前述したクラスタリングで用いた他の距離尺度を
用いてもよい。

【００４６】そして、この歪が最も小さいコードがｊフ
レーム目のささやきスペクトル情報に対するコードにな
る。このささやきスペクトル情報とコードとの対応関係
を全ての学習データについて調べ、各コード毎のささや
きスペクトル情報群を作成する。さらに通常スペクトル
蓄積手段２６は、すでに明らかなささやきスペクトル情
報と通常スペクトル情報との時間対応関係から、この通
常スペクトル情報とコードとの対応関係を全ての学習デ
ータについて調べ、各コード毎の通常スペクトル情報群
を作成する手段である。ささやきスペクトル情報と通常
スペクトル情報との時間対応づけは、ＤＰマッチングや
ビタビアルゴリズムにより可能である。

【００４７】写像関数推定手段２７は、このささやきス
ペクトル情報群と通常スペクトル情報群とを用いて写像
関数を推定する手段である。図４に、写像関数として線
形写像を用いた場合の写像関数の推定方法を示す。以
下、その具体的な手順を部分的にステップＴ１〜ステッ
プＴ５に示す。

【００４８】ステップＴ１学習用音声データから得られた通常音声とささやき音声
から、それぞれのスペクトル情報を音声分析手段により
抽出する。

【００４９】ステップＴ２ＬＢＧアルゴリズムにより、ステップＴ１で求めたささ
やきスペクトル情報から、ささやき符号帳を作成する。
ここでは距離尺度としてユークリッド距離を用いるが、
絶対値距離や他の歪尺度など種々考えられる。入力音声
の特徴量が、ささやき符号帳中のどのコードに対応する
かを決定する意味では、どのような距離尺度を用いても
差し支えない。

【００５０】ステップＴ３ささやきスペクトル情報をささやき符号帳によりベクト
ル量子化（ＶＱ）して対応するコードを検索する。この
ベクトル量子化の際には、距離尺度としてユークリッド
距離や他の様々な歪尺度を用いてもよい。そして、各コ
ード（各部分空間の代表点）に対応するささやきスペク
トル情報を蓄積し、部分空間毎のささやきスペクトル情
報群（クラスタ）を作成する。

【００５１】ステップＴ４ＤＰマッチングにより、ささやきスペクトル情報と通常
スペクトル情報の時間対応をとることにより、各コード
に対応する通常スペクトル情報を蓄積し、通常スペクト
ル情報群を求める。

【００５２】ステップＴ５各クラスタ毎（部分空間毎）の通常スペクトル情報とさ
さやきスペクトル情報との組を教師データとして、写像
関数を推定する。

【００５３】具体的には、例えばｋ番目のコードに対応
する写像関数｛Ａ_k｝は、入力音声のスペクトル情報の
変換後のスペクトル情報、すなわち変換スペクトル情報
ｚ_iと目標となる通常スペクトル情報ｙ_iとの間の差の
二乗誤差を最小化することにより推定される。そして全
学習データの全フレームに関する目的関数Ｊ
（｛Ａ_k｝）を（４）式を用いて求める。

【数４】ただし、｛Ａ_k｝はＭ×Ｍ次元のマトリックスであり、
ｙ_iとｚ_iはＭ次元のベクトルである。

【００５４】この（４）式を解くと、写像関数｛Ａ_k｝
は（５）式のように与えられる。

【数５】ただし、Ｒのｓ行ｔ列の小行列をＲ_stとすると、Ｒ_stと
Ｂ_mはそれぞれ（６）式、（７）式で与えられる。

【数６】

【数７】

【００５５】次に距離計算手段２８は、入力音声から入
力音声声分析手段２１により得られた入力スペクトル情
報と、ささやき符号帳中の各代表コードとの距離を計算
する手段である。具体的な処理は、ささやきスペクトル
蓄積手段２５の中で行っている距離計算手続きと同様で
ある。そしてスペクトル変換手段２９は、距離計算手段
２８で得られた各コード毎の距離と、そのコードに対応
する写像関数を用いて、入力音声のスペクトル情報を通
常スペクトル情報へと変換する手段である。

【００５６】具体的には、ささやきスペクトル情報ｘ_i
を通常スペクトル情報ｚ_iへと変換する方法としては、
スペクトル空間をＭ個の部分空間｛Ω_k｝（例えばささ
やき符号帳で分割された空間）に分割し、各部分空間毎
にあらかじめ推定しておいた写像行列Ａ_kにより線形写
像を行い、更にそれらを（９）式のような重み係数ｗ_ik
で補間した（８）式によりスペクトル変換を行う（重み
づけ加算手段）。

【数８】

【数９】

【００５７】ここで部分空間｛Ω_k｝はささやき符号帳
の代表点｛Ｖ_k｝との最小距離で分類され、またｐは内
挿の平滑度を制御するパラメータである。また、上記の
説明でスペクトル空間をＭ個の代表点でファジィ区分化
したと考えれば、内挿パラメータｐはファジネスＦと
（１０）式の関係がある。

【数１０】

【００５８】このように、各部分空間毎の線形写像で変
換した変換スペクトル情報を、重み係数で補間すなわち
内挿することで、より精密なスペクトル変換が行える。
ここで、重み係数で補間せずに、入力音声のスペクトル
情報を、最も近い部分空間の写像関数で変換してもよ
い。さらに部分空間数が１の場合には、実施の形態１の
場合と同じになる。

【００５９】音声合成手段３０は、この変換スペクトル
情報を用いて通常音声を合成する手段である。合成法と
しては、ＬＰＣ合成、ＰＳＥ合成、ＦＦＴ合成等の音声
分析の手法に適した方法を用いれば良い。このように、
ささやきスペクトル情報から元の通常スペクトル情報を
推定することを考えるとき、音韻や個人差などに相当す
る個々のスペクトルの持つ特徴を踏まえて、いくつかの
グループ毎にスペクトル変換を施せば、誤差の少ない正
確な変換が可能になると考えられる。

【００６０】ここで以下に、本方式におけるささやきス
ペクトル情報から通常スペクトル情報へと変換する手順
を示す。１．入力されたささやき音声を音声分析し、入力スペク
トル情報を抽出する。２．入力スペクトル情報を、あらかじめ求めておいたさ
さやき符号帳によりベクトル量子化し、各部分空間（対
応コード）毎の距離を計算する。３．学習用音声を用いてあらかじめ作成しておいた写像
関数を用いて、ステップ２で得られた各部分空間（対応
コード）毎の距離と対応する写像関数により、変換スペ
クトル情報に変換し、これを重み付け加算して最終的な
変換スペクトル情報を求める。４．通常スペクトル情報から音声合成により通常音声を
得る。

【００６１】以下に、実際に本実施の形態の音声変換方
法によりコンピュータシミュレーション実験した結果を
図５〜図７に示す。写像関数としては線形写像を用いて
実験している。音声データは、男性３名が発声した２１
６単語（語彙はＡＴＲ音素連鎖バランス単語に準拠）の
単語音声であり、同一話者内の１７〜２１６番目の２０
０単語を写像関数の推定に用い、それ以外の１〜１６番
目の１６語を評価に用いた。収録条件としては、防音室
で音声をコンデンサーマイクロフォンで収録後、サンプ
リング周波数１６ｋＨｚで１６ｂｉｔに量子化する。

【００６２】図５に音声分析の条件を示す。ここでは、
スペクトル情報としては線形予測分析により得られる１
５次のＬＰＣケプストラム係数を用いた。この係数はス
ペクトルの包絡情報を表現している。評価方法として
は、変換後のスペクトルの時間系列と、目標となる通常
音声のスペクトルの時間系列との平均スペクトル歪み
（ケプストラム距離）で変換精度の評価を行った。

【００６３】最初に、補間なしの場合（補間パラメータ
ｐ＝∞）の部分空間数Ｍとスペクトル歪み［ｄＢ］との
関係を図６に示す。この結果、部分空間数Ｍが１６程度
のとき、スペクトル歪みは極小（３. ７６ｄＢ）とな
る。変換しない場合（６. ７５ｄＢ）と比較して、大き
く歪みは減少していることが分かる。

【００６４】次に、部分空間数Ｍを１６としたときの補
間パラメータｐの効果を図７に示す。その結果、補間パ
ラメータｐが０. ５のとき歪みは極小（３. ６９ｄＢ）
となり、補間した方が歪みが小さくなっていることが分
かる。以上のように本実施の形態により、ささやき音声
を通常音声へと正確に変換し出力することができる。

【００６５】

【発明の効果】以上のような発明によれば、比較的簡単
な構成で、ささやき音声を通常音声へと正確に変換し出
力することができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１における音声変換装置の
全体構成を示すブロック図である。

【図２】本実施の形態における音声分析方法を示すフロ
ーチャートである。

【図３】本発明の実施の形態２における音声変換装置の
全体構成を示すブロック図である。

【図４】実施の形態２における写像関数の推定方法を示
すフローチャートである。

【図５】実施の形態２における音声の分析条件の説明図
である。

【図６】実施の形態２における部分空間数とスペクトル
歪みとの関係を示す説明図である。

【図７】実施の形態２における補間パラメータとスペク
トル歪みとの関係を示す説明図である。

【符号の説明】

１０，２０音声変換装置１１，２１入力音声分析手段１２，２２ささやき音声分析手段１３，２３通常音声分析手段１４，２７写像関数推定手段１５，２９スペクトル変換手段１６，３０音声合成手段２４符号帳作成手段２５ささやきスペクトル蓄積手段２６通常スペクトル蓄積手段２８距離計算手段

Claims

【特許請求の範囲】

【請求項１】ささやいて発声されたささやき音声を、
通常の発声の方法で発声された通常音声へと変換して出
力することを特徴とする音声変換方法。
【請求項２】ささやいて発声されたささやき音声を、
通常の発声の方法で発声された通常音声へと変換して出
力する音声変換装置であって、前記ささやき音声を音声分析することにより、ささやき
スペクトル情報を抽出する音声分析手段と、前記ささやきスペクトル情報から、通常音声のスペクト
ル情報である通常スペクトル情報へと変換するスペクト
ル変換手段と、前記スペクトル変換手段で変換された通常スペクトル情
報を用いて通常音声を合成する音声合成手段と、を具備
することを特徴とする音声変換装置。
【請求項３】ささやいて発声されたささやき音声を、
通常の発声の方法で発声された通常音声へと変換して出
力する音声変換装置であって、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記ささやき音声を音声
分析することにより、ささやきスペクトル情報を抽出す
るささやき音声分析手段と、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記通常音声を音声分析
することにより、通常スペクトル情報を抽出する通常音
声分析手段と、前記ささやき音声分析手段で分析された複数の前記ささ
やきスペクトル情報、及び前記通常音声分析手段で分析
された通常スペクトル情報の対を用いて、前記ささやき
スペクトル情報と前記通常スペクトル情報との関係を写
像関数として推定する写像関数推定手段と、入力されたささやき音声をフレーム毎に音声分析するこ
とにより、入力スペクトル情報を抽出する入力音声分析
手段と、前記入力音声分析手段より与えられた入力スペクトル情
報を、前記写像関数推定手段の写像関数を用いて変換ス
ペクトル情報へと変換するスペクトル変換手段と、前記スペクトル変換手段で変換された変換スペクトル情
報から、通常音声を合成する音声合成手段と、を具備す
ることを特徴とする音声変換装置。
【請求項４】ささやいて発声されたささやき音声を、
通常の発声の方法で発声された通常音声へと変換して出
力する音声変換方法であって、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記ささやき音声を音声
分析することにより、ささやきスペクトル情報を抽出
し、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記通常音声を音声分析
することにより、通常スペクトル情報を抽出し、前記ささやきスペクトル情報をクラスタリングし、前記
ささやきスペクトル情報と代表コードを対にしたささや
き符号帳を作成しておき、前記複数のささやきスペクトル情報と前記通常スペクト
ル情報の対を用いて、前記ささやきスペクトル情報と前
記通常スペクトル情報との関係を、ささやき符号帳中の
代表コード毎に写像関数として推定しておき、入力されたささやき音声をフレーム毎に音声分析するこ
とにより、入力スペクトル情報を抽出し、前記入力スペクトル情報を前記写像関数を用いて変換ス
ペクトル情報へと変換し、変換後の前記変換スペクトル情報から通常音声を合成す
ることを特徴とする音声変換方法。
【請求項５】前記写像関数を用いてささやきスペクト
ル情報から変換スペクトル情報へと変換する方法とし
て、入力されたささやき音声のささやきスペクトル情報を抽
出し、前記ささやきスペクトル情報が、ささやき符号帳中のど
の代表コードに最も近い距離にあるかを判定し、判定された代表コードに対応する写像関数を用いて、前
記ささやきスペクトル情報を変換スペクトル情報へと変
換することを特徴とする請求項４記載の音声変換方法。
【請求項６】前記写像関数を用いてささやきスペクト
ル情報から変換スペクトル情報へと変換する方法とし
て、入力されたささやき音声のささやきスペクトル情報を抽
出し、前記ささやきスペクトル情報とささやき符号帳中の各代
表コードとの距離を計算し、前記ささやきスペクトル情報を前記ささやき符号帳中の
各代表コードに対応する写像関数を用いて変換スペクト
ル情報に変換し、各代表コード毎に得られた前記距離と各代表コード毎に
得られた前記変換スペクトル情報との重みづけ加算によ
り、最終的な変換スペクトル情報に変換することを特徴
とする請求項４記載の音声変換方法。
【請求項７】前記ささやきスペクトル情報と前記通常
スペクトル情報との関係を、ささやき符号帳中の代表コ
ード毎に写像関数として推定する方法として、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記ささやき音声を音声
分析することにより、ささやきスペクトル情報を抽出
し、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記通常音声を音声分析
することにより、通常スペクトル情報を抽出し、前記ささやきスペクトル情報を、類似したスペクトル毎
にクラスタリングにより適当なグループ毎に分割し、前記ささやきスペクトル情報の各グループを代表的に表
現するいくつかの代表コードを持つささやき符号帳を作
成し、前記ささやきスペクトル情報が、前記ささやき符号帳中
のどの代表コードに最も近い距離にあるかを判定し、最も近い距離にあるささやきスペクトル情報をその代表
コードに対するささやきスペクトル情報とし、これを全
データに渡って実施することで、前記代表コード毎のさ
さやきスペクトル情報群として蓄積し、前記ささやきスペクトル情報と対応づけされる通常スペ
クトル情報を、前記ささやきスペクトル情報群により各
代表コード毎に選別し、これを全データに渡って実施す
ることで、前記代表コード毎の通常スペクトル情報群と
して蓄積し、前記ささやきスペクトル情報群と前記通常スペクトル情
報群を用いて、各代表コード毎の写像関数を推定するこ
とを特徴とする請求項４記載の音声変換方法。
【請求項８】写像関数として線形写像を用いることを
特徴とする請求項４〜７のいずれか１項記載の音声変換
方法。
【請求項９】写像関数として２次写像を用いることを
特徴とする請求項４〜７のいずれか１項記載の音声変換
方法。
【請求項１０】写像関数としてニューラルネットワー
クを含む非線形変換を用いることを特徴とする請求項４
〜７のいずれか１項記載の音声変換方法。
【請求項１１】写像関数としてコードブック写像を用
いることを特徴とする請求項４〜７のいずれか１項記載
の音声変換方法。
【請求項１２】ささやいて発声されたささやき音声
を、通常の発声の方法で発声された通常音声へと変換し
て出力する音声変換装置であって、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記ささやき音声を音声
分析することにより、ささやきスペクトル情報を抽出す
るささやき音声分析手段と、話者が発声したささやき音声と通常音声との複数の同一
内容の学習用語彙の対における前記通常音声を音声分析
することにより、通常スペクトル情報を抽出する通常音
声分析手段と、前記学習用データ中のささやきスペクトル情報を類似し
たスペクトル毎にクラスタリングにより適当なグループ
毎に分割して、前記ささやきスペクトル情報の各グルー
プを代表的に表現するものを代表コードとするとき、前
記複数の代表コードを収めたささやき符号帳を作成する
符号帳作成手段と、前記ささやきスペクトル情報が、前記ささやき符号帳中
のどの代表コードに最も近い距離にあるかを判定するコ
ード判定手段と、最も近い距離にあるささやきスペクトル情報を、その代
表コードに対するささやきスペクトル情報として全デー
タに渡って実施することで、前記代表コード毎のささや
きスペクトル情報群を蓄積するささやきスペクトル蓄積
手段と、前記ささやきスペクトル情報と対応づけされる前記通常
スペクトル情報を、前記ささやきスペクトル情報群によ
り各代表コード毎に選別するベクトル量子化手段と、前記ベクトル量子化手段により全データに渡ってベクト
ル量子化することで、前記代表コード毎の通常スペクト
ル情報群として蓄積する通常スペクトル蓄積手段と、前記ささやきスペクトル情報群と前記通常スペクトル情
報群を用いて、各代表コード毎の写像関数を推定する写
像関数推定手段と、入力されたささやき音声を音声分析することにより、さ
さやきスペクトル情報を抽出する入力音声分析手段と、前記ささやきスペクトル情報と前記ささやき符号帳中の
各代表コードとの距離を計算する距離計算手段と、前記ささやきスペクトル情報を、前記ささやき符号帳中
の各代表コードに対応する前記写像関数推定手段の写像
関数を用いて変換スペクトル情報に変換するスペクトル
変換手段と、各代表コード毎に得られた前記距離と各代表コード毎に
得られた前記変換スペクトル情報との重みづけ加算によ
り、最終的な変換スペクトル情報に変換する重みづけ加
算手段と、前記重みづけ加算手段で得られた最終的な変換スペクト
ル情報を用いて、通常音声を合成する音声合成手段と、
を具備することを特徴とする音声変換装置。