JP2005173476A

JP2005173476A - 音声変換装置及びその制御方法、プログラム

Info

Publication number: JP2005173476A
Application number: JP2003416726A
Authority: JP
Inventors: Masaaki Yamada; 雅章山田; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-15
Filing date: 2003-12-15
Publication date: 2005-06-30

Abstract

【課題】無音発声音声を良好に聴取可能な音声に変換することができる音声変換装置及びその制御方法、プログラムを提供する。
【解決手段】無音発声入力部４より、無音発声音声を入力する。入力された無音発声音声のスペクトル包絡に関する特徴量を中央処理部１で抽出する。抽出された特徴量を用いて、無音発声音声を変換する。
【選択図】図１

Description

本発明は、無音発声音声に基づく音声変換を行う音声変換装置及びその制御方法、プログラムに関するものである。

従来より、第三者に聞き取ることのできないように発声された音声を入力する無音発声入力装置が提案されている。

例えば、非特許文献１では、声帯振動を伴わなずに独り言のようにささやく、およそ第三者には聞き取ることのできない微弱な音声を入力する装置が提案されている。

また、特許文献１においても、同様な目的の装置が使用されている。この特許文献１では、声帯振動を伴わなず、およそ第三者には聞き取ることのできない微弱な音声のことを「無音発声」または「無音発声音声」と呼んでいる。もっとも、上記非特許文献１に記載の装置によって入力される無音発声音声と、いわゆるヒソヒソ話し等の音声との定性的な差異はなく、両者の主な差は音量の違いである。無音発声音声はその音声を直接第三者に伝達することを目的としたものではないので、概ねヒソヒソ話し等の音声よりも音量は小さい。

このように、無音発声音声は、第三者に聞き取ることができないため、秘話通話への応用が考えられる。

一方、従来より、ある話者の音声を別の話者の音声に変換する声質変換技術がある。これは、入力された発声者の音声を他の話者の音声に変換し、出力するものである。声質変換は、話者性の変換だけでなく、例えば、日本人の話した英語を、より英語らしい音響的特徴を備えた音声に変換する用途にも用いることができる。
中島等による論文「微弱体内伝導音抽出による無音声認識」（日本音響学会２００３年春期研究発表会講演論文集３−Ｑ−１２，ｐｐ．１７５−１７６）特開２０００-５７３２５号公報

しかしながら、無音発声音声を秘話通話に応用しようとした場合、以下の課題がある。

まず、無音発声音声は、上記のような特殊な装置を通じて入力されたものであるため、通常の音声とはスペクトル概形が異なるという点が挙げられる。このため、例えば、無音発声音声をアンプによって増幅して再生した場合、通常の音声に比べて、聴取性が落ちるという課題がある。

また、上述したように、無音発声音声は声帯振動を伴わないため、有声音として聞こえないという課題もある。

また、従来の声質変換において、声質変換をリアルタイムで用いると、話者の発声した音声と声質変換後の音声が同時に聞こえてしまい、聴取性を損なうという課題がある。

本発明は上記の課題を解決するためになされたものであり、無音発声音声を良好に聴取可能な音声に変換することができる音声変換装置及びその制御方法、プログラムを提供することを目的とする。

上記の目的を達成するための本発明による音声変換装置は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出手段と、
前記抽出手段で抽出された特徴量を用いて、前記無音発声音声を変換する変換手段と
を備える。

また、好ましくは、前記無音発声音声に対する音源情報を推定するための推定情報を抽出する推定情報抽出手段と、
前記無音発声音声を有声音に変換する場合、前記推定情報に基づいて、前記無音発声音声に対する韻律に関する韻律特徴量を推定する推定手段とを更に備え、
前記変換手段は、前記特徴量及び前記韻律特徴量を用いて前記無音発声音声を有声音に変換する。

また、好ましくは、前記抽出手段は、前記特徴量を変換する特徴量変換手段を備え、
前記特徴量変換手段は、変換後の特徴量が前記無音発声音声の話者とは異なる話者の特徴を持つように特徴量を変換する。

また、好ましくは、前記推定手段は、前記無音発声音声の話者話者とは異なる話者の発声より学習したパラメータを用いて、該無音発声音声に対する韻律を推定する。

上記の目的を達成するための本発明による音声変換装置は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声の音声認識を行う音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、音声変換用パラメータを生成する生成手段と、
前記生成手段で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換手段と
を備える。

また、好ましくは、前記音声変換用パラメータは、前記無音発声音声のスペクトル包絡に関する特徴量である。

また、好ましくは、前記音声変換用パラメータは、前記無音発声音声に対する韻律に関する韻律特徴量である。

また、好ましくは、前記音声認識結果に基づいて、アクセント情報を保持する言語解析辞書を参照する参照手段と、
前記参照手段で参照したアクセント情報に基づいてを、前記韻律特徴量を推定する推定手段と
を更に備える。

また、好ましくは、前記生成手段は、前記音声認識結果に基づいて、前記無音発声音声に対応する音声変換用モデルを作成する作成手段と備え、
前記生成手段は、前記音声変換用モデルに基づいて、前記音声変換用パラメータを生成する。

また、好ましくは、前記音声変換用モデルは、前記無音発声音声の話者とは異なる話者とは異なる話者の発声データを用いて構成されている。

上記の目的を達成するための本発明による音声変換装置の制御方法は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程と、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程と
を備える。

上記の目的を達成するための本発明による音声変換装置の制御方法は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程と、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程と
を備える。

上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程のプログラムコードと、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備える。

上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程のプログラムコードと、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備える。

本発明によれば、無音発声音声を良好に聴取可能な音声に変換することができる音声変換装置及びその制御方法、プログラムを提供できる。

以下、本発明の実施の形態について図面を用いて詳細に説明する。

＜実施形態１＞
図１は本発明の実施形態１の音声変換装置のハードウェア構成を示す図である。

１は数値演算・制御等の処理を行なう中央処理部であり、以下に示すフローチャートの処理を実現するプログラムに従って演算を行なう。

２はユーザに対して情報を提示する出力部であり、無音発声音声を変換した結果、得られた音声を出力する。出力部２としては、一般にスピーカ等が考えられるが、かならずしも一般的な出力機器である必要はなく、例えば、電話における送信装置のように、他の装置の入力端子に接続されるような形態であっても良い。

３はタッチパネルやキーボード、ポインティングデバイス等の入力部であり、ユーザが本入力部３に対して動作の指示を与えるのに用いられる。電話の場合、プッシュボタンやフック等に相当する。その他の機器の場合、必ずしも入力部３が備わっているとは限らない。

４は無音発声音声を入力する無音発声入力部である。このような無音発声音声を対象とする入力部には、上記特許文献１や特開２０００-５７３２５で提案されている装置が使用可能である。図６に、無音発声入力部４の集音部の構成例を示す。この集音部は、例えば、振動板４０１の振動をコンデンサマイク４０２で収録する構成となっている。この振動板４０１を話者の体表（例えば、耳の後方、首筋の付近の位置）に接着して使用する。無音発声音声といえども、その振動は体内から体表に伝わってくるので、このような構成により無音発声音声を拾うことが可能である。

５はディスク装置や不揮発メモリ等の外部記憶部であり、スペクトル包絡変換係数５０１や基本周波数推定パラメータ５０２が保持される。また、外部記憶部５は、ＣＤ−ＲＯＭやメモリカードといった可搬性のある記憶装置であっても良く、これによって利便性を高めることもできる。

６は読取専用のメモリとして機能するＲＯＭであり、本発明を実現するための音声変換プログラム６０１や不図示の固定的データ、パラメータ等の各種データが格納される。もっとも、本発明において、外部記憶部５とＲＯＭ６の使用には、任意性がある。例えば、音声変換プログラム６０１は、ＲＯＭ６ではなく外部記憶部５にインストールされている構成であっても良い。逆に、スペクトル包絡変換係数５０１や基本周波数推定パラメータ５０２が、ＲＯＭ６で記憶されている構成であっても良い。

７は一時情報を保持したり、データ作業領域として機能するＲＡＭであり、例えば、一時的なデータや各種フラグ等が保持される。

８はバスであり、音声変換装置の上記各構成要素を相互に接続する。

ここで、ＲＯＭ６に記憶される音声変換プログラム６０１は、無音発声音声を変換する際の各処理を実行するためのプログラムで、中央処理装置１によって実行されるものである。音声変換プログラム６０１は、後述するフローチャート（図２）に示す手順に従って実行される。

以下、音声変換プログラム６０２によって、実施形態１の音声変換装置が実行する処理について、図２を用いて説明する。

図２は本発明の実施形態１の音声変換装置が実行する処理を示すフローチャートである。

まず、ステップＳ１で、無音発声入力部４より、無音発声音声を入力する。

次に、ステップＳ２で、ステップＳ１で入力された無音発声音声からスペクトル包絡に関する特徴量を抽出する。スペクトル包絡に関する特徴量としては、一般的な音声認識・合成・符号化に用いられる特徴量を使用することができる。例えば、ＬＰＣ係数・ケプストラム・ＬＳＰ係数等が使用可能である。

次に、ステップＳ３で、ステップＳ２で抽出された特徴量を変換する。ここで、スペクトル包絡変換の一例を、図３を用いて説明する。

図３は本発明の実施形態１のスペクトル包絡変換を示すフローチャートである。

まず、ステップＳ１０１で、ステップＳ２で抽出された特徴量をベクトル量子化する。

次に、ステップＳ１０２で、ステップＳ１０１の処理結果（量子化値）に基づいて、スペクトル包絡変換係数５０１を外部記憶部５から読み込む。スペクトル包絡変換係数５０１は、ステップＳ１０１の量子化値に対応した行列（Ａとする）及び移動ベクトル（ｂとする）である。

次に、ステップＳ１０３で、ステップＳ２で抽出された特徴量に対して、ステップＳ１０２で読み込まれたスペクトル包絡変換係数を適用する。即ち、ベクトルで表現された特徴量（ｃとする）に対して、ｘ＝Ａｃ＋ｂを求め、得られたベクトルｘを変換結果とする。

以上により、スペクトル包絡がベクトルｘに変換される。

図２の説明に戻る。

ステップＳ４で、無音発声音声に対する音源情報を推定するために必要な情報（音源情報推定要因）を抽出する。音源とは、通常の音声における声帯振動及び呼気流によるノイズに相当するものである。音源情報推定要因としては、ステップＳ２で抽出された特徴量の他に、無音発声音声のパワー及びそれら各特徴量の時間微分（差分／変動）係数を用いることができる。

次に、ステップＳ５で、ステップＳ１で入力された無音発声音声が、有声音に変換されるべきか無声音に変換されるべきかを判定する有声無声判定を実行する。この有声無声判定には、ステップＳ２及びステップＳ４で抽出された特徴量を用いることができる。

有声無声判定の一例として、ステップＳ１０１の処理によって得られた量子化値に対する有声／無声の対応表を用いる方法が挙げられる。さらに、前後数フレーム間での多数決を併用することにより、有声／無声が過剰な頻度で入れ替わるのを防ぐことが可能である。

ステップＳ５の判定の結果、有声音に変換されるべきである場合、ステップＳ６に進む。ステップＳ６で、ステップＳ４で抽出された音源情報推定要因及び基本周波数推定パラメータ５０２に基づいて、韻律に関する特徴量、例えば、基本周波数を推定する。基本周波数の推定方法の一例として、各音源情報推定要因を名義尺度で表し、数量化Ｉ類を適用する方法が挙げられる。この場合、数量化Ｉ類の係数が基本周波数推定パラメータ５０２となる。

また、音源情報推定要因が全て数値化されている場合には、適当な変換関数により基本周波数を推定することもできる。さらに、前後のフレームにおける基本周波数を考慮して平滑化を行うことにより、推定誤差による音質の低下を避けることができる。

次に、ステップＳ７で、ステップＳ６で推定された基本周波数に基づいて、有声音源を生成する。有声音源として最も簡単な例は、推定された基本周波数の逆数（音源周期）の間隔でパルスを配したものである。より複雑な例では、ステップＳ１０１の処理によって得られた量子化値をもとに、テーブル参照によって音源波形を決定し、得られた音源波形を音源周期の間隔で配したものが挙げられる。

一方、ステップＳ５の判定の結果、無声音に変換されるべきである場合、ステップＳ８で、無声音源を生成する。無声音源の一例として、ランダムノイズが挙げられる。また、ステップＳ２における残差波形を無声音源としても良い。

ステップＳ７で有声音源を生成した後、あるいはステップＳ８で無声音源を生成した後、ステップＳ９で、ステップＳ４で抽出された、音源情報推定要因に基づいて変換後のパワーを推定する。パワー推定には、ステップＳ６と同様の手法を用いることができる。また、ステップＳ９は行っても行わなくても良い（固定倍率による増幅で良い）。

次に、ステップＳ１０で、ステップＳ３で作成されたスペクトル包絡、及びステップＳ７で生成された有声音源もしくはステップＳ８で生成された無声音源を用いて、無音発声音声の変換結果となる音声を合成する。

ステップ１０の具体例として、ステップＳ３で作成されたスペクトル包絡に対応する特徴量をもとにフィルタを構成し、ステップＳ７で生成された有声音源もしくはステップＳ８で生成された無声音源をフィルタリングする方法が挙げられる。また、この際、ステップＳ９で推定されたパワーをもとに、合成音声の振幅を調整する。

以上により、無音発声入力部４から入力された無音発声音声を、聴取可能な音声に変換することが可能となる。

尚、スペクトル包絡変換係数５０１や基本周波数推定パラメータ５０２等の各種データは、あらかじめ収録された無音発声音声データ及び通常の音声データから学習することが可能である。

学習に用いる無音発声音声データ及び通常の音声データは、同一の発声内容であっても良いし、異なる発声内容であっても良い。発声内容が異なる場合には、発声内容に基づくラベリングを施すのが有効である。

また、学習に用いる無音発声音声データ及び通常の音声データは、単一の話者によるものであっても、複数の話者によるものであっても良い。単一の話者によるものである場合、実際の使用者と同一の話者であれば、電話等への応用に対して都合が良い。

一方、複数の話者のデータを用いる場合、一般に学習の精度向上が見込まれる。更に、複数の話者のデータを用いて学習されたパラメータに対して、単一の話者のデータを用いた適応を施すことも可能である。

実施形態１を声質変換に適用する場合には、学習に用いる無音発声音声データ及び通常の音声データを、それぞれ異なる単一の話者によるものとすれば良い。あるいは、複数の話者のデータを用いて学習されたパラメータに対して、それぞれ異なる単一の話者のデータを用いた適応を施すことも可能である。

また、実施形態１では、従来例における「通常の音声とスペクトル概形が異なる」・「有声音として聞こえない」という問題の双方を解決しているが、片方のみに着目した実施形態も可能である。即ち、前者にのみ対処するには、ステップＳ５〜ステップＳ８を省略すれば良いし、後者に対してはステップＳ３を省略すれば良い。

これにより、用途や目的に応じては、より処理の高速化を図ることができる。

以上説明したように、実施形態１によれば、入力された無音発声の情報として、スペクトル包絡に関する特徴量と、音源情報推定要因を抽出する。次に、これらの情報に基づいて、入力された無音発声音声の有声無声判定を実行して、入力された無音発声音声が、有声音／無声音に変換すべきか否かを判定する。そして、その判定結果に基づいて、無音発声音声に対する音声合成を実行する。

これにより、スペクトル概形が通常の音声と同様なスペクトル概形で、かつ有声音声として聴取可能となる無音発声音声の音声合成を実現することができる。また、有声音に変換すべき無音発声音声を、適切に有声音に変換することができる。

＜実施形態２＞
実施形態２では、音声認識及び言語解析を利用した実施形態について説明する。

図４は本発明の実施形態２の音声変換装置のハードウェア構成を示す図である。

尚、中央処理部１〜ＲＡＭ７の基本構成は、実施形態１の図１のハードウェア構成（図１）と同様である。

そして、実施形態２では、外部記憶装置５に、無音発声音声認識用音素モデル５０３、通常発声音素モデル５０４、言語解析辞書（アクセント情報）５０５を保持する。

次に、音声変換プログラム６０２によって、実施形態２の音声変換装置が実行する処理について、図５を用いて説明する。

図５は本発明の実施形態２の音声変換装置が実行する処理を示すフローチャートである。

尚、図５において、実施形態１の図２のフローチャートと同一のステップについては、同一のステップ番号を付加し、その詳細については省略する。

まず、ステップＳ１で、無音発声入力部４より無音発声を入力後、ステップＳ２０１で、ステップＳ１で入力された無音発声を認識し、音素系列を推定する。具体的には、上記非特許文献１で用いられている方法をとることができる。無音発声音声認識には、無音発声音声認識用音素モデル５０３が用いられる。

次に、ステップＳ２０２で、ステップＳ２０１の処理結果に基づいて、通常発声音素モデル５０４を並べ、通常発声音素モデル列を作成する。ここで、無音発声音声認識用音素モデル５０３及び通常発声音素モデル５０４が互換性のある音素体系に基づいていれば、両者の用いる特徴量は異なるものであっても構わない。即ち、無音発声音声認識用音素モデル５０３では音声認識に都合の良い特徴量を用い、通常発声音素モデル５０４では音声合成に都合の良い特徴量を用いることができる。

次に、ステップＳ２０３で、ステップＳ２０２で作成された音素モデルからスペクトル包絡を表す特徴量を生成する。具体的には、吉村等による論文「ＨＭＭに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化」（信学論（Ｄ−ＩＩ），ｖｏｌ．Ｊ８３−Ｄ−ＩＩ，ｎｏ．１１，ｐｐ．２０９９−２１０７：非特許文献２）で提案されている手法を用いることができる。即ち、ステップＳ２０２で作成された音素モデル列に対して、最も尤度の高い（マッチングの良い）特徴量系列を生成する。

尚、非特許文献２では、ＨＭＭに基づいて継続時間長も推定しているが、本発明では必須ではない。これは、入力された無音発声の継続時間長を使用できるためである。

次に、ステップＳ２０４で、ステップＳ１で入力された無音発声の単語系列を同定する。ステップＳ２０１での無音発声音声認識が、単語トライグラムのような何らかの言語モデルに基づくモデルであれば、本ステップにおける本質的な処理はほどんどない。

一方、ステップＳ２０１での無音発声音声認識が、音素タイプライタのような単純なものである場合、ステップ２０４は、ワードプロセッサにおける仮名漢字変換と同様の処理となる。即ち、言語解析辞書５０５を参照し、文節数最小法等によって単語系列を同定する。

次に、ステップＳ２０５で、言語解析辞書５０５を参照し、ステップＳ２０４で同定した単語に対応するアクセント情報を取得する。

次に、ステップＳ４で、音源情報推定要因を抽出する。尚、実施形態２では、実施形態１の場合と異なり、ステップＳ２０５によってアクセント情報を取得しているため、アクセント情報を音源情報推定要因として利用することができる。

以下、ステップＳ５〜ステップＳ１０は、実施形態１と同様に行う。また、ステップＳ５〜ステップＳ１０において、非特許文献２で提案されている方法を適用することも可能である。即ち、ステップＳ５の有声無声判定や、ステップＳ６の基本周波数推定に際して、ステップＳ２０２で作成された音素モデル列を利用することが可能である。

以上により、無音発声入力部４から入力された無音発声を、聴取可能な音声に変換することが可能となる。

尚、実施形態２では、言語解析辞書５０５にアクセント情報が含まれているものとしたが、アクセント情報ではなく音源情報推定要因が直接含まれるように実装しても良い。

また、実施形態２に基づいて声質変換を行うには、無音発声入力部４に入力する話者とは別の話者の発声データを用いて通常発声音素モデル５０４を構成すれば良い。

更に、声質変換の特殊なケースとして、日本語を母語とする話者の無音発声データを用いて無音発声音声認識用音素モデル５０３を構成し、英語を母語とする話者の発声データを用いて通常発声音素モデル５０４を構成すれば、日本人が無音発声した英語を、より英語らしく変換して出力することが可能である。

以上説明したように、実施形態２によれば、実施形態１で説明した構成に加えて、入力した無音発声音声に対する音声認識と、その音声認識結果に基づく言語解析を実行し、それらの処理結果に基づいて、入力された無音発声音声の最終的な音源を決定して音声を合成する。

換言すれば、実施形態２では、音声認識結果に基づいて、無音発声音声を有声音／無声音に変換するための変換パラメータ（無音発声音声のスペクトル包絡に関する特徴量や、韻律に関する特徴量）を抽出して、この変換パラメータを用いて、無音発声音声を有声音／無声音に変換する。

これにより、実施形態１で説明した効果に加えて、例えば、より適切な声質変換を実行することができる。

＜実施形態３＞
用途や目的に応じて、上記実施形態１で実行される処理と、実施形態２で実行される処理を任意に組合わせた実施形態を実現することも可能である。

一例として、実施形態１のステップＳ３で得られたスペクトル包絡と、実施形態２に基づいて得られた音源情報を用いて音声合成する方法が考えられる。あるいは、実施形態２のステップＳ２０３で生成されたスペクトル包絡と、実施形態１に基づいて得られた音源情報を用いて音声合成する方法が考えられる。

また、実施形態２における無音発声音声認識を実施形態１におけるベクトル量子化の代替とすることが可能である。例えば、ステップＳ１０２において、ベクトル量子化の結果ではなく、音声認識結果に基づいて変換係数を読み込むことが可能である。

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

本発明の実施形態１の音声変換装置のハードウェア構成を示す図である。本発明の実施形態１の音声変換装置が実行する処理を示すフローチャートである。本発明の実施形態１のスペクトル包絡変換を示すフローチャートである。本発明の実施形態２の音声変換装置のハードウェア構成を示す図である。本発明の実施形態２の音声変換装置が実行する処理を示すフローチャートである。本発明の実施形態１の無音発声入力部の構成例を示した図である。

符号の説明

１中央処理部
２出力部
３入力部
４無音発生入力部
５外部記憶部
６ＲＯＭ
７ＲＡＭ

Claims

無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出手段と、
前記抽出手段で抽出された特徴量を用いて、前記無音発声音声を変換する変換手段と
を備えることを特徴とする音声変換装置。
前記無音発声音声に対する音源情報を推定するための推定情報を抽出する推定情報抽出手段と、
前記無音発声音声を有声音に変換する場合、前記推定情報に基づいて、前記無音発声音声に対する韻律に関する韻律特徴量を推定する推定手段とを更に備え、
前記変換手段は、前記特徴量及び前記韻律特徴量を用いて前記無音発声音声を有声音に変換する
ことを特徴とする請求項１に記載の音声変換装置。
前記抽出手段は、前記特徴量を変換する特徴量変換手段を備え、
前記特徴量変換手段は、変換後の特徴量が前記無音発声音声の話者とは異なる話者の特徴を持つように特徴量を変換する
ことを特徴とする請求項１に記載の音声変換装置。
前記推定手段は、前記無音発声音声の話者話者とは異なる話者の発声より学習したパラメータを用いて、該無音発声音声に対する韻律を推定する
ことを特徴とする請求項２に記載の音声変換装置。
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声の音声認識を行う音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、音声変換用パラメータを生成する生成手段と、
前記生成手段で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換手段と
を備えることを特徴とする音声変換装置。
前記音声変換用パラメータは、前記無音発声音声のスペクトル包絡に関する特徴量である
ことを特徴とする請求項５に記載の音声変換装置。
前記音声変換用パラメータは、前記無音発声音声に対する韻律に関する韻律特徴量である
ことを特徴とする請求項５に記載の音声変換装置。
前記音声認識結果に基づいて、アクセント情報を保持する言語解析辞書を参照する参照手段と、
前記参照手段で参照したアクセント情報に基づいて、前記韻律特徴量を推定する推定手段と
を更に備えることを特徴とする請求項７に記載の音声変換装置。
前記生成手段は、前記音声認識結果に基づいて、前記無音発声音声に対応する音声変換用モデルを作成する作成手段と備え、
前記生成手段は、前記音声変換用モデルに基づいて、前記音声変換用パラメータを生成する
ことを特徴とする請求項５に記載の音声変換装置。
前記音声変換用モデルは、前記無音発声音声の話者とは異なる話者とは異なる話者の発声データを用いて構成されている
ことを特徴とする請求項９に記載の音声変換装置。
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程と、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程と
を備えることを特徴とする音声変換装置の制御方法。
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程と、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程と
を備えることを特徴とする音声変換装置の制御方法。
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程のプログラムコードと、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備えることを特徴とするプログラム。
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程のプログラムコードと、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備えることを特徴とするプログラム。