JP2005173476A - 音声変換装置及びその制御方法、プログラム - Google Patents
音声変換装置及びその制御方法、プログラム Download PDFInfo
- Publication number
- JP2005173476A JP2005173476A JP2003416726A JP2003416726A JP2005173476A JP 2005173476 A JP2005173476 A JP 2005173476A JP 2003416726 A JP2003416726 A JP 2003416726A JP 2003416726 A JP2003416726 A JP 2003416726A JP 2005173476 A JP2005173476 A JP 2005173476A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- silent
- conversion
- voice
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 無音発声音声を良好に聴取可能な音声に変換することができる音声変換装置及びその制御方法、プログラムを提供する。
【解決手段】 無音発声入力部4より、無音発声音声を入力する。入力された無音発声音声のスペクトル包絡に関する特徴量を中央処理部1で抽出する。抽出された特徴量を用いて、無音発声音声を変換する。
【選択図】 図1
【解決手段】 無音発声入力部4より、無音発声音声を入力する。入力された無音発声音声のスペクトル包絡に関する特徴量を中央処理部1で抽出する。抽出された特徴量を用いて、無音発声音声を変換する。
【選択図】 図1
Description
本発明は、無音発声音声に基づく音声変換を行う音声変換装置及びその制御方法、プログラムに関するものである。
従来より、第三者に聞き取ることのできないように発声された音声を入力する無音発声入力装置が提案されている。
例えば、非特許文献1では、声帯振動を伴わなずに独り言のようにささやく、およそ第三者には聞き取ることのできない微弱な音声を入力する装置が提案されている。
また、特許文献1においても、同様な目的の装置が使用されている。この特許文献1では、声帯振動を伴わなず、およそ第三者には聞き取ることのできない微弱な音声のことを「無音発声」または「無音発声音声」と呼んでいる。もっとも、上記非特許文献1に記載の装置によって入力される無音発声音声と、いわゆるヒソヒソ話し等の音声との定性的な差異はなく、両者の主な差は音量の違いである。無音発声音声はその音声を直接第三者に伝達することを目的としたものではないので、概ねヒソヒソ話し等の音声よりも音量は小さい。
このように、無音発声音声は、第三者に聞き取ることができないため、秘話通話への応用が考えられる。
一方、従来より、ある話者の音声を別の話者の音声に変換する声質変換技術がある。これは、入力された発声者の音声を他の話者の音声に変換し、出力するものである。声質変換は、話者性の変換だけでなく、例えば、日本人の話した英語を、より英語らしい音響的特徴を備えた音声に変換する用途にも用いることができる。
中島等による論文「微弱体内伝導音抽出による無音声認識」(日本音響学会2003年春期研究発表会講演論文集3−Q−12, pp.175−176) 特開2000-57325号公報
中島等による論文「微弱体内伝導音抽出による無音声認識」(日本音響学会2003年春期研究発表会講演論文集3−Q−12, pp.175−176)
しかしながら、無音発声音声を秘話通話に応用しようとした場合、以下の課題がある。
まず、無音発声音声は、上記のような特殊な装置を通じて入力されたものであるため、通常の音声とはスペクトル概形が異なるという点が挙げられる。このため、例えば、無音発声音声をアンプによって増幅して再生した場合、通常の音声に比べて、聴取性が落ちるという課題がある。
また、上述したように、無音発声音声は声帯振動を伴わないため、有声音として聞こえないという課題もある。
また、従来の声質変換において、声質変換をリアルタイムで用いると、話者の発声した音声と声質変換後の音声が同時に聞こえてしまい、聴取性を損なうという課題がある。
本発明は上記の課題を解決するためになされたものであり、無音発声音声を良好に聴取可能な音声に変換することができる音声変換装置及びその制御方法、プログラムを提供することを目的とする。
上記の目的を達成するための本発明による音声変換装置は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出手段と、
前記抽出手段で抽出された特徴量を用いて、前記無音発声音声を変換する変換手段と
を備える。
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出手段と、
前記抽出手段で抽出された特徴量を用いて、前記無音発声音声を変換する変換手段と
を備える。
また、好ましくは、前記無音発声音声に対する音源情報を推定するための推定情報を抽出する推定情報抽出手段と、
前記無音発声音声を有声音に変換する場合、前記推定情報に基づいて、前記無音発声音声に対する韻律に関する韻律特徴量を推定する推定手段とを更に備え、
前記変換手段は、前記特徴量及び前記韻律特徴量を用いて前記無音発声音声を有声音に変換する。
前記無音発声音声を有声音に変換する場合、前記推定情報に基づいて、前記無音発声音声に対する韻律に関する韻律特徴量を推定する推定手段とを更に備え、
前記変換手段は、前記特徴量及び前記韻律特徴量を用いて前記無音発声音声を有声音に変換する。
また、好ましくは、前記抽出手段は、前記特徴量を変換する特徴量変換手段を備え、
前記特徴量変換手段は、変換後の特徴量が前記無音発声音声の話者とは異なる話者の特徴を持つように特徴量を変換する。
前記特徴量変換手段は、変換後の特徴量が前記無音発声音声の話者とは異なる話者の特徴を持つように特徴量を変換する。
また、好ましくは、前記推定手段は、前記無音発声音声の話者話者とは異なる話者の発声より学習したパラメータを用いて、該無音発声音声に対する韻律を推定する。
上記の目的を達成するための本発明による音声変換装置は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声の音声認識を行う音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、音声変換用パラメータを生成する生成手段と、
前記生成手段で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換手段と
を備える。
無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声の音声認識を行う音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、音声変換用パラメータを生成する生成手段と、
前記生成手段で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換手段と
を備える。
また、好ましくは、前記音声変換用パラメータは、前記無音発声音声のスペクトル包絡に関する特徴量である。
また、好ましくは、前記音声変換用パラメータは、前記無音発声音声に対する韻律に関する韻律特徴量である。
また、好ましくは、前記音声認識結果に基づいて、アクセント情報を保持する言語解析辞書を参照する参照手段と、
前記参照手段で参照したアクセント情報に基づいてを、前記韻律特徴量を推定する推定手段と
を更に備える。
前記参照手段で参照したアクセント情報に基づいてを、前記韻律特徴量を推定する推定手段と
を更に備える。
また、好ましくは、前記生成手段は、前記音声認識結果に基づいて、前記無音発声音声に対応する音声変換用モデルを作成する作成手段と備え、
前記生成手段は、前記音声変換用モデルに基づいて、前記音声変換用パラメータを生成する。
前記生成手段は、前記音声変換用モデルに基づいて、前記音声変換用パラメータを生成する。
また、好ましくは、前記音声変換用モデルは、前記無音発声音声の話者とは異なる話者とは異なる話者の発声データを用いて構成されている。
上記の目的を達成するための本発明による音声変換装置の制御方法は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程と、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程と
を備える。
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程と、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程と
を備える。
上記の目的を達成するための本発明による音声変換装置の制御方法は以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程と、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程と
を備える。
無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程と、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程と
を備える。
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程のプログラムコードと、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備える。
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程のプログラムコードと、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備える。
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程のプログラムコードと、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備える。
無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程のプログラムコードと、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備える。
本発明によれば、無音発声音声を良好に聴取可能な音声に変換することができる音声変換装置及びその制御方法、プログラムを提供できる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
<実施形態1>
図1は本発明の実施形態1の音声変換装置のハードウェア構成を示す図である。
図1は本発明の実施形態1の音声変換装置のハードウェア構成を示す図である。
1は数値演算・制御等の処理を行なう中央処理部であり、以下に示すフローチャートの処理を実現するプログラムに従って演算を行なう。
2はユーザに対して情報を提示する出力部であり、無音発声音声を変換した結果、得られた音声を出力する。出力部2としては、一般にスピーカ等が考えられるが、かならずしも一般的な出力機器である必要はなく、例えば、電話における送信装置のように、他の装置の入力端子に接続されるような形態であっても良い。
3はタッチパネルやキーボード、ポインティングデバイス等の入力部であり、ユーザが本入力部3に対して動作の指示を与えるのに用いられる。電話の場合、プッシュボタンやフック等に相当する。その他の機器の場合、必ずしも入力部3が備わっているとは限らない。
4は無音発声音声を入力する無音発声入力部である。このような無音発声音声を対象とする入力部には、上記特許文献1や特開2000-57325で提案されている装置が使用可能である。図6に、無音発声入力部4の集音部の構成例を示す。この集音部は、例えば、振動板401の振動をコンデンサマイク402で収録する構成となっている。この振動板401を話者の体表(例えば、耳の後方、首筋の付近の位置)に接着して使用する。無音発声音声といえども、その振動は体内から体表に伝わってくるので、このような構成により無音発声音声を拾うことが可能である。
5はディスク装置や不揮発メモリ等の外部記憶部であり、スペクトル包絡変換係数501や基本周波数推定パラメータ502が保持される。また、外部記憶部5は、CD−ROMやメモリカードといった可搬性のある記憶装置であっても良く、これによって利便性を高めることもできる。
6は読取専用のメモリとして機能するROMであり、本発明を実現するための音声変換プログラム601や不図示の固定的データ、パラメータ等の各種データが格納される。もっとも、本発明において、外部記憶部5とROM6の使用には、任意性がある。例えば、音声変換プログラム601は、ROM6ではなく外部記憶部5にインストールされている構成であっても良い。逆に、スペクトル包絡変換係数501や基本周波数推定パラメータ502が、ROM6で記憶されている構成であっても良い。
7は一時情報を保持したり、データ作業領域として機能するRAMであり、例えば、一時的なデータや各種フラグ等が保持される。
8はバスであり、音声変換装置の上記各構成要素を相互に接続する。
ここで、ROM6に記憶される音声変換プログラム601は、無音発声音声を変換する際の各処理を実行するためのプログラムで、中央処理装置1によって実行されるものである。音声変換プログラム601は、後述するフローチャート(図2)に示す手順に従って実行される。
以下、音声変換プログラム602によって、実施形態1の音声変換装置が実行する処理について、図2を用いて説明する。
図2は本発明の実施形態1の音声変換装置が実行する処理を示すフローチャートである。
まず、ステップS1で、無音発声入力部4より、無音発声音声を入力する。
次に、ステップS2で、ステップS1で入力された無音発声音声からスペクトル包絡に関する特徴量を抽出する。スペクトル包絡に関する特徴量としては、一般的な音声認識・合成・符号化に用いられる特徴量を使用することができる。例えば、LPC係数・ケプストラム・LSP係数等が使用可能である。
次に、ステップS3で、ステップS2で抽出された特徴量を変換する。ここで、スペクトル包絡変換の一例を、図3を用いて説明する。
図3は本発明の実施形態1のスペクトル包絡変換を示すフローチャートである。
まず、ステップS101で、ステップS2で抽出された特徴量をベクトル量子化する。
次に、ステップS102で、ステップS101の処理結果(量子化値)に基づいて、スペクトル包絡変換係数501を外部記憶部5から読み込む。スペクトル包絡変換係数501は、ステップS101の量子化値に対応した行列(Aとする)及び移動ベクトル(bとする)である。
次に、ステップS103で、ステップS2で抽出された特徴量に対して、ステップS102で読み込まれたスペクトル包絡変換係数を適用する。即ち、ベクトルで表現された特徴量(cとする)に対して、x=Ac+bを求め、得られたベクトルxを変換結果とする。
以上により、スペクトル包絡がベクトルxに変換される。
図2の説明に戻る。
ステップS4で、無音発声音声に対する音源情報を推定するために必要な情報(音源情報推定要因)を抽出する。音源とは、通常の音声における声帯振動及び呼気流によるノイズに相当するものである。音源情報推定要因としては、ステップS2で抽出された特徴量の他に、無音発声音声のパワー及びそれら各特徴量の時間微分(差分/変動)係数を用いることができる。
次に、ステップS5で、ステップS1で入力された無音発声音声が、有声音に変換されるべきか無声音に変換されるべきかを判定する有声無声判定を実行する。この有声無声判定には、ステップS2及びステップS4で抽出された特徴量を用いることができる。
有声無声判定の一例として、ステップS101の処理によって得られた量子化値に対する有声/無声の対応表を用いる方法が挙げられる。さらに、前後数フレーム間での多数決を併用することにより、有声/無声が過剰な頻度で入れ替わるのを防ぐことが可能である。
ステップS5の判定の結果、有声音に変換されるべきである場合、ステップS6に進む。ステップS6で、ステップS4で抽出された音源情報推定要因及び基本周波数推定パラメータ502に基づいて、韻律に関する特徴量、例えば、基本周波数を推定する。基本周波数の推定方法の一例として、各音源情報推定要因を名義尺度で表し、数量化I類を適用する方法が挙げられる。この場合、数量化I類の係数が基本周波数推定パラメータ502となる。
また、音源情報推定要因が全て数値化されている場合には、適当な変換関数により基本周波数を推定することもできる。さらに、前後のフレームにおける基本周波数を考慮して平滑化を行うことにより、推定誤差による音質の低下を避けることができる。
次に、ステップS7で、ステップS6で推定された基本周波数に基づいて、有声音源を生成する。有声音源として最も簡単な例は、推定された基本周波数の逆数(音源周期)の間隔でパルスを配したものである。より複雑な例では、ステップS101の処理によって得られた量子化値をもとに、テーブル参照によって音源波形を決定し、得られた音源波形を音源周期の間隔で配したものが挙げられる。
一方、ステップS5の判定の結果、無声音に変換されるべきである場合、ステップS8で、無声音源を生成する。無声音源の一例として、ランダムノイズが挙げられる。また、ステップS2における残差波形を無声音源としても良い。
ステップS7で有声音源を生成した後、あるいはステップS8で無声音源を生成した後、ステップS9で、ステップS4で抽出された、音源情報推定要因に基づいて変換後のパワーを推定する。パワー推定には、ステップS6と同様の手法を用いることができる。また、ステップS9は行っても行わなくても良い(固定倍率による増幅で良い)。
次に、ステップS10で、ステップS3で作成されたスペクトル包絡、及びステップS7で生成された有声音源もしくはステップS8で生成された無声音源を用いて、無音発声音声の変換結果となる音声を合成する。
ステップ10の具体例として、ステップS3で作成されたスペクトル包絡に対応する特徴量をもとにフィルタを構成し、ステップS7で生成された有声音源もしくはステップS8で生成された無声音源をフィルタリングする方法が挙げられる。また、この際、ステップS9で推定されたパワーをもとに、合成音声の振幅を調整する。
以上により、無音発声入力部4から入力された無音発声音声を、聴取可能な音声に変換することが可能となる。
尚、スペクトル包絡変換係数501や基本周波数推定パラメータ502等の各種データは、あらかじめ収録された無音発声音声データ及び通常の音声データから学習することが可能である。
学習に用いる無音発声音声データ及び通常の音声データは、同一の発声内容であっても良いし、異なる発声内容であっても良い。発声内容が異なる場合には、発声内容に基づくラベリングを施すのが有効である。
また、学習に用いる無音発声音声データ及び通常の音声データは、単一の話者によるものであっても、複数の話者によるものであっても良い。単一の話者によるものである場合、実際の使用者と同一の話者であれば、電話等への応用に対して都合が良い。
一方、複数の話者のデータを用いる場合、一般に学習の精度向上が見込まれる。更に、複数の話者のデータを用いて学習されたパラメータに対して、単一の話者のデータを用いた適応を施すことも可能である。
実施形態1を声質変換に適用する場合には、学習に用いる無音発声音声データ及び通常の音声データを、それぞれ異なる単一の話者によるものとすれば良い。あるいは、複数の話者のデータを用いて学習されたパラメータに対して、それぞれ異なる単一の話者のデータを用いた適応を施すことも可能である。
また、実施形態1では、従来例における「通常の音声とスペクトル概形が異なる」・「有声音として聞こえない」という問題の双方を解決しているが、片方のみに着目した実施形態も可能である。即ち、前者にのみ対処するには、ステップS5〜ステップS8を省略すれば良いし、後者に対してはステップS3を省略すれば良い。
これにより、用途や目的に応じては、より処理の高速化を図ることができる。
以上説明したように、実施形態1によれば、入力された無音発声の情報として、スペクトル包絡に関する特徴量と、音源情報推定要因を抽出する。次に、これらの情報に基づいて、入力された無音発声音声の有声無声判定を実行して、入力された無音発声音声が、有声音/無声音に変換すべきか否かを判定する。そして、その判定結果に基づいて、無音発声音声に対する音声合成を実行する。
これにより、スペクトル概形が通常の音声と同様なスペクトル概形で、かつ有声音声として聴取可能となる無音発声音声の音声合成を実現することができる。また、有声音に変換すべき無音発声音声を、適切に有声音に変換することができる。
<実施形態2>
実施形態2では、音声認識及び言語解析を利用した実施形態について説明する。
実施形態2では、音声認識及び言語解析を利用した実施形態について説明する。
図4は本発明の実施形態2の音声変換装置のハードウェア構成を示す図である。
尚、中央処理部1〜RAM7の基本構成は、実施形態1の図1のハードウェア構成(図1)と同様である。
そして、実施形態2では、外部記憶装置5に、無音発声音声認識用音素モデル503、通常発声音素モデル504、言語解析辞書(アクセント情報)505を保持する。
次に、音声変換プログラム602によって、実施形態2の音声変換装置が実行する処理について、図5を用いて説明する。
図5は本発明の実施形態2の音声変換装置が実行する処理を示すフローチャートである。
尚、図5において、実施形態1の図2のフローチャートと同一のステップについては、同一のステップ番号を付加し、その詳細については省略する。
まず、ステップS1で、無音発声入力部4より無音発声を入力後、ステップS201で、ステップS1で入力された無音発声を認識し、音素系列を推定する。具体的には、上記非特許文献1で用いられている方法をとることができる。無音発声音声認識には、無音発声音声認識用音素モデル503が用いられる。
次に、ステップS202で、ステップS201の処理結果に基づいて、通常発声音素モデル504を並べ、通常発声音素モデル列を作成する。ここで、無音発声音声認識用音素モデル503及び通常発声音素モデル504が互換性のある音素体系に基づいていれば、両者の用いる特徴量は異なるものであっても構わない。即ち、無音発声音声認識用音素モデル503では音声認識に都合の良い特徴量を用い、通常発声音素モデル504では音声合成に都合の良い特徴量を用いることができる。
次に、ステップS203で、ステップS202で作成された音素モデルからスペクトル包絡を表す特徴量を生成する。具体的には、吉村等による論文「HMMに基づく音声合成におけるスペクトル・ピッチ・継続長の同時モデル化」(信学論(D−II), vol.J83−D−II, no.11, pp.2099−2107:非特許文献2)で提案されている手法を用いることができる。即ち、ステップS202で作成された音素モデル列に対して、最も尤度の高い(マッチングの良い)特徴量系列を生成する。
尚、非特許文献2では、HMMに基づいて継続時間長も推定しているが、本発明では必須ではない。これは、入力された無音発声の継続時間長を使用できるためである。
次に、ステップS204で、ステップS1で入力された無音発声の単語系列を同定する。ステップS201での無音発声音声認識が、単語トライグラムのような何らかの言語モデルに基づくモデルであれば、本ステップにおける本質的な処理はほどんどない。
一方、ステップS201での無音発声音声認識が、音素タイプライタのような単純なものである場合、ステップ204は、ワードプロセッサにおける仮名漢字変換と同様の処理となる。即ち、言語解析辞書505を参照し、文節数最小法等によって単語系列を同定する。
次に、ステップS205で、言語解析辞書505を参照し、ステップS204で同定した単語に対応するアクセント情報を取得する。
次に、ステップS4で、音源情報推定要因を抽出する。尚、実施形態2では、実施形態1の場合と異なり、ステップS205によってアクセント情報を取得しているため、アクセント情報を音源情報推定要因として利用することができる。
以下、ステップS5〜ステップS10は、実施形態1と同様に行う。また、ステップS5〜ステップS10において、非特許文献2で提案されている方法を適用することも可能である。即ち、ステップS5の有声無声判定や、ステップS6の基本周波数推定に際して、ステップS202で作成された音素モデル列を利用することが可能である。
以上により、無音発声入力部4から入力された無音発声を、聴取可能な音声に変換することが可能となる。
尚、実施形態2では、言語解析辞書505にアクセント情報が含まれているものとしたが、アクセント情報ではなく音源情報推定要因が直接含まれるように実装しても良い。
また、実施形態2に基づいて声質変換を行うには、無音発声入力部4に入力する話者とは別の話者の発声データを用いて通常発声音素モデル504を構成すれば良い。
更に、声質変換の特殊なケースとして、日本語を母語とする話者の無音発声データを用いて無音発声音声認識用音素モデル503を構成し、英語を母語とする話者の発声データを用いて通常発声音素モデル504を構成すれば、日本人が無音発声した英語を、より英語らしく変換して出力することが可能である。
以上説明したように、実施形態2によれば、実施形態1で説明した構成に加えて、入力した無音発声音声に対する音声認識と、その音声認識結果に基づく言語解析を実行し、それらの処理結果に基づいて、入力された無音発声音声の最終的な音源を決定して音声を合成する。
換言すれば、実施形態2では、音声認識結果に基づいて、無音発声音声を有声音/無声音に変換するための変換パラメータ(無音発声音声のスペクトル包絡に関する特徴量や、韻律に関する特徴量)を抽出して、この変換パラメータを用いて、無音発声音声を有声音/無声音に変換する。
これにより、実施形態1で説明した効果に加えて、例えば、より適切な声質変換を実行することができる。
<実施形態3>
用途や目的に応じて、上記実施形態1で実行される処理と、実施形態2で実行される処理を任意に組合わせた実施形態を実現することも可能である。
用途や目的に応じて、上記実施形態1で実行される処理と、実施形態2で実行される処理を任意に組合わせた実施形態を実現することも可能である。
一例として、実施形態1のステップS3で得られたスペクトル包絡と、実施形態2に基づいて得られた音源情報を用いて音声合成する方法が考えられる。あるいは、実施形態2のステップS203で生成されたスペクトル包絡と、実施形態1に基づいて得られた音源情報を用いて音声合成する方法が考えられる。
また、実施形態2における無音発声音声認識を実施形態1におけるベクトル量子化の代替とすることが可能である。例えば、ステップS102において、ベクトル量子化の結果ではなく、音声認識結果に基づいて変換係数を読み込むことが可能である。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
1 中央処理部
2 出力部
3 入力部
4 無音発生入力部
5 外部記憶部
6 ROM
7 RAM
2 出力部
3 入力部
4 無音発生入力部
5 外部記憶部
6 ROM
7 RAM
Claims (14)
- 無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出手段と、
前記抽出手段で抽出された特徴量を用いて、前記無音発声音声を変換する変換手段と
を備えることを特徴とする音声変換装置。 - 前記無音発声音声に対する音源情報を推定するための推定情報を抽出する推定情報抽出手段と、
前記無音発声音声を有声音に変換する場合、前記推定情報に基づいて、前記無音発声音声に対する韻律に関する韻律特徴量を推定する推定手段とを更に備え、
前記変換手段は、前記特徴量及び前記韻律特徴量を用いて前記無音発声音声を有声音に変換する
ことを特徴とする請求項1に記載の音声変換装置。 - 前記抽出手段は、前記特徴量を変換する特徴量変換手段を備え、
前記特徴量変換手段は、変換後の特徴量が前記無音発声音声の話者とは異なる話者の特徴を持つように特徴量を変換する
ことを特徴とする請求項1に記載の音声変換装置。 - 前記推定手段は、前記無音発声音声の話者話者とは異なる話者の発声より学習したパラメータを用いて、該無音発声音声に対する韻律を推定する
ことを特徴とする請求項2に記載の音声変換装置。 - 無音発声音声に基づく音声変換を行う音声変換装置であって、
無音発声音声を入力する入力手段と、
前記入力手段で入力された無音発声音声の音声認識を行う音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、音声変換用パラメータを生成する生成手段と、
前記生成手段で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換手段と
を備えることを特徴とする音声変換装置。 - 前記音声変換用パラメータは、前記無音発声音声のスペクトル包絡に関する特徴量である
ことを特徴とする請求項5に記載の音声変換装置。 - 前記音声変換用パラメータは、前記無音発声音声に対する韻律に関する韻律特徴量である
ことを特徴とする請求項5に記載の音声変換装置。 - 前記音声認識結果に基づいて、アクセント情報を保持する言語解析辞書を参照する参照手段と、
前記参照手段で参照したアクセント情報に基づいて、前記韻律特徴量を推定する推定手段と
を更に備えることを特徴とする請求項7に記載の音声変換装置。 - 前記生成手段は、前記音声認識結果に基づいて、前記無音発声音声に対応する音声変換用モデルを作成する作成手段と備え、
前記生成手段は、前記音声変換用モデルに基づいて、前記音声変換用パラメータを生成する
ことを特徴とする請求項5に記載の音声変換装置。 - 前記音声変換用モデルは、前記無音発声音声の話者とは異なる話者とは異なる話者の発声データを用いて構成されている
ことを特徴とする請求項9に記載の音声変換装置。 - 無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程と、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程と
を備えることを特徴とする音声変換装置の制御方法。 - 無音発声音声に基づく音声変換を行う音声変換装置の制御方法であって、
無音発声音声を入力する入力工程と、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程と、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程と、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程と
を備えることを特徴とする音声変換装置の制御方法。 - 無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声のスペクトル包絡に関する特徴量を抽出する抽出工程のプログラムコードと、
前記抽出工程で抽出された特徴量を用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備えることを特徴とするプログラム。 - 無音発声音声に基づく音声変換を行う音声変換装置の制御を実現するプログラムであって、
無音発声音声を入力する入力工程のプログラムコードと、
前記入力工程で入力された無音発声音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識工程の音声認識結果に基づいて、音声変換用パラメータを生成する生成工程のプログラムコードと、
前記生成工程で生成された前記音声変換用パラメータを用いて、前記無音発声音声を変換する変換工程のプログラムコードと
を備えることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003416726A JP2005173476A (ja) | 2003-12-15 | 2003-12-15 | 音声変換装置及びその制御方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003416726A JP2005173476A (ja) | 2003-12-15 | 2003-12-15 | 音声変換装置及びその制御方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005173476A true JP2005173476A (ja) | 2005-06-30 |
Family
ID=34735843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003416726A Pending JP2005173476A (ja) | 2003-12-15 | 2003-12-15 | 音声変換装置及びその制御方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005173476A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007069400A1 (ja) * | 2005-12-16 | 2007-06-21 | Oki Electric Industry Co., Ltd. | 帯域変換信号生成器及び帯域拡張装置 |
JP2008129524A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声再現装置及び音声再現方法 |
US8209167B2 (en) | 2007-09-21 | 2012-06-26 | Kabushiki Kaisha Toshiba | Mobile radio terminal, speech conversion method and program for the same |
-
2003
- 2003-12-15 JP JP2003416726A patent/JP2005173476A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007069400A1 (ja) * | 2005-12-16 | 2007-06-21 | Oki Electric Industry Co., Ltd. | 帯域変換信号生成器及び帯域拡張装置 |
US7999580B2 (en) | 2005-12-16 | 2011-08-16 | Oki Electric Industry Co., Ltd. | Band converted signal generator and band extender |
JP2008129524A (ja) * | 2006-11-24 | 2008-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声再現装置及び音声再現方法 |
US8209167B2 (en) | 2007-09-21 | 2012-06-26 | Kabushiki Kaisha Toshiba | Mobile radio terminal, speech conversion method and program for the same |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102514990B1 (ko) | 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성 | |
JP4478939B2 (ja) | 音声処理装置およびそのためのコンピュータプログラム | |
US7280968B2 (en) | Synthetically generated speech responses including prosodic characteristics of speech inputs | |
JP4536323B2 (ja) | 音声−音声生成システムおよび方法 | |
JP2001215993A (ja) | 対話処理装置および対話処理方法、並びに記録媒体 | |
JP2011033874A (ja) | 多言語音声認識装置及び多言語音声認識辞書作成方法 | |
JP4061094B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
Shanthi et al. | Review of feature extraction techniques in automatic speech recognition | |
JP2006285254A (ja) | 音声速度測定方法及び装置並びに録音装置 | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
WO2016172871A1 (zh) | 基于循环神经网络的语音合成方法 | |
US9754602B2 (en) | Obfuscated speech synthesis | |
JPH11175082A (ja) | 音声対話装置及び音声対話用音声合成方法 | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
US20090012790A1 (en) | Speech recognition apparatus and control method thereof | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP5301037B2 (ja) | 音声認識装置 | |
JP3973492B2 (ja) | 音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体 | |
JP2005173476A (ja) | 音声変換装置及びその制御方法、プログラム | |
JP3706112B2 (ja) | 音声合成装置及びコンピュータプログラム | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JPH10133678A (ja) | 音声再生装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061020 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070226 |