以下、図面を参照して、この発明の一実施形態について説明する。
図1は、この発明の一実施形態に係わる音声変換装置を適用した移動無線端末装置の構成を示すブロック図である。この移動無線端末装置は、図1に示すように、主な構成要素として、制御部100と、無線通信部110と、表示部120と、通話部130と、操作部140と、記憶部150とを備える。なお、以下の実施形態では、送話側に上記音声変換装置を適用した場合を例に挙げて説明するが、受話側に適用することも可能である。
無線通信部110は、制御部100の指示にしたがって、移動通信網NWに収容された基地局装置BSと無線通信を行うものである。
表示部120は、制御部100の指示にしたがって、画像(静止画像および動画像)や文字情報などを表示して、視覚的にユーザに情報を伝達するものである。
通話部130は、スピーカ131やマイクロホン132を備え、ユーザの音声を音声データに変換して制御部100に出力したり、通話相手などから受信した音声データを復号してスピーカ131から出力するものであって、図2に示すように構成される。すなわち、通話部130は、スピーカ131と、マイクロホン132と、音声復号部200と、DA変換部210と、増幅器220,230と、AD変換部240と、音声変換装置250と、音声符号化部260とを備える。
制御部100から与えられた音声データは、音声復号部200で復号されてディジタル音声信号となる。そしてこのデジタル音声信号は、DA変換部210によりアナログ音声信号に変換され、増幅器220で信号増幅された後、スピーカ131から出力される。
また、ユーザが発した送話音声は、マイクロホン132により電気信号に変換され、増幅器230で信号増幅された後、AD変換部240でアナログ音声信号からディジタル音声信号に変換される。そして、このディジタル音声信号は、音声変換装置250により、不明瞭な信号から明瞭な信号に変換される。
より詳細には、音声変換装置250は、上記ディジタル音声信号からその話者の発話スタイル(通常の発声、ささやく発声、大きな声での発声など)を推定した上で、変換する区間を自動的に選定する。音声変換装置250で音声変換されたディジタル音声信号は、音声符号化部260で符号化されてビットストリームデータに変換され、制御部100に出力される。
操作部140は、複数のキースイッチなどを備え、これを通じてユーザから指示を受け付けるものである。
記憶部150は、制御部100の制御プログラムや制御データ、アプリケーションソフトウェア、通信相手の名称や電話番号などを対応づけたアドレスデータ、送受信した電子メールのデータ、WebブラウジングによりダウンロードしたWebデータや、ダウンロードしたストリーミングデータなどを記憶するものである。
制御部100は、マイクロプロセッサを備え、記憶部150が記憶する制御プログラムや制御データにしたがって動作し、当該移動無線端末装置の各部を統括して制御し、音声通信やデータ通信を実現するものである。また制御部100は、記憶部150が記憶するアプリケーションソフトウェアにしたがって動作し、電子メールの送受信や、Webブラウジング、ダウンロードしたストリーミングデータに基づいて動画像を表示部120に表示したり、音声通信を行う通信制御機能を備える。
(第1の実施形態)
次に、音声変換装置250の第1の実施形態として、図3に示すような音声変換装置251について説明する。図3に示すように、音声変換装置251は、音声入力部11と、発話スタイル推定部21と、変換制御部31と、音声変換部41と、音声出力部51とを備える。
音声入力部11は、前段のAD変換部240からディジタル音声信号が入力され、このディジタル音声信号を発話スタイル推定部21と変換制御部31に出力する。
発話スタイル推定部21は、音声入力部11から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部21で推定された発話スタイルは、変換制御部31に出力される。発話スタイル推定部21の詳細な動作については後述する。
変換制御部31は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部21が推定した発話スタイルに基づいて、音声入力部11から入力されるディジタル音声信号を音声出力部51に出力するのか、音声変換部41に出力するのかを切り替える。
なお、このように、発話スタイルに応じた切替出力により、音声変換部41による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部41に出力し、発話スタイルに応じて音声変換部41が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部31の詳細な動作については、後述する。
音声変換部41は、ピッチデータを記憶するピッチデータ記憶部41aを備える。このピッチデータ記憶部41aは、ディジタル音声信号の代表的なピッチ成分(周波数Ffと強さSf)と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部41は、ピッチデータ記憶部41aが記憶するピッチデータを用いて変換制御部31を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部41の詳細な動作については、後述する。
音声出力部51は、変換制御部31あるいは音声変換部41から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部31から音声変換部41に、あるいは音声変換部41から変換制御部31に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第1の実施形態に係わる音声変換装置251の各部の詳細な動作について説明する。
まず発話スタイル推定部21の詳細な動作について、図4に示すフローチャートを参照して説明する。ここでは、入力されたディジタル音声信号を信号処理して、音量の大きさから通常の発声とささやき声を識別する場合を例に挙げて説明する。
図5は、通常発声とささやき声をスペクトル分析した結果を示すものである。この図において、左側3つのブロックが通常発声に対するスペクトル成分であり、右側3つのブロックがささやき声に対するスペクトル成分を示し、濃淡が強度を示している。両者を比較すると、音量の大きさやピッチ成分の強さの違い、さらには低帯域におけるスペクトルピークの大きさなど様々な違いが存在することがわかる。
まずステップS2101において発話スタイル推定部21は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS2102に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部41の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。
ステップS2102において発話スタイル推定部21は、ステップS2101で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出して、ステップS2103に移行する。この実施形態では、音量の大きさによって発話スタイルを推定するため、例えば上記音声データに高速フーリエ変換(FFT)を施してパワースペクトルを抽出し、そのパワースペクトルからパワーPi(iはフレーム番号)を計算することで、フレーム毎に特徴量を算出する。
ステップS2103において発話スタイル推定部21は、ステップS2102で算出したフレーム単位の特徴量をバッファに格納し、ステップS2104に移行する。このバッファは、発話スタイル推定部21に備えられ、例えば1秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのパワー成分から発話スタイルを判断することができ、1つのフレームのパワー成分から発話スタイルを判断するよりも安定した判断が行える。またステップS2103では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。
ステップS2104において発話スタイル推定部21は、判定に必要な区間長(例えば1秒)の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、S2101に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップS2105に移行する。
ステップS2105において発話スタイル推定部21は、区間長tの代表特徴量Xtを求める。例えば代表特徴量Xtとして、下式(1)により平均パワーを求め、ステップS2106に移行する。例えば、区間長tを1秒とすると、100フレーム分(N=100)の特徴量Piから平均パワー(代表特徴量)をXtとして求める。
Xt = ΣPi/N … (1)
ステップS2106において発話スタイル推定部21は、予め設定した関数f(Xt)に、ステップS2105で求めた代表特徴量Xtを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップS2107に移行する。ここで例えば、関数f(Xt)が予め設定した閾値Txを越える場合には、その区間では通常発声が行われていると判定し、一方、関数f(Xt)が閾値Ty(<Tx)以上Tx未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ty未満であれば、その区間では、発話は行われていないもの(音声無し)と判定する。
ステップS2107において発話スタイル推定部21は、ステップS2106の判定で得られた発話スタイルを変換制御部31に通知し、ステップS2108に移行する。
ステップS2108において発話スタイル推定部21は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS2101に移行して、次のフレームについて処理を実行する。
以上のように、発話スタイルの推定をフレーム単位で繰り返し実行し、ディジタル音声信号の入力が途切れた場合には、当該処理を停止し、再び入力が行われれば、当該処理を再開する。
次に、変換制御部31の詳細な動作について、図6に示すフローチャートを参照して説明する。変換制御部31は、上述したように、発話スタイルがささやき声と判定された場合と、それ以外と判断された場合に応じて、後段の音声変換部41の動作を制御するものである。
ステップS3101において変換制御部31は、発話スタイル推定部21によって推定された発話スタイルを取得し、ステップS3102に移行する。この実施形態では、発話スタイル推定部21により、上述したように、ささやき声、通常発声、音声なしの3種類の判定がなされ、その結果が入力されることになる。
ステップS3102において変換制御部31は、ステップS3101で取得した発話スタイルに基づいて、音声変換部41によるディジタル音声信号の変換処理が必要か否かを判定する。ここで、発話スタイルがささやき声の場合には、上記変換処理が必要と判定して、ステップS3103に移行する。一方、発話スタイルが通常発声や音声無しの場合には、上記変換処理が不必要と判定して、ステップS3104に移行する。
ステップS3103において変換制御部31は、音声変換部41に対して、発話スタイルがささやき声と発話スタイル推定部21によって判定されたフレームとその前後の所定区間のフレームのディジタル音声信号を出力し、ステップS3105に移行する。
一方、ステップS3104において変換制御部31は、音声出力部51に対して、発話スタイルが通常音声もしくは音声無しと発話スタイル推定部21によって判定されたフレームのディジタル音声信号を出力し、ステップS3105に移行する。
ステップS3105において変換制御部31は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS3101に移行して、次のフレームについて処理を実行する。
次に、音声変換部41の詳細な動作について、図7に示すフローチャートを参照して説明する。音声変換部41は、上述したように、発話スタイルがささやき声と判定された場合に、変換制御部31からディジタル音声信号が入力され、フレーム毎に図7に示す処理を実行する。この例では、入力されたディジタル音声信号に、ピッチ成分を付加することで聴き取りやすくなるように変換する。
ステップS4101において音声変換部41は、変換制御部31から入力されるディジタル音声信号から、発話スタイル推定部21にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Flおよびフレーム周期Fsで音声データを切り出し、ステップS4102に移行する。ここでのフレーム長およびフレーム周期は、発話スタイル推定部21と同一のものを用いてもよい。
ステップS4102において音声変換部41は、ステップS4101で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップS4103に移行する。なお、分析手法として例えば線形予測分析(LPC)があり、抽出される線形予測係数αi(i=1,2,…,N:Nは分析次元を表す)によってスペクトル成分を表現すればよい。
ステップS4103において音声変換部41は、ステップS4101で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分(周波数と強さ)を抽出し、ステップS4104に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測(LPC)係数αiを用いて、音声波形からステップS4102で抽出したスペクトル成分を除去した予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)を算出し、予測残差信号riの自己相関関数からピッチ成分の周波数Ffおよび強さSfを求める方法がある。
ステップS4104において音声変換部41は、ステップS4103で抽出したピッチ成分に対応する音声波形をピッチデータ記憶部41aから読み出し、読み出した有声音源信号と予測残差信号を足し合わせることでピッチ成分が付与された予測残差信号を得て、ステップS4105に移行する。なお、この実施形態では、ピッチデータ記憶部41aを備えるものとして説明したが、これに代わって、ステップS4103で求めたピッチ周期に応じて単純なパルス信号を繰り返し発生し、これを対応するフレームの音声データに付加するようにしてもよい。
ステップS4105において音声変換部41は、ステップS4104でピッチ成分が付与された予測残差信号(ri)と、ステップS4103でスペクトル成分として抽出した線形予測係数(αi)とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部51に出力し、当該処理を終了する。なお、次のフレームが存在する場合には、そのフレームについて、音声変換部41は、図7に示す処理を実施する。
以上のように、上記構成の音声変換装置251では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置251によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。
また上記構成の音声変換装置251は、推定した発話スタイルに基づいて変換が必要な音声区間についてのみ音声変換を行うため、音声変換が不要な区間に誤って変換を施して聴き取りにくい音声を生成してしまうことを抑制でき、また変換が不要な区間に対する計算を抑制できる効果もある。
なおこの実施形態では、音声変換装置251において、ピッチ成分を付与することでささやき声を聞きやすい音声に変換する方法について記載したが、この発明はこれに限定されるものではない。例えばささやき声と通常発声の違いであるフォルマント帯域のスペクトルのみを強調する変換フィルタを用いて入力音声を変換することができる。
なお、このような変換フィルタは、変換前の音声データと変換後の音声データを用いて学習することも容易である。このように既存のどのような音声変換手法も本発明に組み込んで実施することが可能である。また発話スタイルとしてささやき声と通常発声を例に挙げたが、この発明はこれに限定されるものではない。例えば発話スタイルとして発話速度の速い発声および発話速度の遅い発声を規定して、音声変換装置251において話速変換を実施することで聞きやすく変換することも可能である。
(第2の実施形態)
次に、音声変換装置250の第2の実施形態として、図8に示すような音声変換装置252について説明する。図8に示すように、音声変換装置252は、音声入力部11と、発話スタイル推定部22と、変換制御部31と、音声変換部42と、音声出力部51と、特徴抽出部61とを備える。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を変換制御部31と特徴抽出部61に出力する。
特徴抽出部61は、ディジタル音声信号のスペクトル成分を抽出し、スペクトル成分である線形予測(LPC)係数αiに基づいて、ディジタル音声信号の特徴量として、フレーム毎に、予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)と、ピッチ成分(周波数Ffと強さSf)を抽出する。
ここで抽出されたピッチ成分は、発話スタイル推定部22だけでなく、音声変換部42での変換処理にも適用できるため、音声変換部42にも出力される。このように、発話スタイル推定部22と音声変換部42でピッチ成分を共用することで、ピッチ成分を抽出する処理の重複を避けることができ、効率化が図られる。また予測残差信号riとスペクトル成分である線形予測係数αiは、音声変換部42に出力され、この信号の抽出についても処理の効率化が図られる。特徴抽出部61の詳細な動作については後述する。
発話スタイル推定部22は、特徴抽出部61にて抽出されたピッチ成分を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部22で推定された発話スタイルは、変換制御部31に出力される。発話スタイル推定部22の詳細な動作については後述する。
変換制御部31は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部22が推定した発話スタイルに基づいて、音声入力部11から入力されるディジタル音声信号を音声出力部51に出力するのか、音声変換部42に出力するのかを切り替える。
なお、このように、発話スタイルに応じた切替出力により、音声変換部42による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部42に出力し、発話スタイルに応じて音声変換部42が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部31の詳細な動作については、第1の実施形態で図6を参照して説明した内容と同様であることより、説明を省略する。
音声変換部42は、ピッチデータを記憶するピッチデータ記憶部42aを備える。このピッチデータ記憶部42aは、代表的なピッチ成分(周波数と強さ)と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部42は、特徴抽出部61が抽出したピッチ成分とスペクトル成分、およびピッチデータ記憶部42aが記憶するピッチデータを用いて変換制御部31を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部42の詳細な動作については、後述する。
音声出力部51は、変換制御部31あるいは音声変換部42から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部31から音声変換部42に、あるいは音声変換部42から変換制御部31に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第2の実施形態に係わる音声変換装置252の各部の詳細な動作について説明する。まず特徴抽出部61の詳細な動作について、図9に示すフローチャートを参照して説明する。
まずステップS6101において特徴抽出部61は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS6102に移行する。ここでフレームとは、発話スタイル推定部22の発話スタイルの推定処理や、音声変換部42の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。ここでのフレーム長およびフレーム周期は、第1の実施形態の発話スタイル推定部21と同一のものを用いてもよい。
ステップS6102において特徴抽出部61は、ステップS6101で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップS6103に移行する。なお、分析手法として例えば線形予測分析(LPC)があり、抽出される線形予測係数αi(i=1,2,…,N:Nは分析次元を表す)によってスペクトル成分を表現すればよい。
ステップS6103において特徴抽出部61は、ステップS6101で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分(周波数Ffと強さSf)を抽出し、ステップS6104に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測(LPC)係数αiを用いて、音声波形からステップS6102で抽出したスペクトル成分を除去した予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)を算出し、予測残差信号riの自己相関関数からピッチ成分の周波数Ffおよび強さSfを求める方法がある。
ステップS6104において特徴抽出部61は、ステップS6103で抽出したピッチ成分を、発話スタイル推定部22と、音声変換部42に出力する。また、特徴抽出部61は、ステップS6103でピッチ成分を求める際に算出した予測残差信号riと、ステップS6102で抽出したスペクトル成分に相当する線形予測係数αiを、音声変換部42に出力する。
ステップS6105において特徴抽出部61は、音声入力部11からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS6101に移行して、次のフレームについて、スペクトル成分やピッチ成分の抽出を行う。
次に、発話スタイル推定部22の詳細な動作について、図10に示すフローチャートを参照して説明する。ここでは、入力されたディジタル音声信号を信号処理して、ピッチ成分の強さから通常の発声とささやき声を識別する場合を例に挙げて説明する。
まずステップS2201において発話スタイル推定部22は、特徴抽出部61からここで抽出されたピッチ成分をフレーム単位で取得し、ステップS2202に移行する。
ステップS2202において発話スタイル推定部22は、ステップS2201で取得したフレーム単位のピッチ成分をバッファに格納し、ステップS2203に移行する。このバッファは、発話スタイル推定部22に備えられ、例えば1秒以上に相当する複数のフレームのピッチ成分を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、1つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップS2202では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しいピッチ成分のみが残るように古いものに上書きする。
また、ピッチ成分の強さで発話スタイルを推定する場合、ピッチ成分の強い区間を通常発声と判定し、ピッチ成分の弱い区間をささやき声と判定するが、通常発声の中にも、ピッチ成分が含まれない無声音は含まれるため、短い区間のピッチ成分では安定して判定することができない。これを解決するために、この実施形態では、例えば1秒程度の区間に含まれるピッチ成分をバッファに蓄積する。
ステップS2203において発話スタイル推定部22は、判定に必要な区間長(例えば1秒)のピッチ成分がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長のピッチ成分が格納されていないため、S2201に移行して次のフレームのピッチ成分を取得する。一方、十分な区間長のピッチ成分がバッファに格納されている場合には、ステップS2204に移行する。
ステップS2204において発話スタイル推定部22は、区間長tの代表特徴量Xtを求める。例えば代表特徴量Xtとして、下式(2)により平均パワーを求め、ステップS2205に移行する。例えば、区間長tを1秒とすると、100フレーム分(N=100)のピッチ成分の強さSfi(iはフレーム番号)が平均パワー(代表特徴量)をXtとして求める。
Xt = ΣSfi/N … (2)
ステップS2205において発話スタイル推定部22は、予め設定した関数f(Xt)に、ステップS2204で求めた代表特徴量Xtを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップS2206に移行する。ここで例えば、関数f(Xt)が予め設定した閾値Txを越える場合には、その区間では通常発声が行われていると判定し、一方、関数f(Xt)が閾値Ty(<Tx)以上Tx未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ty未満であれば、その区間では、発話は行われていないもの(音声無し)と判定する。
ステップS2206において発話スタイル推定部22は、ステップS2205の判定で得られた発話スタイルを変換制御部31に通知し、ステップS2207に移行する。
ステップS2207において発話スタイル推定部22は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS2201に移行して、次のフレームについて処理を実行する。
次に、音声変換部42の詳細な動作について、図11に示すフローチャートを参照して説明する。音声変換部42は、上述したように、発話スタイルがささやき声と判定された場合に、変換制御部31からディジタル音声信号が入力される。この例では、入力されたディジタル音声信号に、ピッチ成分を付加することで聴き取りやすくなるように変換する。
ステップS4201において音声変換部42は、変換制御部31から入力されるディジタル音声信号から、発話スタイル推定部22にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Flおよびフレーム周期Fsで音声データを切り出し、ステップS4202に移行する。ここでのフレーム長およびフレーム周期は、特徴抽出部61と同一のものを用いてもよい。
ステップS4202において音声変換部42は、特徴抽出部61から線形予測係数αi、予測残差信号riおよびビッチ成分を取得し、ステップS4203に移行する。
ステップS4203において音声変換部42は、ステップS4202で取得したピッチ成分に対応する音声波形をピッチデータ記憶部42aから読み出し、読み出したピッチ成分から生成した有声音源信号と予測残差信号を足し合わせることでピッチ成分が付与された予測残差信号を得て、ステップS4204に移行する。なお、この実施形態では、ピッチデータ記憶部42aを備えるものとして説明したが、これに代わって、ステップS4202で取得したピッチ周期に応じて単純なパルス信号を繰り返し発生し、これを対応するフレームの音声データに付加するようにしてもよい。
ステップS4204において音声変換部42は、ステップS4203でピッチ成分が付与された予測残差信号(ri)と、ステップS4202でスペクトル成分として抽出した線形予測係数(αi)とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部51に出力する。
ステップS4205において音声変換部42は、変換制御部31からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS4201に移行して、次のフレームについて、ピッチ成分を付加する処理を実行する。
以上のように、上記構成の音声変換装置252では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置252によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。
また、上記構成の音声変換装置252では、特徴抽出部61を設けて、ここで抽出したピッチ成分を、発話スタイル推定部21と音声変換部42で共用しているので、装置全体での計算量を抑制できる。その他、第1の実施形態の音声変換装置251と同様の効果が得られ、また同様の変形が可能である。
(第3の実施形態)
次に、音声変換装置250の第3の実施形態として、図12に示すような音声変換装置253について説明する。図12に示すように、音声変換装置253は、音声入力部11と、発話スタイル推定部23と、変換制御部31と、音声変換部41と、音声出力部51とを備える。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部23と変換制御部31に出力する。
発話スタイル推定部23は、音声入力部11から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。具体的には、ささやき声と通常発声を判別するために、スペクトル成分のフォルマントに相当する低帯域のスペクトル成分の強さと、それ以外の高帯域のスペクトル成分の強さの差に着目したものであり、この差から発話スタイルを推定する。発話スタイル推定部23で推定された発話スタイルは、変換制御部31に出力される。発話スタイル推定部23の詳細な動作については後述する。
変換制御部31は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部23が推定した発話スタイルに基づいて、音声入力部11から入力されるディジタル音声信号を音声出力部51に出力するのか、音声変換部41に出力するのかを切り替える。
なお、このように、発話スタイルに応じた切替出力により、音声変換部41による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部41に出力し、発話スタイルに応じて音声変換部41が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部31の詳細な動作については、第1の実施形態で図6を参照して説明した内容と同様であることより、説明を省略する。
音声変換部41は、ピッチデータを記憶するピッチデータ記憶部41aを備える。このピッチデータ記憶部41aは、代表的なピッチ成分(周波数Ffと強さSf)と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部41は、ピッチデータ記憶部41aが記憶するピッチデータを用いて変換制御部31を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部41の詳細な動作については、第1の実施形態で図7を参照して説明した内容と同様であることより、説明を省略する。
音声出力部51は、変換制御部31あるいは音声変換部41から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部31から音声変換部41に、あるいは音声変換部41から変換制御部31に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第3の実施形態に係わる音声変換装置253の詳細な動作について説明する。
第3の実施形態に係わる音声変換装置253は、第1の実施形態の音声変換装置251で採用した発話スタイル推定部21に代わって、発話スタイル推定部23を採用した点が異なっている。このため、以下の説明では、図13を参照して、発話スタイル推定部23を中心に説明する。
まずステップS2301において発話スタイル推定部23は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS2302に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部41の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。
続いて、ステップS2302a〜S2302cにより、ステップS2301で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出する。
ステップS2302aにおいて発話スタイル推定部23は、ステップS2301で切り出したフレームの音声データに基づき、その音声波形を高速フーリエ変換することでパワースペクトルを求め、ステップS2302bに移行する。
ステップS2302bにおいて発話スタイル推定部23は、通過帯域の異なる複数のバンドパスフィルタを用いて、ステップS2302aで求めたパワースペクトルから帯域ごとのスペクトル成分を算出し、ステップS2302cに移行する。なお、上記バンドバスフィルタの通過帯域の最も単純な設定としては、およそ4kHzを境界にフォルマント成分が強く現れる低帯域と高帯域の2チャネルを設定する。また、音声認識などで用いる、より多くのチャネル(例えば26チャネル)を持つバンドパスフィルタを用いてもよい。
ステップS2302cにおいて発話スタイル推定部23は、ステップS2302bで求めた帯域毎のパワースペクトルに基づいて、帯域間のパワースペクトルの差分を特徴量Di(iはフレーム番号)として算出する。例えば、2チャンネルに分割した場合には、これらのチャンネル間の差分を特徴量とすればよい。また、多数のチャネルに分割した場合には、チャネル間で、各チャネルの最もスペクトル成分が大きいピークを比較して、その差分を特徴量として算出するなどの方法が考えられる。
ステップS2303において発話スタイル推定部23は、ステップS2302cで算出したフレーム単位の特徴量Diをバッファに格納し、ステップS2304に移行する。このバッファは、発話スタイル推定部23に備えられ、例えば1秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、1つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップS2303では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。
ステップS2304において発話スタイル推定部23は、判定に必要な区間長(例えば1秒)の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、S2301に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップS2305に移行する。
ステップS2305において発話スタイル推定部23は、区間長tの代表特徴量Dtを求める。例えば代表特徴量Dtとして、下式(3)により平均パワーを求め、ステップS2306に移行する。例えば、区間長tを1秒とすると、100フレーム分(N=100)の特徴量Piが平均パワー(代表特徴量)をDtとして求める。
Dt = ΣDi/N … (3)
ステップS2306において発話スタイル推定部23は、予め設定した関数f(Dt)に、ステップS2305で求めた代表特徴量Dtを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップS2307に移行する。ここで例えば、関数f(Dt)が予め設定した閾値Txを越える場合には、その区間では通常発声が行われていると判定し、一方、関数f(Dt)が閾値Ty(<Tx)以上Tx未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ty未満であれば、その区間では、発話は行われていないもの(音声無し)と判定する。
ステップS2307において発話スタイル推定部23は、ステップS2306の判定で得られた発話スタイルを変換制御部31に通知し、ステップS2308に移行する。
ステップS2308において発話スタイル推定部23は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS2301に移行して、次のフレームについて処理を実行する。
以上のように、発話スタイルの推定をフレーム単位で繰り返し実行し、ディジタル音声信号の入力が途切れた場合には、当該処理を停止し、再び入力が行われれば、当該処理を再開する。
以上のように、上記構成の音声変換装置253では、発話スタイルを推定する場合に、ささやき声の特徴であるスペクトル成分のフォルマントに相当する低帯域のスペクトル成分の強さと、それ以外の高帯域のスペクトル成分の強さの差を検出し、この差に基づいて発話スタイルの推定を行うようにしている。そして推定した発話スタイルに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置253によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。その他、第1の実施形態の音声変換装置251と同様の効果が得られ、また同様の変形が可能である。
(第4の実施形態)
次に、音声変換装置250の第4の実施形態として、図14に示すような音声変換装置254について説明する。図14に示すように、音声変換装置254は、音声入力部11と、発話スタイル推定部24と、変換制御部31と、音声変換部41と、音声出力部51と、動作モード設定部71と、動作モード格納部72とを備える。
動作モード設定部71は、ユーザの要求を受け付けるキースイッチなどを備え、このキースイッチをユーザが操作することにより、通常の通話モードか、あるいは周囲に迷惑をかけないようにするためのマナーモード、自動車などの運転中である場合に設定する運転モード、会議中である場合に設定するミーティングモードかなどを受け付ける。
なお、マナーモードは、例えば着信があっても呼び出し音を発しない動作モードであり、運転モードは、発信者に対してユーザが運転中である旨を通知する動作モードである。またミーティングモードは、発信者に対してユーザが会議中である旨を通知する動作モードである。
また動作モード設定部71は、ユーザからの要求を受け付ける他に、GPS(Global Positioning System)受信機を備えて、これが検出した位置情報に応じて、モードを自動的に切り替えるようにしてもよい。
動作モード格納部72は、動作モード設定部71により設定された動作モードの識別情報を記憶するものである。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部24と変換制御部31に出力する。
発話スタイル推定部24は、動作モード格納部72が記憶する動作モードに基づいて、音声入力部11から入力された入力音声がどのような発話スタイルで発声されたかを推定する。例えば、通常モードの場合には、通常の発声の発話スタイルと判定し、一方、マナーモードの場合には、ささやき声で話している発話スタイルと判定する。発話スタイル推定部24で推定された発話スタイルは、変換制御部31に出力される。発話スタイル推定部24の詳細な動作については後述する。
変換制御部31は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部24が推定した発話スタイルに基づいて、音声入力部11から入力されるディジタル音声信号を音声出力部51に出力するのか、音声変換部41に出力するのかを切り替える。
なお、このように、発話スタイルに応じた切替出力により、音声変換部41による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部41に出力し、発話スタイルに応じて音声変換部41が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部31の詳細な動作については、第1の実施形態で図6を参照して説明した内容と同様であることより、説明を省略する。
音声変換部41は、ピッチデータを記憶するピッチデータ記憶部41aを備える。このピッチデータ記憶部41aは、代表的なピッチ成分(周波数Ffと強さSf)と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部41は、ピッチデータ記憶部41aが記憶するピッチデータを用いて変換制御部31を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部41の詳細な動作については、第1の実施形態で図7を参照して説明した内容と同様であることより、説明を省略する。
音声出力部51は、変換制御部31あるいは音声変換部41から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部31から音声変換部41に、あるいは音声変換部41から変換制御部31に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第4の実施形態に係わる音声変換装置254の詳細な動作について説明する。
第4の実施形態に係わる音声変換装置254は、第1の実施形態の音声変換装置251で採用した発話スタイル推定部21に代わって、発話スタイル推定部24を採用し、さらに動作モード設定部71と、動作モード格納部72とを備えた点が異なっている。このため、以下の説明では、図15を参照して、発話スタイル推定部24を中心に説明する。
まずステップS2401において発話スタイル推定部24は、音声入力部11から入力されたディジタル音声信号のフレーム毎に、その時に動作モード格納部72に設定された動作モードの識別情報を動作モード格納部72から読み出し、ステップS2402に移行する。
ステップS2402において発話スタイル推定部24は、図16に示すようなテーブルを参照し、ステップS2401で読み出した動作モードの識別情報に対応付けられた発話スタイルを検出することで、現在のフレームのディジタル音声信号がどのような発話スタイルで発声されたかを推定し、ステップS2403に移行する。図16に示す例では、マナーモードや運転モードの場合に、発話スタイルがささやき声と推定され、一方、通常モードの場合には、発話スタイルは通常発声として推定される。
ステップS2403において発話スタイル推定部24は、ステップS2402の判定で得られた発話スタイルを変換制御部31に通知し、ステップS2404に移行する。
ステップS2404において発話スタイル推定部24は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS2401に移行して、次のフレームについて処理を実行する。
以上のように、発話スタイルの推定をフレーム単位で繰り返し実行し、ディジタル音声信号の入力が途切れた場合には、当該処理を停止し、再び入力が行われれば、当該処理を再開する。
以上のように、上記構成の音声変換装置254では、発話スタイルを推定する場合に、移動無線端末装置の動作モードで発話スタイルの推定を行うようにしている。そして推定した発話スタイルに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置254によれば、ユーザが発話環境の変化に伴い動作モードを変更すると、それに応じて必要な場合に音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、動作モードを切り替えれば、相手に不快感を与えることなくシームレスに発話を継続することができる。その他、第1の実施形態の音声変換装置251と同様の効果が得られ、また同様の変形が可能である。
(第5の実施形態)
次に、音声変換装置250の第5の実施形態として、図17に示すような音声変換装置255について説明する。図17に示すように、音声変換装置255は、音声入力部11と、発話スタイル推定部25と、変換制御部31と、音声変換部41と、音声出力部51と、動作モード設定部71と、動作モード格納部72とを備える。
動作モード設定部71は、ユーザの要求を受け付けるキースイッチなどを備え、このキースイッチをユーザが操作することにより、通常の通話モードか、あるいは通話で周囲に迷惑をかけないようにするためのマナーモード、自動車などの運転中である場合に設定する運転モード、会議中である場合に設定するミーティングモードかなどを受け付ける。
また動作モード設定部71は、ユーザからの要求を受け付ける他に、GPS(Global Positioning System)受信機を備えて、これが検出した位置情報に応じて、モードを自動的に切り替えるようにしてもよい。
動作モード格納部72は、動作モード設定部71により設定された動作モードの識別情報を記憶するものである。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部25と変換制御部31に出力する。
発話スタイル推定部25は、動作モード格納部72が記憶する動作モードに基づいて、音声入力部11から入力された入力音声がどのような発話スタイルで発声されたかを推定する。例えば、通常モードの場合には、通常の発声の発話スタイルと判定し、一方、マナーモードの場合には、ささやき声で話している発話スタイルと判定する。発話スタイル推定部25で推定された発話スタイルは、変換制御部31に出力される。発話スタイル推定部25の詳細な動作については後述する。
変換制御部31は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部25が推定した発話スタイルに基づいて、音声入力部11から入力されるディジタル音声信号を音声出力部51に出力するのか、音声変換部41に出力するのかを切り替える。
なお、このように、発話スタイルに応じた切替出力により、音声変換部41による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部41に出力し、発話スタイルに応じて音声変換部41が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部31の詳細な動作については、第1の実施形態で図6を参照して説明した内容と同様であることより、説明を省略する。
音声変換部41は、ピッチデータを記憶するピッチデータ記憶部41aを備える。このピッチデータ記憶部41aは、代表的なピッチ成分(周波数Ffと強さSf)と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部41は、ピッチデータ記憶部41aが記憶するピッチデータを用いて変換制御部31を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部41の詳細な動作については、第1の実施形態で図7を参照して説明した内容と同様であることより、説明を省略する。
音声出力部51は、変換制御部31あるいは音声変換部41から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部31から音声変換部41に、あるいは音声変換部41から変換制御部31に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第5の実施形態に係わる音声変換装置255の詳細な動作について説明する。
第5の実施形態に係わる音声変換装置255は、第1の実施形態の音声変換装置251で採用した発話スタイル推定部21に代わって、発話スタイル推定部25を採用し、さらに動作モード設定部71と、動作モード格納部72とを備えた点が異なっている。このため、以下の説明では、図18を参照して、発話スタイル推定部25を中心に説明する。
まずステップS2501において発話スタイル推定部25は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS2502に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部41の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。
ステップS2502において発話スタイル推定部25は、音声入力部11から入力されたディジタル音声信号のフレーム毎に、その時に動作モード格納部72に設定された動作モードの識別情報を動作モード格納部72から読み出し、ステップS2503に移行する。
ステップS2503において発話スタイル推定部25は、図19に示すようなテーブルを参照し、ステップS2501で読み出した動作モードの識別情報に対応付けられた発話スタイルを検出することで、現在のフレームのディジタル音声信号がどのような発話スタイルで発声されたかを推定し、ステップS2504に移行する。図19に示す例では、マナーモードや運転モードの場合に、発話スタイルがささやき声と推定され、一方、通常モードの場合には、発話スタイルは特定のスタイルとして推定されない。
ステップS2504において発話スタイル推定部25は、ステップS2503において、発話スタイルがささやき声と推定されたか否かを判定する。ここで、ささやき声と推定されたと判定した場合には、ステップS2510に移行し、一方、ささやき声と推定されていないと判定した場合には、ステップS2505に移行する。
ステップS2505において発話スタイル推定部25は、ステップS2501で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出して、ステップS2506に移行する。この実施形態では、音量の大きさによって発話スタイルを推定するため、例えば上記音声データに高速フーリエ変換(FFT)を施してパワースペクトルを抽出し、そのパワースペクトルからパワーPi(iはフレーム番号)を計算することで、フレーム毎に特徴量を算出する。
ステップS2506において発話スタイル推定部25は、ステップS2505で算出したフレーム単位の特徴量をバッファに格納し、ステップS2507に移行する。このバッファは、発話スタイル推定部25に備えられ、例えば1秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、1つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップS2506では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。
ステップS2507において発話スタイル推定部25は、判定に必要な区間長(例えば1秒)の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、S2501に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップS2508に移行する。
ステップS2508において発話スタイル推定部25は、区間長tの代表特徴量Xtを求める。例えば代表特徴量Xtとして、式(1)により平均パワーを求め、ステップS2509に移行する。例えば、区間長tを1秒とすると、100フレーム分(N=100)の特徴量Piが平均パワー(代表特徴量)をXtとして求める。
ステップS2509において発話スタイル推定部25は、予め設定した関数f(Xt)に、ステップS2508で求めた代表特徴量Xtを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップS2510に移行する。ここで例えば、関数f(Xt)が予め設定した閾値Txを越える場合には、その区間では通常発声が行われていると判定し、一方、関数f(Xt)が閾値Ty(<Tx)以上Tx未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ty未満であれば、その区間では、発話は行われていないもの(音声無し)と判定する。
ステップS2510において発話スタイル推定部25は、ステップS2509の判定で得られた発話スタイルを変換制御部31に通知し、ステップS2511に移行する。
ステップS2511において発話スタイル推定部25は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS2501に移行して、次のフレームについて処理を実行する。
以上のように、発話スタイルの推定をフレーム単位で繰り返し実行し、ディジタル音声信号の入力が途切れた場合には、当該処理を停止し、再び入力が行われれば、当該処理を再開する。
以上のように、上記構成の音声変換装置255では、発話スタイルを推定する場合に、移動無線端末装置の動作モードと音声の分析結果とを併用して発話スタイルの推定を行うようにしている。そして推定した発話スタイルに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置255によれば、ユーザが発話環境の変化に伴い動作モードを変更すると、それに応じて必要な場合に音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、動作モードを切り替えれば、相手に不快感を与えることなくシームレスに発話を継続することができる。
また動作モードに基づく発話スタイルの推定を行い、これにより発話スタイルが例えばささやき声と判定されない場合に限って、音声分析による発話スタイルの推定を行うようにしているので、音声分析による計算量を抑制できる。その他、第1の実施形態の音声変換装置251と同様の効果が得られ、また同様の変形が可能である。
(第6の実施形態)
次に、音声変換装置250の第6の実施形態として、図20に示すような音声変換装置256について説明する。図20に示すように、音声変換装置256は、音声入力部11と、発話スタイル推定部21と、変換制御部32と、音声変換部43と、音声出力部51と、変換学習部81とを備える。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部21と変換制御部32に出力する。
発話スタイル推定部21は、音声入力部11から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部21で推定された発話スタイルは、変換制御部32に出力される。なお、発話スタイル推定部21の詳細な動作については、第1の実施形態で図4を参照して説明した内容と同様であることより、説明を省略する。
変換制御部32は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部21が推定した発話スタイルに応じて、音声入力部11から入力されるディジタル音声信号を音声出力部51、変換学習部81あるいは音声変換部43に選択的に出力する。
なお、このように、発話スタイルに応じた切替出力により、音声変換部43による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部43に出力し、発話スタイルに応じて音声変換部43が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部32の詳細な動作については、後述する。
変換学習部81は、学習データ記憶部81aを備え、変換制御部32から出力されるディジタル音声信号を分析して、音声変換部43が音声を変換する際に必要とする情報を抽出して学習し、この学習したデータを学習データ記憶部81aに記憶する。変換学習部81の詳細な動作については、後述する。
音声変換部43は、学習データ記憶部81aが記憶する学習データを用いて、変換制御部32を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部43の詳細な動作については、後述する。
音声出力部51は、変換制御部32あるいは音声変換部43から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部32から音声変換部43に、あるいは音声変換部43から変換制御部32に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第6の実施形態に係わる音声変換装置256の各部の詳細な動作について説明する。
まず、変換制御部32の詳細な動作について、図21に示すフローチャートを参照して説明する。変換制御部32は、上述したように、発話スタイルがささやき声と判定された場合と、それ以外と判断された場合に応じて、後段の変換学習部81および音声変換部43の動作を制御するものである。
ステップS3201において変換制御部32は、発話スタイル推定部21によって推定された発話スタイルを取得し、ステップS3202に移行する。この実施形態では、発話スタイル推定部21により、図4を用いて説明したように、ささやき声、通常発声、音声なしの3種類の判定がなされ、その結果が入力されることになる。
ステップS3202において変換制御部32は、ステップS3201で取得した発話スタイルに基づいて、音声変換部41によるディジタル音声信号の変換処理が必要か否かを判定する。ここで、発話スタイルがささやき声の場合には、上記変換処理が必要と判定して、ステップS3203に移行する。一方、発話スタイルが通常発声や音声無しの場合には、上記変換処理が不必要と判定して、ステップS3204に移行する。
ステップS3203において変換制御部32は、音声変換部41に対して、発話スタイルがささやき声と発話スタイル推定部21によって判定されたフレームとその前後の所定区間のフレームのディジタル音声信号を出力し、ステップS3205に移行する。
一方、ステップS3204において変換制御部32は、音声出力部51に対して、発話スタイルが通常音声もしくは音声無しと発話スタイル推定部21によって判定されたフレームのディジタル音声信号を出力し、ステップS3205に移行する。
ステップS3205において変換制御部32は、ステップS3201で取得した発話スタイルに基づいて、変換学習部81による学習処理が可能か否かを判定する。ここで、発話スタイルが通常音声の場合には、上記学習処理が可能と判定して、ステップS3206に移行する。一方、発話スタイルがささやき声や音声無しの場合には、上記学習処理が不可能と判定して、ステップS3207に移行する。
ステップS3206において変換制御部32は、変換学習部81に対して、発話スタイルが通常音声と発話スタイル推定部21によって判定されたフレームとその前後の所定区間のフレームのディジタル音声信号を出力し、ステップS3207に移行する。
ステップS3207において変換制御部32は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS3201に移行して、次のフレームについて処理を実行する。
次に、変換学習部81の詳細な動作について、図22に示すフローチャートを参照して説明する。変換学習部81は、図21のフローチャートで説明したように、発声スタイルが通常音声で、かつ学習可能な場合にディジタル音声信号が入力されて、学習処理を実行する。
まず、ステップS8101において変換学習部81は、変換制御部32から入力されるディジタル音声信号から、発話スタイル推定部21にて通常音声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Flおよびフレーム周期Fsで音声データを切り出し、ステップS8102に移行する。ここでのフレーム長およびフレーム周期は、発話スタイル推定部21と同一のものを用いてもよい。
ステップS8102において変換学習部81は、ステップS8101で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これにより特徴量としてフレーム毎のピッチ成分(周波数Ffと強さSf)を抽出し、ステップS8103に移行する。
なお、ピッチ成分の抽出方法としては、前述の実施形態で説明したように、スペクトル包絡成分を除去した残差成分の自己相関関数から求める方法や、零交差数の繰り返しパターンに注目した抽出方法、音声波形の自己相関関数に基づくピッチ抽出方法など、既存のあらゆる方法を適用することができる。
ステップS8103において変換学習部81は、ステップS8102で抽出したピッチ成分が学習に利用できるかどうかを判断する。フレーム毎の音声データには、ピッチ成分が強く表れる有声音を含むものと、ピッチ成分がほとんど観測されない無声音を含むものがある。このため、無声音の部分を学習対象に用いることで生じる悪影響を除去するために、学習区間の選定を行う。
具体的な判断の手法としては、例えば、フレーム毎に音声データに自己相関関数を適用して、相関値を求める。そして、この相関値が予め設定した閾値を越える場合には、ピッチ成分が強く表れていることを示すため、学習に適したピッチ成分であると判断し、上記閾値以下の場合には、ピッチ成分が強く表れていないことを示すため、学習には適さないピッチ成分であると判断する。学習に適したピッチ成分の場合には、ステップS8104に移行し、一方、学習に適さないピッチ成分の場合には、ステップS8105に移行する。
ステップS8104において変換学習部81は、ステップS8102で抽出したピッチ成分に基づく学習データを生成し、これを学習データ記憶部81aに記録し、ステップS8105に移行する。なお、ピッチ成分に基づく学習データの生成方法としては、様々な方法が考えられる。例えばピッチ成分の平均値を学習データとして学習データ記憶部81aに記録する場合には、下式(4)にしたがって行う。すなわち、過去の学習により学習データ記憶部81aに記録したピッチ成分の平均値Ppavと、それまでの学習回数Nを記録しておき、新しく学習するピッチ成分Pnewを用いて新しいピッチ成分を更新すればよい。
Pnav = ( Ppav*N + Pnew ) / ( N + 1 );
N = N +1; … (4)
ステップS8105において変換学習部81は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS8101に移行して、次のフレームについて処理を実行する。
次に、音声変換部43の詳細な動作について、図23に示すフローチャートを参照して説明する。音声変換部43は、上述したように、発話スタイルがささやき声と判定された場合に、変換制御部32からディジタル音声信号が入力され、フレーム毎に図23に示す処理を実行する。この例では、入力されたディジタル音声信号に、変換学習部81が学習したピッチ成分を付加することで聴き取りやすくなるように変換する。
ステップS4301において音声変換部43は、変換制御部32から入力されるディジタル音声信号から、発話スタイル推定部21にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Flおよびフレーム周期Fsで音声データを切り出し、ステップS4302に移行する。ここでのフレーム長およびフレーム周期は、発話スタイル推定部21と同一のものを用いてもよい。
ステップS4302において音声変換部43は、ステップS4301で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップS4303に移行する。なお、分析手法として例えば線形予測分析(LPC)があり、抽出される線形予測係数αi(i=1,2,…,N:Nは分析次元を表す)によってスペクトル成分を表現すればよい。
ステップS4303において音声変換部43は、ステップS4301で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分(周波数と強さ)を抽出し、ステップS4304に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測(LPC)係数αiを用いて、音声波形からステップS4302で抽出したスペクトル成分を除去した予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)を算出し、予測残差信号riの自己相関関数からピッチ成分の周波数Ffおよび強さSfを求める方法がある。
ステップS4304において音声変換部43は、ステップS4303で抽出したピッチ成分(周波数Ff)に対応する音声波形を学習データ記憶部81aから読み出し、これに基づいて有声音源信号を発生させる。例えば読み出したピッチ周期に応じて単純なパルス信号を繰り返し発生することで有声音源信号を発生し、これを予測残差信号に足し合わせることで有声音源信号を発生させる。その後、ステップS4305に移行する。なお、この実施形態では、学習データ記憶部81aを備えるものとして説明したが、学習データ記憶部81aに記憶されない、すなわち学習されていないピッチ成分に対応する音声波形については、ステップS4303で求めたピッチ周期に応じて単純なパルス信号を繰り返し発生し、これを対応するフレームの音声データに付加するようにしてもよい。
ステップS4305において音声変換部43は、ステップS4304でピッチ成分が付与された予測残差信号(ri)と、ステップS4303でスペクトル成分として抽出した線形予測係数(αi)とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部51に出力し、当該処理を終了する。なお、次のフレームが存在する場合には、そのフレームについて、音声変換部43は、図23に示す処理を実施する。
以上のように、上記構成の音声変換装置256では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置256によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。
また上記構成の音声変換装置256は、推定した発話スタイルに基づいて変換が必要な音声区間についてのみ音声変換を行うため、音声変換が不要な区間に誤って変換を施して聴き取りにくい音声を生成してしまうことを抑制でき、また変換が不要な区間に対する計算を抑制できる効果もある。
さらに上記構成の音声変換装置256は、発声スタイルが通常発声の場合に、ピッチ成分を抽出して学習しておき、その後、発声スタイルがささやき声に場合に、学習しておいたデータに基づいてピッチ成分を付加して聴き取りやすい音声に変換するようにしている。したがって、予め音声変換に必要な情報を準備する必要が無く、利便性が高い。その他、第1の実施形態の音声変換装置251と同様の効果が得られ、また同様の変形が可能である。
(第7の実施形態)
次に、音声変換装置250の第7の実施形態として、図24に示すような音声変換装置257について説明する。図24に示すように、音声変換装置257は、音声入力部11と、発話スタイル推定部22と、変換制御部32と、音声変換部44と、音声出力部51と、特徴抽出部62と、変換学習部82とを備える。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を変換制御部32と特徴抽出部62に出力する。
特徴抽出部62は、ディジタル音声信号のスペクトル成分を抽出し、スペクトル成分である線形予測(LPC)係数αiに基づいて、ディジタル音声信号の特徴量として、フレーム毎に、予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)と、ピッチ成分(周波数Ffと強さSf)を抽出する。
ここで抽出されたピッチ成分は、発話スタイル推定部22だけでなく、音声変換部44での変換処理にも適用できるため、音声変換部44にも出力される。またピッチ成分は、変換学習部82にも出力される。このように、発話スタイル推定部22、音声変換部44および変換学習部82でピッチ成分を共用することで、ピッチ成分を抽出する処理の重複を避けることができ、効率化が図られる。また予測残差信号riおよび線形予測係数αiは、音声変換部44に出力され、この信号の抽出についても処理の効率化が図られる。特徴抽出部62の詳細な動作については後述する。
発話スタイル推定部22は、特徴抽出部62にて抽出されたピッチ成分を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部22で推定された発話スタイルは、変換制御部32に出力される。発話スタイル推定部22の詳細な動作については、第2の実施形態で図10を参照して説明した内容と同様であることより、説明を省略する。
変換制御部32は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部22が推定した発話スタイルに応じて、音声入力部11から入力されるディジタル音声信号を音声出力部51、変換学習部82あるいは音声変換部44に選択的に出力する。
なお、このように、発話スタイルに応じた切替出力により、音声変換部44による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部44に出力し、発話スタイルに応じて音声変換部44が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部32の詳細な動作については、第6の実施形態で図21を参照して説明した内容と同様であることより、説明を省略する。
変換学習部82は、学習データ記憶部82aを備え、変換制御部32からディジタル音声信号が入力される場合(発声スタイルが通常音声で学習可能な場合)に、特徴抽出部62から出力されるピッチ成分を音声変換部43が音声を変換する際に必要とする情報として学習し、この学習したデータを学習データ記憶部82aに記憶する。変換学習部82の詳細な動作については、後述する。
音声変換部44は、特徴抽出部62が抽出したピッチ成分とスペクトル成分、および学習データ記憶部82aが記憶する学習データを用いて、変換制御部32を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部44の詳細な動作については、後述する。
音声出力部51は、変換制御部32あるいは音声変換部44から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部32から音声変換部44に、あるいは音声変換部44から変換制御部32に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第7の実施形態に係わる音声変換装置257の各部の詳細な動作について説明する。まず特徴抽出部62の詳細な動作について、図25に示すフローチャートを参照して説明する。
まずステップS6201において特徴抽出部62は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS6202に移行する。ここでフレームとは、発話スタイル推定部22の発話スタイルの推定処理や、音声変換部44の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。ここでのフレーム長およびフレーム周期は、第1の実施形態の発話スタイル推定部21と同一のものを用いてもよい。
ステップS6202において特徴抽出部62は、ステップS6201で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップS6203に移行する。なお、分析手法として例えば線形予測分析(LPC)があり、抽出される線形予測係数αi(i=1,2,…,N:Nは分析次元を表す)によってスペクトル成分を表現すればよい。
ステップS6203において特徴抽出部62は、ステップS6201で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分(周波数Ffと強さSf)を抽出し、ステップS6204に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測(LPC)係数αiを用いて、音声波形からステップS6202で抽出したスペクトル成分を除去した予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)を算出し、予測残差信号riの自己相関関数からピッチ成分の周波数Ffおよび強さSfを求める方法がある。
ステップS6204において特徴抽出部62は、ステップS6203で抽出したピッチ成分を、発話スタイル推定部22、音声変換部44および変換学習部82に出力する。また、特徴抽出部62は、ステップS6203でピッチ成分を求める際に算出した予測残差信号riと、ステップS6202で抽出したスペクトル成分に相当する線形予測係数αiを音声変換部44に出力する。
ステップS6205において特徴抽出部62は、音声入力部11からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS6201に移行して、次のフレームについて、スペクトル成分やピッチ成分の抽出を行う。
次に、変換学習部82の詳細な動作について、図26に示すフローチャートを参照して説明する。変換学習部82は、図21のフローチャートで説明したように、発声スタイルが通常音声で、かつ学習可能な場合にディジタル音声信号が入力されて、学習処理を実行する。
まず、ステップS8201において変換学習部82は、発話スタイルが通常音声と判定されたのに伴って変換制御部32からディジタル音声信号が入力されると、特徴抽出部62からピッチ成分を取得し、ステップS8202に移行する。
ステップS8202において変換学習部82は、ステップS8201で取得したピッチ成分が学習に利用できるかどうかを判断する。フレーム毎の音声データには、ピッチ成分が強く表れる有声音を含むものと、ピッチ成分がほとんど観測されない無声音を含むものがある。このため、無声音の部分を学習対象に用いることで生じる悪影響を除去するために、学習区間の選定を行う。
具体的な判断の手法としては、例えば、フレーム毎に音声データに自己相関関数を適用して、相関値を求める。そして、この相関値が予め設定した閾値を越える場合には、ピッチ成分が強く表れていることを示すため、学習に適したピッチ成分であると判断し、上記閾値以下の場合には、ピッチ成分が強く表れていないことを示すため、学習には適さないピッチ成分であると判断する。学習に適したピッチ成分の場合には、ステップS8203に移行し、一方、学習に適さないピッチ成分の場合には、ステップS8204に移行する。
ステップS8203において変換学習部82は、ステップS8201で取得したピッチ成分に基づく学習データを生成し、これを学習データ記憶部82aに記録し、ステップS8204に移行する。なお、ピッチ成分に基づく学習データの生成方法としては、様々な方法が考えられる。例えばピッチ成分の平均値を登録する場合には、式(4)にしたがって行う。すなわち、過去の学習により学習データ記憶部82aに記録したピッチ成分の平均値Ppavと、それまでの学習回数Nを記録しておき、新しく学習するピッチ成分Pnewを用いて新しいピッチ成分を更新すればよい
ステップS8204において変換学習部82は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS8201に移行して、次のフレームについて処理を実行する。
次に、音声変換部44の詳細な動作について、図27に示すフローチャートを参照して説明する。音声変換部44は、図21のフローチャートで説明したように、発話スタイルがささやき声と判定された場合に、変換制御部32からディジタル音声信号が入力される。この例では、入力されたディジタル音声信号に、ピッチ成分を付加することで聴き取りやすくなるように変換する。
ステップS4401において音声変換部44は、変換制御部32から入力されるディジタル音声信号から、発話スタイル推定部22にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Flおよびフレーム周期Fsで音声データを切り出し、ステップS4402に移行する。ここでのフレーム長およびフレーム周期は、特徴抽出部62と同一のものを用いてもよい。
ステップS4402において音声変換部44は、特徴抽出部62から線形予測係数αi、予測残差信号riおよびビッチ成分を取得し、ステップS4403に移行する。
ステップS4403において音声変換部44は、ステップS4402で取得したピッチ成分に対応する音声波形を学習データ記憶部82aから読み出し、これに基づいて有声音源信号を発生させる。例えば読み出したピッチ周期に応じて単純なパルス信号を繰り返し発生することで有声音源信号を発生し、これを予測残差信号に足し合わせることで有声音源信号を発生させる。その後、ステップS4404に移行する。
ステップS4404において音声変換部44は、ステップS4403でピッチ成分が付与された予測残差信号(ri)と、ステップS4402でスペクトル成分として抽出した線形予測係数(αi)とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部51に出力する。
ステップS4405において音声変換部44は、変換制御部32からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS4401に移行して、次のフレームについて、ピッチ成分を付加する処理を実行する。
以上のように、上記構成の音声変換装置257では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置257によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。
また、上記構成の音声変換装置257では、特徴抽出部62を設けて、ここで抽出したピッチ成分とスペクトル成分を、発話スタイル推定部22、音声変換部44および変換学習部82で共用ているので、装置全体での計算量を抑制できる。その他、第1の実施形態の音声変換装置251や第6の実施形態の音声変換装置256と同様の効果が得られ、また同様の変形が可能である。
(第8の実施形態)
次に、音声変換装置250の第8の実施形態として、図28に示すような音声変換装置258について説明する。
この実施形態では、変換された音声信号を、参照信号出力部を通して音声符号化部260に入力するように動作する。現在、携帯電話(移動無線端末装置)の符号化には世代に応じて様々な方式が規格化されており、今後も新しい方式の規格化が進められると予想されるが、共通して用いられているのは線形予測分析(LPC)や線スペクトル対(LSP)分析である。
これらの分析で算出されるパラメータは、音声信号からスペクトル成分もしくはピッチ成分を抽出して処理を進めるという点で共通項が多いため、発話スタイル推定や音声変換での特徴抽出とも親和性が高い。特徴抽出の処理を共通化することにより計算量を抑制することが可能となる。
この実施形態では、符号化方式として符号励振線形予測(CELP)符号化をベースとした符号化が採用された場合を例に、符号化処理と共通する信号処理を特徴抽出部でまとめて行うことを考える。
図28に示すように、音声変換装置258は、音声入力部11と、発話スタイル推定部22と、変換制御部32と、音声変換部44と、参照信号出力部52と、特徴抽出部63と、変換学習部82とを備える。なお、図28には、図2に示した音声符号化部260も示す。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を変換制御部32と特徴抽出部63に出力する。
特徴抽出部63は、線スペクトル対分析を行って、ディジタル音声信号のスペクトル成分を抽出し、スペクトル成分である線形予測(LPC)係数αiに基づいて、ディジタル音声信号の特徴量として、フレーム毎に、予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)と、ピッチ成分(周波数Ffと強さSf)を抽出する。
ここで抽出されたピッチ成分は、発話スタイル推定部22だけでなく、音声変換部44での変換処理にも適用できるため、音声変換部44にも出力される。またピッチ成分は、変換学習部82にも出力される。このように、発話スタイル推定部22、音声変換部44および変換学習部82でピッチ成分を共用することで、ピッチ成分を抽出する処理の重複を避けることができ、効率化が図られる。また予測残差信号riおよび線形予測係数αiは、音声変換部44に出力され、この信号の抽出についても処理の効率化が図られる。特徴抽出部63の詳細な動作については後述する。
また特徴抽出部63は、量子化された線スペクトル対のコードブック(量子化LSPパラメータ)を先ほど求めた線形予測(LPC)係数αiから求め、このコードブックと上記線形予測(LPC)係数αiを音声符号化部260に出力する。特徴抽出部63の詳細な動作については、後述する。
発話スタイル推定部22は、特徴抽出部63にて抽出されたピッチ成分を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部22で推定された発話スタイルは、変換制御部32に出力される。発話スタイル推定部22の詳細な動作については、第2の実施形態で図10を参照して説明した内容と同様であることより、説明を省略する。
変換制御部32は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部22が推定した発話スタイルに応じて、音声入力部11から入力されるディジタル音声信号を参照信号出力部52、変換学習部82あるいは音声変換部44に選択的に出力する。
なお、このように、発話スタイルに応じた切替出力により、音声変換部44による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部44に出力し、発話スタイルに応じて音声変換部44が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部32の詳細な動作については、第6の実施形態で図21を参照して説明した内容と同様であることより、説明を省略する。
変換学習部82は、学習データ記憶部82aを備え、変換制御部32からディジタル音声信号が入力される場合(発声スタイルが通常音声で学習可能な場合)に、特徴抽出部63から出力されるピッチ成分を音声変換部43が音声を変換する際に必要とする情報として学習し、この学習したデータを学習データ記憶部82aに記憶する。変換学習部82の詳細な動作については、第7の実施形態で図26を参照して説明した内容と同様であることより、説明を省略する。
音声変換部44は、特徴抽出部63が抽出したピッチ成分とスペクトル成分、および学習データ記憶部82aが記憶する学習データを用いて、変換制御部32を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を参照信号出力部52に出力する。音声変換部44の詳細な動作については、第7の実施形態で図27を参照して説明した内容と同様であることより、説明を省略する。
参照信号出力部52は、変換制御部32あるいは音声変換部44から出力されるディジタル音声信号をバッファし、これを参照信号として後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部32から音声変換部44に、あるいは音声変換部44から変換制御部32に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
音声符号化部260は、特徴抽出部63で算出した線形予測係数や量子化された線スペクトル対のコードブックに基づいて、参照信号出力部52から出力される音声変換された参照信号を符号化して符号データを生成する。なお、音声符号化部260は、受信機側(復号化部)で用いるコードブックと同じ上記コードブックとして、固定コードブックとゲインコードブックの各テーブルを予め備えている。音声符号化部260の詳細な動作については、後に詳細に述べる。
次に、第8の実施形態に係わる音声変換装置258の各部の詳細な動作について説明する。まず特徴抽出部63の詳細な動作について、図29に示すフローチャートを参照して説明する。
まずステップS6301において特徴抽出部63は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS6302aに移行する。ここでフレームとは、発話スタイル推定部22の発話スタイルの推定処理や、音声変換部44の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。ここでのフレーム長およびフレーム周期は、第1の実施形態の発話スタイル推定部21と同一のものを用いてもよい。
ステップS6302aにおいて特徴抽出部63は、ステップS6301で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップS6302bに移行する。なお、分析手法として、線形予測分析(LPC)を用い、抽出される線形予測係数αi(i=1,2,…,N:Nは分析次元を表す)によってスペクトル成分を表現する。
ステップS6302bにおいて特徴抽出部63は、ステップS6302aで抽出した線形予測係数αiに対して線スペクトル対分析を行い、LSPパラメータを求め、ステップS6302cに移行する。
ステップS6302cにおいて特徴抽出部63は、あらかじめ準備しておいたLSPパラメータの符号帳から、ステップS6302bで求めたLSPパラメータに最も近いコードブックを検出することで、上記LSPパラメータを量子化し、ステップS6302dに移行する。
ステップS6302dにおいて特徴抽出部63は、ステップS6302cで量子化したLSPパラメータを再び線形予測係数に変換し、ステップS6303に移行する。
ステップS6303において特徴抽出部63は、ステップS6301で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分(周波数Ffと強さSf)を抽出し、ステップS6304に移行する。なお、ピッチ成分の抽出法としては、量子化された線形予測係数を用いて、音声波形からステップS6302aで抽出したスペクトル成分を除去した予測残差信号ri(i=1,2,…,N:Nは分析次元を表す)を算出し、予測残差信号riの自己相関関数からピッチ成分の周波数Ffおよび強さSfを求める。
ステップS6304において特徴抽出部63は、ステップS6303で抽出したピッチ成分を、発話スタイル推定部22、音声変換部44および変換学習部82に出力する。また、特徴抽出部63は、ステップS6303でピッチ成分を求める際に算出した予測残差信号riを、音声変換部44に出力する。さらに、特徴抽出部63は、ステップS6302aで抽出した線形予測係数αiと、ステップS6302cで量子化したLSPパラメータ(コードブック)とを音声符号化部260に出力する。
ステップS6305において特徴抽出部63は、音声入力部11からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS6301に移行して、次のフレームについて、スペクトル成分やピッチ成分の抽出を行う。
次に、音声符号化部260の詳細な動作について、図30に示すフローチャートを参照して説明する。
まずステップS9101において音声符号化部260は、特徴抽出部63から量子化された線形予測係数や量子化された線スペクトル対のコードブックを取得するとともに、参照信号出力部52から参照信号を取得し、ステップS9102に移行する。
ステップS9102において音声符号化部260は、参照信号について、量子化された線形予測係数を用いてピッチ分析を行い、ピッチ周期情報を得る。さらには参照信号について、適応コードブック成分に相当する励振信号を求め、ステップS9103に移行する。
ステップS9103において音声符号化部260は、参照信号について、量子化された線形予測係数および励振信号に基づいて、固定コードブックを探索して最適な固定コードブックを求める。またこれに合わせて、固定コードブック成分に相当する励振信号も求め、ステップS9104に移行する。
ステップS9104において音声符号化部260は、参照信号と、量子化された線形予測係数と、適応コードブック成分に相当する励振信号と、固定コードブックに相当する励振信号とに基づいて、ゲインコードブックを探索して最適なゲインコードブックを求め、ステップS9105に移行する。
ステップS9105において音声符号化部260は、ここまでに求めたLSPコードブックと、ゲインコードブックと、固定コードブックと、ピッチ周期情報などを符号データとしてパッケージすることで、参照信号を符号化した符号化データを生成する。
ステップS9106において音声符号化部260は、参照信号出力部52からの参照信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS9101に移行して、符号化を行う。
以上のように、上記構成の音声変換装置258では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置258によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。
また、上記構成の音声変換装置258では、特徴抽出部63を設けて、ここで抽出したピッチ成分とスペクトル成分を、発話スタイル推定部22、音声変換部44および変換学習部82で共用ているので、装置全体での計算量を抑制できる。さらに、音声変換装置258では、特徴抽出部63において、スペクトル成分を求める際に求めることができる、参照信号を符号化するのに必要な情報も求めるので、装置全体での計算量を抑制できる。
その他、第1の実施形態の音声変換装置251や第7の実施形態の音声変換装置257と同様の効果が得られ、また同様の変形が可能である。なお、この実施形態で述べた音声符号化部260の動作は一例に過ぎず、規格されているあらゆる音声符号化方式に適用することが可能である。
(第9の実施形態)
次に、音声変換装置250の第9の実施形態として、図31に示すような音声変換装置259について説明する。図31に示すように、音声変換装置259は、音声入力部11と、発話スタイル推定部26と、変換制御部31と、音声変換部41と、音声出力部51と、判定用辞書データ記憶部90とを備える。
音声入力部11は、前段のAD変換部240からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部26と変換制御部31に出力する。
発話スタイル推定部26は、音声入力部11から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを、判定用辞書データ記憶部90が記憶する判定用辞書データを参照して推定する。発話スタイル推定部26で推定された発話スタイルは、変換制御部31に出力される。発話スタイル推定部26の詳細な動作については後述する。
判定用辞書データ記憶部90は、上記判定用辞書データを記憶する。判定用辞書としては、様々な形態が考えられるが、一例としては混合ガウス分布モデルのような特徴空間上での確率分布を挙げることができる。判定用辞書は、発話スタイル毎に準備した音声を学習素材にEMアルゴリズムなどの既存の学習アルゴリズムを使うことで学習することができる。この実施形態では、通常発声、ささやき声の発話スタイルに対応するモデルが事前に学習されているものとする。
変換制御部31は、音声入力部11から入力されるディジタル音声信号をバッファし、発話スタイル推定部26が推定した発話スタイルに基づいて、音声入力部11から入力されるディジタル音声信号を音声出力部51に出力するのか、音声変換部41に出力するのかを切り替える。
なお、このように、発話スタイルに応じた切替出力により、音声変換部41による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部41に出力し、発話スタイルに応じて音声変換部41が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部31の詳細な動作については、第1の実施形態で図6を参照して説明した内容と同様であることより、説明を省略する。
音声変換部41は、ピッチデータを記憶するピッチデータ記憶部41aを備える。このピッチデータ記憶部41aは、代表的なピッチ成分(周波数Ffと強さSf)と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部41は、ピッチデータ記憶部41aが記憶するピッチデータを用いて変換制御部31を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部51に出力する。音声変換部41の詳細な動作については、第1の実施形態で図7を参照して説明した内容と同様であることより、説明を省略する。
音声出力部51は、変換制御部31あるいは音声変換部41から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部260に出力する。なお、ディジタル音声信号の出力が、変換制御部31から音声変換部41に、あるいは音声変換部41から変換制御部31に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部260に出力する。
次に、第9の実施形態に係わる音声変換装置259の各部の詳細な動作について説明する。発話スタイル推定部26の詳細な動作について、図32に示すフローチャートを参照して説明する。ここでは、入力されたディジタル音声信号を信号処理して、音量の大きさから通常の発声とささやき声を識別する場合を例に挙げて説明する。
まずステップS2601において発話スタイル推定部26は、音声入力部11から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Flおよびフレーム周期Fsで切り出し、ステップS2602に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部41の変換処理における基本単位となるもので、例えばフレーム長Flを25ms、フレーム周期Fsを10msのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。
ステップS2602において発話スタイル推定部26は、ステップS2601で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出して、ステップS2603に移行する。この実施形態では、一例として、音声認識によく用いられているメル周波数ケプストラム係数(MFCC)を特徴量として判定用辞書を構築するものとして説明する。
このため、発話スタイル推定部26は、フレームに含まれる音声波形から高速フーリエ変換(FFT)によってパワースペクトルを抽出し、各スペクトル成分を聴覚特性に合わせて設計されたメル帯域のバンドパスフィルタを通す。そして、発話スタイル推定部26は、上記バンドパスフィルタを通過した成分を対数化し、その後、逆フーリエ変換してケプストラム係数に変換する。これにより、各フレームに対する特徴量mを算出する。なお、mは特徴量の次元数で、例えば13次元やその一次微係数を含む26次元などを採用する。
ステップS2603において発話スタイル推定部26は、ステップS2602で算出したフレーム単位の特徴量をバッファに格納し、ステップS2604に移行する。このバッファは、発話スタイル推定部26に備えられ、例えば1秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、1つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップS2603では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。
ステップS2604において発話スタイル推定部26は、判定に必要な区間長(例えば1秒)の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、S2601に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップS2605に移行する。
ステップS2605において発話スタイル推定部26は、区間長tの代表特徴量Xtを求める。例えば代表特徴量Xtとして、式(1)に示す平均パワーからを求める。そして代表特徴量Xtを、判定用辞書データ記憶部90が記憶する判定用辞書データと比較して、発話スタイル毎の尤度を算出する。例えば判定用辞書として、特徴量空間上での各発話スタイルの平均ベクトルと分散ベクトルを予め格納しておき、入力された特徴量と平均ベクトルの距離(距離尺度としてはユークリッド距離や正規分布の確率など)を動的に求めることで、尤度を求めることができる。
ここで判定用モデルとして一混合の正規分布を例として考えた場合、発話スタイル毎に正規分布の平均ベクトルμy、対角共分散行列Σy(yは発話スタイルの種類を表し、それぞれ次元数は特徴量と同じ)がモデルパラメータとして規定される。この場合、尤度Lyは下式(5)で求めることができる。
ステップS2606において発話スタイル推定部26は、ステップS2605で求めた尤度と、予め記憶している発話スタイル毎の平均尤度とを比較して、最も近い尤度に対応する発話スタイルを、当該区間の発話スタイルとして推定し、ステップS2607に移行する。
ステップS2607において発話スタイル推定部26は、ステップS2606の判定で得られた発話スタイルを変換制御部31に通知し、ステップS2608に移行する。
ステップS2608において発話スタイル推定部26は、音声入力部11からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップS2601に移行して、次のフレームについて処理を実行する。
以上のように、発話スタイルの推定をフレーム単位で繰り返し実行し、ディジタル音声信号の入力が途切れた場合には、当該処理を停止し、再び入力が行われれば、当該処理を再開する。
以上のように、上記構成の音声変換装置259では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。
したがって、上記構成の音声変換装置259によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。
また、上記構成の音声変換装置259では、発話スタイルを推定する場合に、事前に発話スタイル毎の音声から判定用の辞書を構築しておき、この辞書と入力された音声を特徴空間上で比較することで発話スタイルの推定を行うようにしている。このように多くのデータから特徴空間の分布を事前に準備することで、他の方法に比べて安定した判定結果を得ることができる。その他、第1の実施形態の音声変換装置251と同様の効果が得られる。
なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
その一例として例えば、上記実施の形態では、移動無線端末装置の送話系の構成に、本発明に係わる音声変換装置251〜259を適用した場合を例に挙げて説明したが、受話系(例えば音声復号部200とDA変換部210の間)に音声変換装置251〜259を適用するようにしてもよい。
また音声変換装置251〜259をそれぞれDSP(Digital Signal Processor)で実現するようにしてもよい。そしてまた、音声変換装置251〜259の各構成をCPU(Central Processing Unit)とメモリで実現するようにしてもよい。この場合、メモリには、CPUを音声変換装置251〜259のいずれかとして動作させるための制御プログラムを記憶し、上記CPUがこの制御プログラムにしたがって動作することにより、音声変換装置251〜259のいずれかとして動作する。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。
11…音声入力部、21〜26…発話スタイル推定部、31,32…変換制御部、41〜44…音声変換部、41a,42a…ピッチデータ記憶部、51…音声出力部、52…参照信号出力部、61〜63…特徴抽出部、71,72…動作モード格納部、81…変換学習部、81,82…変換学習部、81a,82a…学習データ記憶部、90…判定用辞書データ記憶部、100…制御部、110…無線通信部、120…表示部、130…通話部、131…スピーカ、132…マイクロホン、140…操作部、150…記憶部、200…音声復号部、210…DA変換部、220,230…増幅器、240…AD変換部、250〜259…音声変換装置、260…音声符号化部、BS…基地局装置、NW…移動通信網。