JP4445536B2

JP4445536B2 - 移動無線端末装置、音声変換方法およびプログラム

Info

Publication number: JP4445536B2
Application number: JP2007245968A
Authority: JP
Inventors: 和範井本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-09-21
Filing date: 2007-09-21
Publication date: 2010-04-07
Anticipated expiration: 2027-09-21
Also published as: US20090083038A1; JP2009077292A; US8209167B2

Description

この発明は、不明瞭な音声信号を明瞭に変換する機能を備えた移動無線端末装置に関する。

周知のように、従来の移動無線端末装置では、音声変換機能により、ささやき声などの聞き取り難い音声に信号処理を施し、ささやき声に欠落するピッチ成分を付与することで聞き取りやすく音声信号を変換する（例えば、特許文献１参照）。

しかしながら、実際の環境では、通話している際中に周りに人が増えるなど環境変化があると、話者はささやき声で話すなど急に通話スタイルを変更する。従来の移動無線端末装置では、発話スタイルに併せてユーザが音声変換機能を切り替える必要があり、シームレスに音声変換機能を実行することができないという問題があった。
特開平９−９０９９３公報

従来の移動無線端末装置では、発話スタイルに併せてユーザが音声変換機能を切り替える必要があり、シームレスに音声変換機能を実行することができないという問題があった。
この発明は上記の問題を解決すべくなされたもので、ユーザ操作無しに発話スタイルに併せて音声変換機能を切り替えることが可能な移動無線端末装置、音声変換方法およびプログラムを提供することを目的とする。

上記の目的を達成するために、この発明は、話者の発話から得られる音声信号が入力される音声入力手段と、動作モードの設定を受け付ける受付手段と、音声信号から音声の特徴を示す特徴量を検出する検出手段と、音声信号を変換する変換手段と、設定された動作モードと特徴量に基づいて話者の発話スタイルを推定する推定手段と、推定された発話スタイルに応じて変換手段による変換を制御する制御手段とを具備して構成するようにした。

この発明によれば、ユーザ操作無しに発話スタイルに併せて音声変換機能を切り替えることが可能な音声変換装置を提供できる。

以下、図面を参照して、この発明の一実施形態について説明する。
図１は、この発明の一実施形態に係わる音声変換装置を適用した移動無線端末装置の構成を示すブロック図である。この移動無線端末装置は、図１に示すように、主な構成要素として、制御部１００と、無線通信部１１０と、表示部１２０と、通話部１３０と、操作部１４０と、記憶部１５０とを備える。なお、以下の実施形態では、送話側に上記音声変換装置を適用した場合を例に挙げて説明するが、受話側に適用することも可能である。

無線通信部１１０は、制御部１００の指示にしたがって、移動通信網ＮＷに収容された基地局装置ＢＳと無線通信を行うものである。
表示部１２０は、制御部１００の指示にしたがって、画像（静止画像および動画像）や文字情報などを表示して、視覚的にユーザに情報を伝達するものである。

通話部１３０は、スピーカ１３１やマイクロホン１３２を備え、ユーザの音声を音声データに変換して制御部１００に出力したり、通話相手などから受信した音声データを復号してスピーカ１３１から出力するものであって、図２に示すように構成される。すなわち、通話部１３０は、スピーカ１３１と、マイクロホン１３２と、音声復号部２００と、ＤＡ変換部２１０と、増幅器２２０，２３０と、ＡＤ変換部２４０と、音声変換装置２５０と、音声符号化部２６０とを備える。

制御部１００から与えられた音声データは、音声復号部２００で復号されてディジタル音声信号となる。そしてこのデジタル音声信号は、ＤＡ変換部２１０によりアナログ音声信号に変換され、増幅器２２０で信号増幅された後、スピーカ１３１から出力される。

また、ユーザが発した送話音声は、マイクロホン１３２により電気信号に変換され、増幅器２３０で信号増幅された後、ＡＤ変換部２４０でアナログ音声信号からディジタル音声信号に変換される。そして、このディジタル音声信号は、音声変換装置２５０により、不明瞭な信号から明瞭な信号に変換される。

より詳細には、音声変換装置２５０は、上記ディジタル音声信号からその話者の発話スタイル（通常の発声、ささやく発声、大きな声での発声など）を推定した上で、変換する区間を自動的に選定する。音声変換装置２５０で音声変換されたディジタル音声信号は、音声符号化部２６０で符号化されてビットストリームデータに変換され、制御部１００に出力される。

操作部１４０は、複数のキースイッチなどを備え、これを通じてユーザから指示を受け付けるものである。
記憶部１５０は、制御部１００の制御プログラムや制御データ、アプリケーションソフトウェア、通信相手の名称や電話番号などを対応づけたアドレスデータ、送受信した電子メールのデータ、ＷｅｂブラウジングによりダウンロードしたＷｅｂデータや、ダウンロードしたストリーミングデータなどを記憶するものである。

制御部１００は、マイクロプロセッサを備え、記憶部１５０が記憶する制御プログラムや制御データにしたがって動作し、当該移動無線端末装置の各部を統括して制御し、音声通信やデータ通信を実現するものである。また制御部１００は、記憶部１５０が記憶するアプリケーションソフトウェアにしたがって動作し、電子メールの送受信や、Ｗｅｂブラウジング、ダウンロードしたストリーミングデータに基づいて動画像を表示部１２０に表示したり、音声通信を行う通信制御機能を備える。

（第１の実施形態）
次に、音声変換装置２５０の第１の実施形態として、図３に示すような音声変換装置２５１について説明する。図３に示すように、音声変換装置２５１は、音声入力部１１と、発話スタイル推定部２１と、変換制御部３１と、音声変換部４１と、音声出力部５１とを備える。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号が入力され、このディジタル音声信号を発話スタイル推定部２１と変換制御部３１に出力する。
発話スタイル推定部２１は、音声入力部１１から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部２１で推定された発話スタイルは、変換制御部３１に出力される。発話スタイル推定部２１の詳細な動作については後述する。

変換制御部３１は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２１が推定した発話スタイルに基づいて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１に出力するのか、音声変換部４１に出力するのかを切り替える。

なお、このように、発話スタイルに応じた切替出力により、音声変換部４１による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部４１に出力し、発話スタイルに応じて音声変換部４１が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部３１の詳細な動作については、後述する。

音声変換部４１は、ピッチデータを記憶するピッチデータ記憶部４１ａを備える。このピッチデータ記憶部４１ａは、ディジタル音声信号の代表的なピッチ成分（周波数Ｆｆと強さＳｆ）と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部４１は、ピッチデータ記憶部４１ａが記憶するピッチデータを用いて変換制御部３１を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部５１に出力する。音声変換部４１の詳細な動作については、後述する。

音声出力部５１は、変換制御部３１あるいは音声変換部４１から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部２６０に出力する。なお、ディジタル音声信号の出力が、変換制御部３１から音声変換部４１に、あるいは音声変換部４１から変換制御部３１に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部２６０に出力する。

次に、第１の実施形態に係わる音声変換装置２５１の各部の詳細な動作について説明する。
まず発話スタイル推定部２１の詳細な動作について、図４に示すフローチャートを参照して説明する。ここでは、入力されたディジタル音声信号を信号処理して、音量の大きさから通常の発声とささやき声を識別する場合を例に挙げて説明する。

図５は、通常発声とささやき声をスペクトル分析した結果を示すものである。この図において、左側３つのブロックが通常発声に対するスペクトル成分であり、右側３つのブロックがささやき声に対するスペクトル成分を示し、濃淡が強度を示している。両者を比較すると、音量の大きさやピッチ成分の強さの違い、さらには低帯域におけるスペクトルピークの大きさなど様々な違いが存在することがわかる。

まずステップＳ２１０１において発話スタイル推定部２１は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ２１０２に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部４１の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。

ステップＳ２１０２において発話スタイル推定部２１は、ステップＳ２１０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出して、ステップＳ２１０３に移行する。この実施形態では、音量の大きさによって発話スタイルを推定するため、例えば上記音声データに高速フーリエ変換（ＦＦＴ）を施してパワースペクトルを抽出し、そのパワースペクトルからパワーＰｉ（ｉはフレーム番号）を計算することで、フレーム毎に特徴量を算出する。

ステップＳ２１０３において発話スタイル推定部２１は、ステップＳ２１０２で算出したフレーム単位の特徴量をバッファに格納し、ステップＳ２１０４に移行する。このバッファは、発話スタイル推定部２１に備えられ、例えば１秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのパワー成分から発話スタイルを判断することができ、１つのフレームのパワー成分から発話スタイルを判断するよりも安定した判断が行える。またステップＳ２１０３では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。

ステップＳ２１０４において発話スタイル推定部２１は、判定に必要な区間長（例えば１秒）の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、Ｓ２１０１に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップＳ２１０５に移行する。

ステップＳ２１０５において発話スタイル推定部２１は、区間長ｔの代表特徴量Ｘｔを求める。例えば代表特徴量Ｘｔとして、下式（１）により平均パワーを求め、ステップＳ２１０６に移行する。例えば、区間長ｔを１秒とすると、１００フレーム分（Ｎ＝１００）の特徴量Ｐｉから平均パワー（代表特徴量）をＸｔとして求める。

Ｘｔ＝ ΣＰｉ／Ｎ … （１）
ステップＳ２１０６において発話スタイル推定部２１は、予め設定した関数ｆ（Ｘｔ）に、ステップＳ２１０５で求めた代表特徴量Ｘｔを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップＳ２１０７に移行する。ここで例えば、関数ｆ（Ｘｔ）が予め設定した閾値Ｔｘを越える場合には、その区間では通常発声が行われていると判定し、一方、関数ｆ（Ｘｔ）が閾値Ｔｙ（＜Ｔｘ）以上Ｔｘ未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ｔｙ未満であれば、その区間では、発話は行われていないもの（音声無し）と判定する。

ステップＳ２１０７において発話スタイル推定部２１は、ステップＳ２１０６の判定で得られた発話スタイルを変換制御部３１に通知し、ステップＳ２１０８に移行する。
ステップＳ２１０８において発話スタイル推定部２１は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ２１０１に移行して、次のフレームについて処理を実行する。

以上のように、発話スタイルの推定をフレーム単位で繰り返し実行し、ディジタル音声信号の入力が途切れた場合には、当該処理を停止し、再び入力が行われれば、当該処理を再開する。

次に、変換制御部３１の詳細な動作について、図６に示すフローチャートを参照して説明する。変換制御部３１は、上述したように、発話スタイルがささやき声と判定された場合と、それ以外と判断された場合に応じて、後段の音声変換部４１の動作を制御するものである。

ステップＳ３１０１において変換制御部３１は、発話スタイル推定部２１によって推定された発話スタイルを取得し、ステップＳ３１０２に移行する。この実施形態では、発話スタイル推定部２１により、上述したように、ささやき声、通常発声、音声なしの３種類の判定がなされ、その結果が入力されることになる。

ステップＳ３１０２において変換制御部３１は、ステップＳ３１０１で取得した発話スタイルに基づいて、音声変換部４１によるディジタル音声信号の変換処理が必要か否かを判定する。ここで、発話スタイルがささやき声の場合には、上記変換処理が必要と判定して、ステップＳ３１０３に移行する。一方、発話スタイルが通常発声や音声無しの場合には、上記変換処理が不必要と判定して、ステップＳ３１０４に移行する。

ステップＳ３１０３において変換制御部３１は、音声変換部４１に対して、発話スタイルがささやき声と発話スタイル推定部２１によって判定されたフレームとその前後の所定区間のフレームのディジタル音声信号を出力し、ステップＳ３１０５に移行する。

一方、ステップＳ３１０４において変換制御部３１は、音声出力部５１に対して、発話スタイルが通常音声もしくは音声無しと発話スタイル推定部２１によって判定されたフレームのディジタル音声信号を出力し、ステップＳ３１０５に移行する。

ステップＳ３１０５において変換制御部３１は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ３１０１に移行して、次のフレームについて処理を実行する。

次に、音声変換部４１の詳細な動作について、図７に示すフローチャートを参照して説明する。音声変換部４１は、上述したように、発話スタイルがささやき声と判定された場合に、変換制御部３１からディジタル音声信号が入力され、フレーム毎に図７に示す処理を実行する。この例では、入力されたディジタル音声信号に、ピッチ成分を付加することで聴き取りやすくなるように変換する。

ステップＳ４１０１において音声変換部４１は、変換制御部３１から入力されるディジタル音声信号から、発話スタイル推定部２１にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Ｆｌおよびフレーム周期Ｆｓで音声データを切り出し、ステップＳ４１０２に移行する。ここでのフレーム長およびフレーム周期は、発話スタイル推定部２１と同一のものを用いてもよい。

ステップＳ４１０２において音声変換部４１は、ステップＳ４１０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップＳ４１０３に移行する。なお、分析手法として例えば線形予測分析（ＬＰＣ）があり、抽出される線形予測係数αｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）によってスペクトル成分を表現すればよい。

ステップＳ４１０３において音声変換部４１は、ステップＳ４１０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分（周波数と強さ）を抽出し、ステップＳ４１０４に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測（ＬＰＣ）係数αｉを用いて、音声波形からステップＳ４１０２で抽出したスペクトル成分を除去した予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）を算出し、予測残差信号ｒｉの自己相関関数からピッチ成分の周波数Ｆｆおよび強さＳｆを求める方法がある。

ステップＳ４１０４において音声変換部４１は、ステップＳ４１０３で抽出したピッチ成分に対応する音声波形をピッチデータ記憶部４１ａから読み出し、読み出した有声音源信号と予測残差信号を足し合わせることでピッチ成分が付与された予測残差信号を得て、ステップＳ４１０５に移行する。なお、この実施形態では、ピッチデータ記憶部４１ａを備えるものとして説明したが、これに代わって、ステップＳ４１０３で求めたピッチ周期に応じて単純なパルス信号を繰り返し発生し、これを対応するフレームの音声データに付加するようにしてもよい。

ステップＳ４１０５において音声変換部４１は、ステップＳ４１０４でピッチ成分が付与された予測残差信号（ｒｉ）と、ステップＳ４１０３でスペクトル成分として抽出した線形予測係数（αｉ）とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部５１に出力し、当該処理を終了する。なお、次のフレームが存在する場合には、そのフレームについて、音声変換部４１は、図７に示す処理を実施する。

以上のように、上記構成の音声変換装置２５１では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５１によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。

また上記構成の音声変換装置２５１は、推定した発話スタイルに基づいて変換が必要な音声区間についてのみ音声変換を行うため、音声変換が不要な区間に誤って変換を施して聴き取りにくい音声を生成してしまうことを抑制でき、また変換が不要な区間に対する計算を抑制できる効果もある。

なおこの実施形態では、音声変換装置２５１において、ピッチ成分を付与することでささやき声を聞きやすい音声に変換する方法について記載したが、この発明はこれに限定されるものではない。例えばささやき声と通常発声の違いであるフォルマント帯域のスペクトルのみを強調する変換フィルタを用いて入力音声を変換することができる。

なお、このような変換フィルタは、変換前の音声データと変換後の音声データを用いて学習することも容易である。このように既存のどのような音声変換手法も本発明に組み込んで実施することが可能である。また発話スタイルとしてささやき声と通常発声を例に挙げたが、この発明はこれに限定されるものではない。例えば発話スタイルとして発話速度の速い発声および発話速度の遅い発声を規定して、音声変換装置２５１において話速変換を実施することで聞きやすく変換することも可能である。

（第２の実施形態）
次に、音声変換装置２５０の第２の実施形態として、図８に示すような音声変換装置２５２について説明する。図８に示すように、音声変換装置２５２は、音声入力部１１と、発話スタイル推定部２２と、変換制御部３１と、音声変換部４２と、音声出力部５１と、特徴抽出部６１とを備える。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を変換制御部３１と特徴抽出部６１に出力する。
特徴抽出部６１は、ディジタル音声信号のスペクトル成分を抽出し、スペクトル成分である線形予測（ＬＰＣ）係数αｉに基づいて、ディジタル音声信号の特徴量として、フレーム毎に、予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）と、ピッチ成分（周波数Ｆｆと強さＳｆ）を抽出する。

ここで抽出されたピッチ成分は、発話スタイル推定部２２だけでなく、音声変換部４２での変換処理にも適用できるため、音声変換部４２にも出力される。このように、発話スタイル推定部２２と音声変換部４２でピッチ成分を共用することで、ピッチ成分を抽出する処理の重複を避けることができ、効率化が図られる。また予測残差信号ｒｉとスペクトル成分である線形予測係数αｉは、音声変換部４２に出力され、この信号の抽出についても処理の効率化が図られる。特徴抽出部６１の詳細な動作については後述する。

発話スタイル推定部２２は、特徴抽出部６１にて抽出されたピッチ成分を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部２２で推定された発話スタイルは、変換制御部３１に出力される。発話スタイル推定部２２の詳細な動作については後述する。

変換制御部３１は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２２が推定した発話スタイルに基づいて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１に出力するのか、音声変換部４２に出力するのかを切り替える。

なお、このように、発話スタイルに応じた切替出力により、音声変換部４２による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部４２に出力し、発話スタイルに応じて音声変換部４２が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部３１の詳細な動作については、第１の実施形態で図６を参照して説明した内容と同様であることより、説明を省略する。

音声変換部４２は、ピッチデータを記憶するピッチデータ記憶部４２ａを備える。このピッチデータ記憶部４２ａは、代表的なピッチ成分（周波数と強さ）と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部４２は、特徴抽出部６１が抽出したピッチ成分とスペクトル成分、およびピッチデータ記憶部４２ａが記憶するピッチデータを用いて変換制御部３１を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部５１に出力する。音声変換部４２の詳細な動作については、後述する。

音声出力部５１は、変換制御部３１あるいは音声変換部４２から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部２６０に出力する。なお、ディジタル音声信号の出力が、変換制御部３１から音声変換部４２に、あるいは音声変換部４２から変換制御部３１に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部２６０に出力する。

次に、第２の実施形態に係わる音声変換装置２５２の各部の詳細な動作について説明する。まず特徴抽出部６１の詳細な動作について、図９に示すフローチャートを参照して説明する。

まずステップＳ６１０１において特徴抽出部６１は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ６１０２に移行する。ここでフレームとは、発話スタイル推定部２２の発話スタイルの推定処理や、音声変換部４２の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。ここでのフレーム長およびフレーム周期は、第１の実施形態の発話スタイル推定部２１と同一のものを用いてもよい。

ステップＳ６１０２において特徴抽出部６１は、ステップＳ６１０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップＳ６１０３に移行する。なお、分析手法として例えば線形予測分析（ＬＰＣ）があり、抽出される線形予測係数αｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）によってスペクトル成分を表現すればよい。

ステップＳ６１０３において特徴抽出部６１は、ステップＳ６１０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分（周波数Ｆｆと強さＳｆ）を抽出し、ステップＳ６１０４に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測（ＬＰＣ）係数αｉを用いて、音声波形からステップＳ６１０２で抽出したスペクトル成分を除去した予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）を算出し、予測残差信号ｒｉの自己相関関数からピッチ成分の周波数Ｆｆおよび強さＳｆを求める方法がある。

ステップＳ６１０４において特徴抽出部６１は、ステップＳ６１０３で抽出したピッチ成分を、発話スタイル推定部２２と、音声変換部４２に出力する。また、特徴抽出部６１は、ステップＳ６１０３でピッチ成分を求める際に算出した予測残差信号ｒｉと、ステップＳ６１０２で抽出したスペクトル成分に相当する線形予測係数αｉを、音声変換部４２に出力する。

ステップＳ６１０５において特徴抽出部６１は、音声入力部１１からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ６１０１に移行して、次のフレームについて、スペクトル成分やピッチ成分の抽出を行う。

次に、発話スタイル推定部２２の詳細な動作について、図１０に示すフローチャートを参照して説明する。ここでは、入力されたディジタル音声信号を信号処理して、ピッチ成分の強さから通常の発声とささやき声を識別する場合を例に挙げて説明する。
まずステップＳ２２０１において発話スタイル推定部２２は、特徴抽出部６１からここで抽出されたピッチ成分をフレーム単位で取得し、ステップＳ２２０２に移行する。

ステップＳ２２０２において発話スタイル推定部２２は、ステップＳ２２０１で取得したフレーム単位のピッチ成分をバッファに格納し、ステップＳ２２０３に移行する。このバッファは、発話スタイル推定部２２に備えられ、例えば１秒以上に相当する複数のフレームのピッチ成分を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、１つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップＳ２２０２では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しいピッチ成分のみが残るように古いものに上書きする。

また、ピッチ成分の強さで発話スタイルを推定する場合、ピッチ成分の強い区間を通常発声と判定し、ピッチ成分の弱い区間をささやき声と判定するが、通常発声の中にも、ピッチ成分が含まれない無声音は含まれるため、短い区間のピッチ成分では安定して判定することができない。これを解決するために、この実施形態では、例えば１秒程度の区間に含まれるピッチ成分をバッファに蓄積する。

ステップＳ２２０３において発話スタイル推定部２２は、判定に必要な区間長（例えば１秒）のピッチ成分がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長のピッチ成分が格納されていないため、Ｓ２２０１に移行して次のフレームのピッチ成分を取得する。一方、十分な区間長のピッチ成分がバッファに格納されている場合には、ステップＳ２２０４に移行する。

ステップＳ２２０４において発話スタイル推定部２２は、区間長ｔの代表特徴量Ｘｔを求める。例えば代表特徴量Ｘｔとして、下式（２）により平均パワーを求め、ステップＳ２２０５に移行する。例えば、区間長ｔを１秒とすると、１００フレーム分（Ｎ＝１００）のピッチ成分の強さＳｆｉ（ｉはフレーム番号）が平均パワー（代表特徴量）をＸｔとして求める。

Ｘｔ＝ ΣＳｆｉ／Ｎ … （２）
ステップＳ２２０５において発話スタイル推定部２２は、予め設定した関数ｆ（Ｘｔ）に、ステップＳ２２０４で求めた代表特徴量Ｘｔを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップＳ２２０６に移行する。ここで例えば、関数ｆ（Ｘｔ）が予め設定した閾値Ｔｘを越える場合には、その区間では通常発声が行われていると判定し、一方、関数ｆ（Ｘｔ）が閾値Ｔｙ（＜Ｔｘ）以上Ｔｘ未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ｔｙ未満であれば、その区間では、発話は行われていないもの（音声無し）と判定する。

ステップＳ２２０６において発話スタイル推定部２２は、ステップＳ２２０５の判定で得られた発話スタイルを変換制御部３１に通知し、ステップＳ２２０７に移行する。
ステップＳ２２０７において発話スタイル推定部２２は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ２２０１に移行して、次のフレームについて処理を実行する。

次に、音声変換部４２の詳細な動作について、図１１に示すフローチャートを参照して説明する。音声変換部４２は、上述したように、発話スタイルがささやき声と判定された場合に、変換制御部３１からディジタル音声信号が入力される。この例では、入力されたディジタル音声信号に、ピッチ成分を付加することで聴き取りやすくなるように変換する。

ステップＳ４２０１において音声変換部４２は、変換制御部３１から入力されるディジタル音声信号から、発話スタイル推定部２２にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Ｆｌおよびフレーム周期Ｆｓで音声データを切り出し、ステップＳ４２０２に移行する。ここでのフレーム長およびフレーム周期は、特徴抽出部６１と同一のものを用いてもよい。

ステップＳ４２０２において音声変換部４２は、特徴抽出部６１から線形予測係数αｉ、予測残差信号ｒｉおよびビッチ成分を取得し、ステップＳ４２０３に移行する。

ステップＳ４２０３において音声変換部４２は、ステップＳ４２０２で取得したピッチ成分に対応する音声波形をピッチデータ記憶部４２ａから読み出し、読み出したピッチ成分から生成した有声音源信号と予測残差信号を足し合わせることでピッチ成分が付与された予測残差信号を得て、ステップＳ４２０４に移行する。なお、この実施形態では、ピッチデータ記憶部４２ａを備えるものとして説明したが、これに代わって、ステップＳ４２０２で取得したピッチ周期に応じて単純なパルス信号を繰り返し発生し、これを対応するフレームの音声データに付加するようにしてもよい。

ステップＳ４２０４において音声変換部４２は、ステップＳ４２０３でピッチ成分が付与された予測残差信号（ｒｉ）と、ステップＳ４２０２でスペクトル成分として抽出した線形予測係数（αｉ）とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部５１に出力する。

ステップＳ４２０５において音声変換部４２は、変換制御部３１からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ４２０１に移行して、次のフレームについて、ピッチ成分を付加する処理を実行する。

以上のように、上記構成の音声変換装置２５２では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５２によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。

また、上記構成の音声変換装置２５２では、特徴抽出部６１を設けて、ここで抽出したピッチ成分を、発話スタイル推定部２１と音声変換部４２で共用しているので、装置全体での計算量を抑制できる。その他、第１の実施形態の音声変換装置２５１と同様の効果が得られ、また同様の変形が可能である。

（第３の実施形態）
次に、音声変換装置２５０の第３の実施形態として、図１２に示すような音声変換装置２５３について説明する。図１２に示すように、音声変換装置２５３は、音声入力部１１と、発話スタイル推定部２３と、変換制御部３１と、音声変換部４１と、音声出力部５１とを備える。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部２３と変換制御部３１に出力する。
発話スタイル推定部２３は、音声入力部１１から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。具体的には、ささやき声と通常発声を判別するために、スペクトル成分のフォルマントに相当する低帯域のスペクトル成分の強さと、それ以外の高帯域のスペクトル成分の強さの差に着目したものであり、この差から発話スタイルを推定する。発話スタイル推定部２３で推定された発話スタイルは、変換制御部３１に出力される。発話スタイル推定部２３の詳細な動作については後述する。

変換制御部３１は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２３が推定した発話スタイルに基づいて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１に出力するのか、音声変換部４１に出力するのかを切り替える。

なお、このように、発話スタイルに応じた切替出力により、音声変換部４１による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部４１に出力し、発話スタイルに応じて音声変換部４１が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部３１の詳細な動作については、第１の実施形態で図６を参照して説明した内容と同様であることより、説明を省略する。

音声変換部４１は、ピッチデータを記憶するピッチデータ記憶部４１ａを備える。このピッチデータ記憶部４１ａは、代表的なピッチ成分（周波数Ｆｆと強さＳｆ）と、これに対応する音声波形を対応付けて記憶するものである。そして、音声変換部４１は、ピッチデータ記憶部４１ａが記憶するピッチデータを用いて変換制御部３１を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部５１に出力する。音声変換部４１の詳細な動作については、第１の実施形態で図７を参照して説明した内容と同様であることより、説明を省略する。

次に、第３の実施形態に係わる音声変換装置２５３の詳細な動作について説明する。
第３の実施形態に係わる音声変換装置２５３は、第１の実施形態の音声変換装置２５１で採用した発話スタイル推定部２１に代わって、発話スタイル推定部２３を採用した点が異なっている。このため、以下の説明では、図１３を参照して、発話スタイル推定部２３を中心に説明する。

まずステップＳ２３０１において発話スタイル推定部２３は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ２３０２に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部４１の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。

続いて、ステップＳ２３０２ａ〜Ｓ２３０２ｃにより、ステップＳ２３０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出する。

ステップＳ２３０２ａにおいて発話スタイル推定部２３は、ステップＳ２３０１で切り出したフレームの音声データに基づき、その音声波形を高速フーリエ変換することでパワースペクトルを求め、ステップＳ２３０２ｂに移行する。

ステップＳ２３０２ｂにおいて発話スタイル推定部２３は、通過帯域の異なる複数のバンドパスフィルタを用いて、ステップＳ２３０２ａで求めたパワースペクトルから帯域ごとのスペクトル成分を算出し、ステップＳ２３０２ｃに移行する。なお、上記バンドバスフィルタの通過帯域の最も単純な設定としては、およそ4kHzを境界にフォルマント成分が強く現れる低帯域と高帯域の２チャネルを設定する。また、音声認識などで用いる、より多くのチャネル（例えば２６チャネル）を持つバンドパスフィルタを用いてもよい。

ステップＳ２３０２ｃにおいて発話スタイル推定部２３は、ステップＳ２３０２ｂで求めた帯域毎のパワースペクトルに基づいて、帯域間のパワースペクトルの差分を特徴量Ｄｉ（ｉはフレーム番号）として算出する。例えば、２チャンネルに分割した場合には、これらのチャンネル間の差分を特徴量とすればよい。また、多数のチャネルに分割した場合には、チャネル間で、各チャネルの最もスペクトル成分が大きいピークを比較して、その差分を特徴量として算出するなどの方法が考えられる。

ステップＳ２３０３において発話スタイル推定部２３は、ステップＳ２３０２ｃで算出したフレーム単位の特徴量Ｄｉをバッファに格納し、ステップＳ２３０４に移行する。このバッファは、発話スタイル推定部２３に備えられ、例えば１秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、１つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップＳ２３０３では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。

ステップＳ２３０４において発話スタイル推定部２３は、判定に必要な区間長（例えば１秒）の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、Ｓ２３０１に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップＳ２３０５に移行する。

ステップＳ２３０５において発話スタイル推定部２３は、区間長ｔの代表特徴量Ｄｔを求める。例えば代表特徴量Ｄｔとして、下式（３）により平均パワーを求め、ステップＳ２３０６に移行する。例えば、区間長ｔを１秒とすると、１００フレーム分（Ｎ＝１００）の特徴量Ｐｉが平均パワー（代表特徴量）をＤｔとして求める。

Ｄｔ＝ ΣＤｉ／Ｎ … （３）
ステップＳ２３０６において発話スタイル推定部２３は、予め設定した関数ｆ（Ｄｔ）に、ステップＳ２３０５で求めた代表特徴量Ｄｔを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップＳ２３０７に移行する。ここで例えば、関数ｆ（Ｄｔ）が予め設定した閾値Ｔｘを越える場合には、その区間では通常発声が行われていると判定し、一方、関数ｆ（Dｔ）が閾値Ｔｙ（＜Ｔｘ）以上Ｔｘ未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ｔｙ未満であれば、その区間では、発話は行われていないもの（音声無し）と判定する。

ステップＳ２３０７において発話スタイル推定部２３は、ステップＳ２３０６の判定で得られた発話スタイルを変換制御部３１に通知し、ステップＳ２３０８に移行する。
ステップＳ２３０８において発話スタイル推定部２３は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ２３０１に移行して、次のフレームについて処理を実行する。

以上のように、上記構成の音声変換装置２５３では、発話スタイルを推定する場合に、ささやき声の特徴であるスペクトル成分のフォルマントに相当する低帯域のスペクトル成分の強さと、それ以外の高帯域のスペクトル成分の強さの差を検出し、この差に基づいて発話スタイルの推定を行うようにしている。そして推定した発話スタイルに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５３によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。その他、第１の実施形態の音声変換装置２５１と同様の効果が得られ、また同様の変形が可能である。

（第４の実施形態）
次に、音声変換装置２５０の第４の実施形態として、図１４に示すような音声変換装置２５４について説明する。図１４に示すように、音声変換装置２５４は、音声入力部１１と、発話スタイル推定部２４と、変換制御部３１と、音声変換部４１と、音声出力部５１と、動作モード設定部７１と、動作モード格納部７２とを備える。

動作モード設定部７１は、ユーザの要求を受け付けるキースイッチなどを備え、このキースイッチをユーザが操作することにより、通常の通話モードか、あるいは周囲に迷惑をかけないようにするためのマナーモード、自動車などの運転中である場合に設定する運転モード、会議中である場合に設定するミーティングモードかなどを受け付ける。

なお、マナーモードは、例えば着信があっても呼び出し音を発しない動作モードであり、運転モードは、発信者に対してユーザが運転中である旨を通知する動作モードである。またミーティングモードは、発信者に対してユーザが会議中である旨を通知する動作モードである。

また動作モード設定部７１は、ユーザからの要求を受け付ける他に、GPS(Global Positioning System)受信機を備えて、これが検出した位置情報に応じて、モードを自動的に切り替えるようにしてもよい。
動作モード格納部７２は、動作モード設定部７１により設定された動作モードの識別情報を記憶するものである。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部２４と変換制御部３１に出力する。
発話スタイル推定部２４は、動作モード格納部７２が記憶する動作モードに基づいて、音声入力部１１から入力された入力音声がどのような発話スタイルで発声されたかを推定する。例えば、通常モードの場合には、通常の発声の発話スタイルと判定し、一方、マナーモードの場合には、ささやき声で話している発話スタイルと判定する。発話スタイル推定部２４で推定された発話スタイルは、変換制御部３１に出力される。発話スタイル推定部２４の詳細な動作については後述する。

変換制御部３１は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２4が推定した発話スタイルに基づいて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１に出力するのか、音声変換部４１に出力するのかを切り替える。

次に、第４の実施形態に係わる音声変換装置２５４の詳細な動作について説明する。
第４の実施形態に係わる音声変換装置２５４は、第１の実施形態の音声変換装置２５１で採用した発話スタイル推定部２１に代わって、発話スタイル推定部２４を採用し、さらに動作モード設定部７１と、動作モード格納部７２とを備えた点が異なっている。このため、以下の説明では、図１５を参照して、発話スタイル推定部２４を中心に説明する。

まずステップＳ２４０１において発話スタイル推定部２４は、音声入力部１１から入力されたディジタル音声信号のフレーム毎に、その時に動作モード格納部７２に設定された動作モードの識別情報を動作モード格納部７２から読み出し、ステップＳ２４０２に移行する。

ステップＳ２４０２において発話スタイル推定部２４は、図１６に示すようなテーブルを参照し、ステップＳ２４０１で読み出した動作モードの識別情報に対応付けられた発話スタイルを検出することで、現在のフレームのディジタル音声信号がどのような発話スタイルで発声されたかを推定し、ステップＳ２４０３に移行する。図１６に示す例では、マナーモードや運転モードの場合に、発話スタイルがささやき声と推定され、一方、通常モードの場合には、発話スタイルは通常発声として推定される。

ステップＳ２４０３において発話スタイル推定部２４は、ステップＳ２４０２の判定で得られた発話スタイルを変換制御部３１に通知し、ステップＳ２４０４に移行する。
ステップＳ２４０４において発話スタイル推定部２４は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ２４０１に移行して、次のフレームについて処理を実行する。

以上のように、上記構成の音声変換装置２５４では、発話スタイルを推定する場合に、移動無線端末装置の動作モードで発話スタイルの推定を行うようにしている。そして推定した発話スタイルに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５４によれば、ユーザが発話環境の変化に伴い動作モードを変更すると、それに応じて必要な場合に音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、動作モードを切り替えれば、相手に不快感を与えることなくシームレスに発話を継続することができる。その他、第１の実施形態の音声変換装置２５１と同様の効果が得られ、また同様の変形が可能である。

（第５の実施形態）
次に、音声変換装置２５０の第５の実施形態として、図１７に示すような音声変換装置２５５について説明する。図１７に示すように、音声変換装置２５５は、音声入力部１１と、発話スタイル推定部２５と、変換制御部３１と、音声変換部４１と、音声出力部５１と、動作モード設定部７１と、動作モード格納部７２とを備える。

動作モード設定部７１は、ユーザの要求を受け付けるキースイッチなどを備え、このキースイッチをユーザが操作することにより、通常の通話モードか、あるいは通話で周囲に迷惑をかけないようにするためのマナーモード、自動車などの運転中である場合に設定する運転モード、会議中である場合に設定するミーティングモードかなどを受け付ける。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部２５と変換制御部３１に出力する。
発話スタイル推定部２５は、動作モード格納部７２が記憶する動作モードに基づいて、音声入力部１１から入力された入力音声がどのような発話スタイルで発声されたかを推定する。例えば、通常モードの場合には、通常の発声の発話スタイルと判定し、一方、マナーモードの場合には、ささやき声で話している発話スタイルと判定する。発話スタイル推定部２５で推定された発話スタイルは、変換制御部３１に出力される。発話スタイル推定部２５の詳細な動作については後述する。

変換制御部３１は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２５が推定した発話スタイルに基づいて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１に出力するのか、音声変換部４１に出力するのかを切り替える。

次に、第５の実施形態に係わる音声変換装置２５５の詳細な動作について説明する。
第５の実施形態に係わる音声変換装置２５５は、第１の実施形態の音声変換装置２５１で採用した発話スタイル推定部２１に代わって、発話スタイル推定部２５を採用し、さらに動作モード設定部７１と、動作モード格納部７２とを備えた点が異なっている。このため、以下の説明では、図１８を参照して、発話スタイル推定部２５を中心に説明する。

まずステップＳ２５０１において発話スタイル推定部２５は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ２５０２に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部４１の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。

ステップＳ２５０２において発話スタイル推定部２５は、音声入力部１１から入力されたディジタル音声信号のフレーム毎に、その時に動作モード格納部７２に設定された動作モードの識別情報を動作モード格納部７２から読み出し、ステップＳ２５０３に移行する。

ステップＳ２５０３において発話スタイル推定部２５は、図１９に示すようなテーブルを参照し、ステップＳ２５０１で読み出した動作モードの識別情報に対応付けられた発話スタイルを検出することで、現在のフレームのディジタル音声信号がどのような発話スタイルで発声されたかを推定し、ステップＳ２５０４に移行する。図１９に示す例では、マナーモードや運転モードの場合に、発話スタイルがささやき声と推定され、一方、通常モードの場合には、発話スタイルは特定のスタイルとして推定されない。

ステップＳ２５０４において発話スタイル推定部２５は、ステップＳ２５０３において、発話スタイルがささやき声と推定されたか否かを判定する。ここで、ささやき声と推定されたと判定した場合には、ステップＳ２５１０に移行し、一方、ささやき声と推定されていないと判定した場合には、ステップＳ２５０５に移行する。

ステップＳ２５０５において発話スタイル推定部２５は、ステップＳ２５０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出して、ステップＳ２５０６に移行する。この実施形態では、音量の大きさによって発話スタイルを推定するため、例えば上記音声データに高速フーリエ変換（ＦＦＴ）を施してパワースペクトルを抽出し、そのパワースペクトルからパワーＰｉ（ｉはフレーム番号）を計算することで、フレーム毎に特徴量を算出する。

ステップＳ２５０６において発話スタイル推定部２５は、ステップＳ２５０５で算出したフレーム単位の特徴量をバッファに格納し、ステップＳ２５０７に移行する。このバッファは、発話スタイル推定部２５に備えられ、例えば１秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、１つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップＳ２５０６では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。

ステップＳ２５０７において発話スタイル推定部２５は、判定に必要な区間長（例えば１秒）の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、Ｓ２５０１に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップＳ２５０８に移行する。

ステップＳ２５０８において発話スタイル推定部２５は、区間長ｔの代表特徴量Ｘｔを求める。例えば代表特徴量Ｘｔとして、式（１）により平均パワーを求め、ステップＳ２５０９に移行する。例えば、区間長ｔを１秒とすると、１００フレーム分（Ｎ＝１００）の特徴量Ｐｉが平均パワー（代表特徴量）をＸｔとして求める。

ステップＳ２５０９において発話スタイル推定部２５は、予め設定した関数ｆ（Ｘｔ）に、ステップＳ２５０８で求めた代表特徴量Ｘｔを代入して、その結果と閾値を比較して、発話スタイルの推定を行い、ステップＳ２５１０に移行する。ここで例えば、関数ｆ（Ｘｔ）が予め設定した閾値Ｔｘを越える場合には、その区間では通常発声が行われていると判定し、一方、関数ｆ（Ｘｔ）が閾値Ｔｙ（＜Ｔｘ）以上Ｔｘ未満ならばその区間ではささやき声で発声が行われていると判定する。また、閾値Ｔｙ未満であれば、その区間では、発話は行われていないもの（音声無し）と判定する。

ステップＳ２５１０において発話スタイル推定部２５は、ステップＳ２５０９の判定で得られた発話スタイルを変換制御部３１に通知し、ステップＳ２５１１に移行する。
ステップＳ２５１１において発話スタイル推定部２５は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ２５０１に移行して、次のフレームについて処理を実行する。

以上のように、上記構成の音声変換装置２５５では、発話スタイルを推定する場合に、移動無線端末装置の動作モードと音声の分析結果とを併用して発話スタイルの推定を行うようにしている。そして推定した発話スタイルに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５５によれば、ユーザが発話環境の変化に伴い動作モードを変更すると、それに応じて必要な場合に音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、動作モードを切り替えれば、相手に不快感を与えることなくシームレスに発話を継続することができる。

また動作モードに基づく発話スタイルの推定を行い、これにより発話スタイルが例えばささやき声と判定されない場合に限って、音声分析による発話スタイルの推定を行うようにしているので、音声分析による計算量を抑制できる。その他、第１の実施形態の音声変換装置２５１と同様の効果が得られ、また同様の変形が可能である。

（第６の実施形態）
次に、音声変換装置２５０の第６の実施形態として、図２０に示すような音声変換装置２５６について説明する。図２０に示すように、音声変換装置２５６は、音声入力部１１と、発話スタイル推定部２１と、変換制御部３２と、音声変換部４３と、音声出力部５１と、変換学習部８１とを備える。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部２１と変換制御部３２に出力する。
発話スタイル推定部２１は、音声入力部１１から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部２１で推定された発話スタイルは、変換制御部３２に出力される。なお、発話スタイル推定部２１の詳細な動作については、第１の実施形態で図４を参照して説明した内容と同様であることより、説明を省略する。

変換制御部３２は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２１が推定した発話スタイルに応じて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１、変換学習部８１あるいは音声変換部４３に選択的に出力する。

なお、このように、発話スタイルに応じた切替出力により、音声変換部４３による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部４３に出力し、発話スタイルに応じて音声変換部４３が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部３２の詳細な動作については、後述する。

変換学習部８１は、学習データ記憶部８１ａを備え、変換制御部３２から出力されるディジタル音声信号を分析して、音声変換部４３が音声を変換する際に必要とする情報を抽出して学習し、この学習したデータを学習データ記憶部８１ａに記憶する。変換学習部８１の詳細な動作については、後述する。

音声変換部４３は、学習データ記憶部８１ａが記憶する学習データを用いて、変換制御部３２を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部５１に出力する。音声変換部４３の詳細な動作については、後述する。

音声出力部５１は、変換制御部３２あるいは音声変換部４３から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部２６０に出力する。なお、ディジタル音声信号の出力が、変換制御部３２から音声変換部４３に、あるいは音声変換部４３から変換制御部３２に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部２６０に出力する。

次に、第６の実施形態に係わる音声変換装置２５６の各部の詳細な動作について説明する。
まず、変換制御部３２の詳細な動作について、図２１に示すフローチャートを参照して説明する。変換制御部３２は、上述したように、発話スタイルがささやき声と判定された場合と、それ以外と判断された場合に応じて、後段の変換学習部８１および音声変換部４３の動作を制御するものである。

ステップＳ３２０１において変換制御部３２は、発話スタイル推定部２１によって推定された発話スタイルを取得し、ステップＳ３２０２に移行する。この実施形態では、発話スタイル推定部２１により、図４を用いて説明したように、ささやき声、通常発声、音声なしの３種類の判定がなされ、その結果が入力されることになる。

ステップＳ３２０２において変換制御部３２は、ステップＳ３２０１で取得した発話スタイルに基づいて、音声変換部４１によるディジタル音声信号の変換処理が必要か否かを判定する。ここで、発話スタイルがささやき声の場合には、上記変換処理が必要と判定して、ステップＳ３２０３に移行する。一方、発話スタイルが通常発声や音声無しの場合には、上記変換処理が不必要と判定して、ステップＳ３２０４に移行する。

ステップＳ３２０３において変換制御部３２は、音声変換部４１に対して、発話スタイルがささやき声と発話スタイル推定部２１によって判定されたフレームとその前後の所定区間のフレームのディジタル音声信号を出力し、ステップＳ３２０５に移行する。

一方、ステップＳ３２０４において変換制御部３２は、音声出力部５１に対して、発話スタイルが通常音声もしくは音声無しと発話スタイル推定部２１によって判定されたフレームのディジタル音声信号を出力し、ステップＳ３２０５に移行する。

ステップＳ３２０５において変換制御部３２は、ステップＳ３２０１で取得した発話スタイルに基づいて、変換学習部８１による学習処理が可能か否かを判定する。ここで、発話スタイルが通常音声の場合には、上記学習処理が可能と判定して、ステップＳ３２０６に移行する。一方、発話スタイルがささやき声や音声無しの場合には、上記学習処理が不可能と判定して、ステップＳ３２０７に移行する。

ステップＳ３２０６において変換制御部３２は、変換学習部８１に対して、発話スタイルが通常音声と発話スタイル推定部２１によって判定されたフレームとその前後の所定区間のフレームのディジタル音声信号を出力し、ステップＳ３２０７に移行する。

ステップＳ３２０７において変換制御部３２は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ３２０１に移行して、次のフレームについて処理を実行する。

次に、変換学習部８１の詳細な動作について、図２２に示すフローチャートを参照して説明する。変換学習部８１は、図２１のフローチャートで説明したように、発声スタイルが通常音声で、かつ学習可能な場合にディジタル音声信号が入力されて、学習処理を実行する。

まず、ステップＳ８１０１において変換学習部８１は、変換制御部３２から入力されるディジタル音声信号から、発話スタイル推定部２１にて通常音声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Ｆｌおよびフレーム周期Ｆｓで音声データを切り出し、ステップＳ８１０２に移行する。ここでのフレーム長およびフレーム周期は、発話スタイル推定部２１と同一のものを用いてもよい。

ステップＳ８１０２において変換学習部８１は、ステップＳ８１０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これにより特徴量としてフレーム毎のピッチ成分（周波数Ｆｆと強さＳｆ）を抽出し、ステップＳ８１０３に移行する。

なお、ピッチ成分の抽出方法としては、前述の実施形態で説明したように、スペクトル包絡成分を除去した残差成分の自己相関関数から求める方法や、零交差数の繰り返しパターンに注目した抽出方法、音声波形の自己相関関数に基づくピッチ抽出方法など、既存のあらゆる方法を適用することができる。

ステップＳ８１０３において変換学習部８１は、ステップＳ８１０２で抽出したピッチ成分が学習に利用できるかどうかを判断する。フレーム毎の音声データには、ピッチ成分が強く表れる有声音を含むものと、ピッチ成分がほとんど観測されない無声音を含むものがある。このため、無声音の部分を学習対象に用いることで生じる悪影響を除去するために、学習区間の選定を行う。

具体的な判断の手法としては、例えば、フレーム毎に音声データに自己相関関数を適用して、相関値を求める。そして、この相関値が予め設定した閾値を越える場合には、ピッチ成分が強く表れていることを示すため、学習に適したピッチ成分であると判断し、上記閾値以下の場合には、ピッチ成分が強く表れていないことを示すため、学習には適さないピッチ成分であると判断する。学習に適したピッチ成分の場合には、ステップＳ８１０４に移行し、一方、学習に適さないピッチ成分の場合には、ステップＳ８１０５に移行する。

ステップＳ８１０４において変換学習部８１は、ステップＳ８１０２で抽出したピッチ成分に基づく学習データを生成し、これを学習データ記憶部８１ａに記録し、ステップＳ８１０５に移行する。なお、ピッチ成分に基づく学習データの生成方法としては、様々な方法が考えられる。例えばピッチ成分の平均値を学習データとして学習データ記憶部８１ａに記録する場合には、下式（４）にしたがって行う。すなわち、過去の学習により学習データ記憶部８１ａに記録したピッチ成分の平均値Ppavと、それまでの学習回数Nを記録しておき、新しく学習するピッチ成分Pnewを用いて新しいピッチ成分を更新すればよい。

Pnav = ( Ppav＊N + Pnew ) / ( N + 1 );
N = N +1; … （４）
ステップＳ８１０５において変換学習部８１は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ８１０１に移行して、次のフレームについて処理を実行する。

次に、音声変換部４３の詳細な動作について、図２３に示すフローチャートを参照して説明する。音声変換部４３は、上述したように、発話スタイルがささやき声と判定された場合に、変換制御部３２からディジタル音声信号が入力され、フレーム毎に図２３に示す処理を実行する。この例では、入力されたディジタル音声信号に、変換学習部８１が学習したピッチ成分を付加することで聴き取りやすくなるように変換する。

ステップＳ４３０１において音声変換部４３は、変換制御部３２から入力されるディジタル音声信号から、発話スタイル推定部２１にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Ｆｌおよびフレーム周期Ｆｓで音声データを切り出し、ステップＳ４３０２に移行する。ここでのフレーム長およびフレーム周期は、発話スタイル推定部２１と同一のものを用いてもよい。

ステップＳ４３０２において音声変換部４３は、ステップＳ４３０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップＳ４３０３に移行する。なお、分析手法として例えば線形予測分析（ＬＰＣ）があり、抽出される線形予測係数αｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）によってスペクトル成分を表現すればよい。

ステップＳ４３０３において音声変換部４３は、ステップＳ４３０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分（周波数と強さ）を抽出し、ステップＳ４３０４に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測（ＬＰＣ）係数αｉを用いて、音声波形からステップＳ４３０２で抽出したスペクトル成分を除去した予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）を算出し、予測残差信号ｒｉの自己相関関数からピッチ成分の周波数Ｆｆおよび強さＳｆを求める方法がある。

ステップＳ４３０４において音声変換部４３は、ステップＳ４３０３で抽出したピッチ成分（周波数Ｆｆ）に対応する音声波形を学習データ記憶部８１ａから読み出し、これに基づいて有声音源信号を発生させる。例えば読み出したピッチ周期に応じて単純なパルス信号を繰り返し発生することで有声音源信号を発生し、これを予測残差信号に足し合わせることで有声音源信号を発生させる。その後、ステップＳ４３０５に移行する。なお、この実施形態では、学習データ記憶部８１ａを備えるものとして説明したが、学習データ記憶部８１ａに記憶されない、すなわち学習されていないピッチ成分に対応する音声波形については、ステップＳ４３０３で求めたピッチ周期に応じて単純なパルス信号を繰り返し発生し、これを対応するフレームの音声データに付加するようにしてもよい。

ステップＳ４３０５において音声変換部４３は、ステップＳ４３０４でピッチ成分が付与された予測残差信号（ｒｉ）と、ステップＳ４３０３でスペクトル成分として抽出した線形予測係数（αｉ）とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部５１に出力し、当該処理を終了する。なお、次のフレームが存在する場合には、そのフレームについて、音声変換部４３は、図２３に示す処理を実施する。

以上のように、上記構成の音声変換装置２５６では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５６によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。

また上記構成の音声変換装置２５６は、推定した発話スタイルに基づいて変換が必要な音声区間についてのみ音声変換を行うため、音声変換が不要な区間に誤って変換を施して聴き取りにくい音声を生成してしまうことを抑制でき、また変換が不要な区間に対する計算を抑制できる効果もある。

さらに上記構成の音声変換装置２５６は、発声スタイルが通常発声の場合に、ピッチ成分を抽出して学習しておき、その後、発声スタイルがささやき声に場合に、学習しておいたデータに基づいてピッチ成分を付加して聴き取りやすい音声に変換するようにしている。したがって、予め音声変換に必要な情報を準備する必要が無く、利便性が高い。その他、第１の実施形態の音声変換装置２５１と同様の効果が得られ、また同様の変形が可能である。

（第７の実施形態）
次に、音声変換装置２５０の第７の実施形態として、図２４に示すような音声変換装置２５７について説明する。図２４に示すように、音声変換装置２５７は、音声入力部１１と、発話スタイル推定部２２と、変換制御部３２と、音声変換部４４と、音声出力部５１と、特徴抽出部６２と、変換学習部８２とを備える。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を変換制御部３２と特徴抽出部６２に出力する。
特徴抽出部６２は、ディジタル音声信号のスペクトル成分を抽出し、スペクトル成分である線形予測（ＬＰＣ）係数αｉに基づいて、ディジタル音声信号の特徴量として、フレーム毎に、予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）と、ピッチ成分（周波数Ｆｆと強さＳｆ）を抽出する。

ここで抽出されたピッチ成分は、発話スタイル推定部２２だけでなく、音声変換部４４での変換処理にも適用できるため、音声変換部４４にも出力される。またピッチ成分は、変換学習部８２にも出力される。このように、発話スタイル推定部２２、音声変換部４４および変換学習部８２でピッチ成分を共用することで、ピッチ成分を抽出する処理の重複を避けることができ、効率化が図られる。また予測残差信号ｒｉおよび線形予測係数αｉは、音声変換部４４に出力され、この信号の抽出についても処理の効率化が図られる。特徴抽出部６２の詳細な動作については後述する。

発話スタイル推定部２２は、特徴抽出部６２にて抽出されたピッチ成分を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部２２で推定された発話スタイルは、変換制御部３２に出力される。発話スタイル推定部２２の詳細な動作については、第２の実施形態で図１０を参照して説明した内容と同様であることより、説明を省略する。

変換制御部３２は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２２が推定した発話スタイルに応じて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１、変換学習部８２あるいは音声変換部４４に選択的に出力する。

なお、このように、発話スタイルに応じた切替出力により、音声変換部４４による音声変換を行ったり行わなかったりするのではなく、ディジタル音声信号を常に音声変換部４４に出力し、発話スタイルに応じて音声変換部４４が動的に音声変換の方法を切り替えるようにしてもよい。変換制御部３２の詳細な動作については、第６の実施形態で図２１を参照して説明した内容と同様であることより、説明を省略する。

変換学習部８２は、学習データ記憶部８２ａを備え、変換制御部３２からディジタル音声信号が入力される場合（発声スタイルが通常音声で学習可能な場合）に、特徴抽出部６２から出力されるピッチ成分を音声変換部４３が音声を変換する際に必要とする情報として学習し、この学習したデータを学習データ記憶部８２ａに記憶する。変換学習部８２の詳細な動作については、後述する。

音声変換部４４は、特徴抽出部６２が抽出したピッチ成分とスペクトル成分、および学習データ記憶部８２ａが記憶する学習データを用いて、変換制御部３２を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を音声出力部５１に出力する。音声変換部４４の詳細な動作については、後述する。

音声出力部５１は、変換制御部３２あるいは音声変換部４４から出力されるディジタル音声信号をバッファし、これを後段の音声符号化部２６０に出力する。なお、ディジタル音声信号の出力が、変換制御部３２から音声変換部４４に、あるいは音声変換部４４から変換制御部３２に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部２６０に出力する。

次に、第７の実施形態に係わる音声変換装置２５７の各部の詳細な動作について説明する。まず特徴抽出部６２の詳細な動作について、図２５に示すフローチャートを参照して説明する。

まずステップＳ６２０１において特徴抽出部６２は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ６２０２に移行する。ここでフレームとは、発話スタイル推定部２２の発話スタイルの推定処理や、音声変換部４４の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。ここでのフレーム長およびフレーム周期は、第１の実施形態の発話スタイル推定部２１と同一のものを用いてもよい。

ステップＳ６２０２において特徴抽出部６２は、ステップＳ６２０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップＳ６２０３に移行する。なお、分析手法として例えば線形予測分析（ＬＰＣ）があり、抽出される線形予測係数αｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）によってスペクトル成分を表現すればよい。

ステップＳ６２０３において特徴抽出部６２は、ステップＳ６２０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分（周波数Ｆｆと強さＳｆ）を抽出し、ステップＳ６２０４に移行する。なお、ピッチ成分の抽出法としては、例えば、音声波形と線形予測（ＬＰＣ）係数αｉを用いて、音声波形からステップＳ６２０２で抽出したスペクトル成分を除去した予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）を算出し、予測残差信号ｒｉの自己相関関数からピッチ成分の周波数Ｆｆおよび強さＳｆを求める方法がある。

ステップＳ６２０４において特徴抽出部６２は、ステップＳ６２０３で抽出したピッチ成分を、発話スタイル推定部２２、音声変換部４４および変換学習部８２に出力する。また、特徴抽出部６２は、ステップＳ６２０３でピッチ成分を求める際に算出した予測残差信号ｒｉと、ステップＳ６２０２で抽出したスペクトル成分に相当する線形予測係数αｉを音声変換部４４に出力する。

ステップＳ６２０５において特徴抽出部６２は、音声入力部１１からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ６２０１に移行して、次のフレームについて、スペクトル成分やピッチ成分の抽出を行う。

次に、変換学習部８２の詳細な動作について、図２６に示すフローチャートを参照して説明する。変換学習部８２は、図２１のフローチャートで説明したように、発声スタイルが通常音声で、かつ学習可能な場合にディジタル音声信号が入力されて、学習処理を実行する。

まず、ステップＳ８２０１において変換学習部８２は、発話スタイルが通常音声と判定されたのに伴って変換制御部３２からディジタル音声信号が入力されると、特徴抽出部６２からピッチ成分を取得し、ステップＳ８２０２に移行する。

ステップＳ８２０２において変換学習部８２は、ステップＳ８２０１で取得したピッチ成分が学習に利用できるかどうかを判断する。フレーム毎の音声データには、ピッチ成分が強く表れる有声音を含むものと、ピッチ成分がほとんど観測されない無声音を含むものがある。このため、無声音の部分を学習対象に用いることで生じる悪影響を除去するために、学習区間の選定を行う。

具体的な判断の手法としては、例えば、フレーム毎に音声データに自己相関関数を適用して、相関値を求める。そして、この相関値が予め設定した閾値を越える場合には、ピッチ成分が強く表れていることを示すため、学習に適したピッチ成分であると判断し、上記閾値以下の場合には、ピッチ成分が強く表れていないことを示すため、学習には適さないピッチ成分であると判断する。学習に適したピッチ成分の場合には、ステップＳ８２０３に移行し、一方、学習に適さないピッチ成分の場合には、ステップＳ８２０４に移行する。

ステップＳ８２０３において変換学習部８２は、ステップＳ８２０１で取得したピッチ成分に基づく学習データを生成し、これを学習データ記憶部８２ａに記録し、ステップＳ８２０４に移行する。なお、ピッチ成分に基づく学習データの生成方法としては、様々な方法が考えられる。例えばピッチ成分の平均値を登録する場合には、式（４）にしたがって行う。すなわち、過去の学習により学習データ記憶部８２ａに記録したピッチ成分の平均値Ppavと、それまでの学習回数Nを記録しておき、新しく学習するピッチ成分Pnewを用いて新しいピッチ成分を更新すればよい
ステップＳ８２０４において変換学習部８２は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ８２０１に移行して、次のフレームについて処理を実行する。

次に、音声変換部４４の詳細な動作について、図２７に示すフローチャートを参照して説明する。音声変換部４４は、図２１のフローチャートで説明したように、発話スタイルがささやき声と判定された場合に、変換制御部３２からディジタル音声信号が入力される。この例では、入力されたディジタル音声信号に、ピッチ成分を付加することで聴き取りやすくなるように変換する。

ステップＳ４４０１において音声変換部４４は、変換制御部３２から入力されるディジタル音声信号から、発話スタイル推定部２２にてささやき声と判定されたフレームと、その前後の所定区間のフレームのディジタル音声信号を取得し、これよりフレーム長Ｆｌおよびフレーム周期Ｆｓで音声データを切り出し、ステップＳ４４０２に移行する。ここでのフレーム長およびフレーム周期は、特徴抽出部６２と同一のものを用いてもよい。

ステップＳ４４０２において音声変換部４４は、特徴抽出部６２から線形予測係数αｉ、予測残差信号ｒｉおよびビッチ成分を取得し、ステップＳ４４０３に移行する。

ステップＳ４４０３において音声変換部４４は、ステップＳ４４０２で取得したピッチ成分に対応する音声波形を学習データ記憶部８２ａから読み出し、これに基づいて有声音源信号を発生させる。例えば読み出したピッチ周期に応じて単純なパルス信号を繰り返し発生することで有声音源信号を発生し、これを予測残差信号に足し合わせることで有声音源信号を発生させる。その後、ステップＳ４４０４に移行する。

ステップＳ４４０４において音声変換部４４は、ステップＳ４４０３でピッチ成分が付与された予測残差信号（ｒｉ）と、ステップＳ４４０２でスペクトル成分として抽出した線形予測係数（αｉ）とを合成フィルタに通すことで合成し、これによりピッチ成分が付与されて聞きやすさが向上した音声データが得る。そして、この音声データを、音声出力部５１に出力する。

ステップＳ４４０５において音声変換部４４は、変換制御部３２からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ４４０１に移行して、次のフレームについて、ピッチ成分を付加する処理を実行する。

以上のように、上記構成の音声変換装置２５７では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５７によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。

また、上記構成の音声変換装置２５７では、特徴抽出部６２を設けて、ここで抽出したピッチ成分とスペクトル成分を、発話スタイル推定部２２、音声変換部４４および変換学習部８２で共用ているので、装置全体での計算量を抑制できる。その他、第１の実施形態の音声変換装置２５１や第６の実施形態の音声変換装置２５６と同様の効果が得られ、また同様の変形が可能である。

（第８の実施形態）
次に、音声変換装置２５０の第８の実施形態として、図２８に示すような音声変換装置２５８について説明する。
この実施形態では、変換された音声信号を、参照信号出力部を通して音声符号化部２６０に入力するように動作する。現在、携帯電話（移動無線端末装置）の符号化には世代に応じて様々な方式が規格化されており、今後も新しい方式の規格化が進められると予想されるが、共通して用いられているのは線形予測分析（ＬＰＣ）や線スペクトル対（ＬＳＰ）分析である。

これらの分析で算出されるパラメータは、音声信号からスペクトル成分もしくはピッチ成分を抽出して処理を進めるという点で共通項が多いため、発話スタイル推定や音声変換での特徴抽出とも親和性が高い。特徴抽出の処理を共通化することにより計算量を抑制することが可能となる。

この実施形態では、符号化方式として符号励振線形予測（ＣＥＬＰ）符号化をベースとした符号化が採用された場合を例に、符号化処理と共通する信号処理を特徴抽出部でまとめて行うことを考える。

図２８に示すように、音声変換装置２５８は、音声入力部１１と、発話スタイル推定部２２と、変換制御部３２と、音声変換部４４と、参照信号出力部５２と、特徴抽出部６３と、変換学習部８２とを備える。なお、図２８には、図２に示した音声符号化部２６０も示す。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を変換制御部３２と特徴抽出部６３に出力する。
特徴抽出部６３は、線スペクトル対分析を行って、ディジタル音声信号のスペクトル成分を抽出し、スペクトル成分である線形予測（ＬＰＣ）係数αｉに基づいて、ディジタル音声信号の特徴量として、フレーム毎に、予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）と、ピッチ成分（周波数Ｆｆと強さＳｆ）を抽出する。

ここで抽出されたピッチ成分は、発話スタイル推定部２２だけでなく、音声変換部４４での変換処理にも適用できるため、音声変換部４４にも出力される。またピッチ成分は、変換学習部８２にも出力される。このように、発話スタイル推定部２２、音声変換部４４および変換学習部８２でピッチ成分を共用することで、ピッチ成分を抽出する処理の重複を避けることができ、効率化が図られる。また予測残差信号ｒｉおよび線形予測係数αｉは、音声変換部４４に出力され、この信号の抽出についても処理の効率化が図られる。特徴抽出部６３の詳細な動作については後述する。

また特徴抽出部６３は、量子化された線スペクトル対のコードブック（量子化ＬＳＰパラメータ）を先ほど求めた線形予測（ＬＰＣ）係数αｉから求め、このコードブックと上記線形予測（ＬＰＣ）係数αｉを音声符号化部２６０に出力する。特徴抽出部６３の詳細な動作については、後述する。

発話スタイル推定部２２は、特徴抽出部６３にて抽出されたピッチ成分を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを推定する。発話スタイル推定部２２で推定された発話スタイルは、変換制御部３２に出力される。発話スタイル推定部２２の詳細な動作については、第２の実施形態で図１０を参照して説明した内容と同様であることより、説明を省略する。

変換制御部３２は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２２が推定した発話スタイルに応じて、音声入力部１１から入力されるディジタル音声信号を参照信号出力部５２、変換学習部８２あるいは音声変換部４４に選択的に出力する。

変換学習部８２は、学習データ記憶部８２ａを備え、変換制御部３２からディジタル音声信号が入力される場合（発声スタイルが通常音声で学習可能な場合）に、特徴抽出部６３から出力されるピッチ成分を音声変換部４３が音声を変換する際に必要とする情報として学習し、この学習したデータを学習データ記憶部８２ａに記憶する。変換学習部８２の詳細な動作については、第７の実施形態で図２６を参照して説明した内容と同様であることより、説明を省略する。

音声変換部４４は、特徴抽出部６３が抽出したピッチ成分とスペクトル成分、および学習データ記憶部８２ａが記憶する学習データを用いて、変換制御部３２を介して入力されるディジタル音声信号が聴き取りやすくなるように信号処理を施して音声を変換して、変換した音声を参照信号出力部５２に出力する。音声変換部４４の詳細な動作については、第７の実施形態で図２７を参照して説明した内容と同様であることより、説明を省略する。

参照信号出力部５２は、変換制御部３２あるいは音声変換部４４から出力されるディジタル音声信号をバッファし、これを参照信号として後段の音声符号化部２６０に出力する。なお、ディジタル音声信号の出力が、変換制御部３２から音声変換部４４に、あるいは音声変換部４４から変換制御部３２に切り替えて行われる場合には、各部から出力されるディジタル音声信号が連続するように音声符号化部２６０に出力する。

音声符号化部２６０は、特徴抽出部６３で算出した線形予測係数や量子化された線スペクトル対のコードブックに基づいて、参照信号出力部５２から出力される音声変換された参照信号を符号化して符号データを生成する。なお、音声符号化部２６０は、受信機側（復号化部）で用いるコードブックと同じ上記コードブックとして、固定コードブックとゲインコードブックの各テーブルを予め備えている。音声符号化部２６０の詳細な動作については、後に詳細に述べる。

次に、第８の実施形態に係わる音声変換装置２５８の各部の詳細な動作について説明する。まず特徴抽出部６３の詳細な動作について、図２９に示すフローチャートを参照して説明する。

まずステップＳ６３０１において特徴抽出部６３は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ６３０２ａに移行する。ここでフレームとは、発話スタイル推定部２２の発話スタイルの推定処理や、音声変換部４４の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。ここでのフレーム長およびフレーム周期は、第１の実施形態の発話スタイル推定部２１と同一のものを用いてもよい。

ステップＳ６３０２ａにおいて特徴抽出部６３は、ステップＳ６３０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のスペクトル成分を抽出し、ステップＳ６３０２ｂに移行する。なお、分析手法として、線形予測分析（ＬＰＣ）を用い、抽出される線形予測係数αｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）によってスペクトル成分を表現する。

ステップＳ６３０２ｂにおいて特徴抽出部６３は、ステップＳ６３０２ａで抽出した線形予測係数αｉに対して線スペクトル対分析を行い、ＬＳＰパラメータを求め、ステップＳ６３０２ｃに移行する。

ステップＳ６３０２ｃにおいて特徴抽出部６３は、あらかじめ準備しておいたLSPパラメータの符号帳から、ステップＳ６３０２ｂで求めたＬＳＰパラメータに最も近いコードブックを検出することで、上記ＬＳＰパラメータを量子化し、ステップＳ６３０２ｄに移行する。
ステップＳ６３０２ｄにおいて特徴抽出部６３は、ステップＳ６３０２ｃで量子化したＬＳＰパラメータを再び線形予測係数に変換し、ステップＳ６３０３に移行する。

ステップＳ６３０３において特徴抽出部６３は、ステップＳ６３０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎のピッチ成分（周波数Ｆｆと強さＳｆ）を抽出し、ステップＳ６３０４に移行する。なお、ピッチ成分の抽出法としては、量子化された線形予測係数を用いて、音声波形からステップＳ６３０２ａで抽出したスペクトル成分を除去した予測残差信号ｒｉ（ｉ＝１，２，…，Ｎ：Ｎは分析次元を表す）を算出し、予測残差信号ｒｉの自己相関関数からピッチ成分の周波数Ｆｆおよび強さＳｆを求める。

ステップＳ６３０４において特徴抽出部６３は、ステップＳ６３０３で抽出したピッチ成分を、発話スタイル推定部２２、音声変換部４４および変換学習部８２に出力する。また、特徴抽出部６３は、ステップＳ６３０３でピッチ成分を求める際に算出した予測残差信号ｒｉを、音声変換部４４に出力する。さらに、特徴抽出部６３は、ステップＳ６３０２ａで抽出した線形予測係数αｉと、ステップＳ６３０２ｃで量子化したＬＳＰパラメータ（コードブック）とを音声符号化部２６０に出力する。

ステップＳ６３０５において特徴抽出部６３は、音声入力部１１からのディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ６３０１に移行して、次のフレームについて、スペクトル成分やピッチ成分の抽出を行う。

次に、音声符号化部２６０の詳細な動作について、図３０に示すフローチャートを参照して説明する。

まずステップＳ９１０１において音声符号化部２６０は、特徴抽出部６３から量子化された線形予測係数や量子化された線スペクトル対のコードブックを取得するとともに、参照信号出力部５２から参照信号を取得し、ステップＳ９１０２に移行する。

ステップＳ９１０２において音声符号化部２６０は、参照信号について、量子化された線形予測係数を用いてピッチ分析を行い、ピッチ周期情報を得る。さらには参照信号について、適応コードブック成分に相当する励振信号を求め、ステップＳ９１０３に移行する。

ステップＳ９１０３において音声符号化部２６０は、参照信号について、量子化された線形予測係数および励振信号に基づいて、固定コードブックを探索して最適な固定コードブックを求める。またこれに合わせて、固定コードブック成分に相当する励振信号も求め、ステップＳ９１０４に移行する。

ステップＳ９１０４において音声符号化部２６０は、参照信号と、量子化された線形予測係数と、適応コードブック成分に相当する励振信号と、固定コードブックに相当する励振信号とに基づいて、ゲインコードブックを探索して最適なゲインコードブックを求め、ステップＳ９１０５に移行する。

ステップＳ９１０５において音声符号化部２６０は、ここまでに求めたＬＳＰコードブックと、ゲインコードブックと、固定コードブックと、ピッチ周期情報などを符号データとしてパッケージすることで、参照信号を符号化した符号化データを生成する。

ステップＳ９１０６において音声符号化部２６０は、参照信号出力部５２からの参照信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ９１０１に移行して、符号化を行う。

以上のように、上記構成の音声変換装置２５８では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５８によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。

また、上記構成の音声変換装置２５８では、特徴抽出部６３を設けて、ここで抽出したピッチ成分とスペクトル成分を、発話スタイル推定部２２、音声変換部４４および変換学習部８２で共用ているので、装置全体での計算量を抑制できる。さらに、音声変換装置２５８では、特徴抽出部６３において、スペクトル成分を求める際に求めることができる、参照信号を符号化するのに必要な情報も求めるので、装置全体での計算量を抑制できる。

その他、第１の実施形態の音声変換装置２５１や第７の実施形態の音声変換装置２５７と同様の効果が得られ、また同様の変形が可能である。なお、この実施形態で述べた音声符号化部２６０の動作は一例に過ぎず、規格されているあらゆる音声符号化方式に適用することが可能である。

（第９の実施形態）
次に、音声変換装置２５０の第９の実施形態として、図３１に示すような音声変換装置２５９について説明する。図３１に示すように、音声変換装置２５９は、音声入力部１１と、発話スタイル推定部２６と、変換制御部３１と、音声変換部４１と、音声出力部５１と、判定用辞書データ記憶部９０とを備える。

音声入力部１１は、前段のＡＤ変換部２４０からディジタル音声信号の入力を受け付け、このディジタル音声信号を発話スタイル推定部２６と変換制御部３１に出力する。
発話スタイル推定部２６は、音声入力部１１から入力されたディジタル音声信号を分析して、その分析結果に基づいて入力音声がどのような発話スタイルで発声されたかを、判定用辞書データ記憶部９０が記憶する判定用辞書データを参照して推定する。発話スタイル推定部２６で推定された発話スタイルは、変換制御部３１に出力される。発話スタイル推定部２６の詳細な動作については後述する。

判定用辞書データ記憶部９０は、上記判定用辞書データを記憶する。判定用辞書としては、様々な形態が考えられるが、一例としては混合ガウス分布モデルのような特徴空間上での確率分布を挙げることができる。判定用辞書は、発話スタイル毎に準備した音声を学習素材にEMアルゴリズムなどの既存の学習アルゴリズムを使うことで学習することができる。この実施形態では、通常発声、ささやき声の発話スタイルに対応するモデルが事前に学習されているものとする。

変換制御部３１は、音声入力部１１から入力されるディジタル音声信号をバッファし、発話スタイル推定部２６が推定した発話スタイルに基づいて、音声入力部１１から入力されるディジタル音声信号を音声出力部５１に出力するのか、音声変換部４１に出力するのかを切り替える。

次に、第９の実施形態に係わる音声変換装置２５９の各部の詳細な動作について説明する。発話スタイル推定部２６の詳細な動作について、図３２に示すフローチャートを参照して説明する。ここでは、入力されたディジタル音声信号を信号処理して、音量の大きさから通常の発声とささやき声を識別する場合を例に挙げて説明する。

まずステップＳ２６０１において発話スタイル推定部２６は、音声入力部１１から入力されるディジタル音声信号から、これに含まれる音声データを、フレーム長Ｆｌおよびフレーム周期Ｆｓで切り出し、ステップＳ２６０２に移行する。ここでフレームとは、当該発話スタイルの推定処理や、音声変換部４１の変換処理における基本単位となるもので、例えばフレーム長Ｆｌを２５ｍｓ、フレーム周期Ｆｓを１０ｍｓのように設定でき、これによりフレーム毎に切り出された音声データは、隣接するフレーム間で重複する部分を有することになる。

ステップＳ２６０２において発話スタイル推定部２６は、ステップＳ２６０１で切り出した音声データをフレーム毎に分析することで、短時間の音声波形を分析し、これによりフレーム毎に音声データの特徴を抽出して、ステップＳ２６０３に移行する。この実施形態では、一例として、音声認識によく用いられているメル周波数ケプストラム係数(MFCC)を特徴量として判定用辞書を構築するものとして説明する。

このため、発話スタイル推定部２６は、フレームに含まれる音声波形から高速フーリエ変換(FFT)によってパワースペクトルを抽出し、各スペクトル成分を聴覚特性に合わせて設計されたメル帯域のバンドパスフィルタを通す。そして、発話スタイル推定部２６は、上記バンドパスフィルタを通過した成分を対数化し、その後、逆フーリエ変換してケプストラム係数に変換する。これにより、各フレームに対する特徴量mを算出する。なお、ｍは特徴量の次元数で、例えば13次元やその一次微係数を含む26次元などを採用する。

ステップＳ２６０３において発話スタイル推定部２６は、ステップＳ２６０２で算出したフレーム単位の特徴量をバッファに格納し、ステップＳ２６０４に移行する。このバッファは、発話スタイル推定部２６に備えられ、例えば１秒以上に相当する複数のフレームの特徴量を格納できる。バッファを備えることで、複数のフレームのピッチ成分から発話スタイルを判断することができ、１つのフレームのピッチ成分から発話スタイルを判断するよりも安定した判断が行える。またステップＳ２６０３では、バッファのメモリ領域を効率的に利用するために、後段の判定で必要な新しい特徴量のみが残るように古いものに上書きする。

ステップＳ２６０４において発話スタイル推定部２６は、判定に必要な区間長（例えば１秒）の特徴量がバッファに蓄積されているかを判定する。例えば、ディジタル音声信号の先頭区間を処理している場合は、バッファに十分な区間長の特徴量が格納されていないため、Ｓ２６０１に移行して次のフレームの音声波形を取得する。一方、十分な区間長の特徴量がバッファに格納されている場合には、ステップＳ２６０５に移行する。

ステップＳ２６０５において発話スタイル推定部２６は、区間長ｔの代表特徴量Ｘｔを求める。例えば代表特徴量Ｘｔとして、式（１）に示す平均パワーからを求める。そして代表特徴量Ｘｔを、判定用辞書データ記憶部９０が記憶する判定用辞書データと比較して、発話スタイル毎の尤度を算出する。例えば判定用辞書として、特徴量空間上での各発話スタイルの平均ベクトルと分散ベクトルを予め格納しておき、入力された特徴量と平均ベクトルの距離（距離尺度としてはユークリッド距離や正規分布の確率など）を動的に求めることで、尤度を求めることができる。

ここで判定用モデルとして一混合の正規分布を例として考えた場合、発話スタイル毎に正規分布の平均ベクトルμy、対角共分散行列Σy（yは発話スタイルの種類を表し、それぞれ次元数は特徴量と同じ）がモデルパラメータとして規定される。この場合、尤度Ｌyは下式（５）で求めることができる。

ステップＳ２６０６において発話スタイル推定部２６は、ステップＳ２６０５で求めた尤度と、予め記憶している発話スタイル毎の平均尤度とを比較して、最も近い尤度に対応する発話スタイルを、当該区間の発話スタイルとして推定し、ステップＳ２６０７に移行する。

ステップＳ２６０７において発話スタイル推定部２６は、ステップＳ２６０６の判定で得られた発話スタイルを変換制御部３１に通知し、ステップＳ２６０８に移行する。
ステップＳ２６０８において発話スタイル推定部２６は、音声入力部１１からディジタル音声信号の入力が途切れたか否かを判定する。途切れた場合には、当該処理を終了し、一方、途切れない場合には、ステップＳ２６０１に移行して、次のフレームについて処理を実行する。

以上のように、上記構成の音声変換装置２５９では、入力された音声の発話スタイルを検出し、これに基づいて入力された音声が拡声出力時に聴き取りにくい音声か否かを自動的に判断し、聴き取りにくい場合には、ピッチ成分を付加して聴き取りやすい音声に変換するようにしている。

したがって、上記構成の音声変換装置２５９によれば、ユーザが発話環境の変化に伴い発話スタイルが変更しても、特別な操作なしに必要に応じて音声変換が自動的に行われ、再生する際に聴き取りやすい音声が拡声出力されることになる。このため、例えば携帯電話の通話途中で、急にささやき声で発話を行ったり、また逆に、ささやき声から通常の発話に変えても、相手に不快感を与えることなくシームレスに発話を継続することができる。

また、上記構成の音声変換装置２５９では、発話スタイルを推定する場合に、事前に発話スタイル毎の音声から判定用の辞書を構築しておき、この辞書と入力された音声を特徴空間上で比較することで発話スタイルの推定を行うようにしている。このように多くのデータから特徴空間の分布を事前に準備することで、他の方法に比べて安定した判定結果を得ることができる。その他、第１の実施形態の音声変換装置２５１と同様の効果が得られる。

なお、この発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

その一例として例えば、上記実施の形態では、移動無線端末装置の送話系の構成に、本発明に係わる音声変換装置２５１〜２５９を適用した場合を例に挙げて説明したが、受話系（例えば音声復号部２００とＤＡ変換部２１０の間）に音声変換装置２５１〜２５９を適用するようにしてもよい。

また音声変換装置２５１〜２５９をそれぞれDSP(Digital Signal Processor)で実現するようにしてもよい。そしてまた、音声変換装置２５１〜２５９の各構成をCPU(Central Processing Unit)とメモリで実現するようにしてもよい。この場合、メモリには、CPUを音声変換装置２５１〜２５９のいずれかとして動作させるための制御プログラムを記憶し、上記CPUがこの制御プログラムにしたがって動作することにより、音声変換装置２５１〜２５９のいずれかとして動作する。
その他、この発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。

この発明に係わる移動無線端末装置の構成を示す図。図１に示した音声変換装置の構成を示す図。音声変換装置の構成例を示す図。発話スタイル推定部の動作を説明するフローチャート。音声のスペクトルを示す図。変換制御部の動作を説明するフローチャート。音声変換部の動作を説明するフローチャート。音声変換装置の構成例を示す図。特徴抽出部の動作を説明するフローチャート。発話スタイル推定部の動作を説明するフローチャート。音声変換部の動作を説明するフローチャート。音声変換装置の構成例を示す図。発話スタイル推定部の動作を説明するフローチャート。音声変換装置の構成例を示す図。発話スタイル推定部の動作を説明するフローチャート。発話スタイル推定部が記憶するテーブルの一例を示す図。音声変換装置の構成例を示す図。発話スタイル推定部の動作を説明するフローチャート。発話スタイル推定部が記憶するテーブルの一例を示す図。音声変換装置の構成例を示す図。変換制御部の動作を説明するフローチャート。変換学習部の動作を説明するフローチャート。音声変換部の動作を説明するフローチャート。音声変換装置の構成例を示す図。特徴抽出部の動作を説明するフローチャート。変換学習部の動作を説明するフローチャート。音声変換部の動作を説明するフローチャート。音声変換装置の構成例を示す図。特徴抽出部の動作を説明するフローチャート。音声符号化部の動作を説明するフローチャート。音声変換装置の構成例を示す図。発話スタイル推定部の動作を説明するフローチャート。

符号の説明

１１…音声入力部、２１〜２６…発話スタイル推定部、３１，３２…変換制御部、４１〜４４…音声変換部、４１ａ，４２ａ…ピッチデータ記憶部、５１…音声出力部、５２…参照信号出力部、６１〜６３…特徴抽出部、７１，７２…動作モード格納部、８１…変換学習部、８１，８２…変換学習部、８１ａ，８２ａ…学習データ記憶部、９０…判定用辞書データ記憶部、１００…制御部、１１０…無線通信部、１２０…表示部、１３０…通話部、１３１…スピーカ、１３２…マイクロホン、１４０…操作部、１５０…記憶部、２００…音声復号部、２１０…ＤＡ変換部、２２０，２３０…増幅器、２４０…ＡＤ変換部、２５０〜２５９…音声変換装置、２６０…音声符号化部、ＢＳ…基地局装置、ＮＷ…移動通信網。

Claims

話者の発話から得られる音声信号が入力される音声入力手段と、
動作モードの設定を受け付ける受付手段と、
前記音声信号から音声の特徴を示す特徴量を検出する検出手段と、
前記音声信号を変換する変換手段と、
設定された前記動作モードと前記特徴量に基づいて話者の発話スタイルを推定する推定手段と、
推定された発話スタイルに応じて前記変換手段による変換を制御する制御手段とを具備することを特徴とする移動無線端末装置。
前記推定手段は、
前記特徴量に基づいて発話スタイルを推定するスタイル推定手段とを備えることを特徴とする請求項１に記載の移動無線端末装置。
前記変換手段は、前記検出手段が検出した特徴量に基づいて、音声信号を変換することを特徴とする請求項２に記載の移動無線端末装置。
さらに、前記検出手段が検出した特徴量に基づいて、前記変換手段で変換された音声信号を符号化する符号化手段を備えることを特徴とする請求項２に記載の移動無線端末装置。
前記検出手段は、信号強度を検出する検出手段であり、
前記推定手段は、
前記信号強度に基づいて発話スタイルを推定するスタイル推定手段とを備えることを特徴とする請求項１に記載の移動無線端末装置。
前記検出手段は、ピッチ成分の強度を検出する検出手段であり、
前記推定手段は、
前記ピッチ成分の強度に基づいて発話スタイルを推定するスタイル推定手段とを備えることを特徴とする請求項１に記載の移動無線端末装置。
前記検出手段は、２つの周波数帯域のスペクトル成分の強度をそれぞれ検出する検出手段であり、
前記推定手段は、
前記２つの周波数帯域のスペクトル成分の強度の差に基づいて発話スタイルを推定するスタイル推定手段とを備えることを特徴とする請求項１に記載の移動無線端末装置。
前記推定手段は、
予め特徴量と発話スタイルとを対応付けた辞書データを記憶する記憶手段と、
前記辞書データを参照し、検出した特徴量に基づいて発話スタイルを推定するスタイル推定手段とを備えることを特徴とする請求項１に記載の移動無線端末装置。
前記推定手段は、設定された動作モードに基づいて発話スタイルを推定し、この推定で予め設定された発話スタイルでない場合に、前記特徴量に基づいて発話スタイルを推定することを特徴とする請求項１に記載の移動無線端末装置。
前記変換手段は、音声信号にピッチ成分を付加することで変換を行うことを特徴とする請求項１に記載の移動無線端末装置。
前記変換手段は、
特徴量と変換データを対応付けて記憶する記憶手段と、
検出した特徴量に対応する変換データを用いて、音声信号を変換する音声変換手段とを備えることを特徴とする請求項１に記載の移動無線端末装置。
さらに、検出した特徴量を用いて、変換された音声信号を符号化する符号化手段を備えることを特徴とする請求項１１に記載の移動無線端末装置。
さらに、前記音声信号から音声の特徴を示す特徴量を検出する学習用検出手段と、
この学習用検出手段が検出した特徴量に基づいて変換データを生成する生成手段と、
前記学習用検出手段が検出した特徴量と、前記生成手段が生成した変換データとを対応付けて、前記記憶手段に記録する記録手段とを備えることを特徴とする請求項１１に記載の移動無線端末装置。
さらに、学習用検出手段が検出した特徴量を用いて、変換された音声信号を符号化する符号化手段を備えることを特徴とする請求項１３に記載の移動無線端末装置。
前記推定手段は、前記学習用検出手段が検出した特徴量に基づいて発話スタイルを推定することを特徴とする請求項１３に記載の移動無線端末装置。
前記学習用検出手段は、前記検出手段であることを特徴とする請求項１３に記載の移動無線端末装置。
前記記録手段は、前記推定手段が推定した発話スタイルが予め設定した発話スタイルの場合に、前記学習用検出手段が検出した特徴量と、前記生成手段が生成した変換データとを対応付けて、前記記憶手段に記録することを特徴とする請求項１３に記載の移動無線端末装置。
動作モードの設定を受け付ける受付工程と、
音声信号から音声の特徴を示す特徴量を検出する検出工程と、
前記音声信号を変換する変換工程と、
設定された前記動作モードと前記特徴量に基づいて話者の発話スタイルを推定する推定工程と、
推定された発話スタイルに応じて前記変換手段による変換を制御する制御工程とを具備することを特徴とする音声変換方法。
音声信号を変換する音声変換装置のプログラムにおいて、
動作モードの設定を受け付ける受付手段と、
音声信号から音声の特徴を示す特徴量を検出する検出手段と、
前記音声信号を変換する変換手段と、
設定された前記動作モードと前記特徴量に基づいて話者の発話スタイルを推定する推定手段と、
推定された発話スタイルに応じて前記変換手段による変換を制御する制御手段として音声変換装置を機能させるためのプログラム。