JP5326533B2

JP5326533B2 - 音声加工装置及び音声加工方法

Info

Publication number: JP5326533B2
Application number: JP2008313607A
Authority: JP
Inventors: 太郎外川; 猛大谷; 香緒里遠藤; 恭士大田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-12-09
Filing date: 2008-12-09
Publication date: 2013-10-30
Anticipated expiration: 2028-12-09
Also published as: EP2196990A2; JP2010139571A; EP2196990A3; US8364475B2; US20100082338A1

Description

音声通信システムにおいて、受話音声の音響特徴量を変更して受話音声を聞きとりやすくする音声加工技術に関する。

音声通信システムにおいて、ユーザがゆっくりとした会話を望んだ場合に、受話音声と送話音声との両方の話速（話す速度）差に応じて受話音声の話速をゆっくりさせることで受話音声を聞き取りやすくする方式が、例えば下記特許文献１として開示されている。

図７は、上記方式を実現するための第１の従来技術の構成図である。
図７において、受信信号の話速と送話音声がマイク７０２にて変換されて得られる送信信号の話速が、それぞれ話速算出部７０１及び７０３にて算出される。

速度差算出部７０４が、話速算出部７０１及び７０３にて算出された各話速の速度差を検出する。
そして、話速変換部７０５が、速度差算出部７０４にて算出された速度差に対応する制御信号に基づいて、受信信号の話速を変換し、その結果得られる信号を増幅器を含むスピーカ７０６から受話音声として出力する。

また、既定の受話音量では周囲騒音に受話音声が埋もれて聞き取りにくくなる場合があり、受話音声を聞きとりやすくするためには話し手側に大きな声で話してもらうか聞き手側でボリューム等により人為的に受話音量を調節しなければならなかった。そこで、人は一般的に受話音声が聞き取りにくいときに声が大きくなる傾向があること（ロンバード効果）を利用して、送話音声レベルが所定の基準値以上になった場合に受話音量を大きくすることで自動的に聞き取りやすくする方式が、例えば下記特許文献２として開示されている。

図８は、上記方式を実現するための第２の従来技術の構成図である。
図８は、通信網８０１に対して、通信インタフェース部８０２を介して送受信される音声信号を、送話部８０５及び受話部８０６にて入出力する音声通信システムの構成例である。このシステムが例えば携帯電話装置であった場合、電話番号等を入力するためのキー入力部８０３から入力されたキー入力情報に基づいて全体制御部８０４が、発呼等の制御を行う。

図８において、送話音声レベル検知部８０７が送話部８０５から出力される送信信号の送話音声レベルを検知する。
受話音声レベル管理部８０８は、全体制御部８０４の制御下で、送話音声レベル検知部８０７が検知した送話音声レベルに基づいて、受話音声レベルを制御するための制御信号を生成する。

受話音声増幅部８０９は、受話音声レベル管理部８０８が出力する受話音声レベルの制御信号に基づいて、通信網８０１から通信インタフェース部８０２を介して受信される受信信号の増幅度を制御する。

そして、受話部８０６は、受話音声増幅部８０９からの受話音声レベルが制御された受信信号に基づいて、特には図示しないスピーカから受話音声を出力する。
特開平９−１５２８９０号公報特開平６−２５２９８７号公報

しかし、図７に示される第１の従来技術では、受話音声の話速は、受話音声と送話音声との両方の話速の関係に基づいて制御される。このため、送話音声を聞きやすくするためにユーザが意識的にゆっくり発話しても、受話音声によっては話速差が小さいため元の話速よりもゆっくり発話させることができない場合があるという問題点を有していた。更に、ユーザが意識的にゆっくり発話する際に、個々のユーザごとの話速の変更基準が異なるため、画一的な話速変換処理では、あらゆるユーザに対して受話音声を十分に聞きやすくすることができないという問題点を有していた。

一方、図８に示される第２の従来技術では、レストランなどの静かな場所では大きな声を出しにくいため、受話音量を大きくすることができないという問題点を有していた。

本発明の課題は、あらゆるユーザの受聴環境や好みを反映させるように受話音声を聞きやすく加工可能とすることにある。
以下に示される態様は、受話音声等の第一の音声信号を加工する音声加工装置又はそれと等価な処理を実現する音声加工方法を前提とする。

音響分析部（１０１）は、入力される送話音声等の第２の音声信号の特徴量を分析する。この音響分析部は例えば、第２の音声信号の特徴量として、発話速度、ピッチ周波数、パワースペクトル、発音の間の長さのうちの何れかを算出する。

基準範囲算出部（１０２）は、特徴量から基準範囲を算出する。この基準範囲算出部は例えば、基準範囲として、特徴量の平均値を算出し、又はそれに更に加えて、特徴量の分散を表す統計量を算出する。また、基準範囲算出部は例えば、特徴量が基準範囲に含まれているかを判定し、含まれている場合のみ基準範囲を更新する。

比較部（１０３）は、音響分析部から出力される特徴量と基準範囲算出部から出力される基準範囲とを比較して比較結果を出力する。
音声加工部は、比較部での比較結果に基づいて、入力される第１の音声信号を加工し出力する。この音声加工部は例えば、第１の音声信号のパワー、発話速度、ピッチ周波数、発音の間の長さ、又はパワースペクトルの傾きの何れか１つ以上を変更する。

受話音声等の第１の音声信号の元の話速によらず、ユーザが通常よりもゆっくり話すことで受話音声等を聞きやすくすることが可能となる。
また、個々のユーザごとの話速の違いを考慮して求めた基準範囲に基づいて話速変換を行うため、あらゆるユーザに対する受聴環境や好みを反映して受話音声等を聞きやすくすることが可能となる。

更に、例えば送話音声のピッチ周波数を用いて受話音量を大きくするようにあらかじめ設定しておくことにより、レストランなどの静かな場所で大きな声を出しにくい状況でも受話音量を変更して聞きやすくすることが可能となる。

以下、図面を参照しながら、最良の実施形態について詳細に説明する。
図１は、第１の実施形態の構成図である。
音響分析部１０１は、入力される送話音声の信号の特徴量を分析する。より具体的には、音響分析部１０１は、送話音声を時間分割し、その時間分割された送話音声に対して音響分析を行って発話速度やピッチ周波数などの特徴量を算出する。

基準範囲算出部１０２は、音響分析部１０１にて算出された特徴量について、平均値や分散等に関する統計処理を行うことにより、基準範囲を算出する。
比較部１０３は、音響分析部１０１にて算出される特徴量と、基準範囲算出部１０２にて算出される基準範囲とを比較して、比較結果を出力する。

音声加工部１０４は、比較部１０３での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。

図２は、図１の第２の実施形態の構成図であり、送話音声の発話速度に応じて受話音声の音量を変更することができる音声加工装置として構成される。
図２において、１０１、１０２、１０３、及び１０４の各部は、図１の同じ番号の各部に対応している。

図２において、音響分析部１０１は、時間分割部１０１−１、母音検出部１０１−２、母音標準パターン辞書部１０１−３、無声化母音検出部１０１−４、及び発話速度算出部１０１−５から構成される。

また、音声加工部１０４は、増幅率決定部１０４−１及び振幅変更部１０４−２から構成される。
図２に示される音声加工装置の動作について、図３の動作フローチャートに基づいて説明する。

まず、音響分析部１０１において、送話音声の信号が入力すると（図３のステップＳ３０１）、時間分割部１０１−１が、所定のフレーム単位に時間分割する。図２の時間分割部は、送話音声の信号を入力すると、所定のフレーム単位に時間分割する。

次に、母音検出部１０１−２が、母音標準パターン辞書部１０１−３に記憶された母音標準パターンを用いながら、時間分割部１０１−１から出力されるフレーム単位に時分割された入力送話音声から、母音部分を検出する。より具体的には、母音検出部１０１−２は、時間分割部１０１−１にて分割された各フレームについて、ＬＰＣ（線形予測：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｄｉｎｇ）ケプストラム係数を算出する。そして、母音検出部１０１−２は、各フレーム毎に、上記ＬＰＣケプストラム係数と、各母音のＬＰＣケプストラム係数から事前に算出され母音標準パターン辞書部１０１−３に記憶された各母音標準パターンとのユークリッド距離を計算する。そして、母音検出部１０１−２は、このユークリッド距離の最小値が所定の閾値より小さい場合に、そのフレームに母音が存在すると判定する。

母音検出部１０１−２の処理と並行して、無声化母音検出部１０１−４が、時間分割部１０１−１から出力されるフレーム単位に時分割された入力送話音声から、無声化母音部分を検出する。無声化母音検出部１０１−４は、零交差数分析により摩擦性子音（/s/, /sh/, /ts/ など）を検出し、そのあとに破裂性子音（/p/, /t/, /k/ など）が続く場合は無声化母音が存在すると判定する。

そして、発話速度算出部１０１−５は、母音検出部１０１−２及び無声化母音検出部１０１−４の各出力に基づいて、所定時間あたりの母音及び無声化母音の数をカウントすることにより、発話速度を算出する（図３のステップＳ３０２）。

基準範囲算出部１０２は、音響分析部１０１で算出された発話速度に対して、基準範囲を出力する（図３のステップＳ３０３）。
比較部１０３は、音響分析部１０１から出力された発話速度と、基準範囲算出部１０２で算出された基準範囲とを比較して、比較結果を出力する（図３のステップＳ３０４）。

音声加工部１０４は、比較部１０３から出力された比較結果に基づいて、受話音声を入力し（図３のステップＳ３０５）、その振幅を変更する（図３のステップＳ３０６）。音声加工部１０４における受話音量変更動作の一例を図４に示す。時間分割部１０１−１にて時分割された現在のフレームの発話速度が基準範囲に含まれる場合は、受話音量の変更が行われず、基準範囲よりも遅くなる場合に、受話音量が増幅させられるように制御される。更に、基準範囲よりも所定の閾値Th以上の差がある場合には、増幅率が大きくなるように制御されることによって、送話音声の発話速度が遅くされた場合に、受話音量が段階的に大きくされるようにして、自然性を損なわない制御が可能となる。加えて、増幅率が変更される場合には、フレームを更に分割した細かい時間単位で増幅率を徐々に変化させるように構成されてもよい。

図５は、図１又は図２の基準範囲算出部１０２の構成図であり、図６は、基準範囲算出部１０２の動作を示す動作フローチャートである。
図５及び図６において、まず、判定部１０２−１が、音響分析部１０１から現フレームの発話速度を入力する（図６のステップＳ６０１）。そして、判定部１０２−１は、その発話速度が基準範囲に含まれるかどうかを判定する（図６のステップＳ６０２）。

発話速度が基準範囲に含まれている場合には、更新部１０２−２が、現フレームの発話速度を用いて、下記の数１式から数４式に従って、基準範囲（平均値からの９５％信頼区間）を更新する（図６のステップＳ６０３）。
上記数１式から数４式における各記号の意味は、下記の通りである。
ｓｒ_i：現フレームから過去ｉフレーム目の発話速度
N：基準値算出に用いるフレーム数
ｍ：発話速度の平均値
ｋ：信頼度、標本数で決まる定数（信頼度９５％で標本数が∞の場合、1.96）
ＳＥ：平均の標準誤差
ＳＤ：標準偏差

なお、図６の動作例では、基準範囲に９５％信頼区間が用いられているが、９９％信頼区間やその他の分散に関する統計量が用いられても良い。

前述した第２の実施形態では、音響分析部１０１は、送話音声の発話速度を算出したが、以下に説明する第３の実施形態では、図１の第１の実施形態の構成において、音響分析部１０１がピッチ周波数を算出する。以下、第３の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

高騒音環境で声を大きくしようと肺から多くの呼気を出すと声帯の振動数が上がり自然と声が高くなる。そこで、第３の実施形態では、ピッチ周波数が大きくなった場合に受話音量を大きくすることで、受話音声を聞きやすくする効果が実現できる。

音響分析部１０１にて送話音声のピッチ周波数を算出する処理を以下に示す。
上記数５式及び数６式における各記号の意味は、下記の通りである。
ｘ：送話音声の信号
M：相関係数を算出する区間の長さ（サンプル）
a：相関係数を算出する信号の開始位置
pitch ：ピッチ周波数（Hz）
corr(a) ：ずらし位置がaの場合の相関係数
a_max ：最大相関係数に対応するa
ｉ：信号のインデックス（サンプル）
freq ：サンプリング周波数（Hz）

このように、音響分析部１０１は、送話音声の信号に対して相関係数を計算し、その値が最大となる相関係数に対応するずらし位置ａを、サンプリング周波数から除算することにより、ピッチ周波数を算出する。

図１の基準範囲算出部１０２は音響分析部１０１にて算出されたピッチ周波数について、第２の実施形態の説明において前述した数１式から数４式と同様の統計処理を行うことにより、基準範囲を算出する。

続いて、比較部１０３は、音響分析部１０１にて算出されるピッチ周波数と、基準範囲算出部１０２にて算出されるピッチ周波数の基準範囲とを比較して、比較結果を出力する。

そして、音声加工部１０４は、比較部１０３での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。

以下に説明する第４の実施形態では、図１の第１の実施形態の構成において、音響分析部１０１がパワースペクトルの傾きを算出する。以下、第４の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

受話音声の音量を下げたいときには、例えばこもった音を発音することにより、高域成分が小さくなってパワースペクトルの傾きが大きくなり、これにより受話音量を下げるような制御が可能となる。

音響分析部１０１にて送話音声のパワースペクトルの傾きを算出する処理を以下に示す。
（１）送話音声のパワースペクトルがフレーム毎に、フーリエ変換等の時間周波数変換によって算出される。
（２）送話音声のパワースペクトルの傾きａが算出される。具体的には、（１）で算出されたｉ番目のパワースペクトルの周波数［Ｈｚ］をｘ_i、ｉ番目のパワースペクトルの大きさ［ｄＢ］をｙ_iとして、各周波数のパワースペクトルを（ｘ_i，ｙ_i）で表せば、最小２乗法により、所定の高域周波数範囲で、ｘ_iとｙ_iによって定まる２次元座標上で、１次関数を当てはめた際の傾きとして、送話音声のパワースペクトルの傾きaが算出される。

図１の基準範囲算出部１０２は音響分析部１０１にて算出されたパワースペクトルの傾きについて、第２の実施形態の説明において前述した数１式から数４式と同様の統計処理を行うことにより、基準範囲を算出する。

続いて、比較部１０３は、音響分析部１０１にて算出されるパワースペクトルの傾きと、基準範囲算出部１０２にて算出されるパワースペクトルの傾きの基準範囲とを比較して、比較結果を出力する。

以下に説明する第５の実施形態では、図１の第１の実施形態の構成において、音響分析部１０１が送話の間を算出する。以下、第５の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

受話音声の音量を下げたいときには、例えば間を空けながら発音することにより、この間を検出して受話音量を上げるような制御が可能となる。

音響分析部１０１にて送話音声の間を算出する処理を以下に示す。
（１）送話音声の音声区間が検出される。具体的には、フレームパワーを、フレームパワーの長期平均として算出される閾値と比較することで、音声区間が判定される。
（２）間の長さが、無音区間の連続長として算出される。

図１の基準範囲算出部１０２は音響分析部１０１にて算出された間の長さについて、第２の実施形態の説明において前述した数１式から数４式と同様の統計処理を行うことにより、基準範囲を算出する。

続いて、比較部１０３は、音響分析部１０１にて算出される間の長さと、基準範囲算出部１０２にて算出される間の長さの基準範囲とを比較して、比較結果を出力する。
そして、音声加工部１０４は、比較部１０３での比較結果に基づいて、入力される受話音声の信号に対して、音量変更や話速変換処理、ピッチ変換処理などの加工処理を行うことで受話音声を聞きやすく加工し出力する。

前述した第２の実施形態では、音声加工部１０４は、受話音声の音量を変更したが、以下に説明する第６の実施形態では、図１の第１の実施形態の構成において、音声加工部１０４が発話速度を変更する。以下、第６の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

音声加工部１０４での受話音声の信号の発話速度の変更は、例えば特開平７−１８１９９８に開示されている構成により実現することができる。
具体的には、まず、受話音声波形の時間軸を圧縮して発話速度を早くする処理は、以下の構成により実現される。

即ち、ピッチ抽出部が、受話音声である入力音声波形よりピッチ周期Ｔを抽出し、時間軸圧縮部が、以下の第１から第６の処理に基づいて、入力音声波形から圧縮音声波形を作成出力する。
第１の処理：現在ポインタからｎＴ分の入力音声波形が第１音声波形として切り出される。
第２の処理：現在ポインタがＴ進められる。
第３の処理：現在ポインタからｎＴ分の入力音声波形が第２音声波形として切り出される。
第４の処理：第１音声波形と第２音声波形に重み付け加算されて圧縮音声波形として出力される。
第５の処理：第２音声波形の終点から（Ｌｃ−ｎＴ）進んだ点までの入力音声波形が圧縮音声波形として出力される。
第６の処理：現在ポインタがＬｃ進められて、第１の処理に戻る。
但し、Ｌｃ＝ｒＴ／（１−ｒ）、Ｌｃ≧ｎＴ、ｎ≧２（ｎ：整数）、Ｌｃ：ポインタ移動量、ｒ：圧縮率、Ｔ：ピッチ周期である。

次に、受話音声波形の時間軸を伸張して発話速度を遅くする処理は、以下の構成により実行される。

即ち、ピッチ抽出部が、受話音声である入力音声波形よりピッチ周期Ｔを抽出する。そして、時間軸伸長部が、以下の第１から第５の処理に基づいて、入力音声波形から伸長音声波形を作成出力する。
第１の処理：現在ポインタからＴ戻った点からｎＴ分の入力音声波形が第１音声波形として切り出される。
第２の処理：現在ポインタからｎＴ分の入力音声波形が第２音声波形として切り出される。
第３の処理：第１音声波形と第２音声波形に重み付け加算されて伸長音声波形として出力される。
第４の処理：第２音声波形の終点から（Ｌｓ−Ｔ）戻った点までの入力音声波形が伸長音声波形として出力される。
第５の処理：現在ポインタがＬｓ進められて、第１の処理に戻る。
但し、Ｌｓ＝Ｔ／（ｒ−１）、Ｌｓ≧Ｔ、ｎ≧２（ｎ：整数）、Ｌｓ：ポインタ移動量、ｒ：伸長率、Ｔ：ピッチ周期である。

前述した第２の実施形態では、音声加工部１０４は、受話音声の音量を変更し、前述した第６の実施形態では、音声加工部１０４は、受話音声の発話速度を変更したが、以下に説明する第７の実施形態では、図１の第１の実施形態の構成において、音声加工部１０４がピッチ周波数を変更する。以下、第７の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

音声加工部１０４での受話音声の信号のピッチ周波数の変更は、例えば特開平１０−７８７９１号公報に開示されている構成により実現することができる。
具体的には、第１のピッチ変換部が、受話音声である音声波形から音素波形を切り出し、この音素波形を第１の制御信号に対応した周期で繰り返し出力する。

また、第２のピッチ変換部が、第１のピッチ変換部の入力側または出力側に接続され、音声波形を第２の制御信号に対応した比率で時間軸方向に伸縮して出力する。
そして、制御部が、比較部１０３の出力に基づいて、所望のピッチ変換比Ｓ０、所望のフォルマント周波数の変換比Ｆ０を決定し、第２の制御信号としてＦ０を第２のピッチ変換部に与え、第１の制御信号としてＳ０／Ｆ０に対応した周期での出力を指示する信号を第１のピッチ変換部に与える。

前述した第２の実施形態では、音声加工部１０４は、受話音声の音量を変更し、前述した第６の実施形態では、音声加工部１０４は、受話音声の発話速度を変更したが、前述した第７の実施形態では、音声加工部１０４は、受話音声のピッチ周波数を変更したが、以下に説明する第８の実施形態では、図１の第１の実施形態の構成において、音声加工部１０４が受話音声の信号の間の長さを変更する。以下、第８の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

音声加工部１０４での受話音声の信号の間の長さの変更は、例えば以下のようにして実現される。
即ち、受話音声の間の長さの変更は、受話音声の間が終了した後にさらに間を追加することで行われる。これにより次の受話音声の出力に時間遅れが生じるが、息継ぎなどによる一定時間以上長い間を短縮することで、その時間遅れを回復することができる。

前述した第２の実施形態では、音声加工部１０４は、受話音声の音量を変更し、前述した第６の実施形態では、音声加工部１０４は、受話音声の発話速度を変更したが、前述した第７の実施形態では、音声加工部１０４は、受話音声のピッチ周波数を変更したが、前述した第８の実施形態では、音声加工部１０４は、受話音声の信号の間の長さを変更したが、以下に説明する第９の実施形態では、図１の第１の実施形態の構成において、音声加
工部１０４が受話音声の信号のパワースペクトルの傾きを変更する。以下、第９の実施形態の全体構成は、第１の実施例の場合における図１と同様である。

音声加工部１０４での受話音声の信号のパワースペクトルの傾きの変更は、例えば以下のようにして実現される。
（１）受話音声のパワースペクトルが、フーリエ変換などの時間周波数変換処理によって算出される。
（２）受話音声のパワースペクトルの傾きが、次式によって変更させられる。
上記数７式における各記号の意味は、下記の通りである。
pr_i′：変更後の受話音声のｉ番目の帯域のパワースペクトル
pr_i：受話音声のｉ番目の帯域のパワースペクトル
ｉ：パワースペクトルの帯域のインデックス
Δa：傾きの変更量（ｄＢ／帯域）
（３）上記（２）にて修正された受話音声のパワースペクトルが、逆フーリエ変換等の周波数時間変換処理によって、時間領域信号に変換される。

なお、前記第１乃至第９の実施形態では入力される送話音声の特徴量に応じて受話音声を聞きやすく加工しているが、別の実施形態ではユーザの発話音声の特徴量に応じてあらかじめ記録された蓄積音声を加工する構成とすることで、蓄積音声を再生する際に聞きやすくすることも可能である。

第１の実施形態の構成図である。第２の実施形態の構成図である。第２の実施形態の動作を示す動作フローチャートである。音声加工部１０４における受話音量変更動作の一例を示す説明図である。基準範囲算出部１０２の構成図である。基準範囲算出部１０２の動作を示す動作フローチャートである。第１の従来技術の構成図である。第２の従来技術の構成図である。

符号の説明

１０１音響分析部
１０１−１時間分割部
１０１−２母音検出部
１０１−３母音標準パターン辞書部
１０１−４無声化母音検出部
１０１−５発話速度算出部
１０２基準範囲算出部
１０２−１判定部
１０２−２更新部
１０２−３格納部
１０３比較部
１０４音声加工部
１０４−１増幅率決定部
１０４−２振幅変更部
７０１、７０３話速算出部
７０２マイク
７０４速度差算出部
７０５話速変換部
７０６スピーカ
８０１通信網
８０２通信インタフェース部
８０３キー入力部
８０４全体制御部
８０５送話部
８０６受話部
８０７送話音声レベル検知部
８０８受話音声レベル管理部
８０９受話音声増幅部

Claims

受話音声を加工する音声加工装置であって、
入力される送話音声の第１の特徴量を分析する音響分析部と、
前記送話音声の第１の特徴量から少なくとも前記第１の特徴量の平均値である基準値を算出する基準範囲算出部と、
前記送話音声の第１の特徴量と前記基準値とを比較して比較結果を出力する比較部と、
前記比較結果に基づいて、入力される前記受話音声に対して、予め設定した、パワー、発話速度、ピッチ周波数、発話の間の長さ、またはパワースペクトルの傾きの何れか１つ以上の第２の特徴量を、前記第１の特徴量と前記基準値との差に応じて変更する加工処理を行い出力する音声加工部と、
を含むことを特徴とする音声加工装置。
前記基準範囲算出部は、前記基準値として、更に前記送話音声の第１の特徴量の分散を表す統計量を算出する、
ことを特徴とする請求項１に記載の音声加工装置。
前記基準範囲算出部は、前記送話音声の第１の特徴量が前記基準値に含まれているかを判定し、含まれている場合のみ前記基準値を更新する、
ことを特徴とする請求項１乃至２の何れか１項に記載の音声加工装置。
前記音響分析部は、前記送話音声の第１の特徴量として、パワー、発話速度、ピッチ周波数、パワースペクトル、発話の間の長さのうちの何れかを算出する、
ことを特徴とする請求項１乃至３の何れか１項に記載の音声加工装置。
受話音声を加工する音声加工方法であって、
入力される送話音声の第１の特徴量を分析する音響分析ステップと、
前記送話音声の第１の特徴量から少なくとも前記第１の特徴量の平均値である基準値を算出する基準範囲算出ステップと、
前記送話音声の第１の特徴量と前記基準値とを比較して比較結果を出力する比較ステップと、
前記比較結果に基づいて、入力される前記受話音声に対して、予め設定した、パワー、発話速度、ピッチ周波数、発話の間の長さ、またはパワースペクトルの傾きの何れか１つ以上の第２の特徴量を、前記第１の特徴量と前記基準値との差に応じて変更する加工処理を行い出力する音声加工ステップと、
を含むことを特徴とする音声加工方法。