JP2008145841A

JP2008145841A - 再生装置、再生方法、信号処理装置、信号処理方法

Info

Publication number: JP2008145841A
Application number: JP2006334411A
Authority: JP
Inventors: Kazuki Sakai; 和樹酒井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2008-06-26

Abstract

【課題】話速変換処理をこれまでよりも速い速度で行う場合であっても、聞き取り易い状態で音声データを出力する。
【解決手段】分離された音声データのうち、発話データの開始部分の振幅を増加させ、非発話データの振幅を低下させ、それらを合成したものについて話速変換を施す。これにより、これまでよりも高い再生速度倍率での再生が可能となる。
【選択図】図２

Description

本発明は、再生装置として、特に音声データを高速で再生する際に、内容把握をし易くするための機能を備えた再生装置と、その方法とに関する。また、信号処理装置と、その方法とに関する。

例えばＨＤＤ（Hard Disc Drive）などの比較的大容量の記憶媒体を備えるビデオレコーダの普及により、映像などのコンテンツを多数記憶しておくことが可能とされている。近年では、ビデオレコーダとしても数百ＧＢ（ギガバイト）程度の容量を有するＨＤＤを搭載したものも普及しており、そのようなビデオレコーダには、何十時間もの映像コンテンツが保存可能である。
このように多くのコンテンツを保存可能であることから、ビデオレコーダを用いた視聴スタイルとして、コンテンツを或る程度まとめて録り溜めしておき、それらを後でまとめて視聴するというスタイルが提案されている。

但し、このようにまとめ録りしたコンテンツを視聴するといったとき、通常の再生速度でしか再生を行うことができないとすれば、再生に膨大な時間がかかってしまうことになる。そこで、ビデオレコーダには、いわゆる早聴きや早見などと呼ばれる倍速再生機能を備えるようにされたものがある。
この早聴き機能としては、映像が通常速度（１倍速）よりも速い速度で再生されるとともに、それに同期するようにして音声が出力される。このように早送りされる映像と同期した音声再生を実現させるためには、例えば間引き処理などにより音声データを部分的に削除して音声全体の区間を短くするという手法が採られている。この手法によれば、声の高さを変化させず、且つ映像と或る程度連動した音声の早送り再生を行うことができる。

なお、関連する従来技術については、以下の特許文献を挙げることができる。
特開２００１−２２２３００号公報

しかしながら、上記のようにして音声データを部分的に削除するという手法は、映像は早送りで再生される一方で、音声は通常の速度で再生されている状態で所々削除されて全体として短くなるだけであり、音声自体が早送りで再生されるというわけではない。そのため、再生速度倍率が高くなればなるほど、音声と映像との時間的なずれが発生しやすく映像と音声との同期がとりずらくなったり、また音声が細切りになり過ぎて内容の聞き取りや把握が行われにくくなるという欠点がある。
これらの点で、上記のような音声データを部分的に削除するという早聴きの手法を採用する現状では、再生速度倍率はおよそ１．５倍程度が限界とされている。

ここで、上述のようにしてまとめ録りしたコンテンツをより効率的に視聴するという観点からすると、再生速度倍率としてはより高く設定できるのが望ましい。
この点を考慮し、例えば上記特許文献１では、音声中の内容把握に重要とされる部分で逐次再生速度を下げるといった手法を提案しているが、この手法では再生速度を逐次変化させるための構成が複雑となるため、装置の大型化やコストアップにつながるといった問題がある。

そこで本発明は、上記した問題点を考慮して、再生装置として以下のように構成することとした。
つまり、記憶媒体に記憶される音声データを再生する再生手段を備える。
また、上記再生手段により再生された音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手段を備える。
また、上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段を備える。
また、上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段を備える。
さらに、上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段とを備えることとした。

また、本発明では信号処理装置として以下のように構成することとした。
つまり、入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手段を備える。
また、上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段を備える。
また、上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段を備える。
さらに、上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段を備えることとした。

上記構成によれば、入力された音声データのうち、発話データの振幅を部分的に上げ、非発話データの振幅を下げたうえで、両者を合成する。このようにすることで、再生速度を上げた場合にも、発話データの部分的な振幅増加により、ユーザの注意が喚起され易くなり、その結果として発話データがより聞き取り易い状態となる。

このようにして本発明では、発話データの振幅が部分的に増加されて発話部分がより注意喚起されやすくなるので、より速い再生速度倍率とした場合にも、再生されるコンテンツの内容がより把握されやすくすることができる。つまりこれにより、本発明では従来以上の再生速度倍率での再生が可能となる。

以下、発明を実施するための最良の形態（以下実施の形態とする）について説明していく。
図１は、本発明の実施の形態としての再生装置１の内部構成を示したブロック図である。

この再生装置１において、システムコントローラ２は、例えばＣＰＵ（Central Processing Unit ）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等を備えたマイクロコンピュータで構成され、起動されたプログラムや操作入力に応じて、例えば映像及び音声の再生制御など、再生装置１の全体制御を行う。
なお、再生装置１においては、上記システムコントローラ２、及び後述するＨＤＤ４、デコーダ５、信号処理部６の各部は、図示するようにバス１８を介して接続されており、このバス１８を介して各部との間でコマンドやデータのやりとりを行うことが可能とされる。

操作部３は、再生装置１において設けられる各種の操作子と、これらの操作子に対して行われた操作に応じた操作信号をシステムコントローラ２に出力する部位とを一括して示している。この場合、操作部３の操作子としては、通常再生ボタンや早送りボタンが備えられており、それらのボタンが操作されることで映像や音声の通常再生や早送り動作が行われる。なお、この場合の操作部３は、リモートコントローラからのコマンド信号を受信する部分とすることもできる。

ここで、操作部３に設けられている上記通常再生ボタンが操作された場合には、それに応じた操作信号がシステムコントローラ２に供給されるが、その操作信号に応じ、システムコントローラ２は信号処理部６に対して通常再生を指示するための制御信号cntを送信する。また、操作部３に設けられている上記早送りボタンに応じた操作信号が供給された場合には、システムコントローラ２は信号処理部６に対して早送りを指示するための制御信号cntを送信する。

ＨＤＤ（Hard Disc Drive）４は、システムコントローラ２が実行する各種プログラムがインストールされるようにして記憶される他、再生装置１において再生される映像及び音声等のコンテンツ情報も保存される。
デコーダ５は、ＨＤＤ４から読み出された所定の圧縮符号化方式により圧縮符号化された映像及び音声についての復号化処理を行う。
なお、実際には映像についての処理も行われるが、以降は音声の処理が中心となるため、映像についての説明は省略する。

信号処理部６は、デコーダ５から供給される音声信号に対するゲイン調整や残響付加などの音声信号処理を実行するために構成される。
特に本実施の形態の場合は、デコーダ５から供給される音声データについて、話速変換処理を行うようにされる。なお、話速変換処理の詳細については、後述する。
アンプ７には、信号処理部６から出力される音声データが入力され、これを増幅して図示する出力端子Ｔoutに供給する。

図２は、再生装置１における信号処理部６の内部構成例を示している。
先ず、スイッチ２１は、信号処理部６に入力された音声データを振り分ける。
すなわち、システムコントローラ２からスイッチ２１に対して早送りを指示する制御信号cntが送信された場合には、スイッチ２１は入力された音声データを音声分析部２２に出力する。一方、システムコントローラ２から通常再生を指示する制御信号cntが送信された場合には、スイッチ２１は入力された音声データを音声分析部２２を経由せずにそのまま出力する。

音声分析部２２は、スイッチ２１から出力された音声データを非発話データと発話データとに分離する。
すなわち、音声データには、内容把握に重要な発話データと、内容把握に重要でない非発話データ（無音部分や背景音を含む）が含まれているため、音声分析部２２はそれぞれの分離を行う。
入力された音声データの発話データと非発話データの分離は、音声データと基準データを照合し、両者の類似度を算出することによって行われる。この場合の基準データとは、一例として予め複数の発話データの解析を行った結果から生成された発話データについての特徴ベクトルである。
音声分析部２２には上記基準データがデータベースとして格納されており、発話データと非発話データを分離する際には、入力される音声データと基準データを照合して、基準データとの類似度が高いものは発話データ、類似度が低いものは非発話データであるというように分離する。

より具体的に言うと、音声分析部２２は、上記データベースに蓄積された基準データと入力された音声データについて、例えば数十msecの単位などの周期で両者の類似度を逐次算出して、発話データと非発話データとに分離する。
このとき、発話データ後の非発話データの長さがあまりに短い場合には、その非発話区間をそのまま非発話区間として扱うのは妥当ではない。すなわち、一般的に考えて発話区間は発話としての音声が常時連続して構成されるものではないから、その間の非常に短い非発話区間を分離してしまっては、本来期待される発話区間を抽出することはできない。そこで音声分析部２２では、上記類似度の計算で検出された発話データ後の所定長以下の非発話データ区間については、発話データ中に含めるようにして発話データと非発話データとの分離を行う。
音声分析部２２は、このような動作によって分離した非発話データを非発話振幅制御部２３へと出力し、発話データを発話振幅制御部２４及びピッチ変換部２５へと出力する。

なお、上記のようにして発話データと非発話データの両者を分離する方法については、例えば「環境音モデルを用いた頑健な音声認識に関する研究（０２２１０３６）山田武志筑波大学大学院システム情報工学研究科」にも記載されている。

図３は、音声分析部２２による分離後の音声データの波形を時間軸上で示している。なお、この図３をはじめとして、後で説明する図４、図５、図７の時間軸上での波形を示す図では、それぞれ音声データ中の同じ期間を示しているとする。

図３（ａ）では分離された音声データのうちの非発話データの波形を示しており、図３（ｂ）では分離された音声データのうちの発話データの波形を示している。
先ず図３（ａ）では、最初と最後の部分に振幅が現れており、真中の大部分は空白となっている。これは、入力された音声データのうちの最初と最後だけが非発話データとなっており、発話データが音声分析部２２によって抜き出されていることを示している。
また図３（ｂ）では逆に、最初と最後の部分を除き、真中の部分に振幅が現れている。これは、入力された音声データのうちの真中あたりが発話データとなっており、非発話データが音声分析部２２によって抜き出されていることを意味している。

説明を図２に戻す。
非発話振幅制御部２３は、音声分析部２２によって分離された非発話データの振幅を低下させて、制御後非発話データを生成する。すなわち、内容把握の際に聞き取りやすくする必要があるのは発話データであるため、内容把握には特に必要がない非発話データについては入力されたときよりも振幅を低下させて、発話データを遮ることがないようにしている。
そして、非発話振幅制御部２３は、生成した制御後非発話データを、話速変換部２６へと出力する。

上記非発話振幅制御部２３によって振幅が制御された波形を図４（ａ）に示す。図において、振幅制御後の非発話データの振幅は、先の図３（ａ）に示した振幅制御前の非発話データの振幅よりも、全ての時点において一律に低下している。

また図２において、発話振幅制御部２４は、音声分析部２２によって分離された発話データの振幅を部分的に増加させて、制御後発話データを生成する。すなわち、振幅を区間全体に渡り一律に増加させると、メリハリがなくなるため注意を喚起することができなくなってしまうので、部分的に振幅を増加させる。
本実施の形態の場合、このように発話データの振幅を部分的に増加させるにあたっては、発話データの開始部分の振幅を増加させることとしている。これは、開始部分で振幅を増加させたときが、聴覚上一番聞き取り易い、という実験結果が得られたことによる。

ここで、発話振幅制御部２４において発話データの振幅を増加させる際に乗算されるゲイン係数の一例を図５に示す。
図示するように、この場合のゲイン係数としては、発話データの開始部分と終了部分に合致するように区間を区切り、開始部分の振幅が増加し、終了部分へと進むにつれて次第に振幅が低下するように設定する。

上記発話振幅制御部２４によって振幅が制御された波形を図４（ｂ）に示す。図において、振幅制御後の発話データの振幅は、先の図３（ｂ）に示した振幅制御前の発話データの振幅よりも大きくなっていることが確認できる。
本実施の形態では、特に発話データの開始の部分の振幅を増加させるため、開始部分に近いほど振幅の増加率が高くなり、開始部分から遠ざかるに従って次第に振幅の増加率が低下していることがわかる。なお、図中の開始部分の一部において、発話データの振幅が小さくなっている箇所が見られるが、これはもとの信号の振幅が小さいからである。

図２に戻り、ピッチ変換部２５は、音声分析部２２によって分離された発話データについてピッチ変換処理を施し、ピッチ変換データを生成する。このピッチ変換処理は、発話部分が背景音によってマスキングされやすい状況下であったとしても、発話部分を聞き取りやすいようにするために行う。

図６は、ピッチ変換部によるピッチ変換処理を模式的に示しており、ここでは周波数軸上での波形を示している。
図６（ａ）は、音声分析部２２によって分離され、ピッチ変換部２５に入力された発話データの波形を周波数軸上で示している。発話データの波形は、図示するように、ほぼ一定の周波数間隔でピークが現れる。
ピッチ変換部２５は、図６（ａ）の波形に対して、図６（ｂ）に示すようにそのピッチを変換する。ここでは、一例としてピッチを２倍に広げている。このように、ピッチ変換部２５がピッチ変換を行うことにより、音程を高くすることができる。
そして、ピッチ変換部２５は、もとの発話データ図６（ａ）と、図６（ｂ）に示すようなピッチ変換後の発話データを合成し、さらに振幅を低下させる。このようにして得られたピッチ変換データの波形を、図６（ｃ）に示す。この図によれば、１周期おきに振幅が高くなっており、もとのピッチの奇数倍音成分が強調されていることが確認できる。
このように、もとの発話データの波形にピッチの間隔を広げて音を高くした波形を合成することにより、背景音に隠れて聞き取りにくかった発話データを、聞き取りやすくすることができる。
このようにピッチを変換し、また振幅を制御したピッチ変換データを、ピッチ変換部２５は話速変換部２６へと出力する。

図４（ｃ）は、図６（ｃ）で合成した、ピッチ変換後の発話データの波形を、時間軸上で示した図である。
上記のようにしてピッチ変換部２５では、合成後の波形について振幅を低下させるので、先の図３（ｂ）に示した波形と比較すると、全体的に振幅が低下したものとなることがわかる。

図２に戻り、話速変換部２６は、非発話振幅制御部２３によって生成された制御後非発話データ、発話振幅制御部２４によって生成された制御後発話データ、そしてピッチ変換部２５によって生成されたピッチ変換データを合成し、さらに合成したデータを所定の話速（一例としては、２倍速）に変換して出力する。
ここで、話速変換を行う際には、例えば間引き処理として、音声データを部分的に削除する処理を行う。

話速変換部２６で合成された、話速変換前の波形を、図７で説明する。
図７に示す波形は、制御後非発話データ、制御後発話データ、ピッチ変換データそれぞれの波形を合成したものである。この図によれば、非発話部分の振幅に対し、発話部分の振幅が相対的に増加していることがわかる。

このように、本実施の形態としての話速変換処理は、入力された音声データのうちの発話データの振幅を部分的に増加させつつ、非発話データの振幅を低下させて、両者を合成する。
具体的には、発話データについてはその開始部分の振幅を増加させることとしている。これにより、話速変換された場合にも、発話データの開始部分をより聞き取り易くして、より注意を喚起することができる。その結果、従来よりも速い速度での倍速再生とした場合にも、聞き取りを可能とすることができる。

さらに本実施の形態では、最終的に話速変換にかける音声データに対し、ピッチ変換データを合成するものとしているが、これにより、背景音に隠れて聞き取りにくかった発話データを聞き取り易くすることができる。

なお、ここまでの説明では、本実施の形態としての話速変換処理動作が、先の図２に示したようなハードウェア構成により実現される場合を例示したが、本実施の形態の話速変換動作としてはソフトウェア処理によっても実現することができる。つまり、信号処理部６としては、例えばＣＰＵやメモリを備えた演算処理部で構成することができ、この演算処理部のソフトウェア処理により上述した実施の形態としての話速変換動作を実現するものである。

この場合において実行されるべき処理動作を、次の図８のフローチャートに示す。
なお、この図に示す処理動作は、上述のような信号処理部６としての演算処理部が、例えば上記メモリ内に格納されるプログラムに従って実行するものである。
先ず、ステップＳ１０１では、倍速再生か否かを判別する。そして、倍速再生でないと判別した場合には、ステップＳ１０８へと処理を進め、そのまま通常再生として音声データを出力する。
一方、ステップＳ１０１において、倍速再生であると判別した場合には、ステップＳ１０２へと処理を進め、入力された音声データの分析を行う。すなわち、データベースに保存されている特徴ベクトル（基準データ）をもとにして、音声データを発話データと非発話データとして分離する。

ステップＳ１０３では、非発話データの振幅を低下させる。すなわち、先のステップＳ１０２において分離された非発話データの振幅を低下させて、制御後非発話データを生成する。
また、ステップＳ１０４では、発話データの振幅を増加させる。すなわち、先のステップＳ１０２において分離された発話データの振幅を増加させて、制御後発話データを生成する。

ステップＳ１０５では、ステップＳ１０２で分離した発話データのピッチ変換を行う。すなわち、先のステップＳ１０２で分離した発話データについて、ピッチを変換し、これをもとの発話データの波形と合成したうえで振幅を低下させることにより、ピッチ変換データを生成する。
そして、ステップＳ１０６では、非発話データ、発話データ、ピッチ変換データの３者を合成する。つまり、ステップＳ１０３で生成した制御後非発話データ、ステップＳ１０４で生成した制御後発話データ、さらにステップＳ１０５で生成したピッチ変換データを合成する。
次のステップＳ１０７では、所定の話速に変換する。すなわち、ステップＳ１０６で合成したデータを、例えば間引き処理を行うことで、所定の話速に変換する。

さらに、ステップＳ１０８では、音声データを出力する。すなわち、ステップＳ１０７で所定の話速に変換された音声データを出力する。

以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した実施の形態に限定されるべきものではない。
例えば実施の形態では、先の図８のフローチャートによれば、非発話データについての振幅制御、発話データについての振幅制御、ピッチ変換の順番で処理を実行することとしたが、これらは独立した処理であるために、処理の順番を変更することとしてもよい。

また、ゲイン係数としては、図５に示したように直線的に低下させるのではなく、一例として階段状に低下させることとしてもよいし、開始部分のみの振幅を増加させて、その他の残りの部分については振幅制御を行わないようにしてもよい。

また、先の説明では、ピッチ変換を実行する際に、ピッチを２倍に広げて変換前の波形に合成することとしたが、ピッチ変換の倍率としては、２倍以外の値を採ることとしてもよい。
また、本発明では話速変換を間引き処理によって行うこととしたが、話速変換の手法としては、間引き処理に限定されない。

また、実施の形態では、本発明の記録再生装置が、映像と音声がともに再生可能である再生装置として構成される場合を例示したが、本発明の再生装置としては、音声のみの再生が可能である再生装置に対しても好適に適用することができる。また、再生と共に記録も可能な記録再生装置にも適用できる。

また、音声データの出力源としては、ＨＤＤ以外のＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などのメディアであってもよい。

なお、本実施の形態では、話速変換処理として間引き処理を採用する場合を例示したが、単に再生速度倍率に応じた固定周期で音声データを間引く処理を行った場合には、聞き取りのために振幅を上げたところでデータが削除されてしまうといった事態が起こりかねない。
例えば、実施の形態のように発話部分の主に開始部分で振幅を増加させる場合、発話データ／非発話データの分離を行う音声分析部２２が発話データの開始部分の情報を把握することができるので、その情報を利用して話速変換部２６が間引き位置を可変的に設定すればよい。具体的にその場合、音声分析部２２は、話速変換部２６に対して分離した発話データの開始部分の情報を逐次供給する。そして、話速変換部２６は、このように音声分析部２２から供給される開始部分の情報に基づき、音声データ中のその情報で示される期間以外を対象として、間引き処理を行う。このように構成すれば、聞き取りのために振幅を増加させた部分で間引きが行われてしまうといったことを効果的に防止することができる。
また、音声と映像との多少のずれが許容される場合では、間引き処理を非発話部分に対してより多く行うことにより、聞き取りに重要な発話部分での間引きを減らすことができる。

本発明の実施の形態の再生装置のブロック図である。実施の形態の信号処理部の内部を示すブロック図である。実施の形態の非発話データ及び発話データの波形図である。実施の形態の制御後非発話データ、制御後発話データ及びピッチ変換データの波形図である。発話データのゲイン係数の一例を示す図である。発話データのピッチ変換処理について説明するための図である。実施の形態の制御後非発話データ、制御後発話データ及びピッチ変換データの合成波形を示した図である。実施の形態としての話速変換動作をソフトウェア処理によって実現するために行われるべき処理動作について示したフローチャートである。

符号の説明

１再生装置、２１スイッチ、２２音声分析部、２３非発話振幅制御部、２４発話振幅制御部、２５ピッチ変換部、２６話速変換部

Claims

記憶媒体に記憶される音声データを再生する再生手段と、
上記再生手段により再生された音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手段と、
上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段と、
上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段と、
を備えることを特徴とする再生装置。
上記音声分析手段により分離された発話データに対して、所定の比率で周波数のピッチを変更することによりピッチ変換データを生成するピッチ変換手段をさらに備えるとともに、
上記話速変換手段は、上記ピッチ変換データを上記制御後非発話データと上記制御後発話データとともに合成して速度変換処理を施す、
ことを特徴とする請求項１に記載の再生装置。
上記発話振幅制御手段は、上記発話データの開始部分の振幅を増加させることを特徴とする請求項１に記載の再生装置。
上記発話振幅制御手段は、発話データの開始部分の振幅を増加させるとともに、さらに発話データの終了時点へと進むにつれて次第に振幅を低下させることを特徴とする請求項１に記載の再生装置。
上記所定の基準データは、予め複数の発話データについて解析を行った結果から生成された発話データについての特徴ベクトルであることを特徴とする請求項１に記載の再生装置。
記憶媒体に記憶される音声データを再生する再生手順と、
上記再生手順により再生した音声データと所定の基準データとの類似度を算出した結果に基づき、発話データと非発話データとに分離する音声分析手順と、
上記音声分析手順により分離した非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手順と、
上記音声分析手順により分離した発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手順と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手順と、
を備えることを特徴とする再生方法。
入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手段と、
上記音声分析手段により分離された非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手段と、
上記音声分析手段により分離された発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手段と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手段と、
を備えることを特徴とする信号処理装置。
入力された音声データと所定の基準データとの類似度を算出した結果に基づき、上記音声データを発話データと非発話データとに分離する音声分析手順と、
上記音声分析手順により分離した非発話データの振幅を低下させて制御後非発話データを生成する非発話振幅制御手順と、
上記音声分析手順により分離した発話データの振幅を部分的に増加させて制御後発話データを生成する発話振幅制御手順と、
上記制御後非発話データと制御後発話データを合成し、合成後のデータに対し速度変換処理を施す話速変換手順と、
を備えることを特徴とする信号処理方法。