JP2014157331A

JP2014157331A - 話速変換装置、方法及びプログラム

Info

Publication number: JP2014157331A
Application number: JP2013029111A
Authority: JP
Inventors: Atsushi Imai; 篤今井; Nobumasa Seiyama; 信正清山; Tatsu Ikezawa; 龍池沢; Toru Tsugi; 徹都木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2013-02-18
Filing date: 2013-02-18
Publication date: 2014-08-28
Anticipated expiration: 2033-02-18
Also published as: JP6224325B2

Abstract

【課題】リアルタイムで発話速度を変換する際に、多様な発話の原音声に対して、ゆっくりと感じるように聞こえる話速変換を実現する。
【解決手段】話速変換装置１−１の特徴量算出部１１は、観測期間毎に、音声信号の基本周波数Ｐｔ及びパワーＰｏを用いて音響特徴量Ｓを算出する。波形伸縮関数決定部１２は、音響特徴量Ｓの特性として、呼気段落毎の回帰直線の傾きａ１，ａ２，ａ３を算出し、テーブル２１を参照して傾きａ１，ａ２，ａ３の条件を満たす波形伸縮関数Ｙを決定し、決定した波形伸縮関数Ｙ及び時間データＴをＤＢ１３から読み出し、波形伸縮関数Ｙを用いて伸縮倍率ｒ（ｔ）を算出する。話速変換部１４は、観測期間の開始時点から時間データＴの示す時間が経過するまでの間、直前の観測期間において波形伸縮関数決定部１２により算出された伸縮倍率ｒ（ｔ）を用いて、音声信号を話速変換する。
【選択図】図１

Description

本発明は、音声信号処理技術に関し、特に、リアルタイムの音声信号の発話速度を変換する話速変換装置、方法及びプログラムに関する。

従来、放送音声が早口に感じられて聞き辛い場合があるという、特に高齢者からの要望に応えるために、リアルタイムの放送音声を、時間遅れを蓄積することなく、ゆっくりと感じるように再生する話速変換方式が提案されている（例えば、特許文献１，２を参照）。この話速変換方式は、リアルタイムの放送視聴を目的として、一定の割合で伸縮倍率が変化する静的な関数に基づいて、逐次処理にて音声を機械的に波形伸縮し、話速に緩急を与える方式である。

特許文献１の話速変換方式は、音声のイントネーション（ピッチ周波数）の変化を検出し、静的な関数として話速の伸縮倍率を定める減少関数である余弦関数を用い、休止区間（発声音の息継ぎ区間）直後のピッチ周波数の高い重要な部分の話速を遅くし、それ以外の部分の話速を速くするものである。これにより、原音声を、ゆっくりと感じるような速度の音声に変換することができる。

また、特許文献２の話速変換方式は、発話者の音声データの属性に基づく分析を行い、静的な関数として分析情報に応じた所望の関数を用い、音声データを合成する際に、入力音声のデータ長と、静的な関数として所定の伸縮倍率を定める変換関数を用いて算出した目標データ長と、実際の出力音声のデータ長とを比較しながら、話速を変換するものである。これにより、伸縮倍率の変化に対して音声情報が欠落しないようにすることができる。また、入力音声データの原音声と出力音声データの変換音声との間の時間差を監視し、時間差が小さい場合に伸縮倍率を上昇させ、時間差が大きい場合に伸縮倍率を下降させる余弦関数を用いることにより、所定の時間枠内で話速変換を行う。これにより、所定の時間枠内で、原音声を、ゆっくりと感じるような速度の音声に変換することができる。

特許第３２１９８９２号公報特許第３２２００４３号公報

前述のとおり、従来の話速変換方式は、一定の割合で伸縮倍率が変化する静的な関数に基づいて話速変換を行うことを基本とし、休止区間直後のピッチ周波数の高い部分に着目して話速を変換したり、入力音声及び出力音声の各データ、並びに静的な関数を用いて算出した目標データ値を比較して話速を変換したり、入力音声と出力音声との間の時間差に応じて話速を変換したりするものである。このため、例えば、アナウンサーによるニュース音声のような理想的な日本語発話に対して、十分な効果を得ることができる。すなわち、従来の話速変換方式によれば、理想的な日本語発話の音声を話速変換する場合に、時間遅れを蓄積することなく、ゆっくりと感じるように変換することができる。

しかしながら、従来の話速変換方式は、静的な関数に基づくものであり、動的な処理に適応するものでないことから、ニュース音声とは特徴が大きく異なる日常会話等の発話、または外国語等の発話の音声を話速変換する場合には、期待されるゆっくり感が得られないことがあり、安定した効果を得ることができないという問題があった。これは、従来の話速変換方式では、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等について、十分に考慮されていないからであると考えられる。

前述の特許文献１，２の話速変換方式に用いる関数は、話速の伸縮倍率を時間の増加に従って減少させる余弦関数である。本願の発明者らの実験によれば、前述の特許文献１，２の話速変換方式の関数を用いた場合に、理想的な日本語発話を話速変換するときに効果的であるが、英語等の外国語発話を話速変換するときには必ずしも効果的でないという結果が得られている。理想的な日本語発話を話速変換するときには、特許文献１，２に記載された関数を用いればよいが、英語等の外国語発話を話速変換するときには、その言語の特徴に適用できる他の関数を用いることが望ましい。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、リアルタイムで発話速度を変換する際に、多様な発話に適用可能な話速変換装置、方法及びプログラムを提供することにある。

前記目的を達成するために、請求項１の話速変換装置は、時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換装置において、前記入力した時系列の音声信号から、音響的な特徴を示す特徴量を算出する特徴量算出部と、前記特徴量算出部により算出された特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する波形伸縮関数決定部と、前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて、前記音声信号の話速を変換する話速変換部と、を備え、所定時間毎に、前記特徴量算出部が特徴量を算出し、前記波形伸縮関数決定部が関数を決定し、前記話速変換部が、前記波形伸縮関数決定部により直前の所定時間にて決定された関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換する、ことを特徴とする。

また、請求項２の話速変換装置は、請求項１に記載の話速変換装置において、前記波形伸縮関数決定部が、前記入力した時系列の音声信号と、前記話速変換部により話速が変換された時系列の音声信号との間の時間遅れを算出し、前記時間遅れが所定のしきい値以下になるように、前記決定した関数を修正して新たな関数を決定する、ことを特徴とする。

また、請求項３の話速変換装置は、請求項１または２に記載の話速変換装置において、前記所定時間を、予め設定された一定時間とするか、または、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落を単位として、予め設定された整数倍の数の呼気段落を含む期間とする、ことを特徴とする。

また、請求項４の話速変換装置は、請求項１から３までのいずれか一項に記載の話速変換装置において、前記波形伸縮関数決定部が、前記特徴量算出部により算出された特徴量の回帰直線を求め、前記回帰直線の傾きを、前記音声信号の特性として算出する特性算出部と、前記回帰直線の傾きの条件と関数とが対応して格納されたテーブルと、前記特性算出部により算出された傾きの条件を満たす関数を前記テーブルから読み出し、前記読み出した関数を、前記話速変換の際に用いる音声波形の伸縮倍率を定める関数として決定する関数決定部と、を備えたことを特徴とする。

また、請求項５の話速変換装置は、請求項１から４までのいずれか一項に記載の話速変換装置において、前記波形伸縮関数決定部により決定される関数を、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落の開始時点から予め設定された時間までの間で定義される関数とし、前記話速変換部が、前記所定時間の開始時点から前記予め設定された時間が経過するまでの間、前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて前記音声信号の話速を変換し、前記所定時間の開始時点から前記予め設定された時間が経過した後、予め設定された新たな伸縮倍率を用いて前記音声信号の話速を変換する、ことを特徴とする。

さらに、請求項６の話速変換方法は、時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換方法において、前記入力した時系列の音声信号の時系列データから、音響的な特徴を示す特徴量を算出する第１のステップと、前記算出した特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する第２のステップと、前記決定した関数による伸縮倍率を用いて、前記音声信号の話速を変換する第３のステップと、を有し、前記第１及び第２のステップは所定時間毎に行われ、前記第３のステップが、前記第２のステップにて直前の所定時間にて決定した関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換するステップである、ことを特徴とする。

さらに、請求項７の話速変換プログラムは、コンピュータを、請求項１から５までのいずれか一項に記載の話速変換装置として機能させる。

以上のように、本発明によれば、リアルタイムで発話速度を変換する際に、多様な発話の原音声に対して、ゆっくりと感じるように聞こえる話速変換を実現することができる。

実施例１による話速変換装置の構成を示すブロック図である。（１）は、３呼気段落分の入力音声の波形を示す図である。（２）は、３呼気段落分の音響特徴量Ｓの時間変化を示す図である。観測期間、呼気段落、休止区間、有声区間、無声区間及び無音区間を説明する図である。決定した波形伸縮関数Ｙと話速変換処理の関係を説明する図である。実施例１による波形伸縮関数決定部の構成を示すブロック図である。テーブルの構成を示す図である。実施例１による波形伸縮関数決定部の処理を示すフローチャートである。話速変換部の構成を示すブロック図である。話速変換部の処理を示すフローチャートである。観測期間と波形伸縮関数Ｙにおける時間データＴの関係を説明する図である。実施例２による話速変換装置の構成を示すブロック図である。実施例２による波形伸縮関数決定部の構成を示すブロック図である。実施例２による波形伸縮関数決定部の処理を示すフローチャートである。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、時々刻々入力される音声の音響的な特徴量を求め、所定時間の特徴量に基づいて音声の波形伸縮ルールを決定し、決定した波形伸縮ルールを用いて話速変換を行うことを特徴とする。これにより、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等が特徴量に反映され、適切な波形伸縮ルールが決定されるから、多様な発話の原音声に対し、ゆっくりと感じるように聞こえる話速変換を実現することができる。ここで、話速変換の対象となる音声は、ファイル音声ではなく、放送視聴等の際に逐次入力されるリアルタイムの音声とする。

〔実施例１〕
まず、実施例１による話速変換装置について説明する。図１は、実施例１による話速変換装置の構成を示すブロック図である。この話速変換装置１−１は、音声信号分析部１０、特徴量算出部１１、波形伸縮関数決定部１２、ＤＢ１３及び話速変換部１４を備えている。

音声信号分析部１０は、音声信号を入力し、入力した音声信号の音響分析を行って、音声の高さを示す基本周波数Ｐｔ及び音声の強さを示すパワーＰｏを抽出し、一定時間長（例えば３．３ｍｓ）のフレーム毎に、有声、無声または無音を識別し、入力した時系列の音声信号について有声区間、無声区間及び無音区間を判定する。有声区間、無声区間及び無音区間を判定する音声信号分析手法は既知であり、例えば、自己相関分析法、零交差分析法が用いられる。また、音声信号分析部１０は、判定した無音区間の時間長が所定時間（例えば２５０ｍｓ）以上の場合、その時間長の区間を休止区間と判定する。休止区間は、発声音の息継ぎ区間に相当する。また、音声信号分析部１０は、連続する２つの休止区間の間の期間を、呼気段落（発話区間）と判定する。呼気段落は、一息で発声される区間に相当する。また、音声信号分析部１０は、後述する特徴量算出部１１及び波形伸縮関数決定部１２において音響特徴量Ｓ及び波形伸縮関数Ｙを更新する所定時間として、呼気段落の開始時点から連続する３呼気段落を含む期間を観測期間に設定する。

尚、音声信号分析部１０は、所定時間として、呼気段落の開始時点から連続する３呼気段落を含む期間を観測期間に設定するようにしたが、呼気段落の開始時点から、呼気段落を単位としてその整数倍の数の連続する呼気段落を含む期間を観測期間に設定するようにしてもよいし、呼気段落の開始時点から、予め設定された任意の一定期間を観測期間に設定するようにしてもよい。実施例２についても同様である。この場合、観測期間を、呼気段落の開始時点から、予め設定された任意の一定期間とすることにより、後述する特徴量算出部１１により算出される音響特徴量Ｓ及び波形伸縮関数決定部１２により決定される波形伸縮関数Ｙが固定された一定時間毎に更新されるから、呼気段落の時間長に関係なく一定時間で発話の特徴を分類し、話速変換に必要なルールを決定することができる。例えば、呼気段落の時間長が極端に長くなった場合であっても、音響特徴量Ｓ及び波形伸縮関数Ｙは一定時間毎に更新されるから、安定した話速変換を実現することができる。

音声信号分析部１０により各種区間（観測期間、呼気段落、休止区間、有声区間、無声区間及び無音区間）が判定された時系列の音声信号は、話速変換部１４に出力される。また、音声信号分析部１０により算出された音声信号の基本周波数Ｐｔ及びパワーＰｏは、各種区間の時系列の音声信号に対応したデータとして特徴量算出部１１に出力される。

図２（１）は、３呼気段落分の入力音声の波形を示す図であり、図３は、観測期間、呼気段落、休止区間、有声区間、無声区間及び無音区間を説明する図である。図２（１）及び図３の横軸は時間を示す。音声信号分析部１０により、図２（１）に示すような時系列の音声信号が入力され、図３に示すように、時系列の音声信号に対する有声区間、無声区間及び無音区間が判定され、所定時間以上の無音区間が休止区間として判定され、連続する２つの休止区間の間の期間が呼気段落として判定され、呼気段落の開始時点から連続する３呼気段落及び２休止区間の期間が観測期間として設定される。

特徴量算出部１１は、音声信号分析部１０から各種区間の時系列の音声信号に対応した基本周波数Ｐｔ及びパワーＰｏを入力し、音声信号の基本周波数Ｐｔ及びパワーＰｏの時間変化を、それぞれ１０Ｈｚ程度でローパスフィルタにてスムージングし、振幅を対数変換することにより、中央値を１とした０〜２に正規化する。そして、特徴量算出部１１は、正規化した音声信号の基本周波数Ｐｔ及びパワーＰｏを用いて、以下の式のように、同じ重み付けで対数軸上の加算を行い、音声信号から得られる発話の音響的な特徴を反映した音響特徴量Ｓを算出する。
〔数式１〕
Ｓ＝Ｐｔ^0.5×Ｐｏ^0.5 ・・・（１）
特徴量算出部１１により算出された音響特徴量Ｓは、波形伸縮関数決定部１２に出力される。この音響特徴量Ｓは、観測期間毎に更新される。

図２（２）は、３呼気段落分の音響特徴量Ｓの時間変化を示す図である。横軸は時間を示す。特徴量算出部１１により、図２（２）に示す音響特徴量Ｓが、図２（１）に示した音声信号の時系列データから算出される。

尚、特徴量算出部１１は、音声信号の基本周波数Ｐｔ及びパワーＰｏの時間変化から音響特徴量Ｓを算出するようにしたが、基本周波数Ｐｔ及びパワーＰｏのうちのいずれか一方の時間変化から音響特徴量Ｓを算出するようにしてもよい。また、音声信号から得られる発話の音響的な特徴を表現した音響特徴量Ｓを算出することができれば、基本周波数Ｐｔ及びパワーＰｏ以外のデータを用いるようにしてもよい。実施例２についても同様である。

波形伸縮関数決定部１２は、特徴量算出部１１から観測期間毎の音響特徴量Ｓを入力し、観測期間における音声信号の特徴を１つの指標で表した特性（音響特徴量Ｓの特性）を算出する。音響特徴量Ｓの特性は、観測期間における音響特徴量Ｓがどのようになっているか、または、観測期間内でどのように変化しているかの性質を示す。例えば、波形伸縮関数決定部１２は、観測期間内の呼気段落毎に、開始時刻ｔｏから終了時刻ｔｎまでを定義域として、この定義域における回帰直線を例えば最小自乗法にて求め、回帰直線の傾きａ１，ａ２，ａ３を音響特徴量Ｓの特性として算出する。図２（２）に示した音響特徴量Ｓの時間変化の例では、呼気段落毎に回帰直線（図２（２）に示した３本の直線）が求められ、傾きａ１，ａ２，ａ３が算出される。これにより、観測期間における発話の特徴を、音響特徴量Ｓの特性である傾きａ１，ａ２，ａ３の振る舞いによって一意にクラスタリングすることができる。

波形伸縮関数決定部１２は、算出した音響特徴量Ｓの特性である傾きａ１，ａ２，ａ３に基づいて、波形伸縮のルールを与える波形伸縮関数Ｙを決定する。具体的には、波形伸縮関数決定部１２は、音響特徴量Ｓの特性である傾きａ１，ａ２，ａ３の振る舞いと、その振る舞いの概形を予めクラスタリングしたテンプレートとを照合し、複数の波形伸縮関数の中から１つの波形伸縮関数Ｙを決定する。そして、波形伸縮関数決定部１２は、決定した波形伸縮関数Ｙ及び時間データＴをＤＢ１３から読み出し、読み出した波形伸縮関数Ｙを用いて、音声波形の伸縮倍率ｒ（ｔ）を算出する。時間データＴは、波形伸縮関数Ｙが有効に機能する時間期間を示す。つまり、波形伸縮関数Ｙから算出された伸縮倍率ｒ（ｔ）は、後述する話速変換部１４において、時間データＴの示す時間が経過する前まで用いられ、時間データＴの示す時間が経過した後は用いられない。波形伸縮関数決定部１２により算出された伸縮倍率ｒ（ｔ）及びＤＢ１３から読み出された時間データＴは、話速変換部１４に出力される。波形伸縮関数決定部１２の構成及び処理の詳細については後述する。また、波形伸縮関数Ｙ及び時間データＴの詳細については、後述する図１０において詳細に説明する。

ＤＢ１３には、波形伸縮関数群（波形伸縮関数Ａ，Ｂ，Ｃ，・・・）及び各波形伸縮関数における時間データＴが格納されている。これらの波形伸縮関数は、最大値ｒｓ及び最小値ｒｅをそれぞれ有し、時間変化に応じた波形伸縮のルールを示す伸縮倍率が定義されている。例えば、後述する図１０（１）（２）に示すように、話速の伸縮倍率を、最大値ｒｓから時間データＴが示す時間後の最小値ｒｅまで、時間の増加に従って減少させる余弦関数が定義されている。

話速変換部１４は、音声信号分析部１０から各種区間の時系列の音声信号を入力すると共に、波形伸縮関数決定部１２から伸縮倍率ｒ（ｔ）及び時間データＴを入力し、観測期間の開始時点から時間データＴの示す時間が経過するまでの間、直前の観測期間において算出された伸縮倍率ｒ（ｔ）を用いて、現在の観測期間における話速を変換することで音声信号を伸縮し、変換後の音声信号を出力する。また、話速変換部１４は、観測期間の開始時点から時間データＴの示す時間が経過した後、発話が継続している場合、話速を変換しないで（音声信号の伸縮を行わないで）音声信号を出力するか、または、伸縮倍率ｒ（ｔ）の代わりに所定の伸縮倍率を用いて、話速を変換することで音声信号を伸縮し、変換後の音声信号を出力する。発話が継続していない場合は処理を行わない。話速変換部１４の構成及び処理の詳細については後述する。

図４は、波形伸縮関数決定部１２にて決定した波形伸縮関数Ｙと話速変換部１４における話速変換処理の関係を説明する図である。図４に示すように、波形伸縮関数決定部１２は、０，１，・・・，ｎ，ｎ＋１，・・・番目の観測期間（以下、観測期間０，１，・・・，ｎ，ｎ＋１，・・・という。）の音声信号から、波形伸縮関数Ｙ０，Ｙ１，・・・，Ｙｎ，Ｙｎ＋１，・・・をそれぞれ決定する。また、話速変換部１４は、観測期間０の音声信号に対し、予め設定された初期関数に従って伸縮処理を施し、話速を変換し、観測期間１，・・・，ｎ，ｎ＋１，・・・の音声信号に対し、波形伸縮関数決定部１２により決定された波形伸縮関数Ｙ０，・・・，Ｙｎ−１，Ｙｎ，・・・に従って伸縮処理を施し、話速を変換する。つまり、話速変換部１４は、観測期間ｎ＋１における音声信号の特徴が、その直前の観測期間ｎにおける音声信号の特徴と同じであって、さほど変化しないことを前提として、観測期間ｎ＋１の音声信号の伸縮変換処理を行う際に、波形伸縮関数決定部１２によりその直前の観測期間ｎの音声信号から決定された波形伸縮関数Ｙｎを用いる。

これにより、波形伸縮関数決定部１２により、観測期間毎に、音声信号から得られる発話の特徴における大まかな傾向が求められ、その特徴の傾向に適用する波形伸縮関数Ｙが更新され逐次切り替わることになる。そして、話速変換部１４により、観測期間毎に切り替えられる波形伸縮関数Ｙに従った伸縮倍率ｒ（ｔ）にて話速変換が行われる。したがって、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等に応じた波形伸縮関数Ｙに切り替わると共に、発話の途中で特徴に変化があったとしても、その変化に応じた波形伸縮関数Ｙに切り替わるから、多様な発話の原音声に対し、ゆっくりと感じるように聞こえる話速変換を実現することができる。

また、波形伸縮関数決定部１２は、図４に示した観測期間０において、観測期間０の音声信号から波形伸縮関数Ｙ０を決定している間、予め設定された初期関数による伸縮倍率ｒ（ｔ）として、例えばｒ（ｔ）＝１．０等の固定値を話速変換部１４に出力すると共に、予め設定された時間データＴも出力する。尚、波形伸縮関数決定部１２は、観測期間０において、ＤＢ１３に格納された波形伸縮関数群のうち、予め設定された波形伸縮関数による伸縮倍率ｒ（ｔ）及び時間データＴを話速変換部１４に出力するようにしてもよい。これにより、話速変換部１４は、観測期間０の開始時点から間断なく話速変換を行うことができる。

（波形伸縮関数決定部）
次に、図１に示した実施例１による話速変換装置１−１の波形伸縮関数決定部１２について詳細に説明する。図５は、波形伸縮関数決定部１２の構成を示すブロック図であり、図７は、波形伸縮関数決定部１２の処理を示すフローチャートである。波形伸縮関数決定部１２は、前述のとおり、特徴量算出部１１から入力した音響特徴量Ｓに基づいてその特性を算出し、算出した音響特徴量Ｓの特性に基づいて波形伸縮関数Ｙを決定し、決定した波形伸縮関数Ｙ及び時間データＴをＤＢ１３から読み出し、波形伸縮関数Ｙから算出した伸縮倍率ｒ（ｔ）及び時間データＴを話速変換部１４に出力する。

この波形伸縮関数決定部１２は、特性算出部２０、テーブル２１、関数決定部２２及び伸縮倍率出力部２３を備えている。特性算出部２０は、特徴量算出部１１から音響特徴量Ｓを入力し（ステップＳ７０１）、音声特徴量Ｓに基づいて、音響特徴量Ｓの特性として、観測期間内の呼気段落毎に、例えば回帰直線の傾きａ１，ａ２，ａ３を算出し、算出した傾きａ１，ａ２，ａ３を関数決定部２２に出力する（ステップＳ７０２）。

尚、特性算出部２０は、音響特徴量Ｓの特性として、呼気段落毎に音響特徴量Ｓの時間変化における極大点または極小点の数を算出するようにしてもよい。回帰直線の傾きａ１，ａ２，ａ３は一例であり、音響特徴量Ｓから得られる発話の特徴を示す特性であれば何でもよい。実施例２についても同様である。

関数決定部２２は、特性算出部２０から音響特徴量Ｓの特性である傾きａ１，ａ２，ａ３を入力し、テーブル２１を参照して、傾きａ１，ａ２，ａ３の条件を満たす波形伸縮関数Ｙを決定する（ステップＳ７０３）。

図６は、テーブル２１の構成を示す図である。図６に示すように、テーブル２１には、音響特徴量Ｓの特性である傾きａ１，ａ２，ａ３の条件と、その条件を満たすときの波形伸縮関数の種類（波形伸縮関数を識別するためのデータ）とが対応して格納されている。例えば、傾きａ１＜０またはａ２＜０またはａ３＜０の条件（ａ１，ａ２，ａ３のうちいずれかが負である条件）と波形伸縮関数Ａとが対応して格納され、傾きａ１≧０かつ・・・の条件と波形伸縮関数Ｂとが対応して格納されている。このテーブル２１には、実験結果により予め得られた条件及び波形伸縮関数の種類が格納されている。つまり、テーブル２１には、その条件が示す特性を有する音声信号が実際に話速変換された場合に、好適な話速変換が実現されるような波形伸縮関数の種類が格納されている。

図２（２）に示した例では、傾きａ１，ａ２，ａ３が全て負であるから、図６に示したテーブル２１において、傾きａ１＜０またはａ２＜０またはａ３＜０の条件を満たす。この場合、関数決定部２２は、傾きａ１，ａ２，ａ３がテーブル２１において第１番目の条件を満たすから、波形伸縮関数Ｙとして波形伸縮関数Ａを決定する。図２（２）に示した例のように、全ての傾きａ１，ａ２，ａ３が負である場合には、日本語発話である可能性が高い。このため、関数決定部２２は、日本語の話速変換に適応する波形伸縮関数Ｙを決定することが望ましい。また、関数決定部２２は、傾きａ１，ａ２，ａ３がテーブル２１において第２番目の条件を満たす場合には、波形伸縮関数Ｙとして波形伸縮関数Ｂを決定する。

図５及び図７に戻って、関数決定部２２は、ステップＳ７０３にて決定した波形伸縮関数Ｙについての時間変化に応じた波形伸縮のルールを示す伸縮倍率が定義されたデータ（以下、波形伸縮関数Ｙという。）、及び当該波形伸縮関数Ｙの時間データＴをＤＢ１３から読み出し、伸縮倍率出力部２３に出力する（ステップＳ７０４）。伸縮倍率出力部２３は、関数決定部２２から波形伸縮関数Ｙ及び時間データＴを入力し、波形伸縮関数Ｙを用いて伸縮倍率ｒ（ｔ）を算出し（ステップＳ７０５）、ステップＳ７０５にて算出した伸縮倍率ｒ（ｔ）及びステップＳ７０４にて読み出した時間データＴを話速変換部１４に出力する（ステップＳ７０６）。これにより、波形伸縮関数Ｙから算出された時系列の伸縮倍率ｒ（ｔ）が、時間データＴと共に話速変換部１４に出力される。

尚、関数決定部２２は、テーブル２１を参照して、音響特徴量Ｓの特性である傾きａ１，ａ２，ａ３の条件を満たす波形伸縮関数Ｙをテーブル２１から読み出して決定するようにしたが、さらに、決定した波形伸縮関数Ｙに対し、その波形伸縮関数Ｙがとり得る伸縮倍率のレンジ等を、外部からの設定に従って変更するようにしてもよい。具体的には、波形伸縮関数決定部１２は、さらに外部設定部を備え、外部設定部は、外部からレンジを入力し、関数決定部２２は、決定した波形伸縮関数Ｙのレンジが外部設定部にて入力したレンジとなるように、波形伸縮関数Ｙを新たな波形伸縮関数Ｙに変形する。例えば、関数決定部２２は、後述する図１０（１）のような波形伸縮関数Ｙ１を決定し、この波形伸縮関数Ｙ１の最大値がｒｓ、最小値がｒｅ、時間データがＴ１であるとし、外部設定部は、レンジとして最大値ｒｓ’及び最小値ｒｅ’を入力したとする。関数決定部２２は、同じ時間データＴ１の時間期間において、元の波形伸縮関数Ｙ１を、最大値をｒｓ’とし、最小値をｒｅ’とした新たな波形伸縮関数Ｙ１に変形する。そして、伸縮倍率出力部２３は、関数決定部２２により変形された新たな波形伸縮関数Ｙ１を用いて伸縮倍率ｒ（ｔ）を算出する。この場合、外部設定部が最大値ｒｓ’のみを入力し、関数決定部２２が、最大値ｒｓ’のみを反映した新たな波形伸縮関数Ｙ１に変形するようにしてもよいし、外部設定部がレンジに加えて時間データＴ１’も入力し、関数決定部２２が、レンジを変更すると共に時間データＴをＴ’に変更した新たな波形伸縮関数Ｙ１に変形するようにしてもよいし、外部設定部が時間データＴ’のみを入力し、関数決定部２２が、最大値ｒｓ及び最小値ｒｅを変更しないで、時間データＴをＴ’に変更した新たな波形伸縮関数Ｙ１に変形するようにしてもよい。これにより、関数決定部２２により決定された波形伸縮関数Ｙを外部から変形することができ、結果として音声信号の伸縮倍率を、外部からの設定に従って変更することができる。実施例２についても同様である。

（話速変換部）
次に、図１に示した実施例１による話速変換装置１−１の話速変換部１４について詳細に説明する。図８は、話速変換部１４の構成を示すブロック図であり、図９は、話速変換部１４の処理を示すフローチャートである。話速変換部１４は、前述のとおり、音声信号分析部１０から各種区間の時系列の音声信号を入力すると共に、波形伸縮関数決定部１２から伸縮倍率ｒ（ｔ）及び時間データＴを入力し、観測期間の開始時点から時間データＴの示す時間が経過するまでの間、直前の観測期間において算出された伸縮倍率ｒ（ｔ）を用いて音声信号の話速変換を行い、観測期間の開始時点から時間データＴの示す時間が経過した後、発話が継続している場合、音声信号の話速変換を行うことなくそのまま出力するか、または、伸縮倍率ｒ（ｔ）の代わりに所定の伸縮倍率を用いて話速変換を行う。この場合、話速変換部１４は、音声信号の話速変換を行うことなくそのまま出力することにより、または、音声信号を伸縮倍率１．０にて話速変換を行って出力することにより、結果として、入力した音声信号と同じ速度の音声信号が出力されることになる。

この話速変換部１４は、２つの変換部３０，３１を備えている。変換部３０は、音声信号分析部１０から各種区間の時系列の音声信号を入力すると共に、波形伸縮関数決定部１２から伸縮倍率ｒ（ｔ）及び時間データＴを入力する（ステップＳ９０１）。以下、観測期間ｎ＋１の音声信号について話速変換を行うものとして説明する。

変換部３０は、観測期間ｎ＋１の開始時点からの時間が、波形伸縮関数決定部１２から入力した時間データＴが示す一定時間（一定時間Ｔ）を経過しているか否かを判定する（ステップＳ９０２）。変換部３０は、ステップＳ９０２において、観測期間ｎ＋１の開始時点から一定時間Ｔを経過していないと判定した場合（ステップＳ９０２：Ｎ）、波形伸縮関数決定部１２から入力した伸縮倍率ｒ（ｔ）を用いて、観測期間ｎ＋１における一定時間Ｔ経過前の音声信号の話速を変換し（ステップＳ９０３）、変換した音声信号を出力する（ステップＳ９０６）。これにより、観測期間ｎ＋１の開始時点から一定時間Ｔまでの間、波形伸縮関数決定部１２により決定された波形伸縮関数Ｙによる伸縮倍率ｒ（ｔ）にて変換された音声信号が出力される。

一方、変換部３０は、ステップＳ９０２において、観測期間ｎ＋１の開始時点から一定時間Ｔを経過していると判定した場合（ステップＳ９０２：Ｙ）、一定時間Ｔを経過していることを示す指示を変換部３１に出力する。そして、変換部３１は、音声信号分析部１０から各種区間の時系列の音声信号を入力すると共に、変換部３０から一定時間Ｔを経過していることを示す指示を入力し、前記指示を入力したときに発話が継続している場合、新たな伸縮倍率ｒＴ（ｔ）を決定する（ステップＳ９０４）。発話が継続しているか否かは、入力した音声信号が休止区間の音声信号であるか否かにより判定される。休止区間の音声信号でない場合（休止区間以外の区間（例えば有声区間）の音声信号である場合）、発話が継続していると判定され、休止区間の音声信号である場合、発話が継続していないと判定される。

変換部３１は、ステップＳ９０４において、例えば、観測期間ｎ＋１の開始時点から一定時間Ｔ経過後の新たな伸縮倍率ｒＴ（ｔ）として、予め設定された一定の伸縮倍率ｒＴ（ｔ）＝１．０を決定する。この伸縮倍率ｒＴ（ｔ）＝１．０は、入力した音声信号の話速変換を行うことなく、そのまま出力することを意味する。

尚、変換部３１は、新たな伸縮倍率ｒＴ（ｔ）として、伸縮倍率ｒＴ（ｔ）＝ｒｅ（一定時間Ｔ経過前まで用いた伸縮倍率ｒ（ｔ）における最小値ｒｅ（＝ｒ（Ｔ）））を決定するようにしてもよい（後述する図１０を参照）。また、変換部３１は、一定時間Ｔ経過前まで用いた伸縮倍率ｒ（ｔ）における時刻０≦ｔ≦Ｔの平均倍率を算出し、その平均倍率を下回る任意の固定値を、新たな伸縮倍率ｒＴ（ｔ）として決定するようにしてもよい。また、変換部３１は、一定時間Ｔ経過前まで用いた伸縮倍率ｒ（ｔ）における時刻０≦ｔ≦Ｔの平均倍率を算出し、その平均倍率を下回る平均倍率を有する伸縮倍率ｒＴ（ｔ）を、新たな伸縮倍率ｒＴ（ｔ）として決定するようにしてもよい。この場合、変換部３１は、予め複数の波形伸縮関数を保持しており、これらの波形伸縮関数による伸縮倍率における時刻０≦ｔ≦Ｔの平均倍率をそれぞれ算出し、一定時間Ｔ経過前まで用いた伸縮倍率ｒ（ｔ）における時刻０≦ｔ≦Ｔの平均倍率を下回る平均倍率を有する波形伸縮関数を選定し、選定した波形伸縮関数による伸縮倍率を新たな伸縮倍率ｒＴ（ｔ）として決定する。

変換部３１は、ステップＳ９０４にて決定した新たな伸縮倍率ｒＴ（ｔ）を用いて、観測期間ｎ＋１における一定時間Ｔ経過後の音声信号の話速を変換し（ステップＳ９０５）、変換した音声信号を出力する（ステップＳ９０６）。これにより、観測期間ｎ＋１の開始時点から一定時間Ｔを経過した後、発話が継続している場合、変換部３１により新たに決定された伸縮倍率ｒＴ（ｔ）にて変換された音声信号が出力される。

変換部３１は、ステップＳ９０４において、変換部３０から一定時間Ｔを経過していることを示す指示を入力したときに、発話が継続していない場合、新たな伸縮倍率ｒＴ（ｔ）を決定することなく、入力した音声信号をそのまま出力する。

図１０は、観測期間と波形伸縮関数Ｙにおける時間データＴの関係を説明する図である。話速変換部１４が、波形伸縮関数決定部１２から図１０（１）に示す波形伸縮関数Ｙ１による伸縮倍率ｒ１（ｔ）及び時間データＴ１を入力した場合、時間データＴ１が示す一定時間（一定時間Ｔ１）は観測期間よりも長いから、ステップＳ９０２において、観測期間ｎ＋１の開始時点からの時間が一定時間Ｔ１を経過することがない。したがって、話速変換部１４は、図９に示した処理のうち、ステップＳ９０１，ステップＳ９０２、ステップＳ９０３及びステップＳ９０６の処理を行い、ステップＳ９０４及びステップＳ９０５の処理を行うことはない。

また、話速変換部１４が、波形伸縮関数決定部１２から図１０（２）に示す波形伸縮関数Ｙ２による伸縮倍率ｒ２（ｔ）及び時間データＴ２を入力した場合、時間データＴ２が示す一定時間（一定時間Ｔ２）は観測期間よりも短いから、ステップＳ９０２において、観測期間ｎ＋１の開始時点からの時間が一定時間Ｔ２を経過することがあり得る。したがって、話速変換部１４は、図９に示した全ての処理を行う。この場合、話速変換部１４は、図１０（２）に示したｒ２Ｔの期間について、すなわち、一定時間Ｔ２が経過してから観測期間が終了するまでの間の期間について、発話が継続している場合、ステップＳ９０４にて新たな伸縮倍率ｒ２Ｔ（ｔ）を決定する。

尚、波形伸縮関数は、開始時点から時間データＴが示す一定時間（一定時間Ｔ）までの間で伸縮倍率が定義されるような関数としたが、一定時間Ｔに関係なく伸縮倍率が定義される関数としてもよい。この場合、図９に示した処理のうちステップＳ９０４及びステップＳ９０５の処理は行われず、観測期間の間、ステップＳ９０３にて伸縮倍率ｒ（ｔ）を用いた変換処理が常に行われる。

以上のように、実施例１による話速変換装置１−１によれば、特徴量算出部１１は、観測期間毎に、音声信号の基本周波数Ｐｔ及びパワーＰｏを用いて音響特徴量Ｓを算出し、波形伸縮関数決定部１２は、観測期間毎に、音響特徴量Ｓの特性として、呼気段落毎の回帰直線の傾きａ１，ａ２，ａ３を算出し、テーブル２１を参照して傾きａ１，ａ２，ａ３の条件を満たす波形伸縮関数Ｙを決定し、決定した波形伸縮関数Ｙ及び時間データＴをＤＢ１３から読み出し、波形伸縮関数Ｙを用いて伸縮倍率ｒ（ｔ）を算出するようにした。そして、話速変換部１４は、観測期間の開始時点から時間データＴの示す時間が経過するまでの間、直前の観測期間において波形伸縮関数決定部１２により算出された伸縮倍率ｒ（ｔ）を用いて音声信号を話速変換するようにした。これにより、発話の特徴の違い及び変化、発話者の違い、並びに言語の違い等が音声信号の音響特徴量Ｓに反映され、適切な波形伸縮関数Ｙが決定され、この波形伸縮関数Ｙによる伸縮倍率ｒ（ｔ）にて音声信号が話速変換される。したがって、多様な発話の原音声に対し、ゆっくりと感じるように聞こえる話速変換を実現することができる。また、音響特徴量Ｓ、波形伸縮関数Ｙ及び伸縮倍率ｒ（ｔ）は、観測期間毎に更新されるから、発話の特徴が変化した場合であっても、その変化に追従した音響特徴量Ｓ、波形伸縮関数Ｙ及び伸縮倍率ｒ（ｔ）が求められ、多様な発話の原音声の変化に追従して、ゆっくりと感じるように聞こえる話速変換を実現することができる。

また、話速変換部１４は、観測期間の開始時点から時間データＴの示す時間が経過した後、発話が継続している場合、伸縮倍率ｒ（ｔ）の代わりに所定の伸縮倍率ｒＴ（ｔ）を用いて音声信号を話速変換するようにした。これにより、観測期間の開始時点から時間データＴの示す時間後も発話が継続している場合であっても、途切れることのない話速変換を実現することができる。

〔実施例２〕
次に、実施例２による話速変換装置について説明する。図１１は、実施例２による話速変換装置の構成を示すブロック図である。この話速変換装置１−２は、音声信号分析部１０、特徴量算出部１１、波形伸縮関数決定部１５、ＤＢ１３及び話速変換部１６を備えている。図１に示した実施例１による話速変換装置１−１と図１１に示す実施例２による話速変換装置１−２とを比較すると、両話速変換装置１−１，１−２は、音声信号分析部１０、特徴量算出部１１、ＤＢ１３を備えている点で同一である。一方、話速変換装置１−２は、話速変換装置１−１の波形伸縮関数決定部１２及び話速変換部１４とは異なる波形伸縮関数決定部１５及び話速変換部１６を備えている点で相違する。音声信号分析部１０、特徴量算出部１１及びＤＢ１３については、図１に示した実施例１による話速変換装置１−１にて説明済みであるから、ここでは説明を省略する。

話速変換部１６は、図１の話速変換部１４と同様の処理に加え、変換後の音声信号である各種区間の時系列の音声信号（出力音声）を波形伸縮関数決定部１５に出力する。

波形伸縮関数決定部１５は、特徴量算出部１１から観測期間毎の音響特徴量Ｓを入力すると共に、音声信号分析部１０から各種区間の時系列の音声信号（入力音声）を入力し、話速変換部１６から各種区間の時系列の音声信号（出力音声）を入力し、図１の波形伸縮関数決定部１２と同様の処理を行って波形伸縮関数Ｙを決定する。話速変換部１６から入力する各種区間の時系列の音声信号（出力音声）は、音声信号分析部１０から入力する各種区間の時系列の音声信号（入力音声）に対応する音声信号であり、音声信号分析部１０から入力する観測期間の音声信号に対応して、その観測期間において話速変換部１６にて変換された音声信号である。

波形伸縮関数決定部１５は、音声信号分析部１０から入力した音声信号と話速変換部１６から入力した音声信号との間の時間遅れを算出し、算出した時間遅れが予め設定されたしきい値以下でない場合（しきい値を超えている場合）、算出した時間遅れに基づいて、波形伸縮関数Ｙの最大値ｒｓを小さい値に修正し、新たな波形伸縮関数Ｙ’を設定する。例えば、波形伸縮関数決定部１５は、波形伸縮関数Ｙの最大値ｒｓが１．４の場合、最大値ｒｓを下方修正し、最大値ｒｓが１．２になるような新たな波形伸縮関数Ｙ’を設定する。そして、波形伸縮関数決定部１５は、新たな波形伸縮関数Ｙ’を用いて伸縮倍率ｒ’（ｔ）を算出し、伸縮倍率ｒ’（ｔ）及び時間データＴ（ＤＢ１３から読み出された波形伸縮関数Ｙの時間データＴ）を話速変換部１６に出力する。ここで、波形伸縮関数決定部１５は、時間遅れがしきい値以下である場合、波形伸縮関数Ｙをそのまま新たな波形伸縮関数Ｙ’に設定する。

（波形伸縮関数決定部）
次に、図１１に示した実施例２による話速変換装置１−２の波形伸縮関数決定部１５について詳細に説明する。図１２は、波形伸縮関数決定部１５の構成を示すブロック図であり、図１３は、波形伸縮関数決定部１５の処理を示すフローチャートである。この波形伸縮関数決定部１５は、特性算出部２０、テーブル２１、関数決定部２２、関数修正部２４及び伸縮倍率出力部２３を備えている。図５に示した波形伸縮関数決定部１２と図１２に示す波形伸縮関数決定部１５とを比較すると、両波形伸縮関数決定部１２，１５は、特性算出部２０、テーブル２１、関数決定部２２及び伸縮倍率出力部２３を備えている点で同一である。一方、波形伸縮関数決定部１５は、波形伸縮関数決定部１２の各構成部に加え、さらに関数修正部２４を備えている点で相違する。

図１２において、特性算出部２０、テーブル２１、関数決定部２２及び伸縮倍率出力部２３については、図５に示した波形伸縮関数決定部１２にて説明済みであるから、ここでは説明を省略する。また、図１３において、ステップＳ１３０１〜ステップＳ１３０４の処理は、図７に示したステップＳ７０１〜ステップＳ７０４の処理と同一であるから、ここでは説明を省略する。

関数決定部２２は、ステップＳ１３０４にて読み出した波形伸縮関数Ｙ及び時間データＴを関数修正部２４に出力する。関数修正部２４は、関数決定部２２から波形伸縮関数Ｙ及び時間データＴを入力すると共に、音声信号分析部１０から各種区間の時系列の音声信号（入力音声）を入力し、話速変換部１６から各種区間の時系列の音声信号（出力音声）を入力する（ステップＳ１３０５）。そして、関数修正部２４は、音声信号分析部１０から入力した音声信号（入力音声）と話速変換部１６から入力した音声信号（出力音声）との間の時間遅れを算出する（ステップＳ１３０６）。関数修正部２４は、観測期間において、入力音声の経過時間を観測すると共に、入力音声の経過時間に対応する出力音声の経過時間も観測しており、これらの経過時間の差を時間遅れとして算出する。入力音声の経過時間に対応する出力音声の経過時間とは、話速変換部１６により入力音声が話速変換されたときの、入力音声の時刻情報に対応する出力音声の時刻情報を示す。この場合、関数修正部２４は、入力音声の観測期間と、この観測期間に対応する出力音声の時間期間との差を算出し、これを時間遅れとするようにしてもよい。

尚、関数修正部２４は、観測期間の代わりに、呼気段落の時間長に着目し、入力音声の呼気段落の時間長と、この呼気段落に対応する出力音声の呼気段落における時間長との間の差を算出し、これを時間遅れとしてもよい。また、関数修正部２４は、有声区間の時間長に着目し、入力音声の有声区間の時間長と、この有声区間に対応する出力音声の有声区間における時間長との間の差を算出し、これを時間遅れとしてもよい。

関数修正部２４は、ステップＳ１３０６にて算出した時間遅れと、予め設定されたしきい値とを比較し、時間遅れがしきい値以下であるか否かを判定する（ステップＳ１３０７）。関数修正部２４は、ステップＳ１３０７において、時間遅れがしきい値以下でないと判定した場合（ステップＳ１３０７：Ｎ）、ステップＳ１３０４にて読み出した波形伸縮関数Ｙの最大値ｒｓを、その最大値ｒｓよりも小さい値に修正して新たな波形伸縮関数Ｙ’を設定する（ステップＳ１３０８）。一方、関数修正部２４は、ステップＳ１３０７において、時間遅れがしきい値以下であると判定した場合（ステップＳ１３０８：Ｙ）、ステップＳ１３０４にて読み出した波形伸縮関数Ｙを、最大値ｒｓ等を変更することなく、新たな波形伸縮関数Ｙ’に設定する（ステップＳ１３０９）。

この場合、関数修正部２４は、ステップＳ１３０７において、時間遅れがしきい値以下になるまでの間（時間遅れがしきい値以下でない限り）、ステップＳ１３０８において、最大値ｒｓを一定の割合で徐々に小さい値に修正し、新たな波形伸縮関数Ｙ’を更新する。これにより、時間遅れがしきい値を超えている間、時間の経過に従って、波形伸縮関数Ｙ’の最大値ｒｓが徐々に小さい値になるから、伸縮倍率出力部２３により出力される伸縮倍率ｒ’（ｔ）も通常の伸縮倍率ｒ（ｔ）よりも徐々に小さい値になり、結果として、時間遅れが小さくなってしきい値以下となる。したがって、時間遅れは、しきい値の時間を超えて蓄積されることがない。

伸縮倍率出力部２３は、関数修正部２４から波形伸縮関数Ｙ’を入力し、入力した波形伸縮関数Ｙ’を用いて伸縮倍率ｒ’（ｔ）を算出し（ステップＳ１３１０）、ステップＳ１３１０にて算出した伸縮倍率ｒ’（ｔ）及びステップＳ１３０４にて読み出した時間データＴを話速変換部１６に出力する（ステップＳ１３１１）。

以上のように、実施例２による話速変換装置１−２によれば、特徴量算出部１１は、観測期間毎に、音声信号の音響特徴量Ｓを算出し、波形伸縮関数決定部１５は、観測期間毎に、音響特徴量Ｓの特性である呼気段落毎の回帰直線の傾きａ１，ａ２，ａ３を算出し、テーブル２１を参照して傾きａ１，ａ２，ａ３の条件を満たす波形伸縮関数Ｙを決定し、決定した波形伸縮関数Ｙ及び時間データＴをＤＢ１３から読み出すようにした。そして、波形伸縮関数決定部１５は、入力音声と話速変換後の出力音声との間の時間遅れを算出し、算出した時間遅れがしきい値以下でない場合、算出した時間遅れに基づいて、波形伸縮関数Ｙの最大値ｒｓを小さい値に修正して新たな波形伸縮関数Ｙ’を設定し、算出した時間遅れがしきい値以下である場合、波形伸縮関数Ｙをそのまま新たな波形伸縮関数Ｙ’に設定し、新たな波形伸縮関数Ｙ’を用いて伸縮倍率ｒ’（ｔ）を算出するようにした。そして、話速変換部１６は、新たな波形伸縮関数Ｙ’による伸縮倍率ｒ’（ｔ）を用いて音声信号を話速変換するようにした。これにより、実施例１の効果に加え、入力音声と出力音声との間の時間遅れがしきい値を超えて蓄積されないように、適切な波形伸縮関数Ｙ’が決定され、この波形伸縮関数Ｙ’による伸縮倍率ｒ’（ｔ）にて音声信号が話速変換される。したがって、多様な発話の原音声に対し、時間遅れが蓄積されることなく、安定的にゆっくりと感じるように聞こえる話速変換を実現することができる。

尚、実施例１，２による話速変換装置１−１，１−２のハードウェア構成としては、通常のコンピュータを使用することができる。話速変換装置１−１，１−２は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。話速変換装置１−１に備えた音声信号分析部１０、特徴量算出部１１、波形伸縮関数決定部１２及び話速変換部１４の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、話速変換装置１−２に備えた音声信号分析部１０、特徴量算出部１１、波形伸縮関数決定部１５及び話速変換部１６の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１話速変換装置
１０音声信号分析部
１１特徴量算出部
１２，１５波形伸縮関数決定部
１３ＤＢ
１４，１６話速変換部
２０特性算出部
２１テーブル
２２関数決定部
２３伸縮倍率出力部
２４関数修正部
３０，３１変換部

Claims

時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換装置において、
前記入力した時系列の音声信号から、音響的な特徴を示す特徴量を算出する特徴量算出部と、
前記特徴量算出部により算出された特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する波形伸縮関数決定部と、
前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて、前記音声信号の話速を変換する話速変換部と、を備え、
所定時間毎に、前記特徴量算出部が特徴量を算出し、前記波形伸縮関数決定部が関数を決定し、
前記話速変換部は、前記波形伸縮関数決定部により直前の所定時間にて決定された関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換する、ことを特徴とする話速変換装置。
請求項１に記載の話速変換装置において、
前記波形伸縮関数決定部は、
前記入力した時系列の音声信号と、前記話速変換部により話速が変換された時系列の音声信号との間の時間遅れを算出し、前記時間遅れが所定のしきい値以下になるように、前記決定した関数を修正して新たな関数を決定する、ことを特徴とする話速変換装置。
請求項１または２に記載の話速変換装置において、
前記所定時間を、予め設定された一定時間とするか、または、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落を単位として、予め設定された整数倍の数の呼気段落を含む期間とする、ことを特徴とする話速変換装置。
請求項１から３までのいずれか一項に記載の話速変換装置において、
前記波形伸縮関数決定部は、
前記特徴量算出部により算出された特徴量の回帰直線を求め、前記回帰直線の傾きを、前記音声信号の特性として算出する特性算出部と、
前記回帰直線の傾きの条件と関数とが対応して格納されたテーブルと、
前記特性算出部により算出された傾きの条件を満たす関数を前記テーブルから読み出し、前記読み出した関数を、前記話速変換の際に用いる音声波形の伸縮倍率を定める関数として決定する関数決定部と、
を備えたことを特徴とする話速変換装置。
請求項１から４までのいずれか一項に記載の話速変換装置において、
前記波形伸縮関数決定部により決定される関数を、発声音の息継ぎ区間に相当する休止区間に挟まれた呼気段落の開始時点から予め設定された時間までの間で定義される関数とし、
前記話速変換部は、
前記所定時間の開始時点から前記予め設定された時間が経過するまでの間、前記波形伸縮関数決定部により決定された関数による伸縮倍率を用いて前記音声信号の話速を変換し、前記所定時間の開始時点から前記予め設定された時間が経過した後、予め設定された新たな伸縮倍率を用いて前記音声信号の話速を変換する、ことを特徴とする話速変換装置。
時系列の音声信号を入力し、所定の波形伸縮ルールによって前記音声信号の話速を変換する話速変換方法において、
前記入力した時系列の音声信号の時系列データから、音響的な特徴を示す特徴量を算出する第１のステップと、
前記算出した特徴量に基づいて、話速変換の際に用いる音声波形の伸縮倍率を定める関数を決定する第２のステップと、
前記決定した関数による伸縮倍率を用いて、前記音声信号の話速を変換する第３のステップと、を有し、
前記第１及び第２のステップは所定時間毎に行われ、
前記第３のステップは、前記第２のステップにて直前の所定時間にて決定した関数による伸縮倍率を用いて、現在の所定時間における音声信号の話速を変換するステップである、ことを特徴とする話速変換方法。
コンピュータを、請求項１から５までのいずれか一項に記載の話速変換装置として機能させるための話速変換プログラム。