JP2014186347A

JP2014186347A - 話者速度変換システムおよびその方法ならびに速度変換装置

Info

Publication number: JP2014186347A
Application number: JP2014115975A
Authority: JP
Inventors: Tomoshi Hosokawa; 知志細川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-08-22
Filing date: 2014-06-04
Publication date: 2014-10-02
Anticipated expiration: 2028-07-22
Also published as: WO2009025142A1; JPWO2009025142A1; JP5609111B2; JP6071944B2; US8392197B2; US20110224990A1

Abstract

【課題】音質の優れた話者速度変換システムおよびその方法ならびに速度変換装置を提供する。
【解決手段】入力された音声のうち音質上危険な箇所を検出する危険箇所検出部２２と、入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出部２３と、フレーム境界検出部２３での検出結果に基づき速度変換を行うＯＬＡ部２５とを有し、フレーム境界検出部２３は、危険箇所検出部２２手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する。
【選択図】図３

Description

本発明は、話者速度変換システムおよびその方法ならびに速度変換装置に関し、特に話者音声の速度を遅くする話者速度変換システムおよびその方法ならびに速度変換装置に関する。

ピッチを変えない速度変換の一例として、ＯＬＡ（overlap and add）という手法が一般に使用されている。

図１Ａは、関連する話者速度変換システムにおける速度変換の動作の一例を示す図であり、変換前の音声の元波形を示す。図１Ｂは、関連する話者速度変換システムにおける速度変換の動作の一例を示す図であり、変換後の音声の波形を示す。なお、図１Ａ，１Ｂにおいて横軸は時間（ｓｅｃ．）、縦軸は出力電圧（Ｖ）を示す。

音声の速度変換をする場合、単に再生速度を変えただけではピッチが変化してしまい正常な音声にはならない。このため、ＯＬＡでは以下のようにして音声波形を増やすことでピッチを維持したまま再生時間の伸張を実現する。

（１）音声波形を適当な箇所（ゼロクロスする場所等）で、図１Ａに示すように、フレームに分解する。図１Ａでは、一例として、フレームをゼロクロスする場所で５個のフレーム（１〜５）に分解している。なお、図１Ａでは、１フレームを１周期分としているが、これに限定するものではなく、１フレームを２周期以上とすることも可能である。

（２）図１Ｂに示すように、予め定められた伸張率に応じて、最適な頻度でフレームを繰り返す。図１Ｂでは、一例として、フレーム１，３，４をそれぞれ１回繰り返している。

（３）フレームの繰り返し部分の波形をなめらかにつなぐため、図１Ｂに示すように、繰り返した部分の前後でクロスフェード処理をかける。図１Ｂでは、一例として、フレーム１とフレーム１との境界、フレーム３とフレーム３との境界、フレーム４とフレーム４との境界の前後にクロスフェード処理をかけている。クロスフェード処理はＯＬＡの手法として必須ではないが、音質を向上させる手法として一般的に行われている。

なお、関連する技術が、特開２００６−０３８９５６号公報、特開２００７−００３６８２号公報、特開２００６−１２６３７２号公報および特開２０００−３２２０６１号公報に開示されている。

しかし、ゼロクロスや相関関数によるフレーム境界検出を使用している場合、語頭等の高域が多い箇所では音質が破綻するという課題がある。

また、ピッチ検出に基づくフレーム境界検出を使用している場合、ピッチが不安定となる箇所ではフレーム検出が安定せず、これをＯＬＡ処理することで音質が破綻するという課題がある。

本発明は、上記課題を解決し、これにより音質の優れた話者速度変換システムおよびその方法ならびに速度変換装置を提供することを目的とする。

上記目的を達成するために本発明は、
入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
前記速度変換手段は、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
前記フレーム境界検出手段での検出結果に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する。

また、入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
前記速度変換手段は、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする。

また、入力された音声の速度を変換する話者速度変換方法であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出ステップと、
前記フレーム境界検出ステップでの検出結果に基づき速度変換を行うＯＬＡ（overlap and add）ステップとを有し、
前記フレーム境界検出ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外する。

また、入力される音声の速度を変換する話者速度変換方法であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定する反復回数決定処理ステップと、
前記反復回数決定処理ステップにて決定したフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）ステップとを有し、
前記反復回数決定処理ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする。

また、入力される音声の速度を変換する話者速度変換装置であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
前記フレーム境界検出手段での検出結果に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する。

また、入力される音声の速度を変換する話者速度変換装置であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする。

また、入力された音声の速度を変換するためのプログラムであって、
コンピュータに、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外するフレーム境界検出ステップと、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理ステップと、
前記フレーム境界検出ステップでの検出結果および前記反復回数決定処理ステップにて決定してフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）ステップとを実行させる。

本発明によれば、上記課題を解決し、これにより音質の優れた話者速度変換システムおよびその方法ならびに速度変換装置が得られる。

関連する話者速度変換システムにおける速度変換の動作の一例を示す図である。関連する話者速度変換システムにおける速度変換の動作の一例を示す図である。本発明に係る話者速度変換システムの最良の実施形態の構成図である。図１に示した話者速度変換システムの速度変換部の一例の構成図である。図３に示した危険箇所検出部の一例の構成図である。図２〜４に示した話者速度変換システムの動作の一例を示す音声波形図である。図２〜４に示した話者速度変換システムの動作の一例を示すフローチャートである。図２〜４に示した話者速度変換システムの動作の一例を示すフローチャートである。

以下に、本発明の最良の実施形態について添付図面を参照しながら説明する。

図２は、本発明に係る話者速度変換システムの最良の実施形態の構成図である。

図２を参照すると、本発明に係る話者速度変換システム１の最良の実施形態は、有音・無音分離部１１と、音声メモリ１２と、速度変換部１３と、信号選択部１４と、制御部１５と、プログラム格納部１６とを含んで構成される。

有音・無音分離部１１は、入力音声が有音（人間の声等、情報として意味を持つ部分）か無音（背景雑音等、情報として意味を持たない成分）かを判定し、それぞれを分離する。また、有音・無音の判定は、時間ごと（たとえば、２０ｍｓごと）に行われ、時間ごとに分離される。一例として、音声レベル（一定期間の振幅の平均値）の大小による判定、あるいは音声デコーダ（ＡＭＲ（adaptive multi-rate）デコーダ等、音声入力前段に配置されるデコーダ）から得られた情報量に関する情報による判定が行われる。

音声メモリ１２は、有音・無音分離部１１にて有音と判定された音声を蓄積するＦＩＦＯ（first-in first-out）式のメモリである。リングバッファによりＲＡＭ（random access memory）に構成する実装が一般的である。

速度変換部１３は、音声のピッチを変えずに速度のみを変化させる音響処理を行う。本発明の中核となる部分である。速度変換部１３は、音声メモリ１２に音声が蓄積されている場合にのみ動作する。

信号選択部１４は、有音ルート、すなわち有音・無音分離部１１、音声メモリ１２、速度変換部１３の順に有音信号が出力されている場合はその有音信号を出力し、有音信号が出力されていない場合は無音信号を出力する。

プログラム格納部１６には、後述する所定のプログラムが格納されている。

制御部１５は、プログラム格納部１６に格納されたプログラムに基づき、有音・無音分離部１１、音声メモリ１２、速度変換部１３および信号選択部１４を制御する。

次に、速度変換部１３の一例の構成について説明する。

図３は、図１に示した話者速度変換システムの速度変換部１３の一例の構成図である。なお、本発明における速度変換部１３もＯＬＡの使用を前提としている。

図３を参照すると、速度変換部１３の一例は、速度決定機構部２１と、危険箇所検出部２２と、フレーム境界検出部２３と、反復回数決定処理部２４と、ＯＬＡ部２５とを含んで構成される。

速度決定機構部２１は、以下のような情報に基づいてＯＬＡ処理の伸張率を決定する。

（１）音声メモリ１２のデータ残量。有音が継続した場合、音声メモリのデータ残量は単調に増加していく。これは伸張方向だからである。一方、音声メモリ１２のデータ蓄積量は有限であるため、一定量以上蓄積された場合は伸張率を抑える必要があるためである。

（２）ユーザ操作情報。伸張率を制御する機能をユーザに提供する場合は、ユーザがボタン操作等で入力した情報に従って伸張率を変動させる。

危険箇所検出部２２は、入力された音声のうち、ＯＬＡ処理を適用することで低品質な出力（耳障りな不連続成分の発生等）となる可能性がある部分を検出する。

フレーム境界検出部２３は、ＯＬＡ処理で使用する音声フレームの境界を検出する。入力された音声から特徴を検出するほか、危険箇所検出部２２から得られた危険箇所情報に基づいて検出を実施する。

反復回数決定処理部２４は、速度決定機構部２１および危険箇所検出部２２からの情報に基づき、ＯＬＡによるフレーム繰り返し処理の回数を決定する。フレーム境界検出部２３により検出された各フレームごとに、以下のようにして反復回数を決定する。

（１）速度決定機構部２１にて決定した伸張率と、実際の伸張率、たとえば過去１秒間の繰り返し回数の履歴から算出した伸張率とを比較し、実際の伸張率が小さな場合は繰り返し回数を“２”に設定する。このとき、伸張率の乖離が大きな場合は“３”以上の繰り返し回数を設定しても良い。

（２）フレーム中に存在する危険箇所（危険箇所検出部２２から得られる）の比率が一定の閾値を超えた場合は、（１）の結果によらずに繰り返し回数を“１”に設定する。閾値は“０”でも良く、この場合はフレーム中に一箇所でも危険箇所があれば、繰り返し回数は“１”になる。

ＯＬＡ部２５の動作は、図１Ａ，１Ｂを用いて説明したとおりである。

次に、危険箇所検出部２２の一例の構成について説明する。

図４は、図３に示した危険箇所検出部２２の一例の構成図である。

図４に示す構成は、入力された音声のうち、語頭の急峻な振幅増加が発生している部分であるアタック成分を危険箇所とみなし、このアタック成分を検出した際に危険箇所として出力するよう構成した例である。なお、危険箇所検出部２２の構成は、図４に示したもの以外にも種々の構成が考えられる。

図４を参照すると、危険箇所検出部２２の一例は、平均レベル測定部３１と、レベル変化検出部３２と、比較部３３とを含んで構成される。

平均レベル測定部３１は、入力音声の振幅の時間平均を求めて出力する。たとえば、前後０．５秒間の振幅の絶対値を平均した値等が使用される。

レベル変化検出部３２は、振幅の変化を求めて出力する。たとえば、短い時間（５０ｍｓ等）ごとの振幅絶対値の最大値を計算し、その最大値の時間変化を求めるといった手法により振幅の変化を求める。瞬間的な変化を検出できるよう、平均レベル測定よりも短い時定数が使用される。

比較部３３は、レベル変化検出部３２の出力値を平均レベル測定部３１の出力値で除算し、その除算結果を予め与えられた閾値と比較する。そして、除算結果が閾値を超える場合は、アタック成分が危険箇所であるとして、危険箇所情報を出力する。

次に、本発明の最良の実施形態の動作について図５〜図７を参照しながら説明する。

図５は、図２〜４に示した話者速度変換システムの動作の一例を示す音声波形図であり、図６および図７は、図２〜４に示した話者速度変換システムの動作の一例を示すフローチャートである。

プログラム格納部１６には、図６および図７にフローチャートで示す話者速度変換プログラムが格納されている。コンピュータからなる制御部１５は、プログラム格納部１６からそのプログラムを読み出し、そのプログラムにしたがって有音・無音分離部１１、音声メモリ１２、速度変換部１３および信号選択部１４を制御する。以下、その制御の内容について説明する。

まず、ステップＳ１において、有音・無音分離部１１にて有音と無音が分離される。

次に、ステップＳ２において、音声メモリ１２に有音部の音声データが蓄積される。

次に、ステップＳ３において、音声メモリ１２から音声データが速度変換部１３の危険箇所検出部２２へ入力され、危険箇所検出部２２にて音声データから音質上危険な箇所が検出される。なお、音質上危険な箇所とは、上述したように、語頭の急峻な振幅増加が発生している部分を言う。

次に、ステップＳ４において、音声メモリ１２から解析窓に収まる範囲の音声データが速度変換部１３のフレーム境界検出部２３に入力される。

フレーム境界検出部２３では、前回検出したフレームの直後からフレーム境界検出動作が行われる。実際には、一定時間分の解析窓が用意され、解析窓に収まる範囲の音声データについて解析が行われる。これは処理時間を有限に留めるためである。

フレーム境界検出部２３では、解析窓中の音声データから、フレーム境界の候補となり得るポイントを複数個検索し、これらのうち最も音質面で優れていると予測されるポイントをフレーム境界として出力する。この処理は、以下のようにして達成される。

次に、ステップＳ５において、フレーム境界検出部２３にて、解析窓中の音声データがゼロクロスする場所が算出される。ゼロクロスとは、出力電圧値がマイナスからプラスに変化する点、あるいはプラスからマイナスに変化する点をいう。

図５を参照すると、音声データのゼロクロスする場所の一例として、ゼロクロス点１０１〜１０４が表示されている。

一方、危険箇所検出部２２にて危険箇所と判断された部分１１１が図５に斜線を付して表示されている。

次に、ステップＳ６において、フレーム境界検出部２３にて、危険箇所と判断された部分１１１に含まれるゼロクロス点１０２がフレーム境界の候補から除外される。

したがって、ここまで処理が実施されて残ったフレーム境界の候補は候補１（ゼロクロス点１０１）、候補２（ゼロクロス点１０３）および候補３（ゼロクロス点１０４）となる。

次に、ステップＳ７において、フレーム境界検出部２３にて、残った候補１〜３（ゼロクロス点１０１，１０３，１０４）から音質的に最も優れていると予測される候補がフレーム境界として採用される。

ステップＳ７の処理は、フレーム先頭部分（前回検出したフレームの直後）近辺の音声波形と、各候補付近の音声波形とを比較し、相関が最も高い（波形が類似している）部分を選択することによって行われる。これは、ＯＬＡ処理により各フレームが繰り返されると、フレームの先頭と末尾の音声が連続して再生されることになるためである。

なお、相関を求める手法には一般的な手法がいくつかあり、相関関数を使用する方法や、各サンプルの符号を比較する方法等がある。

一例として、候補１（ゼロクロス点１０１）がフレーム境界として採用された場合、ゼロクロス点１０１から始まる１フレーム分の音声データが繰り返しの対象となる。

次に、ステップＳ８において、反復回数決定処理部２４にて、危険箇所検出部２２から得られる情報に基づいてフレームの反復回数が抑制される。

次に、ステップＳ９において、ステップＳ７で得られたフレーム境界と、ステップＳ８で得られたフレームの反復回数に基づき、ＯＬＡ部２５にて速度変換処理が実行される。

次に、ステップＳ１０において、信号選択部１４にて有音データまたは無音データが選択され、選択されたデータが出力される。

なお、ステップＳ８における反復回数の抑制において、反復回数決定処理部２４では危険箇所検出部２２から得られる情報に基づいて反復回数が抑圧されるため、危険箇所が比較的多い場所（アタック部分）では再生速度が速くなり、比較的少ない場所では遅くなるという動作となる。

以上説明したように、本発明の最良の実施形態によれば、音質上危険な箇所をフレーム繰り返し処理の対象外とすることで、高音質な話者速度変換システムおよびその方法ならびに速度変換装置が得られる。

また、フレーム検出において音質上危険な箇所を避けることにより、高音質な話者速度変換システムおよびその方法ならびに速度変換装置が得られる。

また、音質上危険な場所の検出にあたり、入力音声のアタック成分を調べる方式とすることで、高効率かつ高音質な話者速度変換システムおよびその方法ならびに速度変換装置が得られる。

以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２００７年８月２２日に出願された日本出願特願２００７−２１５３５３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
前記速度変換手段は、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
前記フレーム境界検出手段での検出結果に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する話者速度変換システム。
入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
前記速度変換手段は、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする話者速度変換システム。
請求項１に記載の話者速度変換システムにおいて、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定し、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理手段を有し、
前記ＯＬＡ（overlap and add）手段は、前記フレーム境界検出手段での検出結果および前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行う話者速度変換システム。
請求項１乃至３のいずれか１項に記載の話者速度変換システムにおいて、
前記危険箇所検出手段は、入力された音声のうち、語頭の急峻な振幅増加が発生している部分を危険箇所として検出する話者速度変換システム。
請求項１乃至４のいずれか１項に記載の話者速度変換システムにおいて、
入力された音声を有音と無音に分離する有音・無音分離手段と、
前記有音・無音分離手段にて分離された有音情報が蓄積される音声メモリ手段と、
前記速度変換手段から出力される有音情報と、前記有音・無音分離手段から出力される無音情報とのいずれかを選択する信号選択手段とを有し、
前記速度変換手段は、前記音声メモリ手段から有音情報を読み出す話者速度変換システム。
入力された音声の速度を変換する話者速度変換方法であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出ステップと、
前記フレーム境界検出ステップでの検出結果に基づき速度変換を行うＯＬＡ（overlap and add）ステップとを有し、
前記フレーム境界検出ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外する話者速度変換方法。
入力される音声の速度を変換する話者速度変換方法であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定する反復回数決定処理ステップと、
前記反復回数決定処理ステップにて決定したフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）ステップとを有し、
前記反復回数決定処理ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする話者速度変換方法。
請求項６に記載の話者速度変換方法において、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定し、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理ステップを有し、
前記ＯＬＡ（overlap and add）ステップは、前記フレーム境界検出ステップでの検出結果および前記反復回数決定処理ステップにて決定したフレーム繰り返し数に基づき速度変換を行う話者速度変換方法。
請求項６乃至８のいずれか１項に記載の話者速度変換方法において、
前記危険箇所検出ステップは、入力された音声のうち、語頭の急峻な振幅増加が発生している部分を危険箇所として検出する話者速度変換方法。
入力される音声の速度を変換する話者速度変換装置であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
前記フレーム境界検出手段での検出結果に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する話者速度変換装置。
入力される音声の速度を変換する話者速度変換装置であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）手段とを有し、
前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする話者速度変換装置。
請求項１０に記載の話者速度変換装置において、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定し、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理手段を有し、
前記ＯＬＡ（overlap and add）手段は、前記フレーム境界検出手段での検出結果および前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行う話者速度変換装置。
請求項１０乃至１２のいずれか１項に記載の話者速度変換装置において、
前記危険箇所検出手段は、入力された音声のうち、語頭の急峻な振幅増加が発生している部分を危険箇所として検出する話者速度変換装置。
入力された音声の速度を変換するためのプログラムであって、
コンピュータに、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外するフレーム境界検出ステップと、
入力された音声のＯＬＡ（overlap and add）処理におけるフレーム繰り返し数を決定し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理ステップと、
前記フレーム境界検出ステップでの検出結果および前記反復回数決定処理ステップにて決定してフレーム繰り返し数に基づき速度変換を行うＯＬＡ（overlap and add）ステップとを実行させるためのプログラム。