JP2010191415A

JP2010191415A - 音声再生方法および音声再生装置

Info

Publication number: JP2010191415A
Application number: JP2010010489A
Authority: JP
Inventors: Taro Mizufuji; 太郎水藤; Masashi Ota; 正志太田; Masami Miura; 雅美三浦
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-08-24
Filing date: 2010-01-20
Publication date: 2010-09-02

Abstract

【課題】記録媒体から音声信号を速い速度で再生し、通常の音程で出力する方法で、音声が途切れることが少なくする。
【解決手段】２倍速再生によって得られた入力データＳｉを６０ｍ秒相当の処理単位期間Ｔ１，Ｔ２…ごとに区切る。期間Ｔ１では、有音部分と無音部分が３０ｍ秒分ずつ存在し、無音部分を全て削除し、前後の有音部分を接合して、有音部分のデータのみを全て出力バッファに書き込む。期間Ｔ２では、６０ｍ秒分のデータが全て有音部分であり、有音部分のデータをそのまま出力バッファに書き込む。期間Ｔ２で有音部分が３０ｍ秒分未満しか存在しないときには、有音部分の全てに無音部分の一部を付加して、３０ｍ秒分のデータを出力バッファに書き込む。期間Ｔ５では、６０ｍ秒分のデータが全て有音部分であり、出力バッファに６０ｍ秒分のデータを全て蓄えるだけの空きがないので、データを３０ｍ秒分に圧縮して出力バッファに書き込む。
【選択図】図１３

Description

この発明は、ビデオテープレコーダなどのように映像信号および音声信号を記録再生する機器や、ミニディスクプレーヤなどのように音声信号を記録再生する機器などにおいて、記録媒体から、これに記録された音声信号を定常速度より速い速度で再生する方法および装置に関する。

家庭用ビデオテープレコーダで、再生時間を短縮するために、テープに記録された映像信号および音声信号を、定常速度より速い２倍速などの速度で再生する場合でも、音声信号については、無音部分を優先的に削除するように元の再生音声信号を周期的に切り貼りすることによって、音声を定常速度で聞き取ることができるようにしたものが考えられている。

しかしながら、上述した従来の音声再生方法では、元の再生音声信号を周期的に削除するため、元の再生音声信号中に無音部分が一定の割合で含まれていない場合には、有音部分が削除されて、切り貼り後の再生音声信号は音声が途切れ途切れになり、内容を理解できなくなってしまう。

また、元の再生音声信号中に無音部分がある程度含まれていて、有音部分を削除しなくても再生音声信号の切り貼りができる場合でも、無音期間が短くなり、有音部分が密着することによって、異なる音に聞こえてしまうことがある。例えば「ｋ」のような閉鎖子音の前の無音期間が短くなると、「ａ−ｋａ」が「ａ−ｇａ」のように聞こえてしまう。

そこで、この発明は、第１に、再生時間を短縮するために定常速度より速い速度で再生された音声信号を通常の音程で出力する場合に、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなるようにしたものである。

この発明は、第２に、上記の第１に加えて、連続音声部分の密着によって異なる音に聞こえてしまうことが少なくなるようにしたものである。

本発明の音声再生方法では、
記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧し、
その振幅抑圧処理後の再生入力音声信号を、処理単位期間ごとに区切り、
出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、
処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む。

本発明の音声再生方法によれば、出力バッファを効果的に用いることによって、必要最小限のメモリを用いるだけで、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなる。

本発明の音声再生方法によれば、さらに、連続音声部分の密着によって異なる音に聞こえてしまうことが少なくなる。

本発明によれば、再生時間を短縮するために定常速度より速い速度で再生された音声信号を通常の音程で出力する場合に、出力バッファを効果的に用いることによって、必要最小限のメモリを用いるだけで、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなる。本発明によれば、さらに、連続音声部分の密着によって異なる音に聞こえてしまうことが少なくなる。

この発明の再生装置の一例を示す図である。音声処理部の一例を示す図である。振幅抑圧処理部の一例を示す図である。図３の例の振幅抑圧処理の説明に供する図である。図３の例の制御部が行う処理ルーチンの一例を示す図である。図３の例の振幅抑圧処理前と処理後の音声信号波形の一例を示す図である。振幅抑圧処理部の他の例を示す図である。振幅抑圧処理部のさらに他の例を示す図である。図７および図８の例のバンドパスフィルタの説明に供する図である。図７および図８の例の制御部が行う処理ルーチンの一例を示す図である。図７および図８の例の振幅抑圧処理の説明に供する図である。図７および図８の例の振幅抑圧処理前と処理後の音声信号波形の一例を示す図である。速度変換処理の一例を示す図である。有音部分と無音部分の識別判定の一例を示す図である。出力バッファの入出力ポインタの動きを示す図である。速度変換処理ルーチンの一例を示す図である。データ圧縮の一例を示す図である。データ圧縮の際に位置調整を行わない場合を示す図である。データ圧縮の際に位置調整を行う場合の調整方法を示す図である。無音部分削除の際のノイズの発生を示す図である。無音部分削除の際のノイズ発生防止方法を示す図である。音声処理部の他の例を示す図である。音程対応処理単位期間設定処理ルーチンの一例を示す図である。音声処理部のさらに他の例を示す図である。音声レベル対応処理単位期間設定処理ルーチンの一例を示す図である。音声レベルが低い点を速度変換処理の処理単位期間の区切れ目とする場合の例を示す図である。音声処理部のさらに他の例を示す図である。多チャンネル再生の場合の再生装置の一例を示す図である。定常再生対応の再生装置の一例を示す図である。

〔システム全体の一実施形態…図１および図２〕
図１は、この発明の再生装置の一実施形態を示し、ハードディスク、光磁気ディスク、光ディスクなど、ディスク状の記録媒体から、これに記録された映像信号および音声信号を、定常速度より速い速度で再生することができる場合である。

再生装置は、記録装置を兼ねてもよく、実際上も記録装置を兼ねることが望ましいが、記録方法および記録装置は、公知のものと特に変わらないので省略し、記録媒体１には、所定のプロトコルおよびフォーマットによるデジタル化された映像信号および音声信号が記録されているものとする。

以下の例では、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）−２Ｓｙｓｔｅｍｓの圧縮符号化方式および多重化方式によって、圧縮された映像データおよび音声データがＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）として多重化されて記録されているものとし、音声信号のサンプリング周波数は４８ｋＨｚ（６０ｍ秒で２８８０サンプル）とする。

記録媒体１は、駆動モータ３によって回転駆動される。再生ヘッド２は、記録媒体１から、これに記録されている映像信号および音声信号を読み取るもので、磁気ヘッドや光学ピックアップなどであり、駆動モータ４を含む移動機構によって記録媒体１の径方向に移動させられる。駆動モータ３および４は、サーボ回路５によって駆動制御され、サーボ回路５は、装置全体を制御するシステムコントローラ６によって制御される。

再生ヘッド２の出力として得られる、記録媒体１から読み取られた映像信号および音声信号、この例ではＴＳとして多重化された映像データおよび音声データは、デマルチプレクサ７に供給され、デマルチプレクサ７から、映像データおよび音声データが、それぞれ映像ＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａｒｙＳｔｒｅａｍ）および音声ＰＥＳとして分離されて得られる。

デマルチプレクサ７からの映像データは、ＭＰＥＧ映像デコーダ１１で、伸長復号化されるとともに、再生倍率に応じてフレーム単位またはフィールド単位で間引かれる。

すなわち、２倍速再生の場合には、記録媒体１からは映像データが定常速度の２倍の速度で読み取られるが、ＭＰＥＧ映像デコーダ１１で、連続する２フレームにつき１フレーム、または連続する２フィールドにつき１フィールド、映像データが間引かれる。３倍速再生の場合には、記録媒体１からは映像データが定常速度の３倍の速度で読み取られるが、ＭＰＥＧ映像デコーダ１１で、連続する３フレームにつき２フレーム、または連続する３フィールドにつき２フィールド、映像データが間引かれる。

ＭＰＥＧ映像デコーダ１１の出力の映像データは、ＮＴＳＣ（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ）エンコーダ１２で、ＮＴＳＣ映像信号にエンコードされ、アナログ信号に変換されて、ＣＲＴディスプレイや液晶ディスプレイなどの表示装置１３に供給される。

デマルチプレクサ７からの音声データは、ＭＰＥＧ音声デコーダ１４で、伸長復号化されて、音声処理部１５に供給され、音声処理部１５で、後述のように速度変換されて、再生倍率にかかわらずサンプリング周波数が上記の４８ｋＨｚとされ、アナログ信号に変換されて、スピーカなどの音声出力装置１６に供給される。

すなわち、２倍速再生の場合には、記録媒体１から音声データが定常速度の２倍の速度で読み取られることによって、ＭＰＥＧ音声デコーダ１４の出力の音声データは、６０ｍ秒で２×２８８０サンプルとなるが、音声処理部１５での速度変換によって、音声処理部１５の出力の音声データとしては、６０ｍ秒で２８８０サンプルとされる。３倍速再生の場合には、記録媒体１から音声データが定常速度の３倍の速度で読み取られることによって、ＭＰＥＧ音声デコーダ１４の出力の音声データは、６０ｍ秒で３×２８８０サンプルとなるが、音声処理部１５での速度変換によって、音声処理部１５の出力の音声データとしては、６０ｍ秒で２８８０サンプルとされる。

システムコントローラ６には、操作部９が接続される。操作部９は、装置の利用者が再生倍率を指示するなどの各種操作を行うもので、これには、装置の動作状態や操作状況を表示する液晶表示部などの表示部が設けられる。

図２は、音声処理部１５の一例を示す。この例は、ＭＰＥＧ音声デコーダ１４の出力の音声データにつき、速度変換の前処理として、連続音声部分（音声のひとまとまり、ひとまとまりの音声部分）の終端部の振幅を抑圧するとともに、速度変換処理の処理単位時間を一定にする場合で、音声処理部１５は、振幅抑圧処理部７０、処理単位期間設定部２１、有音無音判定部２２、速度変換処理部２３、出力バッファ２４、Ｄ／Ａコンバータ２５および音声増幅器２６によって構成される。

〔振幅抑圧処理…図３〜図１２〕
図２の例の音声処理部１５の振幅抑圧処理部７０では、ＭＰＥＧ音声デコーダ１４の出力の音声データにつき、連続音声部分の終端部の振幅が抑圧される。

（振幅抑圧処理の第１の例…図３〜図６）
振幅抑圧処理部７０での振幅抑圧処理の一つの方法として、特開平８−１７９７９２号に示された方法を用いることができる。図３〜図６に、この特開平８−１７９７９２号に示された方法による振幅抑圧処理を示す。

図３は、振幅抑圧処理部７０の構成を示し、入力端子７１には、入力音声信号として上述したＭＰＥＧ音声デコーダ１４の出力の音声データが供給される。この入力音声信号は、子音成分分離フィルタ７２およびフォルマント成分分離フィルタ７３に供給され、子音成分分離フィルタ７２からは、入力音声信号中の子音成分が抽出される。また、フォルマント成分分離フィルタ７３の通過帯域が、例えば１５０〜１０００Ｈｚに設定されることによって、フォルマント成分分離フィルタ７３からは、入力音声信号中のピッチ成分およびフォルマント成分が抽出される。

フォルマント成分分離フィルタ７３の出力は、レベル検出部７４に供給され、レベル検出部７４において、例えば、フォルマント成分分離フィルタ７３の出力が全波整流され、その整流出力が６０Ｈｚ以下を通過帯域とするローパスフィルタに供給され、ローパスフィルタの出力のレベルが検出されることによって、入力音声信号の音声レベルが検出され、レベル検出値Ｅが得られる。このようにピッチ成分およびフォルマント成分のみから音声レベルが検出されることによって、レベル検出値Ｅとしてノイズの影響が少ないものが得られる。

このレベル検出部７４からのレベル検出値Ｅは、制御部７５で後述のように処理され、制御部７５から振幅抑圧の制御信号としての制御係数Ｗが得られる。

そして、フォルマント成分分離フィルタ７３の出力、および制御部７５からの制御係数Ｗが、振幅抑圧部７６に供給され、振幅抑圧部７６において、後述のように制御係数Ｗによってフォルマント成分分離フィルタ７３の出力が減衰される。

さらに、周波数特性補正フィルタ７７で、子音成分分離フィルタ７２の出力と振幅抑圧部７６の出力が混合されるとともに、混合後の信号に対してイコライジング処理などの所要の周波数特性補正処理が施され、処理後の出力音声信号が出力端子７９に得られる。周波数特性補正フィルタ７７は、倍速再生の再生倍率に応じてフィルタ係数や処理帯域が設定される。ただし、周波数特性補正フィルタ７７によって周波数特性を補正しないで、子音成分分離フィルタ７２の出力と振幅抑圧部７６の出力を混合するだけでもよい。

制御部７５は、レベル検出部７４からのレベル検出値Ｅから、連続音声部分の終端が近づいていることを予測するとともに、次の連続音声部分の始端を検出する。そして、その予測および検出に基づいて、振幅抑圧部７６に対する制御係数Ｗを設定して、連続音声部分の終端が近づいたら、フォルマント成分分離フィルタ７３の出力を減衰させ、次の連続音声部分の始端が到来したら、その減衰を解除することによって、隣接する連続音声部分の間に振幅の小さい期間または無音期間を形成し、または隣接する連続音声部分の間の無音期間を広げる。

この処理を、図４を用いて示す。同図（Ａ）は、入力端子７１に得られる入力音声信号であり、アナログ波形で示す。同図（Ｂ）は、この場合にレベル検出部７４から得られるレベル検出値Ｅであり、アナログ波形で示す。

制御部７５は、まず、レベル検出値Ｅのピーク値ＰＫを検出して閾値ＴＨを設定する。例えば、ピーク値ＰＫに係数を乗じて、ピーク値ＰＫの一定割合の値を閾値ＴＨとして設定する。次に、そのときのサンプルタイミングでのレベル検出値Ｅ（ｉ）を直前のサンプルタイミングでのレベル検出値Ｅ（ｉ−１）と比較して、音声レベルが増加傾向にあるか減少傾向にあるかを判断するとともに、そのときのサンプルタイミングでのレベル検出値Ｅ（ｉ）を上記の閾値ＴＨと比較する。

そして、図４の時点ｔ０で示すように、音声レベルが減少傾向にあり、かつ、そのときのレベル検出値Ｅ（ｉ）が閾値ＴＨより小さくなったときには、連続音声部分の終端が近づいていると判断して、同図（Ｃ）に示すように、振幅抑圧部７６に対する制御係数Ｗ（振幅抑圧部７６の利得レベル）を最大値１から最小値０に向けて徐々に低下させ、フォルマント成分分離フィルタ７３の出力の減衰量を徐々に増加させる。

また、振幅抑圧後、図４の時点ｔ１で示すように、音声レベルが増加傾向に転じたときには、次の連続音声部分の始端と判断して、同図（Ｃ）に示すように、振幅抑圧部７６に対する制御係数Ｗ（振幅抑圧部７６の利得レベル）を最小値０から最大値１に向けて徐々に増加させ、フォルマント成分分離フィルタ７３の出力の減衰量を徐々に低下させる。

このような振幅抑圧処理によって、出力端子７９に得られる出力音声信号は、図４（Ｄ）にアナログ波形で示すように、隣接する連続音声部分の間に振幅の小さい期間または無音期間が形成され、または隣接する連続音声部分の間の無音期間が広げられたものとなる。

制御部７５は、より具体的には、図５に示すような処理ルーチンによって、振幅抑圧部７６に対する制御係数Ｗを設定する。

図５の処理ルーチンは、レベル検出部７４から制御部７５にレベル検出値Ｅ（ｉ）が取り込まれるごとに処理を開始するもので、まずステップＦ１０１で、レベル検出値Ｅ（ｉ）を閾値ＴＨと比較する。閾値ＴＨは、それ以前においてステップＦ１１０またはＦ１１７で後述のように設定した値である。

そして、Ｅ（ｉ）≧ＴＨであれば、ステップＦ１０１からステップＦ１１１に進んで、ダウンフラグＤＷを１にセットする。ダウンフラグＤＷは、それ以前は音声レベルが減少傾向にあった場合、または減少傾向にあったと見なす場合に、１とするフラグである。

次に、ステップＦ１１２で、フラグＢＹを確認する。フラグＢＹは、直前のレベル検出値Ｅ（ｉ−１）が閾値ＴＨより小さかった場合に、ステップＦ１０２で０とされるフラグである。したがって、レベル検出値Ｅ（ｉ）として閾値ＴＨ以上の値が最初に入力されたときには、フラグＢＹは０であって、ステップＦ１１２からステップＦ１１８に進む。

ステップＦ１１８では、レベル検出値Ｅ（ｉ）をピーク値ＰＫの下限値ＬｉｍＬと比較する。ピーク値ＰＫについては、あらかじめ上限値ＬｉｍＨおよび下限値ＬｉｍＬが設定され、制御部７５は、後述のように、ピーク値ＰＫが上限値ＬｉｍＨより大きいときには、上限値ＬｉｍＨをピーク値ＰＫとして設定し、ピーク値ＰＫが下限値ＬｉｍＬより小さいときには、下限値ＬｉｍＬをピーク値ＰＫとして設定して、ピーク値ＰＫを上限値ＬｉｍＨと下限値ＬｉｍＬとの間に設定するものである。

そして、Ｅ（ｉ）＜ＬｉｍＬであれば、ステップＦ１１８からステップＦ１１９に進んで、下限値ＬｉｍＬをピーク値ＰＫとして設定した上で、ステップＦ１２１に進み、Ｅ（ｉ）≧ＬｉｍＬであれば、ステップＦ１１８からステップＦ１２０に進んで、閾値ＴＨをピーク値ＰＫとして設定した上で、ステップＦ１２１に進む。

ステップＦ１２１では、上記のフラグＢＹを１にセットし、次にレベル検出値Ｅ（ｉ）が入力されたときに備えて、音声レベルが閾値ＴＨ以上になったことを示しておく。

次に、ステップＦ１２２で、そのときのレベル検出値Ｅ（ｉ）を直前のレベル検出値Ｅ（ｉ−１）と比較し、Ｅ（ｉ）＞Ｅ（ｉ−１）であれば、音声レベルが増加傾向にあると判断して、ステップＦ１２２からステップＦ１２３に進んで、制御係数ＷをＷ＋ｄ２の値に更新した上で、次回の処理に移行し、Ｅ（ｉ）≦Ｅ（ｉ−１）であれば、音声レベルが増加傾向にないと判断して、ステップＦ１２２から直接、次回の処理に移行する。

ステップＦ１２１からステップＦ１２２に進んだ場合は、レベル検出値Ｅ（ｉ）として閾値ＴＨ以上の値が最初に入力されたときで、音声レベルが増加傾向にあるので、ステップＦ１２３で制御係数Ｗが更新されることになる。

ｄ２は、制御係数Ｗを増加させ、減衰量を低下させる場合のステップ幅である。ただし、図４（Ｃ）に示したように、制御係数Ｗは０≦Ｗ≦１とされる。したがって、Ｗ＝１であったときには、ステップＦ１２３では制御係数Ｗを更新しない。

次回の処理においても、Ｅ（ｉ）≧ＴＨであれば、ステップＦ１０１からステップＦ１１１およびＦ１１２に進むが、このときは、レベル検出値Ｅ（ｉ）として閾値ＴＨ以上の値が最初に入力されたときではなく、フラグＢＹが１にセットされているので、ステップＦ１１２からステップＦ１１３に進む。

ステップＦ１１３では、レベル検出値Ｅ（ｉ）をピーク値ＰＫと比較し、ＰＫ≧Ｅ（ｉ）であれば、そのままステップＦ１２２に進むが、ＰＫ＜Ｅ（ｉ）であれば、ステップＦ１１４以下に進んで、ピーク値ＰＫを更新した上で、閾値ＴＨを更新する。

すなわち、まずステップＦ１１４で、レベル検出値Ｅ（ｉ）をピーク値ＰＫの上限値ＬｉｍＨと比較し、Ｅ（ｉ）＞ＬｉｍＨであれば、ステップＦ１１４からステップＦ１１５に進んで、上限値ＬｉｍＨをピーク値ＰＫとして設定した上で、ステップＦ１１７に進み、Ｅ（ｉ）≦ＬｉｍＨであれば、ピーク値ＰＫより大きいレベル検出値Ｅ（ｉ）が新たなピーク値ＰＫとして検出されたことになるので、ステップＦ１１４からステップＦ１１６に進んで、レベル検出値Ｅ（ｉ）をピーク値ＰＫとして設定した上で、ステップＦ１１７に進む。

ステップＦ１１７では、閾値ＴＨを、上記のように更新したピーク値ＰＫの一定割合の値ＰＫ×ＲＴに更新する。係数ＲＴで表される割合は、数％〜数１０％に選定される。ステップＦ１１７で閾値ＴＨを更新したら、ステップＦ１２２に進む。

以上は、レベル検出値Ｅ（ｉ）が閾値ＴＨ以上の値である場合である。逆に、レベル検出値Ｅ（ｉ）が閾値ＴＨより小さい場合には、ステップＦ１０１からステップＦ１０２に進んで、上記のフラグＢＹを０にする。

次に、ステップＦ１０３で、そのときのレベル検出値Ｅ（ｉ）を直前のレベル検出値Ｅ（ｉ−１）と比較し、Ｅ（ｉ）＜Ｅ（ｉ−１）であれば、音声レベルが減少傾向にあると判断して、ステップＦ１０３からステップＦ１０５に進んで、ダウンフラグＤＷを確認する。

そして、ダウンフラグＤＷが１であれば、それ以前は音声レベルが減少傾向にあった場合、または減少傾向にあったと見なす場合であるので、このとき、レベル検出値Ｅ（ｉ）が閾値ＴＨより小さく、かつ直前のレベル検出値Ｅ（ｉ−１）より小さいことから、連続音声部分の終端が近づいていると判断して、ステップＦ１０５からステップＦ１０６に進んで、制御係数ＷをＷ−ｄ１の値に更新した上で、次回の処理に移行する。

ｄ１は、制御係数Ｗを減少させ、減衰量を増加させる場合のステップ幅である。ただし、図４（Ｃ）に示したように、制御係数Ｗは０≦Ｗ≦１とされる。したがって、Ｗ＝０であったときには、ステップＦ１０６では制御係数Ｗを更新しない。

以後、レベル検出値Ｅ（ｉ）が連続音声部分の終端に向けて低下し続けている間は、ステップＦ１０６で制御係数Ｗの更新が繰り返されて、図４の時点ｔ０以降に示したように、振幅抑圧部７６の利得レベルが徐々に低下する。そして、制御係数Ｗ（利得レベル）が０に達すると、次に時点ｔ１で示したように音声レベルが増加傾向に転じるまでは、制御係数Ｗ（利得レベル）が０の状態が維持される。

一方、ステップＦ１０５でダウンフラグＤＷが０であると判断した場合は、それ以前は音声レベルが減少傾向になく、レベル検出値Ｅ（ｉ）として閾値ＴＨより小さい値が最初に入力されたときである。このとき、音声レベルが減少傾向にあっても、連続音声部分の終端が近づいていない場合も存在すると考えられる。そこで、ステップＦ１０５でダウンフラグＤＷが０であると判断したときには、ステップＦ１０７以下に進んで、ピーク値ＰＫを更新した上で、閾値ＴＨを更新する。

すなわち、まずステップＦ１０７で、レベル検出値Ｅ（ｉ）をピーク値ＰＫの下限値ＬｉｍＬと比較し、Ｅ（ｉ）≧ＬｉｍＬであれば、ステップＦ１０７からステップＦ１０８に進んで、レベル検出値Ｅ（ｉ）をピーク値ＰＫとして設定した上で、ステップＦ１１０に進み、Ｅ（ｉ）＜ＬｉｍＬであれば、ステップＦ１０７からステップＦ１０９に進んで、下限値ＬｉｍＬをピーク値ＰＫとして設定した上で、ステップＦ１１０に進む。

ステップＦ１１０では、閾値ＴＨを、上記のように更新したピーク値ＰＫの一定割合の値ＰＫ×ＲＴに更新する。また、このとき、連続音声部分の終端が近づいている場合も存在するので、ステップＦ１０６と同様に、制御係数ＷをＷ−ｄ１の値に更新する。さらに、ステップＦ１１０では、ダウンフラグＤＷを１にセットし、音声レベルが減少傾向になったことを示しておく。

このようにレベル検出値Ｅ（ｉ）として閾値ＴＨより小さい値が最初に入力されたときには、ステップＦ１１０で閾値ＴＨが更新されることによって、連続音声部分の終端が近づいているか否かが、より正確に判定される。すなわち、実際には連続音声部分の終端が近づいていないときには、次に入力されるレベル検出値Ｅ（ｉ）は更新された閾値ＴＨ以上になる確率が高く、次回の処理ではステップＦ１１１以降の処理が実行される可能性が高いので、連続音声部分の終端が近づいていると誤判定される確率は低い。

逆に、実際に連続音声部分の終端が近づいているときには、次に入力されるレベル検出値Ｅ（ｉ）が更新された閾値ＴＨより小さくなり、かつ直前のレベル検出値Ｅ（ｉ−１）より小さくなるので、次回の処理ではステップＦ１０５からステップＦ１０６に進んで、連続音声部分の終端部の振幅を抑圧する処理が実行される。

振幅抑圧後、図４の時点ｔ１で示したように次の連続音声部分の始端が到来すると、制御部７５は、ステップＦ１０３で、そのときのレベル検出値Ｅ（ｉ）が直前のレベル検出値Ｅ（ｉ−１）以上であると判断することによって、ステップＦ１０３からステップＦ１０４に進んで、制御係数ＷをＷ＋ｄ２の値に更新するとともに、ダウンフラグＤＷを０にする。

以後、レベル検出値Ｅ（ｉ）が増加する間は、レベル検出値Ｅ（ｉ）が閾値ＴＨより小さいときにはステップＦ１０４で、レベル検出値Ｅ（ｉ）が閾値ＴＨ以上の値のときにはステップＦ１２３で、制御係数Ｗの更新が繰り返されて、図４の時点ｔ１以降に示したように、振幅抑圧部７６の利得レベルが徐々に増加する。

以上のように、図５の処理ルーチンによって、振幅抑圧処理部７０の出力音声信号は、隣接する連続音声部分の間に振幅の小さい期間または無音期間が形成され、または隣接する連続音声部分の間の無音期間が広げられたものとなる。

図６は、話者が日本語の「親譲りの無鉄砲で子供のときから損ばかりしている」という発音をしたときの音声信号波形を示し、同図（Ａ）が、振幅抑圧処理を行う前の波形であり、同図（Ｂ）が、上述した振幅抑圧処理を行った後の波形である。同図（Ｂ）の矢印で示すように、上述した振幅抑圧処理を行った場合には、それぞれの話音（連続音声部分）の間が振幅の小さい期間または無音期間によって明確に区切られ、それぞれの話音を明瞭に認識することができるようになる。

（振幅抑圧処理の第２の例…図７〜図１２）
図２の例の音声処理部１５の振幅抑圧処理部７０での振幅抑圧処理の他の一つの方法として、特開平７−３６４８７号に示された方法を用いることができる。図７〜図１２に、この特開平７−３６４８７号に示された方法による振幅抑圧処理を示す。

図７は、振幅抑圧処理部７０の構成を示し、入力端子７１には、入力音声信号として上述したＭＰＥＧ音声デコーダ１４の出力の音声データが供給される。この入力音声信号は、遅延回路８１で例えば３０ｍ秒遅延されて、振幅抑圧部８２に供給される。また、入力音声信号が、バンドパスフィルタ８３に供給されて、バンドパスフィルタ８３から、入力音声信号中のピッチ成分および第１フォルマント成分のみが抽出される。

人の会話の音声は、母音の場合、主としてピッチ成分と第１フォルマント成分、第２フォルマント成分などのフォルマント成分とに解析することができる。すなわち、例えば「あ」と発音したときの音声パワースペクトルは、図９に示すように、周波数が低い方から順に、ピッチ成分Ｐ、第１フォルマント成分Ｆ１、第２フォルマント成分Ｆ２、第３フォルマント成分Ｆ３…と、エネルギーが集中する箇所が存在する。

したがって、バンドパスフィルタ８３の上側のカットオフ周波数を第１フォルマント成分Ｆ１と第２フォルマント成分Ｆ２との間の周波数に選定することによって、ピッチ成分および第１フォルマント成分のみを抽出することができる。ただし、発音する音や発音する者の違いによって各成分の周波数が変化するので、システムが扱う音声信号によってバンドパスフィルタ８３の通過帯域を若干変える必要がある。

このバンドパスフィルタ８３からのピッチ成分および第１フォルマント成分は、レベル検出部８４に供給され、レベル検出部８４において、例えば、バンドパスフィルタ８３の出力が全波整流され、その整流出力が６０Ｈｚ以下を通過帯域とするローパスフィルタに供給され、ローパスフィルタの出力のレベルが検出されることによって、入力音声信号の音声レベルが検出され、レベル検出値Ｅが得られる。このようにピッチ成分およびフォルマント成分のみから音声レベルが検出されることによって、レベル検出値Ｅとしてノイズの影響が少ないものが得られる。

このレベル検出部８４からのレベル検出値Ｅは、制御部８５で後述のように処理され、振幅抑圧部８２において、後述のように制御部８５の制御によって遅延回路８１の出力の音声信号が減衰され、出力端子７９に振幅抑圧処理後の出力音声信号が得られる。

図１０は、この例の制御部８５が実行する処理ルーチンの一例を示す。この処理ルーチンは、レベル検出部８４から制御部８５にレベル検出値Ｅ（ｉ）が取り込まれるごとに処理を開始するもので、まずステップＳ１０１で、レベル検出値Ｅ（ｉ）を音声の途切れを判断するための閾値Ａｔｈ１と比較する。閾値Ａｔｈ１は、それ以前においてステップＳ１０７で後述のように設定した値である。

そして、Ｅ（ｉ）≧Ａｔｈ１であれば、ステップＳ１０１からステップＳ１０２に進んで、イネーブル値が０であるか否かを判断する。このイネーブル値は、以前の音声レベルの状態を示す値で、以前に音声レベルが増加している場合には１とされるものである。

そのため、音声レベルが立ち上がり始めたときには、ステップＳ１０２ではイネーブル値が０であると判断して、ステップＳ１０２からステップＳ１０３に進んで、レベル検出値Ｅ（ｉ）を音声の存在を判断するための閾値Ａｔｈ２と比較する。閾値Ａｔｈ２は、あらかじめ設定される。

そして、Ｅ（ｉ）≦Ａｔｈ２であれば、そのまま次回の処理に移行するが、Ｅ（ｉ）＞Ａｔｈ２であれば、音声が存在すると判断して、ステップＳ１０４に進んで、上記のイネーブル値を１に設定するとともに、振幅抑圧終了時からのサンプル数を示す変数Ｓｏを０に設定した上で、ステップＳ１０５に進む。

ステップＳ１０５では、レベル検出値Ｅ（ｉ）をピーク値ＰＫの上限値ＬｉｍＨと比較し、Ｅ（ｉ）＞ＬｉｍＨであれば、ステップＳ１０５からステップＳ１０６に進んで、上限値ＬｉｍＨをピーク値ＰＫとして設定した上で、ステップＳ１０７に進み、Ｅ（ｉ）≦ＬｉｍＨであれば、ステップＳ１０５からステップＳ１０８に進んで、レベル検出値Ｅ（ｉ）をピーク値ＰＫとして設定した上で、ステップＳ１０７に進む。

ステップＳ１０７では、音声の途切れを判断するための閾値Ａｔｈ１を、上記のように設定したピーク値ＰＫの一定割合の値ＰＫ×Ｒｔに更新する。ステップＳ１０７で閾値Ａｔｈ１を更新したら、次回の処理に移行する。

一方、ステップＳ１０２でイネーブル値が１であると判断したときには、ステップＳ１０９に進んで、レベル検出値Ｅ（ｉ）をピーク値ＰＫと比較し、Ｅ（ｉ）≦ＰＫであれば、そのまま次回の処理に移行するが、Ｅ（ｉ）＞ＰＫであれば、ステップＳ１０５以下に進んで、上記のようにピーク値ＰＫおよび閾値Ａｔｈ１を更新した上で、次回の処理に移行する。

以上の処理を繰り返している間にレベル検出値Ｅ（ｉ）が低下して、ステップＳ１０１でレベル検出値Ｅ（ｉ）が閾値Ａｔｈ１より小さいと判断したときには、ステップＳ１０１からステップＳ１１０に進んで、上記のイネーブル値が１であるか否かを判断する。

そして、イネーブル値が１であれば、連続音声部分の終端であると判断して、ステップＳ１１０からステップＳ１１１に進んで、イネーブル値を０に変更し、振幅抑圧終了時からのサンプル数を示す変数Ｓｏを０に設定するとともに、利得漸減期間（減衰量漸増期間）および無音期間を形成するように振幅抑圧部８２の利得レベルを制御する。

すなわち、図１１に示すようなサンプル数Ｓａの期間Ｔａでは、遅延回路８１の出力の音声信号に対する重み係数（振幅抑圧部８２の利得レベル）を、最大値１から最小値０に向けて、係数Ｗａで示すように音声信号の１サンプルごとに徐々に低下させ、その直後の、図１１に示すようなサンプル数Ｍの期間Ｔｍでは、遅延回路８１の出力の音声信号に対する重み係数（振幅抑圧部８２の利得レベル）を最小値０にする。利得漸減期間Ｔａは、例えば１０ｍ秒とし、無音期間Ｔｍは、例えば２０ｍ秒とする。

このようにステップＳ１１１で振幅抑圧部８２の利得レベルを制御したら、次回の処理に移行する。次回の処理でも、ステップＳ１０１でレベル検出値Ｅ（ｉ）が閾値Ａｔｈ１より小さいと判断するので、ステップＳ１０１からステップＳ１１０に進んで、イネーブル値が１であるか否かを判断するが、次回の処理では、イネーブル値が０にされているので、ステップＳ１１０からステップＳ１１２に進む。

そして、ステップＳ１１２では、振幅抑圧終了時からのサンプル数を示す変数Ｓｏが、利得漸増期間（減衰量漸減期間）として定められる期間のサンプル数Ｓｂより小さいか否かを判断し、Ｓｏ＜Ｓｂであれば、次の連続音声部分の始端であると判断して、ステップＳ１１２からステップＳ１１３に進んで、利得漸増期間を形成するように振幅抑圧部８２の利得レベルを制御する。

すなわち、図１１に示すような、無音期間Ｔｍの直後のサンプル数Ｓｂの期間Ｔｂでは、遅延回路８１の出力の音声信号に対する重み係数（振幅抑圧部８２の利得レベル）を、最小値０から最大値１に向けて、係数Ｗｂで示すように音声信号の１サンプルごとに徐々に増加させる。利得漸増期間Ｔｂは、例えば５ｍ秒とする。

このようにステップＳ１１３で振幅抑圧部８２の利得レベルを制御したら、次回の処理に移行する。ステップＳ１１２で変数Ｓｏがサンプル数Ｓｂ以上であると判断したときには、そのまま次回の処理に移行する。

以上のように、この例の振幅抑圧処理では、制御部８５の制御によって振幅抑圧部８２で音声信号の振幅が抑圧されるが、振幅抑圧部８２に供給される音声信号は、入力端子７１に得られる音声信号に対して３０ｍ秒遅れるので、制御部８５で連続音声部分の終端が検出されたとき、３０ｍ秒前に溯って連続音声部分の終端の３０ｍ秒前の信号位置から、利得漸減期間Ｔａおよび無音期間Ｔｍで示したように音声信号の振幅を抑圧することができる。

図１２は、話者が日本語の「書いて下さい」という発音をしたときの音声信号波形を示し、同図（Ａ）が、振幅抑圧処理を行う前の波形であり、同図（Ｂ）が、上述した振幅抑圧処理を行った後の波形である。同図（Ｂ）に示すように、上述した振幅抑圧処理を行った場合には、それぞれ「かい」「て」「く」「だ」「さい」という話音（連続音声部分）の終端の直前に無音期間Ｍ１，Ｍ２，Ｍ３，Ｍ４，Ｍ５が形成され、それぞれの話音を明瞭に認識することができるようになる。

無音期間Ｔｍは、２０ｍ秒に限らず、数ｍ秒〜数１０ｍ秒の範囲で適切に設定すればよい。また、完全な無音状態にしないで、例えば振幅を数１０％抑圧してもよい。

図８に示すように、図７の遅延回路８１および振幅抑圧部８２の代わりに、ＦＩＦＯ（ｆｉｒｓｔ−ｉｎｆｉｒｓｔ−ｏｕｔ）メモリ８６を用いてもよい。この場合には、ＦＩＦＯメモリ８６に書き込んだ音声データを一定時間遅れてＦＩＦＯメモリ８６から読み出す際、制御部８５によってデータ値を補正することによって、出力端子７９に振幅抑圧処理後の出力音声信号を得る。

〔速度変換処理…図１３〜図１７〕
図２の例の音声処理部１５では、ＭＰＥＧ音声デコーダ１４の出力の音声データにつき、上述したように振幅抑圧処理部７０で連続音声部分の終端部の振幅を抑圧した後、速度変換（人の会話の場合には話速変換）を実行する。

ＭＰＥＧ音声デコーダ１４の出力の音声データ、したがって振幅抑圧処理部７０の出力の音声データは、上述したように、２倍速再生の場合には６０ｍ秒で２×２８８０サンプルとなり、３倍速再生の場合には６０ｍ秒で３×２８８０サンプルとなる。以下では、２倍速再生の場合を例として速度変換処理を示すが、３倍速再生などの場合でも同様である。

図２の例の音声処理部１５の処理単位期間設定部２１は、システムコントローラ６からのタイミング信号およびクロックによって、図１３に処理単位期間Ｔ１〜Ｔ６として示すように、一音素の時間より短い６０ｍ秒相当（２８８０サンプル分で、２倍速再生の場合には絶対時間としては３０ｍ秒）の時間間隔で、速度変換処理のそれぞれの処理単位期間の先頭ないし末尾のタイミングを決定する。ただし、処理単位期間設定部２１は、システムコントローラ６の一部、または速度変換処理部２３の一部として、構成することもできる。

有音無音判定部２２は、入力データＳｉ、すなわち振幅抑圧処理部７０の出力の音声データの、有音部分と無音部分を識別判定するもので、この例では、図１４に示すように、入力データＳｉの、それぞれ６０ｍ秒相当（２８８０サンプル）の処理単位期間を、３ｍ秒相当（１４４サンプル分で、２倍速再生の場合には絶対時間としては１．５ｍ秒）ずつの２０個の判定単位期間に分割し、それぞれの判定単位期間につき、１４４サンプルのデータの絶対値の平均値を算出して、その平均値が閾値を超えるか否かを判断し、平均値が閾値を超えるときには、その判定単位期間を有音部分と判定し、平均値が閾値以下であるときには、その判定単位期間を無音部分と判定する。

出力バッファ２４は、ＦＩＦＯ構造のリングバッファとして機能するものとする。図１５に、出力バッファ２４へのデータ書き込み、出力バッファ２４からのデータ読み出し、および出力バッファ２４の入出力ポインタの動きを示す。

出力バッファ２４にデータが全く書き込まれていないときには、図１５（Ａ）に示すように、出力バッファ２４には先頭アドレスから順にデータが書き込まれ、それに応じて入力ポインタも後方に移動する。このとき、出力ポインタは先頭アドレスを指示する。

図１５（Ｂ）は、この状態から、さらにデータが書き込まれるとともに、先頭アドレスから順にデータが読み出された状態を示し、出力ポインタも後方に移動する。

さらにデータが書き込まれて、入力ポインタが末尾アドレスに達すると、図１５（Ｃ）に示すように、入力ポインタは先頭アドレスに戻る。このとき、新たなデータが出力済みデータに対してのみ上書きされるように、入力ポインタの指示位置が制御される。出力ポインタも、末尾アドレスに達したときには、先頭アドレスに戻る。

Ｄ／Ａコンバータ２５は、出力バッファ２４から出力された音声データをアナログ音声信号に変換するものであり、音声増幅器２６は、そのアナログ音声信号を増幅するものである。音声増幅器２６からのアナログ音声信号は、図１の音声出力装置１６に供給される。

速度変換処理部２３は、図１６に示す速度変換処理ルーチンによって、振幅抑圧処理部７０の出力の音声データ、すなわち入力データＳｉを速度変換するものである。

すなわち、この速度変換処理ルーチン３０では、まずステップ３１において、有音無音判定部２２の判定結果から、入力データＳｉのそれぞれの処理単位期間内に無音部分が倍率相当分以上存在するか否かを判断する。倍率相当分とは、処理単位時間から、処理単位時間に再生倍率の逆数を乗じた時間を引いた時間で、上記のように処理単位時間が６０ｍ秒相当（２８８０サンプル）で、かつ２倍速再生の場合には、３０ｍ秒分（１４４０サンプル）である。すなわち、ステップ３１では、それぞれの処理単位期間内に無音部分が３０ｍ秒分（１４４０サンプル）以上存在するか否かを判断する。

そして、処理単位期間内に無音部分が３０ｍ秒分（１４４０サンプル）以上存在するときには、ステップ３１からステップ３２に進んで、出力バッファ２４に３０ｍ秒分（１４４０サンプル）以上のデータが蓄積されているか否かを判断し、出力バッファ２４に３０ｍ秒分（１４４０サンプル）以上のデータが蓄積されているときには、ステップ３２からステップ３３に進んで、その処理単位期間内の無音部分を全て削除し、無音部分の前後の有音部分を接合して、その処理単位期間内の有音部分のデータのみを全て、出力バッファ２４に書き込む。

また、出力バッファ２４に３０ｍ秒分（１４４０サンプル）以上のデータが蓄積されていないときには、ステップ３２からステップ３４に進んで、その処理単位期間内の３０ｍ秒分（１４４０サンプル）以下の有音部分の全てに、その処理単位期間の先頭に近い部分から、その処理単位期間内の無音部分を一部付加して、その処理単位期間内の３０ｍ秒分（１４４０サンプル）のデータを、出力バッファ２４に書き込む。

ただし、処理単位期間内に有音部分と無音部分が、ちょうど３０ｍ秒分（１４４０サンプル）ずつ存在するときには、ステップ３３と同様に、その処理単位期間内の無音部分を全て削除し、無音部分の前後の有音部分を接合して、その処理単位期間内の有音部分のデータのみを全て、出力バッファ２４に書き込む。

一方、処理単位期間内に無音部分が３０ｍ秒分（１４４０サンプル）未満しか存在しないときには、すなわち有音部分が３０ｍ秒分（１４４０サンプル）を超えて存在するときには、ステップ３１からステップ３５に進んで、出力バッファ２４に、その処理単位期間内の３０ｍ秒分（１４４０サンプル）を超える有音部分のデータを全て蓄えるだけの空きがあるか否かを判断する。

そして、出力バッファ２４に、その処理単位期間内の３０ｍ秒分（１４４０サンプル）を超える有音部分のデータを全て蓄えるだけの空きがあるときには、ステップ３５からステップ３３に進んで、その処理単位期間内の無音部分を全て削除し、無音部分の前後の有音部分を接合して、その処理単位期間内の有音部分のデータのみを全て、出力バッファ２４に書き込む。

ただし、その処理単位期間内の６０ｍ秒分（２８８０サンプル）のデータが全て有音部分であるときには、その６０ｍ秒分（２８８０サンプル）の有音部分のデータをそのまま、出力バッファ２４に書き込む。

また、出力バッファ２４に、その処理単位期間内の３０ｍ秒分（１４４０サンプル）を超える有音部分のデータを全て蓄えるだけの空きがないときには、ステップ３５からステップ３６に進んで、有音部分が３０ｍ秒分（１４４０サンプル）となるようにデータを圧縮し、その圧縮後のデータを、出力バッファ２４に書き込む。後述のように、この場合は速聴きとなる。

この圧縮処理について示すと、例えば、図１７の上段に示すように、その処理単位期間内の６０ｍ秒分（２８８０サンプル）のデータが全て有音部分であるときには、同図の下段に示すように、中間部分の１０４０サンプルのデータを削除し、期間の先頭から９２０サンプルの前方部データＳｆ中の後寄りの４００サンプルのデータと、期間の末尾から９２０サンプルの後方部データＳｂ中の前寄りの４００サンプルのデータとを、フェード期間として、前方部データＳｆと後方部データＳｂをクロスフェードによって接合する。このようにクロスフェードによって接合するのは、接合された部分で圧縮後のデータにノイズが発生するのを防止するためである。

処理単位期間内に無音部分が存在するときには、その無音部分を含めた１０４０サンプルのデータを削除して、それぞれ９２０サンプルの有音部分を同様のクロスフェードによって接合する。無音部分が１４４０サンプル未満ではあるが、１０４０サンプルを超えるときには、４００サンプルのフェード期間が得られ、接合後のデータとして１４４０サンプルのデータが得られるように、有音部分の一部として無音部分の一部を含ませる。

図１３の処理単位期間Ｔ１は、入力データＳｉ中に破線で囲んだ有音部分と破線で囲まない無音部分が、ちょうど３０ｍ秒分（１４４０サンプル）ずつ存在するとともに、再生開始直後であるため、出力バッファ２４にはデータが全く蓄積されていない場合である。

したがって、処理単位期間Ｔ１については、ステップ３１，３２および３４によって、図１３の出力データＳｏ中の部分Ｅ１に示すように、ちょうど３０ｍ秒分（１４４０サンプル）の無音部分が全て削除され、無音部分の前後の有音部分が接合されて、ちょうど３０ｍ秒分（１４４０サンプル）の有音部分のデータのみが全て、出力バッファ２４に書き込まれる。

ただし、図１３は入力データＳｉと出力データＳｏのタイミング関係を示すものではなく、タイミング的には出力データＳｏは入力データＳｉに対して同図の位置より遅れる。

出力バッファ２４に書き込まれた処理単位期間Ｔ１内の３０ｍ秒分（１４４０サンプル）の有音部分のデータは、３０ｍ秒の時間に渡って、出力バッファ２４から読み出され、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換される。

図１３の処理単位期間Ｔ２は、６０ｍ秒分（２８８０サンプル）のデータが全て有音部分であるとともに、出力バッファ２４に、この６０ｍ秒分（２８８０サンプル）の有音部分のデータを全て蓄えるだけの空きがある場合である。

したがって、処理単位期間Ｔ２については、ステップ３１，３５および３３によって、図１３の出力データＳｏ中の部分Ｅ２に示すように、その６０ｍ秒分（２８８０サンプル）の有音部分のデータがそのまま、出力バッファ２４に書き込まれる。

この出力バッファ２４に書き込まれた処理単位期間Ｔ２の６０ｍ秒分（２８８０サンプル）の有音部分のデータ中の、前半の３０ｍ秒分（１４４０サンプル）のデータが、期間Ｔ１内の有音部分のデータが読み出される３０ｍ秒の時間に続く３０ｍ秒の時間に渡って、出力バッファ２４から読み出され、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換される。

図１３の処理単位期間Ｔ３は、入力データＳｉ中に破線で囲んだ有音部分が３０ｍ秒分（１４４０サンプル）未満しか存在せず、破線で囲まない無音部分が３０ｍ秒分（１４４０サンプル）を超えて存在するとともに、出力バッファ２４に３０ｍ秒分（１４４０サンプル）以上のデータが蓄積されている場合である。

したがって、処理単位期間Ｔ３については、ステップ３１，３２および３３によって、図１３の出力データＳｏ中の部分Ｅ３に示すように、その３０ｍ秒分（１４４０サンプル）を超える無音部分が全て削除され、無音部分の前後の有音部分が接合されて、３０ｍ秒分（１４４０サンプル）未満の有音部分のデータのみが全て、出力バッファ２４に書き込まれる。

そして、処理単位期間Ｔ２の６０ｍ秒分（２８８０サンプル）の有音部分のデータ中の、出力バッファ２４に蓄積されていた後半の３０ｍ秒分（１４４０サンプル）のデータが、前半のデータが読み出される３０ｍ秒の時間に続く３０ｍ秒の時間に渡って、出力バッファ２４から読み出され、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換される。

図１３の処理単位期間Ｔ４は、６０ｍ秒分（２８８０サンプル）のデータが全て有音部分であるとともに、出力バッファ２４に、この６０ｍ秒分（２８８０サンプル）の有音部分のデータを全て蓄えるだけの空きがある場合である。

したがって、処理単位期間Ｔ４については、ステップ３１，３５および３３によって、図１３の出力データＳｏ中の部分Ｅ４に示すように、その６０ｍ秒分（２８８０サンプル）の有音部分のデータがそのまま、出力バッファ２４に書き込まれる。

そして、出力バッファ２４に蓄積されていた処理単位期間Ｔ３の３０ｍ秒分（１４４０サンプル）未満の有音部分のデータと、出力バッファ２４に書き込まれた処理単位期間Ｔ４の６０ｍ秒分（２８８０サンプル）の有音部分のデータ中の前半の一部のデータとを合わせた、３０ｍ秒分（１４４０サンプル）のデータが、３０ｍ秒の時間に渡って、出力バッファ２４から読み出され、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換される。

図１３の処理単位期間Ｔ５は、６０ｍ秒分（２８８０サンプル）のデータが全て有音部分であるとともに、出力バッファ２４に、この６０ｍ秒分（２８８０サンプル）の有音部分のデータを全て蓄えるだけの空きがない場合である。

したがって、処理単位期間Ｔ５については、ステップ３１，３５および３６によって、図１３の出力データＳｏ中の部分Ｅ５に示し、かつ図１７に示したように、６０ｍ秒分（２８８０サンプル）の有音部分のデータが、３０ｍ秒分（１４４０サンプル）に圧縮されて、出力バッファ２４に書き込まれる。

そして、処理単位期間Ｔ４の６０ｍ秒分（２８８０サンプル）の有音部分のデータ中の前半の残りの部分のデータと、後半の一部のデータとを合わせた、３０ｍ秒分（１４４０サンプル）のデータが、３０ｍ秒の時間に渡って、出力バッファ２４から読み出され、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換される。

さらに、処理単位期間Ｔ４の６０ｍ秒分（２８８０サンプル）の有音部分のデータ中の後半の残りの部分のデータと、処理単位期間Ｔ５の３０ｍ秒分（１４４０サンプル）に圧縮された有音部分のデータ中の一部のデータとを合わせた、３０ｍ秒分（１４４０サンプル）のデータが、３０ｍ秒の時間に渡って、出力バッファ２４から読み出され、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換される。

以上のように、図１３の例では、処理単位期間Ｔ１〜Ｔ４については、入力データＳｉ中の無音部分のみが全て削除され、有音部分のデータのみが全て出力バッファ２４に書き込まれるとともに、出力バッファ２４からは有音部分のデータのみが全て、６０ｍ秒で２８８０サンプルの速度で読み出されるので、出力倍率は１倍となり、有音部分のみが全て定常速度で出力される。

処理単位期間Ｔ５については、６０ｍ秒分（２８８０サンプル）の有音部分のデータが、３０ｍ秒分（１４４０サンプル）に圧縮されて、出力バッファ２４に書き込まれ、３０ｍ秒の時間で出力バッファ２４から読み出されるので、例外的に有音部分が削減されて、速聴きとなる。

なお、図１６のステップ３４で、有音部分の全てに無音部分を一部付加して、３０ｍ秒分（１４４０サンプル）のデータを出力バッファ２４に書き込む場合については、図１３には示してしないが、例えば、処理単位期間Ｔ２が図１３とは異なり、有音部分が３０ｍ秒分（１４４０サンプル）未満しか存在せず、無音部分が３０ｍ秒分（１４４０サンプル）を超えて存在する場合には、図１３の処理単位期間Ｔ２では、出力バッファ２４に３０ｍ秒分（１４４０サンプル）以上のデータが蓄積されていないので、その３０ｍ秒分（１４４０サンプル）未満の有音部分の全てに、期間Ｔ２の先頭に近い部分から、３０ｍ秒分（１４４０サンプル）を超える無音部分の一部が付加されて、期間Ｔ２内の３０ｍ秒分（１４４０サンプル）のデータが、出力バッファ２４に書き込まれる。

以上のように、上述した例によれば、出力バッファ２４を効果的に用いることによって、必要最小限のメモリを用いるだけで、有音部分の削除によって音声が途切れてしまうことが少なくなり、内容が理解しやすくなる。

〔速度変換処理の際の音質向上…図１８〜図２１〕
（データ圧縮の際の位置調整…図１８、図１９）
図１６のステップ３６で、図１３の部分Ｅ５および図１７の下段に示したようにクロスフェードによって前方部データＳｆと後方部データＳｂを接合する場合、図１８（Ａ）に示すように、フェード期間において前方部データＳｆと後方部データＳｂの位相が一致しているときには、接合後のデータは接合部分でうなりを生じない。

しかし、図１８（Ｂ）に示すように、フェード期間において前方部データＳｆと後方部データＳｂの位相が大きくずれているときには、接合後のデータは接合部分でうなりを生じ、音質が劣化する。

そこで、クロスフェードによって前方部データＳｆと後方部データＳｂを接合するに当たっては、以下のように前方部データＳｆと後方部データＳｂの位置関係を調整する。

すなわち、図１９に示すように、後方部データＳｂを、前方部データＳｆに対して、所定サンプル数の時間内で、１サンプルまたは数サンプルの時間ずつ、タイミング的に移動させて、それぞれの移動位置において、上述した４００サンプル分のフェード期間内の前方部データＳｆのデータ値と後方部データＳｂのデータ値との差分の絶対値の、接合後のデータとして示す波形の塗り潰した部分の面積で表されるフェード期間全体に渡る積分値（和）を算出する。

そして、この積分値が最小となる移動位置を、前方部データＳｆと後方部データＳｂが最適な位相関係になる位置として検出し、その移動位置において、上述したようにクロスフェードによって前方部データＳｆと後方部データＳｂを接合する。

前方部データＳｆおよび後方部データＳｂのフェード期間におけるデータを、それぞれＦ［ｎ］およびＢ［ｎ］とし、フェード期間のサンプル数をｊとすると、接合後のデータの接合部分（フェード期間）におけるデータＸ［ｎ］は、Ｘ［ｎ］＝（（ｊ−ｎ）＊Ｆ［ｎ］＋ｎ＊Ｂ［ｎ］）／ｊ…（１）で表される。ただし、ｎ＝０，１，２…（ｊ−１）である。

この例によれば、接合後のデータは接合部分でうなりや違和感の少ないものとなる。

（無音部分削除の際のノイズ発生防止…図２０、図２１）
図１６のステップ３４で、図１３の部分Ｅ１に示したように、または図１６のステップ３３で、図１３の部分Ｅ３に示したように、入力データＳｉ中の無音部分を削除して、前後の有音部分を接合する場合、無音部分として図２０の上段に示すデータ部分Ｓｐを削除したときには、部分Ｓｐは無音部分でレベルが低いものの、図２０の下段左側に示すように、接合後の出力データＳｏは接合点の前後で位相が大きく変化するため、接合点でボツ音と呼ばれるノイズが発生する。また、無音部分として図２０の上段に示すデータ部分Ｓｑを削除したときには、図２０の下段右側に示すように、同様に接合後の出力データＳｏには接合点でボツ音と呼ばれるノイズが発生する。

そこで、削除した無音部分の前後の有音部分を接合するに当たっては、接合点の前後のそれぞれ所定サンプル数ｋの有音部分につき、フェードアウト処理およびフェードイン処理を行う。

具体的に、図２０下段の左側および右側に示すように、フェードアウト処理前の接合部前半のデータをＣ１［ｉ］、フェードイン処理前の接合部後半のデータをＤ１［ｉ］とし、図２１の左側および右側に示すように、フェードアウト処理後の接合部前半のデータをＣ２［ｉ］、フェードイン処理後の接合部後半のデータをＤ２［ｉ］とすると、Ｃ２［ｉ］＝（ｋ−ｉ）＊Ｃ１［ｉ］／ｋ …（２）Ｄ２［ｉ］＝ｉ＊Ｄ１［ｉ］／ｋ …（３）とする。ただし、ｉ＝０，１，２…（ｋ−１）である。

このようにフェードアウト処理およびフェードイン処理をして、前後の有音部分を接合することによって、図２１に示すように、接合後の出力データＳｏは接合点でボツ音と呼ばれるノイズが発生しなくなる。

〔速度変換処理の処理単位時間を変化させる場合…図２２〜図２６〕
（音程に応じて処理単位時間を変化させる場合…図２２、図２３）
図２２は、図１の音声処理部１５の他の例を示し、音声信号の主成分の音程に応じて速度変換処理の処理単位時間を変化させる場合である。音程に対して処理単位時間を直線的に変化させることも可能であるが、以下の例は、音程を３段階に分けて処理単位時間を３段階に変化させる場合である。

この例では、音程検出部２７において、振幅抑圧処理部７０の出力の音声信号の主成分（レベルが最大の周波数成分）の音程が検出される。音程検出部２７での音程検出方法には、ＦＦＴ（高速フーリエ変換）などの公知の方法を用いることができる。

そして、この例では、処理単位期間設定部２１は、音程検出部２７の検出結果に基づいて、図２３に示す音程対応処理単位期間設定処理ルーチンによって、処理単位時間を決定し、処理単位期間の先頭ないし末尾のタイミングを決定する。

すなわち、この音程対応処理単位期間設定処理ルーチン４０では、まずステップ４１において、音程検出部２７の検出結果の音程が３００Ｈｚ以上であるか否かを判断し、３００Ｈｚ以上であるときには、ステップ４１からステップ４２に進んで、処理単位時間を最短の４０ｍ秒相当（１９２０サンプル分で、２倍速再生の場合には絶対時間としては２０ｍ秒）として、当該の処理単位期間の先頭（直前の処理単位期間の末尾）から４０ｍ秒相当後を当該の処理単位期間の末尾（直後の処理単位期間の先頭）とする。

検出結果の音程が３００Ｈｚ未満であるときには、ステップ４１からステップ４３に進んで、検出結果の音程が１００Ｈｚ以下であるか否かを判断し、１００Ｈｚ以下であるときには、ステップ４３からステップ４４に進んで、処理単位時間を最長の６０ｍ秒相当（２８８０サンプル分で、２倍速再生の場合には絶対時間としては３０ｍ秒）として、当該の処理単位期間の先頭から６０ｍ秒相当後を当該の処理単位期間の末尾とする。

検出結果の音程が１００Ｈｚ以下でもないときには、すなわち１００Ｈｚを超え、かつ３００Ｈｚ未満であるときには、ステップ４３からステップ４５に進んで、処理単位時間を中間の５０ｍ秒相当（２４００サンプル分で、２倍速再生の場合には絶対時間としては２５ｍ秒）として、当該の処理単位期間の先頭から５０ｍ秒相当後を当該の処理単位期間の末尾とする。

図２２の速度変換処理部２３が行う速度変換処理は、図１３の処理単位期間Ｔ１，Ｔ２，Ｔ３…が、６０ｍ秒相当という固定の時間ではなく、４０ｍ秒相当、５０ｍ秒相当または６０ｍ秒相当というように変化し、図１６の速度変換処理ルーチン３０における倍率相当分が、処理単位時間の変化に応じて、２倍速再生の場合には２０ｍ秒分（９６０サンプル）、２５ｍ秒分（１２００サンプル）または３０ｍ秒分（１４４０サンプル）というように変化する点を除いて、上述した例と同じである。

この例によれば、音声信号の主成分の音程が高いときには速度変換処理の処理単位時間が短くなり、主成分の音程が低いときには速度変換処理の処理単位時間が長くなるので、音声信号の周波数による歪みや揺れの少ない出力音声信号を得ることができる。

（低レベルの点を処理単位期間の区切れ目とする場合…図２４〜図２６）
図２４は、図１の音声処理部１５のさらに他の例を示し、無音部分と有音部分の境目、または有音部分中の相対的にレベルが低い部分を、速度変換処理の処理単位期間の区切れ目とする場合である。

この例では、処理単位期間設定部２１は、振幅抑圧処理部７０の出力の音声信号、および有音無音判定部２２の判定結果を取り込んで、図２５に示す音声レベル対応処理単位期間設定処理ルーチンによって、処理単位期間の先頭ないし末尾のタイミングを決定する。

すなわち、この音声レベル対応処理単位期間設定処理ルーチン５０では、まずステップ５１において、有音無音判定部２２の判定結果から、当該の処理単位期間の先頭から３０ｍ秒相当以上、１００ｍ秒相当以下の時間範囲内に、無音部分と有音部分の切り替わり時点（無音部分から有音部分に切り替わる時点、または有音部分から無音部分に切り替わる時点）が存在するか否かを判断する。

そして、その時間範囲内に無音部分と有音部分の切り替わり時点が存在するときには、ステップ５１からステップ５２に進んで、その無音部分と有音部分の切り替わり時点を当該の処理単位期間の末尾とする。その時間範囲内に無音部分と有音部分の切り替わり時点が２点以上存在するときには、最初の時点を当該の処理単位期間の末尾とする。

一方、その時間範囲内に無音部分と有音部分の切り替わり時点が存在しないときには、ステップ５１からステップ５３に進んで、その時間範囲内で音声平均レベルが最小となる時点を当該の処理単位期間の末尾とする。音声平均レベルは、図１４に示したような判定単位期間内の各サンプルのデータ値の絶対値の平均値であり、その平均値が最小となる判定単位期間の先頭または末尾を当該の処理単位期間の末尾とする。

したがって、この例では、処理単位時間は、最短で３０ｍ秒相当、最長で１００ｍ秒相当である。

図２６に「固定長の場合」として示すケースは、図２の例のような構成で、処理単位期間Ｔ１，Ｔ２，Ｔ３…が６０ｍ秒相当という固定の時間にされる場合であり、図２６に「可変長の場合」として示すケースは、この図２４の例のような構成で、処理単位期間Ｔ１１，Ｔ１２，Ｔ１３…の先頭ないし末尾のタイミングが決定され、時間が変えられる場合である。ただし、図２６に示す時間は、絶対時間ではなく、上述したように２８８０サンプル分を６０ｍ秒相当としたときの時間である。

すなわち、この例では、時間軸上で０ｍ秒として示す最初の処理単位期間Ｔ１１の先頭の時点から３０ｍ秒相当以上、１００ｍ秒相当以下の時間範囲内に、入力データＳｉが有音部分から無音部分に切り替わる時点ｔａが存在するので、その時点ｔａが、処理単位期間Ｔ１１の末尾、すなわち次の処理単位期間Ｔ１２の先頭となる。

さらに、処理単位期間Ｔ１２の先頭の時点ｔａから３０ｍ秒相当以上、１００ｍ秒相当以下の時間範囲内に、入力データＳｉが無音部分から有音部分に切り替わる時点ｔｂが存在するので、その時点ｔｂが、処理単位期間Ｔ１２の末尾、すなわち次の処理単位期間Ｔ１３の先頭となる。

さらに、処理単位期間Ｔ１３の先頭の時点ｔｂから３０ｍ秒相当以上、１００ｍ秒相当以下の時間範囲内には、無音部分と有音部分の切り替わり時点が存在しないので、その時間範囲内で入力データＳｉの音声平均レベルが最小となる時点ｔｃが、処理単位期間Ｔ１３の末尾、すなわち次の処理単位期間Ｔ１４の先頭となる。

この例によれば、無音部分と有音部分の境目、または有音部分中の相対的にレベルが低い部分が、速度変換処理の処理単位期間の区切れ目となるので、音声信号の切り貼りによる音質の劣化を大幅に低減することができる。

〔多チャンネル再生の場合…図２７、図２８〕
上述した例は、図１の記録媒体１から１チャンネルの音声信号を再生する場合として示した。しかし、記録媒体１には多チャンネルの音声信号を記録することができ、その多チャンネルの音声信号からユーザの希望するチャンネルの音声信号を選択して、または多チャンネルの音声信号を同時に、再生することが可能である。以下に、その場合の例を示す。

（第１の例…図２７）
図２７に、ステレオ音声信号、またはバイリンガルなどの２元音声（主音声および副音声）中の一方または両方の音声信号を、選択的に再生する場合の例を示す。

この例では、システムコントローラ６からユーザによって選択された音声モードを示す音声モード識別信号が得られて、有音無音判定部２２および速度変換処理部２３に供給され、ユーザによって選択された音声モードに応じて、有音無音判定部２２での有音無音判定および速度変換処理部２３での速度変換処理が、以下のように切り換え制御される。

すなわち、ステレオ音声信号を再生する場合には、ＭＰＥＧ音声デコーダ１４からは左右のチャンネルの音声データが交互に得られ、有音無音判定部２２は、図１４に示したような判定単位期間のそれぞれにつき、左チャンネルのデータと右チャンネルのデータの平均値を算出して、その平均値が閾値を超えるか否かを判断し、平均値が閾値を超えるときには、その判定単位期間を有音部分と判定し、平均値が閾値以下であるときには、その判定単位期間を無音部分と判定する。

速度変換処理部２３は、ＭＰＥＧ音声デコーダ１４からの左右のチャンネルの音声データを、処理単位期間設定部２１によって設定された処理単位期間ごとに、一旦、左チャンネルのデータと右チャンネルのデータに分離して、内部バッファ２９の左チャンネル用および右チャンネル用として設定した別個のエリアに書き込む。

さらに、速度変換処理部２３は、その別個のエリアに書き込んだ左右のチャンネルの音声データを、上記の有音無音判定部２２の判定結果に基づいて、それぞれ図１６に示した速度変換処理ルーチン３０によって独立に速度変換処理し、処理後の左右のチャンネルの音声データを、左チャンネルのデータと右チャンネルのデータが交互に配列されるように出力バッファ２４に書き込む。

出力バッファ２４からは、速度変換処理後の左右のチャンネルの音声データを、交互に読み出して、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換し、Ｄ／Ａコンバータ２５からの左右のチャンネルのアナログ音声信号を、音声増幅器２６ａおよび２６ｂに振り分けて出力する。

一方、主音声と副音声のいずれか一方の音声信号を再生する場合には、有音無音判定部２２は、図１４に示したような判定単位期間のそれぞれにつき、選択された方の音声の、すなわち主音声が選択されたときには主音声の、副音声が選択されたときには副音声の、音声データの絶対値の平均値を算出して、その平均値が閾値を超えるか否かによって、有音部分と無音部分を識別判定する。

速度変換処理部２３は、選択された方の音声についてのみ、すなわち主音声が選択されたときには主音声についてのみ、副音声が選択されたときには副音声についてのみ、ＭＰＥＧ音声デコーダ１４の出力の音声データを、上記の有音無音判定部２２の判定結果に基づいて、図１６に示した速度変換処理ルーチン３０によって速度変換処理し、処理後の音声データを出力バッファ２４に書き込む。

そして、出力バッファ２４から速度変換処理後の音声データを読み出し、Ｄ／Ａコンバータ２５によってアナログ音声信号に変換して、音声増幅器２６ａおよび２６ｂに同時に出力する。

主音声と副音声の音声信号を同時に再生する場合には、ステレオ音声信号を再生する場合と同様に、有音無音判定部２２は、主音声と副音声の音声データの平均値を算出して、その平均値が閾値を超えるか否かによって、有音部分と無音部分を識別判定し、速度変換処理部２３は、主音声と副音声の音声データを独立に速度変換処理することによって、音声増幅器２６ａおよび２６ｂから、それぞれ主音声および副音声のアナログ音声信号を出力する。

ただし、主音声と副音声の音声信号を同時に再生する場合、有音無音判定部２２で、主音声と副音声の音声データにつき独立に、有音部分と無音部分の識別判定を行ってもよい。

図２７の例では、振幅抑圧処理部を省略したが、この例でも、振幅抑圧処理部を設けて、ＭＰＥＧ音声デコーダ１４の出力の音声データにつき、連続音声部分の終端部の振幅を抑圧することができる。この場合、ステレオ音声信号を再生する場合、または主音声と副音声の音声信号を同時に再生する場合には、速度変換処理と同様に、左右のチャンネルの音声データ、または主音声と副音声の音声データにつき、独立に振幅抑圧処理する。

以上は、２チャンネルの場合であるが、３チャンネル以上の場合も、同様である。

（第２の例…図２８）
さらに、一般に２チャンネル以上の多チャンネルの場合、図２８の例のように構成することもできる。同図の例は、図１の再生装置において、デマルチプレクサ７から多チャンネルの音声データを分離し、それぞれＭＰＥＧ音声デコーダ１４ａ，１４ｂ，１４ｃ…で伸長復号化して、音声処理部１５ａ，１５ｂ，１５ｃ…に供給するもので、音声処理部１５ａ，１５ｂ，１５ｃ…は、それぞれ図２、図２２または図２４の例の音声処理部１５と同様に構成する。

この例では、例えば、チャンネル１については、その音声信号を再生するとともに、音声処理部１５ａの速度変換処理部２３ａで速度変換処理し、チャンネル２については、その音声信号を再生するものの、音声処理部１５ｂの速度変換処理部２３ｂで速度変換処理しない、というように、チャンネル１，２，３…の各チャンネルの音声信号を、選択的または同時に再生し、選択的または同時に速度変換処理することができる。

〔映像信号および音声信号を定常速度で再生する場合…図２９〕
図１の再生装置で、記録媒体１から映像信号および音声信号を定常速度で再生する場合、ＭＰＥＧ音声デコーダ１４からは音声データが１倍速で出力され、音声処理部１５の図２または図２７などに示した処理単位期間設定部２１、有音無音判定部２２および速度変換処理部２３は、それぞれの機能を停止して、音声処理部１５が振幅抑圧処理部７０を備える場合には、振幅抑圧処理部７０の出力の音声データがそのまま、音声処理部１５が振幅抑圧処理部７０を備えない場合には、ＭＰＥＧ音声デコーダ１４の出力の音声データがそのまま、出力バッファ２４に書き込まれ、出力バッファ２４から読み出される。

しかし、ＭＰＥＧ映像デコーダ１１では、映像データの伸長復号化に少なくとも数フレームの時間を要するので、ＮＴＳＣエンコーダ１２からの映像出力は、音声処理部１５からの音声出力に対して時間遅れを生じ、映像出力と音声出力の同期が得られなくなる。

そこで、以下の例では、定常再生時には、出力バッファ２４を利用して、この映像出力の音声出力に対する遅れを吸収し、映像出力と音声出力を同期させる。

図２９は、その例を示し、速度変換処理部２３は、システムコントローラ６によって指示された再生モードに応じて、出力バッファ２４に制御信号を送出して、出力バッファ２４からデータを読み出すタイミングを制御する。

具体的には、図１５に示したようにＦＩＦＯ構造のリングバッファとして機能する出力バッファ２４の出力ポインタを制御する。すなわち、出力バッファ２４の出力ポインタと入力ポインタの間に蓄積されるデータ量が、映像出力の音声出力に対する遅れ時間に相当するように、出力ポインタを制御する。

例えば、この例によらないときの映像出力の音声出力に対する遅れ時間をＤｖ（ｍ秒）、音声信号のサンプリング周波数をＦｓ（ｋＨｚ）、音声データをデータ幅がＢｈ（ビット）のステレオ（２チャンネル）音声信号とすると、出力ポインタと入力ポインタの間のデータ蓄積量Ａｄ（バイト）を、Ａｄ＝（Ｄｖ×Ｆｓ×Ｂｈ×２）／８ …（４）とする。

以上のように、この例によれば、映像信号と音声信号を定常速度で再生する場合に、出力バッファ２４を利用して映像出力と音声出力を同期させることができる。

〔他の実施形態〕
図１の実施形態は、記録媒体１がディスク状の記録媒体である場合であるが、この発明は、記録媒体（記憶媒体）が磁気テープや半導体メモリなどである場合にも、同様に適用することができる。半導体メモリの場合には、再生ヘッドではなく読み出し回路によってメモリから、これに書き込まれた音声信号を読み出すことは言うまでもない。この場合には、「記録」とは書き込みであり、「再生」とは読み出しである。

また、この発明は、映像信号および音声信号を定常速度で再生する場合についての図２９のような例を除いて、記録媒体から音声信号のみを再生する場合または装置にも、同様に適用することができる。

主要部については図中に全て記述したので、ここでは省略する。

Claims

記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧し、
その振幅抑圧処理後の再生入力音声信号を、処理単位期間ごとに区切り、
出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、
処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む
音声再生方法。
請求項１の音声再生方法において、
連続音声部分の終端部の振幅を抑圧する処理は、連続音声部分の終端を予測し、その予測した点から振幅の抑圧を開始するとともに、次の連続音声部分の始端が検出されたら、振幅の抑圧を解除する
ことを特徴とする音声再生方法。
請求項２の音声再生方法において、
再生入力音声信号の信号レベルが減少傾向にあり、かつ再生入力音声信号の信号レベルが閾値より小さくなったとき、連続音声部分が終端に至る過程に入ったとして、連続音声部分の終端を予測する
ことを特徴とする音声再生方法。
請求項３の音声再生方法において、
再生入力音声信号の信号レベルのピーク値を検出し、その検出されたピーク値に応じて前記閾値を設定する
ことを特徴とする音声再生方法。
請求項１の音声再生方法において、
連続音声部分の終端部の振幅を抑圧する処理は、再生入力音声信号を遅延させるとともに、遅延前の再生入力音声信号から連続音声部分の終端を検出し、その検出結果に基づいて遅延後の再生入力音声信号の振幅を抑圧する
ことを特徴とする音声再生方法。
記録媒体から、これに記録された音声信号を定常速度より速い速度で再生することによって得られた再生入力音声信号につき、連続音声部分の終端部の振幅を抑圧する振幅抑圧処理部と、
その振幅抑圧処理後の再生入力音声信号に対する速度変換処理の処理単位期間を設定する処理単位期間設定部と、
再生出力音声信号を得るための出力バッファと、
この出力バッファから定常速度相当量の再生出力音声信号が得られる範囲内で無音部分を削除し、その前後の有音部分を接合して、それぞれの処理単位期間の再生入力音声信号を、前記出力バッファに書き込むとともに、処理単位期間の再生入力音声信号中に前記出力バッファに蓄えられない量の有音部分が存在する場合には、一部の有音部分を削除し、その前後の有音部分を接合して、その処理単位期間の再生入力音声信号を圧縮して、前記出力バッファに書き込む速度変換処理部と
を備える音声再生装置。