JP2001134300A

JP2001134300A - 音声再生方法および音声再生装置

Info

Publication number: JP2001134300A
Application number: JP2000171556A
Authority: JP
Inventors: Taro Mizufuji; 太郎水藤; Masashi Ota; 正志太田; Masami Miura; 雅美三浦
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-08-24
Filing date: 2000-06-08
Publication date: 2001-05-18
Anticipated expiration: 2020-06-08
Also published as: JP4895418B2; KR100739355B1; KR20010021402A; US6925340B1

Abstract

(57)【要約】（修正有）【課題】記録媒体から音声信号を定常速度より速い速
度で再生し、通常の音程で出力する方法で、音声が途切
れることが少なく、内容が理解しやすくする。【解決手段】２倍速再生によって得られた元の再生音
声信号である入力データＳｉを６０ｍ秒相当の処理単位
期間Ｔ１，Ｔ２…ごとに区切る。期間Ｔ１では、有音部
分と無音部分が３０ｍ秒分ずつ存在し、出力バッファに
データが全く蓄積されていないので、無音部分を全て削
除し、前後の有音部分を接合して、有音部分のデータの
みを全て出力バッファに書き込む。期間Ｔ２では、出力
バッファに６０ｍ秒分のデータを全て蓄えるだけの空き
があるので、有音部分のデータをそのまま出力バッファ
に書き込む。期間Ｔ５では、出力バッファに６０ｍ秒分
のデータを全て蓄えるだけの空きがないので、６０ｍ秒
分の有音部分のデータを３０ｍ秒分に圧縮して出力バッ
ファに書き込む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、ビデオテープレ
コーダなどのように映像信号および音声信号を記録再生
する機器や、ミニディスクプレーヤなどのように音声信
号を記録再生する機器などにおいて、記録媒体から、こ
れに記録された音声信号を定常速度より速い速度で再生
する方法および装置に関する。

【０００２】

【従来の技術】家庭用ビデオテープレコーダで、再生時
間を短縮するために、テープに記録された映像信号およ
び音声信号を、定常速度より速い２倍速などの速度で再
生する場合でも、音声信号については、無音部分を優先
的に削除するように元の再生音声信号を周期的に切り貼
りすることによって、音声を定常速度で聞き取ることが
できるようにしたものが考えられている。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来の音声再生方法では、元の再生音声信号を周期的
に削除するため、元の再生音声信号中に無音部分が一定
の割合で含まれていない場合には、有音部分が削除され
て、切り貼り後の再生音声信号は音声が途切れ途切れに
なり、内容を理解できなくなってしまう。

【０００４】また、元の再生音声信号中に無音部分があ
る程度含まれていて、有音部分を削除しなくても再生音
声信号の切り貼りができる場合でも、無音期間が短くな
り、有音部分が密着することによって、異なる音に聞こ
えてしまうことがある。例えば「ｋ」のような閉鎖子音
の前の無音期間が短くなると、「ａ−ｋａ」が「ａ−ｇ
ａ」のように聞こえてしまう。

【０００５】そこで、この発明は、第１に、再生時間を
短縮するために定常速度より速い速度で再生された音声
信号を通常の音程で出力する場合に、有音部分の削除に
よって音声が途切れてしまうことが少なくなり、内容が
理解しやすくなるようにしたものである。

【０００６】この発明は、第２に、上記の第１に加え
て、連続音声部分の密着によって異なる音に聞こえてし
まうことが少なくなるようにしたものである。

【０００７】

【課題を解決するための手段】第１の発明の音声再生方
法では、記録媒体から、これに記録された音声信号を定
常速度より速い速度で再生することによって得られた再
生入力音声信号を、処理単位期間ごとに区切り、出力バ
ッファから定常速度相当量の再生出力音声信号が得られ
る範囲内で無音部分を削除し、その前後の信号部分を接
合して、それぞれの処理単位期間の再生入力音声信号
を、前記出力バッファに書き込むとともに、処理単位期
間の再生入力音声信号中に前記出力バッファに蓄えられ
ない量の有音部分が存在する場合には、一部の有音部分
を削除し、その前後の有音部分を接合して、その処理単
位期間の再生入力音声信号を圧縮して、前記出力バッフ
ァに書き込む。

【０００８】第２の発明の音声再生方法では、記録媒体
から、これに記録された音声信号を定常速度より速い速
度で再生することによって得られた再生入力音声信号に
つき、連続音声部分の終端部の振幅を抑圧し、その振幅
抑圧処理後の再生入力音声信号を、処理単位期間ごとに
区切り、出力バッファから定常速度相当量の再生出力音
声信号が得られる範囲内で無音部分を削除し、その前後
の有音部分を接合して、それぞれの処理単位期間の再生
入力音声信号を、前記出力バッファに書き込むととも
に、処理単位期間の再生入力音声信号中に前記出力バッ
ファに蓄えられない量の有音部分が存在する場合には、
一部の有音部分を削除し、その前後の有音部分を接合し
て、その処理単位期間の再生入力音声信号を圧縮して、
前記出力バッファに書き込む。

【０００９】上記の方法による第１の発明の音声再生方
法によれば、出力バッファを効果的に用いることによっ
て、必要最小限のメモリを用いるだけで、有音部分の削
除によって音声が途切れてしまうことが少なくなり、内
容が理解しやすくなる。

【００１０】第２の発明の音声再生方法によれば、さら
に、連続音声部分の密着によって異なる音に聞こえてし
まうことが少なくなる。

【００１１】

【発明の実施の形態】〔システム全体の一実施形態…図
１および図２〕図１は、この発明の再生装置の一実施形
態を示し、ハードディスク、光磁気ディスク、光ディス
クなど、ディスク状の記録媒体から、これに記録された
映像信号および音声信号を、定常速度より速い速度で再
生することができる場合である。

【００１２】再生装置は、記録装置を兼ねてもよく、実
際上も記録装置を兼ねることが望ましいが、記録方法お
よび記録装置は、公知のものと特に変わらないので省略
し、記録媒体１には、所定のプロトコルおよびフォーマ
ットによるデジタル化された映像信号および音声信号が
記録されているものとする。

【００１３】以下の例では、ＭＰＥＧ（Ｍｏｖｉｎｇ
ＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）−２Ｓｙ
ｓｔｅｍｓの圧縮符号化方式および多重化方式によっ
て、圧縮された映像データおよび音声データがＴＳ（Ｔ
ｒａｎｓｐｏｒｔＳｔｒｅａｍ）として多重化されて
記録されているものとし、音声信号のサンプリング周波
数は４８ｋＨｚ（６０ｍ秒で２８８０サンプル）とす
る。

【００１４】記録媒体１は、駆動モータ３によって回転
駆動される。再生ヘッド２は、記録媒体１から、これに
記録されている映像信号および音声信号を読み取るもの
で、磁気ヘッドや光学ピックアップなどであり、駆動モ
ータ４を含む移動機構によって記録媒体１の径方向に移
動させられる。駆動モータ３および４は、サーボ回路５
によって駆動制御され、サーボ回路５は、装置全体を制
御するシステムコントローラ６によって制御される。

【００１５】再生ヘッド２の出力として得られる、記録
媒体１から読み取られた映像信号および音声信号、この
例ではＴＳとして多重化された映像データおよび音声デ
ータは、デマルチプレクサ７に供給され、デマルチプレ
クサ７から、映像データおよび音声データが、それぞれ
映像ＰＥＳ（ＰａｃｋｅｔｉｚｅｄＥｌｅｍｅｎｔａ
ｒｙＳｔｒｅａｍ）および音声ＰＥＳとして分離され
て得られる。

【００１６】デマルチプレクサ７からの映像データは、
ＭＰＥＧ映像デコーダ１１で、伸長復号化されるととも
に、再生倍率に応じてフレーム単位またはフィールド単
位で間引かれる。

【００１７】すなわち、２倍速再生の場合には、記録媒
体１からは映像データが定常速度の２倍の速度で読み取
られるが、ＭＰＥＧ映像デコーダ１１で、連続する２フ
レームにつき１フレーム、または連続する２フィールド
につき１フィールド、映像データが間引かれる。３倍速
再生の場合には、記録媒体１からは映像データが定常速
度の３倍の速度で読み取られるが、ＭＰＥＧ映像デコー
ダ１１で、連続する３フレームにつき２フレーム、また
は連続する３フィールドにつき２フィールド、映像デー
タが間引かれる。

【００１８】ＭＰＥＧ映像デコーダ１１の出力の映像デ
ータは、ＮＴＳＣ（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓ
ｉｏｎＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ）エンコー
ダ１２で、ＮＴＳＣ映像信号にエンコードされ、アナロ
グ信号に変換されて、ＣＲＴディスプレイや液晶ディス
プレイなどの表示装置１３に供給される。

【００１９】デマルチプレクサ７からの音声データは、
ＭＰＥＧ音声デコーダ１４で、伸長復号化されて、音声
処理部１５に供給され、音声処理部１５で、後述のよう
に速度変換されて、再生倍率にかかわらずサンプリング
周波数が上記の４８ｋＨｚとされ、アナログ信号に変換
されて、スピーカなどの音声出力装置１６に供給され
る。

【００２０】すなわち、２倍速再生の場合には、記録媒
体１から音声データが定常速度の２倍の速度で読み取ら
れることによって、ＭＰＥＧ音声デコーダ１４の出力の
音声データは、６０ｍ秒で２×２８８０サンプルとなる
が、音声処理部１５での速度変換によって、音声処理部
１５の出力の音声データとしては、６０ｍ秒で２８８０
サンプルとされる。３倍速再生の場合には、記録媒体１
から音声データが定常速度の３倍の速度で読み取られる
ことによって、ＭＰＥＧ音声デコーダ１４の出力の音声
データは、６０ｍ秒で３×２８８０サンプルとなるが、
音声処理部１５での速度変換によって、音声処理部１５
の出力の音声データとしては、６０ｍ秒で２８８０サン
プルとされる。

【００２１】システムコントローラ６には、操作部９が
接続される。操作部９は、装置の利用者が再生倍率を指
示するなどの各種操作を行うもので、これには、装置の
動作状態や操作状況を表示する液晶表示部などの表示部
が設けられる。

【００２２】図２は、音声処理部１５の一例を示す。こ
の例は、ＭＰＥＧ音声デコーダ１４の出力の音声データ
につき、速度変換の前処理として、連続音声部分（音声
のひとまとまり、ひとまとまりの音声部分）の終端部の
振幅を抑圧するとともに、速度変換処理の処理単位時間
を一定にする場合で、音声処理部１５は、振幅抑圧処理
部７０、処理単位期間設定部２１、有音無音判定部２
２、速度変換処理部２３、出力バッファ２４、Ｄ／Ａコ
ンバータ２５および音声増幅器２６によって構成され
る。

【００２３】〔振幅抑圧処理…図３〜図１２〕図２の例
の音声処理部１５の振幅抑圧処理部７０では、ＭＰＥＧ
音声デコーダ１４の出力の音声データにつき、連続音声
部分の終端部の振幅が抑圧される。

【００２４】（振幅抑圧処理の第１の例…図３〜図６）
振幅抑圧処理部７０での振幅抑圧処理の一つの方法とし
て、特開平８−１７９７９２号に示された方法を用いる
ことができる。図３〜図６に、この特開平８−１７９７
９２号に示された方法による振幅抑圧処理を示す。

【００２５】図３は、振幅抑圧処理部７０の構成を示
し、入力端子７１には、入力音声信号として上述したＭ
ＰＥＧ音声デコーダ１４の出力の音声データが供給され
る。この入力音声信号は、子音成分分離フィルタ７２お
よびフォルマント成分分離フィルタ７３に供給され、子
音成分分離フィルタ７２からは、入力音声信号中の子音
成分が抽出される。また、フォルマント成分分離フィル
タ７３の通過帯域が、例えば１５０〜１０００Ｈｚに設
定されることによって、フォルマント成分分離フィルタ
７３からは、入力音声信号中のピッチ成分およびフォル
マント成分が抽出される。

【００２６】フォルマント成分分離フィルタ７３の出力
は、レベル検出部７４に供給され、レベル検出部７４に
おいて、例えば、フォルマント成分分離フィルタ７３の
出力が全波整流され、その整流出力が６０Ｈｚ以下を通
過帯域とするローパスフィルタに供給され、ローパスフ
ィルタの出力のレベルが検出されることによって、入力
音声信号の音声レベルが検出され、レベル検出値Ｅが得
られる。このようにピッチ成分およびフォルマント成分
のみから音声レベルが検出されることによって、レベル
検出値Ｅとしてノイズの影響が少ないものが得られる。

【００２７】このレベル検出部７４からのレベル検出値
Ｅは、制御部７５で後述のように処理され、制御部７５
から振幅抑圧の制御信号としての制御係数Ｗが得られ
る。

【００２８】そして、フォルマント成分分離フィルタ７
３の出力、および制御部７５からの制御係数Ｗが、振幅
抑圧部７６に供給され、振幅抑圧部７６において、後述
のように制御係数Ｗによってフォルマント成分分離フィ
ルタ７３の出力が減衰される。

【００２９】さらに、周波数特性補正フィルタ７７で、
子音成分分離フィルタ７２の出力と振幅抑圧部７６の出
力が混合されるとともに、混合後の信号に対してイコラ
イジング処理などの所要の周波数特性補正処理が施さ
れ、処理後の出力音声信号が出力端子７９に得られる。
周波数特性補正フィルタ７７は、倍速再生の再生倍率に
応じてフィルタ係数や処理帯域が設定される。ただし、
周波数特性補正フィルタ７７によって周波数特性を補正
しないで、子音成分分離フィルタ７２の出力と振幅抑圧
部７６の出力を混合するだけでもよい。

【００３０】制御部７５は、レベル検出部７４からのレ
ベル検出値Ｅから、連続音声部分の終端が近づいている
ことを予測するとともに、次の連続音声部分の始端を検
出する。そして、その予測および検出に基づいて、振幅
抑圧部７６に対する制御係数Ｗを設定して、連続音声部
分の終端が近づいたら、フォルマント成分分離フィルタ
７３の出力を減衰させ、次の連続音声部分の始端が到来
したら、その減衰を解除することによって、隣接する連
続音声部分の間に振幅の小さい期間または無音期間を形
成し、または隣接する連続音声部分の間の無音期間を広
げる。

【００３１】この処理を、図４を用いて示す。同図
（Ａ）は、入力端子７１に得られる入力音声信号であ
り、アナログ波形で示す。同図（Ｂ）は、この場合にレ
ベル検出部７４から得られるレベル検出値Ｅであり、ア
ナログ波形で示す。

【００３２】制御部７５は、まず、レベル検出値Ｅのピ
ーク値ＰＫを検出して閾値ＴＨを設定する。例えば、ピ
ーク値ＰＫに係数を乗じて、ピーク値ＰＫの一定割合の
値を閾値ＴＨとして設定する。次に、そのときのサンプ
ルタイミングでのレベル検出値Ｅ（ｉ）を直前のサンプ
ルタイミングでのレベル検出値Ｅ（ｉ−１）と比較し
て、音声レベルが増加傾向にあるか減少傾向にあるかを
判断するとともに、そのときのサンプルタイミングでの
レベル検出値Ｅ（ｉ）を上記の閾値ＴＨと比較する。

【００３３】そして、図４の時点ｔ０で示すように、音
声レベルが減少傾向にあり、かつ、そのときのレベル検
出値Ｅ（ｉ）が閾値ＴＨより小さくなったときには、連
続音声部分の終端が近づいていると判断して、同図
（Ｃ）に示すように、振幅抑圧部７６に対する制御係数
Ｗ（振幅抑圧部７６の利得レベル）を最大値１から最小
値０に向けて徐々に低下させ、フォルマント成分分離フ
ィルタ７３の出力の減衰量を徐々に増加させる。

【００３４】また、振幅抑圧後、図４の時点ｔ１で示す
ように、音声レベルが増加傾向に転じたときには、次の
連続音声部分の始端と判断して、同図（Ｃ）に示すよう
に、振幅抑圧部７６に対する制御係数Ｗ（振幅抑圧部７
６の利得レベル）を最小値０から最大値１に向けて徐々
に増加させ、フォルマント成分分離フィルタ７３の出力
の減衰量を徐々に低下させる。

【００３５】このような振幅抑圧処理によって、出力端
子７９に得られる出力音声信号は、図４（Ｄ）にアナロ
グ波形で示すように、隣接する連続音声部分の間に振幅
の小さい期間または無音期間が形成され、または隣接す
る連続音声部分の間の無音期間が広げられたものとな
る。

【００３６】制御部７５は、より具体的には、図５に示
すような処理ルーチンによって、振幅抑圧部７６に対す
る制御係数Ｗを設定する。

【００３７】図５の処理ルーチンは、レベル検出部７４
から制御部７５にレベル検出値Ｅ（ｉ）が取り込まれる
ごとに処理を開始するもので、まずステップＦ１０１
で、レベル検出値Ｅ（ｉ）を閾値ＴＨと比較する。閾値
ＴＨは、それ以前においてステップＦ１１０またはＦ１
１７で後述のように設定した値である。

【００３８】そして、Ｅ（ｉ）≧ＴＨであれば、ステッ
プＦ１０１からステップＦ１１１に進んで、ダウンフラ
グＤＷを１にセットする。ダウンフラグＤＷは、それ以
前は音声レベルが減少傾向にあった場合、または減少傾
向にあったと見なす場合に、１とするフラグである。

【００３９】次に、ステップＦ１１２で、フラグＢＹを
確認する。フラグＢＹは、直前のレベル検出値Ｅ（ｉ−
１）が閾値ＴＨより小さかった場合に、ステップＦ１０
２で０とされるフラグである。したがって、レベル検出
値Ｅ（ｉ）として閾値ＴＨ以上の値が最初に入力された
ときには、フラグＢＹは０であって、ステップＦ１１２
からステップＦ１１８に進む。

【００４０】ステップＦ１１８では、レベル検出値Ｅ
（ｉ）をピーク値ＰＫの下限値ＬｉｍＬと比較する。ピ
ーク値ＰＫについては、あらかじめ上限値ＬｉｍＨおよ
び下限値ＬｉｍＬが設定され、制御部７５は、後述のよ
うに、ピーク値ＰＫが上限値ＬｉｍＨより大きいときに
は、上限値ＬｉｍＨをピーク値ＰＫとして設定し、ピー
ク値ＰＫが下限値ＬｉｍＬより小さいときには、下限値
ＬｉｍＬをピーク値ＰＫとして設定して、ピーク値ＰＫ
を上限値ＬｉｍＨと下限値ＬｉｍＬとの間に設定するも
のである。

【００４１】そして、Ｅ（ｉ）＜ＬｉｍＬであれば、ス
テップＦ１１８からステップＦ１１９に進んで、下限値
ＬｉｍＬをピーク値ＰＫとして設定した上で、ステップ
Ｆ１２１に進み、Ｅ（ｉ）≧ＬｉｍＬであれば、ステッ
プＦ１１８からステップＦ１２０に進んで、閾値ＴＨを
ピーク値ＰＫとして設定した上で、ステップＦ１２１に
進む。

【００４２】ステップＦ１２１では、上記のフラグＢＹ
を１にセットし、次にレベル検出値Ｅ（ｉ）が入力され
たときに備えて、音声レベルが閾値ＴＨ以上になったこ
とを示しておく。

【００４３】次に、ステップＦ１２２で、そのときのレ
ベル検出値Ｅ（ｉ）を直前のレベル検出値Ｅ（ｉ−１）
と比較し、Ｅ（ｉ）＞Ｅ（ｉ−１）であれば、音声レベ
ルが増加傾向にあると判断して、ステップＦ１２２から
ステップＦ１２３に進んで、制御係数ＷをＷ＋ｄ２の値
に更新した上で、次回の処理に移行し、Ｅ（ｉ）≦Ｅ
（ｉ−１）であれば、音声レベルが増加傾向にないと判
断して、ステップＦ１２２から直接、次回の処理に移行
する。

【００４４】ステップＦ１２１からステップＦ１２２に
進んだ場合は、レベル検出値Ｅ（ｉ）として閾値ＴＨ以
上の値が最初に入力されたときで、音声レベルが増加傾
向にあるので、ステップＦ１２３で制御係数Ｗが更新さ
れることになる。

【００４５】ｄ２は、制御係数Ｗを増加させ、減衰量を
低下させる場合のステップ幅である。ただし、図４
（Ｃ）に示したように、制御係数Ｗは０≦Ｗ≦１とされ
る。したがって、Ｗ＝１であったときには、ステップＦ
１２３では制御係数Ｗを更新しない。

【００４６】次回の処理においても、Ｅ（ｉ）≧ＴＨで
あれば、ステップＦ１０１からステップＦ１１１および
Ｆ１１２に進むが、このときは、レベル検出値Ｅ（ｉ）
として閾値ＴＨ以上の値が最初に入力されたときではな
く、フラグＢＹが１にセットされているので、ステップ
Ｆ１１２からステップＦ１１３に進む。

【００４７】ステップＦ１１３では、レベル検出値Ｅ
（ｉ）をピーク値ＰＫと比較し、ＰＫ≧Ｅ（ｉ）であれ
ば、そのままステップＦ１２２に進むが、ＰＫ＜Ｅ
（ｉ）であれば、ステップＦ１１４以下に進んで、ピー
ク値ＰＫを更新した上で、閾値ＴＨを更新する。

【００４８】すなわち、まずステップＦ１１４で、レベ
ル検出値Ｅ（ｉ）をピーク値ＰＫの上限値ＬｉｍＨと比
較し、Ｅ（ｉ）＞ＬｉｍＨであれば、ステップＦ１１４
からステップＦ１１５に進んで、上限値ＬｉｍＨをピー
ク値ＰＫとして設定した上で、ステップＦ１１７に進
み、Ｅ（ｉ）≦ＬｉｍＨであれば、ピーク値ＰＫより大
きいレベル検出値Ｅ（ｉ）が新たなピーク値ＰＫとして
検出されたことになるので、ステップＦ１１４からステ
ップＦ１１６に進んで、レベル検出値Ｅ（ｉ）をピーク
値ＰＫとして設定した上で、ステップＦ１１７に進む。

【００４９】ステップＦ１１７では、閾値ＴＨを、上記
のように更新したピーク値ＰＫの一定割合の値ＰＫ×Ｒ
Ｔに更新する。係数ＲＴで表される割合は、数％〜数１
０％に選定される。ステップＦ１１７で閾値ＴＨを更新
したら、ステップＦ１２２に進む。

【００５０】以上は、レベル検出値Ｅ（ｉ）が閾値ＴＨ
以上の値である場合である。逆に、レベル検出値Ｅ
（ｉ）が閾値ＴＨより小さい場合には、ステップＦ１０
１からステップＦ１０２に進んで、上記のフラグＢＹを
０にする。

【００５１】次に、ステップＦ１０３で、そのときのレ
ベル検出値Ｅ（ｉ）を直前のレベル検出値Ｅ（ｉ−１）
と比較し、Ｅ（ｉ）＜Ｅ（ｉ−１）であれば、音声レベ
ルが減少傾向にあると判断して、ステップＦ１０３から
ステップＦ１０５に進んで、ダウンフラグＤＷを確認す
る。

【００５２】そして、ダウンフラグＤＷが１であれば、
それ以前は音声レベルが減少傾向にあった場合、または
減少傾向にあったと見なす場合であるので、このとき、
レベル検出値Ｅ（ｉ）が閾値ＴＨより小さく、かつ直前
のレベル検出値Ｅ（ｉ−１）より小さいことから、連続
音声部分の終端が近づいていると判断して、ステップＦ
１０５からステップＦ１０６に進んで、制御係数ＷをＷ
−ｄ１の値に更新した上で、次回の処理に移行する。

【００５３】ｄ１は、制御係数Ｗを減少させ、減衰量を
増加させる場合のステップ幅である。ただし、図４
（Ｃ）に示したように、制御係数Ｗは０≦Ｗ≦１とされ
る。したがって、Ｗ＝０であったときには、ステップＦ
１０６では制御係数Ｗを更新しない。

【００５４】以後、レベル検出値Ｅ（ｉ）が連続音声部
分の終端に向けて低下し続けている間は、ステップＦ１
０６で制御係数Ｗの更新が繰り返されて、図４の時点ｔ
０以降に示したように、振幅抑圧部７６の利得レベルが
徐々に低下する。そして、制御係数Ｗ（利得レベル）が
０に達すると、次に時点ｔ１で示したように音声レベル
が増加傾向に転じるまでは、制御係数Ｗ（利得レベル）
が０の状態が維持される。

【００５５】一方、ステップＦ１０５でダウンフラグＤ
Ｗが０であると判断した場合は、それ以前は音声レベル
が減少傾向になく、レベル検出値Ｅ（ｉ）として閾値Ｔ
Ｈより小さい値が最初に入力されたときである。このと
き、音声レベルが減少傾向にあっても、連続音声部分の
終端が近づいていない場合も存在すると考えられる。そ
こで、ステップＦ１０５でダウンフラグＤＷが０である
と判断したときには、ステップＦ１０７以下に進んで、
ピーク値ＰＫを更新した上で、閾値ＴＨを更新する。

【００５６】すなわち、まずステップＦ１０７で、レベ
ル検出値Ｅ（ｉ）をピーク値ＰＫの下限値ＬｉｍＬと比
較し、Ｅ（ｉ）≧ＬｉｍＬであれば、ステップＦ１０７
からステップＦ１０８に進んで、レベル検出値Ｅ（ｉ）
をピーク値ＰＫとして設定した上で、ステップＦ１１０
に進み、Ｅ（ｉ）＜ＬｉｍＬであれば、ステップＦ１０
７からステップＦ１０９に進んで、下限値ＬｉｍＬをピ
ーク値ＰＫとして設定した上で、ステップＦ１１０に進
む。

【００５７】ステップＦ１１０では、閾値ＴＨを、上記
のように更新したピーク値ＰＫの一定割合の値ＰＫ×Ｒ
Ｔに更新する。また、このとき、連続音声部分の終端が
近づいている場合も存在するので、ステップＦ１０６と
同様に、制御係数ＷをＷ−ｄ１の値に更新する。さら
に、ステップＦ１１０では、ダウンフラグＤＷを１にセ
ットし、音声レベルが減少傾向になったことを示してお
く。

【００５８】このようにレベル検出値Ｅ（ｉ）として閾
値ＴＨより小さい値が最初に入力されたときには、ステ
ップＦ１１０で閾値ＴＨが更新されることによって、連
続音声部分の終端が近づいているか否かが、より正確に
判定される。すなわち、実際には連続音声部分の終端が
近づいていないときには、次に入力されるレベル検出値
Ｅ（ｉ）は更新された閾値ＴＨ以上になる確率が高く、
次回の処理ではステップＦ１１１以降の処理が実行され
る可能性が高いので、連続音声部分の終端が近づいてい
ると誤判定される確率は低い。

【００５９】逆に、実際に連続音声部分の終端が近づい
ているときには、次に入力されるレベル検出値Ｅ（ｉ）
が更新された閾値ＴＨより小さくなり、かつ直前のレベ
ル検出値Ｅ（ｉ−１）より小さくなるので、次回の処理
ではステップＦ１０５からステップＦ１０６に進んで、
連続音声部分の終端部の振幅を抑圧する処理が実行され
る。

【００６０】振幅抑圧後、図４の時点ｔ１で示したよう
に次の連続音声部分の始端が到来すると、制御部７５
は、ステップＦ１０３で、そのときのレベル検出値Ｅ
（ｉ）が直前のレベル検出値Ｅ（ｉ−１）以上であると
判断することによって、ステップＦ１０３からステップ
Ｆ１０４に進んで、制御係数ＷをＷ＋ｄ２の値に更新す
るとともに、ダウンフラグＤＷを０にする。

【００６１】以後、レベル検出値Ｅ（ｉ）が増加する間
は、レベル検出値Ｅ（ｉ）が閾値ＴＨより小さいときに
はステップＦ１０４で、レベル検出値Ｅ（ｉ）が閾値Ｔ
Ｈ以上の値のときにはステップＦ１２３で、制御係数Ｗ
の更新が繰り返されて、図４の時点ｔ１以降に示したよ
うに、振幅抑圧部７６の利得レベルが徐々に増加する。

【００６２】以上のように、図５の処理ルーチンによっ
て、振幅抑圧処理部７０の出力音声信号は、隣接する連
続音声部分の間に振幅の小さい期間または無音期間が形
成され、または隣接する連続音声部分の間の無音期間が
広げられたものとなる。

【００６３】図６は、話者が日本語の「親譲りの無鉄砲
で子供のときから損ばかりしている」という発音をした
ときの音声信号波形を示し、同図（Ａ）が、振幅抑圧処
理を行う前の波形であり、同図（Ｂ）が、上述した振幅
抑圧処理を行った後の波形である。同図（Ｂ）の矢印で
示すように、上述した振幅抑圧処理を行った場合には、
それぞれの話音（連続音声部分）の間が振幅の小さい期
間または無音期間によって明確に区切られ、それぞれの
話音を明瞭に認識することができるようになる。

【００６４】（振幅抑圧処理の第２の例…図７〜図１
２）図２の例の音声処理部１５の振幅抑圧処理部７０で
の振幅抑圧処理の他の一つの方法として、特開平７−３
６４８７号に示された方法を用いることができる。図７
〜図１２に、この特開平７−３６４８７号に示された方
法による振幅抑圧処理を示す。

【００６５】図７は、振幅抑圧処理部７０の構成を示
し、入力端子７１には、入力音声信号として上述したＭ
ＰＥＧ音声デコーダ１４の出力の音声データが供給され
る。この入力音声信号は、遅延回路８１で例えば３０ｍ
秒遅延されて、振幅抑圧部８２に供給される。また、入
力音声信号が、バンドパスフィルタ８３に供給されて、
バンドパスフィルタ８３から、入力音声信号中のピッチ
成分および第１フォルマント成分のみが抽出される。

【００６６】人の会話の音声は、母音の場合、主として
ピッチ成分と第１フォルマント成分、第２フォルマント
成分などのフォルマント成分とに解析することができ
る。すなわち、例えば「あ」と発音したときの音声パワ
ースペクトルは、図９に示すように、周波数が低い方か
ら順に、ピッチ成分Ｐ、第１フォルマント成分Ｆ１、第
２フォルマント成分Ｆ２、第３フォルマント成分Ｆ３…
と、エネルギーが集中する箇所が存在する。

【００６７】したがって、バンドパスフィルタ８３の上
側のカットオフ周波数を第１フォルマント成分Ｆ１と第
２フォルマント成分Ｆ２との間の周波数に選定すること
によって、ピッチ成分および第１フォルマント成分のみ
を抽出することができる。ただし、発音する音や発音す
る者の違いによって各成分の周波数が変化するので、シ
ステムが扱う音声信号によってバンドパスフィルタ８３
の通過帯域を若干変える必要がある。

【００６８】このバンドパスフィルタ８３からのピッチ
成分および第１フォルマント成分は、レベル検出部８４
に供給され、レベル検出部８４において、例えば、バン
ドパスフィルタ８３の出力が全波整流され、その整流出
力が６０Ｈｚ以下を通過帯域とするローパスフィルタに
供給され、ローパスフィルタの出力のレベルが検出され
ることによって、入力音声信号の音声レベルが検出さ
れ、レベル検出値Ｅが得られる。このようにピッチ成分
およびフォルマント成分のみから音声レベルが検出され
ることによって、レベル検出値Ｅとしてノイズの影響が
少ないものが得られる。

【００６９】このレベル検出部８４からのレベル検出値
Ｅは、制御部８５で後述のように処理され、振幅抑圧部
８２において、後述のように制御部８５の制御によって
遅延回路８１の出力の音声信号が減衰され、出力端子７
９に振幅抑圧処理後の出力音声信号が得られる。

【００７０】図１０は、この例の制御部８５が実行する
処理ルーチンの一例を示す。この処理ルーチンは、レベ
ル検出部８４から制御部８５にレベル検出値Ｅ（ｉ）が
取り込まれるごとに処理を開始するもので、まずステッ
プＳ１０１で、レベル検出値Ｅ（ｉ）を音声の途切れを
判断するための閾値Ａｔｈ１と比較する。閾値Ａｔｈ１
は、それ以前においてステップＳ１０７で後述のように
設定した値である。

【００７１】そして、Ｅ（ｉ）≧Ａｔｈ１であれば、ス
テップＳ１０１からステップＳ１０２に進んで、イネー
ブル値が０であるか否かを判断する。このイネーブル値
は、以前の音声レベルの状態を示す値で、以前に音声レ
ベルが増加している場合には１とされるものである。

【００７２】そのため、音声レベルが立ち上がり始めた
ときには、ステップＳ１０２ではイネーブル値が０であ
ると判断して、ステップＳ１０２からステップＳ１０３
に進んで、レベル検出値Ｅ（ｉ）を音声の存在を判断す
るための閾値Ａｔｈ２と比較する。閾値Ａｔｈ２は、あ
らかじめ設定される。

【００７３】そして、Ｅ（ｉ）≦Ａｔｈ２であれば、そ
のまま次回の処理に移行するが、Ｅ（ｉ）＞Ａｔｈ２で
あれば、音声が存在すると判断して、ステップＳ１０４
に進んで、上記のイネーブル値を１に設定するととも
に、振幅抑圧終了時からのサンプル数を示す変数Ｓｏを
０に設定した上で、ステップＳ１０５に進む。

【００７４】ステップＳ１０５では、レベル検出値Ｅ
（ｉ）をピーク値ＰＫの上限値ＬｉｍＨと比較し、Ｅ
（ｉ）＞ＬｉｍＨであれば、ステップＳ１０５からステ
ップＳ１０６に進んで、上限値ＬｉｍＨをピーク値ＰＫ
として設定した上で、ステップＳ１０７に進み、Ｅ
（ｉ）≦ＬｉｍＨであれば、ステップＳ１０５からステ
ップＳ１０８に進んで、レベル検出値Ｅ（ｉ）をピーク
値ＰＫとして設定した上で、ステップＳ１０７に進む。

【００７５】ステップＳ１０７では、音声の途切れを判
断するための閾値Ａｔｈ１を、上記のように設定したピ
ーク値ＰＫの一定割合の値ＰＫ×Ｒｔに更新する。ステ
ップＳ１０７で閾値Ａｔｈ１を更新したら、次回の処理
に移行する。

【００７６】一方、ステップＳ１０２でイネーブル値が
１であると判断したときには、ステップＳ１０９に進ん
で、レベル検出値Ｅ（ｉ）をピーク値ＰＫと比較し、Ｅ
（ｉ）≦ＰＫであれば、そのまま次回の処理に移行する
が、Ｅ（ｉ）＞ＰＫであれば、ステップＳ１０５以下に
進んで、上記のようにピーク値ＰＫおよび閾値Ａｔｈ１
を更新した上で、次回の処理に移行する。

【００７７】以上の処理を繰り返している間にレベル検
出値Ｅ（ｉ）が低下して、ステップＳ１０１でレベル検
出値Ｅ（ｉ）が閾値Ａｔｈ１より小さいと判断したとき
には、ステップＳ１０１からステップＳ１１０に進ん
で、上記のイネーブル値が１であるか否かを判断する。

【００７８】そして、イネーブル値が１であれば、連続
音声部分の終端であると判断して、ステップＳ１１０か
らステップＳ１１１に進んで、イネーブル値を０に変更
し、振幅抑圧終了時からのサンプル数を示す変数Ｓｏを
０に設定するとともに、利得漸減期間（減衰量漸増期
間）および無音期間を形成するように振幅抑圧部８２の
利得レベルを制御する。

【００７９】すなわち、図１１に示すようなサンプル数
Ｓａの期間Ｔａでは、遅延回路８１の出力の音声信号に
対する重み係数（振幅抑圧部８２の利得レベル）を、最
大値１から最小値０に向けて、係数Ｗａで示すように音
声信号の１サンプルごとに徐々に低下させ、その直後
の、図１１に示すようなサンプル数Ｍの期間Ｔｍでは、
遅延回路８１の出力の音声信号に対する重み係数（振幅
抑圧部８２の利得レベル）を最小値０にする。利得漸減
期間Ｔａは、例えば１０ｍ秒とし、無音期間Ｔｍは、例
えば２０ｍ秒とする。

【００８０】このようにステップＳ１１１で振幅抑圧部
８２の利得レベルを制御したら、次回の処理に移行す
る。次回の処理でも、ステップＳ１０１でレベル検出値
Ｅ（ｉ）が閾値Ａｔｈ１より小さいと判断するので、ス
テップＳ１０１からステップＳ１１０に進んで、イネー
ブル値が１であるか否かを判断するが、次回の処理で
は、イネーブル値が０にされているので、ステップＳ１
１０からステップＳ１１２に進む。

【００８１】そして、ステップＳ１１２では、振幅抑圧
終了時からのサンプル数を示す変数Ｓｏが、利得漸増期
間（減衰量漸減期間）として定められる期間のサンプル
数Ｓｂより小さいか否かを判断し、Ｓｏ＜Ｓｂであれ
ば、次の連続音声部分の始端であると判断して、ステッ
プＳ１１２からステップＳ１１３に進んで、利得漸増期
間を形成するように振幅抑圧部８２の利得レベルを制御
する。

【００８２】すなわち、図１１に示すような、無音期間
Ｔｍの直後のサンプル数Ｓｂの期間Ｔｂでは、遅延回路
８１の出力の音声信号に対する重み係数（振幅抑圧部８
２の利得レベル）を、最小値０から最大値１に向けて、
係数Ｗｂで示すように音声信号の１サンプルごとに徐々
に増加させる。利得漸増期間Ｔｂは、例えば５ｍ秒とす
る。

【００８３】このようにステップＳ１１３で振幅抑圧部
８２の利得レベルを制御したら、次回の処理に移行す
る。ステップＳ１１２で変数Ｓｏがサンプル数Ｓｂ以上
であると判断したときには、そのまま次回の処理に移行
する。

【００８４】以上のように、この例の振幅抑圧処理で
は、制御部８５の制御によって振幅抑圧部８２で音声信
号の振幅が抑圧されるが、振幅抑圧部８２に供給される
音声信号は、入力端子７１に得られる音声信号に対して
３０ｍ秒遅れるので、制御部８５で連続音声部分の終端
が検出されたとき、３０ｍ秒前に溯って連続音声部分の
終端の３０ｍ秒前の信号位置から、利得漸減期間Ｔａお
よび無音期間Ｔｍで示したように音声信号の振幅を抑圧
することができる。

【００８５】図１２は、話者が日本語の「書いて下さ
い」という発音をしたときの音声信号波形を示し、同図
（Ａ）が、振幅抑圧処理を行う前の波形であり、同図
（Ｂ）が、上述した振幅抑圧処理を行った後の波形であ
る。同図（Ｂ）に示すように、上述した振幅抑圧処理を
行った場合には、それぞれ「かい」「て」「く」「だ」
「さい」という話音（連続音声部分）の終端の直前に無
音期間Ｍ１，Ｍ２，Ｍ３，Ｍ４，Ｍ５が形成され、それ
ぞれの話音を明瞭に認識することができるようになる。

【００８６】無音期間Ｔｍは、２０ｍ秒に限らず、数ｍ
秒〜数１０ｍ秒の範囲で適切に設定すればよい。また、
完全な無音状態にしないで、例えば振幅を数１０％抑圧
してもよい。

【００８７】図８に示すように、図７の遅延回路８１お
よび振幅抑圧部８２の代わりに、ＦＩＦＯ（ｆｉｒｓｔ
−ｉｎｆｉｒｓｔ−ｏｕｔ）メモリ８６を用いてもよ
い。この場合には、ＦＩＦＯメモリ８６に書き込んだ音
声データを一定時間遅れてＦＩＦＯメモリ８６から読み
出す際、制御部８５によってデータ値を補正することに
よって、出力端子７９に振幅抑圧処理後の出力音声信号
を得る。

【００８８】〔速度変換処理…図１３〜図１７〕図２の
例の音声処理部１５では、ＭＰＥＧ音声デコーダ１４の
出力の音声データにつき、上述したように振幅抑圧処理
部７０で連続音声部分の終端部の振幅を抑圧した後、速
度変換（人の会話の場合には話速変換）を実行する。

【００８９】ＭＰＥＧ音声デコーダ１４の出力の音声デ
ータ、したがって振幅抑圧処理部７０の出力の音声デー
タは、上述したように、２倍速再生の場合には６０ｍ秒
で２×２８８０サンプルとなり、３倍速再生の場合には
６０ｍ秒で３×２８８０サンプルとなる。以下では、２
倍速再生の場合を例として速度変換処理を示すが、３倍
速再生などの場合でも同様である。

【００９０】図２の例の音声処理部１５の処理単位期間
設定部２１は、システムコントローラ６からのタイミン
グ信号およびクロックによって、図１３に処理単位期間
Ｔ１〜Ｔ６として示すように、一音素の時間より短い６
０ｍ秒相当（２８８０サンプル分で、２倍速再生の場合
には絶対時間としては３０ｍ秒）の時間間隔で、速度変
換処理のそれぞれの処理単位期間の先頭ないし末尾のタ
イミングを決定する。ただし、処理単位期間設定部２１
は、システムコントローラ６の一部、または速度変換処
理部２３の一部として、構成することもできる。

【００９１】有音無音判定部２２は、入力データＳｉ、
すなわち振幅抑圧処理部７０の出力の音声データの、有
音部分と無音部分を識別判定するもので、この例では、
図１４に示すように、入力データＳｉの、それぞれ６０
ｍ秒相当（２８８０サンプル）の処理単位期間を、３ｍ
秒相当（１４４サンプル分で、２倍速再生の場合には絶
対時間としては１．５ｍ秒）ずつの２０個の判定単位期
間に分割し、それぞれの判定単位期間につき、１４４サ
ンプルのデータの絶対値の平均値を算出して、その平均
値が閾値を超えるか否かを判断し、平均値が閾値を超え
るときには、その判定単位期間を有音部分と判定し、平
均値が閾値以下であるときには、その判定単位期間を無
音部分と判定する。

【００９２】出力バッファ２４は、ＦＩＦＯ構造のリン
グバッファとして機能するものとする。図１５に、出力
バッファ２４へのデータ書き込み、出力バッファ２４か
らのデータ読み出し、および出力バッファ２４の入出力
ポインタの動きを示す。

【００９３】出力バッファ２４にデータが全く書き込ま
れていないときには、図１５（Ａ）に示すように、出力
バッファ２４には先頭アドレスから順にデータが書き込
まれ、それに応じて入力ポインタも後方に移動する。こ
のとき、出力ポインタは先頭アドレスを指示する。

【００９４】図１５（Ｂ）は、この状態から、さらにデ
ータが書き込まれるとともに、先頭アドレスから順にデ
ータが読み出された状態を示し、出力ポインタも後方に
移動する。

【００９５】さらにデータが書き込まれて、入力ポイン
タが末尾アドレスに達すると、図１５（Ｃ）に示すよう
に、入力ポインタは先頭アドレスに戻る。このとき、新
たなデータが出力済みデータに対してのみ上書きされる
ように、入力ポインタの指示位置が制御される。出力ポ
インタも、末尾アドレスに達したときには、先頭アドレ
スに戻る。

【００９６】Ｄ／Ａコンバータ２５は、出力バッファ２
４から出力された音声データをアナログ音声信号に変換
するものであり、音声増幅器２６は、そのアナログ音声
信号を増幅するものである。音声増幅器２６からのアナ
ログ音声信号は、図１の音声出力装置１６に供給され
る。

【００９７】速度変換処理部２３は、図１６に示す速度
変換処理ルーチンによって、振幅抑圧処理部７０の出力
の音声データ、すなわち入力データＳｉを速度変換する
ものである。

【００９８】すなわち、この速度変換処理ルーチン３０
では、まずステップ３１において、有音無音判定部２２
の判定結果から、入力データＳｉのそれぞれの処理単位
期間内に無音部分が倍率相当分以上存在するか否かを判
断する。倍率相当分とは、処理単位時間から、処理単位
時間に再生倍率の逆数を乗じた時間を引いた時間で、上
記のように処理単位時間が６０ｍ秒相当（２８８０サン
プル）で、かつ２倍速再生の場合には、３０ｍ秒分（１
４４０サンプル）である。すなわち、ステップ３１で
は、それぞれの処理単位期間内に無音部分が３０ｍ秒分
（１４４０サンプル）以上存在するか否かを判断する。

【００９９】そして、処理単位期間内に無音部分が３０
ｍ秒分（１４４０サンプル）以上存在するときには、ス
テップ３１からステップ３２に進んで、出力バッファ２
４に３０ｍ秒分（１４４０サンプル）以上のデータが蓄
積されているか否かを判断し、出力バッファ２４に３０
ｍ秒分（１４４０サンプル）以上のデータが蓄積されて
いるときには、ステップ３２からステップ３３に進ん
で、その処理単位期間内の無音部分を全て削除し、無音
部分の前後の有音部分を接合して、その処理単位期間内
の有音部分のデータのみを全て、出力バッファ２４に書
き込む。

【０１００】また、出力バッファ２４に３０ｍ秒分（１
４４０サンプル）以上のデータが蓄積されていないとき
には、ステップ３２からステップ３４に進んで、その処
理単位期間内の３０ｍ秒分（１４４０サンプル）以下の
有音部分の全てに、その処理単位期間の先頭に近い部分
から、その処理単位期間内の無音部分を一部付加して、
その処理単位期間内の３０ｍ秒分（１４４０サンプル）
のデータを、出力バッファ２４に書き込む。

【０１０１】ただし、処理単位期間内に有音部分と無音
部分が、ちょうど３０ｍ秒分（１４４０サンプル）ずつ
存在するときには、ステップ３３と同様に、その処理単
位期間内の無音部分を全て削除し、無音部分の前後の有
音部分を接合して、その処理単位期間内の有音部分のデ
ータのみを全て、出力バッファ２４に書き込む。

【０１０２】一方、処理単位期間内に無音部分が３０ｍ
秒分（１４４０サンプル）未満しか存在しないときに
は、すなわち有音部分が３０ｍ秒分（１４４０サンプ
ル）を超えて存在するときには、ステップ３１からステ
ップ３５に進んで、出力バッファ２４に、その処理単位
期間内の３０ｍ秒分（１４４０サンプル）を超える有音
部分のデータを全て蓄えるだけの空きがあるか否かを判
断する。

【０１０３】そして、出力バッファ２４に、その処理単
位期間内の３０ｍ秒分（１４４０サンプル）を超える有
音部分のデータを全て蓄えるだけの空きがあるときに
は、ステップ３５からステップ３３に進んで、その処理
単位期間内の無音部分を全て削除し、無音部分の前後の
有音部分を接合して、その処理単位期間内の有音部分の
データのみを全て、出力バッファ２４に書き込む。

【０１０４】ただし、その処理単位期間内の６０ｍ秒分
（２８８０サンプル）のデータが全て有音部分であると
きには、その６０ｍ秒分（２８８０サンプル）の有音部
分のデータをそのまま、出力バッファ２４に書き込む。

【０１０５】また、出力バッファ２４に、その処理単位
期間内の３０ｍ秒分（１４４０サンプル）を超える有音
部分のデータを全て蓄えるだけの空きがないときには、
ステップ３５からステップ３６に進んで、有音部分が３
０ｍ秒分（１４４０サンプル）となるようにデータを圧
縮し、その圧縮後のデータを、出力バッファ２４に書き
込む。後述のように、この場合は速聴きとなる。

【０１０６】この圧縮処理について示すと、例えば、図
１７の上段に示すように、その処理単位期間内の６０ｍ
秒分（２８８０サンプル）のデータが全て有音部分であ
るときには、同図の下段に示すように、中間部分の１０
４０サンプルのデータを削除し、期間の先頭から９２０
サンプルの前方部データＳｆ中の後寄りの４００サンプ
ルのデータと、期間の末尾から９２０サンプルの後方部
データＳｂ中の前寄りの４００サンプルのデータとを、
フェード期間として、前方部データＳｆと後方部データ
Ｓｂをクロスフェードによって接合する。このようにク
ロスフェードによって接合するのは、接合された部分で
圧縮後のデータにノイズが発生するのを防止するためで
ある。

【０１０７】処理単位期間内に無音部分が存在するとき
には、その無音部分を含めた１０４０サンプルのデータ
を削除して、それぞれ９２０サンプルの有音部分を同様
のクロスフェードによって接合する。無音部分が１４４
０サンプル未満ではあるが、１０４０サンプルを超える
ときには、４００サンプルのフェード期間が得られ、接
合後のデータとして１４４０サンプルのデータが得られ
るように、有音部分の一部として無音部分の一部を含ま
せる。

【０１０８】図１３の処理単位期間Ｔ１は、入力データ
Ｓｉ中に破線で囲んだ有音部分と破線で囲まない無音部
分が、ちょうど３０ｍ秒分（１４４０サンプル）ずつ存
在するとともに、再生開始直後であるため、出力バッフ
ァ２４にはデータが全く蓄積されていない場合である。

【０１０９】したがって、処理単位期間Ｔ１について
は、ステップ３１，３２および３４によって、図１３の
出力データＳｏ中の部分Ｅ１に示すように、ちょうど３
０ｍ秒分（１４４０サンプル）の無音部分が全て削除さ
れ、無音部分の前後の有音部分が接合されて、ちょうど
３０ｍ秒分（１４４０サンプル）の有音部分のデータの
みが全て、出力バッファ２４に書き込まれる。

【０１１０】ただし、図１３は入力データＳｉと出力デ
ータＳｏのタイミング関係を示すものではなく、タイミ
ング的には出力データＳｏは入力データＳｉに対して同
図の位置より遅れる。

【０１１１】出力バッファ２４に書き込まれた処理単位
期間Ｔ１内の３０ｍ秒分（１４４０サンプル）の有音部
分のデータは、３０ｍ秒の時間に渡って、出力バッファ
２４から読み出され、Ｄ／Ａコンバータ２５によってア
ナログ音声信号に変換される。

【０１１２】図１３の処理単位期間Ｔ２は、６０ｍ秒分
（２８８０サンプル）のデータが全て有音部分であると
ともに、出力バッファ２４に、この６０ｍ秒分（２８８
０サンプル）の有音部分のデータを全て蓄えるだけの空
きがある場合である。

【０１１３】したがって、処理単位期間Ｔ２について
は、ステップ３１，３５および３３によって、図１３の
出力データＳｏ中の部分Ｅ２に示すように、その６０ｍ
秒分（２８８０サンプル）の有音部分のデータがそのま
ま、出力バッファ２４に書き込まれる。

【０１１４】この出力バッファ２４に書き込まれた処理
単位期間Ｔ２の６０ｍ秒分（２８８０サンプル）の有音
部分のデータ中の、前半の３０ｍ秒分（１４４０サンプ
ル）のデータが、期間Ｔ１内の有音部分のデータが読み
出される３０ｍ秒の時間に続く３０ｍ秒の時間に渡っ
て、出力バッファ２４から読み出され、Ｄ／Ａコンバー
タ２５によってアナログ音声信号に変換される。

【０１１５】図１３の処理単位期間Ｔ３は、入力データ
Ｓｉ中に破線で囲んだ有音部分が３０ｍ秒分（１４４０
サンプル）未満しか存在せず、破線で囲まない無音部分
が３０ｍ秒分（１４４０サンプル）を超えて存在すると
ともに、出力バッファ２４に３０ｍ秒分（１４４０サン
プル）以上のデータが蓄積されている場合である。

【０１１６】したがって、処理単位期間Ｔ３について
は、ステップ３１，３２および３３によって、図１３の
出力データＳｏ中の部分Ｅ３に示すように、その３０ｍ
秒分（１４４０サンプル）を超える無音部分が全て削除
され、無音部分の前後の有音部分が接合されて、３０ｍ
秒分（１４４０サンプル）未満の有音部分のデータのみ
が全て、出力バッファ２４に書き込まれる。

【０１１７】そして、処理単位期間Ｔ２の６０ｍ秒分
（２８８０サンプル）の有音部分のデータ中の、出力バ
ッファ２４に蓄積されていた後半の３０ｍ秒分（１４４
０サンプル）のデータが、前半のデータが読み出される
３０ｍ秒の時間に続く３０ｍ秒の時間に渡って、出力バ
ッファ２４から読み出され、Ｄ／Ａコンバータ２５によ
ってアナログ音声信号に変換される。

【０１１８】図１３の処理単位期間Ｔ４は、６０ｍ秒分
（２８８０サンプル）のデータが全て有音部分であると
ともに、出力バッファ２４に、この６０ｍ秒分（２８８
０サンプル）の有音部分のデータを全て蓄えるだけの空
きがある場合である。

【０１１９】したがって、処理単位期間Ｔ４について
は、ステップ３１，３５および３３によって、図１３の
出力データＳｏ中の部分Ｅ４に示すように、その６０ｍ
秒分（２８８０サンプル）の有音部分のデータがそのま
ま、出力バッファ２４に書き込まれる。

【０１２０】そして、出力バッファ２４に蓄積されてい
た処理単位期間Ｔ３の３０ｍ秒分（１４４０サンプル）
未満の有音部分のデータと、出力バッファ２４に書き込
まれた処理単位期間Ｔ４の６０ｍ秒分（２８８０サンプ
ル）の有音部分のデータ中の前半の一部のデータとを合
わせた、３０ｍ秒分（１４４０サンプル）のデータが、
３０ｍ秒の時間に渡って、出力バッファ２４から読み出
され、Ｄ／Ａコンバータ２５によってアナログ音声信号
に変換される。

【０１２１】図１３の処理単位期間Ｔ５は、６０ｍ秒分
（２８８０サンプル）のデータが全て有音部分であると
ともに、出力バッファ２４に、この６０ｍ秒分（２８８
０サンプル）の有音部分のデータを全て蓄えるだけの空
きがない場合である。

【０１２２】したがって、処理単位期間Ｔ５について
は、ステップ３１，３５および３６によって、図１３の
出力データＳｏ中の部分Ｅ５に示し、かつ図１７に示し
たように、６０ｍ秒分（２８８０サンプル）の有音部分
のデータが、３０ｍ秒分（１４４０サンプル）に圧縮さ
れて、出力バッファ２４に書き込まれる。

【０１２３】そして、処理単位期間Ｔ４の６０ｍ秒分
（２８８０サンプル）の有音部分のデータ中の前半の残
りの部分のデータと、後半の一部のデータとを合わせ
た、３０ｍ秒分（１４４０サンプル）のデータが、３０
ｍ秒の時間に渡って、出力バッファ２４から読み出さ
れ、Ｄ／Ａコンバータ２５によってアナログ音声信号に
変換される。

【０１２４】さらに、処理単位期間Ｔ４の６０ｍ秒分
（２８８０サンプル）の有音部分のデータ中の後半の残
りの部分のデータと、処理単位期間Ｔ５の３０ｍ秒分
（１４４０サンプル）に圧縮された有音部分のデータ中
の一部のデータとを合わせた、３０ｍ秒分（１４４０サ
ンプル）のデータが、３０ｍ秒の時間に渡って、出力バ
ッファ２４から読み出され、Ｄ／Ａコンバータ２５によ
ってアナログ音声信号に変換される。

【０１２５】以上のように、図１３の例では、処理単位
期間Ｔ１〜Ｔ４については、入力データＳｉ中の無音部
分のみが全て削除され、有音部分のデータのみが全て出
力バッファ２４に書き込まれるとともに、出力バッファ
２４からは有音部分のデータのみが全て、６０ｍ秒で２
８８０サンプルの速度で読み出されるので、出力倍率は
１倍となり、有音部分のみが全て定常速度で出力され
る。

【０１２６】処理単位期間Ｔ５については、６０ｍ秒分
（２８８０サンプル）の有音部分のデータが、３０ｍ秒
分（１４４０サンプル）に圧縮されて、出力バッファ２
４に書き込まれ、３０ｍ秒の時間で出力バッファ２４か
ら読み出されるので、例外的に有音部分が削減されて、
速聴きとなる。

【０１２７】なお、図１６のステップ３４で、有音部分
の全てに無音部分を一部付加して、３０ｍ秒分（１４４
０サンプル）のデータを出力バッファ２４に書き込む場
合については、図１３には示してしないが、例えば、処
理単位期間Ｔ２が図１３とは異なり、有音部分が３０ｍ
秒分（１４４０サンプル）未満しか存在せず、無音部分
が３０ｍ秒分（１４４０サンプル）を超えて存在する場
合には、図１３の処理単位期間Ｔ２では、出力バッファ
２４に３０ｍ秒分（１４４０サンプル）以上のデータが
蓄積されていないので、その３０ｍ秒分（１４４０サン
プル）未満の有音部分の全てに、期間Ｔ２の先頭に近い
部分から、３０ｍ秒分（１４４０サンプル）を超える無
音部分の一部が付加されて、期間Ｔ２内の３０ｍ秒分
（１４４０サンプル）のデータが、出力バッファ２４に
書き込まれる。

【０１２８】以上のように、上述した例によれば、出力
バッファ２４を効果的に用いることによって、必要最小
限のメモリを用いるだけで、有音部分の削除によって音
声が途切れてしまうことが少なくなり、内容が理解しや
すくなる。

【０１２９】〔速度変換処理の際の音質向上…図１８〜
図２１〕（データ圧縮の際の位置調整…図１８、図１９）図１６
のステップ３６で、図１３の部分Ｅ５および図１７の下
段に示したようにクロスフェードによって前方部データ
Ｓｆと後方部データＳｂを接合する場合、図１８（Ａ）
に示すように、フェード期間において前方部データＳｆ
と後方部データＳｂの位相が一致しているときには、接
合後のデータは接合部分でうなりを生じない。

【０１３０】しかし、図１８（Ｂ）に示すように、フェ
ード期間において前方部データＳｆと後方部データＳｂ
の位相が大きくずれているときには、接合後のデータは
接合部分でうなりを生じ、音質が劣化する。

【０１３１】そこで、クロスフェードによって前方部デ
ータＳｆと後方部データＳｂを接合するに当たっては、
以下のように前方部データＳｆと後方部データＳｂの位
置関係を調整する。

【０１３２】すなわち、図１９に示すように、後方部デ
ータＳｂを、前方部データＳｆに対して、所定サンプル
数の時間内で、１サンプルまたは数サンプルの時間ず
つ、タイミング的に移動させて、それぞれの移動位置に
おいて、上述した４００サンプル分のフェード期間内の
前方部データＳｆのデータ値と後方部データＳｂのデー
タ値との差分の絶対値の、接合後のデータとして示す波
形の塗り潰した部分の面積で表されるフェード期間全体
に渡る積分値（和）を算出する。

【０１３３】そして、この積分値が最小となる移動位置
を、前方部データＳｆと後方部データＳｂが最適な位相
関係になる位置として検出し、その移動位置において、
上述したようにクロスフェードによって前方部データＳ
ｆと後方部データＳｂを接合する。

【０１３４】前方部データＳｆおよび後方部データＳｂ
のフェード期間におけるデータを、それぞれＦ［ｎ］お
よびＢ［ｎ］とし、フェード期間のサンプル数をｊとす
ると、接合後のデータの接合部分（フェード期間）にお
けるデータＸ［ｎ］は、Ｘ［ｎ］＝（（ｊ−ｎ）＊Ｆ［ｎ］＋ｎ＊Ｂ［ｎ］）／ｊ…（１）で表される。ただし、ｎ＝０，１，２…（ｊ−１）であ
る。

【０１３５】この例によれば、接合後のデータは接合部
分でうなりや違和感の少ないものとなる。

【０１３６】（無音部分削除の際のノイズ発生防止…図
２０、図２１）図１６のステップ３４で、図１３の部分
Ｅ１に示したように、または図１６のステップ３３で、
図１３の部分Ｅ３に示したように、入力データＳｉ中の
無音部分を削除して、前後の有音部分を接合する場合、
無音部分として図２０の上段に示すデータ部分Ｓｐを削
除したときには、部分Ｓｐは無音部分でレベルが低いも
のの、図２０の下段左側に示すように、接合後の出力デ
ータＳｏは接合点の前後で位相が大きく変化するため、
接合点でボツ音と呼ばれるノイズが発生する。また、無
音部分として図２０の上段に示すデータ部分Ｓｑを削除
したときには、図２０の下段右側に示すように、同様に
接合後の出力データＳｏには接合点でボツ音と呼ばれる
ノイズが発生する。

【０１３７】そこで、削除した無音部分の前後の有音部
分を接合するに当たっては、接合点の前後のそれぞれ所
定サンプル数ｋの有音部分につき、フェードアウト処理
およびフェードイン処理を行う。

【０１３８】具体的に、図２０下段の左側および右側に
示すように、フェードアウト処理前の接合部前半のデー
タをＣ１［ｉ］、フェードイン処理前の接合部後半のデ
ータをＤ１［ｉ］とし、図２１の左側および右側に示す
ように、フェードアウト処理後の接合部前半のデータを
Ｃ２［ｉ］、フェードイン処理後の接合部後半のデータ
をＤ２［ｉ］とすると、Ｃ２［ｉ］＝（ｋ−ｉ）＊Ｃ１［ｉ］／ｋ …（２）Ｄ２［ｉ］＝ｉ＊Ｄ１［ｉ］／ｋ …（３）とする。ただし、ｉ＝０，１，２…（ｋ−１）である。

【０１３９】このようにフェードアウト処理およびフェ
ードイン処理をして、前後の有音部分を接合することに
よって、図２１に示すように、接合後の出力データＳｏ
は接合点でボツ音と呼ばれるノイズが発生しなくなる。

【０１４０】〔速度変換処理の処理単位時間を変化させ
る場合…図２２〜図２６〕（音程に応じて処理単位時間を変化させる場合…図２
２、図２３）図２２は、図１の音声処理部１５の他の例
を示し、音声信号の主成分の音程に応じて速度変換処理
の処理単位時間を変化させる場合である。音程に対して
処理単位時間を直線的に変化させることも可能である
が、以下の例は、音程を３段階に分けて処理単位時間を
３段階に変化させる場合である。

【０１４１】この例では、音程検出部２７において、振
幅抑圧処理部７０の出力の音声信号の主成分（レベルが
最大の周波数成分）の音程が検出される。音程検出部２
７での音程検出方法には、ＦＦＴ（高速フーリエ変換）
などの公知の方法を用いることができる。

【０１４２】そして、この例では、処理単位期間設定部
２１は、音程検出部２７の検出結果に基づいて、図２３
に示す音程対応処理単位期間設定処理ルーチンによっ
て、処理単位時間を決定し、処理単位期間の先頭ないし
末尾のタイミングを決定する。

【０１４３】すなわち、この音程対応処理単位期間設定
処理ルーチン４０では、まずステップ４１において、音
程検出部２７の検出結果の音程が３００Ｈｚ以上である
か否かを判断し、３００Ｈｚ以上であるときには、ステ
ップ４１からステップ４２に進んで、処理単位時間を最
短の４０ｍ秒相当（１９２０サンプル分で、２倍速再生
の場合には絶対時間としては２０ｍ秒）として、当該の
処理単位期間の先頭（直前の処理単位期間の末尾）から
４０ｍ秒相当後を当該の処理単位期間の末尾（直後の処
理単位期間の先頭）とする。

【０１４４】検出結果の音程が３００Ｈｚ未満であると
きには、ステップ４１からステップ４３に進んで、検出
結果の音程が１００Ｈｚ以下であるか否かを判断し、１
００Ｈｚ以下であるときには、ステップ４３からステッ
プ４４に進んで、処理単位時間を最長の６０ｍ秒相当
（２８８０サンプル分で、２倍速再生の場合には絶対時
間としては３０ｍ秒）として、当該の処理単位期間の先
頭から６０ｍ秒相当後を当該の処理単位期間の末尾とす
る。

【０１４５】検出結果の音程が１００Ｈｚ以下でもない
ときには、すなわち１００Ｈｚを超え、かつ３００Ｈｚ
未満であるときには、ステップ４３からステップ４５に
進んで、処理単位時間を中間の５０ｍ秒相当（２４００
サンプル分で、２倍速再生の場合には絶対時間としては
２５ｍ秒）として、当該の処理単位期間の先頭から５０
ｍ秒相当後を当該の処理単位期間の末尾とする。

【０１４６】図２２の速度変換処理部２３が行う速度変
換処理は、図１３の処理単位期間Ｔ１，Ｔ２，Ｔ３…
が、６０ｍ秒相当という固定の時間ではなく、４０ｍ秒
相当、５０ｍ秒相当または６０ｍ秒相当というように変
化し、図１６の速度変換処理ルーチン３０における倍率
相当分が、処理単位時間の変化に応じて、２倍速再生の
場合には２０ｍ秒分（９６０サンプル）、２５ｍ秒分
（１２００サンプル）または３０ｍ秒分（１４４０サン
プル）というように変化する点を除いて、上述した例と
同じである。

【０１４７】この例によれば、音声信号の主成分の音程
が高いときには速度変換処理の処理単位時間が短くな
り、主成分の音程が低いときには速度変換処理の処理単
位時間が長くなるので、音声信号の周波数による歪みや
揺れの少ない出力音声信号を得ることができる。

【０１４８】（低レベルの点を処理単位期間の区切れ目
とする場合…図２４〜図２６）図２４は、図１の音声処
理部１５のさらに他の例を示し、無音部分と有音部分の
境目、または有音部分中の相対的にレベルが低い部分
を、速度変換処理の処理単位期間の区切れ目とする場合
である。

【０１４９】この例では、処理単位期間設定部２１は、
振幅抑圧処理部７０の出力の音声信号、および有音無音
判定部２２の判定結果を取り込んで、図２５に示す音声
レベル対応処理単位期間設定処理ルーチンによって、処
理単位期間の先頭ないし末尾のタイミングを決定する。

【０１５０】すなわち、この音声レベル対応処理単位期
間設定処理ルーチン５０では、まずステップ５１におい
て、有音無音判定部２２の判定結果から、当該の処理単
位期間の先頭から３０ｍ秒相当以上、１００ｍ秒相当以
下の時間範囲内に、無音部分と有音部分の切り替わり時
点（無音部分から有音部分に切り替わる時点、または有
音部分から無音部分に切り替わる時点）が存在するか否
かを判断する。

【０１５１】そして、その時間範囲内に無音部分と有音
部分の切り替わり時点が存在するときには、ステップ５
１からステップ５２に進んで、その無音部分と有音部分
の切り替わり時点を当該の処理単位期間の末尾とする。
その時間範囲内に無音部分と有音部分の切り替わり時点
が２点以上存在するときには、最初の時点を当該の処理
単位期間の末尾とする。

【０１５２】一方、その時間範囲内に無音部分と有音部
分の切り替わり時点が存在しないときには、ステップ５
１からステップ５３に進んで、その時間範囲内で音声平
均レベルが最小となる時点を当該の処理単位期間の末尾
とする。音声平均レベルは、図１４に示したような判定
単位期間内の各サンプルのデータ値の絶対値の平均値で
あり、その平均値が最小となる判定単位期間の先頭また
は末尾を当該の処理単位期間の末尾とする。

【０１５３】したがって、この例では、処理単位時間
は、最短で３０ｍ秒相当、最長で１００ｍ秒相当であ
る。

【０１５４】図２６に「固定長の場合」として示すケー
スは、図２の例のような構成で、処理単位期間Ｔ１，Ｔ
２，Ｔ３…が６０ｍ秒相当という固定の時間にされる場
合であり、図２６に「可変長の場合」として示すケース
は、この図２４の例のような構成で、処理単位期間Ｔ１
１，Ｔ１２，Ｔ１３…の先頭ないし末尾のタイミングが
決定され、時間が変えられる場合である。ただし、図２
６に示す時間は、絶対時間ではなく、上述したように２
８８０サンプル分を６０ｍ秒相当としたときの時間であ
る。

【０１５５】すなわち、この例では、時間軸上で０ｍ秒
として示す最初の処理単位期間Ｔ１１の先頭の時点から
３０ｍ秒相当以上、１００ｍ秒相当以下の時間範囲内
に、入力データＳｉが有音部分から無音部分に切り替わ
る時点ｔａが存在するので、その時点ｔａが、処理単位
期間Ｔ１１の末尾、すなわち次の処理単位期間Ｔ１２の
先頭となる。

【０１５６】さらに、処理単位期間Ｔ１２の先頭の時点
ｔａから３０ｍ秒相当以上、１００ｍ秒相当以下の時間
範囲内に、入力データＳｉが無音部分から有音部分に切
り替わる時点ｔｂが存在するので、その時点ｔｂが、処
理単位期間Ｔ１２の末尾、すなわち次の処理単位期間Ｔ
１３の先頭となる。

【０１５７】さらに、処理単位期間Ｔ１３の先頭の時点
ｔｂから３０ｍ秒相当以上、１００ｍ秒相当以下の時間
範囲内には、無音部分と有音部分の切り替わり時点が存
在しないので、その時間範囲内で入力データＳｉの音声
平均レベルが最小となる時点ｔｃが、処理単位期間Ｔ１
３の末尾、すなわち次の処理単位期間Ｔ１４の先頭とな
る。

【０１５８】この例によれば、無音部分と有音部分の境
目、または有音部分中の相対的にレベルが低い部分が、
速度変換処理の処理単位期間の区切れ目となるので、音
声信号の切り貼りによる音質の劣化を大幅に低減するこ
とができる。

【０１５９】〔多チャンネル再生の場合…図２７、図２
８〕上述した例は、図１の記録媒体１から１チャンネル
の音声信号を再生する場合として示した。しかし、記録
媒体１には多チャンネルの音声信号を記録することがで
き、その多チャンネルの音声信号からユーザの希望する
チャンネルの音声信号を選択して、または多チャンネル
の音声信号を同時に、再生することが可能である。以下
に、その場合の例を示す。

【０１６０】（第１の例…図２７）図２７に、ステレオ
音声信号、またはバイリンガルなどの２元音声（主音声
および副音声）中の一方または両方の音声信号を、選択
的に再生する場合の例を示す。

【０１６１】この例では、システムコントローラ６から
ユーザによって選択された音声モードを示す音声モード
識別信号が得られて、有音無音判定部２２および速度変
換処理部２３に供給され、ユーザによって選択された音
声モードに応じて、有音無音判定部２２での有音無音判
定および速度変換処理部２３での速度変換処理が、以下
のように切り換え制御される。

【０１６２】すなわち、ステレオ音声信号を再生する場
合には、ＭＰＥＧ音声デコーダ１４からは左右のチャン
ネルの音声データが交互に得られ、有音無音判定部２２
は、図１４に示したような判定単位期間のそれぞれにつ
き、左チャンネルのデータと右チャンネルのデータの平
均値を算出して、その平均値が閾値を超えるか否かを判
断し、平均値が閾値を超えるときには、その判定単位期
間を有音部分と判定し、平均値が閾値以下であるときに
は、その判定単位期間を無音部分と判定する。

【０１６３】速度変換処理部２３は、ＭＰＥＧ音声デコ
ーダ１４からの左右のチャンネルの音声データを、処理
単位期間設定部２１によって設定された処理単位期間ご
とに、一旦、左チャンネルのデータと右チャンネルのデ
ータに分離して、内部バッファ２９の左チャンネル用お
よび右チャンネル用として設定した別個のエリアに書き
込む。

【０１６４】さらに、速度変換処理部２３は、その別個
のエリアに書き込んだ左右のチャンネルの音声データ
を、上記の有音無音判定部２２の判定結果に基づいて、
それぞれ図１６に示した速度変換処理ルーチン３０によ
って独立に速度変換処理し、処理後の左右のチャンネル
の音声データを、左チャンネルのデータと右チャンネル
のデータが交互に配列されるように出力バッファ２４に
書き込む。

【０１６５】出力バッファ２４からは、速度変換処理後
の左右のチャンネルの音声データを、交互に読み出し
て、Ｄ／Ａコンバータ２５によってアナログ音声信号に
変換し、Ｄ／Ａコンバータ２５からの左右のチャンネル
のアナログ音声信号を、音声増幅器２６ａおよび２６ｂ
に振り分けて出力する。

【０１６６】一方、主音声と副音声のいずれか一方の音
声信号を再生する場合には、有音無音判定部２２は、図
１４に示したような判定単位期間のそれぞれにつき、選
択された方の音声の、すなわち主音声が選択されたとき
には主音声の、副音声が選択されたときには副音声の、
音声データの絶対値の平均値を算出して、その平均値が
閾値を超えるか否かによって、有音部分と無音部分を識
別判定する。

【０１６７】速度変換処理部２３は、選択された方の音
声についてのみ、すなわち主音声が選択されたときには
主音声についてのみ、副音声が選択されたときには副音
声についてのみ、ＭＰＥＧ音声デコーダ１４の出力の音
声データを、上記の有音無音判定部２２の判定結果に基
づいて、図１６に示した速度変換処理ルーチン３０によ
って速度変換処理し、処理後の音声データを出力バッフ
ァ２４に書き込む。

【０１６８】そして、出力バッファ２４から速度変換処
理後の音声データを読み出し、Ｄ／Ａコンバータ２５に
よってアナログ音声信号に変換して、音声増幅器２６ａ
および２６ｂに同時に出力する。

【０１６９】主音声と副音声の音声信号を同時に再生す
る場合には、ステレオ音声信号を再生する場合と同様
に、有音無音判定部２２は、主音声と副音声の音声デー
タの平均値を算出して、その平均値が閾値を超えるか否
かによって、有音部分と無音部分を識別判定し、速度変
換処理部２３は、主音声と副音声の音声データを独立に
速度変換処理することによって、音声増幅器２６ａおよ
び２６ｂから、それぞれ主音声および副音声のアナログ
音声信号を出力する。

【０１７０】ただし、主音声と副音声の音声信号を同時
に再生する場合、有音無音判定部２２で、主音声と副音
声の音声データにつき独立に、有音部分と無音部分の識
別判定を行ってもよい。

【０１７１】図２７の例では、振幅抑圧処理部を省略し
たが、この例でも、振幅抑圧処理部を設けて、ＭＰＥＧ
音声デコーダ１４の出力の音声データにつき、連続音声
部分の終端部の振幅を抑圧することができる。この場
合、ステレオ音声信号を再生する場合、または主音声と
副音声の音声信号を同時に再生する場合には、速度変換
処理と同様に、左右のチャンネルの音声データ、または
主音声と副音声の音声データにつき、独立に振幅抑圧処
理する。

【０１７２】以上は、２チャンネルの場合であるが、３
チャンネル以上の場合も、同様である。

【０１７３】（第２の例…図２８）さらに、一般に２チ
ャンネル以上の多チャンネルの場合、図２８の例のよう
に構成することもできる。同図の例は、図１の再生装置
において、デマルチプレクサ７から多チャンネルの音声
データを分離し、それぞれＭＰＥＧ音声デコーダ１４
ａ，１４ｂ，１４ｃ…で伸長復号化して、音声処理部１
５ａ，１５ｂ，１５ｃ…に供給するもので、音声処理部
１５ａ，１５ｂ，１５ｃ…は、それぞれ図２、図２２ま
たは図２４の例の音声処理部１５と同様に構成する。

【０１７４】この例では、例えば、チャンネル１につい
ては、その音声信号を再生するとともに、音声処理部１
５ａの速度変換処理部２３ａで速度変換処理し、チャン
ネル２については、その音声信号を再生するものの、音
声処理部１５ｂの速度変換処理部２３ｂで速度変換処理
しない、というように、チャンネル１，２，３…の各チ
ャンネルの音声信号を、選択的または同時に再生し、選
択的または同時に速度変換処理することができる。

【０１７５】〔映像信号および音声信号を定常速度で再
生する場合…図２９〕図１の再生装置で、記録媒体１か
ら映像信号および音声信号を定常速度で再生する場合、
ＭＰＥＧ音声デコーダ１４からは音声データが１倍速で
出力され、音声処理部１５の図２または図２７などに示
した処理単位期間設定部２１、有音無音判定部２２およ
び速度変換処理部２３は、それぞれの機能を停止して、
音声処理部１５が振幅抑圧処理部７０を備える場合に
は、振幅抑圧処理部７０の出力の音声データがそのま
ま、音声処理部１５が振幅抑圧処理部７０を備えない場
合には、ＭＰＥＧ音声デコーダ１４の出力の音声データ
がそのまま、出力バッファ２４に書き込まれ、出力バッ
ファ２４から読み出される。

【０１７６】しかし、ＭＰＥＧ映像デコーダ１１では、
映像データの伸長復号化に少なくとも数フレームの時間
を要するので、ＮＴＳＣエンコーダ１２からの映像出力
は、音声処理部１５からの音声出力に対して時間遅れを
生じ、映像出力と音声出力の同期が得られなくなる。

【０１７７】そこで、以下の例では、定常再生時には、
出力バッファ２４を利用して、この映像出力の音声出力
に対する遅れを吸収し、映像出力と音声出力を同期させ
る。

【０１７８】図２９は、その例を示し、速度変換処理部
２３は、システムコントローラ６によって指示された再
生モードに応じて、出力バッファ２４に制御信号を送出
して、出力バッファ２４からデータを読み出すタイミン
グを制御する。

【０１７９】具体的には、図１５に示したようにＦＩＦ
Ｏ構造のリングバッファとして機能する出力バッファ２
４の出力ポインタを制御する。すなわち、出力バッファ
２４の出力ポインタと入力ポインタの間に蓄積されるデ
ータ量が、映像出力の音声出力に対する遅れ時間に相当
するように、出力ポインタを制御する。

【０１８０】例えば、この例によらないときの映像出力
の音声出力に対する遅れ時間をＤｖ（ｍ秒）、音声信号
のサンプリング周波数をＦｓ（ｋＨｚ）、音声データを
データ幅がＢｈ（ビット）のステレオ（２チャンネル）
音声信号とすると、出力ポインタと入力ポインタの間の
データ蓄積量Ａｄ（バイト）を、Ａｄ＝（Ｄｖ×Ｆｓ×Ｂｈ×２）／８ …（４）とする。

【０１８１】以上のように、この例によれば、映像信号
と音声信号を定常速度で再生する場合に、出力バッファ
２４を利用して映像出力と音声出力を同期させることが
できる。

【０１８２】〔他の実施形態〕図１の実施形態は、記録
媒体１がディスク状の記録媒体である場合であるが、こ
の発明は、記録媒体（記憶媒体）が磁気テープや半導体
メモリなどである場合にも、同様に適用することができ
る。半導体メモリの場合には、再生ヘッドではなく読み
出し回路によってメモリから、これに書き込まれた音声
信号を読み出すことは言うまでもない。この場合には、
「記録」とは書き込みであり、「再生」とは読み出しで
ある。

【０１８３】また、この発明は、映像信号および音声信
号を定常速度で再生する場合についての図２９のような
例を除いて、記録媒体から音声信号のみを再生する場合
または装置にも、同様に適用することができる。

【０１８４】

【発明の効果】上述したように、第１の発明によれば、
再生時間を短縮するために定常速度より速い速度で再生
された音声信号を通常の音程で出力する場合に、出力バ
ッファを効果的に用いることによって、必要最小限のメ
モリを用いるだけで、有音部分の削除によって音声が途
切れてしまうことが少なくなり、内容が理解しやすくな
る。第２の発明によれば、さらに、連続音声部分の密着
によって異なる音に聞こえてしまうことが少なくなる。

【図面の簡単な説明】

【図１】この発明の再生装置の一例を示す図である。

【図２】音声処理部の一例を示す図である。

【図３】振幅抑圧処理部の一例を示す図である。

【図４】図３の例の振幅抑圧処理の説明に供する図であ
る。

【図５】図３の例の制御部が行う処理ルーチンの一例を
示す図である。

【図６】図３の例の振幅抑圧処理前と処理後の音声信号
波形の一例を示す図である。

【図７】振幅抑圧処理部の他の例を示す図である。

【図８】振幅抑圧処理部のさらに他の例を示す図であ
る。

【図９】図７および図８の例のバンドパスフィルタの説
明に供する図である。

【図１０】図７および図８の例の制御部が行う処理ルー
チンの一例を示す図である。

【図１１】図７および図８の例の振幅抑圧処理の説明に
供する図である。

【図１２】図７および図８の例の振幅抑圧処理前と処理
後の音声信号波形の一例を示す図である。

【図１３】速度変換処理の一例を示す図である。

【図１４】有音部分と無音部分の識別判定の一例を示す
図である。

【図１５】出力バッファの入出力ポインタの動きを示す
図である。

【図１６】速度変換処理ルーチンの一例を示す図であ
る。

【図１７】データ圧縮の一例を示す図である。

【図１８】データ圧縮の際に位置調整を行わない場合を
示す図である。

【図１９】データ圧縮の際に位置調整を行う場合の調整
方法を示す図である。

【図２０】無音部分削除の際のノイズの発生を示す図で
ある。

【図２１】無音部分削除の際のノイズ発生防止方法を示
す図である。

【図２２】音声処理部の他の例を示す図である。

【図２３】音程対応処理単位期間設定処理ルーチンの一
例を示す図である。

【図２４】音声処理部のさらに他の例を示す図である。

【図２５】音声レベル対応処理単位期間設定処理ルーチ
ンの一例を示す図である。

【図２６】音声レベルが低い点を速度変換処理の処理単
位期間の区切れ目とする場合の例を示す図である。

【図２７】音声処理部のさらに他の例を示す図である。

【図２８】多チャンネル再生の場合の再生装置の一例を
示す図である。

【図２９】定常再生対応の再生装置の一例を示す図であ
る。

【符号の説明】

主要部については図中に全て記述したので、ここでは省
略する。

Claims

【特許請求の範囲】

【請求項１】記録媒体から、これに記録された音声信号
を定常速度より速い速度で再生することによって得られ
た再生入力音声信号を、処理単位期間ごとに区切り、出力バッファから定常速度相当量の再生出力音声信号が
得られる範囲内で無音部分を削除し、その前後の有音部
分を接合して、それぞれの処理単位期間の再生入力音声
信号を、前記出力バッファに書き込むとともに、処理単位期間の再生入力音声信号中に前記出力バッファ
に蓄えられない量の有音部分が存在する場合には、一部
の有音部分を削除し、その前後の有音部分を接合して、
その処理単位期間の再生入力音声信号を圧縮して、前記
出力バッファに書き込む音声再生方法。
【請求項２】請求項１の音声再生方法において、無音部分を削除し、その前後の有音部分を接合するに当
たっては、接合点直前の有音部分をフェードアウト処理
し、接合点直後の有音部分をフェードイン処理すること
を特徴とする音声再生方法。
【請求項３】請求項１の音声再生方法において、処理単位期間の再生入力音声信号を圧縮するに当たって
は、フェード期間において前後の有音部分を重ね合わせ
るとともに、そのフェード期間における前後の有音部分
の差分が最小となるように前後の有音部分の位置関係を
調整した上で、クロスフェードによって前後の有音部分
を接合することを特徴とする音声再生方法。
【請求項４】請求項１の音声再生方法において、処理単位期間を固定の時間とすることを特徴とする音声
再生方法。
【請求項５】請求項１の音声再生方法において、再生入力音声信号の主成分の音程に応じて処理単位期間
の時間を変化させることを特徴とする音声再生方法。
【請求項６】請求項１の音声再生方法において、再生入力音声信号の無音部分と有音部分の境目、または
有音部分中の相対的にレベルが低い部分を、処理単位期
間の区切れ目とすることを特徴とする音声再生方法。
【請求項７】請求項１の音声再生方法において、複数チャンネルの音声出力を得る場合に、有音部分と無
音部分の識別判定は各チャンネルの再生入力音声信号の
平均値によって行い、有音部分の接合は各チャンネルの
再生入力音声信号ごとに独立に行うことを特徴とする音
声再生方法。
【請求項８】請求項１の音声再生方法において、定常再生時、前記出力バッファを映像出力と音声出力を
同期させるための時間調整用に用いることを特徴とする
音声再生方法。
【請求項９】記録媒体から、これに記録された音声信号
を定常速度より速い速度で再生することによって得られ
た再生入力音声信号につき、連続音声部分の終端部の振
幅を抑圧し、その振幅抑圧処理後の再生入力音声信号を、処理単位期
間ごとに区切り、出力バッファから定常速度相当量の再生出力音声信号が
得られる範囲内で無音部分を削除し、その前後の有音部
分を接合して、それぞれの処理単位期間の再生入力音声
信号を、前記出力バッファに書き込むとともに、処理単位期間の再生入力音声信号中に前記出力バッファ
に蓄えられない量の有音部分が存在する場合には、一部
の有音部分を削除し、その前後の有音部分を接合して、
その処理単位期間の再生入力音声信号を圧縮して、前記
出力バッファに書き込む音声再生方法。
【請求項１０】請求項９の音声再生方法において、連続音声部分の終端部の振幅を抑圧する処理は、連続音
声部分の終端を予測し、その予測した点から振幅の抑圧
を開始するとともに、次の連続音声部分の始端が検出さ
れたら、振幅の抑圧を解除することを特徴とする音声再
生方法。
【請求項１１】請求項１０の音声再生方法において、再生入力音声信号の信号レベルが減少傾向にあり、かつ
再生入力音声信号の信号レベルが閾値より小さくなった
とき、連続音声部分が終端に至る過程に入ったとして、
連続音声部分の終端を予測することを特徴とする音声再
生方法。
【請求項１２】請求項１１の音声再生方法において、再生入力音声信号の信号レベルのピーク値を検出し、そ
の検出されたピーク値に応じて前記閾値を設定すること
を特徴とする音声再生方法。
【請求項１３】請求項９の音声再生方法において、連続音声部分の終端部の振幅を抑圧する処理は、再生入
力音声信号を遅延させるとともに、遅延前の再生入力音
声信号から連続音声部分の終端を検出し、その検出結果
に基づいて遅延後の再生入力音声信号の振幅を抑圧する
ことを特徴とする音声再生方法。
【請求項１４】記録媒体から、これに記録された音声信
号を定常速度より速い速度で再生することによって得ら
れた再生入力音声信号に対する速度変換処理の処理単位
期間を設定する処理単位期間設定部と、再生出力音声信号を得るための出力バッファと、この出力バッファから定常速度相当量の再生出力音声信
号が得られる範囲内で無音部分を削除し、その前後の有
音部分を接合して、それぞれの処理単位期間の再生入力
音声信号を、前記出力バッファに書き込むとともに、処
理単位期間の再生入力音声信号中に前記出力バッファに
蓄えられない量の有音部分が存在する場合には、一部の
有音部分を削除し、その前後の有音部分を接合して、そ
の処理単位期間の再生入力音声信号を圧縮して、前記出
力バッファに書き込む速度変換処理部と、を備える音声再生装置。
【請求項１５】請求項１４の音声再生装置において、前記速度変換処理部は、無音部分を削除し、その前後の
有音部分を接合するに当たって、接合点直前の有音部分
をフェードアウト処理し、接合点直後の有音部分をフェ
ードイン処理することを特徴とする音声再生装置。
【請求項１６】請求項１４の音声再生装置において、前記速度変換処理部は、処理単位期間の再生入力音声信
号を圧縮するに当たって、フェード期間において前後の
有音部分を重ね合わせるとともに、そのフェード期間に
おける前後の有音部分の差分が最小となるように前後の
有音部分の位置関係を調整した上で、クロスフェードに
よって前後の有音部分を接合することを特徴とする音声
再生装置。
【請求項１７】請求項１４の音声再生装置において、前記処理単位期間設定部は、処理単位期間を固定の時間
とすることを特徴とする音声再生装置。
【請求項１８】請求項１４の音声再生装置において、当該音声再生装置は、さらに再生入力音声信号の主成分
の音程を検出する音程検出部を備え、前記処理単位期間設定部は、この音程検出部の検出結果
に基づいて、再生入力音声信号の主成分の音程に応じて
処理単位期間の時間を変化させることを特徴とする音声
再生装置。
【請求項１９】請求項１４の音声再生装置において、前記処理単位期間設定部は、再生入力音声信号の無音部
分と有音部分の境目、または有音部分中の相対的にレベ
ルが低い部分を、処理単位期間の区切れ目とすることを
特徴とする音声再生装置。
【請求項２０】記録媒体から、これに記録された音声信
号を定常速度より速い速度で再生することによって得ら
れた再生入力音声信号につき、連続音声部分の終端部の
振幅を抑圧する振幅抑圧処理部と、その振幅抑圧処理後の再生入力音声信号に対する速度変
換処理の処理単位期間を設定する処理単位期間設定部
と、再生出力音声信号を得るための出力バッファと、この出力バッファから定常速度相当量の再生出力音声信
号が得られる範囲内で無音部分を削除し、その前後の有
音部分を接合して、それぞれの処理単位期間の再生入力
音声信号を、前記出力バッファに書き込むとともに、処
理単位期間の再生入力音声信号中に前記出力バッファに
蓄えられない量の有音部分が存在する場合には、一部の
有音部分を削除し、その前後の有音部分を接合して、そ
の処理単位期間の再生入力音声信号を圧縮して、前記出
力バッファに書き込む速度変換処理部と、を備える音声再生装置。