JP3594409B2 - MPEG audio playback device and MPEG playback device - Google Patents

MPEG audio playback device and MPEG playback device Download PDF

Info

Publication number
JP3594409B2
JP3594409B2 JP16945496A JP16945496A JP3594409B2 JP 3594409 B2 JP3594409 B2 JP 3594409B2 JP 16945496 A JP16945496 A JP 16945496A JP 16945496 A JP16945496 A JP 16945496A JP 3594409 B2 JP3594409 B2 JP 3594409B2
Authority
JP
Japan
Prior art keywords
mpeg
audio
signal
picture
mpeg video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP16945496A
Other languages
Japanese (ja)
Other versions
JPH0973299A (en
Inventor
英樹 山内
茂之 岡田
正幸 飯田
浩司 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP16945496A priority Critical patent/JP3594409B2/en
Publication of JPH0973299A publication Critical patent/JPH0973299A/en
Application granted granted Critical
Publication of JP3594409B2 publication Critical patent/JP3594409B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an MPEG audio reproducing device which reproduces audio signals that are easily understood during a variable speed reproducing. SOLUTION: An MPEG audio reproducing device 1 consists of a reproducing speed detecting circuit 2, an MPEG audio decoder 3, a speech speed conversion processing circuit 4, a D/A converter 5 and an audio amplifier 6. Moreover, an MPEG reproducing device is provided with an audio-video purser (an AV purser) and an MPEG video decoder 12 in addition to the device 1. The circuit 4 consists of a DSP 31, a ring memory 32 and an up-down counter 33. The circuit 4 expands the time length of the voice segment inputted during a high speed reproducing and reduces the time length of each silence interval. During a low speed reproducing, the time length of each voice segment is expanded, the time length of each silence interval is reduced or each silence interval is deleted, each voice segment is connected together and inserted into a silecne interval.

Description

【0001】
【発明の属する技術分野】
本発明はMPEG(Moving Picture Expert Group )オーディオ再生装置およびMPEG再生装置に係り、詳しくは、話速変換機能を備えたMPEGオーディオ再生装置およびMPEG再生装置に関するものである。
【0002】
【従来の技術】
マルチメディアで扱われる情報は、膨大な量で且つ多種多様であり、これらの情報を高速に処理することがマルチメディアの実用化を図る上で必要となってくる。情報を高速に処理するためには、データの圧縮・伸長技術が不可欠となる。そのようなデータの圧縮・伸長技術として「MPEG」方式が挙げられる。このMPEG方式は、ISO(International Organization for Standardization)/IEC(Intarnational Electrotechnical Commission )傘下のMPEG委員会(ISO/IEC JTC1/SC29/WG11)によって標準化されつつある。
【0003】
MPEGは3つのパートから構成されている。パート1の「MPEGシステムパート」(ISO/IEC IS 11172 Part1:Systems)では、ビデオデータとオーディオデータの多重化構造(マルチプレクス・ストラクチャ)および同期方式が規定される。パート2の「MPEGビデオパート」(ISO/IEC IS 11172 Part2:Video)では、ビデオデータの高能率符号化方式およびビデオデータのフォーマットが規定される。パート3の「MPEGオーディオパート」(ISO/IEC IS 11172 Part3:Audio)では、オーディオデータの高能率符号化方式およびオーディオデータのフォーマットが規定される。
【0004】
MPEGビデオパートで取り扱われるビデオデータは動画に関するものであり、その動画は1秒間に数十個(例えば、30個)のフレーム(静止画、コマ)によって構成されている。ビデオデータは、シーケンス(Sequence)、GOP(Group Of Pictures )、ピクチャ、スライス(Slice )、マクロブロック(Macroblock)、ブロックの順に6層の階層構造から成る。
【0005】
また、MPEGには主にエンコードレートの違いにより、現在のところ、MPEG−1,MPEG−2の2つの方式がある。MPEG−1においてフレームはピクチャに対応している。MPEG−2においては、フレームまたはフィールドをピクチャに対応させることもできる。フィールドは、2個で1つのフレームを構成している。ピクチャにフレームが対応している構造はフレーム構造と呼ばれ、ピクチャにフィールドが対応している構造はフィールド構造と呼ばれる。
【0006】
MPEGでは、フレーム間予測と呼ばれる圧縮技術を用いる。フレーム間予測は、フレーム間のデータを時間的な相関に基づいて圧縮する。フレーム間予測では双方向予測が行われる。双方向予測とは、過去の再生画像(または、ピクチャ)から現在の再生画像を予測する順方向予測と、未来の再生画像から現在の再生画像を予測する逆方向予測とを併用することである。
【0007】
この双方向予測は、Iピクチャ(Intra−Picture ),Pピクチャ(Predictive−Picture),Bピクチャ(Bidirectionally predictive−Picture)と呼ばれる3つのタイプのピクチャを規定している。Iピクチャは、過去や未来の再生画像とは無関係に、独立して生成される。Pピクチャは順方向予測(過去のIピクチャまたはPピクチャからの予測)により生成される。Bピクチャは双方向予測により生成される。双方向予測においてBピクチャは、以下に示す3つの予測のうちいずれか1つにより生成される。▲1▼順方向予測;過去のIピクチャまたはPピクチャからの予測、▲2▼逆方向予測;未来のIピクチャまたはPピクチャからの予測、▲3▼双方向予測;過去および未来のIピクチャまたはPピクチャからの予測。そして、これらI,P,Bピクチャがそれぞれエンコードされる。つまり、Iピクチャは過去や未来のピクチャが無くても生成される。これに対し、Pピクチャは過去のピクチャが無いと生成されず、Bピクチャは過去または未来のピクチャが無いと生成されない。
【0008】
フレーム間予測では、まず、Iピクチャが周期的に生成される。次に、Iピクチャよりも数フレーム先のフレームがPピクチャとして生成される。このPピクチャは、過去から現在への一方向(順方向)の予測により生成される。続いて、Iピクチャの前、Pピクチャの後に位置するフレームがBピクチャとして生成される。このBピクチャを生成するとき、順方向予測,逆方向予測,双方向予測の3つの中から最適な予測方法が選択される。一般的に連続した動画では、現在の画像とその前後の画像とは良く似ており、異なっているのはその一部分に過ぎない。そこで、前のフレーム(例えば、Iピクチャ)と次のフレーム(例えば、Pピクチャ)とは同じであると仮定し、両フレーム間に変化があればその差分(Bピクチャ)のみを抽出して圧縮する。これにより、フレーム間のデータを時間的な相関に基づいて圧縮することができる。
【0009】
MPEGビデオパートに準拠してエンコードされたビデオデータのデータ列(ビットストリーム)は、MPEGビデオストリーム(以下、ビデオストリームと略す)と呼ばれる。また、MPEGオーディオパートに準拠してエンコードされたオーディオデータのデータ列は、MPEGオーディオストリーム(以下、オーディオストリームと略す)と呼ばれる。そして、ビデオストリームとオーディオストリームは、MPEGシステムパートに準拠して時分割多重化され、1本のデータ列としてのMPEGシステムストリーム(以下、システムストリームと略す)となる。システムストリームはマルチプレックスストリームとも呼ばれる。
【0010】
MPEGパートにおけるエンコードからデコードまでの流れは、以下のようになっている。MPEGシステムエンコーダ(以下、システムエンコーダと略す)は、ビデオデータとオーディオデータのそれぞれを連係を保ちながら別個にエンコードを行い、ビデオストリームとオーディオストリームを生成する。次に、MPEGシステムエンコーダに装備されたマルチプレクサ(MUX;Multiplexer )は、伝送媒体または記録媒体のフォーマットに適合するように、ビデオストリームとオーディオストリームの多重化を行い、システムストリームを生成する。そのシステムストリームは、伝送媒体を介してMUXから伝送されるか、または記録媒体に記録される。
【0011】
MPEGシステムデコーダ(以下、システムデコーダと略す)に装備されたデマルチプレクサ(DMUX;DeMUltipleXer )は、システムストリームをビデオストリームとオーディオストリームに分離する。次に、システムデコーダは各ストリームを個別にデコードして、ビデオのデコード出力(以下、ビデオ出力という)とオーディオのデコード出力(以下、オーディオ出力という)を生成する。ビデオ出力はディスプレイへ出力され、ディスプレイで動画が再生される。オーディオ出力はD/A(Digital/Analog)コンバータおよびオーディオアンプを介してスピーカへ出力され、スピーカから音声が再生される。
【0012】
ところで、MPEG−1は主にビデオCD(Compact Disc),CD−ROM(CD−Read Only Memory ),DVD(Digital Video Disc)などの記録媒体を用いた蓄積メディアに対応しており、MPEG−2はMPEG−1をも含む幅広い範囲のアプリケーションに対応している。
【0013】
蓄積メディアにおいては、以下に示す2つの可変速再生が要求される。▲1▼動画を通常(標準)の再生速度より高速で再生(以下、高速再生という)する機能。▲2▼動画を通常の再生速度より低速で再生(以下、低速再生という)する機能。高速再生機能は、例えば、ユーザが短時間に動画を見るために早送り再生を行う際や、見たい動画を探索するために早送り再生または早送り逆転再生を行う際に用いられる。また、低速再生機能は、例えば、ユーザが動画を注意深く見る際などに用いられる。
【0014】
記録媒体から読み出されたシステムストリームのビットレートは、読み出し速度に対応したものになる。従って、高速再生を行うには記録媒体からシステムストリームを高速で読み出し、低速再生を行うには記録媒体からシステムストリームを低速で読み出す。例えば、記録媒体としてビデオCDやDVDを用いた場合には、ビデオCDやDVDの回転速度を通常の再生時(標準再生時)よりも速くしたり遅くしたりすることで、システムストリームを所望の速度で読み出すようにする。
【0015】
【発明が解決しようとする課題】
従来、MPEGにおいては、前記したような動画の可変速再生については検討されていたものの、音声の可変速再生については何らの検討もなされていなかった。
【0016】
オーディオストリームのビットレートはシステムストリームのそれと同一である。そのため、動画の高速再生時には、オーディオストリームのビットレートも大きくなり、再生される音声の音程(ピッチ)が上がるのに加えて、発声速度(話速)が速くなる。また、動画の低速再生時には、オーディオストリームのビットレートも小さくなり、再生される音声のピッチは変化しないものの、音声が途切れ途切れになる。このように、動画の可変速再生時には、音声が聞き苦しいものになるという問題があった。
【0017】
ところで、近年、ピッチを変化させることなく話速を任意に制御する話速変換技術の開発が進められており、本出願人もVTRやテープレコーダに利用可能な話速変換処理LSIを既に開発している(特開平7−192392号公報(G11B 20/02)、日経エレクトロニクス 1994 年11月21日号(No.622) P.93 〜98. 参照)。しかし、話速変換技術をMPEGに利用する試みはなされていない。
【0018】
また、音声と動画(映像)の同期生成においては、「リップシンク」を考慮する必要がある。リップシンクとは、ディスプレイに映し出される人物の口の動きと、スピーカから発声される音声との同期がとれていることをいう。口の動きより音声の方が早くなったり、逆に遅くなったりする状態をリップシンクにずれがあるという。リップシンクのずれが人間の聴覚の許容範囲を外れると、視聴者は違和感を覚える。一般に、音声が動画より遅れることによって生じるリップシンクのずれとして許容できる時間は、約50〜250msであるといわれている。
【0019】
本発明は上記要求を満足するためになされたものであって、以下の目的を有するものである。
〔1〕可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置を提供する。
【0020】
〔2〕上記〔1〕のMPEGオーディオ再生装置とMPEGビデオデコーダとを備えたMPEG再生装置を提供する。
〔3〕上記〔1〕のMPEGオーディオ再生装置とMPEGビデオデコーダとを備え、音声と動画との時間ずれを低減することが可能なMPEG再生装置を提供する。
【0024】
【課題を解決するための手段】
請求項1に記載の発明は、記録媒体(21)から読み出されたMPEGオーディオストリームをMPEGオーディオパートに準拠してデコードし、オーディオ信号を生成するMPEGオーディオデコーダ(3)と、オーディオ信号に対して話速変換処理を行う話速変換処理手段(2,4)とを備え、話速変換処理手段は、オーディオストリームのビットレートが通常時よりも大きい場合には、再生される音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするようにして話速変換処理を行い、オーディオストリームのビットレートが通常時よりも小さい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするか、または、各無音区間を削除して各音声区間をつなぎ合わせた後に無音区間を挿入するようにして話速変換処理を行うことをその要旨とする。
【0025】
請求項2に記載の発明は、請求項1に記載のMPEGオーディオ再生装置において、話速変換処理手段(2,4)は、オーディオ信号を蓄積するリングメモリ(32)と、リングメモリの蓄積量を検出する検出手段(33)とを備え、リングメモリの蓄積量に応じて音声区間の時間長さの圧縮伸長率を調整することをその要旨とする。
【0026】
請求項3に記載の発明は、請求項2に記載のMPEGオーディオ再生装置において、話速変換処理手段(2,4)は、オーディオ信号の音声区間と無音区間とを判別する音声判別部(41)と、無音区間の削除処理または挿入処理を行う無音削除挿入部(42)と、リングメモリ(32)の蓄積量に基づいて音声区間の圧縮伸長処理を行うことで圧縮伸長率を調整する時間軸圧縮伸長部(43)とを備えたことをその要旨とする。
【0027】
請求項4に記載の発明は、請求項1〜3のいずれか1項に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)とを備えたことをその要旨とする。
【0028】
請求項5に記載の発明は、請求項2または請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、リングメモリ(32)に書き込まれる以前のオーディオ信号に、時刻に関する情報としてのインデックス信号を付加するインデックス付加回路(51)と、リングメモリ(32)から読み出されたオーディオ信号に付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在の時刻情報とから、話速変換処理手段(2,4)における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダ(12)へ供給するインデックス検出回路(52)とを備え、MPEGビデオデコーダ(12)は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0029】
請求項6に記載の発明は、請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、音声判別部(41)の処理結果と、オーディオストリームのビットレートとに基づいて、話速変換処理手段(2,4)における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダ(12)へ供給する遅延時間検出回路(53)とを備え、MPEGビデオデコーダ(12)は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0030】
請求項7に記載の発明は、請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、リングメモリ(32)の蓄積量に基づいて、話速変換処理済みのオーディオ信号とビデオ信号との同期を得るための制御信号を生成し、その制御信号をMPEGビデオデコーダ(12)へ供給する制御回路(54)とを備え、MPEGビデオデコーダ(12)は、前記制御信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0031】
請求項8に記載の発明は、請求項3に記載のMPEGオーディオ再生装置(1)と、記録媒体(21)から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダ(12)と、音声判別部(41)および時間軸圧縮伸長部(43)の処理結果に基づいて、話速変換処理手段(2,4)における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダ(12)へ供給する遅延時間検出回路(55)とを備え、MPEGビデオデコーダ(12)は、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御することをその要旨とする。
【0032】
【発明の実施の形態】
(第1実施形態)
以下、本発明を具体化した第1実施形態を図面に従って説明する。
【0033】
図1に、本実施形態のブロック回路図を示す。
本実施形態のMPEGオーディオ再生装置1は、再生速度検出回路2、MPEGオーディオデコーダ3、話速変換処理回路4、D/Aコンバータ5、オーディオアンプ6から構成されている。尚、各回路2〜6は1チップのLSIに搭載することもできる。
【0034】
また、本実施形態のMPEG再生装置23は、MPEGオーディオ再生装置1に加え、オーディオビデオパーサ(AVパーサ)11、MPEGビデオデコーダ12を備えている。
【0035】
話速変換処理回路4は、例えば、DSP(Digital Signal Processor)31、リングメモリ32、アップダウンカウンタ33、読み出しクロック生成回路36を備えている。尚、話速変換処理回路4の動作については、前記文献(日経エレクトロニクス 1994 年11月21日号(No.622) P.93 〜98. )に詳述されている。
【0036】
再生速度検出回路2は、ビデオCDやDVDなどの記録媒体21から読み出されたMPEGシステムストリームのビットレートに対応したデコードクロックを生成する。そのデコードクロックは各回路12,3,4へ出力される。
【0037】
AVパーサ11は、デマルチプレクサ(DMUX)13を備えており、記録媒体21から読み出されたMPEGシステムストリームを入力する。DMUX13は、システムストリームをMPEGビデオストリームとMPEGオーディオストリームに分離する。ビデオストリームはビデオデコーダ12へ出力され、オーディオストリームはオーディオデコーダ3へ出力される。
【0038】
ビデオデコーダ12は、MPEGビデオパートに準拠してビデオストリームをデコードし、ビデオ出力(以下、ビデオ信号という)を生成する。そのビデオ信号はディスプレイ22へ出力され、ディスプレイ22で動画が再生される。
【0039】
オーディオデコーダ3は、MPEGオーディオパートに準拠してオーディオストリームをデコードし、ディジタル信号のオーディオ出力(以下、オーディオ信号という)を生成する。そのオーディオ信号は話速変換処理回路4へ出力される。話速変換処理回路4において信号処理されたオーディオ信号はD/Aコンバータ5によってD/A変換された後、オーディオアンプ6で増幅されてスピーカ23へ送られる。そして、スピーカ23から音声が再生される。
【0040】
記録媒体21から読み出されたシステムストリームのビットレートは、読み出し速度に対応したものになる。また、各回路3,4,12の動作はデコードクロックによって規定される。
【0041】
従って、ビデオデコーダ12は、システムストリームのビットレートに対応したビデオ信号を生成する。すなわち、システムストリームのビットレートが、通常の再生時(標準再生時)よりも大きければディスプレイ22では動画が高速再生され、通常の再生時よりも小さければディスプレイ22では動画が低速再生される。
【0042】
また、オーディオデコーダ3は、システムストリームのビットレートに対応したオーディオ信号を生成する。すなわち、システムストリームのビットレートが、通常の再生時よりも大きければオーディオ信号のビットレートも大きくなり、通常の再生時より小さければオーディオ信号のビットレートも小さくなる。
【0043】
ところで、ビデオ信号とオーディオ信号とは、通常の再生時において同期生成されるようになっている。
DSP31は、フレームメモリ34および話速変換部35から構成されている。フレームメモリ34は、適宜なフレーム数分(例えば、2フレーム分)のオーディオ信号を記憶する。話速変換部35は、フレームメモリ34に記憶されたオーディオ信号に対してフレーム単位で話速変換処理を行い、話速変換処理済みのオーディオ信号(以下、データという)を生成する。尚、1フレームは、適宜な数(例えば、200個)のサンプリングデータから構成される。
【0044】
フレームメモリ34の内部は、2つの領域(以下、A領域、B領域と記載して区別する)に分けられている。オーディオデコーダ3から出力されたオーディオ信号がB領域に書き込まれるのと同時に、A領域に蓄積されている1フレーム分のオーディオ信号が読み出されて話速変換部35へ転送される。そして、B領域に1フレーム分のオーディオ信号が蓄積されると、今度は、B領域に蓄積された1フレーム分のオーディオ信号が読み出されて話速変換部35へ転送され、それと同時に、オーディオデコーダ3から出力されたオーディオ信号がA領域に書き込まれる。
【0045】
話速変換部35の生成したデータは、話速変換部35が生成した書き込みクロックに従ってリングメモリ32に書き込まれる。リングメモリ32は、例えば、FIFO(First−In−First−Out)構成のRAM(Random Access Memory)から成る。
【0046】
読み出しクロック生成回路36は、デコードクロックに従って読み出しクロックを生成する。
リングメモリ32に蓄積されたデータは、読み出しクロックに従って読み出され、その読み出されたデータはD/Aコンバータ5へ出力される。D/Aコンバータ5は、読み出しクロックをサンプリング周波数として用いる。
【0047】
書き込みクロックはアップダウンカウンタ33のアップカウント入力端子UPに入力され、読み出しクロックはアップダウンカウンタ33のダウンカウント入力端子DOWNに入力される。アップダウンカウンタ33は、書き込みクロックの総数と読み出しクロックの総数との差をカウントする。そのカウント値は、リングメモリ32の蓄積量に対応する。つまり、アップダウンカウンタ33は、書き込みクロックと読み出しクロックとに基づいて、リングメモリ32の蓄積量を検出する。そのリングメモリ32の蓄積量は話速変換部35へ出力される。
【0048】
図2に、話速変換部35に内部構成を示す。
話速変換部35は、音声判別部41、無音削除挿入部42、時間軸圧縮伸長部43から構成されている。
【0049】
音声判別部41は、フレームメモリ34から読み出されたオーディオ信号が、音声区間(音声が存在している区間)か、または、無音区間(音声が存在していない区間)かを判別する。尚、人間が発声する音声以外の背景雑音は無音区間として取り扱う。
【0050】
無音削除挿入部42は、音声判別部41の判別した無音区間に対して、その無音区間の削除処理、または、新たな無音区間の挿入処理を行う。
時間軸圧縮伸長部43は、音声判別部41の判別した音声区間に対して、リングメモリ32の蓄積量に基づいて圧縮処理または伸長処理を行う。
【0051】
また、各部42,43は、その処理内容に対応した書き込みクロックを生成する。
次に、高速再生時における話速変換部35の動作について説明する。
【0052】
オーディオデコーダ3から出力されるオーディオ信号のビットレートは、オーディオストリームのそれと同一になる。従って、高速再生時には、通常の再生時に比べて、オーディオ信号のビットレートが大きくなる。通常の再生時よりもビットレートの大きなオーディオ信号をそのままD/Aコンバータ5へ送った場合、通常の再生時に比べて、スピーカ23から再生される音声のピッチは上がり話速は速くなる。
【0053】
そこで、話速変換部35において、スピーカ23から再生される音声のピッチを通常の再生時とほぼ同一にし、且つ、スピーカ23から再生される話速を通常の再生時に近づけるように話速変換処理を行う。
【0054】
すなわち、無音削除挿入部42は、音声判別部41の判別した無音区間の継続長を算出し、その継続長が所定長以上の場合は無音区間を削除する。
また、時間軸圧縮伸長部43は、音声判別部41の判別した音声区間に対して、例えば、自己相関法を用いてピッチ抽出を行い、抽出したピッチ波形に対して圧縮処理を行う。その結果、高速再生時において、オーディオ信号のビットレートが大きくなった場合に、スピーカ23から再生される音声区間の時間長さは伸長される。
【0055】
尚、時間軸圧縮伸長部43における圧縮処理に際しては、無音区間の状態とリングメモリ32の蓄積量とに応じて動的に圧縮率を変化させる。
例えば、同一のピッチ周期をもつ3周期波形を2周期波形に圧縮することで、2/3倍の圧縮(圧縮率;2/3)を得る。具体的には、3周期波形から、時間軸方向で前にある2周期波形と、後ろにある2周期波形とをそれぞれ切り出す。そして、前の2周期波形に単調減少する三角窓関数を、後ろの2周期波形に単調増加する三角窓関数をそれぞれ乗じる。この二つの波形を加算することで出力波形を得る。
【0056】
また、0.9倍の圧縮(圧縮率;0.9)を得るには、例えば、10周期波形から9周期波形に圧縮する。この場合は、先頭の3周期波形に対して同様の処理を施す。つまり、入力の10周期波形のうち、先頭の3周期波形を除いた7周期波形は処理に使わない。
【0057】
このM周期波形からN周期波形に圧縮する組み合わせを色々と用意しておくことで、多種類の圧縮率を得る。ところで、無音区間が短い場合、圧縮率が低い(圧縮の度合いが大きい)とリングメモリ32がオーバーフローする恐れがある。これを防ぐためには、リングメモリ32の蓄積量に応じて、時間軸圧縮伸長部43における圧縮率を動的に変化させればよい。また、背景雑音が存在する場合、音声区間やピッチの抽出誤りが生じる。これを防ぐためには、音声判別部41における音声区間の検出レベルを雑音信号に応じて変化させればよい。
【0058】
次に、低速再生時における話速変換部35の動作について、図3および図4に従って説明する。
図3に、通常の再生時および0.5倍速再生時において再生される音声の例を示す。
【0059】
低速再生時には、通常の再生時に比べて、オーディオ信号のビットレートが小さくなる。そのため、方法1に示すように、通常の再生時よりもビットレートの小さなオーディオ信号をそのままD/Aコンバータ5へ送った場合、通常の再生時に比べて、スピーカ23から再生される音声のピッチは変化しないものの、音声が途切れ途切れになる。つまり、各音声区間(「あ」「い」「う」「え」)の時間長さは通常の再生時のそれと変わらず、全く音の存在していない無音区間が各音声区間の間に挿入されるため、音声が途切れ途切れになり、ユーザは聴感上違和感を覚える。
【0060】
そこで、話速変換部35において、方法2または方法3に示すように話速変換処理を行う。尚、MPEGオーディオでは、低速再生時に音声のピッチが変化しないため、高速再生時のように時間軸圧縮伸長部43においてピッチを変える処理を行う必要はない。
【0061】
(方法2)
方法2では、時間軸圧縮伸長部43において各音声区間の長さを伸長させ、それと共に、無音削除挿入部42において各無音区間の長さを短くすることで、音声の途切れを目立たなくする。
【0062】
尚、時間軸圧縮伸長部43において音声区間の長さを伸長させるには、音声判別部41の判別した音声区間に対して、例えば、自己相関法を用いてピッチ抽出を行い、抽出したピッチ波形に対して伸長処理を行う。例えば、同一のピッチ周期をもつ2周期波形を3周期波形に伸長することで、3/2倍の伸長(伸長率;3/2)を得る。また、同一のピッチ周期をもつ3周期波形を4周期波形に伸長することで、4/3倍の伸長(伸長率;4/3)を得る。その結果、低速再生時において、オーディオ信号のビットレートが小さくなった場合に、スピーカ23から再生される音声区間の時間長さは伸長される。
【0063】
このとき、音声区間を伸長し過ぎると、音声区間が間延びして聞こえるため、音声の途切れは目立たなくなるものの、やはり不自然になる。これを防止するには、通常の再生時における音声区間の長さL1に対して、低速再生時における音声区間の長さL2を、例えば、以下の式に示すように設定する。
【0064】
L2/L1≦1.4
尚、上記式は0.5倍速再生時だけでなく、あらゆる倍率の低速再生時に適用できる。ここで、時間軸圧縮伸長部43における音声区間の伸長率は一定値にしてもよく、以下の▲1▼▲2▼に示すように可変にしてもよい。
【0065】
▲1▼リングメモリ32の蓄積量に対応して音声区間の伸長率を動的に変化させる。無音区間が短い場合、音声区間の伸長率が大きい(伸長の度合いが大きい)とリングメモリ32がオーバーフローする恐れがある。これを防ぐためには、音声区間の伸長率を小さくすればよい。
【0066】
▲2▼音声のピッチ変化に対応して音声区間の伸長率を動的に変化させる。つまり、図4に示すように、音声のピッチ変化に対応して音声区間の伸長率を変化させることで、話速を変化させる。この場合、音声の聞き易さをさらに向上させることができる。尚、音声のピッチ変化に対応して音声区間の伸長率を変化させることで話速を変化させる技術は公知である(信学技報 SP92−56,HC92−33(1992−09),P.49〜56. 参照)。
【0067】
(方法3)
方法3では、無音削除挿入部42において、各無音区間を削除して各音声区間をつなぎ合わせた後で、音声区間に続いて新たに無音区間を挿入することで、音声の途切れを目立たなくする。尚、挿入する無音区間は、以下の▲1▼〜▲3▼のいずれであってもよい。
【0068】
▲1▼全く音の存在しない無音区間。
▲2▼視聴者が違和感を覚えないような白色雑音を含む無音区間。尚、そのような白色雑音は、予め作成して別メモリ(図示略)に記憶しておく。
【0069】
▲3▼音声判別部41において無音区間と判別したオーディオ信号を別メモリ(図示略)に保持しておき、それを無音区間として挿入する。
このように、本実施形態によれば、以下の作用および効果を得ることができる。
【0070】
(1)話速変換処理回路4を設けることで、高速再生時において、スピーカ23から再生される音声のピッチを通常の再生時とほぼ同一にし、且つ、スピーカ23から再生される話速を通常の再生時に近づけることが可能になり、自然で聞き易い音声を再生することができる。
【0071】
ところで、m倍速再生時(m>1)には、オーディオストリームおよびデコードクロックのビットレートは通常の再生時のm倍になる。このとき、話速変換部35から出力されるデータのビットレートを通常の再生時とほぼ同一になるようにすれば、再生される音声のピッチを通常の再生時とほぼ同一にすることができる。すなわち、話速変換部35においてビットレートをm→1に変換すれば、再生される音声のピッチは通常の再生時とほぼ同一になる。
【0072】
(2)話速変換処理回路4を設けることで、低速再生時において再生される音声の途切れを目立たなくすることが可能になり、自然で聞き易い音声を再生することができる。
【0073】
ところで、上記方法2と方法3とを、以下の(1)(2)に示すように併用してもよい。
(1) MPEGオーディオ再生装置1のユーザが、方法2と方法3とを任意に切り換え選択できるようにする。このようにすれば、個々のユーザの聴覚特性に合わせることが可能になり、ユーザにとって聞き易い音声を再生することができる。
(2) 低速再生の倍率に対応して方法2と方法3とが自動的に切り換え選択されるようにする。例えば、1〜0.5倍速再生時には方法3が選択され、0.5倍速以下の再生時には方法2が選択されるようにする。このようにすれば、再生速度に応じて、自然な音声を再生することができる。
【0074】
(3)各回路2〜6を1チップのLSIに搭載した場合には、MPEGオーディオ再生装置1を小型化することができる。
(第2実施形態)
以下、本発明を具体化した第2実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0075】
図5に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、インデックス付加回路51およびインデックス検出回路52が設けられている点だけである。
【0076】
インデックス付加回路51は、フレームメモリ34の前段(すなわち、MPEGオーディオデコーダ3と話速変換処理回路4の間)に設けられている。インデックス付加回路51は、デコードクロックに従って、オーディオデコーダ3の生成したオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、フレームメモリ34へ出力される。
【0077】
インデックス検出回路52は、リングメモリ32から読み出されたデータに付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在時刻とから、話速変換処理回路4が信号処理に要する時間Δtを算出し、その時間Δtに関する検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、その時間Δtに関する検出信号に従って、自己の動作のタイミングを制御する。
【0078】
このように、本実施形態によれば、第1実施形態の作用および効果に加えて、以下の作用および効果を得ることができる。
(1)前記したように、ビデオデコーダ12の生成するビデオ信号と、オーディオデコーダ3の生成するオーディオ信号とは、通常の再生時において同期生成されるようになっている。そのため、オーディオデコーダ3とD/Aコンバータ5の間に話速変換処理回路4を設けると、話速変換処理回路4における信号処理に要する時間分(すなわち、話速変換処理回路4における遅延時間分)だけ、オーディオ信号が遅延することになる。
【0079】
そこで、インデックス付加回路51を用いて、フレームメモリ34へ入力されるオーディオ信号に予め一定周期でインデックス信号を付加する。
インデックス検出回路52は、リングメモリ32から読み出されたデータに付加されているインデックス信号を検出し、話速変換処理回路4が信号処理に要する時間Δtを算出し、その時間Δtに関する検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、その時間Δtに関する検出信号に従って、自己の動作のタイミングを制御する。また、インデックス検出回路52が次にインデックス信号を検出したとき、ビデオデコーダ12は、そのときに算出された時間と前回算出された時間との差だけ、自己の動作のタイミングを遅らせたり早めたりする。
【0080】
その結果、話速変換処理回路4における遅延時間に関係なく、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0081】
(2)上記(1)より、スピーカ23で再生される音声と、ディスプレイ22で再生される動画との時間ずれを低減することが可能になり、リップシンクのずれを人間の聴覚の許容範囲内にすることができる。
【0082】
(3)オーディオ信号に付加されたインデックス信号は、無音削除挿入部42によって削除されることがある。しかし、インデックス信号を付加する周期を短くして、オーディオ信号に十分な数のインデックス信号を付加しておけば、そのインデックス信号の内のいくつかが無音削除挿入部42によって削除されたとしても、リングメモリ32から読み出されたデータには一定数以上のインデックス信号が残ることになる。その残ったインデックス信号により、上記(1)の作用および効果を得ることができる。
【0083】
(第3実施形態)
以下、本発明を具体化した第3実施形態を図面に従って説明する。尚、本実施形態において、第2実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0084】
図6に、本実施形態の要部ブロック回路図を示す。本実施形態において、第2実施形態と異なるのは、インデックス付加回路51が、フレームメモリ34と音声判別部41の間に設けられている点だけである。インデックス付加回路51は、デコードクロックに従って、フレームメモリ34から読み出されたオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、音声判別部41へ出力される。
【0085】
前記したように、フレームメモリ34が2フレーム分のオーディオ信号を蓄積する場合、フレームメモリ34の記憶容量は、例えば、0.8Kバイト程度あれば十分である。このように、フレームメモリ34の記憶容量が小さい場合には、話速変換処理回路4における遅延時間に比べて、フレームメモリ34における書き込み動作および読み出し動作に要する時間(すなわち、フレームメモリ34における遅延時間)は僅かであり、無視しても差し支えない。
【0086】
従って、本実施形態によれば、第2実施形態と同様の作用および効果を得ることができる。
(第4実施形態)
以下、本発明を具体化した第4実施形態を図面に従って説明する。尚、本実施形態において、第2実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0087】
図7に、本実施形態の要部ブロック回路図を示す。本実施形態において、第2実施形態と異なるのは、インデックス付加回路51が、音声判別部41と無音削除挿入部42および時間軸圧縮伸長部43との間にそれぞれ設けられている点だけである。インデックス付加回路51は、デコードクロックに従って、音声判別部41における信号処理が済んだオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、無音削除挿入部42および時間軸圧縮伸長部43へ出力される。
【0088】
前記したように、フレームメモリ34の記憶容量が小さい場合には、話速変換処理回路4における遅延時間に比べて、フレームメモリ34における遅延時間は僅かであり、無視しても差し支えない。
【0089】
また、音声判別部41における信号処理に要する時間(すなわち、音声判別部41における遅延時間)は、話速変換処理回路4における遅延時間に比べて僅かであり、無視しても差し支えない。
【0090】
従って、本実施形態によれば、第2実施形態と同様の作用および効果を得ることができる。
(第5実施形態)
以下、本発明を具体化した第5実施形態を図面に従って説明する。尚、本実施形態において、第2実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0091】
図8に、本実施形態の要部ブロック回路図を示す。本実施形態において、第2実施形態と異なるのは、インデックス付加回路51が、無音削除挿入部42および時間軸圧縮伸長部43とリングメモリ32との間に設けられている点だけである。インデックス付加回路51は、デコードクロックに従って、各部42,43における信号処理が済んだオーディオ信号に一定周期でインデックス信号を付加する。そのインデックス信号が付加されたオーディオ信号は、リングメモリ32へ出力される。
【0092】
前記したように、フレームメモリ34の記憶容量が小さい場合には、話速変換処理回路4における遅延時間に比べて、フレームメモリ34における遅延時間は僅かであり、無視しても差し支えない。
【0093】
また、各部41〜43における信号処理に要する時間(すなわち、各部41〜43における遅延時間)は、話速変換処理回路4における遅延時間に比べて僅かであり、無視しても差し支えない。
【0094】
つまり、話速変換処理回路4における遅延時間は、主に、リングメモリ32における書き込み動作および読み出し動作に要する時間(すなわち、リングメモリ32における遅延時間)によって決定される。
【0095】
従って、本実施形態によれば、第2実施形態と同様の作用および効果を得ることができる。また、本実施形態によれば、第2実施形態のようにオーディオ信号に付加されたインデックス信号が無音削除挿入部42によって削除されることがない。そのため、付加したインデックス信号が全て活用され、インデックス信号の数を減らすことが可能になることから、インデックス付加回路51の回路規模を小さくすることができる。
【0096】
(第6実施形態)
以下、本発明を具体化した第6実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0097】
図9に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、遅延時間検出回路53が設けられている点だけである。
前記したように、音声判別部41は、フレームメモリ34から読み出されたオーディオ信号が、音声区間か又は無音区間かを判別する。つまり、音声判別部41の処理結果には、オーディオ信号に音声が含まれているか否かという情報が含まれている。
【0098】
また、デコードクロックは、システムストリームのビットレートに対応している。つまり、デコードクロックには、予めオーディオ信号の圧縮伸長率の情報が含まれている。
【0099】
そこで、遅延時間検出回路53は、オーディオ信号に音声が含まれているか否かという情報と圧縮伸長率の情報とに基づいて、話速変換処理回路4における遅延時間を検出し、その検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、遅延時間検出回路53の検出信号に基づいて、自己の動作のタイミングを制御する。その結果、話速変換処理回路4における遅延時間に関係なく、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0100】
このように、本実施形態によれば、第2実施形態と同様の効果を得ることができる。
(第7実施形態)
以下、本発明を具体化した第7実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0101】
図10に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、制御回路54が設けられている点だけである。
制御回路54は、アップダウンカウンタ33の検出したリングメモリ32の蓄積量に基づいて、ビデオデコーダ12の動作速度を制御するための制御信号を生成し、その制御信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、制御回路54の制御信号に基づいて、自己の動作のタイミングを制御する。その結果、リングメモリ32から読み出されたデータと、ビデオデコーダ12の生成するビデオ信号との同期をとることができる。
【0102】
前記したように、話速変換処理回路4における遅延時間は、主にリングメモリ32における遅延時間によって決定される。リングメモリ32における遅延時間は、その蓄積量と相関関係があり、蓄積量が大きくなるほど遅延時間も大きくなる。従って、リングメモリ32の蓄積量に基づいてビデオデコーダ12の動作速度を制御すれば、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0103】
このように、本実施形態によれば、第2実施形態と同様の効果を得ることができる。
(第8実施形態)
以下、本発明を具体化した第8実施形態を図面に従って説明する。尚、本実施形態において、第1実施形態と同じ構成部材については符号を等しくしてその詳細な説明を省略する。
【0104】
図11に、本実施形態の要部ブロック回路図を示す。本実施形態において、第1実施形態と異なるのは、遅延時間検出回路55が設けられている点だけである。
【0105】
前記したように、音声判別部41の処理結果には、オーディオ信号に音声が含まれているか否かという情報が含まれている。
また、時間軸圧縮伸長部43の処理結果には、オーディオ信号の圧縮伸長率の情報が含まれている。
【0106】
そこで、遅延時間検出回路55は、オーディオ信号に音声が含まれているか否かという情報と圧縮伸長率の情報とに基づいて、話速変換処理回路4における遅延時間を検出し、その検出信号をビデオデコーダ12へ供給する。ビデオデコーダ12は、遅延時間検出回路55の検出信号に基づいて、自己の動作のタイミングを制御する。その結果、話速変換処理回路4における遅延時間に関係なく、リングメモリ32から読み出されたデータ(すなわち、話速変換処理済みのオーディオ信号)とビデオ信号との同期をとることができる。
【0107】
このように、本実施形態によれば、第2実施形態と同様の効果を得ることができる。
図12に、可変速再生機能を備えたMPEGビデオデコーダ12の要部ブロック回路を示す。
【0108】
MPEGビデオデコーダ12は、ビットバッファ202、ピクチャヘッダ検出回路203、MPEGビデオデコードコア回路(以下、デコードコア回路と略す)204、可変閾値オーバーフロー判定回路(以下、判定回路と略す)205、ピクチャスキップ回路206、制御コア回路207から構成されている。尚、各回路203〜207は1チップのLSIに搭載することもできる。
【0109】
制御コア回路207は各回路2〜6を制御する。
AVパーサ11から転送されてきたMPEGビデオストリームはビットバッファ202へ入力される。
【0110】
ビットバッファ202はFIFO構成のRAMから成るリングメモリによって構成され、転送されてくるビデオストリームをそのまま順次蓄積する。
ピクチャヘッダ検出回路203は、ビットバッファ202に蓄積されたビデオストリームの各ピクチャの先頭に付くピクチャヘッダを検出し、その各ピクチャヘッダに規定されているピクチャのタイプ(I,P,B)を検出する。
【0111】
制御コア回路207は、ピクチャヘッダ検出回路203の検出結果と後記する判定回路205の判定結果とに基づいて、ビットバッファ202から1フレーム期間毎に適宜なピクチャ分のビデオストリームを読み出す。尚、ビットバッファ202から読み出されたビデオストリームは、読み出された後もビットバッファ202にそのまま残される。
【0112】
ビットバッファ202から読み出された各ピクチャは、ピクチャスキップ回路206を介してデコードコア回路204へ転送される。
デコードコア回路204は、各ピクチャをMPEGビデオパートに準拠してデコードし、各ピクチャ毎のビデオ信号を生成する。
【0113】
ピクチャスキップ回路206は、制御コア回路207の制御に従って各ノード206a,206b側への接続が切り換えられる。そして、ピクチャスキップ回路206がノード206a側に接続されると、ビットバッファ202から読み出されたピクチャはそのままデコードコア回路204へ転送される。また、ノード206b側に接続されると、ビットバッファ202から読み出されたピクチャはデコードコア回路204へ転送されずにスキップされる。その結果、デコードコア回路204へ転送されるピクチャは、ピクチャスキップ回路206によってスキップされた分だけピクチャ単位で間引かれる。
【0114】
判定回路205は、再生速度検出回路2の生成したデコードクロックに基づいてビットバッファ202の占有量Bm の閾値Bthn を設定し、ビットバッファ202の占有量Bm と閾値Bthn とを比較する。尚、判定回路205では、再生速度検出回路2の生成した実際のデコードクロックの周波数と、通常の再生時のデコードクロックの周波数との比を求め、その比を再生速度の倍率nとする。従って、2倍速再生時には倍率n=2となり、閾値Bthn =Bth2 となる。また、通常の再生時には倍率n=1となり、閾値Bthn =Bth1 となる。
【0115】
そして、判定回路205は、ビットバッファ202の占有量Bm が閾値Bthn を越えない場合には、ビットバッファ202がオーバーフローする恐れがなく正常であると判定する。この場合、制御コア回路207は、ビットバッファ202から1ピクチャ分のビデオストリームを読み出す。そして、制御コア回路207は、ピクチャスキップ回路206をノード206a側に接続し、そのビットバッファ202から読み出されたピクチャをデコードコア回路204へ転送させる。
【0116】
また、判定回路205は、ビットバッファ202の占有量Bm が閾値Bthn を越えた場合には、ビットバッファ202がオーバーフローする恐れがあると判定する。この場合、制御コア回路207は、ビットバッファ202の占有量Bm が閾値Bthn を下回るまで、ビットバッファ202から適宜なピクチャ分のビデオストリームを読み出す。そして、制御コア回路207は、ピクチャスキップ回路206をノード206b側に接続し、そのビットバッファ202から読み出された適宜なピクチャ分のビデオストリームを全てスキップさせる。
【0117】
図13に、ビットバッファ202の占有量Bm の変化を示す。
ビットバッファ202の占有量Bm はビットレートRB をグラフの傾きとして上昇する。ビットレートRB は、シーケンスの先頭に付くシーケンスヘッダのBR(Bit Rate)に従って式(1)に示すように規定される。また、AVパーサ11から転送されてくるビデオストリームのピクチャレートRP はシーケンスヘッダのPR(Picture Rate)によって規定される。そして、ビットバッファ202の容量Bは、シーケンスヘッダのVBV(Vbv[Video Bufferring Verifier] Buffer Size)に従って式(2)に示すように規定される。そして、1フレーム期間毎に、デコードコア回路204がそのときデコードしようとする1ピクチャ分のビデオストリームが、ビットバッファ202から一気に読み出される。ここで、1フレーム期間にビットバッファ202に入力されるビデオストリームのデータ量Xは、ビットレートRB およびピクチャレートRP に従って式(3)に示すように規定される。従って、ビットバッファ202から1ピクチャ分のビデオストリームが一気に読み出された直後のビットバッファ202の占有量Bm (=B0 〜B6 )は、データ量Xとビットバッファ202の容量Bとに基づいて、式(4)に示す条件を満たすように規定される。
【0118】
RB =400×BR ………(1)
B=16×1024×VBV ………(2)
X=RB /RP ………(3)
0<Bm <B−X=B−(RB /RP ) ………(4)
式(4)に示す条件を満たすようにビットバッファ202の占有量Bm が規定されていれば、ビットバッファ202がオーバーフローしたりアンダーフローしたりすることはない。逆に言えば、ビットバッファ202の占有量Bm が閾値(B−X)を越えると、次の1フレーム期間にビットバッファ202に入力されるビデオストリームによってビットバッファ202がオーバーフローする可能性が極めて高くなる。
【0119】
ビデオデコーダ12では、通常の再生時において、式(4)が満たされるように、ビットレートRB 、ピクチャレートRP 、容量Bの各値が規定されている。つまり、式(2)に示すようにビットバッファ202の容量Bを設定しておけば、ピクチャスキップ回路206の接続をノード206a側に固定しておいたとしても、理想的な状態ではビットバッファ202がオーバーフローしたりアンダーフローしたりすることはない。
【0120】
従って、通常の再生時において、ビットバッファ202から1ピクチャ分のデータが一気に読み出された直後の占有量Bm (=B0 〜B4 )は、閾値Bth1 に基づいて、式(5)に示す条件を満たすように規定される。尚、閾値Bth1 は、式(4)に基づいて、式(6)に示すように設定される。
【0121】
0<Bm <Bth1 <B ………(5)
Bth1 =B−X=B−(RB /RP ) ………(6)
ところで、実際の状態では、式(2)に示すようにビットバッファ202の容量Bを設定しておいても、ピクチャスキップ回路206の接続をノード206a側に固定しておくと、ビットバッファ202がオーバーフローする恐れがある。
【0122】
しかし、ビデオデコーダ12では、通常の再生時において、ビットバッファ202の占有量Bm が閾値Bth1 を越えた場合、ビットバッファ202がオーバーフローする恐れがあると判定される。すると、ビットバッファ202の占有量Bm が閾値Bth1 を下回るまで、ビットバッファ202から適宜なピクチャ分のビデオストリームが読み出される。そして、ピクチャスキップ回路206はノード206b側に接続され、そのビットバッファ202から読み出された適宜なピクチャ分のビデオストリームは全てスキップされる。従って、ビデオデコーダ12によれば、通常の再生時において、ビットバッファ202がオーバーフローすることはない。
【0123】
高速再生時におけるビットバッファ202の占有量Bm はビットレートn×RB をグラフの傾きとして上昇する。例えば、2倍速再生時におけるビットバッファ202の占有量Bm はビットレート2×RB をグラフの傾きとして上昇する。
【0124】
従って、高速再生時において、ビットバッファ202から1ピクチャ分のデータが一気に読み出された直後の占有量Bm (=B0 〜B4 )は、閾値Bthn に基づいて、式(7)に示す条件を満たすように規定される。尚、閾値Bthn は式(8)に示すように設定される。
【0125】
0<Bm <Bthn ………(7)
Bthn =B−n×X=B−(n×RB /RP ) ………(8)
高速再生時においては、ビットバッファ202の占有量Bm が閾値Bthn を越えた場合、ビットバッファ202がオーバーフローする恐れがあると判定される。例えば、2倍速再生時には占有量Bm が閾値Bth2 (=B−(2×RB /RP ))を越えた場合、3倍速再生時には占有量Bm が閾値Bth3 (=B−(3×RB /RP ))を越えた場合に、ビットバッファ202がオーバーフローする恐れがあると判定される。すると、ビットバッファ202の占有量Bm が閾値Bthn を下回るまでビットバッファ202から適宜なピクチャ分のビデオストリームが読み出され、そのビデオストリームは全てスキップされる。従って、ビデオデコーダ12によれば、高速再生時において、ビットバッファ202がオーバーフローすることはない。
【0126】
デコードコア回路204において任意のピクチャをデコードしている途中でビットバッファ202がオーバーフローすると、デコード処理中のピクチャのビットバッファ202に残っている部分に対して、新たに入力されたビデオストリームが上書きされる。その結果、デコード処理中のピクチャのビットバッファ202に残っている部分が破壊されて失われる。すると、デコードコア回路204では、そのピクチャのデコードを完了することが不可能になり、そのピクチャのビデオ信号を生成することができなくなる。従って、デコードコア回路204において任意のピクチャをデコードしている途中でビットバッファ202がオーバーフローすることは絶対に避けなければならない。
【0127】
そのため、ビットバッファ202がオーバーフローする恐れがあるかどうかの判定は、デコードコア回路204において任意のピクチャのデコードを開始する前に行う必要がある。より正確には、ピクチャヘッダ検出回路203がピクチャヘッダを検出した時点で、ビットバッファ202がオーバーフローする恐れがあるかどうかを判定し、そのピクチャをピクチャスキップ回路206を介してスキップするかどうかを決定する必要がある。
【0128】
ところで、1つのピクチャのデータ量は0〜40バイトであるが、そのデータ量はデコードコア回路204においてデコードが終了した時点でないとわからない。また、1つのピクチャのデコード処理時間は、そのピクチャのデータ量やデコードコア回路204の動作速度によって異なるが、通常、1フレーム期間の1/3〜3/4程度である。
【0129】
ビットバッファ202から読み出されたピクチャのデータ量が0バイトの場合、そのピクチャの読み出し前後でビットバッファ202の占有量Bm は変化しないため、そのピクチャをスキップしたとしてもオーバーフローを回避することはできない。逆に言えば、ビットバッファ202から読み出されたピクチャのデータ量が0バイトの場合でも、ビットバッファ202に十分な空き容量があればオーバーフローすることはない。
【0130】
そこで、1フレーム期間にビットバッファ202に入力されるビデオストリームのデータ量分の空き容量を、ビットバッファ202に確保しておく。そうすれば、ビットバッファ202から読み出されたピクチャのデータ量が0バイトの場合でもオーバーフローすることはない。
【0131】
1フレーム期間にビットバッファ202に入力されるビデオストリームのデータ量は、(n×X=n×RB /RP )になる。ビットバッファ202の空き容量がこのデータ量以上であればオーバーフローすることはない。従って、式(8)に示すように閾値Bthn を設定しておけば、ビットバッファ202のオーバーフローを確実に回避することができる。
【0132】
すなわち、判定回路205は、ピクチャヘッダ検出回路203がピクチャヘッダを検出した時点でビットバッファ202の空き容量をチェックし、十分な空き容量(n×X=n×RB /RP )が確保されているかどうかを判定する。十分な空き容量が確保されていなければ、そのピクチャヘッダに基づいて制御コア回路207がビットバッファ202から読み出したピクチャを、ピクチャスキップ回路206を介してスキップする。続いて、判定回路205は、ピクチャヘッダ検出回路203が次のピクチャヘッダを検出した時点で、再びビットバッファ202の空き容量をチェックする。これらの処理に要する時間は、デコードコア回路204のデコード処理時間に比べてはるかに短いため、ビットバッファ202に十分な空き容量が確保できてからデコードコア回路204のデコード処理を開始しても十分に間に合う。
【0133】
ところで、ピクチャヘッダ検出回路203がピクチャヘッダを検出した時点や、デコードコア回路204がデコードを開始した後に、ビットバッファ202がアンダーフローすることがある。この場合は、ビデオストリームがビットバッファ202に入力され次第、ビットバッファ202から1ピクチャ分のビデオストリームを逐次読み出せばよいため、特に問題とはならない。
【0134】
以上詳述したように、ビデオデコーダ12によれば、以下に示す効果を得ることができる。
▲1▼通常の再生時において、ビットバッファ202のオーバーフローを回避することができる。
【0135】
▲2▼高速再生時において、ビットバッファ202のオーバーフローを回避することができる。
▲3▼判定回路205およびピクチャスキップ回路206を設けることにより、ビットバッファ202のオーバーフローを回避することができる。上記したように判定回路205およびピクチャスキップ回路206の制御は簡単であるため、制御コア回路207はマイクロコンピュータを用いて構成する必要がない。そして、各回路203〜207を1チップのLSIに搭載した場合には、ビデオデコーダ12を小型化することができる。
【0136】
▲4▼ピクチャスキップ回路206のノード206b側からスキップされるビデオストリームは、ピクチャ単位となる。そのため、デコードコア回路204へ転送されるピクチャの途中でデータが途切れることはない。従って、デコードコア回路204では、IピクチャだけでなくPピクチャやBピクチャについてもデコード可能になる。その結果、ディスプレイ22で再生される動画に生じるコマ落ちが少なくなる。そのため、2〜4倍という比較的遅い高速再生時において、数コマ/秒の表示が可能になる。従って、高速再生時における動画の動きを滑らかにして画質を大幅に向上させることができる。
【0137】
ところで、上記したビデオデコーダ12において、式(9)に示す規定を満たすように、2つの閾値B2thn,B3thnを設定してもよい。尚、各閾値B2thn,B3thnの値は、上記のように再生速度に応じて設定されると共に、ディスプレイ22で再生される動画の画質を実際に検討して適宜に設定すればよい。
【0138】
0<B3thn<B2thn<B ………(9)
判定回路205は、ビットバッファ202の占有量Bm と各閾値Bthn ,B2thnとを比較し、占有量Bm が式(10)〜(12)に示すどの領域に含まれるかを判定する。
【0139】
Bm <B3thn ………(10)
B3thn<Bm <B2thn ………(11)
B2thn<Bm ………(12)
判定回路205は、式(10)に示すように、ビットバッファ202の占有量Bm が閾値B3thnを越えない場合には、ビットバッファ202がオーバーフローする恐れがなく正常であると判定する。この場合、制御コア回路207は、ビットバッファ202から1ピクチャ分のビデオストリームを読み出す。そして、制御コア回路207は、ピクチャスキップ回路206をノード206a側に接続し、そのビットバッファ202から読み出されたピクチャをデコードコア回路204へ転送させる。
【0140】
判定回路205は、式(12)に示すように、ビットバッファ202の占有量Bm が閾値B2thnを越え且つ閾値Bthn を越えない場合に、ビットバッファ202から読み出されたピクチャがIピクチャまたはPピクチャならば、第1のフラグを立てる。また、式(11)に示すように、ビットバッファ202の占有量Bm が閾値B3thnを越え且つ閾値B2thnを越えない場合に、ビットバッファ202から読み出されたピクチャがPピクチャならば、第2のフラグを立てる。第1または第2のフラグが立っている場合、式(10)に示す場合でも、制御コア回路207は、ビットバッファ202から読み出されたピクチャがBピクチャならば、ピクチャスキップ回路206をノード206b側に接続し、そのピクチャをスキップさせる。
【0141】
図13に、2つの閾値B2thn,B3thnを設定した場合におけるビットバッファ202の占有量Bm の変化を示す。
占有量Bm が閾値B3thnを越えた場合、ビットバッファ202から読み出されたピクチャがBピクチャであればデコードせずにスキップする(図示※1)。ここで、Bピクチャのスキップ後に占有量Bm がまだ閾値B3thnを越えていても、ビットバッファ202から次に読み出されたピクチャがIピクチャまたはPピクチャであればデコードする(図示※2)。
【0142】
占有量Bm が閾値B3thnを越えた場合でも、ビットバッファ202から読み出されたピクチャがIピクチャまたはPピクチャであればデコードする(図示※3)。ここで、IピクチャまたはPピクチャのデコード後に占有量Bm がまだ閾値B3thnを越えている場合、ビットバッファ202から次に読み出されたピクチャがBピクチャであればデコードせずにスキップする(図示※4)。このBピクチャのスキップは、占有量Bm が閾値B3thnを下回るまで繰り返し行う(図示※5)。
【0143】
占有量Bm が閾値B2thnを越えた場合、ビットバッファ202から読み出されたピクチャがIピクチャまたはPピクチャであれば、判定回路205は第1のフラグを立てる(図示※6)。第1のフラグが立っている場合、ビットバッファ202から次に読み出されたピクチャがBピクチャであれば、占有量Bm が閾値B3thnを下回っていても、そのBピクチャをスキップする(図示※7)。
【0144】
占有量Bm が閾値B3thnを越え且つ閾値B2thnを越えない場合、ビットバッファ202から読み出されたピクチャがPピクチャであれば、判定回路205は第2のフラグを立てる(図示※8)。第2のフラグが立っている場合、ビットバッファ202から次に読み出されたピクチャがBピクチャであれば、占有量Bm が閾値B3thnを下回っていても、そのBピクチャをスキップする(図示※9)。
【0145】
占有量Bm が閾値B3thnを越え且つ閾値B2thnを越えない場合、ビットバッファ202から読み出されたピクチャがIピクチャのときには、判定回路205は第2のフラグを立てない(図示※10)。第2のフラグが立っていない場合、占有量Bm が閾値B3thnを下回っていれば、ビットバッファ202から次に読み出されたピクチャがBピクチャであってもデコードする。
【0146】
以上のように、2つの閾値B2thn,B3thnを設定した場合には、上記したビデオデコーダ12の効果▲1▼〜▲3▼に加えて、以下の効果を得ることができる。
▲4▼ビットバッファ202の占有量Bm が閾値B3thnを越え且つ閾値Bthn を越えない場合、IピクチャおよびPピクチャを可能な限りデコードすると共に、Bピクチャを優先してスキップする。
【0147】
Bピクチャは双方向予測によって生成されるため、その重要度はIピクチャやPピクチャに比べて低い。従って、重要度の低いBピクチャを優先してスキップすることにより、ディスプレイ22で再生される動画に生じるコマ落ちをさらに少なくすることができる。その結果、高速再生時における動画の動きをさらに滑らかにして画質をより向上させることができる。
【0148】
▲5▼第1のフラグを設定することで、IピクチャまたはPピクチャのデコード後にビットバッファ202の占有量Bm が閾値B3thnを下回っても、余裕をみて次にビットバッファ202から読み出されるBピクチャを予めスキップすることができる。また、第2のフラグを設定することで、Pピクチャのデコード後にビットバッファ202の占有量Bm が閾値B3thnを下回っても、余裕をみて次にビットバッファ202から読み出されるBピクチャを予めスキップすることができる。
【0149】
このように、Bピクチャを予めスキップすることは、ビットバッファ202の次回のオーバーフローに対して予防措置を講ずることに他ならない。従って、ビットバッファ202のオーバーフローをより確実に回避することができる。
【0150】
▲6▼Iピクチャのデータ量はPピクチャのそれの2〜3倍と多い。そのため、Pピクチャが読み出された場合に比べて、Iピクチャが読み出された場合の方がビットバッファ202の占有量Bm の減少の度合いが大きい。従って、Pピクチャが読み出された後よりも、Iピクチャが読み出された後の方がビットバッファ202がオーバーフローする可能性が小さくなる。そこで、第1および第2のフラグを設定することにより、IピクチャとPピクチャとで前記予防措置に差をつける。すなわち、Iピクチャに対する予防措置の閾値B2thnを、Pピクチャに対する予防措置の閾値B3thnよりも高い値に設定することで、Iピクチャに対する予防措置をPピクチャのそれに比べて緩くすることが可能になる。その結果、Bピクチャの無駄なスキップを少なくすることができる。
【0151】
▲7▼以下のa)b)に示すGOP構成(ピクチャのタイプの並び)のビデオストリームがAVパーサ11から転送されてきた場合についてシミュレーションしたところ、以下に示す結果が得られた。
【0152】
a)IBPBPBPBP・・・
b)IBBPBBPBBPBBPBBIBP・・・
[1] 2倍速再生時;a)の場合、IピクチャおよびPピクチャの全てがデコード可能であり、その結果、30コマ/秒のフルレートで表示できる。b)の場合、IピクチャおよびPピクチャの全てとBピクチャの一部がデコード可能であり、その結果、25コマ/秒以上で表示できる。
【0153】
[2] 4倍速再生時;a)b)共に、Iピクチャおよびそれに続く3〜4枚のPピクチャがデコード可能であり、その結果、15コマ/秒以上で表示できる。
ところで、第2〜第3実施形態において、ビデオデコーダ12の動作速度を制御するには、デコードコア回路204におけるデコード処理の速度を制御すればよい。
【0154】
尚、上記各実施形態は以下のように変更してもよく、その場合でも同様の作用および効果を得ることができる。
(1)リングメモリ32を、DSP31の後段ではなく、DSP31の前段(すなわち、MPEGオーディオデコーダ3とDSP31の間)に設ける。
【0155】
(2)MPEG再生装置23を構成する各回路1,11,12を1チップのLSIに搭載する。このようにすれば、MPEG再生装置23を小型化することができる。
【0156】
(3)第2〜第8実施形態において、ビデオデコーダ12の動作速度を制御するのではなく、ビデオデコーダ12とディスプレイ22の間に遅延回路を挿入し、その遅延回路の遅延時間を制御する。
【0157】
(4)第2〜第8実施形態の内いずれか2つ以上の実施形態を適宜に組み合わせて実施する。このようにすれば、組み合わせた各実施形態の相乗作用によりさらに優れた効果を得ることができる。
【0158】
(5)第1〜第8実施形態をCPUを用いたソフトウェア的な処理に置き代える。すなわち、各回路(1〜55)における信号処理をCPUを用いたソフトウェア的な信号処理に置き代える。
【0159】
(6)図12に示したMPEGビデオデコーダ12においては、説明を分かり易くするため、ピクチャスキップ回路206が各ノード206a,206bを有し、制御コア回路207の制御に従って各ノード206a,206bの接続が切り換えられる構成としたが、この構成に代えて、ピクチャスキップ回路206を、制御コア回路207の制御に従って、デコードコア回路204でデコードされるべきピクチャだけを通過させる論理回路によって構成してもよい。
【0160】
以上、本発明を具体化した各実施形態について説明したが、上記実施形態から把握できる請求項以外の技術的思想について、以下にそれらの効果と共に記載する。
(イ)請求項1〜3のいずれか1項に記載のMPEGオーディオ再生装置において、オーディオ信号をD/A変換するD/Aコンバータ(5)と、D/Aコンバータの出力を増幅するオーディオアンプ(6)とを備えたMPEGオーディオ再生装置。
【0161】
このようにすれば、ディジタルのオーディオ信号からスピーカを駆動するためのアナログ信号を生成することができる。
(ロ)請求項4〜8のいずれか1項に記載のMPEG再生装置において、記録媒体(21)から読み出されたMPEGシステムストリームを、MPEGオーディオストリームとMPEGビデオストリームとに分離するデマルチプレクサ(13)を備えたMPEG再生装置。
【0162】
このようにすれば、オーディオデコーダへオーディオストリームを、ビデオデコーダへビデオストリームをそれぞれ転送することができる。
【0163】
【発明の効果】
請求項1〜3のいずれか1項に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置を提供することができる。
【0164】
請求項4に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置とMPEGビデオデコーダとを備えたMPEG再生装置を提供することができる。
【0165】
請求項5〜8のいずれか1項に記載の発明によれば、可変速再生時においても自然で聞き易い音声を再生することが可能なMPEGオーディオ再生装置とMPEGビデオデコーダとを備え、音声と動画との時間ずれを低減することが可能なMPEG再生装置を提供することができる。
【図面の簡単な説明】
【図1】第1実施形態のブロック回路図。
【図2】第1実施形態の要部ブロック回路図。
【図3】第1実施形態の作用を説明するための模式図。
【図4】第1実施形態の作用を説明するための模式図。
【図5】第2実施形態の要部ブロック回路図。
【図6】第3実施形態の要部ブロック回路図。
【図7】第4実施形態の要部ブロック回路図。
【図8】第5実施形態の要部ブロック回路図。
【図9】第6実施形態の要部ブロック回路図。
【図10】第7実施形態の要部ブロック回路図。
【図11】第8実施形態の要部ブロック回路図。
【図12】MPEGビデオデコーダの要部ブロック回路図。
【図13】MPEGビデオデコーダの動作を説明するためのグラフ。
【図14】MPEGビデオデコーダの動作を説明するためのグラフ。
【符号の説明】
1…MPEGオーディオ再生装置
2…話速変換手段としての再生速度検出回路
3…MPEGオーディオデコーダ
4…話速変換手段としての話速変換処理回路
12…MPEGビデオデコーダ
21…記録媒体
32…リングメモリ
33…検出手段としてのアップダウンカウンタ
41…音声判別部
42…無音削除挿入部
43…時間軸圧縮伸長部
51…インデックス付加回路
52…インデックス検出回路
53,55…遅延時間検出回路
54…制御回路
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a moving picture expert group (MPEG) audio playback apparatus and an MPEG playback apparatus, and more particularly, to an MPEG audio playback apparatus and an MPEG playback apparatus having a speech speed conversion function.
[0002]
[Prior art]
The information handled in multimedia is enormous and diverse, and it is necessary to process such information at high speed in order to put multimedia into practical use. In order to process information at high speed, data compression / decompression technology is indispensable. As such a data compression / decompression technique, an “MPEG” method can be cited. This MPEG system is being standardized by an MPEG committee (ISO / IEC JTC1 / SC29 / WG11) under the umbrella of ISO (International Organization for Standardization) / IEC (International Electrotechnical Commission).
[0003]
MPEG is composed of three parts. In the “MPEG system part” of Part 1 (ISO / IEC IS 11172 Part 1: Systems), a multiplexing structure (multiplex structure) of video data and audio data and a synchronization method are defined. In Part 2, “MPEG Video Part” (ISO / IEC IS 11172 Part 2: Video), a high-efficiency encoding method of video data and a format of the video data are specified. Part 3 “MPEG Audio Part” (ISO / IEC IS 11172 Part 3: Audio) specifies a high-efficiency encoding method of audio data and a format of the audio data.
[0004]
The video data handled by the MPEG video part relates to a moving image, and the moving image is composed of several tens (eg, 30) frames (still images, frames) per second. The video data has a hierarchical structure of six layers in the order of a sequence (Sequence), a GOP (Group Of Pictures), a picture, a slice (Slice), a macroblock (Macroblock), and a block.
[0005]
At present, there are two MPEG systems, MPEG-1 and MPEG-2, mainly due to differences in encoding rates. In MPEG-1, a frame corresponds to a picture. In MPEG-2, frames or fields can correspond to pictures. Two fields constitute one frame. The structure in which a frame corresponds to a picture is called a frame structure, and the structure in which a field corresponds to a picture is called a field structure.
[0006]
MPEG uses a compression technique called inter-frame prediction. Inter-frame prediction compresses data between frames based on temporal correlation. In the inter-frame prediction, bidirectional prediction is performed. Bidirectional prediction is to use both forward prediction for predicting a current playback image from a past playback image (or picture) and backward prediction for predicting a current playback image from a future playback image. .
[0007]
The bidirectional prediction defines three types of pictures called I-pictures (Intra-Picture), P-pictures (Predictive-Picture), and B-pictures (Bidirectionally predictive-Picture). The I picture is generated independently of a past or future reproduced image. The P picture is generated by forward prediction (prediction from a past I picture or P picture). B pictures are generated by bidirectional prediction. In bidirectional prediction, a B picture is generated by any one of the following three predictions. (1) Forward prediction; prediction from past I or P pictures; (2) backward prediction; prediction from future I or P pictures; (3) bidirectional prediction; past and future I pictures or Prediction from P pictures. Then, these I, P, and B pictures are respectively encoded. That is, an I picture is generated without any past or future picture. In contrast, a P picture is not generated without a past picture, and a B picture is not generated without a past or future picture.
[0008]
In the inter-frame prediction, first, an I picture is periodically generated. Next, a frame several frames ahead of the I picture is generated as a P picture. This P picture is generated by one-way (forward) prediction from the past to the present. Subsequently, a frame located before the I picture and after the P picture is generated as a B picture. When generating this B picture, an optimal prediction method is selected from three of forward prediction, backward prediction, and bidirectional prediction. In general, in a continuous moving image, a current image and images before and after the current image are very similar, and only a part thereof is different. Therefore, it is assumed that the previous frame (for example, I picture) and the next frame (for example, P picture) are the same, and if there is a change between both frames, only the difference (B picture) is extracted and compressed. I do. Thereby, data between frames can be compressed based on temporal correlation.
[0009]
A data sequence (bit stream) of video data encoded according to the MPEG video part is called an MPEG video stream (hereinafter, abbreviated as a video stream). A data string of audio data encoded in accordance with the MPEG audio part is called an MPEG audio stream (hereinafter, abbreviated as audio stream). Then, the video stream and the audio stream are time-division multiplexed in accordance with the MPEG system part, and become an MPEG system stream (hereinafter abbreviated as a system stream) as one data string. System streams are also called multiplex streams.
[0010]
The flow from the encoding to the decoding in the MPEG part is as follows. An MPEG system encoder (hereinafter, abbreviated as a system encoder) separately encodes video data and audio data while maintaining coordination, and generates a video stream and an audio stream. Next, a multiplexer (MUX) provided in the MPEG system encoder multiplexes a video stream and an audio stream so as to conform to a format of a transmission medium or a recording medium, and generates a system stream. The system stream is transmitted from the MUX via a transmission medium or recorded on a recording medium.
[0011]
A demultiplexer (DMUX; DeMultiplexer) provided in an MPEG system decoder (hereinafter abbreviated as a system decoder) separates a system stream into a video stream and an audio stream. Next, the system decoder individually decodes each stream to generate a video decoded output (hereinafter, referred to as a video output) and an audio decoded output (hereinafter, referred to as an audio output). The video output is output to a display, and a moving image is reproduced on the display. The audio output is output to a speaker via a D / A (Digital / Analog) converter and an audio amplifier, and sound is reproduced from the speaker.
[0012]
Meanwhile, MPEG-1 mainly corresponds to a storage medium using a recording medium such as a video CD (Compact Disc), a CD-ROM (CD-Read Only Memory), and a DVD (Digital Video Disc). Supports a wide range of applications, including MPEG-1.
[0013]
In a storage medium, the following two variable speed reproductions are required. (1) A function for reproducing a moving image at a speed higher than a normal (standard) reproduction speed (hereinafter, referred to as high-speed reproduction). (2) A function for playing a moving image at a speed lower than a normal playing speed (hereinafter, referred to as a low speed playing). The high-speed playback function is used, for example, when a user performs fast-forward playback to view a moving image in a short time, or when performing fast-forward playback or fast-forward reverse playback to search for a desired moving image. The low-speed playback function is used, for example, when a user watches a moving image carefully.
[0014]
The bit rate of the system stream read from the recording medium corresponds to the reading speed. Therefore, to perform high-speed reproduction, the system stream is read from the recording medium at high speed, and to perform low-speed reproduction, the system stream is read from the recording medium at low speed. For example, when a video CD or DVD is used as a recording medium, the rotation speed of the video CD or DVD is made faster or slower than at the time of normal reproduction (at the time of standard reproduction), so that a desired system stream is obtained. Read at speed.
[0015]
[Problems to be solved by the invention]
Conventionally, in MPEG, variable speed playback of moving images as described above has been studied, but no consideration has been given to variable speed playback of audio.
[0016]
The bit rate of the audio stream is the same as that of the system stream. Therefore, at the time of high-speed reproduction of a moving image, the bit rate of the audio stream is also increased, and the pitch (pitch) of the reproduced sound is increased, and in addition, the utterance speed (speech speed) is increased. In addition, at the time of low-speed reproduction of a moving image, the bit rate of the audio stream is reduced, and the pitch of the reproduced audio does not change, but the audio is interrupted. As described above, there has been a problem that the sound becomes hard to hear when the moving image is reproduced at a variable speed.
[0017]
By the way, in recent years, the development of a speech speed conversion technology for arbitrarily controlling the speech speed without changing the pitch has been progressed, and the present applicant has already developed a speech speed conversion processing LSI that can be used for a VTR or a tape recorder. (See Japanese Patent Application Laid-Open No. 7-192392 (G11B 20/02), Nikkei Electronics, November 21, 1994, No. 622, pages 93 to 98.). However, no attempt has been made to use the speech speed conversion technology for MPEG.
[0018]
Further, in the synchronous generation of audio and a moving image (video), it is necessary to consider “lip sync”. Lip sync means that the movement of the mouth of the person shown on the display is synchronized with the sound uttered from the speaker. If the sound is faster or slower than the mouth movement, the lip sync is said to be out of sync. If the deviation of the lip sync is out of the permissible range of human hearing, the viewer will feel uncomfortable. In general, it is said that a permissible time as a shift of the lip sync caused by the delay of the sound from the moving image is about 50 to 250 ms.
[0019]
The present invention has been made to satisfy the above-mentioned requirements, and has the following objects.
[1] To provide an MPEG audio reproducing apparatus capable of reproducing natural and easy-to-hear sound even during variable speed reproduction.
[0020]
[2] An MPEG playback device including the MPEG audio playback device and the MPEG video decoder of [1] is provided.
[3] An MPEG reproducing apparatus including the MPEG audio reproducing apparatus of [1] and an MPEG video decoder and capable of reducing a time lag between audio and moving images.
[0024]
[Means for Solving the Problems]
Claim 1The invention described in (1) provides an MPEG audio decoder (3) for decoding an MPEG audio stream read from a recording medium (21) in accordance with an MPEG audio part and generating an audio signal, and a speech speed for the audio signal. Speech speed conversion processing means (2, 4) for performing conversion processing, wherein the speech speed conversion processing means is reproduced when the bit rate of the audio stream is higher than normal.eachThe duration of the voice sectionlongThe speech speed conversion process is performed by shortening the time length of each silent section, and when the bit rate of the audio stream is smaller than the normal time, the time length of each voice section to be reproduced is changed.longAnd to shorten the time length of each silent section, or to perform a speech speed conversion process by inserting each silent section after deleting each silent section and connecting each voice section. I do.
[0025]
Claim 2The invention described inClaim 1In the MPEG audio reproducing apparatus described in (1), the speech speed conversion processing means (2, 4) includes a ring memory (32) for storing an audio signal, and a detection means (33) for detecting a storage amount of the ring memory. The gist is to adjust the compression / expansion rate of the time length of the voice section according to the amount of storage in the ring memory.
[0026]
Claim 3The invention described inClaim 2In the MPEG audio reproducing apparatus described in (1), the speech speed conversion processing means (2, 4) performs a voice discrimination unit (41) for discriminating a voice section and a silent section of the audio signal, and performs a process of deleting or inserting a silent section. And a time axis compression / expansion section (43) for adjusting the compression / expansion rate by performing compression / expansion processing of the voice section based on the amount of storage in the ring memory (32). Is the gist.
[0027]
Claim 4The invention described inClaims 1-3And an MPEG video decoder (1) that decodes an MPEG video stream read from a recording medium (21) in accordance with an MPEG video part and generates a video signal. The point is that the item 12) is provided.
[0028]
Claim 5The invention described inClaim 2 or Claim 3And an MPEG video decoder (12) for decoding an MPEG video stream read from a recording medium (21) in accordance with the MPEG video part and generating a video signal, An index adding circuit (51) for adding an index signal as time information to the audio signal before being written to the memory (32), and an index signal added to the audio signal read from the ring memory (32) From the time information obtained from the index signal and the current time information, a signal delay time in the speech speed conversion processing means (2, 4) is detected, and a signal indicating the detected delay time is converted to an MPEG video signal. An index detection circuit (52) for supplying to the decoder (12); G video decoder (12), as its gist to control the timing of its own operation based on the signal indicative of the delay time.
[0029]
Claim 6The invention described inClaim 3And an MPEG video decoder (12) that decodes an MPEG video stream read from the recording medium (21) in accordance with the MPEG video part and generates a video signal, and an audio device (1). A signal delay time in the speech speed conversion processing means (2, 4) is detected based on the processing result of the determination unit (41) and the bit rate of the audio stream, and a signal indicating the detected delay time is converted to an MPEG video signal. The MPEG video decoder (12) is provided with a delay time detection circuit (53) to be supplied to the decoder (12). The gist of the MPEG video decoder (12) is to control its own operation timing based on the signal indicating the delay time.
[0030]
Claim 7The invention described inClaim 3And an MPEG video decoder (12) for decoding an MPEG video stream read from a recording medium (21) in accordance with the MPEG video part and generating a video signal, A control circuit for generating a control signal for synchronizing the audio signal and the video signal after the speech speed conversion processing based on the storage amount of the memory (32), and supplying the control signal to the MPEG video decoder (12) (54), the gist of which is that the MPEG video decoder (12) controls its own operation timing based on the control signal.
[0031]
Claim 8The invention described inClaim 3And an MPEG video decoder (12) that decodes an MPEG video stream read from the recording medium (21) in accordance with the MPEG video part and generates a video signal, and an audio device (1). A signal delay time in the speech speed conversion processing means (2, 4) is detected based on the processing results of the discrimination section (41) and the time axis compression / expansion section (43), and a signal indicating the detected delay time is converted to an MPEG signal. The MPEG video decoder (12) includes a delay time detection circuit (55) to be supplied to the video decoder (12). The gist of the MPEG video decoder (12) is to control the timing of its own operation based on the signal indicating the delay time. .
[0032]
BEST MODE FOR CARRYING OUT THE INVENTION
(1st Embodiment)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
[0033]
FIG. 1 shows a block circuit diagram of the present embodiment.
The MPEG audio reproducing apparatus 1 of this embodiment includes a reproducing speed detecting circuit 2, an MPEG audio decoder 3, a voice speed converting circuit 4, a D / A converter 5, and an audio amplifier 6. Each of the circuits 2 to 6 can be mounted on a one-chip LSI.
[0034]
The MPEG playback device 23 of the present embodiment includes an audio video parser (AV parser) 11 and an MPEG video decoder 12 in addition to the MPEG audio playback device 1.
[0035]
The voice speed conversion processing circuit 4 includes, for example, a DSP (Digital Signal Processor) 31, a ring memory 32, an up / down counter 33, and a read clock generation circuit 36. The operation of the speech speed conversion processing circuit 4 is described in detail in the aforementioned document (Nikkei Electronics, November 21, 1994, No. 622, pp. 93-98.).
[0036]
The reproduction speed detection circuit 2 generates a decode clock corresponding to the bit rate of the MPEG system stream read from the recording medium 21 such as a video CD or DVD. The decode clock is output to each of the circuits 12, 3, and 4.
[0037]
The AV parser 11 includes a demultiplexer (DMUX) 13 and inputs the MPEG system stream read from the recording medium 21. The DMUX 13 separates the system stream into an MPEG video stream and an MPEG audio stream. The video stream is output to the video decoder 12, and the audio stream is output to the audio decoder 3.
[0038]
The video decoder 12 decodes a video stream according to the MPEG video part and generates a video output (hereinafter, referred to as a video signal). The video signal is output to the display 22, and the moving image is reproduced on the display 22.
[0039]
The audio decoder 3 decodes an audio stream according to the MPEG audio part and generates an audio output of a digital signal (hereinafter, referred to as an audio signal). The audio signal is output to the speech speed conversion processing circuit 4. The audio signal subjected to signal processing in the voice speed conversion processing circuit 4 is D / A converted by the D / A converter 5, amplified by the audio amplifier 6, and sent to the speaker 23. Then, the sound is reproduced from the speaker 23.
[0040]
The bit rate of the system stream read from the recording medium 21 corresponds to the reading speed. The operation of each of the circuits 3, 4, and 12 is defined by a decode clock.
[0041]
Therefore, the video decoder 12 generates a video signal corresponding to the bit rate of the system stream. In other words, if the bit rate of the system stream is higher than during normal playback (during standard playback), the moving image is played at high speed on the display 22, and if it is smaller than during normal playback, the moving image is played at low speed.
[0042]
The audio decoder 3 generates an audio signal corresponding to the bit rate of the system stream. That is, if the bit rate of the system stream is higher than that during normal reproduction, the bit rate of the audio signal is higher, and if it is lower than that during normal reproduction, the bit rate of the audio signal is lower.
[0043]
By the way, a video signal and an audio signal are generated synchronously during normal reproduction.
The DSP 31 includes a frame memory 34 and a speech speed conversion unit 35. The frame memory 34 stores audio signals for an appropriate number of frames (for example, two frames). The voice speed conversion unit 35 performs voice speed conversion processing on the audio signal stored in the frame memory 34 on a frame basis, and generates an audio signal (hereinafter, referred to as data) after voice speed conversion processing. One frame is composed of an appropriate number (for example, 200) of sampling data.
[0044]
The inside of the frame memory 34 is divided into two areas (hereinafter, referred to as area A and area B). At the same time that the audio signal output from the audio decoder 3 is written to the B area, one frame of the audio signal stored in the A area is read and transferred to the speech speed conversion unit 35. When the audio signal for one frame is stored in the B area, the audio signal for one frame stored in the B area is read out and transferred to the speech speed conversion unit 35. The audio signal output from the decoder 3 is written to the area A.
[0045]
The data generated by the voice speed converter 35 is written to the ring memory 32 according to the write clock generated by the voice speed converter 35. The ring memory 32 is composed of, for example, a random access memory (RAM) having a first-in-first-out (FIFO) configuration.
[0046]
The read clock generation circuit 36 generates a read clock according to the decode clock.
The data stored in the ring memory 32 is read according to a read clock, and the read data is output to the D / A converter 5. The D / A converter 5 uses a read clock as a sampling frequency.
[0047]
The write clock is input to an up-count input terminal UP of the up-down counter 33, and the read clock is input to a down-count input terminal DOWN of the up-down counter 33. The up / down counter 33 counts the difference between the total number of write clocks and the total number of read clocks. The count value corresponds to the storage amount of the ring memory 32. That is, the up / down counter 33 detects the accumulated amount of the ring memory 32 based on the write clock and the read clock. The amount stored in the ring memory 32 is output to the speech speed conversion unit 35.
[0048]
FIG. 2 shows an internal configuration of the speech speed conversion unit 35.
The speech speed conversion unit 35 includes a voice discrimination unit 41, a silence deletion / insertion unit 42, and a time axis compression / expansion unit 43.
[0049]
The voice discriminating unit 41 determines whether the audio signal read from the frame memory 34 is a voice section (a section where voice exists) or a silent section (a section where no voice exists). Note that background noise other than voice uttered by humans is handled as a silent section.
[0050]
The silence deletion / insertion unit 42 deletes the silence section or inserts a new silence section into the silence section determined by the speech determination unit 41.
The time axis compression / expansion unit 43 performs a compression process or an expansion process on the voice section determined by the voice determination unit 41 based on the storage amount of the ring memory 32.
[0051]
Each of the units 42 and 43 generates a write clock corresponding to the processing content.
Next, the operation of the speech speed conversion unit 35 during high-speed playback will be described.
[0052]
The bit rate of the audio signal output from the audio decoder 3 is the same as that of the audio stream. Therefore, at the time of high-speed reproduction, the bit rate of the audio signal is higher than at the time of normal reproduction. When an audio signal having a higher bit rate than during normal reproduction is sent to the D / A converter 5 as it is, the pitch of the sound reproduced from the speaker 23 is increased and the speech speed is faster than during normal reproduction.
[0053]
Therefore, the speech speed conversion unit 35 performs a speech speed conversion process such that the pitch of the sound reproduced from the speaker 23 is made substantially the same as that during normal reproduction, and the speech speed reproduced from the speaker 23 is made close to that during normal reproduction. I do.
[0054]
That is, the silence deletion / insertion unit 42 calculates the continuation length of the silence section determined by the speech determination unit 41, and deletes the silence section if the continuation length is equal to or longer than the predetermined length.
In addition, the time axis compression / expansion unit 43 performs pitch extraction on the voice section determined by the voice determination unit 41 using, for example, the autocorrelation method, and performs compression processing on the extracted pitch waveform. As a result, when the bit rate of the audio signal is increased at the time of high-speed reproduction, the time length of the audio section reproduced from the speaker 23 is extended.
[0055]
In the compression process performed by the time axis compression / expansion unit 43, the compression ratio is dynamically changed according to the state of the silent section and the storage amount of the ring memory 32.
For example, by compressing a three-period waveform having the same pitch period into a two-period waveform, 2/3 times compression (compression ratio: 2/3) is obtained. Specifically, a two-period waveform at the front and a two-period waveform at the rear in the time axis direction are cut out from the three-period waveform. Then, the preceding two-period waveform is multiplied by a monotonically decreasing triangular window function, and the following two-period waveform is multiplied by a monotonically increasing triangular window function. An output waveform is obtained by adding these two waveforms.
[0056]
To obtain a 0.9-fold compression (compression ratio: 0.9), for example, the waveform is compressed from a 10-period waveform to a 9-period waveform. In this case, the same processing is performed on the first three cycle waveforms. That is, among the input 10-period waveforms, the 7-period waveform excluding the first three-period waveform is not used for the processing.
[0057]
By preparing various combinations for compressing the M-period waveform into the N-period waveform, various types of compression ratios can be obtained. By the way, when the silent section is short, if the compression ratio is low (the degree of compression is high), the ring memory 32 may overflow. In order to prevent this, the compression ratio in the time axis compression / expansion unit 43 may be dynamically changed according to the storage amount of the ring memory 32. In addition, when background noise is present, an error in the extraction of a voice section or a pitch occurs. To prevent this, the detection level of the voice section in the voice determination unit 41 may be changed according to the noise signal.
[0058]
Next, the operation of the speech speed conversion unit 35 during low-speed reproduction will be described with reference to FIGS.
FIG. 3 shows an example of sound reproduced at the time of normal reproduction and at the time of 0.5 × speed reproduction.
[0059]
At the time of low-speed reproduction, the bit rate of the audio signal is lower than at the time of normal reproduction. Therefore, as shown in the method 1, when an audio signal having a smaller bit rate than that during normal reproduction is directly sent to the D / A converter 5, the pitch of the sound reproduced from the speaker 23 is smaller than that during normal reproduction. Sound does not change, but does not change. In other words, the time length of each voice section (“A”, “I”, “U”, “E”) is the same as that during normal playback, and a silent section with no sound inserted between each voice section. Therefore, the sound is interrupted, and the user feels uncomfortable in hearing.
[0060]
Therefore, the speech speed conversion unit 35 performs the speech speed conversion processing as shown in the method 2 or the method 3. In the case of MPEG audio, since the pitch of the audio does not change during low-speed reproduction, there is no need to perform the process of changing the pitch in the time axis compression / expansion unit 43 as in high-speed reproduction.
[0061]
(Method 2)
In the method 2, the time axis compression / decompression unit 43 extends the length of each voice section, and the silence deletion / insertion unit 42 shortens the length of each silent section, thereby making the discontinuity of voice inconspicuous.
[0062]
In order to extend the length of the voice section in the time axis compression / decompression section 43, the voice section determined by the voice determination section 41 is subjected to pitch extraction using, for example, the autocorrelation method, and the extracted pitch waveform is extracted. Is subjected to decompression processing. For example, by expanding a two-period waveform having the same pitch period into a three-period waveform, a 3 / 2-fold elongation (elongation ratio; 3/2) is obtained. Further, by extending a three-period waveform having the same pitch period into a four-period waveform, a 4 / 3-fold elongation (elongation ratio: 4/3) is obtained. As a result, at the time of low-speed reproduction, when the bit rate of the audio signal decreases, the time length of the audio section reproduced from the speaker 23 is extended.
[0063]
At this time, if the voice section is extended too much, the voice section is prolonged and can be heard, so that the discontinuity of the voice becomes inconspicuous but still unnatural. To prevent this, the length L2 of the voice section at the time of low-speed playback is set to the length L1 of the voice section at the time of normal playback, for example, as shown in the following equation.
[0064]
L2 / L1 ≦ 1.4
Note that the above equation can be applied not only at the time of 0.5 × speed reproduction, but also at the time of low speed reproduction at any magnification. Here, the expansion rate of the voice section in the time axis compression / expansion unit 43 may be a constant value, or may be variable as shown in the following (1) and (2).
[0065]
{Circle around (1)} The expansion rate of the voice section is dynamically changed according to the storage amount of the ring memory 32. When the silent section is short, the ring memory 32 may overflow if the expansion rate of the voice section is large (the degree of expansion is large). To prevent this, the extension rate of the voice section may be reduced.
[0066]
{Circle around (2)} The expansion rate of the voice section is dynamically changed according to the pitch change of the voice. That is, as shown in FIG. 4, the speech speed is changed by changing the expansion rate of the voice section in accordance with the change in the pitch of the voice. In this case, the audibility of the voice can be further improved. Note that a technique for changing the speech speed by changing the expansion rate of a voice section in response to a change in voice pitch is known (IEICE Technical Report SP92-56, HC92-33 (1992-09), p. 49-56).
[0067]
(Method 3)
In the method 3, the silence deletion / insertion unit 42 deletes each silence section and connects each speech section, and then inserts a new silence section following the speech section to make the discontinuity of the speech inconspicuous. . The silent section to be inserted may be any of the following (1) to (3).
[0068]
(1) A silent section in which no sound exists.
{Circle around (2)} A silent section containing white noise that does not make the viewer feel uncomfortable. Such white noise is created in advance and stored in another memory (not shown).
[0069]
{Circle around (3)} The audio signal determined as a silent section by the voice determining section 41 is stored in a separate memory (not shown), and is inserted as a silent section.
As described above, according to the present embodiment, the following operations and effects can be obtained.
[0070]
(1) By providing the voice speed conversion processing circuit 4, the pitch of the voice reproduced from the speaker 23 during high-speed reproduction is made substantially the same as that during normal reproduction, and the voice speed reproduced from the speaker 23 is normally set. Can be brought closer to the time of reproduction, and a natural and easy-to-hear sound can be reproduced.
[0071]
By the way, at the time of m-times speed reproduction (m> 1), the bit rates of the audio stream and the decode clock are m times that of the normal reproduction. At this time, if the bit rate of the data output from the speech speed conversion unit 35 is made substantially the same as during normal reproduction, the pitch of the reproduced sound can be made substantially the same as during normal reproduction. . That is, if the bit rate is converted from m to 1 in the speech speed conversion unit 35, the pitch of the reproduced voice is substantially the same as that in normal reproduction.
[0072]
(2) The provision of the speech speed conversion processing circuit 4 makes it possible to make discontinuity in the sound reproduced during low-speed reproduction inconspicuous, and reproduce sound that is natural and easy to hear.
[0073]
By the way, the above methods 2 and 3 may be used in combination as shown in the following (1) and (2).
(1) The user of the MPEG audio reproducing apparatus 1 can arbitrarily switch and select between the method 2 and the method 3. By doing so, it is possible to match the auditory characteristics of each user, and it is possible to reproduce a sound that is easy for the user to hear.
(2) Method 2 and method 3 are automatically switched and selected in accordance with the low-speed reproduction magnification. For example, method 3 is selected during 1- to 0.5-times speed reproduction, and method 2 is selected during reproduction at 0.5-times or lower speed. In this way, natural sound can be reproduced according to the reproduction speed.
[0074]
(3) When the circuits 2 to 6 are mounted on a one-chip LSI, the size of the MPEG audio reproducing apparatus 1 can be reduced.
(2nd Embodiment)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0075]
FIG. 5 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the first embodiment only in that an index adding circuit 51 and an index detecting circuit 52 are provided.
[0076]
The index adding circuit 51 is provided in a stage preceding the frame memory 34 (that is, between the MPEG audio decoder 3 and the speech speed conversion processing circuit 4). The index adding circuit 51 adds an index signal to the audio signal generated by the audio decoder 3 at a constant period according to the decode clock. The audio signal to which the index signal is added is output to the frame memory 34.
[0077]
The index detection circuit 52 detects an index signal added to the data read from the ring memory 32, and based on the time information and the current time obtained from the index signal, the speech speed conversion processing circuit 4 performs signal processing. The required time Δt is calculated, and a detection signal relating to the time Δt is supplied to the video decoder 12. The video decoder 12 controls its own operation timing in accordance with the detection signal related to the time Δt.
[0078]
As described above, according to the present embodiment, the following operations and effects can be obtained in addition to the operations and effects of the first embodiment.
(1) As described above, the video signal generated by the video decoder 12 and the audio signal generated by the audio decoder 3 are synchronously generated during normal reproduction. Therefore, when the voice speed conversion processing circuit 4 is provided between the audio decoder 3 and the D / A converter 5, the time required for signal processing in the voice speed conversion processing circuit 4 (that is, the delay time in the voice speed conversion processing circuit 4) ), The audio signal will be delayed.
[0079]
Therefore, an index signal is added to the audio signal input to the frame memory 34 in a predetermined cycle in advance by using the index adding circuit 51.
The index detection circuit 52 detects an index signal added to the data read from the ring memory 32, calculates a time Δt required for the speech speed conversion processing circuit 4 to perform signal processing, and generates a detection signal related to the time Δt. It is supplied to the video decoder 12. The video decoder 12 controls its own operation timing in accordance with the detection signal related to the time Δt. When the index detection circuit 52 next detects an index signal, the video decoder 12 delays or advances its own operation timing by the difference between the time calculated at that time and the time calculated last time. .
[0080]
As a result, regardless of the delay time in the speech speed conversion processing circuit 4, the data read from the ring memory 32 (that is, the audio signal subjected to the speech speed conversion process) can be synchronized with the video signal.
[0081]
(2) From the above (1), it is possible to reduce the time lag between the sound reproduced by the speaker 23 and the moving image reproduced on the display 22, and the lip sync deviation is within the allowable range of human hearing. Can be
[0082]
(3) The index signal added to the audio signal may be deleted by the silence deletion / insertion unit 42. However, if a sufficient number of index signals are added to the audio signal by shortening the cycle of adding the index signals, even if some of the index signals are deleted by the silent deletion insertion unit 42, A fixed number or more of index signals remain in the data read from the ring memory 32. With the remaining index signal, the operation and effect (1) can be obtained.
[0083]
(Third embodiment)
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the second embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0084]
FIG. 6 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the second embodiment only in that an index adding circuit 51 is provided between the frame memory 34 and the audio discriminating unit 41. The index adding circuit 51 adds an index signal to the audio signal read from the frame memory 34 at a constant period according to the decode clock. The audio signal to which the index signal has been added is output to the audio discrimination unit 41.
[0085]
As described above, when the frame memory 34 stores audio signals for two frames, it is sufficient that the storage capacity of the frame memory 34 is, for example, about 0.8 Kbytes. As described above, when the storage capacity of the frame memory 34 is small, the time required for the write operation and the read operation in the frame memory 34 (that is, the delay time in the frame memory 34) is smaller than the delay time in the speech speed conversion processing circuit 4. ) Is slight and can be ignored.
[0086]
Therefore, according to the present embodiment, the same operation and effect as those of the second embodiment can be obtained.
(Fourth embodiment)
Hereinafter, a fourth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the second embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0087]
FIG. 7 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the second embodiment only in that an index adding circuit 51 is provided between the audio discriminating unit 41, the silence deletion inserting unit 42, and the time axis compressing / expanding unit 43, respectively. . The index adding circuit 51 adds an index signal to the audio signal, which has been subjected to the signal processing in the audio discriminating unit 41, at a constant period in accordance with the decode clock. The audio signal to which the index signal is added is output to the silence deletion / insertion unit 42 and the time axis compression / expansion unit 43.
[0088]
As described above, when the storage capacity of the frame memory 34 is small, the delay time in the frame memory 34 is small compared to the delay time in the speech speed conversion processing circuit 4 and can be ignored.
[0089]
In addition, the time required for signal processing in the voice discriminating unit 41 (that is, the delay time in the voice discriminating unit 41) is shorter than the delay time in the speech speed conversion processing circuit 4 and can be ignored.
[0090]
Therefore, according to the present embodiment, the same operation and effect as those of the second embodiment can be obtained.
(Fifth embodiment)
Hereinafter, a fifth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the second embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0091]
FIG. 8 shows a block diagram of a main part of the present embodiment. The present embodiment is different from the second embodiment only in that an index adding circuit 51 is provided between the silent memory insertion / insertion unit 42 and the time axis compression / expansion unit 43 and the ring memory 32. The index adding circuit 51 adds an index signal to the audio signal that has been subjected to the signal processing in each of the units 42 and 43 at a constant period in accordance with the decode clock. The audio signal to which the index signal is added is output to the ring memory 32.
[0092]
As described above, when the storage capacity of the frame memory 34 is small, the delay time in the frame memory 34 is small compared to the delay time in the speech speed conversion processing circuit 4 and can be ignored.
[0093]
The time required for signal processing in each of the units 41 to 43 (that is, the delay time in each of the units 41 to 43) is shorter than the delay time in the speech speed conversion processing circuit 4 and can be ignored.
[0094]
That is, the delay time in the speech speed conversion processing circuit 4 is mainly determined by the time required for the write operation and the read operation in the ring memory 32 (that is, the delay time in the ring memory 32).
[0095]
Therefore, according to the present embodiment, the same operation and effect as those of the second embodiment can be obtained. Further, according to the present embodiment, the index signal added to the audio signal is not deleted by the silence deletion insertion unit 42 as in the second embodiment. Therefore, all of the added index signals are utilized and the number of index signals can be reduced, so that the circuit size of the index adding circuit 51 can be reduced.
[0096]
(Sixth embodiment)
Hereinafter, a sixth embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0097]
FIG. 9 shows a block diagram of a main part of the present embodiment. The present embodiment differs from the first embodiment only in that a delay time detection circuit 53 is provided.
As described above, the audio determination unit 41 determines whether the audio signal read from the frame memory 34 is an audio section or a silent section. That is, the processing result of the audio discriminating unit 41 includes information indicating whether or not audio is included in the audio signal.
[0098]
The decode clock corresponds to the bit rate of the system stream. That is, the decode clock contains information on the compression / expansion rate of the audio signal in advance.
[0099]
Therefore, the delay time detection circuit 53 detects the delay time in the speech speed conversion processing circuit 4 based on the information on whether or not the audio signal contains voice and the information on the compression / decompression rate, and outputs the detection signal. It is supplied to the video decoder 12. The video decoder 12 controls the timing of its own operation based on the detection signal of the delay time detection circuit 53. As a result, the data read from the ring memory 32 (that is, the audio signal subjected to the speech speed conversion processing) and the video signal can be synchronized regardless of the delay time in the speech speed conversion processing circuit 4.
[0100]
As described above, according to the present embodiment, the same effect as that of the second embodiment can be obtained.
(Seventh embodiment)
Hereinafter, a seventh embodiment of the present invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0101]
FIG. 10 shows a block diagram of a main part of the present embodiment. The present embodiment differs from the first embodiment only in that a control circuit 54 is provided.
The control circuit 54 generates a control signal for controlling the operation speed of the video decoder 12 based on the storage amount of the ring memory 32 detected by the up / down counter 33, and supplies the control signal to the video decoder 12. The video decoder 12 controls its own operation timing based on the control signal of the control circuit 54. As a result, the data read from the ring memory 32 and the video signal generated by the video decoder 12 can be synchronized.
[0102]
As described above, the delay time in the speech speed conversion processing circuit 4 is mainly determined by the delay time in the ring memory 32. The delay time in the ring memory 32 has a correlation with the accumulated amount, and the larger the accumulated amount, the longer the delay time. Therefore, if the operation speed of the video decoder 12 is controlled based on the storage amount of the ring memory 32, the synchronization between the data read from the ring memory 32 (that is, the audio signal subjected to the speech speed conversion process) and the video signal is synchronized. Can be taken.
[0103]
As described above, according to the present embodiment, the same effect as that of the second embodiment can be obtained.
(Eighth embodiment)
Hereinafter, an eighth embodiment of the invention will be described with reference to the drawings. In the present embodiment, the same components as those in the first embodiment have the same reference numerals, and a detailed description thereof will be omitted.
[0104]
FIG. 11 shows a block diagram of a main part of the present embodiment. This embodiment differs from the first embodiment only in that a delay time detection circuit 55 is provided.
[0105]
As described above, the processing result of the audio discriminating unit 41 includes information indicating whether or not audio is included in the audio signal.
The processing result of the time axis compression / expansion unit 43 includes information on the compression / expansion rate of the audio signal.
[0106]
Therefore, the delay time detection circuit 55 detects the delay time in the speech speed conversion processing circuit 4 based on information on whether or not the audio signal contains voice and information on the compression / decompression rate, and outputs the detection signal. It is supplied to the video decoder 12. The video decoder 12 controls its own operation timing based on the detection signal of the delay time detection circuit 55. As a result, regardless of the delay time in the speech speed conversion processing circuit 4, the data read from the ring memory 32 (that is, the audio signal subjected to the speech speed conversion process) can be synchronized with the video signal.
[0107]
As described above, according to the present embodiment, the same effect as that of the second embodiment can be obtained.
FIG. 12 shows a main block circuit of the MPEG video decoder 12 having the variable speed reproduction function.
[0108]
The MPEG video decoder 12 includes a bit buffer 202, a picture header detection circuit 203, an MPEG video decode core circuit (hereinafter abbreviated as a decode core circuit) 204, a variable threshold overflow determination circuit (hereinafter abbreviated as a determination circuit) 205, and a picture skip circuit. 206, a control core circuit 207. Each of the circuits 203 to 207 can be mounted on a one-chip LSI.
[0109]
The control core circuit 207 controls each of the circuits 2 to 6.
The MPEG video stream transferred from the AV parser 11 is input to the bit buffer 202.
[0110]
The bit buffer 202 is constituted by a ring memory composed of a RAM having a FIFO structure, and sequentially accumulates the transferred video stream as it is.
The picture header detecting circuit 203 detects a picture header attached to the head of each picture of the video stream stored in the bit buffer 202, and detects a picture type (I, P, B) defined in each picture header. I do.
[0111]
The control core circuit 207 reads a video stream for an appropriate picture from the bit buffer 202 every frame period based on the detection result of the picture header detection circuit 203 and the determination result of a determination circuit 205 described later. The video stream read from the bit buffer 202 remains in the bit buffer 202 even after being read.
[0112]
Each picture read from the bit buffer 202 is transferred to the decode core circuit 204 via the picture skip circuit 206.
The decode core circuit 204 decodes each picture according to the MPEG video part and generates a video signal for each picture.
[0113]
The picture skip circuit 206 switches connections to the nodes 206a and 206b under the control of the control core circuit 207. When the picture skip circuit 206 is connected to the node 206a, the picture read from the bit buffer 202 is transferred to the decode core circuit 204 as it is. When connected to the node 206b, the picture read from the bit buffer 202Decode core circuit 204Skipped without being forwarded to. As a result, the pictures transferred to the decode core circuit 204 are thinned out in picture units by the amount skipped by the picture skip circuit 206.
[0114]
The determination circuit 205 sets a threshold Bthn of the occupancy Bm of the bit buffer 202 based on the decode clock generated by the reproduction speed detection circuit 2 and compares the occupancy Bm of the bit buffer 202 with the threshold Bthn. The determination circuit 205 calculates the ratio between the frequency of the actual decode clock generated by the reproduction speed detection circuit 2 and the frequency of the decode clock during normal reproduction, and sets the ratio as the reproduction speed magnification n. Therefore, at the time of double speed reproduction, the magnification n = 2 and the threshold value Bthn = Bth2. Also, during normal reproduction, the magnification n = 1, and the threshold Bthn = Bth1.
[0115]
When the occupation amount Bm of the bit buffer 202 does not exceed the threshold value Bthn, the determination circuit 205 determines that the bit buffer 202 is normal without a risk of overflow. In this case, the control core circuit 207 reads a video stream for one picture from the bit buffer 202. Then, the control core circuit 207 connects the picture skip circuit 206 to the node 206a, and transfers the picture read from the bit buffer 202 to the decode core circuit 204.
[0116]
When the occupation amount Bm of the bit buffer 202 exceeds the threshold value Bthn, the determination circuit 205 determines that the bit buffer 202 may overflow. In this case, the control core circuit 207 reads a video stream of an appropriate picture from the bit buffer 202 until the occupation amount Bm of the bit buffer 202 falls below the threshold Bthn. Then, the control core circuit 207 connects the picture skip circuit 206 to the node 206b side, and skips all video streams for appropriate pictures read from the bit buffer 202.
[0117]
FIG. 13 shows a change in the occupation amount Bm of the bit buffer 202.
The occupancy Bm of the bit buffer 202 rises with the bit rate RB as the slope of the graph. The bit rate RB is defined as shown in Expression (1) according to the BR (Bit Rate) of the sequence header at the beginning of the sequence. The picture rate RP of the video stream transferred from the AV parser 11 is defined by the PR (Picture Rate) of the sequence header. The capacity B of the bit buffer 202 is defined as shown in Expression (2) according to VBV (Vbv [Video Buffering Verifyer] Buffer Size) of the sequence header. Then, for each frame period, a video stream for one picture which the decoding core circuit 204 is to decode at that time is read from the bit buffer 202 at a stretch. Here, the data amount X of the video stream input to the bit buffer 202 during one frame period is defined as shown in Expression (3) according to the bit rate RB and the picture rate RP. Accordingly, the occupation amount Bm (= B0 to B6) of the bit buffer 202 immediately after the video stream for one picture is read at a stretch from the bit buffer 202 is determined based on the data amount X and the capacity B of the bit buffer 202. It is defined so as to satisfy the condition shown in Expression (4).
[0118]
RB = 400 × BR (1)
B = 16 × 1024 × VBV (2)
X = RB / RP (3)
0 <Bm <BX = B- (RB / RP) (4)
If the occupation amount Bm of the bit buffer 202 is defined so as to satisfy the condition shown in Expression (4), the bit buffer 202 does not overflow or underflow. Conversely, when the occupation amount Bm of the bit buffer 202 exceeds the threshold value (BX), the possibility that the bit buffer 202 overflows due to the video stream input to the bit buffer 202 in the next one frame period is extremely high. Become.
[0119]
In the video decoder 12, during normal reproduction, the values of the bit rate RB, the picture rate RP, and the capacity B are defined so as to satisfy Expression (4). That is, if the capacity B of the bit buffer 202 is set as shown in the equation (2), even if the connection of the picture skip circuit 206 is fixed to the node 206a side, the bit buffer 202 in an ideal state Does not overflow or underflow.
[0120]
Therefore, at the time of normal reproduction, the occupancy Bm (= B0 to B4) immediately after data for one picture is read at a stretch from the bit buffer 202 is determined based on the threshold value Bth1 and the condition shown in Expression (5). Stipulated to be satisfied. The threshold value Bth1 is set based on the equation (4) as shown in the equation (6).
[0121]
0 <Bm <Bth1 <B (5)
Bth1 = BX = B- (RB / RP) (6)
By the way, in an actual state, even if the capacity B of the bit buffer 202 is set as shown in the equation (2), if the connection of the picture skip circuit 206 is fixed to the node 206a side, the bit buffer 202 There is a risk of overflow.
[0122]
However, the video decoder 12 determines that the bit buffer 202 may overflow when the occupation amount Bm of the bit buffer 202 exceeds the threshold value Bth1 during normal reproduction. Then, a video stream for an appropriate picture is read from the bit buffer 202 until the occupation amount Bm of the bit buffer 202 falls below the threshold value Bth1. The picture skip circuit 206 is connected to the node 206b, and skips all video streams of appropriate pictures read from the bit buffer 202. Therefore, according to the video decoder 12, the bit buffer 202 does not overflow during normal reproduction.
[0123]
The occupancy Bm of the bit buffer 202 at the time of high-speed reproduction increases with the bit rate n × RB as the gradient of the graph. For example, the occupancy Bm of the bit buffer 202 at the time of 2 × speed reproduction increases with the bit rate 2 × RB as the slope of the graph.
[0124]
Therefore, at the time of high-speed reproduction, the occupation amount Bm (= B0 to B4) immediately after the data for one picture is read at a stretch from the bit buffer 202 satisfies the condition shown in Expression (7) based on the threshold value Bthn. It is specified as follows. Note that the threshold value Bthn is set as shown in Expression (8).
[0125]
0 <Bm <Bthn (7)
Bthn = B−n × X = B− (n × RB / RP) (8)
At the time of high-speed reproduction, when the occupation amount Bm of the bit buffer 202 exceeds the threshold value Bthn, it is determined that the bit buffer 202 may overflow. For example, when the occupation amount Bm exceeds the threshold value Bth2 (= B− (2 × RB / RP)) at the time of double speed reproduction, the occupation amount Bm becomes the threshold value Bth3 (= B− (3 × RB / RP)) at the time of triple speed reproduction. ), It is determined that the bit buffer 202 may overflow. Then, a video stream for an appropriate picture is read from the bit buffer 202 until the occupation amount Bm of the bit buffer 202 falls below the threshold value Bthn, and all the video streams are skipped. Therefore, according to the video decoder 12, the bit buffer 202 does not overflow during high-speed reproduction.
[0126]
If the bit buffer 202 overflows during the decoding of an arbitrary picture in the decoding core circuit 204, the newly input video stream is overwritten on the remaining portion of the bit buffer 202 of the picture being decoded. You. As a result, the portion of the picture being decoded that remains in the bit buffer 202 is destroyed and lost. Then, the decoding core circuit 204 cannot complete the decoding of the picture, and cannot generate a video signal of the picture. Therefore, it is absolutely necessary to prevent the bit buffer 202 from overflowing while the decoding core circuit 204 is decoding an arbitrary picture.
[0127]
Therefore, it is necessary to determine whether or not the bit buffer 202 may overflow before the decoding core circuit 204 starts decoding an arbitrary picture. More precisely, when the picture header detection circuit 203 detects the picture header, it is determined whether or not the bit buffer 202 may overflow, and it is determined whether or not the picture is skipped via the picture skip circuit 206. There is a need to.
[0128]
By the way, the data amount of one picture is 0 to 40 bytes, but the data amount cannot be known until the decoding in the decode core circuit 204 is completed. The decoding processing time of one picture depends on the data amount of the picture and the operation speed of the decoding core circuit 204, but is usually about 1/3 to 3/4 of one frame period.
[0129]
When the data amount of a picture read from the bit buffer 202 is 0 bytes, the occupation amount Bm of the bit buffer 202 does not change before and after the reading of the picture, so that even if the picture is skipped, overflow cannot be avoided. . Conversely, even when the data amount of the picture read from the bit buffer 202 is 0 bytes, there is no overflow if the bit buffer 202 has a sufficient free space.
[0130]
Therefore, a free space for the data amount of the video stream input to the bit buffer 202 in one frame period is secured in the bit buffer 202. Then, even if the data amount of the picture read from the bit buffer 202 is 0 bytes, no overflow occurs.
[0131]
The data amount of the video stream input to the bit buffer 202 during one frame period is (n × X = n × RB / RP). If the free space of the bit buffer 202 is equal to or larger than this data amount, no overflow occurs. Therefore, if the threshold value Bthn is set as shown in Expression (8), the overflow of the bit buffer 202 can be reliably avoided.
[0132]
That is, the determination circuit 205 checks the free space of the bit buffer 202 when the picture header detection circuit 203 detects the picture header, and determines whether a sufficient free space (n × X = n × RB / RP) is secured. Determine whether If sufficient free space is not secured, the control core circuit 207 skips the picture read from the bit buffer 202 based on the picture header via the picture skip circuit 206. Subsequently, when the picture header detection circuit 203 detects the next picture header, the determination circuit 205 checks the free space of the bit buffer 202 again. Since the time required for these processes is much shorter than the decoding process time of the decode core circuit 204, even if the decoding process of the decode core circuit 204 is started after a sufficient free space is secured in the bit buffer 202. In time.
[0133]
By the way, the bit buffer 202 may underflow when the picture header detection circuit 203 detects the picture header or after the decoding core circuit 204 starts decoding. In this case, as soon as the video stream is input to the bit buffer 202, the video stream for one picture may be sequentially read from the bit buffer 202, so that there is no particular problem.
[0134]
As described in detail above, according to the video decoder 12, the following effects can be obtained.
(1) At the time of normal reproduction, overflow of the bit buffer 202 can be avoided.
[0135]
{Circle over (2)} At the time of high-speed reproduction, overflow of the bit buffer 202 can be avoided.
(3) By providing the determination circuit 205 and the picture skip circuit 206, overflow of the bit buffer 202 can be avoided. As described above, since the control of the determination circuit 205 and the picture skip circuit 206 is simple, the control core circuit 207 does not need to be configured using a microcomputer. When the circuits 203 to 207 are mounted on a one-chip LSI, the size of the video decoder 12 can be reduced.
[0136]
(4) The video stream skipped from the node 206b side of the picture skip circuit 206 is a picture unit. Therefore, data is not interrupted in the middle of the picture transferred to the decode core circuit 204. Therefore, the decode core circuit 204 can decode not only an I picture but also a P picture and a B picture. As a result, dropped frames occurring in the moving image reproduced on the display 22 are reduced. Therefore, it is possible to display several frames per second at the time of relatively slow high-speed reproduction of 2 to 4 times. Therefore, it is possible to smooth the motion of the moving image at the time of high-speed reproduction and to greatly improve the image quality.
[0137]
By the way, in the video decoder 12, the two thresholds B2thn and B3thn may be set so as to satisfy the rule shown in Expression (9). The values of the thresholds B2thn and B3thn are set according to the reproduction speed as described above, and may be set as appropriate by actually considering the image quality of the moving image reproduced on the display 22.
[0138]
0 <B3thn <B2thn <B (9)
The determination circuit 205 compares the occupation amount Bm of the bit buffer 202 with each of the thresholds Bthn and B2thn, and determines in which area the occupation amount Bm is included in Expressions (10) to (12).
[0139]
Bm <B3thn ... (10)
B3thn <Bm <B2thn (11)
B2thn <Bm (12)
When the occupation amount Bm of the bit buffer 202 does not exceed the threshold value B3thn as shown in Expression (10), the determination circuit 205 determines that the bit buffer 202 is normal without a risk of overflow. In this case, the control core circuit 207 reads a video stream for one picture from the bit buffer 202. Then, the control core circuit 207 connects the picture skip circuit 206 to the node 206a, and transfers the picture read from the bit buffer 202 to the decode core circuit 204.
[0140]
When the occupation amount Bm of the bit buffer 202 exceeds the threshold value B2thn and does not exceed the threshold value Bthn, the determination circuit 205 determines whether the picture read from the bit buffer 202 is an I picture or a P picture, as shown in Expression (12). If so, set the first flag. Further, as shown in Expression (11), when the occupation amount Bm of the bit buffer 202 exceeds the threshold value B3thn and does not exceed the threshold value B2thn, if the picture read from the bit buffer 202 is a P picture, the second Set the flag. When the first or second flag is set, the control core circuit 207 sets the picture skip circuit 206 to the node 206b if the picture read from the bit buffer 202 is a B picture, even in the case of the equation (10). And skip that picture.
[0141]
FIG. 13 shows a change in the occupation amount Bm of the bit buffer 202 when two threshold values B2thn and B3thn are set.
When the occupation amount Bm exceeds the threshold value B3thn, if the picture read from the bit buffer 202 is a B picture, the picture is skipped without decoding (* 1 in the figure). Here, even if the occupation amount Bm still exceeds the threshold B3thn after the skipping of the B picture, if the picture read next from the bit buffer 202 is an I picture or a P picture, decoding is performed (illustration * 2).
[0142]
Even when the occupation amount Bm exceeds the threshold value B3thn, if the picture read from the bit buffer 202 is an I picture or a P picture, decoding is performed (illustration * 3). Here, if the occupation amount Bm still exceeds the threshold value B3thn after the decoding of the I picture or the P picture, if the picture read out next from the bit buffer 202 is a B picture, the picture is skipped without decoding (illustration *). 4). This skipping of the B picture is repeated until the occupation amount Bm falls below the threshold value B3thn (illustration * 5).
[0143]
When the occupation amount Bm exceeds the threshold value B2thn, if the picture read from the bit buffer 202 is an I picture or a P picture, the determination circuit 205 sets a first flag (illustration * 6). When the first flag is set, if the next picture read from the bit buffer 202 is a B picture, the B picture is skipped even if the occupation amount Bm is below the threshold value B3thn (illustrated * 7). ).
[0144]
When the occupation amount Bm exceeds the threshold value B3thn and does not exceed the threshold value B2thn, if the picture read from the bit buffer 202 is a P picture, the determination circuit 205 sets a second flag (illustration * 8). When the second flag is set, if the next picture read from the bit buffer 202 is a B picture, the B picture is skipped even if the occupation amount Bm is below the threshold B3thn (see FIG. 9). ).
[0145]
When the occupation amount Bm exceeds the threshold value B3thn and does not exceed the threshold value B2thn, and the picture read from the bit buffer 202 is an I picture, the determination circuit 205 does not set the second flag (illustration * 10). When the second flag is not set, if the occupation amount Bm is smaller than the threshold value B3thn, decoding is performed even if the next picture read from the bit buffer 202 is a B picture.
[0146]
As described above, when the two thresholds B2thn and B3thn are set, the following effects can be obtained in addition to the effects (1) to (3) of the video decoder 12 described above.
{Circle around (4)} When the occupation amount Bm of the bit buffer 202 exceeds the threshold value B3thn and does not exceed the threshold value Bthn, the I picture and the P picture are decoded as much as possible and the B picture is skipped with priority.
[0147]
Since the B picture is generated by bidirectional prediction, its importance is lower than that of an I picture or a P picture. Therefore, by skipping the B-picture of low importance with priority, it is possible to further reduce the number of dropped frames that occur in the moving image reproduced on the display 22. As a result, the motion of the moving image during high-speed reproduction can be further smoothed, and the image quality can be further improved.
[0148]
(5) By setting the first flag, even if the occupation amount Bm of the bit buffer 202 falls below the threshold value B3thn after decoding the I picture or the P picture, the B picture to be read next from the bit buffer 202 with a margin is provided. It can be skipped in advance. Also, by setting the second flag, even if the occupation amount Bm of the bit buffer 202 falls below the threshold value B3thn after decoding the P picture, the B picture read out from the bit buffer 202 is skipped in advance with a margin. Can be.
[0149]
In this way, skipping the B picture in advance is nothing but taking a preventive measure against the next overflow of the bit buffer 202. Therefore, overflow of the bit buffer 202 can be avoided more reliably.
[0150]
(6) The data amount of the I picture is as large as two to three times that of the P picture. Therefore, the degree of reduction in the occupation amount Bm of the bit buffer 202 is greater when an I picture is read than when a P picture is read. Therefore, the possibility that the bit buffer 202 overflows is smaller after the I picture is read than after the P picture is read. Therefore, by setting the first and second flags, the precautionary measures are differentiated between the I picture and the P picture. That is, by setting the threshold value B2thn of the preventive measure for the I picture to a value higher than the threshold value B3thn of the preventive measure for the P picture, the preventive measure for the I picture can be less strict than that of the P picture. As a result, unnecessary skips of B pictures can be reduced.
[0151]
{Circle around (7)} Simulation was performed on a case where a video stream having the following GOP configuration (arrangement of picture types) shown in a) and b) was transferred from the AV parser 11, and the following results were obtained.
[0152]
a) IBPBPBPBP ...
b) IBBPBBPBBPBBPBBIBP ...
[1] At the time of 2 × speed reproduction; in the case of a), all of the I picture and the P picture can be decoded, and as a result, they can be displayed at a full rate of 30 frames / sec. In the case of b), all of the I and P pictures and a part of the B picture can be decoded, and as a result, they can be displayed at 25 frames / second or more.
[0153]
[2] During quadruple-speed playback; a) and b) can decode an I picture and 3 to 4 subsequent P pictures, and as a result, can display at 15 frames / second or more.
Incidentally, in the second and third embodiments, the operation speed of the video decoder 12 may be controlled by controlling the speed of the decoding process in the decode core circuit 204.
[0154]
The above embodiments may be modified as follows, and the same operation and effect can be obtained in such a case.
(1) The ring memory 32 is provided not at the stage after the DSP 31 but at the stage before the DSP 31 (that is, between the MPEG audio decoder 3 and the DSP 31).
[0155]
(2) Each of the circuits 1, 11, and 12 constituting the MPEG reproducing apparatus 23 is mounted on a one-chip LSI. By doing so, the size of the MPEG playback device 23 can be reduced.
[0156]
(3) In the second to eighth embodiments, instead of controlling the operation speed of the video decoder 12, a delay circuit is inserted between the video decoder 12 and the display 22, and the delay time of the delay circuit is controlled.
[0157]
(4) Any two or more of the second to eighth embodiments are appropriately combined and implemented. In this case, a more excellent effect can be obtained by the synergistic action of the combined embodiments.
[0158]
(5) The first to eighth embodiments are replaced with software processing using a CPU. That is, the signal processing in each of the circuits (1 to 55) is replaced with software signal processing using a CPU.
[0159]
(6) In the MPEG video decoder 12 shown in FIG. 12, the picture skip circuit 206 has each of the nodes 206a and 206b for easy understanding, and the connection of each of the nodes 206a and 206b is controlled by the control core circuit 207. However, instead of this configuration, the picture skip circuit 206 may be configured by a logic circuit that allows only the pictures to be decoded by the decode core circuit 204 to pass under the control of the control core circuit 207. .
[0160]
As described above, each embodiment embodying the present invention has been described. However, technical ideas other than the claims that can be grasped from the above embodiment will be described below together with their effects.
(I)Claims 1-35. The MPEG audio reproducing apparatus according to claim 1, further comprising: a D / A converter (5) for D / A converting the audio signal; and an audio amplifier (6) for amplifying an output of the D / A converter. Audio playback device.
[0161]
In this way, an analog signal for driving a speaker can be generated from a digital audio signal.
(B)Claims 4 to 82. The MPEG reproducing apparatus according to claim 1, further comprising a demultiplexer (13) for separating the MPEG system stream read from the recording medium (21) into an MPEG audio stream and an MPEG video stream. .
[0162]
This makes it possible to transfer the audio stream to the audio decoder and the video stream to the video decoder.
[0163]
【The invention's effect】
Claims 1-3According to the invention described in any one of the above, it is possible to provide an MPEG audio reproducing apparatus capable of reproducing natural and easy-to-listen sound even during variable speed reproduction.
[0164]
Claim 4According to the invention described in (1), it is possible to provide an MPEG reproducing apparatus including an MPEG audio reproducing apparatus and an MPEG video decoder which can reproduce natural and easy-to-listen sound even at the time of variable speed reproduction.
[0165]
Claims 5-8According to the invention described in any one of the above, an MPEG audio playback device and an MPEG video decoder capable of reproducing natural and easy-to-listen sound even at the time of variable speed reproduction are provided, and a time lag between the sound and the moving image is provided. MPEG reproducing apparatus capable of reducing the number of pixels can be provided.
[Brief description of the drawings]
FIG. 1 is a block circuit diagram of a first embodiment.
FIG. 2 is a main part block circuit diagram of the first embodiment.
FIG. 3 is a schematic diagram for explaining the operation of the first embodiment.
FIG. 4 is a schematic diagram for explaining the operation of the first embodiment.
FIG. 5 is a main part block circuit diagram of a second embodiment.
FIG. 6 is a main part block circuit diagram of a third embodiment.
FIG. 7 is a main part block circuit diagram of a fourth embodiment.
FIG. 8 is a main part block circuit diagram of a fifth embodiment.
FIG. 9 is a main part block circuit diagram of a sixth embodiment.
FIG. 10 is a main part block circuit diagram of a seventh embodiment.
FIG. 11 is a main part block circuit diagram of an eighth embodiment.
FIG. 12 is a main part block circuit diagram of an MPEG video decoder.
FIG. 13 is a graph for explaining the operation of the MPEG video decoder.
FIG. 14 is a graph for explaining the operation of the MPEG video decoder.
[Explanation of symbols]
1. MPEG audio playback device
2. Reproduction speed detection circuit as speech speed conversion means
3. MPEG audio decoder
4: Speech speed conversion processing circuit as speech speed conversion means
12 ... MPEG video decoder
21: Recording medium
32 ... Ring memory
33 ... Up / down counter as detection means
41: voice discrimination unit
42: Silence deletion insertion section
43: Time axis compression / expansion unit
51 ... Index addition circuit
52 ... Index detection circuit
53, 55 ... delay time detection circuit
54 ... Control circuit

Claims (8)

記録媒体から読み出されたMPEGオーディオストリームをMPEGオーディオパートに準拠してデコードし、オーディオ信号を生成するMPEGオーディオデコーダと、
オーディオ信号に対して話速変換処理を行う話速変換処理手段とを備え、
話速変換処理手段は、オーディオストリームのビットレートが通常時よりも大きい場合には、再生される音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするようにして話速変換処理を行い、オーディオストリームのビットレートが通常時よりも小さい場合には、再生される各音声区間の時間長さを長くすると共に各無音区間の時間長さを短くするか、または、各無音区間を削除して各音声区間をつなぎ合わせた後に無音区間を挿入するようにして話速変換処理を行うMPEGオーディオ再生装置。
An MPEG audio decoder that decodes the MPEG audio stream read from the recording medium in accordance with the MPEG audio part and generates an audio signal;
Speech speed conversion processing means for performing a speech speed conversion process on the audio signal,
When the bit rate of the audio stream is higher than normal, the speech speed conversion processing means increases the time length of each voice section to be reproduced and shortens the time length of each silent section. If the bit rate of the audio stream is lower than the normal time when the bit rate of the audio stream is lower than the normal time, the time length of each voice section to be reproduced is increased and the time length of each silent section is shortened, or An MPEG audio playback apparatus that performs a speech speed conversion process by deleting a silent section and connecting voice sections and then inserting a silent section.
請求項1に記載のMPEGオーディオ再生装置において、
話速変換処理手段は、
オーディオ信号を蓄積するリングメモリと、
リングメモリの蓄積量を検出する検出手段とを備え、
リングメモリの蓄積量に応じて音声区間の時間長さの圧縮伸長率を調整するMPEGオーディオ再生装置。
The MPEG audio playback device according to claim 1 ,
The speech speed conversion processing means ,
A ring memory for storing audio signals,
Detecting means for detecting the accumulated amount of the ring memory,
An MPEG audio reproducing apparatus that adjusts a compression / expansion rate of a time length of an audio section according to a storage amount of a ring memory.
請求項2に記載のMPEGオーディオ再生装置において、
話速変換処理手段は、
オーディオ信号の音声区間と無音区間とを判別する音声判別部と、
無音区間の削除処理または挿入処理を行う無音削除挿入部と、
リングメモリの蓄積量に基づいて音声区間の圧縮伸長処理を行うことで圧縮伸長率を調整する時間軸圧縮伸長部とを備えたMPEGオーディオ再生装置。
The MPEG audio playback device according to claim 2 ,
The speech speed conversion processing means ,
A voice discriminating unit that discriminates between a voice section and a silent section of the audio signal;
Silence deletion insertion unit that performs deletion processing or insertion process silent section,
An MPEG audio reproducing apparatus comprising: a time axis compression / expansion unit that adjusts a compression / expansion rate by performing compression / expansion processing of a voice section based on the storage amount of a ring memory .
請求項1〜3のいずれか1項に記載のMPEGオーディオ再生装置と、
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダとを備えたMPEG再生装置。
An MPEG audio playback device according to any one of claims 1 to 3 ,
An MPEG reproducing apparatus comprising: an MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal.
請求項2または請求項3に記載のMPEGオーディオ再生装置と、
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
リングメモリに書き込まれる以前のオーディオ信号に、時刻に関する情報としてのインデックス信号を付加するインデックス付加回路と、リングメモリから読み出されたオーディオ信号に付加されているインデックス信号を検出し、そのインデックス信号から得られる時刻情報と現在の時刻情報とから、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダへ供給するインデックス検出回路とを備え、
MPEGビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。
An MPEG audio playback device according to claim 2 or claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
An index addition circuit that adds an index signal as information about time to an audio signal before being written to the ring memory , and detects an index signal added to the audio signal read from the ring memory , and detects the index signal from the index signal. An index detection circuit for detecting a signal delay time in the speech speed conversion processing means from the obtained time information and the current time information, and supplying a signal indicating the detected delay time to the MPEG video decoder ;
An MPEG video decoder , wherein the MPEG video decoder controls its own operation timing based on the signal indicating the delay time.
請求項3に記載のMPEGオーディオ再生装置と、
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
音声判別部の処理結果と、オーディオストリームのビットレートとに基づいて、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダへ供給する遅延時間検出回路とを備え、
MPEGビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。
An MPEG audio playback device according to claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
Based on the processing result of the audio discrimination unit and the bit rate of the audio stream, a signal delay time in the speech speed conversion processing means is detected, and a signal indicating the detected delay time is supplied to the MPEG video decoder . And a circuit ,
An MPEG video decoder , wherein the MPEG video decoder controls its own operation timing based on the signal indicating the delay time.
請求項3に記載のMPEGオーディオ再生装置と、
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
リングメモリの蓄積量に基づいて、話速変換処理済みのオーディオ信号とビデオ信号との同期を得るための制御信号を生成し、その制御信号をMPEGビデオデコーダへ供給する制御回路とを備え、
MPEGビデオデコーダは、前記制御信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。
An MPEG audio playback device according to claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
A control circuit for generating a control signal for obtaining synchronization between the audio signal and the video signal subjected to the speech speed conversion processing based on the storage amount of the ring memory , and supplying the control signal to the MPEG video decoder ;
An MPEG video decoder , wherein the MPEG video decoder controls the timing of its own operation based on the control signal.
請求項3に記載のMPEGオーディオ再生装置と、
記録媒体から読み出されたMPEGビデオストリームをMPEGビデオパートに準拠してデコードし、ビデオ信号を生成するMPEGビデオデコーダと、
音声判別部および時間軸圧縮伸長部の処理結果に基づいて、話速変換処理手段における信号遅延時間を検出し、その検出された遅延時間を示す信号をMPEGビデオデコーダへ供給する遅延時間検出回路とを備え、
MPEGビデオデコーダは、前記遅延時間を示す信号に基づいて自己の動作のタイミングを制御するMPEG再生装置。
An MPEG audio playback device according to claim 3 ,
An MPEG video decoder that decodes an MPEG video stream read from a recording medium in accordance with an MPEG video part and generates a video signal;
A delay time detecting circuit for detecting a signal delay time in the speech speed conversion processing means based on the processing results of the audio discriminating unit and the time axis compression / expansion unit , and supplying a signal indicating the detected delay time to the MPEG video decoder ; With
An MPEG video decoder , wherein the MPEG video decoder controls its own operation timing based on the signal indicating the delay time.
JP16945496A 1995-06-30 1996-06-28 MPEG audio playback device and MPEG playback device Expired - Lifetime JP3594409B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP16945496A JP3594409B2 (en) 1995-06-30 1996-06-28 MPEG audio playback device and MPEG playback device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP16638595 1995-06-30
JP7-166385 1995-06-30
JP16945496A JP3594409B2 (en) 1995-06-30 1996-06-28 MPEG audio playback device and MPEG playback device

Publications (2)

Publication Number Publication Date
JPH0973299A JPH0973299A (en) 1997-03-18
JP3594409B2 true JP3594409B2 (en) 2004-12-02

Family

ID=26490781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16945496A Expired - Lifetime JP3594409B2 (en) 1995-06-30 1996-06-28 MPEG audio playback device and MPEG playback device

Country Status (1)

Country Link
JP (1) JP3594409B2 (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3063682B2 (en) * 1997-06-05 2000-07-12 日本電気株式会社 Video / audio decoder having audio playback time control function
JP3017715B2 (en) 1997-10-31 2000-03-13 松下電器産業株式会社 Audio playback device
KR100287366B1 (en) 1997-11-24 2001-04-16 윤순조 Portable device for reproducing sound by mpeg and method thereof
JP2000050182A (en) * 1998-08-03 2000-02-18 Japan Advanced Inst Of Science & Technology Hokuriku Method for processing audio signal for a-v
US6292454B1 (en) * 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
JP3468183B2 (en) 1999-12-22 2003-11-17 日本電気株式会社 Audio reproduction recording apparatus and method
JP2001222300A (en) * 2000-02-08 2001-08-17 Nippon Hoso Kyokai <Nhk> Voice reproducing device and recording medium
JP2001344905A (en) 2000-05-26 2001-12-14 Fujitsu Ltd Data reproducing device, its method and recording medium
JP2002268692A (en) * 2001-03-14 2002-09-20 Sanyo Electric Co Ltd Data reproducing device
JP2003006991A (en) * 2001-06-21 2003-01-10 Sony Corp Digital signal processor, digital signal processing method, and digital signal regenerative reception system
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
JP4007331B2 (en) 2004-02-24 2007-11-14 ソニー株式会社 Playback apparatus and method
JP4460580B2 (en) * 2004-07-21 2010-05-12 富士通株式会社 Speed conversion device, speed conversion method and program
WO2006137425A1 (en) * 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus
JP4687908B2 (en) * 2006-09-22 2011-05-25 カシオ計算機株式会社 Movie playback apparatus and program thereof
JP4743084B2 (en) * 2006-11-07 2011-08-10 カシオ計算機株式会社 Recording apparatus and recording program
JP2011055386A (en) * 2009-09-04 2011-03-17 Sanyo Electric Co Ltd Audio signal processor, and electronic apparatus
KR101430118B1 (en) 2010-04-13 2014-08-18 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
JP6181921B2 (en) * 2012-11-20 2017-08-16 日本放送協会 Voice reproduction apparatus, voice synthesis reproduction apparatus, and programs thereof
JP6519316B2 (en) * 2015-05-25 2019-05-29 ヤマハ株式会社 Sound material processing apparatus and sound material processing program

Also Published As

Publication number Publication date
JPH0973299A (en) 1997-03-18

Similar Documents

Publication Publication Date Title
US5809454A (en) Audio reproducing apparatus having voice speed converting function
JP3594409B2 (en) MPEG audio playback device and MPEG playback device
JP3053541B2 (en) Synchronous variable speed playback of digitally recorded audio and video
JP4717060B2 (en) Recording / reproducing apparatus, recording / reproducing method, recording medium storing recording / reproducing program, and integrated circuit used in recording / reproducing apparatus
US7400685B2 (en) Decoding method and apparatus and recording method and apparatus for moving picture data
JP3063838B2 (en) Audio / video synchronous playback apparatus and method
KR100290331B1 (en) Synchronous playback device for audio-video signals
JP3197766B2 (en) MPEG audio decoder, MPEG video decoder and MPEG system decoder
US6339760B1 (en) Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data
JP4098420B2 (en) Synchronous reconstruction method and apparatus for acoustic data and moving image data
JP2003046949A (en) Data multiplexing method, data recording medium, data recording apparatus, and data recording program
US10244271B2 (en) Audio recording device, audio recording system, and audio recording method
JP2005519537A (en) Delete and mute audio data playing in trick mode
WO2004047441A1 (en) Transmission device, transmission method, reproduction device, reproduction method, program, and recording medium
US5896099A (en) Audio decoder with buffer fullness control
JP3416403B2 (en) MPEG audio decoder
JP3622235B2 (en) Multiplexed data decoding apparatus
WO2006040827A1 (en) Transmitting apparatus, receiving apparatus and reproducing apparatus
JP3986147B2 (en) Acoustic signal processing apparatus and audio high-speed playback method
JP3926102B2 (en) MPEG video / audio data recording system and editing system thereof
JP2004088530A (en) Moving picture audio data storage management apparatus and editing method
JP2003216195A (en) Mpeg (motion picture experts group) audio decoder
JP3338426B2 (en) MPEG video decoder
JP2003259287A (en) Multimedia communication equipment
JP2004153631A (en) Digital image and sound recorder

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040831

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070910

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100910

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110910

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110910

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120910

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120910

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 9

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term