JP5358270B2 - デジタル信号再生装置及びデジタル信号圧縮装置 - Google Patents

デジタル信号再生装置及びデジタル信号圧縮装置 Download PDF

Info

Publication number
JP5358270B2
JP5358270B2 JP2009109596A JP2009109596A JP5358270B2 JP 5358270 B2 JP5358270 B2 JP 5358270B2 JP 2009109596 A JP2009109596 A JP 2009109596A JP 2009109596 A JP2009109596 A JP 2009109596A JP 5358270 B2 JP5358270 B2 JP 5358270B2
Authority
JP
Japan
Prior art keywords
audio
unit
bitstream
video
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009109596A
Other languages
English (en)
Other versions
JP2010256805A (ja
Inventor
浩 池田
修二 宮阪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009109596A priority Critical patent/JP5358270B2/ja
Priority to CN2010800184452A priority patent/CN102414744B/zh
Priority to PCT/JP2010/002924 priority patent/WO2010125776A1/ja
Publication of JP2010256805A publication Critical patent/JP2010256805A/ja
Priority to US13/281,002 priority patent/US20120039397A1/en
Application granted granted Critical
Publication of JP5358270B2 publication Critical patent/JP5358270B2/ja
Priority to US14/572,751 priority patent/US20150104158A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本明細書で開示される技術は、人の声を含むオーディオ信号が符号化されたビットストリームの再生処理を行うデジタル信号再生装置、及び人の声を含むオーディオ信号からビットストリームを生成するデジタル信号圧縮装置に関する。
テレビ放送信号をデジタル圧縮し、DVD(Digital Versatile Disc)、BD(Blu-ray Disc)、HDD(Hard Disk Drive)等の蓄積媒体に記録するレコーダ機器の開発が行われている。特に近年では、記憶媒体の記憶容量の増大に伴い、長時間のテレビ放送の記録が可能になった。このため、録りためた番組が膨大となり、ユーザーがそれを視聴するための十分な時間を取れないという状況になりつつある。
そこで、記録された番組を、記録に要した時間より短い時間で再生する高速再生機能がレコーダ機器に搭載されている。例えば、1.5倍速再生の場合には、1時間の番組を40分で再生することができる。ところが、そのような高速再生を行うと、台詞やアナウンス等の言葉が聞き取りにくくなる。
これに対処するため、台詞やアナウンス等の音声(人の声)を含む区間はあまり高速に再生せず、音声のない区間を高速に再生するような技術が開発されている。例えば、特許公報1には、次のような技術が開示されている。すなわち、オーディオデータの解析を行って区間ごとの再生速度を決定して蓄積しておき、実際にオーディオ信号等を再生する際に、すでに決定されていた再生速度に従って再生する。特許公報2には、蓄積することなく、オーディオデータに基づいて決定された再生速度に従ってオーディオ信号等を再生する技術が開示されている。
特開2003−309814号公報 国際公開第2006/082787号
しかしながら、特許文献1及び特許文献2のような構成では、ビットストリームを復号して得られた時間領域の信号であるPCM(Pulse Code Modulation)信号から、人の声が含まれているか否かを検出しなければならないので、膨大な量の演算が必要となる。このような検出には、PCM信号の周波数特性が人の声の周波数特性に類似しているか、PCM信号の基本周波数(ピッチ周波数)が人の声の特徴と合致するか等を判定する必要があり、周波数領域の信号への変換や自己相関処理等、演算量の大きな信号処理が必要であるからである。
本発明は、人の声が含まれている区間の判定を少ない演算量で行うデジタル信号再生装置を提供することを目的とする。また、本発明は、人の声が含まれている区間の判定が容易になるようなビットストリームを生成するデジタル信号圧縮装置を提供することを目的とする。
本発明の実施形態によるデジタル信号再生装置は、オーディオビットストリームをデコードし、得られたオーディオ信号を出力するオーディオデコード部と、前記オーディオビットストリームが人の声を含むか否かを解析するオーディオビットストリーム解析部と、前記オーディオビットストリーム解析部での解析結果に基づいて再生速度を決定する再生速度決定部と、前記再生速度決定部で決定された再生速度に従って前記オーディオ信号を再生する可変速再生部とを有する。前記オーディオビットストリーム解析部は、前記オーディオビットストリームにおいて予測符号化されている頻度、又は、前記オーディオビットストリームにおいて周波数領域の信号への変換が行われている頻度を、所定の長さの区間ごとに解析する。前記再生速度決定部は、それぞれの区間について、予測符号化、又は周波数領域の信号への変換がされている頻度が所定の閾値より高い場合には、再生速度を目標再生速度より低速に決定し、その他の場合には、再生速度を前記目標再生速度より高速に決定する。
これによると、音声が含まれているか否かを、デコード前のオーディオビットストリームから直接判定するので、音声が含まれているか否かの判定に要する演算量を減少させることができる。
本発明の実施形態によるデジタル信号圧縮装置は、所定の長さの区間ごとにオーディオ信号を解析し、前記オーディオ信号の区間内に人の声の成分が含まれている度合いを示す指数を検出するオーディオ信号解析部と、前記オーディオ信号の前記指数に対応する区間を、前記指数が所定の閾値より大きい場合には予測符号化方式で符号化し、前記指数が前記所定の閾値以下である場合には周波数変換符号化方式で符号化し、得られた符号化データを出力するオーディオエンコード部と、前記オーディオ信号から低周波成分を抽出して出力する低周波成分抽出部と、前記オーディオ信号の高周波成分を、帯域拡大技術を用いて符号化し、得られた符号化データを出力する高周波成分符号化部と、多重化部とを有する。前記オーディオ信号解析部は、前記低周波成分抽出部で抽出された低周波成分を解析する。前記オーディオエンコード部は、前記低周波成分抽出部で抽出された低周波成分を符号化して出力する。前記多重化部は、高周波成分符号化部で生成された符号化データと前記オーディオエンコード部で生成された符号化データとを多重化して、オーディオビットストリームを生成する。
これによると、エンコード品質を向上させることができる。更に、得られた符号化データの再生時には、予測符号化方式が用いられている頻度を解析するのみで、容易に音声が含まれているか否かの判定が可能となる。
本発明の実施形態によれば、デジタル信号再生装置において、音声が含まれているか否かの判定に要する演算量を減少させることができる。また、デジタル信号圧縮装置において得られた符号化データの再生時に、音声が含まれているか否かの判定が容易に可能となる。したがって、高速再生しながら音声を聞き取り易くすることが容易に可能となる。
本発明の第1の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。 本発明の第1の実施形態に係るデジタル信号圧縮装置の構成例を示すブロック図である。 図2のデジタル信号圧縮装置の第1の変形例の構成を示すブロック図である。 図2のデジタル信号圧縮装置の第2の変形例の構成を示すブロック図である。 図1のデジタル信号再生装置と図2のデジタル信号圧縮装置とを有するレコーダシステムの一例を示すブロック図である。 本発明の第2の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。 図6のデジタル信号再生装置の変形例の構成を示すブロック図である。 図8は、スキップするピクチャの種類及び枚数、並びに再生速度の組合せの代表的な例を示す説明図である。
以下、本発明の実施形態を、図面を参照しながら説明する。図面において下2桁が同じ参照番号で示された構成要素は、互いに対応しており、同一の又は類似の構成要素である。
本明細書においては、音声とは人の声を表すとし、音声信号とは、主に人の声を表す信号であるとする。オーディオ信号とは、人の声の他、楽器等のあらゆる音を表し得る信号であるとする。
本明細書における各機能ブロックは、典型的にはハードウェアで実現され得る。例えば各機能ブロックは、IC(集積回路)の一部として半導体基板上に形成され得る。ここでICは、LSI(Large-Scale Integrated circuit)、ASIC(Application-Specific Integrated Circuit)、ゲートアレイ、FPGA(Field Programmable Gate Array)などを含む。代替としては各機能ブロックの一部又は全ては、ソフトウェアで実現され得る。例えばそのような機能ブロックは、プロセッサ上で実行されるプログラムによって実現され得る。換言すれば、本明細書で説明される各機能ブロックは、ハードウェアで実現されてもよいし、ソフトウェアで実現されてもよいし、ハードウェアとソフトウェアとの任意の組合せで実現され得る。
(第1の実施形態)
図1は、本発明の第1の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。図1のデジタル信号再生装置100は、オーディオデコード部112と、可変速再生部114と、オーディオビットストリーム解析部122と、再生速度決定部124とを有している。
オーディオデコード部112及びオーディオビットストリーム解析部122には、オーディオビットストリームABSが入力されている。オーディオビットストリームABSは、例として、MPEG(Moving Picture Experts Group)規格(ISO/IEC13818−7)に規定されたAAC(Advanced Audio Coding)方式でエンコードされたビットストリームであるとする。
入力オーディオ信号をAAC方式でエンコードしてオーディオビットストリームを生成する際の処理について簡単に説明する。オーディオビットストリームの生成の際には、PCM(Pulse Code Modulation)信号である入力オーディオ信号が、その性質に応じた適切な符号化ツールによってエンコードされる。例えば、入力オーディオ信号がステレオ信号であり、Lチャネルの信号とRチャネルの信号とが類似の周波数成分を有しているような場合には、“Intensity Stereo”や“M/S(Mid/Side Stereo Coding)”というツールが用いられる。
また、入力信号の時間的な変動が大きい場合には、“block switching”や“TNS(Temporal Noise Shaping)”というツールが用いられる。AAC方式は、時間領域の信号を周波数領域の信号(周波数信号)に変換する処理(周波数変換)を行い、周波数領域の信号を符号化する方式(周波数変換符号化方式)である。“block switching”は、入力の信号の時間的変動が大きい場合に、短い時間間隔で周波数領域の信号への変換処理を行うことで時間分解能を高める。入力信号の時間的変動が大きい場合には、“block switching”によって頻繁に周波数領域の信号への変換処理が行われる。“TNS”は周波数信号の予測符号化器である。入力信号の時間的変動が大きい場合には、周波数信号は平坦なものになるので、予測符号化器を用いることで圧縮効率を上げられる場合が多くなる。
音声は、非常に短い時間で子音と母音とを繰り返すので時間的変動が大きい。このため、AACエンコーダでは、音声信号に対しては、“block switching”及び“TNS”が用いられる頻度が高くなる。
オーディオビットストリーム解析部122は、オーディオビットストリームABSが人の声を含むか否かを解析する。この際、オーディオビットストリーム解析部122は、例えば、オーディオビットストリームABSにおいて、符号化対象のオーディオ信号が予測符号化されている頻度及び周波数領域の信号への変換が行われている頻度を、所定の長さの区間ごとに解析する。予測符号化されている頻度は、オーディオビットストリームABSに含まれる“TNS”が行われていることを示すフラグ等から求める。周波数領域の信号へ変換されている頻度は、オーディオビットストリームABSに含まれる“block switching”が行われていることを示すフラグ等から求める。オーディオビットストリーム解析部122は、求められた頻度を解析結果として再生速度決定部124に出力する。
オーディオデコード部112は、入力されたオーディオビットストリームABSをデコードし、得られたオーディオ信号(PCM信号)を可変速再生部114に出力する。AAC方式でエンコードされたビットストリームのデコードについての詳細は、MPEG規格に記載されているので、その説明を省略する。
次に、再生速度決定部124は、オーディオビットストリーム解析部122での解析結果に基づいて再生速度を決定する。この際、再生速度決定部124は、例えば、各区間の再生速度を、それぞれの区間においてオーディオ信号が予測符号化されている頻度及び周波数領域の信号へ変換されている頻度に応じて決定する。
ある区間において“block switching”及び“TNS”が所定の閾値より高い頻度で用いられている場合には、再生速度決定部124は、その区間には音声信号が多く含まれていると判定し、高速再生時であっても(目標とされる平均的な再生速度である目標再生速度が例えば2倍速であっても)比較的ゆっくりとした再生(例えば1.3倍速等での再生)を行うように再生速度を決定する。その他の場合には、再生速度決定部124は、その区間には音声信号が含まれていないと判定し、目標再生速度よりも高速な再生(例えば、目標再生速度が2倍速である場合には、3倍速や4倍速での再生)を行うように再生速度を決定する。
音声が含まれているか否かの判定をより正確に行うために、デコード後のPCM信号の解析を併用してもよい。例えば、デコード後のPCM信号に対して、従来と同様の分析方法で音声が含まれているか否かの判定を行い、その判定基準を、オーディオビットストリーム解析部122での解析結果に応じて決定する。すると、判定をより正確に行うことができる。
可変速再生部114は、オーディオデコード部112から出力されたオーディオ信号を、再生速度決定部124で決定された再生速度で再生し、再生速度が変更されたオーディオ信号ASRを出力する。再生速度を変化させる際には、信号の時間軸方向の短縮及びクロスフェード処理等、従来から行われているどのような方法を用いてもよい。
このように、図1のデジタル信号再生装置によると、音声が含まれるか否かを、デコード前のオーディオビットストリームから直接判定するので、音声が含まれるか否かの判定に要する演算量を減少させることができる。
なお、再生速度決定部124は、“block switching”及び“TNS”のうちの一方の頻度に応じて再生速度を決定してもよい。
以上では、入力オーディオビットストリームはAAC方式でエンコードされたストリームであるとして説明したが、これには限定されない。例えば、近年MPEGオーディオの規格化団体で研究及び規格化が進められている、いわゆる「音声・オーディオ統合コーデック」のエンコード方式でエンコードされたストリームも、入力ビットストリームとして適している。「音声・オーディオ統合コーデック」では、音声信号(人の声)をエンコードする場合とその他のオーディオ信号(楽音、自然音)をエンコードする場合とで、それぞれ相応しいエンコード方式が自動的に選択される。エンコード結果として得られる符号化ビットストリームには、どのようなエンコード方式が用いられたかを明示的に示す情報が含まれるべきである。その場合、ビットストリームからそのような情報を取り出すことによって、音声/非音声の判断が非常に容易になる。
ところで、図1に関して、デジタル信号を再生する際の再生速度の制御機能に注目して説明したが、図1の構成は、他の機能を有していてもよい。例えば、再生速度決定部124は、オーディオビットストリーム解析部122の解析結果に従って、イコライジング特性や、空間音響特性を決定してもよい。可変速再生部114は、決定されたイコライジング特性や、空間音響特性を実現する機能を有していてもよい。可変速再生部114は、例えば、入力信号が音声である場合には、音声帯域(ピッチ周波数帯域やホルマント周波数帯域)をより鮮明に再生するためのフィルタを適用してもよいし、入力信号がマルチチャネルの楽音である場合には、空間音響特性を広げるためのフィルタを適用してもよい。
図2は、本発明の第1の実施形態に係るデジタル信号圧縮装置の構成例を示すブロック図である。図2のデジタル信号圧縮装置200は、オーディオ信号解析部254と、第1の制御部262と、予測符号化部264と、周波数変換符号化部266と、第2の制御部272とを有している。第1の制御部262、予測符号化部264、及び周波数変換符号化部266は、オーディオエンコード部260を構成している。
まず、オーディオ信号解析部254は、所定の長さの区間ごとに入力オーディオ信号ASGを解析し、オーディオ信号に音声(人の声)の成分が含まれている度合いを示す指数Rを検出して第1の制御部262に出力する。その方法は従来から知られているどのような方法でもよいが、例えば、音声のホルマント周波数帯域の信号の強さや、その時間的な変動に基づいてもよいし、音声のピッチ周波数帯域に所定以上の強さの信号が存在するか否かに基づいてもよい。
第1の制御部262は、オーディオ信号解析部254から出力される指数Rに応じて、どの符号化部でオーディオ信号ASGを符号化するかを決定する。すなわち、第1の制御部262は、指数Rが所定の閾値より大きい場合(人の声の成分が多く含まれている場合)には予測符号化部264で、指数Rが所定の閾値以下である場合(人の声の成分があまり含まれていない場合)には周波数変換符号化部266で、オーディオ信号ASGの指数Rに対応する区間を符号化をすることを決定し、決定された符号化部にオーディオ信号ASGを出力する。
予測符号化部264は、第1の制御部262から出力されたオーディオ信号を予測符号化方式で符号化し、生成された符号化データを第2の制御部272に出力する。予測符号化方式では、音声(人の声)を、音源成分と予測係数(音響特性係数)に分離し、それぞれを圧縮符号化する。ここで、予測符号化方式は、例えば、ITU−T(International Telecommunication Union-Telecommunication Sector)で定義されたG.729等の音声用符号化方式であってもよいし、3GPP(Third Generation Partnership Project)で定義されたAMR−NB,AMR−WB等の音声用符号化方式であってもよい。
周波数変換符号化部266は、第1の制御部262から出力されたオーディオ信号を周波数変換符号化方式で符号化し、生成された符号化データを第2の制御部272に出力する。周波数変換符号化方式では、入力オーディオ信号を、MDCT(Modified Discrete Cosine Transform)や、QMF(Quadrature Mirror Filters)等によって周波数領域の信号に変換し、周波数領域の信号の各周波数成分に重み付けしながら圧縮符号化する。ここで、周波数変換符号化方式は、例えば、AACやHE−AAC(High-Efficiency Advanced Audio Coding)で定義されたオーディオ用符号化方式である。
第2の制御部272は、予測符号化部264及び周波数変換符号化部266で生成された符号化データからオーディオビットストリームABSを生成して出力する。
図2のデジタル信号圧縮装置200によると、ビットストリームの生成時(エンコード時)に、所定の長さの区間ごとにオーディオ信号に音声の成分がどの程度含まれているかを解析し、その結果に応じて符号化方式を決定するので、エンコード品質を向上させることができる。更に、生成された符号化データの再生時には、予測符号化方式が用いられている頻度を解析するのみで、容易に音声が含まれている区間であるか否かの判定が可能となる。
図2のデジタル信号圧縮装置200では、入力オーディオ信号ASGの全帯域が、予測符号化方式及び周波数変換符号化方式のうちのいずれか一方で符号化される。しかし、必ずしもその必要はない。例えば、音声信号の主要な周波数成分は低周波数帯域に集中しているという特徴を考慮すれば、音声/非音声に応じて符号化方式を切り替える対象を、低周波成分に限定してもよい。この場合、高周波成分を、例えば、MPEG規格AAC+SBR(Spectral Band Replication)方式(ISO/IEC14496−3)で規定されている帯域拡大技術であるSBRによって符号化してもよい。
図3は、図2のデジタル信号圧縮装置200の第1の変形例の構成を示すブロック図である。図3のデジタル信号圧縮装置は、図2のデジタル信号圧縮装置200と、低周波成分抽出部352と、高周波成分符号化部356と、多重化部374とを有している。
まず、低周波成分抽出部352は、入力オーディオ信号ASGの低周波数帯域の信号を抽出し、オーディオ信号解析部354及び第1の制御部362に出力する。抽出の方法としては、ローパスフィルタを用いてもよいし、周波数領域の信号に変換された信号の低域成分を時間領域の信号に変換する方法で取り出してもよい。高周波成分符号化部356は、入力オーディオ信号ASGの高周波成分を帯域拡大技術を用いて符号化し、得られた符号化データを出力する。帯域拡大技術としては、例えば、MPEG規格AAC+SBR方式(ISO/IEC14496−3)で規定されているSBRを用いる。
デジタル信号圧縮装置200は、低周波成分抽出部352の出力信号が入力される点の他は図2を参照して説明したものと同様に構成されているので、その説明を省略する。多重化部374は、第2の制御部372から出力されるオーディオビットストリームと高周波成分符号化部356から出力される符号化データとを多重化してオーディオビットストリームABSを生成し、出力する。
このように、人の声の主要な周波数成分は低周波数領域に集中しているので、図3のデジタル信号圧縮装置は、入力オーディオ信号ASGの低周波成分に対してのみ、予測符号化方式による符号化を行う。このため、図2のデジタル信号圧縮装置に比べて、エンコード品質をより向上させることができる。更に、再生時には、ビットストリームのうち、低周波数領域のデータを解析するのみで、容易に音声が含まれている区間であるか否かの判定が可能となる。
図4は、図2のデジタル信号圧縮装置200の第2の変形例の構成を示すブロック図である。図4のデジタル信号圧縮装置は、多重化部374に代えて多重化部474を有している点が、図3のデジタル信号圧縮装置とは異なっている。多重化部474は、オーディオ信号解析部354が検出した指数R、又はこれを符号化した値を、第2の制御部372から出力されるオーディオビットストリーム及び高周波成分符号化部356から出力される符号化データに多重化し、オーディオビットストリームABSとして出力する。
これにより、ビットストリームを再生する際に、区間内にどの程度音声の成分が含まれているかをより正確に判定できる。入力オーディオ信号ASGは、必ずしも単純に、音声/非音声の2種類に分類できない場合もあるので、その判定材料となった指数Rを再生装置側で知ることができることは、より高品位の再生に寄与できる。例えば、指数Rの値が非常に大きい場合には、オーディオ信号ASGにはほぼ音声成分のみが含まれていると分かるので、音声に適した再生処理(音声帯域成分の強調等)を実施すればよい。逆に指数Rの値が非常に小さい場合には、オーディオ信号ASGは音声を含まないことが分かるので、オーディオに適した再生処理(重低音や高域信号の強調によるリッチな音作り等)を実施すればよい。指数Rが中間的な値であれば、両方の処理を適宜行えばよい。
図5は、図1のデジタル信号再生装置と図2のデジタル信号圧縮装置とを有するレコーダシステムの一例を示すブロック図である。図5のレコーダシステムは、図1のデジタル信号再生装置100と、図2のデジタル信号圧縮装置と、ビットストリーム蓄積部502とを有している。ビットストリーム蓄積部502は、データを蓄積可能などのような蓄積媒体であってもよく、例えばDVD、BD、CD(Compact Disc)、HDD、メモリカードのいずれであってもよい。また、ビットストリーム蓄積部502と図1のデジタル信号再生装置100とを組み合わせてもよい。
(第2の実施形態)
図6は、本発明の第2の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。図6のデジタル信号再生装置は、オーディオデコード部612と、オーディオバッファ部613と、可変速再生部614と、ビデオデコード制御部616と、オーディオビットストリーム解析部622と、再生速度決定部624と、AV(audiovisual)データ蓄積部632と、ストリーム分離部634と、ビデオバッファ部636と、ビデオデコード部638とを有している。
AVデータ蓄積部632には、ビデオビットストリームとオーディオビットストリームとが多重化されたビットストリームが格納されている。AVデータ蓄積部632は、このビットストリームを、AVビットストリームAVSとしてストリーム分離部634に出力する。ストリーム分離部634は、AVビットストリームAVSをビデオビットストリームVBSとオーディオビットストリームABSとに分離し、ビデオビットストリームVBSをビデオバッファ部636に、オーディオビットストリームABSをオーディオデコード部612及びオーディオビットストリーム解析部622に出力する。
オーディオデコード部612、可変速再生部614、オーディオビットストリーム解析部622、及び再生速度決定部624は、図1を参照して説明した対応する構成要素と同様であるので、これらの説明を省略する。オーディオバッファ部613は、オーディオデコード部612から出力されたオーディオ信号を格納して可変速再生部614に出力する。
ビデオバッファ部636は、ビデオビットストリームVBSを格納してビデオデコード部638に出力する。ビデオデコード制御部616は、再生速度決定部624で決定された再生速度に応じた速度で映像が再生されるようにビデオビットストリームVBSのデコード処理についての決定を行う。ビデオデコード部638は、ビデオデコード制御部616の決定に従って、ビデオバッファ部636から出力されたビデオビットストリームをデコードし、得られた映像信号VSRを出力する。
以上のように構成された図6のデジタル信号再生装置の動作について以下に詳しく説明する。AVデータ蓄積部632には、MPEG−2ビデオ(ISO/IEC13818−2)に準拠したビデオビットストリームと、MPEG−2 AAC(ISO/IEC13818−7)に準拠したオーディオビットストリームとが、MPEG−2 TS(Transport Stream)フォーマット(ISO/IEC13818−1)で多重化されたビットストリームが蓄積されているとする。
MPEG−2ビデオは、フレーム間予測を利用した動画圧縮方式であり、映像信号を構成するピクチャは、その予測方法によってIピクチャ、Pピクチャ、Bピクチャの3つのピクチャ種類に分類される。Iピクチャは、動画再生の起点となるピクチャであり、そのピクチャ単独で再生可能である。Pピクチャは、時間的に前のIピクチャ、Pピクチャがないと再生できないが、Iピクチャより符号量が小さい。Bピクチャは、時間的に前後のIピクチャ、Pピクチャがないと再生できないが、Iピクチャ、Pピクチャより符号量が小さい。
例えば、デジタル放送では、画質や符号量のバランスを考慮して、これらのIピクチャ(Iと表記する)、Pピクチャ(Pと表記する)、及びBピクチャ(Bと表記する)を組み合わせて、IBBPBBPBBPBBPBBの順序で表示するようにピクチャ構成されることが多い。また、ビットストリームの途中からでも映像を再生することができるように、0.5秒程度でIピクチャに戻るようにすることが多い。デジタル放送では、1秒に30フレーム送信され、1フレームは1ピクチャから構成されることが多い。0.5秒では15ピクチャになることから、ピクチャ構成はIBBPBBPBBPBBPBB(IPBB...)の繰り返しになることが多い。
MPEG−2 TSは、デジタル放送等で多く採用されているビデオビットストリームとオーディオビットストリームとが多重化されたビットストリームであり、ビデオビットストリーム及びオーディオビットストリームをそれぞれ固定長に分割して得られたパケットが、時間的に交互に配置されている。一般に、ビデオビットストリームの符号量は、オーディオビットストリームの符号量より大きいので、MPEG−2 TSのビットストリームは、ビデオパケット(Vと表記する)とオーディオパケット(Aと表記する)とが、例えばAVVVVVVAVVVVVVといった順序で構成されることになる。
まず、ストリーム分離部634は、AVデータ蓄積部632から入力されたMPEG−2 TSフォーマットのビットストリームからビデオパケット(V)を取り出し、取り出された各パケットを結合して、ビデオデバッファ部636に出力する。また、ストリーム分離部634は、オーディオパケット(A)を取り出し、取り出された各パケットを結合して、オーディオビットストリーム解析部622及びオーディオデコード部612に出力する。
ここで、再生速度決定部624が、例えば再生速度を3倍に決定したとすると、オーディオとビデオとを同期して再生するためには、オーディオだけでなく、ビデオも3倍速で再生する必要がある。しかし、デジタル放送では、HD(High Definition)映像(1フレーム1920×1080画素)の膨大な映像データを扱う必要があり、単純に3倍の速度でデコードして再生することは3倍の演算量が必要になるため、現実的ではない。先に述べたようにデジタル放送では、IBBPBBPBBPBBPBBといったピクチャ構成が多いため、例えばBピクチャのデコードをスキップし、IピクチャとPピクチャだけをデコードして再生することにすれば、15ピクチャ中の5ピクチャだけをデコードすればよいことになるため、再生速度を3倍にできることになる。
このように、ビデオデコード制御部616は、再生速度決定部624で決定された再生速度に従って、どのピクチャの再生をスキップし、どのピクチャの再生を行うかを決定し、ビデオデコード部638に通知する。ビデオデコード部638は、ビデオデコード制御部616の決定に従って、ビデオビットストリームのデコードを行い、得られた映像信号を出力する。
ところが、映像信号と音声信号とを完全に同期させて出力するためには、バッファが必要となる。すでに述べたとおり、ビデオのピクチャ構成はIBBPBBPBBPBBPBBPBBであるが、符号化の順序はこの順序ではない。Bピクチャは時間的に後ろのPピクチャも予測に利用するため、符号化はIPBBPBBPBBPBBPBBの順序となり、PピクチャがBピクチャの前、すなわち、ビットストリームでは、実際に再生されるタイミングとは異なる順に配置されている。したがって、MPEG−2TSフォーマットにおいて、オーディオパケットとビデオパケットとが時間的に均等に多重化されているとはいっても、特定のピクチャに注目すると、オーディオよりビデオの方が時間的に先行して多重化されていることになる。
また、ストリーム分離部634でオーディオビットストリームを分離してから、再生速度決定部624で再生速度を決定するまでには、遅延時間が存在する。すなわち、再生速度が決定する前に、ストリームの分離やビデオデコードが先に進んでしまうことになる。
上記の2つの理由により、ストリーム分離部634で分離したビデオビットストリームをすぐにビデオデコード部638でデコードしたとすると、再生速度決定部624で再生速度が決定したときには、すでにオーディオに対応するビデオデコードが完了していることになり、意図した通りにピクチャをスキップすることができない。
そこで、図6のように、ストリーム分離部634とビデオデコード部638との間に、ビデオバッファ部636を設け、ビデオビットストリームを蓄積する構成とする。ビデオビットストリームをビデオバッファ部636に蓄積しておき、再生速度決定部624で再生速度が決定した後に、ビデオデコード部638の処理を開始することができるようにする。このとき、ビデオバッファ部636には、少なくとも、Pピクチャの先行符号化ピクチャ数(本実施例の場合はPピクチャが時間順より2ピクチャ前に符号化されるので2ピクチャ分)のビットストリーム、及び、再生速度決定までの遅延時間に相当する容量が必要になる。
また、MPEG−2 TS形式では、映像信号と音声信号とを同期して出力できるように、タイミングを合わせて、ビデオビットストリームとオーディオビットストリームとを多重化している。図6の構成では、ビデオバッファ部636により映像信号だけが遅延すると、音声信号が先行してしまい、音声信号出力時に映像信号出力と同期が取れないことがあり得る。そこで、オーディオデコード部612の後段に、オーディオバッファ部613を設け、音声信号出力を遅延させて、映像信号出力と同期を取ることができるようにする。
なお、図6の構成では、オーディオバッファ部613を、オーディオデコード部612の後段に設けているが、オーディオデコード部612の前段や、可変速再生部614の後段に設けてもよい。つまり、音声信号を映像信号に合わせて遅延させることができるように構成すればよい。
図6の構成では、再生速度決定部624は、オーディオビットストリーム解析部622のビットストリーム解析結果によって再生速度を決定することとしているが、再生速度の決定方法はこれには限らない。例えば、オーディオデコード部612のデコード結果から、音声データの解析を行って、音声区間検出を行い、その検出結果から再生速度を決定してもよい。
図6では、ビデオバッファ部636及びオーディオバッファ部613が必要であるが、両バッファに必要なサイズは、どれだけビデオのデコードを遅延させる必要があるかに依存する。すでに述べたようなピクチャの構成では、2〜3フレーム分以上は遅延させる必要がある。また、再生速度の決定は、ただちに決定できるものではなく、音声区間や非音声区間の比率など、音声の前後関係によって決定する性質のものであるため、再生速度を決定するまでに遅延時間が発生する。このとき、遅延時間を大きく取れば、音声区間の継続時間に応じて再生速度を調整したり、また、一時的に非音声区間になったとしてもすぐに音声区間が継続する場合には、その非音声区間の再生速度を音声区間と同じにするといったように、再生速度をより適切に決定することができる。
ピクチャ構成に起因する遅延時間や、再生速度決定までの遅延時間等として、仮に1秒程度の遅延が必要だとすると、ビデオバッファ部636に必要なサイズは、例えばデジタル放送の場合、20Mbit程度である。また、オーディオバッファ部613に必要なサイズは、オーディオデコード部612の後段に配置する場合、48kHz×16bit×5.1ch=3.92Mbit程度である。再生速度の精度を上げると、1秒ではなく、数秒程度の遅延が必要になり、ビデオバッファ部636、オーディオバッファ部613の容量の増加がコスト的に許容できない場合が発生し得る。そこで、これらのバッファを用いないようにしてもよい。
図7は、図6のデジタル信号再生装置の変形例の構成を示すブロック図である。図7のデジタル信号再生装置は、オーディオデコード部712と、可変速再生部714と、ビデオデコード制御部716と、第1のストリーム分離部721と、オーディオビットストリーム解析部722と、再生速度決定部724と、AVデータ蓄積部732と、第2のストリーム分離部734と、ビデオデコード部738とを有している。
第1のストリーム分離部721は、多重化されたAVビットストリームAVS1からオーディオビットストリームを分離して出力する。オーディオビットストリーム解析部722は、第1のストリーム分離部721で分離されたオーディオビットストリームABS1が人の声を含むか否かを解析する。第2のストリーム分離部734は、AVビットストリームAVS1を遅らせたAVビットストリームAVS2を、オーディオビットストリームとビデオビットストリームとに分離して出力する。オーディオデコード部712は、第2のストリーム分離部734で分離されたオーディオビットストリームABS2をデコードする。
図7のデジタル信号再生装置の動作について以下に詳しく説明する。まず、第1のストリーム分離部721は、AVデータ蓄積部732に蓄積されたMPEG−2 TSフォーマットのビットストリームAVS1から、オーディオパケットを取り出し、取り出された各パケットを結合し、オーディオビットストリームABS1としてオーディオビットストリーム解析部722に出力する。第1のストリーム分離部721は、ビデオパケットを破棄する。
オーディオデコード部712、可変速再生部714、オーディオビットストリーム解析部722、及び再生速度決定部724は、図1を参照して説明した対応する構成要素と同様であり、ビデオデコード制御部716及びビデオデコード部738は、図6を参照して説明した対応する構成要素と同様であるので、これらの説明を省略する。
次に、第2のストリーム分離部734は、AVデータ蓄積部732に蓄積された先ほどと同じMPEG−2 TSフォーマットのビットストリームAVS1を、しばらく時間が経過してからビットストリームAVS2として再度読み込み、今度はビデオパケットを取り出し、取り出された各パケットを結合し、ビデオビットストリームVBSとしてビデオデコード部738に出力する。また、第2のストリーム分離部734は、同様にオーディオパケットを取り出し、取り出された各パケットを結合し、オーディオビットストリームABS2としてオーディオデコード部712に出力する。
図7のデジタル信号再生装置では、図6の装置とは異なり、ビデオデコードに先行して、再生速度決定部724で再生速度が決定されているため、ビデオバッファ部は不要である。また、映像信号に遅延が生じないため、オーディオバッファ部も不要である。
第1のストリーム分離部721及び第2のストリーム分離部734は、同じAVビットストリームに対して並行動作させるが、まず、ビットストリームAVS1に対して第1のストリーム分離部721を先行させて処理を開始し、その後にビットストリームAVS1を遅延させたビットストリームAVS2に対して第2のストリーム分離部734が処理を行う。
なお、図7の装置では、第1のストリーム分離部721を先行させて動作させる時間は、図6の装置でのビデオバッファと同様に、少なくとも、ビデオ符号化のフレーム予測の性質から2フレーム以上、更に再生速度決定部724の処理遅延時間(再生速度の精度に依存)分だけ必要になる。先行させて動作させる時間が短すぎると、映像や音声の再生タイミングにおいて、まだ再生速度が決定していないといったことが起こるので注意する必要がある。また、図6の場合とは異なり、先行させて動作させる時間を大きくしすぎても、バッファサイズへの影響はないが、再生速度決定部724で決定した再生速度情報を蓄積するバッファが必要になることに注意する必要がある。更に、再生速度を変更してから、実際に映像信号や音声信号の出力に反映されるまでの遅延時間が延びることにも注意する必要がある。上記を踏まえ、先行させて動作させる時間には適切な時間を設定する必要がある。
図7の構成では、再生速度決定部724は、オーディオビットストリーム解析部722のビットストリーム解析結果によって再生速度を決定することとしているが、再生速度の決定方法はこれには限らない。例えば、第1のストリーム分離部721の出力のオーディオビットストリームをデコードして、その出力である音声データの解析を行って、音声区間検出を行い、その音声区間検出の結果から再生速度を決定するようにしてもよい。
図7の構成では、第1のストリーム分離部721と第2のストリーム分離部734とが同時に動作することを想定しているが、1つのストリーム分離部を時分割で交互に2つのストリーム分離部として動作させようにしてもよい。
図6及び図7のデジタル信号再生装置の説明においては、再生速度が3倍の場合を例として示したが、再生速度は3倍以外であってもよい。すでに述べた通り、デジタル放送では、ピクチャ構成がIBBPBBPBBPBBPBB(IBBP...)の繰り返しになることが多いことので、その繰り返しの単位となる15ピクチャを用いて、3倍以外の再生速度の実現方法を説明する。
MPEG−2ビデオでは、Iピクチャのデコードをスキップすると、それを予測に利用するPピクチャやBピクチャのデコードができない。Pピクチャのデコードをスキップすると、それを予測に利用する(それより後ろの)PピクチャやBピクチャのデコードができない。Bピクチャのデコードをスキップしても、他のピクチャのデコードへの影響はない、といった性質を利用することができる。例えば、以下のように、Bピクチャのデコードを4枚スキップすれば1.5倍速、Bピクチャのデコードを全て(8枚)スキップすれば3倍速、Bピクチャ及びPピクチャのデコードを全て(Bピクチャ8枚、Pピクチャ4枚)スキップすれば15倍速が実現できることが分かる。各ピクチャを文字で示すと、
IBBPBBPBBPBBPBBI …1倍
IB PB PB PB PB I …1.5倍
I P P P P I …3倍
I I …15倍
と表される。
スキップするピクチャを細かく制御することで、再生速度をこれ以外に変化させることができる。図8は、スキップするピクチャの種類及び枚数、並びに再生速度の組合せの代表的な例を示す説明図である。図8の例では、12種類の再生速度を実現できる。また、本実施形態では15フレーム単位でピクチャスキップを制御したが、それ以外の単位(例えば6フレーム、30フレーム等)で制御すれば、更に異なった再生速度を実現できる。ビデオデコード制御部616,716は、再生速度決定部624又は724で決定された再生速度に応じた速度で映像が再生されるように、ピクチャスキップを制御する単位とするフレーム数並びにスキップするピクチャの種類及び枚数を決定する。
ただし、デコードされるピクチャのパターンとしては、映像が不自然な動きになるようなパターンは用いないようにする。そのようなパターンの代わりに、映像が不自然な動きにならないパターンを採用し、更にフレームの間引きやフレームの繰り返しを行って、映像の再生速度をオーディオの再生速度に合わせるようにする。
本実施形態では、ピクチャのスキップに要する時間が0であるとして再生速度を決定したが、実際には、ピクチャをスキップした場合、次のピクチャの先頭までビットストリームを頭出しするまでの時間が発生する。1ピクチャ分のビットストリームをスキップする時間は、デコード時間より十分短いことが想定されるものの、スキップするピクチャが多い場合は無視できない遅延時間が発生する。ピクチャのスキップ時間は、スキップするビットストリームのサイズに依存するが、MPEG2ビデオはピクチャごとのサイズが固定でないため、最大のサイズを想定する必要がある。ここでは、ピクチャのスキップ時間がデコード時間の5分の1と想定して、再生速度を計算しなおしたものを図8の実質再生速度として示す。
本実施形態では、IBBPBBPBBPBBPBBのピクチャ構成で説明を行ったが、少なくとも1つ以上のピクチャのデコードのスキップが可能なピクチャ構成であれば、同様の再生を実現できる。
本実施形態では、再生速度決定部624,724で決定した再生速度で必ずビデオデコードが実現できることを前提に説明を行ったが、想定よりスキップ可能なピクチャが少ないピクチャ構成の場合(例えば急にIPPPPPPPPPPPPPPのピクチャ構成に変化した場合)や、ピクチャのスキップにかかる時間が想定より長かった場合(本実施形態ではデコード時間の5分の1を想定しているが、それより長い時間がかかったとき)には、再生速度決定部624,724で決定した再生速度で、映像信号が再生ができないことがある。このとき、音声信号を出力するタイミングでは、映像信号のデコードが完了していないので、同じ映像信号を出力し続けざるを得ないことになる。このような事態から迅速に復帰するため、指定の再生速度での再生ができなかった場合には、ビデオデコード制御部638,738から再生速度決定部624,724に対して、再生速度を遅くするようにフィードバックをかけることによって、その後は指定された再生速度で映像信号の再生ができるように制御してもよい。
本実施形態では、映像信号の符号化方式としてMPEG−2ビデオを採用しているが、H.264やその他の動画符号化方式であっても、ピクチャのデコードのスキップが可能なものであれば、同様に用いることができる。
本実施形態では、音声信号の符号化方式としてMPEG−2 AACを採用しているが、その他のいかなる音声符号化方式であっても同様に用いることができる。
本実施形態では、映像信号と音声信号の多重化方式として、MPEG−2 TSを利用しているが、図6の構成では、同じ時間に出力すべきビデオビットストリームとオーディオビットストリームを組み合わせて多重化している多重化方式であれば、同様に用いることができる。図9の構成では、MPEG−2 PS(ISO/IEC13818−1)など、ビデオビットストリームとオーディオビットストリームとが独立に多重化されている多重化方式や、その他のいかなる多重化方式であっても同様に用いることができる。
本発明の多くの特徴及び優位性は、記載された説明から明らかであり、よって添付の特許請求の範囲によって、本発明のそのような特徴及び優位性の全てをカバーすることが意図される。更に、多くの変更及び改変が当業者には容易に可能であるので、本発明は、図示され記載されたものと全く同じ構成及び動作に限定されるべきではない。したがって、全ての適切な改変物及び等価物は本発明の範囲に入るものとされる。
以上説明したように、本発明の実施形態によると、人の声が含まれているか否かの判定を少ない演算量で行うことができ、また、そのような判定が容易になるので、本発明は、デジタル信号再生装置及びデジタル信号圧縮装置等について有用である。更に、BD、DVD、HDD及びメモリカード等についての再生器及び記録器に有用である。
112,612,712 オーディオデコード部
114,614,714 可変速再生部
122,622,722 オーディオビットストリーム解析部
124,624,724 再生速度決定部
254 オーディオ信号解析部
260 オーディオエンコード部
352 低周波成分抽出部
356 高周波成分符号化部
374,474 多重化部
613 オーディオバッファ部
616,716 ビデオデコード制御部
634 ストリーム分離部
636 ビデオバッファ部
638,738 ビデオデコード部
721 第1のストリーム分離部
734 第2のストリーム分離部

Claims (7)

  1. オーディオビットストリームをデコードし、得られたオーディオ信号を出力するオーディオデコード部と、
    前記オーディオビットストリームが人の声を含むか否かを解析するオーディオビットストリーム解析部と、
    前記オーディオビットストリーム解析部での解析結果に基づいて再生速度を決定する再生速度決定部と、
    前記再生速度決定部で決定された再生速度に従って前記オーディオ信号を再生する可変速再生部とを備え
    前記オーディオビットストリーム解析部は、前記オーディオビットストリームにおいて予測符号化されている頻度、又は、前記オーディオビットストリームにおいて周波数領域の信号への変換が行われている頻度を、所定の長さの区間ごとに解析し、
    前記再生速度決定部は、それぞれの区間について、
    予測符号化、又は周波数領域の信号への変換がされている頻度が所定の閾値より高い場合には、再生速度を目標再生速度より低速に決定し、
    その他の場合には、再生速度を前記目標再生速度より高速に決定する
    デジタル信号再生装置。
  2. 請求項1に記載のデジタル信号再生装置において、
    前記再生速度決定部で決定された再生速度に応じた速度で映像が再生されるように、ビデオビットストリームのデコード処理についての決定を行うビデオデコード制御部と、
    前記ビデオデコード制御部の決定に従って前記ビデオビットストリームをデコードするビデオデコード部とを更に備える
    デジタル信号再生装置。
  3. 請求項に記載のデジタル信号再生装置において、
    多重化されたビットストリームを前記オーディオビットストリームと前記ビデオビットストリームとに分離するストリーム分離部と、
    前記ストリーム分離部で分離された前記ビデオビットストリームを格納して前記ビデオデコード部に出力する第1のバッファと、
    前記オーディオデコード部から出力された前記オーディオ信号を格納して前記可変速再生部に出力する第2のバッファとを更に備える
    デジタル信号再生装置。
  4. 請求項に記載のデジタル信号再生装置において、
    多重化されたビットストリームを前記オーディオビットストリームと前記ビデオビットストリームとに分離するストリーム分離部と、
    前記ストリーム分離部で分離された前記ビデオビットストリームを格納して前記ビデオデコード部に出力する第1のバッファと、
    前記ストリーム分離部で分離された前記オーディオビットストリームを格納して前記オーディオデコード部に出力する第2のバッファとを更に備える
    デジタル信号再生装置。
  5. 請求項に記載のデジタル信号再生装置において、
    多重化されたビットストリームから第1のオーディオビットストリームを分離して出力する第1のストリーム分離部と、
    前記多重化されたビットストリームを遅らせたビットストリームを、第2のオーディオビットストリームと前記ビデオビットストリームとに分離して出力する第2のストリーム分離部とを更に備え、
    前記オーディオビットストリーム解析部は、前記第1のオーディオビットストリームが人の声を含むか否かを解析し、
    前記オーディオデコード部は、前記第2のオーディオビットストリームをデコードするデジタル信号再生装置。
  6. 所定の長さの区間ごとにオーディオ信号を解析し、前記オーディオ信号の区間内に人の声の成分が含まれている度合いを示す指数を検出するオーディオ信号解析部と、
    前記オーディオ信号の前記指数に対応する区間を、前記指数が所定の閾値より大きい場合には予測符号化方式で符号化し、前記指数が前記所定の閾値以下である場合には周波数変換符号化方式で符号化し、得られた符号化データを出力するオーディオエンコード部と
    前記オーディオ信号から低周波成分を抽出して出力する低周波成分抽出部と、
    前記オーディオ信号の高周波成分を、帯域拡大技術を用いて符号化し、得られた符号化データを出力する高周波成分符号化部と、
    多重化部とを備え、
    前記オーディオ信号解析部は、前記低周波成分抽出部で抽出された低周波成分を解析し、
    前記オーディオエンコード部は、前記低周波成分抽出部で抽出された低周波成分を符号化して出力し、
    前記多重化部は、高周波成分符号化部で生成された符号化データと前記オーディオエンコード部で生成された符号化データとを多重化して、オーディオビットストリームを生成する
    デジタル信号圧縮装置。
  7. 請求項に記載のデジタル信号圧縮装置において、
    前記多重化部は、前記指数を、前記オーディオビットストリームに更に多重化する
    デジタル信号圧縮装置。
JP2009109596A 2009-04-28 2009-04-28 デジタル信号再生装置及びデジタル信号圧縮装置 Active JP5358270B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009109596A JP5358270B2 (ja) 2009-04-28 2009-04-28 デジタル信号再生装置及びデジタル信号圧縮装置
CN2010800184452A CN102414744B (zh) 2009-04-28 2010-04-22 数字信号再生装置以及数字信号压缩装置
PCT/JP2010/002924 WO2010125776A1 (ja) 2009-04-28 2010-04-22 デジタル信号再生装置及びデジタル信号圧縮装置
US13/281,002 US20120039397A1 (en) 2009-04-28 2011-10-25 Digital signal reproduction device and digital signal compression device
US14/572,751 US20150104158A1 (en) 2009-04-28 2014-12-16 Digital signal reproduction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009109596A JP5358270B2 (ja) 2009-04-28 2009-04-28 デジタル信号再生装置及びデジタル信号圧縮装置

Publications (2)

Publication Number Publication Date
JP2010256805A JP2010256805A (ja) 2010-11-11
JP5358270B2 true JP5358270B2 (ja) 2013-12-04

Family

ID=43031935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009109596A Active JP5358270B2 (ja) 2009-04-28 2009-04-28 デジタル信号再生装置及びデジタル信号圧縮装置

Country Status (4)

Country Link
US (2) US20120039397A1 (ja)
JP (1) JP5358270B2 (ja)
CN (1) CN102414744B (ja)
WO (1) WO2010125776A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6432180B2 (ja) * 2014-06-26 2018-12-05 ソニー株式会社 復号装置および方法、並びにプログラム
US9270563B1 (en) * 2014-11-24 2016-02-23 Roku, Inc. Apparatus and method for content playback utilizing crowd sourced statistics
US20190355341A1 (en) * 2018-05-18 2019-11-21 Cirrus Logic International Semiconductor Ltd. Methods and apparatus for playback of captured ambient sounds

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287800A (ja) * 2001-03-28 2002-10-04 Toshiba Corp 音声信号処理装置
JP4086532B2 (ja) * 2002-04-16 2008-05-14 キヤノン株式会社 動画再生装置、動画再生方法及びそのコンピュータ・プログラム
EP1845724A1 (en) * 2005-02-03 2007-10-17 Matsushita Electric Industrial Co., Ltd. Recording/reproduction device, recording/reproduction method, recording/reproduction apparatus and recording/reproduction method, and recording medium storing recording/reproduction program, and integrated circuit for use in recording/reproduction apparatus
KR20080101872A (ko) * 2006-01-18 2008-11-21 연세대학교 산학협력단 부호화/복호화 장치 및 방법

Also Published As

Publication number Publication date
US20150104158A1 (en) 2015-04-16
US20120039397A1 (en) 2012-02-16
WO2010125776A1 (ja) 2010-11-04
JP2010256805A (ja) 2010-11-11
CN102414744A (zh) 2012-04-11
CN102414744B (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
JP5032314B2 (ja) オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
JP4442585B2 (ja) 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US10244271B2 (en) Audio recording device, audio recording system, and audio recording method
US20110301962A1 (en) Stereo encoding method and apparatus
US8275473B2 (en) Data recording and reproducing apparatus, method of recording and reproducing data, and program therefor
JP2013535023A (ja) 基本層および少なくとも一つの向上層を含む層構造の階層的ビットストリームを探索し、再生する方法および装置
JP5358270B2 (ja) デジタル信号再生装置及びデジタル信号圧縮装置
JP4743228B2 (ja) デジタル音声信号解析方法、その装置、及び映像音声記録装置
JP4990375B2 (ja) 記録再生装置
US20070192089A1 (en) Apparatus and method for reproducing audio data
JPH07307674A (ja) 圧縮情報再生装置
JP2010074823A (ja) 録画編集装置
JPH1056385A (ja) デコーダおよびmpegオーディオデコーダ
US20180040348A1 (en) Signal processing device, signal processing system, signal processing method, and program
JP4862136B2 (ja) 音声信号処理装置
JP2010123225A (ja) 記録再生装置及び記録再生方法
JP4552208B2 (ja) 音声符号化方法及び音声復号方法
JP4229041B2 (ja) 信号再生装置及び方法
JP2005204003A (ja) 連続メディアデータ高速再生方法、複合メディアデータ高速再生方法、多チャンネル連続メディアデータ高速再生方法、映像データ高速再生方法、連続メディアデータ高速再生装置、複合メディアデータ高速再生装置、多チャンネル連続メディアデータ高速再生装置、映像データ高速再生装置、プログラム、および、記録媒体
JP2004153631A (ja) デジタル映像音声記録装置
JP4552206B2 (ja) 音声符号化方法及び音声復号方法
JP2005121743A (ja) オーディオデータ符号化方法、オーディオデータ復号方法、オーディオデータ符号化装置、オーディオデータ復号装置
JP2003058195A (ja) 再生装置、再生システム、再生方法、記憶媒体、及びプログラム
EP2357645A1 (en) Music detecting apparatus and music detecting method
JP2008176340A (ja) 音声符号化方法及び音声復号方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120210

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Ref document number: 5358270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250