JP5358270B2

JP5358270B2 - デジタル信号再生装置及びデジタル信号圧縮装置

Info

Publication number: JP5358270B2
Application number: JP2009109596A
Authority: JP
Inventors: 浩池田; 修二宮阪
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2009-04-28
Filing date: 2009-04-28
Publication date: 2013-12-04
Anticipated expiration: 2029-04-28
Also published as: US20150104158A1; US20120039397A1; WO2010125776A1; JP2010256805A; CN102414744A; CN102414744B

Description

本明細書で開示される技術は、人の声を含むオーディオ信号が符号化されたビットストリームの再生処理を行うデジタル信号再生装置、及び人の声を含むオーディオ信号からビットストリームを生成するデジタル信号圧縮装置に関する。

テレビ放送信号をデジタル圧縮し、ＤＶＤ（Digital Versatile Disc）、ＢＤ（Blu-ray Disc）、ＨＤＤ（Hard Disk Drive）等の蓄積媒体に記録するレコーダ機器の開発が行われている。特に近年では、記憶媒体の記憶容量の増大に伴い、長時間のテレビ放送の記録が可能になった。このため、録りためた番組が膨大となり、ユーザーがそれを視聴するための十分な時間を取れないという状況になりつつある。

そこで、記録された番組を、記録に要した時間より短い時間で再生する高速再生機能がレコーダ機器に搭載されている。例えば、１．５倍速再生の場合には、１時間の番組を４０分で再生することができる。ところが、そのような高速再生を行うと、台詞やアナウンス等の言葉が聞き取りにくくなる。

これに対処するため、台詞やアナウンス等の音声（人の声）を含む区間はあまり高速に再生せず、音声のない区間を高速に再生するような技術が開発されている。例えば、特許公報１には、次のような技術が開示されている。すなわち、オーディオデータの解析を行って区間ごとの再生速度を決定して蓄積しておき、実際にオーディオ信号等を再生する際に、すでに決定されていた再生速度に従って再生する。特許公報２には、蓄積することなく、オーディオデータに基づいて決定された再生速度に従ってオーディオ信号等を再生する技術が開示されている。

特開２００３−３０９８１４号公報国際公開第２００６／０８２７８７号

しかしながら、特許文献１及び特許文献２のような構成では、ビットストリームを復号して得られた時間領域の信号であるＰＣＭ（Pulse Code Modulation）信号から、人の声が含まれているか否かを検出しなければならないので、膨大な量の演算が必要となる。このような検出には、ＰＣＭ信号の周波数特性が人の声の周波数特性に類似しているか、ＰＣＭ信号の基本周波数（ピッチ周波数）が人の声の特徴と合致するか等を判定する必要があり、周波数領域の信号への変換や自己相関処理等、演算量の大きな信号処理が必要であるからである。

本発明は、人の声が含まれている区間の判定を少ない演算量で行うデジタル信号再生装置を提供することを目的とする。また、本発明は、人の声が含まれている区間の判定が容易になるようなビットストリームを生成するデジタル信号圧縮装置を提供することを目的とする。

本発明の実施形態によるデジタル信号再生装置は、オーディオビットストリームをデコードし、得られたオーディオ信号を出力するオーディオデコード部と、前記オーディオビットストリームが人の声を含むか否かを解析するオーディオビットストリーム解析部と、前記オーディオビットストリーム解析部での解析結果に基づいて再生速度を決定する再生速度決定部と、前記再生速度決定部で決定された再生速度に従って前記オーディオ信号を再生する可変速再生部とを有する。前記オーディオビットストリーム解析部は、前記オーディオビットストリームにおいて予測符号化されている頻度、又は、前記オーディオビットストリームにおいて周波数領域の信号への変換が行われている頻度を、所定の長さの区間ごとに解析する。前記再生速度決定部は、それぞれの区間について、予測符号化、又は周波数領域の信号への変換がされている頻度が所定の閾値より高い場合には、再生速度を目標再生速度より低速に決定し、その他の場合には、再生速度を前記目標再生速度より高速に決定する。

これによると、音声が含まれているか否かを、デコード前のオーディオビットストリームから直接判定するので、音声が含まれているか否かの判定に要する演算量を減少させることができる。

本発明の実施形態によるデジタル信号圧縮装置は、所定の長さの区間ごとにオーディオ信号を解析し、前記オーディオ信号の区間内に人の声の成分が含まれている度合いを示す指数を検出するオーディオ信号解析部と、前記オーディオ信号の前記指数に対応する区間を、前記指数が所定の閾値より大きい場合には予測符号化方式で符号化し、前記指数が前記所定の閾値以下である場合には周波数変換符号化方式で符号化し、得られた符号化データを出力するオーディオエンコード部と、前記オーディオ信号から低周波成分を抽出して出力する低周波成分抽出部と、前記オーディオ信号の高周波成分を、帯域拡大技術を用いて符号化し、得られた符号化データを出力する高周波成分符号化部と、多重化部とを有する。前記オーディオ信号解析部は、前記低周波成分抽出部で抽出された低周波成分を解析する。前記オーディオエンコード部は、前記低周波成分抽出部で抽出された低周波成分を符号化して出力する。前記多重化部は、高周波成分符号化部で生成された符号化データと前記オーディオエンコード部で生成された符号化データとを多重化して、オーディオビットストリームを生成する。

これによると、エンコード品質を向上させることができる。更に、得られた符号化データの再生時には、予測符号化方式が用いられている頻度を解析するのみで、容易に音声が含まれているか否かの判定が可能となる。

本発明の実施形態によれば、デジタル信号再生装置において、音声が含まれているか否かの判定に要する演算量を減少させることができる。また、デジタル信号圧縮装置において得られた符号化データの再生時に、音声が含まれているか否かの判定が容易に可能となる。したがって、高速再生しながら音声を聞き取り易くすることが容易に可能となる。

本発明の第１の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。本発明の第１の実施形態に係るデジタル信号圧縮装置の構成例を示すブロック図である。図２のデジタル信号圧縮装置の第１の変形例の構成を示すブロック図である。図２のデジタル信号圧縮装置の第２の変形例の構成を示すブロック図である。図１のデジタル信号再生装置と図２のデジタル信号圧縮装置とを有するレコーダシステムの一例を示すブロック図である。本発明の第２の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。図６のデジタル信号再生装置の変形例の構成を示すブロック図である。図８は、スキップするピクチャの種類及び枚数、並びに再生速度の組合せの代表的な例を示す説明図である。

以下、本発明の実施形態を、図面を参照しながら説明する。図面において下２桁が同じ参照番号で示された構成要素は、互いに対応しており、同一の又は類似の構成要素である。

本明細書においては、音声とは人の声を表すとし、音声信号とは、主に人の声を表す信号であるとする。オーディオ信号とは、人の声の他、楽器等のあらゆる音を表し得る信号であるとする。

本明細書における各機能ブロックは、典型的にはハードウェアで実現され得る。例えば各機能ブロックは、ＩＣ（集積回路）の一部として半導体基板上に形成され得る。ここでＩＣは、ＬＳＩ（Large-Scale Integrated circuit）、ＡＳＩＣ（Application-Specific Integrated Circuit）、ゲートアレイ、ＦＰＧＡ（Field Programmable Gate Array）などを含む。代替としては各機能ブロックの一部又は全ては、ソフトウェアで実現され得る。例えばそのような機能ブロックは、プロセッサ上で実行されるプログラムによって実現され得る。換言すれば、本明細書で説明される各機能ブロックは、ハードウェアで実現されてもよいし、ソフトウェアで実現されてもよいし、ハードウェアとソフトウェアとの任意の組合せで実現され得る。

（第１の実施形態）
図１は、本発明の第１の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。図１のデジタル信号再生装置１００は、オーディオデコード部１１２と、可変速再生部１１４と、オーディオビットストリーム解析部１２２と、再生速度決定部１２４とを有している。

オーディオデコード部１１２及びオーディオビットストリーム解析部１２２には、オーディオビットストリームＡＢＳが入力されている。オーディオビットストリームＡＢＳは、例として、ＭＰＥＧ（Moving Picture Experts Group）規格（ＩＳＯ／ＩＥＣ１３８１８−７）に規定されたＡＡＣ（Advanced Audio Coding）方式でエンコードされたビットストリームであるとする。

入力オーディオ信号をＡＡＣ方式でエンコードしてオーディオビットストリームを生成する際の処理について簡単に説明する。オーディオビットストリームの生成の際には、ＰＣＭ（Pulse Code Modulation）信号である入力オーディオ信号が、その性質に応じた適切な符号化ツールによってエンコードされる。例えば、入力オーディオ信号がステレオ信号であり、Ｌチャネルの信号とＲチャネルの信号とが類似の周波数成分を有しているような場合には、“Intensity Stereo”や“Ｍ／Ｓ（Mid/Side Stereo Coding）”というツールが用いられる。

また、入力信号の時間的な変動が大きい場合には、“block switching”や“ＴＮＳ（Temporal Noise Shaping）”というツールが用いられる。ＡＡＣ方式は、時間領域の信号を周波数領域の信号（周波数信号）に変換する処理（周波数変換）を行い、周波数領域の信号を符号化する方式（周波数変換符号化方式）である。“block switching”は、入力の信号の時間的変動が大きい場合に、短い時間間隔で周波数領域の信号への変換処理を行うことで時間分解能を高める。入力信号の時間的変動が大きい場合には、“block switching”によって頻繁に周波数領域の信号への変換処理が行われる。“ＴＮＳ”は周波数信号の予測符号化器である。入力信号の時間的変動が大きい場合には、周波数信号は平坦なものになるので、予測符号化器を用いることで圧縮効率を上げられる場合が多くなる。

音声は、非常に短い時間で子音と母音とを繰り返すので時間的変動が大きい。このため、ＡＡＣエンコーダでは、音声信号に対しては、“block switching”及び“ＴＮＳ”が用いられる頻度が高くなる。

オーディオビットストリーム解析部１２２は、オーディオビットストリームＡＢＳが人の声を含むか否かを解析する。この際、オーディオビットストリーム解析部１２２は、例えば、オーディオビットストリームＡＢＳにおいて、符号化対象のオーディオ信号が予測符号化されている頻度及び周波数領域の信号への変換が行われている頻度を、所定の長さの区間ごとに解析する。予測符号化されている頻度は、オーディオビットストリームＡＢＳに含まれる“ＴＮＳ”が行われていることを示すフラグ等から求める。周波数領域の信号へ変換されている頻度は、オーディオビットストリームＡＢＳに含まれる“block switching”が行われていることを示すフラグ等から求める。オーディオビットストリーム解析部１２２は、求められた頻度を解析結果として再生速度決定部１２４に出力する。

オーディオデコード部１１２は、入力されたオーディオビットストリームＡＢＳをデコードし、得られたオーディオ信号（ＰＣＭ信号）を可変速再生部１１４に出力する。ＡＡＣ方式でエンコードされたビットストリームのデコードについての詳細は、ＭＰＥＧ規格に記載されているので、その説明を省略する。

次に、再生速度決定部１２４は、オーディオビットストリーム解析部１２２での解析結果に基づいて再生速度を決定する。この際、再生速度決定部１２４は、例えば、各区間の再生速度を、それぞれの区間においてオーディオ信号が予測符号化されている頻度及び周波数領域の信号へ変換されている頻度に応じて決定する。

ある区間において“block switching”及び“ＴＮＳ”が所定の閾値より高い頻度で用いられている場合には、再生速度決定部１２４は、その区間には音声信号が多く含まれていると判定し、高速再生時であっても（目標とされる平均的な再生速度である目標再生速度が例えば２倍速であっても）比較的ゆっくりとした再生（例えば１．３倍速等での再生）を行うように再生速度を決定する。その他の場合には、再生速度決定部１２４は、その区間には音声信号が含まれていないと判定し、目標再生速度よりも高速な再生（例えば、目標再生速度が２倍速である場合には、３倍速や４倍速での再生）を行うように再生速度を決定する。

音声が含まれているか否かの判定をより正確に行うために、デコード後のＰＣＭ信号の解析を併用してもよい。例えば、デコード後のＰＣＭ信号に対して、従来と同様の分析方法で音声が含まれているか否かの判定を行い、その判定基準を、オーディオビットストリーム解析部１２２での解析結果に応じて決定する。すると、判定をより正確に行うことができる。

可変速再生部１１４は、オーディオデコード部１１２から出力されたオーディオ信号を、再生速度決定部１２４で決定された再生速度で再生し、再生速度が変更されたオーディオ信号ＡＳＲを出力する。再生速度を変化させる際には、信号の時間軸方向の短縮及びクロスフェード処理等、従来から行われているどのような方法を用いてもよい。

このように、図１のデジタル信号再生装置によると、音声が含まれるか否かを、デコード前のオーディオビットストリームから直接判定するので、音声が含まれるか否かの判定に要する演算量を減少させることができる。

なお、再生速度決定部１２４は、“block switching”及び“ＴＮＳ”のうちの一方の頻度に応じて再生速度を決定してもよい。

以上では、入力オーディオビットストリームはＡＡＣ方式でエンコードされたストリームであるとして説明したが、これには限定されない。例えば、近年ＭＰＥＧオーディオの規格化団体で研究及び規格化が進められている、いわゆる「音声・オーディオ統合コーデック」のエンコード方式でエンコードされたストリームも、入力ビットストリームとして適している。「音声・オーディオ統合コーデック」では、音声信号（人の声）をエンコードする場合とその他のオーディオ信号（楽音、自然音）をエンコードする場合とで、それぞれ相応しいエンコード方式が自動的に選択される。エンコード結果として得られる符号化ビットストリームには、どのようなエンコード方式が用いられたかを明示的に示す情報が含まれるべきである。その場合、ビットストリームからそのような情報を取り出すことによって、音声／非音声の判断が非常に容易になる。

ところで、図１に関して、デジタル信号を再生する際の再生速度の制御機能に注目して説明したが、図１の構成は、他の機能を有していてもよい。例えば、再生速度決定部１２４は、オーディオビットストリーム解析部１２２の解析結果に従って、イコライジング特性や、空間音響特性を決定してもよい。可変速再生部１１４は、決定されたイコライジング特性や、空間音響特性を実現する機能を有していてもよい。可変速再生部１１４は、例えば、入力信号が音声である場合には、音声帯域（ピッチ周波数帯域やホルマント周波数帯域）をより鮮明に再生するためのフィルタを適用してもよいし、入力信号がマルチチャネルの楽音である場合には、空間音響特性を広げるためのフィルタを適用してもよい。

図２は、本発明の第１の実施形態に係るデジタル信号圧縮装置の構成例を示すブロック図である。図２のデジタル信号圧縮装置２００は、オーディオ信号解析部２５４と、第１の制御部２６２と、予測符号化部２６４と、周波数変換符号化部２６６と、第２の制御部２７２とを有している。第１の制御部２６２、予測符号化部２６４、及び周波数変換符号化部２６６は、オーディオエンコード部２６０を構成している。

まず、オーディオ信号解析部２５４は、所定の長さの区間ごとに入力オーディオ信号ＡＳＧを解析し、オーディオ信号に音声（人の声）の成分が含まれている度合いを示す指数Ｒを検出して第１の制御部２６２に出力する。その方法は従来から知られているどのような方法でもよいが、例えば、音声のホルマント周波数帯域の信号の強さや、その時間的な変動に基づいてもよいし、音声のピッチ周波数帯域に所定以上の強さの信号が存在するか否かに基づいてもよい。

第１の制御部２６２は、オーディオ信号解析部２５４から出力される指数Ｒに応じて、どの符号化部でオーディオ信号ＡＳＧを符号化するかを決定する。すなわち、第１の制御部２６２は、指数Ｒが所定の閾値より大きい場合（人の声の成分が多く含まれている場合）には予測符号化部２６４で、指数Ｒが所定の閾値以下である場合（人の声の成分があまり含まれていない場合）には周波数変換符号化部２６６で、オーディオ信号ＡＳＧの指数Ｒに対応する区間を符号化をすることを決定し、決定された符号化部にオーディオ信号ＡＳＧを出力する。

予測符号化部２６４は、第１の制御部２６２から出力されたオーディオ信号を予測符号化方式で符号化し、生成された符号化データを第２の制御部２７２に出力する。予測符号化方式では、音声（人の声）を、音源成分と予測係数（音響特性係数）に分離し、それぞれを圧縮符号化する。ここで、予測符号化方式は、例えば、ＩＴＵ−Ｔ（International Telecommunication Union-Telecommunication Sector）で定義されたＧ．７２９等の音声用符号化方式であってもよいし、３ＧＰＰ（Third Generation Partnership Project）で定義されたＡＭＲ−ＮＢ，ＡＭＲ−ＷＢ等の音声用符号化方式であってもよい。

周波数変換符号化部２６６は、第１の制御部２６２から出力されたオーディオ信号を周波数変換符号化方式で符号化し、生成された符号化データを第２の制御部２７２に出力する。周波数変換符号化方式では、入力オーディオ信号を、ＭＤＣＴ（Modified Discrete Cosine Transform）や、ＱＭＦ（Quadrature Mirror Filters）等によって周波数領域の信号に変換し、周波数領域の信号の各周波数成分に重み付けしながら圧縮符号化する。ここで、周波数変換符号化方式は、例えば、ＡＡＣやＨＥ−ＡＡＣ（High-Efficiency Advanced Audio Coding）で定義されたオーディオ用符号化方式である。

第２の制御部２７２は、予測符号化部２６４及び周波数変換符号化部２６６で生成された符号化データからオーディオビットストリームＡＢＳを生成して出力する。

図２のデジタル信号圧縮装置２００によると、ビットストリームの生成時（エンコード時）に、所定の長さの区間ごとにオーディオ信号に音声の成分がどの程度含まれているかを解析し、その結果に応じて符号化方式を決定するので、エンコード品質を向上させることができる。更に、生成された符号化データの再生時には、予測符号化方式が用いられている頻度を解析するのみで、容易に音声が含まれている区間であるか否かの判定が可能となる。

図２のデジタル信号圧縮装置２００では、入力オーディオ信号ＡＳＧの全帯域が、予測符号化方式及び周波数変換符号化方式のうちのいずれか一方で符号化される。しかし、必ずしもその必要はない。例えば、音声信号の主要な周波数成分は低周波数帯域に集中しているという特徴を考慮すれば、音声／非音声に応じて符号化方式を切り替える対象を、低周波成分に限定してもよい。この場合、高周波成分を、例えば、ＭＰＥＧ規格ＡＡＣ＋ＳＢＲ（Spectral Band Replication）方式（ＩＳＯ／ＩＥＣ１４４９６−３）で規定されている帯域拡大技術であるＳＢＲによって符号化してもよい。

図３は、図２のデジタル信号圧縮装置２００の第１の変形例の構成を示すブロック図である。図３のデジタル信号圧縮装置は、図２のデジタル信号圧縮装置２００と、低周波成分抽出部３５２と、高周波成分符号化部３５６と、多重化部３７４とを有している。

まず、低周波成分抽出部３５２は、入力オーディオ信号ＡＳＧの低周波数帯域の信号を抽出し、オーディオ信号解析部３５４及び第１の制御部３６２に出力する。抽出の方法としては、ローパスフィルタを用いてもよいし、周波数領域の信号に変換された信号の低域成分を時間領域の信号に変換する方法で取り出してもよい。高周波成分符号化部３５６は、入力オーディオ信号ＡＳＧの高周波成分を帯域拡大技術を用いて符号化し、得られた符号化データを出力する。帯域拡大技術としては、例えば、ＭＰＥＧ規格ＡＡＣ＋ＳＢＲ方式（ＩＳＯ／ＩＥＣ１４４９６−３）で規定されているＳＢＲを用いる。

デジタル信号圧縮装置２００は、低周波成分抽出部３５２の出力信号が入力される点の他は図２を参照して説明したものと同様に構成されているので、その説明を省略する。多重化部３７４は、第２の制御部３７２から出力されるオーディオビットストリームと高周波成分符号化部３５６から出力される符号化データとを多重化してオーディオビットストリームＡＢＳを生成し、出力する。

このように、人の声の主要な周波数成分は低周波数領域に集中しているので、図３のデジタル信号圧縮装置は、入力オーディオ信号ＡＳＧの低周波成分に対してのみ、予測符号化方式による符号化を行う。このため、図２のデジタル信号圧縮装置に比べて、エンコード品質をより向上させることができる。更に、再生時には、ビットストリームのうち、低周波数領域のデータを解析するのみで、容易に音声が含まれている区間であるか否かの判定が可能となる。

図４は、図２のデジタル信号圧縮装置２００の第２の変形例の構成を示すブロック図である。図４のデジタル信号圧縮装置は、多重化部３７４に代えて多重化部４７４を有している点が、図３のデジタル信号圧縮装置とは異なっている。多重化部４７４は、オーディオ信号解析部３５４が検出した指数Ｒ、又はこれを符号化した値を、第２の制御部３７２から出力されるオーディオビットストリーム及び高周波成分符号化部３５６から出力される符号化データに多重化し、オーディオビットストリームＡＢＳとして出力する。

これにより、ビットストリームを再生する際に、区間内にどの程度音声の成分が含まれているかをより正確に判定できる。入力オーディオ信号ＡＳＧは、必ずしも単純に、音声／非音声の２種類に分類できない場合もあるので、その判定材料となった指数Ｒを再生装置側で知ることができることは、より高品位の再生に寄与できる。例えば、指数Ｒの値が非常に大きい場合には、オーディオ信号ＡＳＧにはほぼ音声成分のみが含まれていると分かるので、音声に適した再生処理（音声帯域成分の強調等）を実施すればよい。逆に指数Ｒの値が非常に小さい場合には、オーディオ信号ＡＳＧは音声を含まないことが分かるので、オーディオに適した再生処理（重低音や高域信号の強調によるリッチな音作り等）を実施すればよい。指数Ｒが中間的な値であれば、両方の処理を適宜行えばよい。

図５は、図１のデジタル信号再生装置と図２のデジタル信号圧縮装置とを有するレコーダシステムの一例を示すブロック図である。図５のレコーダシステムは、図１のデジタル信号再生装置１００と、図２のデジタル信号圧縮装置と、ビットストリーム蓄積部５０２とを有している。ビットストリーム蓄積部５０２は、データを蓄積可能などのような蓄積媒体であってもよく、例えばＤＶＤ、ＢＤ、ＣＤ（Compact Disc）、ＨＤＤ、メモリカードのいずれであってもよい。また、ビットストリーム蓄積部５０２と図１のデジタル信号再生装置１００とを組み合わせてもよい。

（第２の実施形態）
図６は、本発明の第２の実施形態に係るデジタル信号再生装置の構成例を示すブロック図である。図６のデジタル信号再生装置は、オーディオデコード部６１２と、オーディオバッファ部６１３と、可変速再生部６１４と、ビデオデコード制御部６１６と、オーディオビットストリーム解析部６２２と、再生速度決定部６２４と、ＡＶ（audiovisual）データ蓄積部６３２と、ストリーム分離部６３４と、ビデオバッファ部６３６と、ビデオデコード部６３８とを有している。

ＡＶデータ蓄積部６３２には、ビデオビットストリームとオーディオビットストリームとが多重化されたビットストリームが格納されている。ＡＶデータ蓄積部６３２は、このビットストリームを、ＡＶビットストリームＡＶＳとしてストリーム分離部６３４に出力する。ストリーム分離部６３４は、ＡＶビットストリームＡＶＳをビデオビットストリームＶＢＳとオーディオビットストリームＡＢＳとに分離し、ビデオビットストリームＶＢＳをビデオバッファ部６３６に、オーディオビットストリームＡＢＳをオーディオデコード部６１２及びオーディオビットストリーム解析部６２２に出力する。

オーディオデコード部６１２、可変速再生部６１４、オーディオビットストリーム解析部６２２、及び再生速度決定部６２４は、図１を参照して説明した対応する構成要素と同様であるので、これらの説明を省略する。オーディオバッファ部６１３は、オーディオデコード部６１２から出力されたオーディオ信号を格納して可変速再生部６１４に出力する。

ビデオバッファ部６３６は、ビデオビットストリームＶＢＳを格納してビデオデコード部６３８に出力する。ビデオデコード制御部６１６は、再生速度決定部６２４で決定された再生速度に応じた速度で映像が再生されるようにビデオビットストリームＶＢＳのデコード処理についての決定を行う。ビデオデコード部６３８は、ビデオデコード制御部６１６の決定に従って、ビデオバッファ部６３６から出力されたビデオビットストリームをデコードし、得られた映像信号ＶＳＲを出力する。

以上のように構成された図６のデジタル信号再生装置の動作について以下に詳しく説明する。ＡＶデータ蓄積部６３２には、ＭＰＥＧ−２ビデオ（ＩＳＯ／ＩＥＣ１３８１８−２）に準拠したビデオビットストリームと、ＭＰＥＧ−２ＡＡＣ（ＩＳＯ／ＩＥＣ１３８１８−７）に準拠したオーディオビットストリームとが、ＭＰＥＧ−２ＴＳ（Transport Stream）フォーマット（ＩＳＯ／ＩＥＣ１３８１８−１）で多重化されたビットストリームが蓄積されているとする。

ＭＰＥＧ−２ビデオは、フレーム間予測を利用した動画圧縮方式であり、映像信号を構成するピクチャは、その予測方法によってＩピクチャ、Ｐピクチャ、Ｂピクチャの３つのピクチャ種類に分類される。Ｉピクチャは、動画再生の起点となるピクチャであり、そのピクチャ単独で再生可能である。Ｐピクチャは、時間的に前のＩピクチャ、Ｐピクチャがないと再生できないが、Ｉピクチャより符号量が小さい。Ｂピクチャは、時間的に前後のＩピクチャ、Ｐピクチャがないと再生できないが、Ｉピクチャ、Ｐピクチャより符号量が小さい。

例えば、デジタル放送では、画質や符号量のバランスを考慮して、これらのＩピクチャ（Ｉと表記する）、Ｐピクチャ（Ｐと表記する）、及びＢピクチャ（Ｂと表記する）を組み合わせて、ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢの順序で表示するようにピクチャ構成されることが多い。また、ビットストリームの途中からでも映像を再生することができるように、０．５秒程度でＩピクチャに戻るようにすることが多い。デジタル放送では、１秒に３０フレーム送信され、１フレームは１ピクチャから構成されることが多い。０．５秒では１５ピクチャになることから、ピクチャ構成はＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢ（ＩＰＢＢ．．．）の繰り返しになることが多い。

ＭＰＥＧ−２ＴＳは、デジタル放送等で多く採用されているビデオビットストリームとオーディオビットストリームとが多重化されたビットストリームであり、ビデオビットストリーム及びオーディオビットストリームをそれぞれ固定長に分割して得られたパケットが、時間的に交互に配置されている。一般に、ビデオビットストリームの符号量は、オーディオビットストリームの符号量より大きいので、ＭＰＥＧ−２ＴＳのビットストリームは、ビデオパケット（Ｖと表記する）とオーディオパケット（Ａと表記する）とが、例えばＡＶＶＶＶＶＶＡＶＶＶＶＶＶといった順序で構成されることになる。

まず、ストリーム分離部６３４は、ＡＶデータ蓄積部６３２から入力されたＭＰＥＧ−２ＴＳフォーマットのビットストリームからビデオパケット（Ｖ）を取り出し、取り出された各パケットを結合して、ビデオデバッファ部６３６に出力する。また、ストリーム分離部６３４は、オーディオパケット（Ａ）を取り出し、取り出された各パケットを結合して、オーディオビットストリーム解析部６２２及びオーディオデコード部６１２に出力する。

ここで、再生速度決定部６２４が、例えば再生速度を３倍に決定したとすると、オーディオとビデオとを同期して再生するためには、オーディオだけでなく、ビデオも３倍速で再生する必要がある。しかし、デジタル放送では、ＨＤ（High Definition）映像（１フレーム１９２０×１０８０画素）の膨大な映像データを扱う必要があり、単純に３倍の速度でデコードして再生することは３倍の演算量が必要になるため、現実的ではない。先に述べたようにデジタル放送では、ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢといったピクチャ構成が多いため、例えばＢピクチャのデコードをスキップし、ＩピクチャとＰピクチャだけをデコードして再生することにすれば、１５ピクチャ中の５ピクチャだけをデコードすればよいことになるため、再生速度を３倍にできることになる。

このように、ビデオデコード制御部６１６は、再生速度決定部６２４で決定された再生速度に従って、どのピクチャの再生をスキップし、どのピクチャの再生を行うかを決定し、ビデオデコード部６３８に通知する。ビデオデコード部６３８は、ビデオデコード制御部６１６の決定に従って、ビデオビットストリームのデコードを行い、得られた映像信号を出力する。

ところが、映像信号と音声信号とを完全に同期させて出力するためには、バッファが必要となる。すでに述べたとおり、ビデオのピクチャ構成はＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢＰＢＢであるが、符号化の順序はこの順序ではない。Ｂピクチャは時間的に後ろのＰピクチャも予測に利用するため、符号化はＩＰＢＢＰＢＢＰＢＢＰＢＢＰＢＢの順序となり、ＰピクチャがＢピクチャの前、すなわち、ビットストリームでは、実際に再生されるタイミングとは異なる順に配置されている。したがって、ＭＰＥＧ−２ＴＳフォーマットにおいて、オーディオパケットとビデオパケットとが時間的に均等に多重化されているとはいっても、特定のピクチャに注目すると、オーディオよりビデオの方が時間的に先行して多重化されていることになる。

また、ストリーム分離部６３４でオーディオビットストリームを分離してから、再生速度決定部６２４で再生速度を決定するまでには、遅延時間が存在する。すなわち、再生速度が決定する前に、ストリームの分離やビデオデコードが先に進んでしまうことになる。

上記の２つの理由により、ストリーム分離部６３４で分離したビデオビットストリームをすぐにビデオデコード部６３８でデコードしたとすると、再生速度決定部６２４で再生速度が決定したときには、すでにオーディオに対応するビデオデコードが完了していることになり、意図した通りにピクチャをスキップすることができない。

そこで、図６のように、ストリーム分離部６３４とビデオデコード部６３８との間に、ビデオバッファ部６３６を設け、ビデオビットストリームを蓄積する構成とする。ビデオビットストリームをビデオバッファ部６３６に蓄積しておき、再生速度決定部６２４で再生速度が決定した後に、ビデオデコード部６３８の処理を開始することができるようにする。このとき、ビデオバッファ部６３６には、少なくとも、Ｐピクチャの先行符号化ピクチャ数（本実施例の場合はＰピクチャが時間順より２ピクチャ前に符号化されるので２ピクチャ分）のビットストリーム、及び、再生速度決定までの遅延時間に相当する容量が必要になる。

また、ＭＰＥＧ−２ＴＳ形式では、映像信号と音声信号とを同期して出力できるように、タイミングを合わせて、ビデオビットストリームとオーディオビットストリームとを多重化している。図６の構成では、ビデオバッファ部６３６により映像信号だけが遅延すると、音声信号が先行してしまい、音声信号出力時に映像信号出力と同期が取れないことがあり得る。そこで、オーディオデコード部６１２の後段に、オーディオバッファ部６１３を設け、音声信号出力を遅延させて、映像信号出力と同期を取ることができるようにする。

なお、図６の構成では、オーディオバッファ部６１３を、オーディオデコード部６１２の後段に設けているが、オーディオデコード部６１２の前段や、可変速再生部６１４の後段に設けてもよい。つまり、音声信号を映像信号に合わせて遅延させることができるように構成すればよい。

図６の構成では、再生速度決定部６２４は、オーディオビットストリーム解析部６２２のビットストリーム解析結果によって再生速度を決定することとしているが、再生速度の決定方法はこれには限らない。例えば、オーディオデコード部６１２のデコード結果から、音声データの解析を行って、音声区間検出を行い、その検出結果から再生速度を決定してもよい。

図６では、ビデオバッファ部６３６及びオーディオバッファ部６１３が必要であるが、両バッファに必要なサイズは、どれだけビデオのデコードを遅延させる必要があるかに依存する。すでに述べたようなピクチャの構成では、２〜３フレーム分以上は遅延させる必要がある。また、再生速度の決定は、ただちに決定できるものではなく、音声区間や非音声区間の比率など、音声の前後関係によって決定する性質のものであるため、再生速度を決定するまでに遅延時間が発生する。このとき、遅延時間を大きく取れば、音声区間の継続時間に応じて再生速度を調整したり、また、一時的に非音声区間になったとしてもすぐに音声区間が継続する場合には、その非音声区間の再生速度を音声区間と同じにするといったように、再生速度をより適切に決定することができる。

ピクチャ構成に起因する遅延時間や、再生速度決定までの遅延時間等として、仮に１秒程度の遅延が必要だとすると、ビデオバッファ部６３６に必要なサイズは、例えばデジタル放送の場合、２０Ｍｂｉｔ程度である。また、オーディオバッファ部６１３に必要なサイズは、オーディオデコード部６１２の後段に配置する場合、４８ｋＨｚ×１６ｂｉｔ×５．１ｃｈ＝３．９２Ｍｂｉｔ程度である。再生速度の精度を上げると、１秒ではなく、数秒程度の遅延が必要になり、ビデオバッファ部６３６、オーディオバッファ部６１３の容量の増加がコスト的に許容できない場合が発生し得る。そこで、これらのバッファを用いないようにしてもよい。

図７は、図６のデジタル信号再生装置の変形例の構成を示すブロック図である。図７のデジタル信号再生装置は、オーディオデコード部７１２と、可変速再生部７１４と、ビデオデコード制御部７１６と、第１のストリーム分離部７２１と、オーディオビットストリーム解析部７２２と、再生速度決定部７２４と、ＡＶデータ蓄積部７３２と、第２のストリーム分離部７３４と、ビデオデコード部７３８とを有している。

第１のストリーム分離部７２１は、多重化されたＡＶビットストリームＡＶＳ１からオーディオビットストリームを分離して出力する。オーディオビットストリーム解析部７２２は、第１のストリーム分離部７２１で分離されたオーディオビットストリームＡＢＳ１が人の声を含むか否かを解析する。第２のストリーム分離部７３４は、ＡＶビットストリームＡＶＳ１を遅らせたＡＶビットストリームＡＶＳ２を、オーディオビットストリームとビデオビットストリームとに分離して出力する。オーディオデコード部７１２は、第２のストリーム分離部７３４で分離されたオーディオビットストリームＡＢＳ２をデコードする。

図７のデジタル信号再生装置の動作について以下に詳しく説明する。まず、第１のストリーム分離部７２１は、ＡＶデータ蓄積部７３２に蓄積されたＭＰＥＧ−２ＴＳフォーマットのビットストリームＡＶＳ１から、オーディオパケットを取り出し、取り出された各パケットを結合し、オーディオビットストリームＡＢＳ１としてオーディオビットストリーム解析部７２２に出力する。第１のストリーム分離部７２１は、ビデオパケットを破棄する。

オーディオデコード部７１２、可変速再生部７１４、オーディオビットストリーム解析部７２２、及び再生速度決定部７２４は、図１を参照して説明した対応する構成要素と同様であり、ビデオデコード制御部７１６及びビデオデコード部７３８は、図６を参照して説明した対応する構成要素と同様であるので、これらの説明を省略する。

次に、第２のストリーム分離部７３４は、ＡＶデータ蓄積部７３２に蓄積された先ほどと同じＭＰＥＧ−２ＴＳフォーマットのビットストリームＡＶＳ１を、しばらく時間が経過してからビットストリームＡＶＳ２として再度読み込み、今度はビデオパケットを取り出し、取り出された各パケットを結合し、ビデオビットストリームＶＢＳとしてビデオデコード部７３８に出力する。また、第２のストリーム分離部７３４は、同様にオーディオパケットを取り出し、取り出された各パケットを結合し、オーディオビットストリームＡＢＳ２としてオーディオデコード部７１２に出力する。

図７のデジタル信号再生装置では、図６の装置とは異なり、ビデオデコードに先行して、再生速度決定部７２４で再生速度が決定されているため、ビデオバッファ部は不要である。また、映像信号に遅延が生じないため、オーディオバッファ部も不要である。

第１のストリーム分離部７２１及び第２のストリーム分離部７３４は、同じＡＶビットストリームに対して並行動作させるが、まず、ビットストリームＡＶＳ１に対して第１のストリーム分離部７２１を先行させて処理を開始し、その後にビットストリームＡＶＳ１を遅延させたビットストリームＡＶＳ２に対して第２のストリーム分離部７３４が処理を行う。

なお、図７の装置では、第１のストリーム分離部７２１を先行させて動作させる時間は、図６の装置でのビデオバッファと同様に、少なくとも、ビデオ符号化のフレーム予測の性質から２フレーム以上、更に再生速度決定部７２４の処理遅延時間（再生速度の精度に依存）分だけ必要になる。先行させて動作させる時間が短すぎると、映像や音声の再生タイミングにおいて、まだ再生速度が決定していないといったことが起こるので注意する必要がある。また、図６の場合とは異なり、先行させて動作させる時間を大きくしすぎても、バッファサイズへの影響はないが、再生速度決定部７２４で決定した再生速度情報を蓄積するバッファが必要になることに注意する必要がある。更に、再生速度を変更してから、実際に映像信号や音声信号の出力に反映されるまでの遅延時間が延びることにも注意する必要がある。上記を踏まえ、先行させて動作させる時間には適切な時間を設定する必要がある。

図７の構成では、再生速度決定部７２４は、オーディオビットストリーム解析部７２２のビットストリーム解析結果によって再生速度を決定することとしているが、再生速度の決定方法はこれには限らない。例えば、第１のストリーム分離部７２１の出力のオーディオビットストリームをデコードして、その出力である音声データの解析を行って、音声区間検出を行い、その音声区間検出の結果から再生速度を決定するようにしてもよい。

図７の構成では、第１のストリーム分離部７２１と第２のストリーム分離部７３４とが同時に動作することを想定しているが、１つのストリーム分離部を時分割で交互に２つのストリーム分離部として動作させようにしてもよい。

図６及び図７のデジタル信号再生装置の説明においては、再生速度が３倍の場合を例として示したが、再生速度は３倍以外であってもよい。すでに述べた通り、デジタル放送では、ピクチャ構成がＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢ（ＩＢＢＰ．．．）の繰り返しになることが多いことので、その繰り返しの単位となる１５ピクチャを用いて、３倍以外の再生速度の実現方法を説明する。

ＭＰＥＧ−２ビデオでは、Ｉピクチャのデコードをスキップすると、それを予測に利用するＰピクチャやＢピクチャのデコードができない。Ｐピクチャのデコードをスキップすると、それを予測に利用する（それより後ろの）ＰピクチャやＢピクチャのデコードができない。Ｂピクチャのデコードをスキップしても、他のピクチャのデコードへの影響はない、といった性質を利用することができる。例えば、以下のように、Ｂピクチャのデコードを４枚スキップすれば１．５倍速、Ｂピクチャのデコードを全て（８枚）スキップすれば３倍速、Ｂピクチャ及びＰピクチャのデコードを全て（Ｂピクチャ８枚、Ｐピクチャ４枚）スキップすれば１５倍速が実現できることが分かる。各ピクチャを文字で示すと、
ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢＩ …１倍
ＩＢＰＢＰＢＰＢＰＢＩ …１．５倍
ＩＰＰＰＰＩ …３倍
ＩＩ …１５倍
と表される。

スキップするピクチャを細かく制御することで、再生速度をこれ以外に変化させることができる。図８は、スキップするピクチャの種類及び枚数、並びに再生速度の組合せの代表的な例を示す説明図である。図８の例では、１２種類の再生速度を実現できる。また、本実施形態では１５フレーム単位でピクチャスキップを制御したが、それ以外の単位（例えば６フレーム、３０フレーム等）で制御すれば、更に異なった再生速度を実現できる。ビデオデコード制御部６１６，７１６は、再生速度決定部６２４又は７２４で決定された再生速度に応じた速度で映像が再生されるように、ピクチャスキップを制御する単位とするフレーム数並びにスキップするピクチャの種類及び枚数を決定する。

ただし、デコードされるピクチャのパターンとしては、映像が不自然な動きになるようなパターンは用いないようにする。そのようなパターンの代わりに、映像が不自然な動きにならないパターンを採用し、更にフレームの間引きやフレームの繰り返しを行って、映像の再生速度をオーディオの再生速度に合わせるようにする。

本実施形態では、ピクチャのスキップに要する時間が０であるとして再生速度を決定したが、実際には、ピクチャをスキップした場合、次のピクチャの先頭までビットストリームを頭出しするまでの時間が発生する。１ピクチャ分のビットストリームをスキップする時間は、デコード時間より十分短いことが想定されるものの、スキップするピクチャが多い場合は無視できない遅延時間が発生する。ピクチャのスキップ時間は、スキップするビットストリームのサイズに依存するが、ＭＰＥＧ２ビデオはピクチャごとのサイズが固定でないため、最大のサイズを想定する必要がある。ここでは、ピクチャのスキップ時間がデコード時間の５分の１と想定して、再生速度を計算しなおしたものを図８の実質再生速度として示す。

本実施形態では、ＩＢＢＰＢＢＰＢＢＰＢＢＰＢＢのピクチャ構成で説明を行ったが、少なくとも１つ以上のピクチャのデコードのスキップが可能なピクチャ構成であれば、同様の再生を実現できる。

本実施形態では、再生速度決定部６２４，７２４で決定した再生速度で必ずビデオデコードが実現できることを前提に説明を行ったが、想定よりスキップ可能なピクチャが少ないピクチャ構成の場合（例えば急にＩＰＰＰＰＰＰＰＰＰＰＰＰＰＰのピクチャ構成に変化した場合）や、ピクチャのスキップにかかる時間が想定より長かった場合（本実施形態ではデコード時間の５分の１を想定しているが、それより長い時間がかかったとき）には、再生速度決定部６２４，７２４で決定した再生速度で、映像信号が再生ができないことがある。このとき、音声信号を出力するタイミングでは、映像信号のデコードが完了していないので、同じ映像信号を出力し続けざるを得ないことになる。このような事態から迅速に復帰するため、指定の再生速度での再生ができなかった場合には、ビデオデコード制御部６３８，７３８から再生速度決定部６２４，７２４に対して、再生速度を遅くするようにフィードバックをかけることによって、その後は指定された再生速度で映像信号の再生ができるように制御してもよい。

本実施形態では、映像信号の符号化方式としてＭＰＥＧ−２ビデオを採用しているが、Ｈ．２６４やその他の動画符号化方式であっても、ピクチャのデコードのスキップが可能なものであれば、同様に用いることができる。

本実施形態では、音声信号の符号化方式としてＭＰＥＧ−２ＡＡＣを採用しているが、その他のいかなる音声符号化方式であっても同様に用いることができる。

本実施形態では、映像信号と音声信号の多重化方式として、ＭＰＥＧ−２ＴＳを利用しているが、図６の構成では、同じ時間に出力すべきビデオビットストリームとオーディオビットストリームを組み合わせて多重化している多重化方式であれば、同様に用いることができる。図９の構成では、ＭＰＥＧ−２ＰＳ（ＩＳＯ／ＩＥＣ１３８１８−１）など、ビデオビットストリームとオーディオビットストリームとが独立に多重化されている多重化方式や、その他のいかなる多重化方式であっても同様に用いることができる。

本発明の多くの特徴及び優位性は、記載された説明から明らかであり、よって添付の特許請求の範囲によって、本発明のそのような特徴及び優位性の全てをカバーすることが意図される。更に、多くの変更及び改変が当業者には容易に可能であるので、本発明は、図示され記載されたものと全く同じ構成及び動作に限定されるべきではない。したがって、全ての適切な改変物及び等価物は本発明の範囲に入るものとされる。

以上説明したように、本発明の実施形態によると、人の声が含まれているか否かの判定を少ない演算量で行うことができ、また、そのような判定が容易になるので、本発明は、デジタル信号再生装置及びデジタル信号圧縮装置等について有用である。更に、ＢＤ、ＤＶＤ、ＨＤＤ及びメモリカード等についての再生器及び記録器に有用である。

１１２，６１２，７１２オーディオデコード部
１１４，６１４，７１４可変速再生部
１２２，６２２，７２２オーディオビットストリーム解析部
１２４，６２４，７２４再生速度決定部
２５４オーディオ信号解析部
２６０オーディオエンコード部
３５２低周波成分抽出部
３５６高周波成分符号化部
３７４，４７４多重化部
６１３オーディオバッファ部
６１６，７１６ビデオデコード制御部
６３４ストリーム分離部
６３６ビデオバッファ部
６３８，７３８ビデオデコード部
７２１第１のストリーム分離部
７３４第２のストリーム分離部

Claims

オーディオビットストリームをデコードし、得られたオーディオ信号を出力するオーディオデコード部と、
前記オーディオビットストリームが人の声を含むか否かを解析するオーディオビットストリーム解析部と、
前記オーディオビットストリーム解析部での解析結果に基づいて再生速度を決定する再生速度決定部と、
前記再生速度決定部で決定された再生速度に従って前記オーディオ信号を再生する可変速再生部とを備え、
前記オーディオビットストリーム解析部は、前記オーディオビットストリームにおいて予測符号化されている頻度、又は、前記オーディオビットストリームにおいて周波数領域の信号への変換が行われている頻度を、所定の長さの区間ごとに解析し、
前記再生速度決定部は、それぞれの区間について、
予測符号化、又は周波数領域の信号への変換がされている頻度が所定の閾値より高い場合には、再生速度を目標再生速度より低速に決定し、
その他の場合には、再生速度を前記目標再生速度より高速に決定する
デジタル信号再生装置。
請求項１に記載のデジタル信号再生装置において、
前記再生速度決定部で決定された再生速度に応じた速度で映像が再生されるように、ビデオビットストリームのデコード処理についての決定を行うビデオデコード制御部と、
前記ビデオデコード制御部の決定に従って前記ビデオビットストリームをデコードするビデオデコード部とを更に備える
デジタル信号再生装置。
請求項２に記載のデジタル信号再生装置において、
多重化されたビットストリームを前記オーディオビットストリームと前記ビデオビットストリームとに分離するストリーム分離部と、
前記ストリーム分離部で分離された前記ビデオビットストリームを格納して前記ビデオデコード部に出力する第１のバッファと、
前記オーディオデコード部から出力された前記オーディオ信号を格納して前記可変速再生部に出力する第２のバッファとを更に備える
デジタル信号再生装置。
請求項２に記載のデジタル信号再生装置において、
多重化されたビットストリームを前記オーディオビットストリームと前記ビデオビットストリームとに分離するストリーム分離部と、
前記ストリーム分離部で分離された前記ビデオビットストリームを格納して前記ビデオデコード部に出力する第１のバッファと、
前記ストリーム分離部で分離された前記オーディオビットストリームを格納して前記オーディオデコード部に出力する第２のバッファとを更に備える
デジタル信号再生装置。
請求項２に記載のデジタル信号再生装置において、
多重化されたビットストリームから第１のオーディオビットストリームを分離して出力する第１のストリーム分離部と、
前記多重化されたビットストリームを遅らせたビットストリームを、第２のオーディオビットストリームと前記ビデオビットストリームとに分離して出力する第２のストリーム分離部とを更に備え、
前記オーディオビットストリーム解析部は、前記第１のオーディオビットストリームが人の声を含むか否かを解析し、
前記オーディオデコード部は、前記第２のオーディオビットストリームをデコードするデジタル信号再生装置。
所定の長さの区間ごとにオーディオ信号を解析し、前記オーディオ信号の区間内に人の声の成分が含まれている度合いを示す指数を検出するオーディオ信号解析部と、
前記オーディオ信号の前記指数に対応する区間を、前記指数が所定の閾値より大きい場合には予測符号化方式で符号化し、前記指数が前記所定の閾値以下である場合には周波数変換符号化方式で符号化し、得られた符号化データを出力するオーディオエンコード部と、
前記オーディオ信号から低周波成分を抽出して出力する低周波成分抽出部と、
前記オーディオ信号の高周波成分を、帯域拡大技術を用いて符号化し、得られた符号化データを出力する高周波成分符号化部と、
多重化部とを備え、
前記オーディオ信号解析部は、前記低周波成分抽出部で抽出された低周波成分を解析し、
前記オーディオエンコード部は、前記低周波成分抽出部で抽出された低周波成分を符号化して出力し、
前記多重化部は、高周波成分符号化部で生成された符号化データと前記オーディオエンコード部で生成された符号化データとを多重化して、オーディオビットストリームを生成する
デジタル信号圧縮装置。
請求項６に記載のデジタル信号圧縮装置において、
前記多重化部は、前記指数を、前記オーディオビットストリームに更に多重化する
デジタル信号圧縮装置。