JP2010164859A

JP2010164859A - オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム

Info

Publication number: JP2010164859A
Application number: JP2009008250A
Authority: JP
Inventors: Takahiro Chiba; 貴宏千葉; Hiroyuki Fukuchi; 弘行福地; Ryuji Tokunaga; 竜二徳永
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-01-16
Filing date: 2009-01-16
Publication date: 2010-07-29
Also published as: US8370724B2; CN101789252B; CN101789252A; US20100185916A1

Abstract

【課題】データの不連続に起因するミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくすることが可能なオーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラムを提供する。
【解決手段】入力パケット情報からこのパケットが前に到達したパケットと不連続かどうかを判断する不連続判断部１０４と、不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部１０５と、指定された補正処理をデコード処理されたデータに施す補正処理部１１１と、周波数分析部１０６の周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合はエンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部１０９とを有する。
【選択図】図２

Description

本発明は、ＣＤプレーヤ、ＤＶＤプレーヤ、テレビジョン等におけるオーディオ再生に適用可能なオーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラムに関するものである。

オーディオ(音声)再生装置において、データの不連続な音声ストリームを再生すると、その不連続点においてノイズが発生し、聴き手に不快感を与える場合がある。
このため、通常、図１に示すように、不連続点の前後で音声信号のミュート制御を行い、ノイズが発生しないよう対策するのが一般的である（たとえば特許文献１参照）。

特開２００２−２０４２２１号公報

しかしながら、一般的にミュート処理は複数のサンプルデータに対して施すので、音声の一部が掛けてしまい、理解できない音声再生となってしまう問題点がある。
特に、不連続点が頻発した場合は、この傾向が著しい。

本発明は、ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくすることが可能なオーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラムを提供することにある。

本発明の第１の観点のオーディオ再生装置は、入力された音声データをデコードするためのデコード処理部と、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部とを有する。

本発明の第２の観点の情報再生システムは、転送された情報から音声データを再生するオーディオ再生装置を有し、上記オーディオ再生装置は、入力された音声データをデコードするためのデコード処理部と、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部と、を含む。

本発明の第３の観点のオーディオ再生方法は、入力された音声データをデコードするためのデコード処理ステップと、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断ステップと、上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理ステップと、上記デコード処理されたデータの周波数分析を行う周波数分析ステップと、上記デコード処理されたデータのエンベロープを算出するエンベロープ算出ステップと、上記デコード処理されたデータのレベル差を算出するレベル差算出ステップと、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断ステップと、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理ステップとを有する。

本発明の第４の観点は、入力された音声データをデコードするためのデコード処理と、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断処理と、上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理と、上記デコード処理されたデータの周波数分析を行う周波数分析処理と、上記デコード処理されたデータのエンベロープを算出するエンベロープ算出処理と、上記デコード処理されたデータのレベル差を算出するレベル差算出処理と、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断処理と、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理とを有するオーディオ再生処理をコンピュータに実行させるプログラムである。

本発明によれば、不連続判断部で入力パケット情報からこのパケットが前に到達したパケットと不連続かどうかを判断され、不連続であった場合はリセット処理部によるデコード情報が一旦リセットされる。
デコード処理部でデコード処理されたデータの周波数分析が周波数分析部で行われ、デコード処理されたデータのエンベロープがエンベロープ算出部で算出され、デコード処理されたデータのレベル差がレベル差算出部で算出される。
処理判断部において、周波数分析の結果から補正処理を行うか否かが判断され、かつ不連続か否かが判断される。そして、処理判断部において、パケットデータが不連続であった場合はエンベロープおよびレベル差によりいずれの補正処理を適用するかが判断され、判断結果に応じた補正処理を行うように指示が出される。
補正処理が必要な場合に、補正処理部において、指定された補正処理がデコード処理されたデータに施される。

本発明によれば、ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくすることができる。

一般的なオーディオ(音声)再生装置における不連続点におけるミュート制御を模式的に示す図である。本発明の実施形態に係るオーディオ再生装置の構成例を示すブロック図である。本実施形態に係る不連続フラグ情報の構造例を示す図である。周波数分析による不連続検出について説明するための図である。本実施形態に係るデコードリセット処理を概念的に示す図である。等ラウドネス曲線を示す図である。本実施形態に係る処理判断部の補正処理切り替えの判断処理を概念的に示す図である。エンベロープによる処理判断について説明するための図である。不連続点のレベル差に応じてミュート処理を行うかフレーム合成処理を行うか否かの判断処理を説明するための図である。ミュート時定数の設定例を示す図である。レベル差に応じたミュート時定数の設定例を示す図である。本実施形態に係るフレーム合成処理を概念的に示す図である。本実施系形態に係るオーディオ再生装置の動作を説明するめのフローチャートである。本第１の実施形態のオーディオ再生装置を適用したネットワーク型監視カメラシステムの全体構成を示す図である。本第１の実施形態のオーディオ再生装置を適用した放送系システムの全体構成を示す図である。本第１の実施形態のオーディオ再生装置を適用したネットワーク対応型再生システムの全体構成を示す図である。本第１の実施形態のオーディオ再生装置を適用した携帯電話システムの全体構成を示す図である。

以下、本発明の実施形態を図面に関連付けて説明する。
なお、説明は次の順序で行う。
１．第１の実施形態（オーディオ再生装置の構成例）
２．第２の実施形態(処理システムの第１例)
３．第３の実施形態(処理システムの第２例)
４．第４の実施形態(処理システムの第３例)
５．第５の実施形態(処理システムの第４例)

＜１．第１の実施形態＞
図２は、本発明の実施形態に係るオーディオ再生装置の構成例を示すブロック図である。

本実施形態に係るオーディオ再生装置１００は、入力信号の不連続点前後における音声レベル、レベル差および周波数分析に基づいて、不連続点に付加する補正処理の種類を判断することより、ミュートによる音声再生の中断を軽減できるように構成されている。

図２のオーディオ再生装置１００は、パケット分離部１０１、入力バッファ部１０２、デコード処理部１０３、不連続判断部１０４、およびデコードリセット処理部１０５を有する。
オーディオ再生装置１００は、周波数分析部１０６、エンベロープ算出部１０７、レベル差算出部１０８、処理判断部１０９、切替器１１０、補正処理部１１１、および出力バッファ１１２を有する。
また、補正処理部１１１は、ミュートパラメータ設定部１１１１、ミュート処理部１１１２、フレーム合成パラメータ設定部１１１３、およびフレーム合成処理部１１１４を含んで構成されている。

パケット分離部１０１は、入力パケットを音声データとパケット情報に分離する。
パケット分離部１０１は、分離した音声データを入力バッファ部１０２に供給し、パケット情報を不連続判断部１０４に出力する。

入力バッファ部１０２は、音声データを一定時間保持し、保持した音声データをデコード処理部１０３に出力する。

デコード処理部１０３は、入力された音声データをデコードする。
デコード処理部１０３は、デコード処理した音声データを周波数分析部１０６、エンベロープ算出部１０７、レベル差算出部１０８、および切替器１１０に供給する。

不連続判断部１０４は、パケット情報からこのパケットが前に到達したパケットと不連続か否かを判断する。
不連続判断部１０４は、不連続であるか否かの判断結果をデコードリセット処理部１０５に出力する。

ここで、不連続判断部１０４の不連続判断について説明する。
不連続判断部１０４は、不連続の検出を、上位装置側から設定される不連続フラグ情報あるいは、周波数分析に基づいて行う。

上位装置から設定される不連続フラグ情報について説明する。
入力音声データの付属情報として、その連続性を表すフラグが与えられる。
これは主にネットワークの転送プロトコルによってパケットロスが判断され、パケットロスの場合にフラグの情報を「不連続」とする。

図３は、本実施形態に係る不連続フラグ情報の構造例を示す図である。
具体的には、入力音声データが与えられる際に、図３に示すような情報が構造体で与えられる。
この例では、入力情報構造体２００は、音声データ先頭アドレス２０１、音声データサイズ２０２、および不連続フラグ２０３により形成される。
不連続フラグ２０３は、たとえば連続時は「０」に設定され、不連続時は「１」に設定される。

「周波数分析による不連続検出」について説明する。
不連続判断部１０４は、音声フレームの不連続を、周波数スペクトルの形状変化により検出する。

図４は、周波数分析による不連続検出について説明するための図である。
ここでは、例として、日本語“あ”のスペクトルについて、図４に関連付けて説明する。
図４において、連続フレームＡと不連続フレームＢを比べてみると、スペクトルの谷（アンチフォルマント）におけるゲインに変化が見られる。(図中の(b)点、(c)点)

詳細に述べれば、第１フォルマントＦ1と第１アンチフォルマントＵＦ１の差分を取れば連続フレームと不連続フレームは次のようになる。

［数１］
連続フレームの場合 Diff1=F1-UF1＝28db
不連続フレームの場合 Diff1=F1-UF1＝22db

ここで、Ｇｔｈを調整可能なゲインのスレッショルド値(閾値)として、次の関係を満足する場合に、不連続フレームであると判断（検出）する。

［数２］
Diff1+Gth < 28db

不連続判断部１０４の上記検出部は、第１フォルマントと第１アンチフォルマントに限られず、第２フォルマントと第２アンチフォルマント、さらには、より上位のフォルマント、アンチフォルマントとの組み合わせによって用いることも含まれる。
上記検出部は、フォルマントとアンチフォルマントのレベル差を基準としているため、入力信号レベルの大小に依存するものではない。

デコードリセット処理部１０５は、不連続判断部１０４で不連続であると判断されるとデコード処理部１０３のデコード情報をリセットする。
このように、デコードリセット処理部１０５は、不連続判断部１０４によって不連続と判断された場合、デコード処理部（Decoder）１０３のリセット処理を行う。
これは、ＡＭＲやＡＡＣなどコーデックの種類によっては、不連続データをそのままデコードすると、デコード処理に関するフィルタ処理などの各種係数の値が違ってくるため、その後のデコード処理結果を保証することができなくなるためである。
コーデック種類によっては、リセット処理が不要なものもあるので、コーデック種類によって実行するかどうかを判断する。

不連続点において一旦デコード処理部１０３のリセット処理をすることによって、不連続点以降の音声データを確実に復帰させることができる。
また、周波数分析部１０６での解析の結果、不連続と判断された場合は、不連続である旨の情報が不連続判断部１０４にフィードバックされ、次回デコード時にリセット処理が実行されるようにしても良い。
これは、上位からのフラグによる不連続判断に誤りがあった場合に有効に作用するものである。

図５(Ａ)および(Ｂ)は、本実施形態に係るデコードリセット処理を概念的に示す図である。
図５（Ａ）は係数テーブルを用いた通常のデコード処理を示している。
図５（Ｂ）が不連続時にリセット指示を受けたデコード処理を示している。
図５では例として、係数テーブルを０で初期化する。

周波数分析部１０６は、デコード処理された音声データの周波数分析を行い、分析結果を処理判断部１０９に出力する。

エンベロープ算出部１０７は、デコード処理された音声データのエンベロープを算出し、算出結果を処理判断部１０９に出力する。
エンベロープとは、ある区間での音声信号レベルの絶対値の最大値である。

レベル差算出部１０８は、デコード処理された音声データから音声レベル差を算出し、算出結果を処理判断部１０９に出力する。

処理判断部１０９は、周波数分析の結果から補正処理を行うかどうかを判断すると共に、不連続かどうかを判断する機能を有する。
また、処理判断部１０９は、パケットデータが不連続であった場合はエンベロープおよびレベル差によってどのような補正処理を適用するかを判断する。

切替器１１０は、処理判断部１０９での判断結果に基づいて補正処理を切り替えて行うように、デコード処理されたデータを補正処理部１１１および出力バッファ１１２に出力する。

ここで、処理判断部１０９における具体的な判断処理について説明する。

［第１の判断処理］
図６は、等ラウドネス曲線を示す図である。
処理判断部１０９は、まず、周波数分析部１０６によって音声のスペクトルが得られ、そのスペクトルが図６に示す等ラウドネス曲線の最小可聴域よりも低い場合は、人間の耳に聞こえるレベルではなく、不連続点によるノイズの影響がないと判断する。
この場合、処理判断部１０９は、補正処理を行わずそのまま出力バッファ１１２を介してそのまま出力するように切替器１１０に指示する。
ただし、最小可聴域に限定されず、２０フォンの曲線を判断の境界としても良い。

なお、等ラウドネス曲線とは、人間の耳で同じ音量に聴こえる曲線をいう。
音声のスペクトルが最小可聴域以下は、人間の耳には聞こえないとされる。

［第２の判断処理］
処理判断部１０９は、第１の処理判断で最小可聴域よりもスペクトルが大きいと判断した場合は、以下の補正処理判断を行う。
デコード処理されたデータが不連続だった場合は、不連続点の音声レベルに応じて処理内容を切り替える。

図７は、本実施形態に係る処理判断部の補正処理切り替えの判断処理を概念的に示す図である。
図７において、縦軸がエンベロープを、横軸が不連続点のレベル差をそれぞれ表している。

不連続点前後のエンベロープがある第１閾値ＶＴ１よりも小さい場合は、ノイズの影響も小さいことから、不連続点に対する処理は不要と判断する。
エンベロープが閾値ＶＴ１より大きく、不連続点の音声レベル差がある第２閾値ＶＴ２よりも小さければ、フレーム合成処理を行うことで不連続点を滑らかにし、レベル差が第２閾値ＶＴ２より大きい場合はミュート処理で確実にノイズの発生を回避する。

図８（Ａ）および（Ｂ）は、エンベロープとレベル差による処理判断について説明するための図である。
図９は、不連続点のレベル差に応じてミュート処理を行うかフレーム合成処理を行うか否かの判断処理を説明するための図である。
ここで、エンベロープとレベル差による処理判断について図８および図９に関連付けて説明する。

図８（Ａ）および（Ｂ）に示すように、音声信号のある区間ごとのボリューム・エンベロープを算出し、信号の不連続点を含むエンベロープのレベルがある閾値ＶＴよりも小さい場合は、その不連続点でのミュート処理などは行わないようにする。
逆に、エンベロープのレベルがある閾値ＶＴよりも大きい場合は、その不連続点において不快なノイズが発生する可能性があるので、補正処理を行う。
補正処理は後述するミュート処理もしくはフレーム（フィルタ）合成を行う。

たとえば、処理判断部１０９は、図８（Ａ）および（Ｂ）において、主に小さなレベルの音声などで構成されるＡの区間ではエンベロープのレベルが閾値ＶＴよりも小さいので補正処理の非対象区間とする。処理判断部１０９は、Ｂの区間ではエンベロープのレベルが閾値ＶＴよりも大きいので補正処理の対象区間とする。
エンベロープとは、ある区間での音声信号レベルの絶対値の最大値である。
もし、不連続点がエンベロープ算出区間の切れ目だった場合は、不連続点前後のエンベロープで判断する。
さらに、図９に示すように、補正処理をする場合でも、不連続点のレベル差に応じて、ミュート処理を行うかフレーム合成処理を行うかを判断する。
図９において、不連続点Ａは前後のレベル差が小さいためフィルタ合成を行い、不連続点Ｂはレベル差が大きいためミュート処理を行う。

補正処理部１１１は、処理判断部１０９で補正処理が必要であると判断され、切替器１１０を通してその旨の情報を受け取ると、デコード処理されたデータに補正処理を施す。
補正処理部１１１は、算出された周波数分析、エンベロープおよびレベル差から適切な補正処理を選択する機能を有する。
補正処理部１１１は、ミュート処理を行うためのミュートパラメータ設定部１１１１およびミュート処理部１１１２と、フレーム合成を行うためのフレーム合成パラメータ設定部１１１３およびフレーム合成処理部１１１４により構成されている。
補正処理部１１１は、上述したように、レベル差が閾値より大きい場合にはミュート処理を行い、レベル差が閾値より小さい場合にはフレーム合成処理を行う。
補正処理部１１１は、ミュートパラメータ設定部１１１１およびフレーム合成パラメータ設定部１１１３に設定するパラメータを変更することにより、レベル差に応じて各処理のパラメータを調整することが可能に構成される。

なお、フレーム合成処理の代わりに、ＦＩＲやＩＩＲなどの音声データに対する簡易なフィルタ処理を施しても良い。

［ミュート処理］
図１０は、ミュート時定数の設定例を示す図である。
図１１は、レベル差に応じたミュート時定数の設定例を示す図である。

補正処理部１１１において、ミュート処理時にミュートパラメータ設定部１１１１に対し、ミュート制御のパラメータとして、音声レベル差に応じてミュート時定数が設定される。
たとえば、不連続点のレベル差がある程度大きい場合は、時定数は大きく設定され、レベル差がある程度小さい場合は、時定数は小さく設定される。
これにより、レベル差が小さい場合は迅速に制御することができ、レベル差が大きい場合でも確実にノイズを回避することができる。

［フレーム合成処理］
図１２は、本実施形態に係るフレーム合成処理を概念的に示す図である。
フレーム合成処理部１１１４は、不連続点前後のフレーム（Ａ,Ｂ）の各サンプルを次式で算出して合成しフレームＣを生成する。

［数３］
Ｃｉ＝αＡｉ＋（１−α）Ｂｉ

不連続点のレベル差がある閾値よりも大きい場合は、１フレームでは不連続の影響を吸収できない可能性があるので、複数フレームに渡ってフレーム合成を施すようにする。
また、レベル差に応じて合成係数αを変化させても良い。

［デコード後の補正処理の効果］
不連続点に対する補正処理を、周波数分析やエンベロープやレベル差に応じて切り替えることにより、それぞれの不連続点のタイプに応じた制御が可能となる。
これにより、ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくする効果がある。
また、不連続点での信号レベルやレベル差がある程度大きな場合は、フレーム合成またはミュート処理によってノイズ発生を回避するので、音声品質のバランスを保つことができる。

図１３は、本実施系形態に係るオーディオ再生装置の動作を説明するめのフローチャートである。
次に、図２の構成による動作を図１３に関連付けて説明する。

まず、パケット分離部１０１において、入力パケットを音声データとパケット情報に分離する(ＳＴ１)。分離した音声データは入力バッファ部１０２に供給され、パケット情報は不連続判断部１０４に出力される。
入力バッファ部１０２においては、音声データが一定時間保持されて、保持した音声データがデコード処理部１０３に出力される。

不連続判断部１０４においては、パケット情報からこのパケットが前に到達したパケットと不連続か否かが判断される（ＳＴ２）。
この不連続であるか否かの判断結果はデコードリセット処理部１０５に供給される。
デコードリセット処理部１０５においては、不連続判断部１０４の判断結果を受けてリセット処理が必要であるか不要であるかが判断される（ＳＴ３）。
ステップＳＴ３において、リセット処理が必要であると判断されるとデコード処理部１０３のデコード情報がリセットされる（ＳＴ４）。
すなわち、不連続判断部１０４によって不連続と判断された場合、デコードリセット処理部１０５においてデコード処理部１０３のリセット処理が行われる。
そして、ステップＳＴ４の処理後、あるいはステップＳＴ２で連続であると判断された場合、あるいはステップＳＴ３でリセット処理が不要であると判断された場合、デコード処理部１０３におけるデコード処理が行われる（ＳＴ５）。
デコード処理された音声データは周波数分析部１０６、エンベロープ算出部１０７、レベル差算出部１０８、処理判断部１０９、および切替器１１０に供給される。

エンベロープ算出部１０７においては、デコード処理された音声データのエンベロープが算出され、算出結果が処理判断部１０９に出力される(ＳＴ６)。
また、レベル差算出部１０８においては、デコード処理された音声データから音声レベル差が算出され、算出結果が処理判断部１０９に出力される（ＳＴ７）。
また、周波数分析部１０６においては、デコード処理された音声データの周波数分析が行われ、分析結果が処理判断部１０９に出力される（ＳＴ８）。

処理判断部１０９において、周波数分析の結果から補正処理を行うかどうかが判断され、かつ、不連続かどうかの判断が行われる（ＳＴ９）。
ステップＳＴ９において、不連続であると判断すると、処理判断部１０９においては、周波数のスペクトルが最小可聴域以上であるか否かの判断が行われる（ＳＴ１０）。
ステップＳＴ１０において、周波数のスペクトルが最小可聴域以上である判断すると、処理判断部１０９においては、エンベロープが閾値ＶＴ１以上であるか否かの判断が行われる（ＳＴ１１）。
ステップＳＴ１１においてエンベロープが閾値ＶＴ１以上であると判断すると、次に、レベル差が閾値ＶＴ２以上であるか否かが判断される（ＳＴ１２)。

ステップＳＴ１２において、レベル差が閾値ＶＴ２以上であると判断すると、処理判断部１０９においては、補正処理としてミュート処理を行うように切替器１１０に指示される。
切替器１１０においては、処理判断部１０９での判断結果に基づいて補正処理をミュート処理に切り替えて行うように、デコード処理されたデータが補正処理部１１１に出力される。
補正処理部１１１においては、ミュートパラメータ設定部１１１１にミュートパラメータが設定され(ＳＴ１３)、ミュート処理部１１１２においてこの設定されたパラメータに応じたミュート処理が行われる(ＳＴ１４)。

ステップＳＴ１２において、レベル差が閾値ＶＴ２以上でないと判断すると、処理判断部１０９においては、補正処理としてフレーム合成処理を行うように切替器１１０に指示される。
切替器１１０においては、処理判断部１０９での判断結果に基づいて補正処理をフレーム合成処理に切り替えて行うように、デコード処理されたデータが補正処理部１１１に出力される。
補正処理部１１１においては、フレーム合成パラメータ設定部１１１３にフレーム合成パラメータが設定され(ＳＴ１５)、フレーム合成処理部１１１４においてこの設定されたパラメータに応じたフレーム合成処理が行われる(ＳＴ１６)。

ステップＳＴ９において連続であると判断し、またはステップＳＴ１０において周波数のスペクトルが最小可聴域以上でないと判断し、またはステップＳＴ１１においてエンベロープが閾値ＶＴ１以上でないと判断した場合には、補正処理は不要であると判断される。

以上の処理を経て、デコード処理された音声データがそのまま、あるいは補正処理を受けて出力バッファ１１２から出力される。

以上説明した本実施形態によれば、オーディオ再生装置１００は、以下の構成を有する。
オーディオ再生装置１００は、入力パケットを音声データとパケット情報に分離するパケット分離部１０１と、音声データを一定時間保持する入力バッファ部１０２と、入力された音声データをデコードするためのデコード処理部１０３と、を有する。
オーディオ再生装置１００は、パケット情報からこのパケットが前に到達したパケットと不連続かどうかを判断する不連続判断部１０４と、不連続であった場合はデコード情報を一旦リセットするためのリセット処理部１０５と、を有する。
オーディオ再生装置１００は、デコード処理されたデータの周波数分析を行う周波数分析部１０６、およびエンベロープ、レベル差を算出するエンベロープ算出部１０７とレベル差算出部１０８を有する。
オーディオ再生装置１００は、周波数分析の結果から補正処理を行うか否かを判断し、不連続か否かを判断し、パケットデータが不連続であった場合はエンベロープおよびレベル差によりいずれの補正処理を適用するかを判断する処理判断部１０９を有する。
オーディオ再生装置１００は、処理判断部１０９での判断結果に基づいて補正処理を切り替える切替器１１０と、補正処理が必要な場合には指定された補正処理を行う補正処理部１１１と、を有する。
したがって、本実施形態によれば、以下の効果を得ることができる。
ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくする効果がある。
なお、不連続点での信号レベルが大きな場合は、ミュート処理によってノイズ発生を回避するので、音声品質のバランスを保つことができる。

本第１の実施形態のオーディオ再生装置１００は、たとえば監視カメラシステム等の情報再生システムに適用することが可能である。
以下に、本第１の実施形態のオーディオ再生装置１００を適用した情報再生システムを第２〜第５の実施形態として説明する。

＜２．第２の実施形態＞
図１４は、本第１の実施形態のオーディオ再生装置を適用したネットワーク型監視カメラシステムの全体構成を示す図である。

図１４のネットワーク型監視カメラシステム３００は、再生機能を有するネットワーク型カメラシステムの一例であり、監視カメラ３１０がネットワーク３２０を介して監視サーバ３３０と通信可能に構成されている。

監視カメラ３１０は、パケット受信部３１１、およびデコード部３１２を有する。
監視カメラ３１０側でパケットを受信した後のデコード処理部３１２内に、本第１の実施形態のオーディオ再生装置１００が適用される。
なお、ここでいうデコード処理部は、図２に示すブロック図の全体を指している。

＜３．第３の実施形態＞
図１５は、本第１の実施形態のオーディオ再生装置を適用した放送系システムの全体構成を示す図である。

図１５の放送系システム４００は、テレビジョン受像機４１０および放送局４２０を有する。
テレビジョン受像機４１０は、放送受信部４１１およびデコード処理部４１２を有する。
テレビジョン受像機４１０の放送を受信した後のデコード処理部４１２内に、本第１の実施形態のオーディオ再生装置１００が適用される。
すなわち、ＴＶなどの放送を受信して再生する装置において、放送を受信して、デコードする際に、音声の不連続点に対する補正処理に本第１の実施形態のオーディオ再生装置１００が適用できる。

＜４．第４の実施形態＞
図１６は、本第１の実施形態のオーディオ再生装置を適用したネットワーク対応型再生システムの全体構成を示す図である。

図１６のネットワーク対応型再生システム５００は、再生装置５１０がネットワーク５２０を介してストリーミングサーバ５３０と通信可能に構成されている。

再生装置５１０は、パケット受信部５１１、およびデコード部５１２を有する。
再生装置５１０側で音楽パケットを受信した後のデコード処理部５１２内に、音楽の不連続点に対する補正処理に本第１の実施形態のオーディオ再生装置１００が適用できる。

＜５．第５の実施形態＞
図１７は、本第１の実施形態のオーディオ再生装置を適用した携帯電話システムの全体構成を示す図である。

図１７の携帯電話システム６００は、携帯電話６１０，６２０間で無線通信を行う例である。
図１７の例では、携帯電話６２０がパケット受信部６２１およびデコード処理部６２２を有する。
このように、携帯電話など音声パケットを受信して、デコードする際に、音声の不連続点に対する補正処理に本第１の実施形態のオーディオ再生装置１００が適用できる。

なお、以上詳細に説明した方法は、上記手順に応じたプログラムとして形成し、ＣＰＵ等のコンピュータで実行するように構成することも可能である。
また、このようなプログラムは、半導体メモリ、磁気ディスク、光ディスク、フロッピー（登録商標）ディスク等の記録媒体、この記録媒体をセットしたコンピュータによりアクセスし上記プログラムを実行するように構成可能である。

１００・・・オーディオ再生装置、１０１・・・パケット分離部、１０２・・・入力バッファ部、１０３・・・デコード処理部、１０４・・・不連続判断部、１０５・・・デコードリセット処理部、１０６・・・周波数分析部、１０７・・・エンベロープ算出部、１０８・・・レベル差算出部、１０９・・・処理判断部、１１０・・・切替器、１１１・・・補正処理部、１１１１・・・ミュートパラメータ設定部、１１１２・・・ミュート処理部、１１１３・・・フレーム合成パラメータ設定部、１１１４・・・フレーム合成処理部、１１２・・・出力バッファ。

Claims

入力された音声データをデコードするためのデコード処理部と、
入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、
上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、
上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、
上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、
上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、
複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、
周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部と
を有するオーディオ再生装置。
上記処理判断部は、
不連続と判断した場合に、周波数分析の結果、周波数のスペクトルが所定可聴域以上であるか否かを判断し、所定可聴域より低い場合、上記補正処理を行わず上記デコード処理部でデコード処理されたデータを出力するように指示する
請求項１記載のオーディオ再生装置。
上記処理判断部は、
不連続と判断した場合に、周波数分析の結果、周波数のスペクトルが所定可聴域以上であるか否かを判断し、所定可聴域以上である場合、不連続点の音声レベルに応じて補正処理内容を切り替えるように指示を出す
請求項１または２記載のオーディオ再生装置。
上記処理判断部は、
不連続点前後のエンベロープが第１閾値よりも小さい場合、不連続点に対する補正処理は不要と判断する
請求項３記載のオーディオ再生装置。
上記補正処理部は、
補正処理として、ミュート処理とフレーム合成処理が上記指示に従って選択的に処理可能で、
上記処理判断部は、
上記エンベロープが上記第１閾値より大きく、不連続点の音声レベル差が第２閾値よりも小さい場合には、不連続点が滑らかになるように上記フレーム合成処理を行う指示を出し、
上記レベル差が上記第２閾値より大きい場合はノイズを抑止するようにミュート処理を行う指示を出す
請求項４記載のオーディオ再生装置。
上記補正処理部は、
レベル差に応じて上記各処理のパラメータを調整可能である
請求項５記載のオーディオ再生装置。
上記不連続判断部は、
上位装置側から設定される不連続フラグ情報に基づいて不連続の検出を行う
請求項１から６のいずれか一に記載のオーディオ再生装置。
上記不連続判断部は、
周波数スペクトルの形状変化により音声フレームの不連続を検出する
請求項１から６のいずれか一に記載のオーディオ再生装置。
上記処理判断部は、
上記周波数分析部での分析の結果または上位装置からのフラグ情報により、不連続と判断された場合は、不連続である旨の情報を上記不連続判断部にフィードバックし、
上記不連続判断部は、
次回デコード時にリセット処理が実行されるように上記リセット処理部に指示を出す請求項１から８のいずれか一に記載のオーディオ再生装置。
転送された情報から音声データを再生するオーディオ再生装置を有し、
上記オーディオ再生装置は、
入力された音声データをデコードするためのデコード処理部と、
入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、
上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、
上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、
上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、
上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、
複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、
周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部と、を含む
情報再生システム。
入力された音声データをデコードするためのデコード処理ステップと、
入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断ステップと、
上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理ステップと、
上記デコード処理されたデータの周波数分析を行う周波数分析ステップと、
上記デコード処理されたデータのエンベロープを算出するエンベロープ算出ステップと、
上記デコード処理されたデータのレベル差を算出するレベル差算出ステップと、
周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断ステップと、
補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理ステップと
を有するオーディオ再生方法。
入力された音声データをデコードするためのデコード処理と、
入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断処理と、
上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理と、
上記デコード処理されたデータの周波数分析を行う周波数分析処理と、
上記デコード処理されたデータのエンベロープを算出するエンベロープ算出処理と、
上記デコード処理されたデータのレベル差を算出するレベル差算出処理と、
周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断処理と、
補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理と
を有するオーディオ再生処理をコンピュータに実行させるプログラム。