JP2010164859A - オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム - Google Patents

オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム Download PDF

Info

Publication number
JP2010164859A
JP2010164859A JP2009008250A JP2009008250A JP2010164859A JP 2010164859 A JP2010164859 A JP 2010164859A JP 2009008250 A JP2009008250 A JP 2009008250A JP 2009008250 A JP2009008250 A JP 2009008250A JP 2010164859 A JP2010164859 A JP 2010164859A
Authority
JP
Japan
Prior art keywords
discontinuous
unit
correction processing
processing
discontinuity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009008250A
Other languages
English (en)
Inventor
Takahiro Chiba
貴宏 千葉
Hiroyuki Fukuchi
弘行 福地
Ryuji Tokunaga
竜二 徳永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009008250A priority Critical patent/JP2010164859A/ja
Priority to US12/686,586 priority patent/US8370724B2/en
Priority to CN2010100011991A priority patent/CN101789252B/zh
Publication of JP2010164859A publication Critical patent/JP2010164859A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

【課題】データの不連続に起因するミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくすることが可能なオーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラムを提供する。
【解決手段】入力パケット情報からこのパケットが前に到達したパケットと不連続かどうかを判断する不連続判断部104と、不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部105と、指定された補正処理をデコード処理されたデータに施す補正処理部111と、周波数分析部106の周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合はエンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部109とを有する。
【選択図】図2

Description

本発明は、CDプレーヤ、DVDプレーヤ、テレビジョン等におけるオーディオ再生に適用可能なオーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラムに関するものである。
オーディオ(音声)再生装置において、データの不連続な音声ストリームを再生すると、その不連続点においてノイズが発生し、聴き手に不快感を与える場合がある。
このため、通常、図1に示すように、不連続点の前後で音声信号のミュート制御を行い、ノイズが発生しないよう対策するのが一般的である(たとえば特許文献1参照)。
特開2002−204221号公報
しかしながら、一般的にミュート処理は複数のサンプルデータに対して施すので、音声の一部が掛けてしまい、理解できない音声再生となってしまう問題点がある。
特に、不連続点が頻発した場合は、この傾向が著しい。
本発明は、ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくすることが可能なオーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラムを提供することにある。
本発明の第1の観点のオーディオ再生装置は、入力された音声データをデコードするためのデコード処理部と、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部とを有する。
本発明の第2の観点の情報再生システムは、転送された情報から音声データを再生するオーディオ再生装置を有し、上記オーディオ再生装置は、入力された音声データをデコードするためのデコード処理部と、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部と、を含む。
本発明の第3の観点のオーディオ再生方法は、入力された音声データをデコードするためのデコード処理ステップと、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断ステップと、上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理ステップと、上記デコード処理されたデータの周波数分析を行う周波数分析ステップと、上記デコード処理されたデータのエンベロープを算出するエンベロープ算出ステップと、上記デコード処理されたデータのレベル差を算出するレベル差算出ステップと、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断ステップと、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理ステップとを有する。
本発明の第4の観点は、入力された音声データをデコードするためのデコード処理と、入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断処理と、上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理と、上記デコード処理されたデータの周波数分析を行う周波数分析処理と、上記デコード処理されたデータのエンベロープを算出するエンベロープ算出処理と、上記デコード処理されたデータのレベル差を算出するレベル差算出処理と、周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断処理と、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理とを有するオーディオ再生処理をコンピュータに実行させるプログラムである。
本発明によれば、不連続判断部で入力パケット情報からこのパケットが前に到達したパケットと不連続かどうかを判断され、不連続であった場合はリセット処理部によるデコード情報が一旦リセットされる。
デコード処理部でデコード処理されたデータの周波数分析が周波数分析部で行われ、デコード処理されたデータのエンベロープがエンベロープ算出部で算出され、デコード処理されたデータのレベル差がレベル差算出部で算出される。
処理判断部において、周波数分析の結果から補正処理を行うか否かが判断され、かつ不連続か否かが判断される。そして、処理判断部において、パケットデータが不連続であった場合はエンベロープおよびレベル差によりいずれの補正処理を適用するかが判断され、判断結果に応じた補正処理を行うように指示が出される。
補正処理が必要な場合に、補正処理部において、指定された補正処理がデコード処理されたデータに施される。
本発明によれば、ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくすることができる。
一般的なオーディオ(音声)再生装置における不連続点におけるミュート制御を模式的に示す図である。 本発明の実施形態に係るオーディオ再生装置の構成例を示すブロック図である。 本実施形態に係る不連続フラグ情報の構造例を示す図である。 周波数分析による不連続検出について説明するための図である。 本実施形態に係るデコードリセット処理を概念的に示す図である。 等ラウドネス曲線を示す図である。 本実施形態に係る処理判断部の補正処理切り替えの判断処理を概念的に示す図である。 エンベロープによる処理判断について説明するための図である。 不連続点のレベル差に応じてミュート処理を行うかフレーム合成処理を行うか否かの判断処理を説明するための図である。 ミュート時定数の設定例を示す図である。 レベル差に応じたミュート時定数の設定例を示す図である。 本実施形態に係るフレーム合成処理を概念的に示す図である。 本実施系形態に係るオーディオ再生装置の動作を説明するめのフローチャートである。 本第1の実施形態のオーディオ再生装置を適用したネットワーク型監視カメラシステムの全体構成を示す図である。 本第1の実施形態のオーディオ再生装置を適用した放送系システムの全体構成を示す図である。 本第1の実施形態のオーディオ再生装置を適用したネットワーク対応型再生システムの全体構成を示す図である。 本第1の実施形態のオーディオ再生装置を適用した携帯電話システムの全体構成を示す図である。
以下、本発明の実施形態を図面に関連付けて説明する。
なお、説明は次の順序で行う。
1.第1の実施形態(オーディオ再生装置の構成例)
2.第2の実施形態(処理システムの第1例)
3.第3の実施形態(処理システムの第2例)
4.第4の実施形態(処理システムの第3例)
5.第5の実施形態(処理システムの第4例)
<1.第1の実施形態>
図2は、本発明の実施形態に係るオーディオ再生装置の構成例を示すブロック図である。
本実施形態に係るオーディオ再生装置100は、入力信号の不連続点前後における音声レベル、レベル差および周波数分析に基づいて、不連続点に付加する補正処理の種類を判断することより、ミュートによる音声再生の中断を軽減できるように構成されている。
図2のオーディオ再生装置100は、パケット分離部101、入力バッファ部102、デコード処理部103、不連続判断部104、およびデコードリセット処理部105を有する。
オーディオ再生装置100は、周波数分析部106、エンベロープ算出部107、レベル差算出部108、処理判断部109、切替器110、補正処理部111、および出力バッファ112を有する。
また、補正処理部111は、ミュートパラメータ設定部1111、ミュート処理部1112、フレーム合成パラメータ設定部1113、およびフレーム合成処理部1114を含んで構成されている。
パケット分離部101は、入力パケットを音声データとパケット情報に分離する。
パケット分離部101は、分離した音声データを入力バッファ部102に供給し、パケット情報を不連続判断部104に出力する。
入力バッファ部102は、音声データを一定時間保持し、保持した音声データをデコード処理部103に出力する。
デコード処理部103は、入力された音声データをデコードする。
デコード処理部103は、デコード処理した音声データを周波数分析部106、エンベロープ算出部107、レベル差算出部108、および切替器110に供給する。
不連続判断部104は、パケット情報からこのパケットが前に到達したパケットと不連続か否かを判断する。
不連続判断部104は、不連続であるか否かの判断結果をデコードリセット処理部105に出力する。
ここで、不連続判断部104の不連続判断について説明する。
不連続判断部104は、不連続の検出を、上位装置側から設定される不連続フラグ情報あるいは、周波数分析に基づいて行う。
上位装置から設定される不連続フラグ情報について説明する。
入力音声データの付属情報として、その連続性を表すフラグが与えられる。
これは主にネットワークの転送プロトコルによってパケットロスが判断され、パケットロスの場合にフラグの情報を「不連続」とする。
図3は、本実施形態に係る不連続フラグ情報の構造例を示す図である。
具体的には、入力音声データが与えられる際に、図3に示すような情報が構造体で与えられる。
この例では、入力情報構造体200は、音声データ先頭アドレス201、音声データサイズ202、および不連続フラグ203により形成される。
不連続フラグ203は、たとえば連続時は「0」に設定され、不連続時は「1」に設定される。
「周波数分析による不連続検出」について説明する。
不連続判断部104は、音声フレームの不連続を、周波数スペクトルの形状変化により検出する。
図4は、周波数分析による不連続検出について説明するための図である。
ここでは、例として、日本語“あ”のスペクトルについて、図4に関連付けて説明する。
図4において、連続フレームAと不連続フレームBを比べてみると、スペクトルの谷(アンチフォルマント)におけるゲインに変化が見られる。(図中の(b)点、(c)点)
詳細に述べれば、第1フォルマントF1と第1アンチフォルマントUF1の差分を取れば連続フレームと不連続フレームは次のようになる。
[数1]
連続フレームの場合 Diff1=F1-UF1=28db
不連続フレームの場合 Diff1=F1-UF1=22db
ここで、Gthを調整可能なゲインのスレッショルド値(閾値)として、次の関係を満足する場合に、不連続フレームであると判断(検出)する。
[数2]
Diff1+Gth < 28db
不連続判断部104の上記検出部は、第1フォルマントと第1アンチフォルマントに限られず、第2フォルマントと第2アンチフォルマント、さらには、より上位のフォルマント、アンチフォルマントとの組み合わせによって用いることも含まれる。
上記検出部は、フォルマントとアンチフォルマントのレベル差を基準としているため、入力信号レベルの大小に依存するものではない。
デコードリセット処理部105は、不連続判断部104で不連続であると判断されるとデコード処理部103のデコード情報をリセットする。
このように、デコードリセット処理部105は、不連続判断部104によって不連続と判断された場合、デコード処理部(Decoder)103のリセット処理を行う。
これは、AMRやAACなどコーデックの種類によっては、不連続データをそのままデコードすると、デコード処理に関するフィルタ処理などの各種係数の値が違ってくるため、その後のデコード処理結果を保証することができなくなるためである。
コーデック種類によっては、リセット処理が不要なものもあるので、コーデック種類によって実行するかどうかを判断する。
不連続点において一旦デコード処理部103のリセット処理をすることによって、不連続点以降の音声データを確実に復帰させることができる。
また、周波数分析部106での解析の結果、不連続と判断された場合は、不連続である旨の情報が不連続判断部104にフィードバックされ、次回デコード時にリセット処理が実行されるようにしても良い。
これは、上位からのフラグによる不連続判断に誤りがあった場合に有効に作用するものである。
図5(A)および(B)は、本実施形態に係るデコードリセット処理を概念的に示す図である。
図5(A)は係数テーブルを用いた通常のデコード処理を示している。
図5(B)が不連続時にリセット指示を受けたデコード処理を示している。
図5では例として、係数テーブルを0で初期化する。
周波数分析部106は、デコード処理された音声データの周波数分析を行い、分析結果を処理判断部109に出力する。
エンベロープ算出部107は、デコード処理された音声データのエンベロープを算出し、算出結果を処理判断部109に出力する。
エンベロープとは、ある区間での音声信号レベルの絶対値の最大値である。
レベル差算出部108は、デコード処理された音声データから音声レベル差を算出し、算出結果を処理判断部109に出力する。
処理判断部109は、周波数分析の結果から補正処理を行うかどうかを判断すると共に、不連続かどうかを判断する機能を有する。
また、処理判断部109は、パケットデータが不連続であった場合はエンベロープおよびレベル差によってどのような補正処理を適用するかを判断する。
切替器110は、処理判断部109での判断結果に基づいて補正処理を切り替えて行うように、デコード処理されたデータを補正処理部111および出力バッファ112に出力する。
ここで、処理判断部109における具体的な判断処理について説明する。
[第1の判断処理]
図6は、等ラウドネス曲線を示す図である。
処理判断部109は、まず、周波数分析部106によって音声のスペクトルが得られ、そのスペクトルが図6に示す等ラウドネス曲線の最小可聴域よりも低い場合は、人間の耳に聞こえるレベルではなく、不連続点によるノイズの影響がないと判断する。
この場合、処理判断部109は、補正処理を行わずそのまま出力バッファ112を介してそのまま出力するように切替器110に指示する。
ただし、最小可聴域に限定されず、20フォンの曲線を判断の境界としても良い。
なお、等ラウドネス曲線とは、人間の耳で同じ音量に聴こえる曲線をいう。
音声のスペクトルが最小可聴域以下は、人間の耳には聞こえないとされる。
[第2の判断処理]
処理判断部109は、第1の処理判断で最小可聴域よりもスペクトルが大きいと判断した場合は、以下の補正処理判断を行う。
デコード処理されたデータが不連続だった場合は、不連続点の音声レベルに応じて処理内容を切り替える。
図7は、本実施形態に係る処理判断部の補正処理切り替えの判断処理を概念的に示す図である。
図7において、縦軸がエンベロープを、横軸が不連続点のレベル差をそれぞれ表している。
不連続点前後のエンベロープがある第1閾値VT1よりも小さい場合は、ノイズの影響も小さいことから、不連続点に対する処理は不要と判断する。
エンベロープが閾値VT1より大きく、不連続点の音声レベル差がある第2閾値VT2よりも小さければ、フレーム合成処理を行うことで不連続点を滑らかにし、レベル差が第2閾値VT2より大きい場合はミュート処理で確実にノイズの発生を回避する。
図8(A)および(B)は、エンベロープとレベル差による処理判断について説明するための図である。
図9は、不連続点のレベル差に応じてミュート処理を行うかフレーム合成処理を行うか否かの判断処理を説明するための図である。
ここで、エンベロープとレベル差による処理判断について図8および図9に関連付けて説明する。
図8(A)および(B)に示すように、音声信号のある区間ごとのボリューム・エンベロープを算出し、信号の不連続点を含むエンベロープのレベルがある閾値VTよりも小さい場合は、その不連続点でのミュート処理などは行わないようにする。
逆に、エンベロープのレベルがある閾値VTよりも大きい場合は、その不連続点において不快なノイズが発生する可能性があるので、補正処理を行う。
補正処理は後述するミュート処理もしくはフレーム(フィルタ)合成を行う。
たとえば、処理判断部109は、図8(A)および(B)において、主に小さなレベルの音声などで構成されるAの区間ではエンベロープのレベルが閾値VTよりも小さいので補正処理の非対象区間とする。処理判断部109は、Bの区間ではエンベロープのレベルが閾値VTよりも大きいので補正処理の対象区間とする。
エンベロープとは、ある区間での音声信号レベルの絶対値の最大値である。
もし、不連続点がエンベロープ算出区間の切れ目だった場合は、不連続点前後のエンベロープで判断する。
さらに、図9に示すように、補正処理をする場合でも、不連続点のレベル差に応じて、ミュート処理を行うかフレーム合成処理を行うかを判断する。
図9において、不連続点Aは前後のレベル差が小さいためフィルタ合成を行い、不連続点Bはレベル差が大きいためミュート処理を行う。
補正処理部111は、処理判断部109で補正処理が必要であると判断され、切替器110を通してその旨の情報を受け取ると、デコード処理されたデータに補正処理を施す。
補正処理部111は、算出された周波数分析、エンベロープおよびレベル差から適切な補正処理を選択する機能を有する。
補正処理部111は、ミュート処理を行うためのミュートパラメータ設定部1111およびミュート処理部1112と、フレーム合成を行うためのフレーム合成パラメータ設定部1113およびフレーム合成処理部1114により構成されている。
補正処理部111は、上述したように、レベル差が閾値より大きい場合にはミュート処理を行い、レベル差が閾値より小さい場合にはフレーム合成処理を行う。
補正処理部111は、ミュートパラメータ設定部1111およびフレーム合成パラメータ設定部1113に設定するパラメータを変更することにより、レベル差に応じて各処理のパラメータを調整することが可能に構成される。
なお、フレーム合成処理の代わりに、FIRやIIRなどの音声データに対する簡易なフィルタ処理を施しても良い。
[ミュート処理]
図10は、ミュート時定数の設定例を示す図である。
図11は、レベル差に応じたミュート時定数の設定例を示す図である。
補正処理部111において、ミュート処理時にミュートパラメータ設定部1111に対し、ミュート制御のパラメータとして、音声レベル差に応じてミュート時定数が設定される。
たとえば、不連続点のレベル差がある程度大きい場合は、時定数は大きく設定され、レベル差がある程度小さい場合は、時定数は小さく設定される。
これにより、レベル差が小さい場合は迅速に制御することができ、レベル差が大きい場合でも確実にノイズを回避することができる。
[フレーム合成処理]
図12は、本実施形態に係るフレーム合成処理を概念的に示す図である。
フレーム合成処理部1114は、不連続点前後のフレーム(A,B)の各サンプルを次式で算出して合成しフレームCを生成する。
[数3]
Ci=αAi+(1−α)Bi
不連続点のレベル差がある閾値よりも大きい場合は、1フレームでは不連続の影響を吸収できない可能性があるので、複数フレームに渡ってフレーム合成を施すようにする。
また、レベル差に応じて合成係数αを変化させても良い。
[デコード後の補正処理の効果]
不連続点に対する補正処理を、周波数分析やエンベロープやレベル差に応じて切り替えることにより、それぞれの不連続点のタイプに応じた制御が可能となる。
これにより、ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくする効果がある。
また、不連続点での信号レベルやレベル差がある程度大きな場合は、フレーム合成またはミュート処理によってノイズ発生を回避するので、音声品質のバランスを保つことができる。
図13は、本実施系形態に係るオーディオ再生装置の動作を説明するめのフローチャートである。
次に、図2の構成による動作を図13に関連付けて説明する。
まず、パケット分離部101において、入力パケットを音声データとパケット情報に分離する(ST1)。分離した音声データは入力バッファ部102に供給され、パケット情報は不連続判断部104に出力される。
入力バッファ部102においては、音声データが一定時間保持されて、保持した音声データがデコード処理部103に出力される。
不連続判断部104においては、パケット情報からこのパケットが前に到達したパケットと不連続か否かが判断される(ST2)。
この不連続であるか否かの判断結果はデコードリセット処理部105に供給される。
デコードリセット処理部105においては、不連続判断部104の判断結果を受けてリセット処理が必要であるか不要であるかが判断される(ST3)。
ステップST3において、リセット処理が必要であると判断されるとデコード処理部103のデコード情報がリセットされる(ST4)。
すなわち、不連続判断部104によって不連続と判断された場合、デコードリセット処理部105においてデコード処理部103のリセット処理が行われる。
そして、ステップST4の処理後、あるいはステップST2で連続であると判断された場合、あるいはステップST3でリセット処理が不要であると判断された場合、デコード処理部103におけるデコード処理が行われる(ST5)。
デコード処理された音声データは周波数分析部106、エンベロープ算出部107、レベル差算出部108、処理判断部109、および切替器110に供給される。
エンベロープ算出部107においては、デコード処理された音声データのエンベロープが算出され、算出結果が処理判断部109に出力される(ST6)。
また、レベル差算出部108においては、デコード処理された音声データから音声レベル差が算出され、算出結果が処理判断部109に出力される(ST7)。
また、周波数分析部106においては、デコード処理された音声データの周波数分析が行われ、分析結果が処理判断部109に出力される(ST8)。
処理判断部109において、周波数分析の結果から補正処理を行うかどうかが判断され、かつ、不連続かどうかの判断が行われる(ST9)。
ステップST9において、不連続であると判断すると、処理判断部109においては、周波数のスペクトルが最小可聴域以上であるか否かの判断が行われる(ST10)。
ステップST10において、周波数のスペクトルが最小可聴域以上である判断すると、処理判断部109においては、エンベロープが閾値VT1以上であるか否かの判断が行われる(ST11)。
ステップST11においてエンベロープが閾値VT1以上であると判断すると、次に、レベル差が閾値VT2以上であるか否かが判断される(ST12)。
ステップST12において、レベル差が閾値VT2以上であると判断すると、処理判断部109においては、補正処理としてミュート処理を行うように切替器110に指示される。
切替器110においては、処理判断部109での判断結果に基づいて補正処理をミュート処理に切り替えて行うように、デコード処理されたデータが補正処理部111に出力される。
補正処理部111においては、ミュートパラメータ設定部1111にミュートパラメータが設定され(ST13)、ミュート処理部1112においてこの設定されたパラメータに応じたミュート処理が行われる(ST14)。
ステップST12において、レベル差が閾値VT2以上でないと判断すると、処理判断部109においては、補正処理としてフレーム合成処理を行うように切替器110に指示される。
切替器110においては、処理判断部109での判断結果に基づいて補正処理をフレーム合成処理に切り替えて行うように、デコード処理されたデータが補正処理部111に出力される。
補正処理部111においては、フレーム合成パラメータ設定部1113にフレーム合成パラメータが設定され(ST15)、フレーム合成処理部1114においてこの設定されたパラメータに応じたフレーム合成処理が行われる(ST16)。
ステップST9において連続であると判断し、またはステップST10において周波数のスペクトルが最小可聴域以上でないと判断し、またはステップST11においてエンベロープが閾値VT1以上でないと判断した場合には、補正処理は不要であると判断される。
以上の処理を経て、デコード処理された音声データがそのまま、あるいは補正処理を受けて出力バッファ112から出力される。
以上説明した本実施形態によれば、オーディオ再生装置100は、以下の構成を有する。
オーディオ再生装置100は、入力パケットを音声データとパケット情報に分離するパケット分離部101と、音声データを一定時間保持する入力バッファ部102と、入力された音声データをデコードするためのデコード処理部103と、を有する。
オーディオ再生装置100は、パケット情報からこのパケットが前に到達したパケットと不連続かどうかを判断する不連続判断部104と、不連続であった場合はデコード情報を一旦リセットするためのリセット処理部105と、を有する。
オーディオ再生装置100は、デコード処理されたデータの周波数分析を行う周波数分析部106、およびエンベロープ、レベル差を算出するエンベロープ算出部107とレベル差算出部108を有する。
オーディオ再生装置100は、周波数分析の結果から補正処理を行うか否かを判断し、不連続か否かを判断し、パケットデータが不連続であった場合はエンベロープおよびレベル差によりいずれの補正処理を適用するかを判断する処理判断部109を有する。
オーディオ再生装置100は、処理判断部109での判断結果に基づいて補正処理を切り替える切替器110と、補正処理が必要な場合には指定された補正処理を行う補正処理部111と、を有する。
したがって、本実施形態によれば、以下の効果を得ることができる。
ミュートによる音声再生の中断を軽減でき、音声として聞き取りやすくする効果がある。
なお、不連続点での信号レベルが大きな場合は、ミュート処理によってノイズ発生を回避するので、音声品質のバランスを保つことができる。
本第1の実施形態のオーディオ再生装置100は、たとえば監視カメラシステム等の情報再生システムに適用することが可能である。
以下に、本第1の実施形態のオーディオ再生装置100を適用した情報再生システムを第2〜第5の実施形態として説明する。
<2.第2の実施形態>
図14は、本第1の実施形態のオーディオ再生装置を適用したネットワーク型監視カメラシステムの全体構成を示す図である。
図14のネットワーク型監視カメラシステム300は、再生機能を有するネットワーク型カメラシステムの一例であり、監視カメラ310がネットワーク320を介して監視サーバ330と通信可能に構成されている。
監視カメラ310は、パケット受信部311、およびデコード部312を有する。
監視カメラ310側でパケットを受信した後のデコード処理部312内に、本第1の実施形態のオーディオ再生装置100が適用される。
なお、ここでいうデコード処理部は、図2に示すブロック図の全体を指している。
<3.第3の実施形態>
図15は、本第1の実施形態のオーディオ再生装置を適用した放送系システムの全体構成を示す図である。
図15の放送系システム400は、テレビジョン受像機410および放送局420を有する。
テレビジョン受像機410は、放送受信部411およびデコード処理部412を有する。
テレビジョン受像機410の放送を受信した後のデコード処理部412内に、本第1の実施形態のオーディオ再生装置100が適用される。
すなわち、TVなどの放送を受信して再生する装置において、放送を受信して、デコードする際に、音声の不連続点に対する補正処理に本第1の実施形態のオーディオ再生装置100が適用できる。
<4.第4の実施形態>
図16は、本第1の実施形態のオーディオ再生装置を適用したネットワーク対応型再生システムの全体構成を示す図である。
図16のネットワーク対応型再生システム500は、再生装置510がネットワーク520を介してストリーミングサーバ530と通信可能に構成されている。
再生装置510は、パケット受信部511、およびデコード部512を有する。
再生装置510側で音楽パケットを受信した後のデコード処理部512内に、音楽の不連続点に対する補正処理に本第1の実施形態のオーディオ再生装置100が適用できる。
<5.第5の実施形態>
図17は、本第1の実施形態のオーディオ再生装置を適用した携帯電話システムの全体構成を示す図である。
図17の携帯電話システム600は、携帯電話610,620間で無線通信を行う例である。
図17の例では、携帯電話620がパケット受信部621およびデコード処理部622を有する。
このように、携帯電話など音声パケットを受信して、デコードする際に、音声の不連続点に対する補正処理に本第1の実施形態のオーディオ再生装置100が適用できる。
なお、以上詳細に説明した方法は、上記手順に応じたプログラムとして形成し、CPU等のコンピュータで実行するように構成することも可能である。
また、このようなプログラムは、半導体メモリ、磁気ディスク、光ディスク、フロッピー(登録商標)ディスク等の記録媒体、この記録媒体をセットしたコンピュータによりアクセスし上記プログラムを実行するように構成可能である。
100・・・オーディオ再生装置、101・・・パケット分離部、102・・・入力バッファ部、103・・・デコード処理部、104・・・不連続判断部、105・・・デコードリセット処理部、106・・・周波数分析部、107・・・エンベロープ算出部、108・・・レベル差算出部、109・・・処理判断部、110・・・切替器、111・・・補正処理部、1111・・・ミュートパラメータ設定部、1112・・・ミュート処理部、1113・・・フレーム合成パラメータ設定部、1114・・・フレーム合成処理部、112・・・出力バッファ。

Claims (12)

  1. 入力された音声データをデコードするためのデコード処理部と、
    入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、
    上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、
    上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、
    上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、
    上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、
    複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、
    周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部と
    を有するオーディオ再生装置。
  2. 上記処理判断部は、
    不連続と判断した場合に、周波数分析の結果、周波数のスペクトルが所定可聴域以上であるか否かを判断し、所定可聴域より低い場合、上記補正処理を行わず上記デコード処理部でデコード処理されたデータを出力するように指示する
    請求項1記載のオーディオ再生装置。
  3. 上記処理判断部は、
    不連続と判断した場合に、周波数分析の結果、周波数のスペクトルが所定可聴域以上であるか否かを判断し、所定可聴域以上である場合、不連続点の音声レベルに応じて補正処理内容を切り替えるように指示を出す
    請求項1または2記載のオーディオ再生装置。
  4. 上記処理判断部は、
    不連続点前後のエンベロープが第1閾値よりも小さい場合、不連続点に対する補正処理は不要と判断する
    請求項3記載のオーディオ再生装置。
  5. 上記補正処理部は、
    補正処理として、ミュート処理とフレーム合成処理が上記指示に従って選択的に処理可能で、
    上記処理判断部は、
    上記エンベロープが上記第1閾値より大きく、不連続点の音声レベル差が第2閾値よりも小さい場合には、不連続点が滑らかになるように上記フレーム合成処理を行う指示を出し、
    上記レベル差が上記第2閾値より大きい場合はノイズを抑止するようにミュート処理を行う指示を出す
    請求項4記載のオーディオ再生装置。
  6. 上記補正処理部は、
    レベル差に応じて上記各処理のパラメータを調整可能である
    請求項5記載のオーディオ再生装置。
  7. 上記不連続判断部は、
    上位装置側から設定される不連続フラグ情報に基づいて不連続の検出を行う
    請求項1から6のいずれか一に記載のオーディオ再生装置。
  8. 上記不連続判断部は、
    周波数スペクトルの形状変化により音声フレームの不連続を検出する
    請求項1から6のいずれか一に記載のオーディオ再生装置。
  9. 上記処理判断部は、
    上記周波数分析部での分析の結果または上位装置からのフラグ情報により、不連続と判断された場合は、不連続である旨の情報を上記不連続判断部にフィードバックし、
    上記不連続判断部は、
    次回デコード時にリセット処理が実行されるように上記リセット処理部に指示を出す 請求項1から8のいずれか一に記載のオーディオ再生装置。
  10. 転送された情報から音声データを再生するオーディオ再生装置を有し、
    上記オーディオ再生装置は、
    入力された音声データをデコードするためのデコード処理部と、
    入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断部と、
    上記不連続判断部の判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理部と、
    上記デコード処理部でデコード処理されたデータの周波数分析を行う周波数分析部と、
    上記デコード処理部でデコード処理されたデータのエンベロープを算出するエンベロープ算出部と、
    上記デコード処理部でデコード処理されたデータのレベル差を算出するレベル差算出部と、
    複数種の補正処理が可能で、補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理部と、
    周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断部と、を含む
    情報再生システム。
  11. 入力された音声データをデコードするためのデコード処理ステップと、
    入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断ステップと、
    上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理ステップと、
    上記デコード処理されたデータの周波数分析を行う周波数分析ステップと、
    上記デコード処理されたデータのエンベロープを算出するエンベロープ算出ステップと、
    上記デコード処理されたデータのレベル差を算出するレベル差算出ステップと、
    周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断ステップと、
    補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理ステップと
    を有するオーディオ再生方法。
  12. 入力された音声データをデコードするためのデコード処理と、
    入力パケット情報から当該パケットが前に到達したパケットと不連続かどうかを判断する不連続判断処理と、
    上記不連続判断で不連続であった場合はデコード情報を一旦リセットするためのリセット処理と、
    上記デコード処理されたデータの周波数分析を行う周波数分析処理と、
    上記デコード処理されたデータのエンベロープを算出するエンベロープ算出処理と、
    上記デコード処理されたデータのレベル差を算出するレベル差算出処理と、
    周波数分析の結果から補正処理を行うか否かを判断し、かつ不連続か否かを判断し、パケットデータが不連続であった場合は上記エンベロープおよびレベル差によりいずれの補正処理を適用するかを判断し、判断結果に応じた補正処理を行うように指示を出す処理判断処理と、
    補正処理が必要な場合に指定された補正処理をデコード処理されたデータに施す補正処理と
    を有するオーディオ再生処理をコンピュータに実行させるプログラム。
JP2009008250A 2009-01-16 2009-01-16 オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム Pending JP2010164859A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009008250A JP2010164859A (ja) 2009-01-16 2009-01-16 オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
US12/686,586 US8370724B2 (en) 2009-01-16 2010-01-13 Audio reproduction device, information reproduction system, audio reproduction method, and program
CN2010100011991A CN101789252B (zh) 2009-01-16 2010-01-15 音频再现装置、信息再现系统、音频再现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009008250A JP2010164859A (ja) 2009-01-16 2009-01-16 オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2010164859A true JP2010164859A (ja) 2010-07-29

Family

ID=42337923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009008250A Pending JP2010164859A (ja) 2009-01-16 2009-01-16 オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム

Country Status (3)

Country Link
US (1) US8370724B2 (ja)
JP (1) JP2010164859A (ja)
CN (1) CN101789252B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049354A (ja) * 2013-08-30 2015-03-16 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2016118796A (ja) * 2016-02-01 2016-06-30 株式会社Nttドコモ 音声信号処理方法及び音声信号処理装置
JP2017156763A (ja) * 2017-04-19 2017-09-07 株式会社Nttドコモ 音声信号処理方法及び音声信号処理装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2996352B1 (en) * 2014-09-15 2019-04-17 Nxp B.V. Audio system and method using a loudspeaker output signal for wind noise reduction
US10448187B2 (en) * 2015-10-08 2019-10-15 Bang & Olufsen A/S Active room compensation in loudspeaker system
DE102020114547B4 (de) * 2020-05-29 2023-12-28 Infineon Technologies Ag Vorrichtung und verfahren zum abwickeln eines eingehenden kommunikations-datenrahmens
CN112802453B (zh) * 2020-12-30 2024-04-26 深圳飞思通科技有限公司 快速自适应预测拟合语音方法、系统、终端及存储介质
CN113542765B (zh) * 2021-07-13 2023-09-15 海信电子科技(深圳)有限公司 一种媒体数据跳变续播方法及显示设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01306897A (ja) 1988-06-06 1989-12-11 Nippon Telegr & Teleph Corp <Ntt> 音声検出回路
KR950010337B1 (ko) * 1993-05-18 1995-09-14 엘지전자주식회사 디지탈 브이씨알의 배속영상 구현방법 및 그 장치
JPH09284706A (ja) 1996-04-18 1997-10-31 Sony Corp 信号処理方法及び装置
US5835486A (en) * 1996-07-11 1998-11-10 Dsc/Celcore, Inc. Multi-channel transcoder rate adapter having low delay and integral echo cancellation
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
JP2002204221A (ja) 2000-12-28 2002-07-19 Nec Eng Ltd パケット信号欠落補正回路
US8077707B2 (en) * 2005-11-18 2011-12-13 Sri International Systems and methods for digital stream denting
US8024192B2 (en) * 2006-08-15 2011-09-20 Broadcom Corporation Time-warping of decoded audio signal after packet loss
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
JP2010062663A (ja) * 2008-09-01 2010-03-18 Sony Ericsson Mobilecommunications Japan Inc 音声信号処理装置、音声信号処理方法、及び、通信端末

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015049354A (ja) * 2013-08-30 2015-03-16 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2016118796A (ja) * 2016-02-01 2016-06-30 株式会社Nttドコモ 音声信号処理方法及び音声信号処理装置
JP2017156763A (ja) * 2017-04-19 2017-09-07 株式会社Nttドコモ 音声信号処理方法及び音声信号処理装置

Also Published As

Publication number Publication date
US8370724B2 (en) 2013-02-05
CN101789252B (zh) 2012-05-30
CN101789252A (zh) 2010-07-28
US20100185916A1 (en) 2010-07-22

Similar Documents

Publication Publication Date Title
JP2010164859A (ja) オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
KR101849612B1 (ko) 새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치
JP7001588B2 (ja) オブジェクトベースのオーディオ信号バランシング法
CN105103222B (zh) 用于响度和动态范围控制的元数据
CN106796799B (zh) 高效drc配置文件传输
JP5141689B2 (ja) 音信号制御装置
CN112825550A (zh) 生成用于要被应用的音频配置文件的命令的解码器装备
JP4519934B2 (ja) 音声再生装置
CN114930865A (zh) 用于设置包括音频的媒体内容的回放速度的计算机实施的方法、设备和计算机程序产品
KR100708123B1 (ko) 자동으로 오디오 볼륨을 조절하는 방법 및 장치
JP2007028065A (ja) サラウンド再生装置
US20130245798A1 (en) Method and apparatus for signal processing based upon characteristics of music
JP2014530444A (ja) マルチメディアコンテンツを再生するための方法、関連システム、および関連する再生モジュール
US20240029755A1 (en) Intelligent speech or dialogue enhancement
WO2010100895A1 (ja) 音声再生装置及び映像音声再生装置
JP4385710B2 (ja) 音声信号処理装置及び音声信号処理方法
JP5348179B2 (ja) 音響処理装置およびパラメータ設定方法
JP2007293214A (ja) 話速変換装置及びテレビジョン受像機並びに話速変換方法
JP2009239676A (ja) オーディオ信号処理装置およびオーディオ信号処理方法
JP2010016574A (ja) オーディオ再生システム、オーディオ再生機器、携帯プレイヤおよびオーディオ再生制御方法
JP2009225327A (ja) 音声再生速度調整装置及び音声再生速度調整方法
JP2007333787A (ja) 話速変換装置
JP2008107381A (ja) 話速変換装置及び話速変換制御方法
JP2009008843A (ja) 音響信号再生装置及び音響信号再生方法