JP2015227912A - Audio coding device and method - Google Patents
Audio coding device and method Download PDFInfo
- Publication number
- JP2015227912A JP2015227912A JP2014112478A JP2014112478A JP2015227912A JP 2015227912 A JP2015227912 A JP 2015227912A JP 2014112478 A JP2014112478 A JP 2014112478A JP 2014112478 A JP2014112478 A JP 2014112478A JP 2015227912 A JP2015227912 A JP 2015227912A
- Authority
- JP
- Japan
- Prior art keywords
- masking threshold
- unit
- signal
- audio
- sfb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本発明は、オーディオ信号の符号化に関する。 The present invention relates to encoding audio signals.
既知の録画装置は、ユーザの操作に従って、放送番組のオーディオおよびビデオ・ストリームを受信して記録することができる。既知の著作権保護機能付き録画装置は、さらに、移動体通信網およびインターネットを介して、ユーザによる携帯情報端末からの送信要求に応答して、記録したオーディオおよびビデオ・ストリームを低い伝送レートに変換して携帯情報端末に送信することができる。著作権保護機能付き録画装置は、例えば著作権保護規格の機能DTCP+(Digital Transmission Content Protection Plus)等に適合するものであってもよい。ユーザは、携帯情報端末において、著作権保護機能付き録画装置からその低いレートのオーディオおよびビデオ・ストリームを受信して再生して視聴することができる。 Known recording devices can receive and record audio and video streams of broadcast programs according to user operations. A known recording device with a copyright protection function further converts the recorded audio and video streams to a low transmission rate in response to a transmission request from a portable information terminal by a user via a mobile communication network and the Internet. Can be transmitted to the portable information terminal. The recording device with a copyright protection function may be adapted to, for example, the function DTCP + (Digital Transmission Content Protection Plus) of the copyright protection standard. The user can receive and play back the low-rate audio and video stream from the recording apparatus with a copyright protection function on the portable information terminal.
或る既知の信号符号化方法において、伝送モード決定部が、入力信号中の音声または楽音信号の背景に含まれる環境雑音を検知し、環境雑音のレベルに応じて相手側通信端末である通信端末装置から伝送される信号の伝送ビットレートを制御する伝送モードを決定する。また、信号復号化部が、伝送路を介して通信端末装置から伝送される符号化情報を復号化し、得られた信号を出力信号として出力する。このとき、信号復号化部は、伝送路から出力される符号化情報に含まれる伝送モード情報と伝送モード決定部から得られる伝送モード情報とを、伝送遅延を考慮した上で比較することにより、伝送誤りを検出する。それによって、受信側の使用環境を考慮して送信側の伝送ビットレートを制御することによって、品質を維持しつつ効率的な音声または楽音信号の符号化を行うことが可能である。 In a known signal encoding method, a transmission mode determination unit detects environmental noise included in the background of a voice or musical sound signal in an input signal, and is a communication terminal that is a counterpart communication terminal according to the level of the environmental noise A transmission mode for controlling a transmission bit rate of a signal transmitted from the apparatus is determined. In addition, the signal decoding unit decodes the encoded information transmitted from the communication terminal device via the transmission path, and outputs the obtained signal as an output signal. At this time, the signal decoding unit compares the transmission mode information included in the encoded information output from the transmission path with the transmission mode information obtained from the transmission mode determination unit in consideration of the transmission delay, Detect transmission errors. Thus, by controlling the transmission bit rate on the transmission side in consideration of the usage environment on the reception side, it is possible to efficiently encode a voice or musical sound signal while maintaining the quality.
或る既知の通信端末において、背景雑音検出部が、背景雑音の雑音レベルを検出する。また、制御部が、雑音レベルに基づいて復号レベルを決定する。制御部は、このようにして決定された復号レベルでのAMR(Adaptive Multi-Rate)復号を、圧縮伸長処理部に行わせる。それによって、過剰な品質での音声の出力を行うことが防止され、効率化を図ることが可能となる。 In a known communication terminal, a background noise detection unit detects a noise level of background noise. Further, the control unit determines the decoding level based on the noise level. The control unit causes the compression / decompression processing unit to perform AMR (Adaptive Multi-Rate) decoding at the decoding level thus determined. As a result, it is possible to prevent the output of sound with excessive quality and to improve efficiency.
或る既知の通信端末装置では、電波強度やネットワーク輻輳などの下位層の情報をアプリケーションから隠蔽するように構成されていた従来の通信端末装置に、これら下位層の情報を上位層に通知する下位層管理部が、新たに導入される。それによって、アプリケーションのサービス生成環境を提供する接続制御部が、直接下位層の情報を認識でき、アプリケーション・レベルで、下位層の情報に基づいた様々な状況判断と制御の変更が可能となる。また、それによって、モバイル環境で通信状況が変化しても、ユーザがシームレスな感覚で映像や音声のコミュニケーションを継続することができる通信端末が提供される。 In a certain known communication terminal device, the lower layer information that notifies the upper layer of the information of the lower layer to the conventional communication terminal device configured to hide the lower layer information such as the radio wave intensity and the network congestion from the application. A new layer management unit is introduced. As a result, the connection control unit that provides the service generation environment of the application can directly recognize the information of the lower layer, and various situation determinations and control changes based on the information of the lower layer can be performed at the application level. This also provides a communication terminal that allows the user to continue video and audio communication with a seamless feeling even when the communication status changes in a mobile environment.
記録装置に或るレートで記録されたオーディオ・ストリーム・データが、送信側で低いレートで再符号化されて送信されて、受信側で再生されたとき、再生側での再生音は、受信側の周囲雑音に埋もれて聴取者にとって聴取しにくく、聴取音質が低下することがある。 When audio stream data recorded at a certain rate on the recording device is re-encoded and transmitted at a low rate on the transmission side and reproduced on the reception side, the reproduced sound on the reproduction side is received on the reception side. It is difficult to hear for the listener because of being buried in the ambient noise, and the listening sound quality may be deteriorated.
発明者たちは、或るレートで記録されたオーディオ・ストリーム・データを、再生時の周囲雑音に埋もれにくい形態のオーディオ・ストリーム・データに変換すれば、その実効的な聴取音質を高くすることができる、と認識した。 The inventors can improve the effective listening sound quality by converting the audio stream data recorded at a certain rate into the audio stream data in a form that is hard to be buried in ambient noise during reproduction. Recognized that it was possible.
1つの観点では、本発明の目的は、或る情報量のオーディオ信号を雑音に埋もれにくい形態かつ少ない情報量で符号化することである。 In one aspect, an object of the present invention is to encode an audio signal having a certain amount of information in a form that is less likely to be buried in noise and with a small amount of information.
本発明の実施形態によれば、情報量が低減するように聴覚特性に基づいてマスキング閾値を利用してオーディオ信号を符号化するオーディオ符号化装置が提供される。そのオーディオ符号化装置は、端末から受信した周囲雑音レベルに応じてマスキング閾値を補正し、その際、マスキング閾値との差が或る閾値より大きい入力信号が、補正後のマスキング閾値より大きくなるように、マスキング閾値および入力信号の少なくとも一方の補正を行う第1の処理部と、補正後のマスキング閾値より大きい、その少なくとも一方の補正が行われた後の入力信号の符号化を行う第2の処理部と、を含んでいる。 According to the embodiment of the present invention, there is provided an audio encoding device that encodes an audio signal using a masking threshold based on auditory characteristics so as to reduce the amount of information. The audio encoding device corrects the masking threshold according to the ambient noise level received from the terminal. At this time, an input signal whose difference from the masking threshold is larger than a certain threshold is larger than the corrected masking threshold. A first processing unit that corrects at least one of the masking threshold and the input signal, and a second processor that encodes the input signal after at least one of the corrections that is greater than the corrected masking threshold. And a processing unit.
実施形態の実施形態によれば、或る情報量のオーディオ信号を雑音に埋もれにくい形態かつ少ない情報量で符号化することができる。 According to the embodiment of the present invention, an audio signal having a certain amount of information can be encoded in a form that is less likely to be buried in noise and with a small amount of information.
発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない、と理解される。
The objects and advantages of the invention will be realized and attained by means of the elements and combinations particularly pointed out in the appended claims.
It is understood that the foregoing general description and the following detailed description are exemplary and explanatory only and are not intended to limit the invention.
本発明の非限定的な実施形態を、図面を参照して説明する。図面において、同様のコンポーネントおよび要素には同じ参照番号が付されている。 Non-limiting embodiments of the present invention will be described with reference to the drawings. In the drawings, similar components and elements have the same reference numerals.
記録装置に或るレートで記録されたオーディオ(音響)ストリーム・データが、送信側の装置で低いレートで再符号化されて送信されて、受信側の端末で再生されたとき、その端末での再生音は、端末の周囲雑音に埋もれて聴取者にとって聴取しにくいことがある。一方、送信側の装置で低いレートで符号化されて送信されるオーディオ・ストリーム・データについて、受信側の端末で周囲雑音によって聴取しにくい周波数部分帯域の信号の利得を受信側の端末で増大させると、符号化の量子化誤差が増大して再生音の音質が低下する。 When audio (acoustic) stream data recorded on a recording device at a certain rate is re-encoded and transmitted at a low rate on the transmission side device and played back on the reception side terminal, The reproduced sound is sometimes buried in the ambient noise of the terminal and is difficult for the listener to hear. On the other hand, with respect to audio stream data that is encoded and transmitted at a low rate by the transmission-side apparatus, the reception-side terminal increases the gain of the signal in the frequency partial band that is difficult to hear by ambient noise at the reception-side terminal. As a result, the quantization error of encoding increases and the sound quality of the reproduced sound decreases.
一方、人の聴覚特性、即ち音に対する人の知覚特性として、或る周波数の或る閾値電力レベルより大きい音には、その音のレベルに応じてその付近の周波数の或る閾値電力レベルより小さい他の音を聞こえなくする効果、即ちマスキング効果がある。マスキング閾値は、可聴周波数帯域にわたって分布するそのような閾値電力レベルを表し、マスキング効果によって人に知覚できないスペクトル電力の限界値(上限)を表している。一方、聴覚特性に基づく知覚符号化(Perceptual Coding)又は聴覚符号化は、マスキング効果を利用して、オーディオ信号のスペクトルおよびレベルに応じて知覚可能な部分帯域のオーディオ信号だけを符号化し、マスキング閾値以下の部分帯域の信号を符号化しない。聴覚符号化によって、オーディオ信号の実効的な符号化効率が増大する。 On the other hand, as a human auditory characteristic, i.e., a human perceptual characteristic of a sound, a sound larger than a certain threshold power level at a certain frequency is smaller than a certain threshold power level at a nearby frequency depending on the sound level. There is an effect of making other sounds inaudible, that is, a masking effect. The masking threshold represents such a threshold power level distributed over the audible frequency band, and represents a limit value (upper limit) of spectral power that cannot be perceived by a human due to the masking effect. On the other hand, perceptual coding or auditory coding based on auditory characteristics uses a masking effect to encode only a subband audio signal that can be perceived according to the spectrum and level of the audio signal, and a masking threshold. The following partial band signals are not encoded. Auditory coding increases the effective coding efficiency of audio signals.
発明者たちは、符号化されるオーディオ信号を、部分帯域毎にマスキング閾値と周囲雑音に応じて選択すれば、聴取可能な部分帯域の信号だけに多くのビット数を割り当てて、低いレートでも周囲雑音に埋もれにくい形態でオーディオ信号を符号化できる、と認識した。また、発明者たちは、受信側の周囲雑音のレベルに応じて各部分帯域のオーディオ信号を選択してレベル補正して符号化すれば、人の聴覚特性に基づいて周囲雑音に埋もれにくい形態で、オーディオ信号を低いレートのデータに符号化することができる、と認識した。 The inventors select the audio signal to be encoded according to the masking threshold and the ambient noise for each subband, assigning a large number of bits only to the audible subband signal, even at a low rate. Recognized that audio signals can be encoded in a form that is less susceptible to noise. In addition, if the inventors select the audio signal of each partial band according to the level of ambient noise on the receiving side, and perform level correction and encoding, then the inventor will not be buried in ambient noise based on human auditory characteristics. Recognized that audio signals can be encoded into low rate data.
実施形態の目的は、オーディオ信号を、雑音に埋もれにくい形態かつ少ない情報量の符号化データへと、周囲雑音レベルに応じて適応的に符号化または変換することである。この目的は、実施形態によって達成される。 An object of the embodiment is to adaptively encode or convert an audio signal into encoded data having a form that is less likely to be buried in noise and having a small amount of information according to the ambient noise level. This object is achieved by the embodiment.
図1は、実施形態による通信システム2の例を示している。 FIG. 1 shows an example of a communication system 2 according to the embodiment.
図1において、通信システム2は、携帯情報端末10および情報処理装置20を含んでいる。情報処理装置20は、通信ネットワーク5を介して、携帯情報端末10からの要求に応答して、放送ストリームを或るデータレートで記録した符号化オーディオおよびビデオ・ストリームを復号し、低レートで再符号化して、携帯情報端末10に送信することができる。通信ネットワーク5は、無線基地局またはアクセスポイント50を含む移動体通信網、および例えばインターネットのようなIP(Internet Protocol)ネットワークを含んでいてもよい。
In FIG. 1, the communication system 2 includes a
携帯情報端末10は、例えば、携帯電話機、スマートフォン、タブレット端末、モバイル型パーソナル・コンピュータであってもよい。
The
情報処理装置20は、例えば、HDD(Hard Disk Drive)レコーダのような放送記録装置もしくは放送記録再生装置、または放送記録再生機能付きのパーソナル・コンピュータであってもよい。図1において、情報処理装置20は、例えば、プロセッサ22、記憶装置24、ネットワーク・インタフェース(NW/IF)26、入力部27、トランスコーダ装置またはトランスコーダ部200、放送受信機202、ドライブ28を含んでいる。但し、情報処理装置20そのものが、トランスコーダ装置またはトランスコーダ機器と称されてもよい。
The information processing apparatus 20 may be, for example, a broadcast recording apparatus or a broadcast recording / reproducing apparatus such as an HDD (Hard Disk Drive) recorder, or a personal computer with a broadcast recording / reproducing function. In FIG. 1, an information processing apparatus 20 includes, for example, a
プロセッサ22は、コンピュータ用のCPU(Central Processing Unit)であってもよい。記憶装置24は、主記憶装置および補助記憶装置を含んでいる。主記憶装置は、半導体メモリ等の記憶装置を含んでいる。また、補助記憶装置は、例えば、ハードディスク・ドライブ(HDD)、および/または、フラッシュ・メモリのような半導体メモリを含んでいる。記憶装置24の補助記憶装置の少なくとも一部の領域は、ストリーム・データの記録部として機能してもよい。入力部27は、例えば、複数のキー、タッチパッド、テンキー、キーボード、および/またはタッチパネルを含んでいてもよい。
The
ドライブ28は、ソフトウェア、およびオーディオおよびビデオ・ストリーム・データが記録された例えば光ディスクまたは磁気ディスクのような記録媒体284を読み取るためのものであってもよい。そのソフトウェアは、例えば、OS、データベース管理システム(DBMS)、アプリケーション・プログラム、等を含んでいてもよい。アプリケーション・プログラムは、携帯情報端末10からの操作コマンドまたは要求の受信に応答動作して要求されたストリーム・データを携帯情報端末10に送信するためのアプリケーションを含んでいてもよい。
The drive 28 may be for reading software and a
プロセッサ22は、例えば集積回路として実装された専用のプロセッサであってもよい。また、プロセッサ22は、記憶装置24に格納されたアプリケーション・プログラムに従って動作するものであってもよい。アプリケーション・プログラムは、記録媒体284に格納されていて、ドライブ28によって記録媒体284から読み出されて情報処理装置20にインストールされてもよい。
The
情報処理装置20において、プロセッサ22は、ユーザの操作に従って、例えば地上波および衛星放送の放送信号を放送受信機202に受信させて、そのオーディオおよびビデオ(AV)ストリーム・データを記憶装置24に記録させることができる。放送信号は、例えばDTCP(Digital Transmission Content Protection)で著作権保護されたオーディオおよびビデオ・ストリーム・データを搬送するものであってもよい。また、情報処理装置20において、プロセッサ22は、通信ネットワーク5を介して、ユーザ操作による携帯情報端末10からのストリーム送信要求を受信することができる。プロセッサ22は、さらに、携帯情報端末10からの要求に応答して、記憶装置24に記録されたオーディオおよびビデオ・ストリーム・データを読み出して、トランスコーダ装置200に、復号させて低レートのストリーム・データに再符号化させることができる。プロセッサ22は、さらに、再符号化されたストリーム・データを、ネットワーク・インタフェース26を介し通信ネットワーク5を介して携帯情報端末10に送信することができる。
In the information processing apparatus 20, the
図2は、トランスコーダ装置200の概略的な構成(configuration)の例を示している。
FIG. 2 shows an example of a schematic configuration of the
図2において、トランスコーダ装置200は、例えば、情報入力部210、ストリーム入力部222、音響復号部226、音響符号化部230、画像復号部256、画像符号化部260、多重化部270、およびストリーム出力部280を含んでいる。音響符号化部230は、例えば、信号変換部236、マスキング閾値生成部238、マスキング閾値補正部239、符号化判定部240、レベル補正部242、マスキング補正部244、量子化部246、および多重化部248を含んでいる。音響符号化部230は、例えば、AAC(Advanced Audio Coding)、MP3(MPEG Audio Layer-3)またはAC3(Audio Code number 3)のようなオーディオ圧縮符号化規格に従う符号化器であってもよい。従って、音響符号化部230によって生成される低レートのオーディオ・ストリーム・データは、例えば、AAC、MP3またはAC3のようなオーディオ圧縮符号化規格で符号化されたものであってもよい。
In FIG. 2, the
図3は、携帯情報端末10の概略的な構成(configuration)の例を示している。
FIG. 3 shows an example of a schematic configuration of the
携帯情報端末10は、電話通信以外のオーディオ信号に関連して、例えば、受信部130、復号部132、音響再生部136、スピーカ138、マイクロホン142、音響入力部144、変換部146、測定部148、および送信部150を含んでいる。受信部130および送信部150は、移動体通信用の無線送受信機(図示せず)に結合されても、または移動体通信用の無線送受信機を含んでいてもよい。但し、図3において、携帯情報端末10のその他の電話通信部および情報処理部等は図示されていない。復号部132は、例えばAAC、MP3またはAC3のようなオーディオ圧縮符号化規格に従う復号器であってもよい。
The
携帯情報端末10において、受信部130は復号部132に結合され、復号部132は、音響再生部136に結合され、音響再生部136はスピーカ138に結合されている。また、マイクロホン142は音響入力部144に結合され、音響入力部144は変換部146に結合され、変換部146は測定部148に結合され、測定部148は送信部150に結合されている。音響再生部136は、さらに音響入力部144に結合されていてもよい。
In the
マイクロホン142は携帯情報端末10の周囲の雑音を含む音を捕捉してノイズを含む音信号を生成し、音響入力部144は音信号を入力して濾波し増幅する。また、変換部146は、音響入力部144からの時間領域の音信号を周波数領域のスペクトルに変換する。その変換は、例えば高速フーリエ変換(FFT)であってもよい。また、測定部148は、周波数スペクトルを複数の部分帯域に分割し、各部分帯域のスペクトルの電力を検出して、各部分帯域のノイズ電力を生成する。送信部150は、各部分帯域のノイズ電力を含むノイズ電力情報を情報処理装置20に送信する。一方、携帯情報端末10は、ユーザの操作に応じたストリーム送信要求と共に、またはストリーム送信要求の一部として、周囲の雑音に関するノイズ電力情報を情報処理装置20に送信してもよい。また、携帯情報端末10は、新しいノイズ電力情報を定期的に(例えば、3または5分間隔で)生成して情報処理装置20に送信してもよい。
The
一方、受信部130は情報処理装置20から符号化されたオーディオ・ストリーム・データを受信し、復号部132は符号化オーディオ・ストリーム・データを復号してオーディオ信号を生成する。また、音響再生部136は、復号されたオーディオ信号を増幅し再生してスピーカ138に供給して音響を発生させる。音響再生部136でオーディオ信号を再生してスピーカ138で音を発生させている時に、音響入力部144は、マイクロホン142で捕捉された音信号から、音響再生部136における再生中のオーディオ信号を減算して、ノイズ成分の音信号を抽出し生成してもよい。
On the other hand, the receiving
図2において、プロセッサ22は、ユーザの携帯情報端末10からのストリーム送信要求に応答して、要求された番組のオーディオおよびビデオ・ストリーム・データを記憶装置24から読み出してトランスコーダ装置200に供給して低いレートで再符号化させる。また、プロセッサ22は、携帯情報端末10からノイズ電力情報を受信してトランスコーダ装置200に供給する。
In FIG. 2, in response to the stream transmission request from the user's
トランスコーダ装置200において、情報入力部210は、ノイズ電力情報を入力して各部分帯域のノイズ電力レベル(図4A、304)を音響符号化部230に供給する。この場合、ノイズ電力を含むノイズ電力情報は、マスキング閾値補正部239および符号化判定部240に供給される。一方、ストリーム入力部222は、記憶装置24から取り出されたオーディオおよびビデオ・ストリーム・データを分離して、オーディオ・ストリーム・データを音響復号部226に供給し、ビデオ・ストリーム・データを画像復号部256に供給する。
In the
画像復号部256は、符号化ビデオ・ストリーム・データを復号して、復号ビデオ・ストリーム・データを画像符号化部260に供給する。画像符号化部260は、復号ビデオ・ストリーム・データを低いレートで再符号化して、符号化されたビデオ・ストリーム・データを多重化部270に供給する。
The
一方、音響復号部226は、符号化オーディオ・ストリーム・データを復号して、復号オーディオ・ストリーム・データを音響符号化部230に供給する。音響符号化部230において、信号変換部236は、受け取った時間領域の復号オーディオ・ストリーム・データを周波数領域のスペクトルに変換し、周波数スペクトルを複数の部分帯域に分割し、各部分帯域のスペクトルの電力を生成する。信号変換部236は、さらに、各部分帯域のスペクトルを、マスキング閾値生成部238、符号化判定部240およびレベル補正部242に供給する。信号変換部236は、例えばMDCT(modified discrete cosine transform:修正離散コサイン変換)用の変換器であってもよい。
On the other hand, the
次は、実施形態による、音響符号化部230における復号オーディオ・ストリーム・データの再符号化のしかたを概略的に説明する。 Next, how to re-encode the decoded audio stream data in the acoustic encoding unit 230 according to the embodiment will be schematically described.
図4A〜4Cは、音響符号化部230によって処理される復号オーディオ・ストリーム・データの周波数スペクトルの例を示している。図4A〜4Cは、初期のマスキング閾値302を補正し、補正マスキング閾値310で符号化対象のオーディオ信号の電力350、351を選択し、レベル補正対象の電力332、334、338、340を選択する方法を説明するためのものである。
4A to 4C show examples of frequency spectra of decoded audio stream data processed by the acoustic encoding unit 230. FIG. 4A to 4C correct the
図4A〜4Cにおいて、周波数fに対する、復号されたオーディオ信号の各部分帯域の電力(パワー)330(棒グラフ)、およびオーディオ信号の各部分帯域の電力330に対する初期のマスキング閾値(プロファイル)302(細い破線)が示されている。ここで、図4A〜4Cにおけるオーディオ信号の各部分帯域の電力330は、可聴周波数帯域全体を分割した各部分帯域におけるそれぞれの合計の電力を表している。また、図4Aには、携帯情報端末10で捕捉された周囲雑音の周波数fに対する各部分帯域のノイズ電力レベル304(細い破線)が示されている。この場合、可聴周波数帯域は、例えば20Hz〜24kHzの周波数範囲であってもよい。
4A-4C, the power (power) 330 (bar graph) of each subband of the decoded audio signal and the initial masking threshold (profile) 302 (power) for the
マスキング閾値生成部238は、各部分帯域に対する或る時間区間のブロックの復号オーディオ信号の各電力330の分布に対して、聴覚特性によるマスキング特性に基づいて、初期のマスキング閾値302を生成してマスキング閾値補正部239に供給する。一方、情報入力部210は、携帯情報端末10から受信したノイズ電力情報に含まれる複数の部分帯域にわたるノイズ電力レベル304をマスキング閾値補正部239および符号化判定部240に供給する。
The masking threshold
次いで、マスキング閾値補正部239は、各部分帯域について、初期のマスキング閾値302をノイズ電力レベル304と合成することによって補正して、合成マスキング閾値306(太い一点鎖線)を形成する。その合成は、例えば、各部分帯域について、マスキング閾値302とノイズ電力レベル304とを比較して、ノイズ電力レベル304がマスキング閾値302の電力を超える場合に、マスキング閾値302をノイズ電力レベル304で置換することによって行われる。換言すれば、その合成は、各部分帯域について、マスキング閾値302とノイズ電力レベル304のいずれか大きい方の電力レベルを選択して、合成マスキング閾値306を形成する処理であってもよい。
Next, the masking
図4Aにおいて、復号オーディオ信号の各電力330を合成マスキング閾値306と比較すると、例えば、或る部分帯域の電力336は合成マスキング閾値306より大きい。ここで、初期のマスキング閾値302より大きい部分帯域の電力336を聴覚符号化して携帯情報端末10に送信するとする。この場合、合成マスキング閾値306より充分大きい部分帯域の電力336は携帯情報端末10において有効に聴取可能である。しかし、合成マスキング閾値306より僅かに小さい別の部分帯域の電力331は、聴取可能性が僅かにあるだけで、その聴覚的な再生音質が低い。また、合成マスキング閾値306より大きい部分帯域の電力336だけを聴覚符号化すると、伝送レートまたは伝送容量のうちの使用されない残りの部分が無駄になる。従って、トランスコーダ装置200は、伝送レートの範囲内で、聴覚的な再生音質の向上に寄与する他の部分帯域の電力を選択してレベル補正または増幅して追加的に聴覚符号化し送信することができる。それによって、トランスコーダ装置200は、携帯情報端末10でのオーディオ信号の実効的な聴覚的な再生音質を向上させることができる。
In FIG. 4A, comparing each
次いで、図4Bにおいて、マスキング閾値補正部239は、全ての部分帯域にわたって合成マスキング閾値306の電力を、伝送レートに応じて、マスキング閾値302を下限として下向き矢印のように推定の余裕伝送容量の範囲内で一律に低く移動させて補正する。それによって、太い破線で示されたマスキング閾値308が得られる。この補正は、後で説明する第1の要素f1による補正である。
Next, in FIG. 4B, the masking threshold
次いで、マスキング閾値補正部239は、マスキング閾値302より充分大きいオーディオ信号の各電力350の部分帯域とその付近について、マスキング閾値302を下限として、マスキング閾値308を、所定量だけまたは各電力350より低くなるように補正する。その際、補正の対象となるそのような部分帯域として、例えば、オーディオ信号の電力330と初期のマスキング閾値302に関する信号対マスキング閾値のゲイン(利得)比がゲイン比閾値より大きい部分帯域が、選択されてもよい。所定量は、信号対マスキング閾値のゲイン比に応じて決定されてもよい。ここで、ゲイン比閾値は、例えば、1.0〜1.2のような1以上の値であってもよい。この補正は、後で説明する第2の要素f2による補正である。
Next, the masking threshold
また、マスキング閾値補正部239は、各部分帯域と隣接部分帯域における局所的にピーク性の高いオーディオ信号の電力351について、マスキング閾値302を下限として、マスキング閾値308を所定量だけまたは電力351より低くするように補正する。その際、補正対象となるそのような部分帯域として、例えば、マスキング閾値302より大きい或る部分帯域のオーディオ信号の電力330と、隣接部分帯域のオーディオ信号の電力330との間のゲイン比の平均値が、ゲイン比閾値より大きい部分帯域が選択される。所定量は、電力351のピーク性の高さに応じて決定されてもよい。ここで、ゲイン比閾値は、例えば2.0または2.5、または3であってもよい。この補正は、後で説明する第3の要素f3による補正である。
The masking
このようにして、マスキング閾値補正部239は、全ての部分帯域にわたる補正マスキング閾値310(図4Bの太い破線308および太い実線310、図4Cの太い実線310)生成する。次いで、マスキング閾値補正部239は、各部分帯域の補正マスキング閾値310を符号化判定部240およびマスキング補正部244に供給する。
In this way, the masking
次いで、符号化判定部240は、図4Bにおける各部分帯域について復号オーディオ信号の電力330と補正マスキング閾値310を比較する。符号化判定部240は、補正マスキング閾値310より大きい電力の部分帯域を選択し、選択された部分帯域のオーディオ信号の電力350、351のデータを符号化対象と判定する。一方、符号化判定部240は、補正マスキング閾値310以下の電力を有するオーディオ信号の部分帯域の電力352のデータを符号化対象外と判定する。
Next, the encoding determination unit 240 compares the
次いで、符号化判定部240は、符号化対象として決定された部分帯域の電力350、351の中で、合成マスキング閾値306以下の電力330を、合成マスキング閾値306より大きくなるようにレベル補正または増幅するための増幅率を決定する。その際、符号化対象として決定された部分帯域の電力350、351の中で、合成マスキング閾値306より充分大きい電力336のレベルは、そのまま維持され、または増幅率が1と決定されてもよい。次いで、符号化判定部240は、符号化対象として決定された電力350、351の部分帯域と、それぞれの部分帯域の増幅率とを、レベル補正部242に通知する。
Next, the coding determination unit 240 performs level correction or amplification so that the
レベル補正部242は、符号化判定部240から受け取った符号化対象の電力350、351の部分帯域とその増幅率に従って、信号変換部236から受け取った各部分帯域のオーディオ信号の電力330の部分帯域の電力350、351を増幅する。図4Cには、合成マスキング閾値306より大きくなるように増幅されたオーディオ信号の電力332、334、338および340(太い棒状の破線)が示されている。それによって、部分帯域の電力350、351は、電力332、334、338、340のように増幅される。一方、レベル補正部242は、符号化対象外の部分帯域のオーディオ信号の電力352を削除しまたは増幅率0で増幅する。それによって、符号化されまたは伝送されるオーディオ信号の情報量が低減される。
The level correction unit 242 determines the partial band of the
レベル補正部242によってレベル補正された後のオーディオ信号の電力332〜340は、補正マスキング閾値310に基づいて、設定された伝送レートまたは伝送容量の範囲内で全てを量子化し切れないことがある。マスキング補正部244は、符号化されるオーディオ信号の電力が伝送レートのビット数を満たすように、可能な限り音質を維持するように補正マスキング閾値310をさらに補正することができる。
The power 332 to 340 of the audio signal after the level correction by the level correction unit 242 may not be completely quantized within a set transmission rate or transmission capacity based on the
次いで、量子化部246は、各部分帯域について、レベル補正部242で補正されたオーディオ信号の電力332〜340を量子化する。多重化部248は、各部分帯域の量子化データを多重化して、符号化オーディオ・ストリーム・データとして多重化部270に供給する。
Next, the
多重化部270は、符号化されたオーディオ・ストリーム・データを、画像符号化部260からのビデオ・ストリーム・データと多重化して、低いレートで符号化されたオーディオおよびビデオ・ストリーム・データを生成してストリーム出力部280に供給する。
The
ストリーム出力部280は、符号化されたオーディオおよびビデオ・ストリーム・データを出力する。プロセッサ20は、オーディオおよびビデオ・ストリーム・データを、ネットワーク・インタフェース26を介し通信ネットワーク5を介して携帯情報端末10に送信する。
The
次は、携帯情報端末10のより具体的な動作を、フローチャートに基づいて説明する。
Next, a more specific operation of the
図5は、携帯情報端末10によって実行される、周囲の雑音を含む音に関するノイズ電力情報を生成して送信するための処理のフローチャートの例を示している。
FIG. 5 shows an example of a flowchart of processing for generating and transmitting noise power information related to a sound including ambient noise, which is executed by the
図5を参照すると、ステップ502において、携帯情報端末10の音響入力部144は、マイクロホン142で捕捉された音を表す音信号を記憶装置(図示せず)に記録する。この場合、音信号は、オーディオ信号の再生前に捕捉され、周囲雑音を表すノイズとして記録される。また、音響入力部144は、音響再生部136で受信オーディオ信号が再生されてスピーカ138で音が放出される時に、マイクロホン142で捕捉した音信号から音響再生部136での再生信号を減算してノイズ成分を求めて周囲雑音を表すノイズとして記録してもよい。
Referring to FIG. 5, in
ステップ504において、変換部146は、例えば高速フーリエ変換(FFT)によって、記録された時間領域のノイズを含む音信号xin(n)を周波数領域のスペクトルX(f)に変換する。ここで、xin(n)は各サンプルnの入力信号を表し、X(f)は各周波数ビン(区間)fの入力スペクトルを表す。
In
変換部146は、さらに、周波数スペクトルX(f)を、例えば次の式で表される周波数パワースペクトルS(f)に変換する。
S(f)=|X(f)2|
The
S (f) = | X (f) 2 |
ステップ506において、測定部148は、周波数パワースペクトルS(f)を複数の部分帯域sfbに分割して、例えば次の式で表される各部分帯域sfbのノイズ電力noise_pow(sfb)を求める。
ステップ510において、送信部150は、各部分帯域sfbのノイズ電力noise_pow(sfb)を含むノイズ電力情報を、ストリーム送信要求と共にまたは定期的に、通信ネットワーク5を介して情報処理装置20に送信する。一方、情報処理装置20はノイズ電力情報を受信し、情報処理装置20のトランスコーダ装置200はノイズ電力noise_pow(sfb)に基づいて初期のマスキング閾値302を補正する。
In
次は、トランスコーダ装置200のより具体的な動作を、フローチャートに基づいて説明する。
Next, a more specific operation of the
図6Aおよび6Bは、トランスコーダ装置200の音響符号化部230によって実行される、携帯情報端末10のノイズ電力レベルに応じて、復号されたビデオ・ストリーム・データを聴覚符号化するための処理のフローチャートの例を示している。
FIGS. 6A and 6B show processes for performing audio coding of the decoded video stream data according to the noise power level of the
図6Aを参照すると、ステップ606において、信号変換部236は、音響復号部226によって復号された時間領域の復号オーディオ信号xinを周波数領域のスペクトルX(f)に変換する。例えば、信号変換部236は、復号オーディオ信号xinに対して、変換MDCT(modified discrete cosine transform、修正離散コサイン変換)を行って、例えば次の式の周波数スペクトルmdct(k)を得る。
ステップ608において、マスキング閾値生成部238は、複数の周波数ビンkの周波数帯域を複数の部分帯域sfbに分割して、例えば次の式で表される、スペクトルmdct(k)の各部分帯域sfbの周波数スペクトル電力mdct_pow(sfb)を算出する。
ステップ610において、マスキング閾値生成部238は、各部分帯域sfbの電力の分布の特徴に基づいて聴覚特性に従って、可聴周波数fの帯域にわたる初期のマスキング閾値302を算出しまたは求める。マスキング閾値302は、例えば、各部分帯域sfbについてallowed_pow(sfb)で表される。
In
その際、各入力信号xinの各マスキング閾値が求められて、各部分帯域sfbの各マスキング閾値の中の小さい値または大きい値がマスキング閾値として選択されてもよい。また、各入力信号xinのマスキング閾値として、例えば、簡易的に、各部分帯域sfbの最小可聴域の電力が用いられてもよい。より正確なマスキング閾値を算出するための既知の方法に関する文献として、例えば、“New Implementation Techniques of an Efficient MPEG Advanced Audio Coder”(非特許文献1)がある。 At this time, each masking threshold value of each input signal x in may be obtained, and a small value or a large value among the masking threshold values of each partial band sfb may be selected as the masking threshold value. Further, as the masking threshold value of each input signal x in , for example, the power in the minimum audible range of each partial band sfb may be used simply. For example, “New Implementation Techniques of an Efficient MPEG Advanced Audio Coder” (Non-Patent Document 1) is known as a document relating to a known method for calculating a more accurate masking threshold.
ステップ612において、マスキング閾値補正部239は、初期のマスキング閾値302を、携帯情報端末10によって生成されたノイズ電力レベル304(noise_pow(sfb))と合成して、合成マスキング閾値306を形成する。合成マスキング閾値306は、各部分帯域sfbについて、例えば次のnew_allowed_pow(sfb)で表される。
allowed_pow(sfb)≧noise_pow(sfb)の場合、
new_allowed_pow(sfb)=allowed_pow(sfb)
となる。
allowed_pow(sfb)<noise_pow(sfb)の場合、
new_allowed_pow(sfb)=noise_pow(sfb)
となる。
In
If allowed_pow (sfb) ≧ noise_pow (sfb),
new_allowed_pow (sfb) = allowed_pow (sfb)
It becomes.
If allowed_pow (sfb) <noise_pow (sfb),
new_allowed_pow (sfb) = noise_pow (sfb)
It becomes.
合成マスキング閾値306は、携帯情報端末10における周囲雑音の存在下での聴覚的な再生品質にとって有効なオーディオ信号の電力レベルの閾値を表している。即ち、マスキング閾値302がノイズ電力レベル304以上の高さを有する部分帯域において、オーディオ信号の電力が合成マスキング閾値306以下の場合は、聴覚特性に起因して、人はオーディオ信号をほとんど聞き取れない。また、ノイズ電力レベル304がマスキング閾値302より高い高さを有する部分帯域において、オーディオ信号の電力が合成マスキング閾値306以下の場合は、周囲雑音に起因して、人はオーディオ信号をほとんど聞き取れない。従って、或る部分帯域において合成マスキング閾値306以下のオーディオ信号は、符号化して送信されなくてよい。一方、或る部分帯域において合成マスキング閾値306より大きいオーディオ信号は聴取可能である。従って、音質の維持または向上に寄与する部分帯域のオーディオ信号を合成マスキング閾値306より大きくなるようにレベル補正し、レベル補正されたオーディオ信号を符号化して送信すれば、復号して再生されたオーディオ信号は高い音質で聴取可能となる。
The composite
図6Bを参照すると、ステップ620において、マスキング閾値補正部239は、さらに、合成マスキング閾値306を3つの要素またはファクタf1〜f3で補正して、補正マスキング閾値310を生成する。第1の要素f1は、伝送データレートまたはビットレートに応じた合成マスキング閾値306に対する補正量である。第2の要素f2は、オーディオ信号330と初期のマスキング閾値302に関する信号対マスキング閾値の比または利得比に応じた合成マスキング閾値306の補正量である。第3の要素f3は、オーディオ信号の電力のピーク性に応じた合成マスキング閾値306の補正量である。要素f1〜f3による補正は、各部分帯域について、合成マスキング閾値306を要素f1〜f3に関して引き下げて、補正マスキング閾値310を生成するものである。
Referring to FIG. 6B, in
合成マスキング閾値306を補正してレベルを下げた補正マスキング閾値310を用いることによって、聴覚符号化において、聴覚的な再生音質の向上に寄与するオーディオ信号の部分帯域を符号化対象として増やすことができる。
By using the corrected masking
次は、聴覚的な再生音質の維持または向上に有効な符号化対象を増やすための、3つの要素f1〜f3による補正について、より具体的に説明する。 Next, correction by the three elements f 1 to f 3 for increasing the number of encoding targets effective for maintaining or improving the auditory reproduction sound quality will be described more specifically.
図7は、図6Bのステップ620の、より具体的なフローチャートの例を示している。
FIG. 7 shows an example of a more specific flowchart of
図8A〜8Cは、3つの要素の補正関数f1、f2およびf3の例を示している。
図9は、オーディオ信号のスペクトルのピーク性の例を説明するための図である。
8A to 8C show examples of three- element correction functions f 1 , f 2 and f 3 .
FIG. 9 is a diagram for explaining an example of the peak nature of the spectrum of an audio signal.
図7を参照すると、ステップ626において、マスキング閾値補正部239は、伝送ビットレートに応じた補正量f1を算出する。補正量f1は、伝送ビットレートbitrateの関数f1(bitrate)として、例えば図8Aのように表される。従って、伝送ビットレートが高くなるに従って、閾値BRTHより高い或るビットレートの範囲で概して補正量f1が増大する。それによって、伝送ビットレートに応じて、推定の余裕ビット数の範囲内で、符号化対象の部分帯域を増大させることが可能である。
Referring to FIG. 7, in
ステップ628において、マスキング閾値補正部239は、各部分帯域sfbにおけるオーディオ信号の電力(330)mdct_pow(sfb)と初期のマスキング閾値(302)allowed_pow(sfb)の利得比Rを算出する。ここで、利得比は、R=mdct_pow(sfb)/allowed_pow(sfb)で表される。
In
ステップ630において、マスキング閾値補正部239は、比Rに基づいて補正量f2を算出する。補正量f2は、比Rの関数f2(R)として、例えば図8Bのように表される。従って、オーディオ信号電力mdct_pow(sfb)とマスキング閾値allowed_pow(sfb)の利得比Rが大きくなるに従って、閾値RTHより高い或る比の範囲で概して補正量f2が増大する。それによって、オーディオ信号の電力330とマスキング閾値302のゲイン比が大きい部分帯域が、符号化対象として選択されやすくなる。
In
ステップ632において、マスキング閾値補正部239は、各部分帯域sfbにおけるオーディオ信号の電力のピーク性を算出する。或る部分帯域sfb_xにおけるオーディオ信号電力mdct_pow(sfb)のピーク性peak(sfb_x)は、隣接の部分帯域の電力との利得比または利得差分の平均に基づいて算出することができる。例えば、図9において、或る部分帯域sfb_xの、隣接の部分帯域sfb_x−1、sfb_x+1に対するピーク性peak(sfb_x)は、利得比の平均値による次の式で表される。
peak(sfb_x)
={mdct_pow(sfb_x)/mdct_pow(sfb_x−1)
+mdct_pow(sfb_x)/mdct_pow(sfb_x+1)}/2
In
peak (sfb_x)
= {Mdct_pow (sfb_x) / mdct_pow (sfb_x-1)
+ Mdct_pow (sfb_x) / mdct_pow (sfb_x + 1)} / 2
ステップ634において、マスキング閾値補正部239は、ピーク性peak(sfb_x)に基づいて補正量f3を算出する。補正量f3は、ピーク性peak(sfb_x)の関数f2(peak)として、例えば図8Cのように表される。従って、ピーク性peakが大きくなるに従って、閾値PTHより或るピーク性の範囲で概して補正量f3が増大する。それによって、隣接の部分帯域との比較でピーク性の高いオーディオ信号の部分帯域が、符号化対象として選択されやすくなる。
In
ステップ636において、マスキング閾値補正部239は、合成補正量α(sfb)に基づいて合成マスキング閾値306を補正する。補正マスキング閾値310は、例えば次の式で表される。
補正マスキング閾値310=合成マスキング閾値306×補正量α(sfb)
ここで、3つの要素f1〜f3による合成補正量α(sfb)は、例えば次の式で表される。
α(sfb)=−(f1×f2×f3)
In
Here, the combined correction amount α (sfb) by the three elements f 1 to f 3 is expressed by the following equation, for example.
α (sfb) = − (f 1 × f 2 × f 3 )
従って、合成マスキング閾値306を補正して得られる補正マスキング閾値310、即ちnew_allowed_pow(sfb)は、例えば次の式で表される。
new_allowed_pow(sfb)
=new_allowed_pow(sfb)×α(sfb)
但し、補正マスキング閾値310は、初期のマスキング閾値302より小さくなることはなく、従って次の式を満たす。
左辺new_allowed_pow(sfb)≧allowed_pow(sfb)
次いで、マスキング閾値補正部239は、各部分帯域の補正マスキング閾値310をマスキング補正部244に供給する。
Therefore, the corrected
new_allowed_pow (sfb)
= New_allowed_pow (sfb) × α (sfb)
However, the corrected
Left side new_allowed_pow (sfb) ≧ allowed_pow (sfb)
Next, the masking
図6Bを再び参照すると、ステップ640において、符号化判定部240は、各部分帯域sfbについてオーディオ信号の電力330と補正マスキング閾値310とを比較する。次いで、符号化判定部240は、補正マスキング閾値310より大きい電力を有する部分帯域sfbのオーディオ信号の電力350、351を符号化対象と判定する。即ち、各部分帯域sfbについて、オーディオ信号の電力mdct_pow(sfb)は、補正マスキング閾値new_allowed_pow(sfb)より大きい(>)場合に、符号化対象として選択される。一方、符号化判定部240は、補正マスキング閾値310以下の電力を有する部分帯域のオーディオ信号の電力352を符号化対象外と判定する。
Referring to FIG. 6B again, in
ステップ642において、符号化判定部240は、補正マスキング閾値310より大きい各部分帯域のオーディオ信号の電力350、351を、合成マスキング閾値306より大きくなるようにレベル補正または増幅するための増幅率γを決定する。一方、符号化判定部240は、合成マスキング閾値306より充分大きい各部分帯域のオーディオ信号の電力336の増幅率γを1と決定し、増幅しないようにする。次いで、レベル補正部242は、各増幅率γに従ってオーディオ信号の部分帯域の電力350、351をレベル補正し増幅する。
In
より具体的には、オーディオ信号の電力mdct_pow(sfb)は、例えば次式に従って、周囲雑音に埋もれないように増幅される。
部分帯域sfbに対して、
mdct_pow(sfb)=mdct_pow(sfb)×gain(sfb)
ここで、ゲインgain(sfb)は、例えば次式で表されてもよい。
gain(sfb)=(noise_pow(sfb)/mdct_pow(sfb))×γ、
ここで、例えば、係数γ=1.2であってもよい。
このゲインgain(sfb)の式において、noise_pow(sfb)/mdct_pow(sfb)の比によって、オーディオ信号の電力が、ノイズ電力と同じレベルにレベル補正され、さらに、係数γによってノイズ電力より大きく増幅される。
また、部分帯域sfbのグループの電力における各ビンの電力に対する増幅は、次の式で表される。
mdct_pow(k)=mdct_pow(k)×gain(sfb)
More specifically, the power mdct_pow (sfb) of the audio signal is amplified so as not to be buried in ambient noise, for example, according to the following equation.
For the partial band sfb,
mdct_pow (sfb) = mdct_pow (sfb) × gain (sfb)
Here, the gain gain (sfb) may be expressed by the following equation, for example.
gain (sfb) = (noise_pow (sfb) / mdct_pow (sfb)) × γ,
Here, for example, the coefficient γ may be 1.2.
In this gain gain (sfb) expression, the power of the audio signal is level-corrected to the same level as the noise power by the ratio of noise_pow (sfb) / mdct_pow (sfb), and further amplified by a coefficient γ to be larger than the noise power. The
Further, the amplification of the power of each bin in the group power of the partial band sfb is expressed by the following equation.
mdct_pow (k) = mdct_pow (k) × gain (sfb)
ステップ644において、マスキング補正部244は、量子化部246と連携して動作して、マスキング閾値補正部239から受け取った補正マスキング閾値310をさらに伝送レートに適合するように補正する。一方、量子化部246は、マスキング補正部244によって補正されたマスキング閾値に基づいて、レベル補正部242によってレベル補正された各部分帯域または周波数ビンのオーディオ信号の電力を量子化する。
In
ステップ646において、多重化部248は、量子化部246によって生成された複数の部分帯域のオーディオ・ストリーム・データを多重化して、聴覚符号化されたオーディオ・ストリーム・データを生成する。このようにして、音響復号部226で復号されたオーディオ信号は、音響符号化部230で、雑音に埋もれにくい形態の低いレートのデータへと、携帯情報端末10の周囲雑音レベルに応じて適応的に符号化または変換される。
In
次は、上述の実施形態の変形形態による、3つの要素f1〜f3に加えてさらに信号対ノイズ(SN)比に関する別の要素fSNに基づいて合成マスキング閾値306を補正することによって、補正マスキング閾値310を生成する方法を説明する。この場合、携帯情報端末10における再生オーディオ信号と周囲雑音に関する信号対ノイズ(SN)比が、合成マスキング閾値306の補正に用いられて、補正マスキング閾値310が生成される。
Next, by correcting the
図10は、上述の実施形態の変形形態による、携帯情報端末10の別の概略的な構成(configuration)の例を示している。
FIG. 10 shows an example of another schematic configuration of the
図10において、測定部148は、復号部132に結合されていて、復号部132から復号されたオーディオ信号またはそのパワースペクトルを受け取る。携帯情報端末10におけるその他の結合関係は、図3のものと同様である。
In FIG. 10, the
図10の携帯情報端末10において、受信部130は情報処理装置20から符号化されたオーディオ・ストリーム・データを受信し、復号部132は符号化オーディオ・ストリーム・データを復号してオーディオ信号を生成する。また、音響再生部136は、オーディオ信号を増幅し再生してスピーカ138に供給して音響を発生させる。
In the
一方、変換部146は、マイクロホン142で捕捉された音信号を周波数スペクトルに変換する。この場合、捕捉された音信号は、周囲雑音のノイズ信号成分と、スピーカ138で発生した再生オーディオ信号成分とを含んでいる。測定部148は、復号されたオーディオ信号の各部分帯域の周波数スペクトルを算出する。また、測定部148は、捕捉された音信号の部分帯域のスペクトルを算出する。次いで、測定部148は、各部分帯域について、捕捉された音信号のスペクトルからオーディオ信号成分のスペクトルを減算して、ノイズ信号成分のスペクトルを算出してもよい。次いで、測定部148は、オーディオ信号成分とノイズ信号成分の各スペクトルに基づいて信号対ノイズ比を算出する。次いで、送信部150は、ノイズ電力および信号対ノイズ比を含むノイズ電力情報を、ストリーム送信要求と共にまたは定期的に情報処理装置20に送信する。
On the other hand, the
代替形態として、携帯情報端末10は復号オーディオ信号をスピーカ138で発生させずに、測定部148が、捕捉された周囲雑音のノイズ信号のスペクトルと、復号オーディオ信号の算出されたスペクトルとに基づいて、信号対ノイズ比を算出してもよい。その際、復号オーディオ信号のスペクトルは、復号オーディオ信号をスピーカ138で再生した場合の音響的特性に基づいて、オーディオ信号のスペクトルを修正することによって、算出されてもよい。
As an alternative, the
この場合、図2を再び参照すると、トランスコーダ装置200において、情報入力部210は、ノイズ電力および信号対ノイズ比を含むノイズ電力情報を入力して音響符号化部230に供給する。ノイズ電力および信号対ノイズ比を含むノイズ電力情報は、マスキング閾値補正部239および符号化判定部240に供給される。情報処理装置20のトランスコーダ装置200のマスキング閾値補正部239は、さらに、携帯情報端末10における信号対ノイズ比に基づいて合成マスキング閾値306を補正する。
In this case, referring to FIG. 2 again, in the
図11は、図5のフローチャートの変形形態であり、携帯情報端末10によって実行される、ノイズ電力および信号対ノイズ比を生成して送信するための処理のフローチャートの例を示している。
FIG. 11 is a modification of the flowchart of FIG. 5 and shows an example of a flowchart of processing for generating and transmitting noise power and a signal-to-noise ratio, which is executed by the
図11を参照すると、ステップ502において、携帯情報端末10の音響入力部144は、マイクロホン142で捕捉された音信号を記憶装置に記録する。この場合、音信号は、オーディオ信号の再生前に捕捉されたものがノイズとして記録され、また、復号オーディオ信号の再生中の再生音の信号成分と周囲音のノイズ成分を含むものが混合音信号として記憶装置に記録される。
Referring to FIG. 11, in
ステップ504は、図5のものと同様である。即ち、変換部146は、時間領域の音信号xin(n)を周波数領域のスペクトルX(f)に変換し、さらに周波数パワースペクトルS(f)に変換する。
Step 504 is similar to that of FIG. That is, the converting
ステップ506において、測定部148は、図5の場合と同様に、周波数パワースペクトルS(f)を複数の部分帯域sfbに分割して、各部分帯域sfbのノイズ電力noise_pow(sfb)および再生音信号電力signal_pow(sfb)を求める。ここで、再生音信号電力signal_pow(sfb)は、再生時の復号オーディオ信号の電力を表す。この場合、再生音信号電力signal_pow(sfb)は、復号部132で復号されたオーディオ信号に基づいて、計算上の推定値として求められてもよい。その際、再生音信号電力signal_pow(sfb)は、携帯情報端末10におけるスピーカ138およびマイクロホン142等の音響特性を考慮して修正して、計算されてもよい。また、再生音信号電力signal_pow(sfb)は、或る時点で捕捉された混合音信号の電力sound_pow(sfb)から、別の時点で捕捉されたノイズの電力noise_pow(sfb)を減算することによって、求められてもよい。また、ノイズ電力noise_pow(sfb)は、捕捉された混合音信号の電力sound_pow(sfb)から、計算で求めた再生音信号電力signal_pow(sfb)を減算することによって、求められてもよい。各部分帯域sfbのノイズ電力noise_pow(sfb)および再生音信号電力signal_pow(sfb)は、例えば次の式で表される。
ステップ508において、測定部148は、各部分帯域のノイズ電力noise_pow(sfb)および再生音信号電力signal_pow(sfb)に基づいて、各部分帯域の信号対ノイズ比SN_ratio(sfb)を算出する。信号対ノイズ比SN_ratio(sfb)は、例えば次の式で表される。
SN_ratio(sfb)
=signal_pow(sfb)/noise_pow(sfb)
In
SN_ratio (sfb)
= Signal_pow (sfb) / noise_pow (sfb)
ステップ510において、送信部150は、各部分帯域sfbのノイズ電力noise_pow(sfb)および信号対ノイズ(SN)比SN_ratio(sfb)を含むノイズ電力情報を、図5の場合と同様に情報処理装置20に送信する。この場合、情報処理装置20のトランスコーダ装置200は、ノイズ電力noise_pow(sfb)に基づいて初期のマスキング閾値302を補正し、さらに信号対ノイズ(SN)比SN_ratio(sfb)に基づいて合成マスキング閾値306を補正する。
In
代替形態として、各部分帯域における信号電力signal_pow(sfb)および信号対ノイズ比は、携帯情報端末10から送信されたノイズ電力に基づいて、トランスコーダ装置200のマスキング閾値補正部239によって算出されてもよい。この場合、信号対ノイズ比は、音響符号化部230において符号化されたオーディオ信号を遅延させた信号と、携帯情報端末10から受信したノイズ電力とに基づいて、算出されてもよい。
As an alternative, the signal power signal_pow (sfb) and the signal-to-noise ratio in each partial band may be calculated by the masking
図11の携帯情報端末10によって実行されるフローチャートに対して、トランスコーダ装置200の音響符号化部230によって図6Aおよび6Bのフローチャートが同様に実行される。
The flowcharts of FIGS. 6A and 6B are similarly executed by the acoustic encoding unit 230 of the
図12は、図7のフローチャートの変形形態であり、合成マスキング閾値306を要素fSNおよび3つの要素f1〜f3で補正するための処理の別のフローチャートの例を示している。
FIG. 12 is a modification of the flowchart of FIG. 7 and shows an example of another flowchart of the process for correcting the
図12を参照すると、ステップ622において、マスキング閾値補正部239は、携帯情報端末10における信号対ノイズ(S/N)比(利得比)が例えば1未満(<1)の場合、信号対ノイズ(S/N)比に応じ補正量fSNを算出する。補正量fSNは、信号対ノイズ(S/N)比に応じて合成マスキング閾値306を増大させるように補正するための、次式で表される補正量である。
fSN=fSNM=1/SN_ratio(sfb)
この場合、マスキング閾値補正部239は、後で説明するように、次のように補正される。
new_allowed_pow(sfb)
=new_allowed_pow(sfb)×fSNM
=new_allowed_pow(sfb)/SN_ratio(sfb)
Referring to FIG. 12, in
f SN = f SNM = 1 / SN_ratio (sfb)
In this case, the masking
new_allowed_pow (sfb)
= New_allowed_pow (sfb) × f SNM
= New_allowed_pow (sfb) / SN_ratio (sfb)
代替形態として、補正量fSNは、次式で表される補正量であってもよい。
fSN=fSNA=new_allowed_pow(sfb)×(1/SN_ratio(sfb)−1)
この場合、マスキング閾値補正部239は、後で説明するように、次のように補正される。
補正された合成マスキング閾値(306)new_allowed_pow(sfb)は、例えば次の式で表される。
new_allowed_pow(sfb)
=new_allowed_pow(sfb)×fSNA
=new_allowed_pow(sfb)×1/SN_ratio(sfb)
As an alternative, the correction amount f SN may be a correction amount represented by the following equation.
f SN = f SNA = new_allowed_pow (sfb) × (1 / SN_ratio (sfb) −1)
In this case, the masking
The corrected composite masking threshold (306) new_allowed_pow (sfb) is expressed by the following equation, for example.
new_allowed_pow (sfb)
= New_allowed_pow (sfb) × f SNA
= New_allowed_pow (sfb) × 1 / SN_ratio (sfb)
このように、オーディオ信号の信号対ノイズ比が1未満の場合に合成マスキング閾値306を引き上げることによって、聴覚的な再生音質の向上に寄与する部分帯域のオーディオ信号のレベル補正量を、雑音に埋もれにくいように大きくできる。
As described above, when the signal-to-noise ratio of the audio signal is less than 1, the
ステップ626〜634は、図7のものと同様である。
ステップ637において、マスキング閾値補正部239は、補正量fSNおよび合成補正量α(sfb)に基づいて合成マスキング閾値306を補正する。補正マスキング閾値310は、例えば次の式で表される。
補正マスキング閾値310=合成マスキング閾値306×補正量fSNM×補正量α(sfb)、または
補正マスキング閾値310=合成マスキング閾値306×補正量fSNA×補正量α(sfb)
ここで、前述の通り、合成補正量α(sfb)=−(f1×f2×f3)である。この場合、補正量fSNが大きくなるに従って、伝送データレートに応じた補正量f1が大きくなる傾向にあってもよい。
In
Here, as described above, the combined correction amount α (sfb) = − (f 1 × f 2 × f 3 ). In this case, the correction amount f 1 corresponding to the transmission data rate may tend to increase as the correction amount f SN increases.
従って、合成マスキング閾値306をさらに補正して得られる補正マスキング閾値310、即ちnew_allowed_pow(sfb)は、例えば次の式で表される。
new_allowed_pow(sfb)
=new_allowed_pow(sfb)×補正量fSNM×α(sfb)、または
=new_allowed_pow(sfb)+補正量fSNA×α(sfb)
但し、補正マスキング閾値310は、初期のマスキング閾値302より小さくなることはなく、従って次の式を満たす。
左辺new_allowed_pow(sfb)≧allowed_pow(sfb)
次いで、マスキング閾値補正部239は、各部分帯域の補正マスキング閾値310をマスキング補正部244に供給する。
Accordingly, the corrected
new_allowed_pow (sfb)
= New_allowed_pow (sfb) × correction amount f SNM × α (sfb), or = new_allowed_pow (sfb) + correction amount f SNA × α (sfb)
However, the corrected
Left side new_allowed_pow (sfb) ≧ allowed_pow (sfb)
Next, the masking
次は、上述の実施形態のさらに別の変形形態による、携帯情報端末10の再生オーディオ信号の信号対ノイズ比に応じて、トランスコーダ装置200における周波数領域に変換されるオーディオ信号の時間領域の分析窓の長さを制御する方法を説明する。
Next, the time domain analysis of the audio signal converted into the frequency domain in the
オーディオ信号符号化に関しては、アタック音など時間領域で急峻な変化を見せる信号に対しては分析長を短くして、プリエコーノイズが抑制される。しかし、単位時間での符号化効率が低下するので、入力音に応じて分析長の長さが適切に調整される。例えば、AACなどでは、128点の短い窓と1024点の長い窓の2種類の窓の間の切り替えが行われる。 As for audio signal encoding, the analysis length is shortened for a signal that shows a sharp change in the time domain, such as an attack sound, and pre-echo noise is suppressed. However, since the encoding efficiency per unit time decreases, the length of the analysis length is appropriately adjusted according to the input sound. For example, in AAC or the like, switching is performed between two types of windows: a short window of 128 points and a long window of 1024 points.
また、次の場合には、信号対ノイズ比に応じて、トランスコーダ装置200における周波数領域に変換されるオーディオ信号の時間領域の分析窓の長さが調整されまたは切り替えられる。信号対ノイズ比が低い場合には、分析窓を長くしたとしてもプリエコーノイズが知覚されにくいので、分析窓を長くしても問題はない。分析長を長くすることによって、単位時間で1つの部分帯域当り使用できるビットが多くなり、符号化効率が向上し、またはビット数の使用量が少ない分、別の単位時間(フレーム)でそのビット数を使用することによって、音質を向上させることができる。
In the following case, the length of the analysis window in the time domain of the audio signal converted into the frequency domain in the
図13は、図2のトランスコーダ装置200の変形形態であり、トランスコーダ装置200の別の概略的な構成(configuration)の例を示している。
FIG. 13 is a modification of the
この場合、トランスコーダ装置200は、例えば、図2の音響符号化部230の代わりに、音響符号化部232を含んでいる。音響符号化部232は、図2の音響符号化部230と同様に、信号変換部236、マスキング閾値生成部238、マスキング閾値補正部239、符号化判定部240、レベル補正部242を含んでいる。また、音響符号化部232は、図2の音響符号化部230と同様に、マスキング補正部244、量子化部246、および多重化部248を含んでいる。この場合、音響符号化部232は、さらに、ブロック切替制御部232およびブロック切替部234を含んでいる。
In this case, the
ブロック切替制御部232は、情報入力部210から各部分帯域の信号対ノイズ比を受け取っても、または情報入力部210から受け取ったノイズ電力と信号変換部236のオーディオ信号の電力に基づいて各部分帯域の信号対ノイズ比を算出してもよい。ここで、信号対ノイズ比は、携帯情報端末10における再生オーディオ信号の信号対ノイズ比である。
Even if the block switching
ブロック切替制御部232は、携帯情報端末10における信号対ノイズ(SN)比に応じて、ブロック切替部234に、音響復号部226から供給される信号変換部236の入力データのブロック長を切り替えさせる。ブロック切替制御部232は、例えば、x個の部分帯域以上の信号対ノイズ(SN)比が閾値SNth以下の場合(SN_ratio(sfb)≦SNth)、ブロックの長さを強制的に長くする(例えば、1024点)。それによって、音響符号化部232は、信号対ノイズ(SN)比が閾値SNthより低くオーディオ信号が聴取しにくい場合に、ブロック長が短い場合に比べて、単位時間当りの符号化オーディオ・データのビット数を増やすことができる。それによって、1つの部分帯域当りにより多くのビット数を当てることができ、実効的な聴覚的音質の向上に寄与する部分帯域のオーディオ信号により多くのビット数を割り当てることができる。
The block
一方、信号対ノイズ比(SN_ratio(sfb))が閾値SNthより高い(>)場合、信号変換部236は、通常通り入力データを入力信号の特性に応じて、信号変換部236を用いてそれぞれ長いブロックまたは短いブロックの周波数領域のデータに変換する。その際、例えば、窓長は2048であり、長いブロックは1024点であり、短いブロックは128点であってもよい。信号変換部236は、例えばアタック音のような時間領域で急峻な変化を示す信号には短いブロックの周波数領域のデータに変換する。それによって、時間的分解能が向上してプリエコー減少が改善される。
On the other hand, when the signal-to-noise ratio (SN_ratio (sfb)) is higher (>) than the threshold SN th , the
図14Aおよび14Bは、音響符号化部232によって実行される、携帯情報端末10のノイズ電力および信号対ノイズ比に応じて、復号されたビデオ・ストリーム・データを聴覚符号化するための処理のフローチャートの例を示している。図14Aおよび14Bのフローチャートは、図6Aおよび6Bのフローチャートの変形形態である。
FIGS. 14A and 14B are flowcharts of processing for audio-coding the decoded video stream data according to the noise power and signal-to-noise ratio of the
図14Aを参照すると、ステップ602において、ブロック切替制御部232は、各部分帯域について、携帯情報端末10での信号対ノイズ比が閾値より大きいかどうか(SN_ratio(sfb)>SNth)を判定する。ステップ604において、ブロック切替制御部232は、各部分帯域の信号対ノイズ比に応じて、個数閾値x個以上の部分帯域の信号対ノイズ比がノイズ比閾値より大きい場合に、ブロックを強制的に長くなるよう制御する。それ以外の場合は、ブロック切替制御部232は、通常の形態で、信号変換部236にブロック長の制御を行わせる。
Referring to FIG. 14A, in
ステップ606〜612およびステップ620〜644は、図6Aおよび6Bのものと同様である。 Steps 606-612 and steps 620-644 are similar to those of FIGS. 6A and 6B.
上述の実施形態では、オーディオ信号の部分帯域の電力332、334、338、340が、音響符号化部230、232のレベル補正部242によって補正された。その代替形態として、音響符号化部230、232はオーディオ信号の電力を増幅せずに符号化し、携帯情報端末10が、ユーザの再生操作に従って、受信して復号した符号化オーディオ・データを、周囲雑音のノイズ電力レベルより大きくなるように増幅してもよい。但し、この場合、量子化誤差が増大する傾向がある。
In the above-described embodiment, the
また、上述の実施形態では、マスキング閾値302が、音響符号化部230、232のマスキング閾値補正部239によってマスキング閾値306に補正され、さらにマスキング閾値310に補正されて、マスキング閾値310がマスキング補正部244で使用された。その代替形態として、符号化判定部240は、補正マスキング閾値302との差が或る利得閾値より大きい各部分帯域の電力350、531を選択し、レベル補正部242が、電力350、351をノイズ電力レベル306より大きくなるようレベル補正してもよい。この場合、マスキング補正部244は、量子化部246での量子化のために、補正マスキング閾値310ではなくマスキング閾値306を補正し、量子化部246が、各部分帯域のレベル補正された電力を、マスキング補正部246に従って量子化してもよい。
In the above-described embodiment, the masking
このように、実施形態によれば、音響符号化部230および232は、伝送レートの許容範囲内で、聴覚的音質の維持または向上に寄与する部分帯域の電力を選択し増大させて聴覚符号化するので、携帯情報端末10でのオーディオ信号の聴覚的再生音質が改善できる。また、実施形態によれば、音響符号化部230および232は、携帯情報端末10での周囲雑音に応じて聴覚的な再生音質の確保に有効な情報を選択的に符号化するので、実効的な再生音質の確保に有利な形態で送信情報量を低減することができる。
Thus, according to the embodiment, the
ここで挙げた全ての例および条件的表現は、発明者が技術促進に貢献した発明および概念を読者が理解するのを助けるためのものであり、ここで具体的に挙げたそのような例および条件に限定することなく解釈され、また、明細書におけるそのような例の編成は本発明の優劣を示すこととは関係ない、と理解される。本発明の実施形態を詳細に説明したが、本発明の精神および範囲から逸脱することなく、それに対して種々の変更、置換および変形を施すことができる、と理解される。 All examples and conditional expressions given here are intended to help the reader understand the inventions and concepts that have contributed to the promotion of technology, such examples and It is understood that the present invention is not limited to the conditions, and that the organization of such examples in the specification is not related to the superiority or inferiority of the present invention. Although embodiments of the present invention have been described in detail, it will be understood that various changes, substitutions and variations can be made thereto without departing from the spirit and scope of the invention.
以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
(付記1)情報量が低減するように聴覚特性に基づいてマスキング閾値を利用してオーディオ信号を符号化するオーディオ符号化装置であって、
端末から受信した周囲雑音レベルに応じてマスキング閾値を補正し、その際、前記マスキング閾値との差が或る閾値より大きい入力信号が、補正後の前記マスキング閾値より大きくなるように、前記マスキング閾値および前記入力信号の少なくとも一方の補正を行う第1の処理部と、
補正後の前記マスキング閾値より大きい、前記少なくとも一方の補正が行われた後の前記入力信号の符号化を行う第2の処理部と、
を含むオーディオ符号化装置。
(付記2)前記第1の処理部が前記端末における信号対ノイズ比に応じて前記マスキング閾値を補正することを特徴とする、付記1に記載のオーディオ符号化装置。
(付記3)前記第1の処理部は、さらに前記符号化されたオーディオ信号の前記端末への伝送レートに応じて前記マスキング閾値を補正するものであることを特徴とする、付記1または2に記載のオーディオ符号化装置。
(付記4)前記入力信号は、前記マスキング閾値より大きく、かつ前記マスキング閾値と間の利得差が前記或る閾値より大きいものであることを特徴とする、付記1乃至3のいずれかに記載のオーディオ符号化装置。
(付記5)前記第1の処理部は、前記マスキング閾値より大きい或る入力信号と、前記或る入力信号の部分帯域に隣接する部分帯域の他の入力信号との間の利得差が、或る利得閾値より大きい場合に、前記マスキング閾値を前記或る入力信号より小さくなるように補正するものであることを特徴とする、付記1乃至4のいずれかに記載のオーディオ符号化装置。
(付記6)前記第2の処理部が、さらに、前記端末における信号対ノイズ比に応じて前記第2の処理部によって符号化される前記入力信号のブロックの長さを変更することを特徴とする、付記1乃至5のいずれかに記載のオーディオ符号化装置。
(付記7)前記少なくとも一方の補正が前記入力信号の各部分帯域について行われることを特徴とする、付記1乃至6のいずれかに記載のオーディオ符号化装置。
(付記8)情報量が低減するように聴覚特性に基づいてマスキング閾値を利用してオーディオ信号を符号化する方法であって、
端末から受信した周囲雑音レベルに応じてマスキング閾値を補正し、その際、前記マスキング閾値との差が或る閾値より大きい入力信号が、補正後の前記マスキング閾値より大きくなるように、前記マスキング閾値および前記入力信号の少なくとも一方の補正を行い、
補正後の前記マスキング閾値より大きい、前記少なくとも一方の補正が行われた後の前記入力信号の符号化を行う
処理を情報処理装置が実行する方法。
Regarding the embodiment including the above examples, the following additional notes are further disclosed.
(Supplementary note 1) An audio encoding device that encodes an audio signal using a masking threshold based on auditory characteristics so as to reduce the amount of information,
The masking threshold is corrected according to the ambient noise level received from the terminal, and at this time, the masking threshold is set such that an input signal whose difference from the masking threshold is larger than a certain threshold is larger than the corrected masking threshold. And a first processing unit for correcting at least one of the input signals;
A second processing unit that encodes the input signal after the at least one correction is performed, which is greater than the corrected masking threshold;
An audio encoding device.
(Supplementary note 2) The audio encoding device according to
(Supplementary note 3) The
(Supplementary note 4) The input signal according to any one of
(Supplementary Note 5) The first processing unit has a gain difference between an input signal larger than the masking threshold and another input signal of a partial band adjacent to the partial band of the certain input signal, or The audio encoding device according to any one of
(Additional remark 6) The said 2nd process part further changes the length of the block of the said input signal encoded by the said 2nd process part according to the signal-to-noise ratio in the said terminal, It is characterized by the above-mentioned. The audio encoding device according to any one of
(Supplementary note 7) The audio encoding device according to any one of
(Supplementary note 8) A method of encoding an audio signal using a masking threshold based on auditory characteristics so as to reduce the amount of information,
The masking threshold is corrected according to the ambient noise level received from the terminal, and at this time, the masking threshold is set such that an input signal whose difference from the masking threshold is larger than a certain threshold is larger than the corrected masking threshold. And correcting at least one of the input signals,
A method in which an information processing apparatus executes a process of encoding the input signal after at least one of the corrections is performed, which is larger than the corrected masking threshold.
10 移動通信端末
20 情報処理装置
200 トランスコーダ装置
210 情報入力部
226 音響復号部
230、232 音響符号化部
232 ブロック切替制御部
234 ブロック切替部
236 信号変換部
238 マスキング閾値
239 マスキング閾値補正部
240 符号化判定部
242 レベル補正部
244 マスキング補正部
246 量子化部
256 画像復号部
260 画像符号化部
270 多重化部
280 ストリーム出力部
DESCRIPTION OF
Claims (7)
端末から受信した周囲雑音レベルに応じてマスキング閾値を補正し、その際、前記マスキング閾値との差が或る閾値より大きい入力信号が、補正後の前記マスキング閾値より大きくなるように、前記マスキング閾値および前記入力信号の少なくとも一方の補正を行う第1の処理部と、
補正後の前記マスキング閾値より大きい、前記少なくとも一方の補正が行われた後の前記入力信号の符号化を行う第2の処理部と、
を含むオーディオ符号化装置。 An audio encoding device that encodes an audio signal using a masking threshold based on auditory characteristics so as to reduce the amount of information,
The masking threshold is corrected according to the ambient noise level received from the terminal, and at this time, the masking threshold is set such that an input signal whose difference from the masking threshold is larger than a certain threshold is larger than the corrected masking threshold. And a first processing unit for correcting at least one of the input signals;
A second processing unit that encodes the input signal after the at least one correction is performed, which is greater than the corrected masking threshold;
An audio encoding device.
端末から受信した周囲雑音レベルに応じてマスキング閾値を補正し、その際、前記マスキング閾値との差が或る閾値より大きい入力信号が、補正後の前記マスキング閾値より大きくなるように、前記マスキング閾値および前記入力信号の少なくとも一方の補正を行い、
補正後の前記マスキング閾値より大きい、前記少なくとも一方の補正が行われた後の前記入力信号の符号化を行う
処理を情報処理装置が実行する方法。 A method of encoding an audio signal using a masking threshold based on auditory characteristics so as to reduce the amount of information,
The masking threshold is corrected according to the ambient noise level received from the terminal, and at this time, the masking threshold is set such that an input signal whose difference from the masking threshold is larger than a certain threshold is larger than the corrected masking threshold. And correcting at least one of the input signals,
A method in which an information processing apparatus executes a process of encoding the input signal after at least one of the corrections is performed, which is larger than the corrected masking threshold.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014112478A JP2015227912A (en) | 2014-05-30 | 2014-05-30 | Audio coding device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014112478A JP2015227912A (en) | 2014-05-30 | 2014-05-30 | Audio coding device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015227912A true JP2015227912A (en) | 2015-12-17 |
Family
ID=54885424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014112478A Pending JP2015227912A (en) | 2014-05-30 | 2014-05-30 | Audio coding device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015227912A (en) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07170194A (en) * | 1993-12-16 | 1995-07-04 | Sharp Corp | Data coder |
JPH07202823A (en) * | 1993-11-25 | 1995-08-04 | Sharp Corp | Coding and decoding device |
JPH09114499A (en) * | 1995-10-21 | 1997-05-02 | Nippon Columbia Co Ltd | Portable sound system |
JPH10341162A (en) * | 1997-06-09 | 1998-12-22 | Matsushita Electric Ind Co Ltd | Voice coding transmission method |
JP2002268693A (en) * | 2001-03-12 | 2002-09-20 | Mitsubishi Electric Corp | Audio encoding device |
JP2008170554A (en) * | 2007-01-09 | 2008-07-24 | Toshiba Corp | Audio data processing apparatus and terminal device |
JP2009175420A (en) * | 2008-01-24 | 2009-08-06 | Toshiba Corp | Sound correction device |
-
2014
- 2014-05-30 JP JP2014112478A patent/JP2015227912A/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07202823A (en) * | 1993-11-25 | 1995-08-04 | Sharp Corp | Coding and decoding device |
JPH07170194A (en) * | 1993-12-16 | 1995-07-04 | Sharp Corp | Data coder |
JPH09114499A (en) * | 1995-10-21 | 1997-05-02 | Nippon Columbia Co Ltd | Portable sound system |
JPH10341162A (en) * | 1997-06-09 | 1998-12-22 | Matsushita Electric Ind Co Ltd | Voice coding transmission method |
JP2002268693A (en) * | 2001-03-12 | 2002-09-20 | Mitsubishi Electric Corp | Audio encoding device |
JP2008170554A (en) * | 2007-01-09 | 2008-07-24 | Toshiba Corp | Audio data processing apparatus and terminal device |
JP2009175420A (en) * | 2008-01-24 | 2009-08-06 | Toshiba Corp | Sound correction device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6951536B2 (en) | Voice coding device and method | |
RU2586874C1 (en) | Device, method and computer program for eliminating clipping artefacts | |
JP5722912B2 (en) | Acoustic communication method and recording medium recording program for executing acoustic communication method | |
JP3983668B2 (en) | How to enhance the performance of coding systems that use high-frequency reconstruction methods | |
CN110706715B (en) | Method and apparatus for encoding and decoding signal | |
JPH08237132A (en) | Signal coding method and device, signal decoding method and device, and information recording medium and information transmission method | |
US11257506B2 (en) | Decoding device, encoding device, decoding method, and encoding method | |
US20220130402A1 (en) | Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium | |
JP5395250B2 (en) | Voice codec quality improving apparatus and method | |
KR101363206B1 (en) | Audio signal encoding employing interchannel and temporal redundancy reduction | |
US9424830B2 (en) | Apparatus and method for encoding audio signal, system and method for transmitting audio signal, and apparatus for decoding audio signal | |
JP2006018023A (en) | Audio signal coding device, and coding program | |
JP6957444B2 (en) | Acoustic signal encoding device, acoustic signal decoding device, acoustic signal coding method and acoustic signal decoding method | |
JP6179087B2 (en) | Audio encoding apparatus, audio encoding method, and audio encoding computer program | |
JP2015227912A (en) | Audio coding device and method | |
WO2021200151A1 (en) | Transmission device, transmission method, reception device, and reception method | |
JP2008033211A (en) | Additional signal generation device, restoration device of signal converted signal, additional signal generation method, restoration method of signal converted signal, and additional signal generation program | |
JP2009103974A (en) | Masking level calculating device, encoder, masking level calculating method and masking level calculation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180123 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180717 |