JP5299327B2 - 音声処理装置、音声処理方法、およびプログラム - Google Patents
音声処理装置、音声処理方法、およびプログラム Download PDFInfo
- Publication number
- JP5299327B2 JP5299327B2 JP2010061170A JP2010061170A JP5299327B2 JP 5299327 B2 JP5299327 B2 JP 5299327B2 JP 2010061170 A JP2010061170 A JP 2010061170A JP 2010061170 A JP2010061170 A JP 2010061170A JP 5299327 B2 JP5299327 B2 JP 5299327B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- unit
- frequency
- time domain
- channels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title abstract description 5
- 238000001228 spectrum Methods 0.000 claims abstract description 177
- 230000005236 sound signal Effects 0.000 claims abstract description 173
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims description 88
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 238000000926 separation method Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000001131 transforming effect Effects 0.000 claims 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 67
- 238000003786 synthesis reaction Methods 0.000 abstract description 67
- 238000013139 quantization Methods 0.000 description 70
- 238000004364 calculation method Methods 0.000 description 39
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
[音声処理装置の第1実施の形態の構成例]
図9は、本発明を適用した音声処理装置の第1実施の形態の構成例を示すブロック図である。
図10は、図9の無相関周波数時間変換部102の詳細構成例を示すブロック図である。
図11は、図9の無相関周波数時間変換部102の他の詳細構成例を示すブロック図である。
図12は、図9のステレオ合成部103の詳細構成例を示すブロック図である。
図14は、図9の音声処理装置100による復号処理を説明するフローチャートである。この復号処理は、図1の符号化装置10から供給される多重化された符号化データが音声処理装置100に入力されたとき、開始される。
[音声処理装置の第2実施の形態の構成例]
図15は、本発明を適用した音声処理装置の第2実施の形態の構成例を示すブロック図である。
図16は、図15の音声処理装置200による復号処理を説明するフローチャートである。この復号処理は、図2のオーディオ信号符号化部13を備える図1の符号化装置10と同様の空間符号化が行われ、高域についてのBCパラメータが多重化された符号化データが、音声処理装置200に入力されたとき、開始される。
[音声処理装置の第3実施の形態の構成例]
図17は、本発明を適用した音声処理装置の第3実施の形態の構成例を示すブロック図である。
図18は、図17の音声処理装置300による復号処理を説明するフローチャートである。この復号処理は、例えば、図3のオーディオ信号符号化部13を備える図1の符号化装置10と同様の空間符号化が行われ、所定のサブバンド信号のBCパラメータが多重化された符号化データが音声処理装置300に入力されたとき、開始される。
[音声処理装置の第4実施の形態の構成例]
図19は、本発明を適用した音声処理装置の第4実施の形態の構成例を示すブロック図である。
図20は、図19の音声処理装置400による復号処理を説明するフローチャートである。この復号処理は、例えば、インテンシティ符号化され、インテンシティ開始周波数Fis以上の周波数のBCパラメータが多重化された符号化データが入力されたとき、開始される。
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
Claims (9)
- 複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得手段と、
前記取得手段により取得された前記周波数領域の係数を、第1の時間領域信号に変換する第1の変換手段と、
前記取得手段により取得された前記周波数領域の係数を、第2の時間領域信号に変換する第2の変換手段と、
前記パラメータを用いて前記第1の時間領域信号と前記第2の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成手段と
を備え、
前記第1の変換手段による変換における基底と前記第2の変換手段による変換における基底は直交する
音声処理装置。 - 前記取得手段により取得された前記周波数領域の係数を、周波数によって複数のグループに分割する分割手段と、
前記複数のグループのうちの第1のグループに分割された前記周波数領域の係数を、第3の時間領域信号に変換する第3の変換手段と、
前記第3の時間領域信号を前記第1のグループの周波数帯域の各チャンネルの音声信号とし、その第3の時間領域信号と、前記合成手段により生成された前記複数チャンネルの音声信号とをチャンネルごとに加算して、全周波数帯域の前記複数チャンネルの音声信号を生成する加算手段と
をさらに備え、
前記取得手段は、前記周波数領域の係数と前記第1のグループ以外のグループである第2のグループの周波数帯域の前記パラメータを取得し、
前記第1の変換手段は、前記第2のグループに分割された前記周波数領域の係数を、前記第1の時間領域信号に変換し、
前記第2の変換手段は、前記第2のグループに分割された前記周波数領域の係数を、前記第2の時間領域信号に変換し、
前記合成手段は、前記パラメータを用いて前記第1の時間領域信号と前記第2の時間領域信号を合成することにより、前記第2のグループの周波数帯域の前記複数チャンネルの音声信号を生成する
請求項1に記載の音声処理装置。 - 前記取得手段により取得される周波数により複数のグループに分割された前記周波数領域の係数のうちの第1のグループの周波数領域の係数を、第3の時間領域信号に変換する第3の変換手段と、
前記第3の時間領域信号を前記第1のグループの周波数帯域の各チャンネルの音声信号とし、その第3の時間領域信号と、前記合成手段により生成された前記複数チャンネルの音声信号とをチャンネルごとに加算して、全周波数帯域の前記複数チャンネルの音声信号を生成する加算手段と
をさらに備え、
前記取得手段は、各グループの前記周波数領域の係数と、前記複数のグループのうちの前記第1のグループ以外のグループである第2のグループの周波数帯域の前記パラメータを取得し、
前記第1の変換手段は、前記第2のグループに分割された前記周波数領域の係数を、前記第1の時間領域信号に変換し、
前記第2の変換手段は、前記第2のグループに分割された前記周波数領域の係数を、前記第2の時間領域信号に変換し、
前記合成手段は、前記パラメータを用いて前記第1の時間領域信号と前記第2の時間領域信号を合成することにより、前記第2のグループの周波数帯域の前記複数チャンネルの音声信号を生成する
請求項1に記載の音声処理装置。 - 前記周波数領域の係数は、前記複数チャンネルの音声信号の周波数領域の係数から生成される
請求項1に記載の音声処理装置。 - 前記取得手段により取得された所定の周波数帯域の前記周波数領域の係数と、その周波数帯域以外の周波数帯域の前記複数チャンネルの音声信号の周波数領域の係数を分離する分離手段と、
前記分離手段により分離された前記複数チャンネルの音声信号の周波数領域の係数を、前記複数チャンネルの第3の時間領域信号に変換する第3の変換手段と、
前記複数チャンネルの第3の時間領域信号を前記所定の周波数帯域以外の周波数帯域の前記複数チャンネルの音声信号とし、その第3の時間領域信号と、前記合成手段により生成された前記複数チャンネルの音声信号とをチャンネルごとに加算して、全周波数帯域の前記複数チャンネルの音声信号を生成する加算手段と
をさらに備え、
前記取得手段は、前記所定の周波数帯域の前記周波数領域の係数、前記所定の周波数帯域以外の周波数帯域の前記複数チャンネルの音声信号の周波数領域の係数、および、前記所定の周波数帯域の前記パラメータを取得し、
前記第1の変換手段は、前記分離手段により分離された前記所定の周波数帯域の前記周波数領域の係数を、前記第1の時間領域信号に変換し、
前記第2の変換手段は、前記分離手段により分離された前記所定の周波数帯域の前記周波数領域の係数を、前記第2の時間領域信号に変換し、
前記合成手段は、前記パラメータを用いて前記第1の時間領域信号と前記第2の時間領域信号を合成することにより、前記所定の周波数帯域の前記複数チャンネルの音声信号を生成する
請求項4に記載の音声処理装置。 - 前記周波数領域の係数は、MDCT(Modified Discrete Cosine Transform)係数であり、
前記第1の変換手段による変換は、IMDCT(Inverse Modified Discrete Cosine Transform)であり、
前記第2の変換手段による変換は、IMDST(Inverse Modified Discrete Sine Transform)である
請求項1乃至5のいずれかに記載の音声処理装置。 - 前記第2の変換手段は、
前記周波数領域の係数を周波数が逆順になるように反転するスペクトル反転手段と
前記スペクトル反転手段による反転の結果得られる周波数領域の係数にIMDCT(Inverse Modified Discrete Cosine Transform)を行い、時間領域信号を得るIMDCT手段と、
前記IMDCT手段により得られた時間領域信号の各サンプルの符号を1つ置きに反転する符号反転手段と
を備え、
前記周波数領域の係数は、MDCT(Modified Discrete Cosine Transform)係数であり、
前記第1の変換手段による変換は、IMDCTである
請求項1乃至5のいずれかに記載の音声処理装置。 - 音声処理装置が、
複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得ステップと、
前記取得ステップの処理により取得された前記周波数領域の係数を、第1の時間領域信号に変換する第1の変換ステップと、
前記取得ステップの処理により取得された前記周波数領域の係数を、第2の時間領域信号に変換する第2の変換ステップと、
前記パラメータを用いて前記第1の時間領域信号と前記第2の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成ステップと
を含み、
前記第1の変換ステップの処理による変換における基底と前記第2の変換ステップの処理による変換における基底は直交する
音声信号処理方法。 - コンピュータに、
複数チャンネルの音声の時間領域信号である音声信号から生成された前記複数チャンネルより少ないチャンネルの音声信号の周波数領域の係数と、前記複数チャンネルのチャンネル間の関係を表すパラメータとを取得する取得ステップと、
前記取得ステップの処理により取得された前記周波数領域の係数を、第1の時間領域信号に変換する第1の変換ステップと、
前記取得ステップの処理により取得された前記周波数領域の係数を、第2の時間領域信号に変換する第2の変換ステップと、
前記パラメータを用いて前記第1の時間領域信号と前記第2の時間領域信号を合成することにより、前記複数チャンネルの音声信号を生成する合成ステップと
を含み、
前記第1の変換ステップの処理による変換における基底と前記第2の変換ステップの処理による変換における基底は直交する
処理を実行させるためのプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010061170A JP5299327B2 (ja) | 2010-03-17 | 2010-03-17 | 音声処理装置、音声処理方法、およびプログラム |
PCT/JP2011/055293 WO2011114932A1 (ja) | 2010-03-17 | 2011-03-08 | 音声処理装置、音声処理方法、およびプログラム |
BR112012022784A BR112012022784A2 (pt) | 2010-03-17 | 2011-03-08 | aparelho de processamento de fala, método de processamento de sinal de fala, e, programa |
EP11756121.7A EP2525352B1 (en) | 2010-03-17 | 2011-03-08 | Audio-processing device, audio-processing method and program |
CN201180013301.2A CN102792369B (zh) | 2010-03-17 | 2011-03-08 | 语音处理装置、语音处理方法 |
US13/583,839 US8977541B2 (en) | 2010-03-17 | 2011-03-08 | Speech processing apparatus, speech processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010061170A JP5299327B2 (ja) | 2010-03-17 | 2010-03-17 | 音声処理装置、音声処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011197105A JP2011197105A (ja) | 2011-10-06 |
JP5299327B2 true JP5299327B2 (ja) | 2013-09-25 |
Family
ID=44649030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010061170A Expired - Fee Related JP5299327B2 (ja) | 2010-03-17 | 2010-03-17 | 音声処理装置、音声処理方法、およびプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US8977541B2 (ja) |
EP (1) | EP2525352B1 (ja) |
JP (1) | JP5299327B2 (ja) |
CN (1) | CN102792369B (ja) |
BR (1) | BR112012022784A2 (ja) |
WO (1) | WO2011114932A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR122019026166B1 (pt) * | 2010-04-09 | 2021-01-05 | Dolby International Ab | sistema decodificador, aparelho e método para emitir um sinal de áudio estereofônico tendo um canal esquerdo e um canal direito e meio legível por computador não transitório |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
JP6094322B2 (ja) * | 2013-03-28 | 2017-03-15 | 富士通株式会社 | 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置 |
EP3011562A2 (en) * | 2013-06-17 | 2016-04-27 | Dolby Laboratories Licensing Corporation | Multi-stage quantization of parameter vectors from disparate signal dimensions |
KR102480710B1 (ko) * | 2016-09-28 | 2022-12-22 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 다중 채널 오디오 신호 처리 방법, 장치 및 시스템 |
CN108665902B (zh) * | 2017-03-31 | 2020-12-01 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
CN108694955B (zh) * | 2017-04-12 | 2020-11-17 | 华为技术有限公司 | 多声道信号的编解码方法和编解码器 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3147807B2 (ja) * | 1997-03-21 | 2001-03-19 | 日本電気株式会社 | 信号符号化装置 |
SE0301273D0 (sv) | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
EP1711938A1 (en) * | 2004-01-28 | 2006-10-18 | Koninklijke Philips Electronics N.V. | Audio signal decoding using complex-valued data |
JP2006325162A (ja) * | 2005-05-20 | 2006-11-30 | Matsushita Electric Ind Co Ltd | バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置 |
EP1906706B1 (en) * | 2005-07-15 | 2009-11-25 | Panasonic Corporation | Audio decoder |
CN101253555B (zh) * | 2005-09-01 | 2011-08-24 | 松下电器产业株式会社 | 多声道音频信号处理装置及多声道音频信号处理方法 |
CN101325059B (zh) * | 2007-06-15 | 2011-12-21 | 华为技术有限公司 | 语音编解码收发方法及装置 |
CN101802907B (zh) * | 2007-09-19 | 2013-11-13 | 爱立信电话股份有限公司 | 多信道音频的联合增强 |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
-
2010
- 2010-03-17 JP JP2010061170A patent/JP5299327B2/ja not_active Expired - Fee Related
-
2011
- 2011-03-08 CN CN201180013301.2A patent/CN102792369B/zh not_active Expired - Fee Related
- 2011-03-08 WO PCT/JP2011/055293 patent/WO2011114932A1/ja active Application Filing
- 2011-03-08 EP EP11756121.7A patent/EP2525352B1/en not_active Not-in-force
- 2011-03-08 BR BR112012022784A patent/BR112012022784A2/pt not_active IP Right Cessation
- 2011-03-08 US US13/583,839 patent/US8977541B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2525352A4 (en) | 2013-08-28 |
US20130006618A1 (en) | 2013-01-03 |
WO2011114932A1 (ja) | 2011-09-22 |
CN102792369A (zh) | 2012-11-21 |
EP2525352A1 (en) | 2012-11-21 |
BR112012022784A2 (pt) | 2018-05-22 |
EP2525352B1 (en) | 2014-08-20 |
CN102792369B (zh) | 2014-04-23 |
US8977541B2 (en) | 2015-03-10 |
JP2011197105A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7270096B2 (ja) | フレーム制御同期化を使用して多チャネル信号を符号化又は復号化する装置及び方法 | |
JP6869322B2 (ja) | 音場のための高次アンビソニックス表現を圧縮および圧縮解除する方法および装置 | |
US8817992B2 (en) | Multichannel audio coder and decoder | |
KR101835239B1 (ko) | 적응적 위상 정렬을 갖는 멀티-채널 다운믹스에서의 콤 필터 아티팩트의 감소 | |
JP5299327B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6289613B2 (ja) | オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離 | |
EP2849180B1 (en) | Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal | |
EP2904609B1 (en) | Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding | |
JP6542269B2 (ja) | 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置 | |
JP6535730B2 (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
WO2007029412A1 (ja) | マルチチャンネル音響信号処理装置 | |
WO2010140350A1 (ja) | ダウンミックス装置、符号化装置、及びこれらの方法 | |
JP6141980B2 (ja) | 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 | |
JPWO2010016270A1 (ja) | 量子化装置、符号化装置、量子化方法及び符号化方法 | |
JPWO2008132850A1 (ja) | ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法 | |
JP6094322B2 (ja) | 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置 | |
CN105336334B (zh) | 多声道声音信号编码方法、解码方法及装置 | |
CN113544774B (zh) | 降混器及降混方法 | |
JP6299202B2 (ja) | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130603 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5299327 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |