JP2004029377A

JP2004029377A - 圧縮データ処理装置、方法および圧縮データ処理プログラム

Info

Publication number: JP2004029377A
Application number: JP2002185560A
Authority: JP
Inventors: Hiroyuki Hiraishi; 平石　博之
Original assignee: Namco Ltd
Current assignee: Namco Ltd
Priority date: 2002-06-26
Filing date: 2002-06-26
Publication date: 2004-01-29

Abstract

【課題】処理負担の軽減および処理の高速化が可能な圧縮データ処理装置、方法および圧縮データ処理プログラムを提供すること。
【解決手段】マルチトラック伸長装置３０は、圧縮音声データ読込み部３１、データ削除処理部３４、伸長処理部３５、３６、合成処理部３７を備える。ＭＰＥＧ１オーディオ形式の２つの圧縮音声データが圧縮音声データ読込み部３１によって読み込まれると、データ削除処理部３４によって、これらの圧縮音声データに対して、伸張処理を行った後に合成したときに発生する冗長な部分を削除する処理が行われ、この削除処理の後に伸長処理部３５、３６によって伸長処理が行われる。このようにして得られた非圧縮音声データに対して合成処理部３７によって合成処理が行われる。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、圧縮データ同士を対象に合成処理を行う圧縮データ処理装置、方法および圧縮データ処理プログラムに関する。
【０００２】
【従来の技術】
従来から、ゲーム装置では、プレーヤの操作内容やストーリの進行に伴って複数の音が用いられている。例えば、各種の効果音に加えて、プレーヤキャラクタあるいは敵キャラクタの音声などが任意のタイミングで生成された後、合成されて１つあるいは複数のスピーカから出力される。
【０００３】
また、ネットワークを介して接続された複数の利用者が会話を行ういわゆるボイスチャット装置では、各話者の端末装置から送られてきた音声を合成して各話者の端末装置に配信している。
【０００４】
【発明が解決しようとする課題】
ところで、上述した従来のゲーム装置やボイスチャット装置などにおいては、合成対象となるデータとして圧縮音声データを考えた場合に、生成された、あるいは入力された圧縮音声データを一旦伸長処理した後に合成処理を行っているため、処理の負担が重く、処理の高速化が難しいという問題があった。
【０００５】
例えば、上述したゲーム装置では、記録された各種の圧縮音声データを所定の発生タイミングに合わせて読み出して個別に伸長処理を行った後に合成しているため、合成対象となる圧縮音声データの数が増加すると、並行して行われる伸長処理の処理量が大幅に増加し、この増加分に応じて圧縮音声データの発生から合成音声を出力するまでの処理に要する時間が長くなる。
【０００６】
また、上述したボイスチャット装置では、各話者の端末装置から圧縮音声データが送られてきたときに、配信対象となる話者に対応してこの話者以外の各話者の音声圧縮データを一旦伸長し、合成した後に再度圧縮する必要がある。このため、結局は、全ての話者に対応する音声圧縮データに対して伸長処理を行った後に、各話者毎に異なる圧縮処理を行う必要があり、話者が増えれば、その分だけ圧縮音声データが入力されてから各話者に向けて合成後の圧縮音声データを出力するまでの処理負担が重くなるとともに、処理に要する時間が長くなる。
【０００７】
本発明は、このような点に鑑みて創作されたものであり、その目的は、処理負担の軽減および処理の高速化が可能な圧縮データ処理装置、方法および圧縮データ処理プログラムを提供することにある。
【０００８】
【課題を解決するための手段】
上述した課題を解決するために、本発明の圧縮データ処理装置は、合成対象となる複数の圧縮データを取得する圧縮データ取得手段と、圧縮データ取得手段によって取得された複数の圧縮データのそれぞれについて、これらの圧縮データに対して伸張処理を行った後に合成したときに発生する冗長な部分を伸張処理を行う前に削除するデータ削除手段と、圧縮データ取得手段によって取得され、データ削除手段によって必要に応じて削除処理が行われた後の圧縮データに対して伸張処理を行う伸張処理手段と、伸張処理手段によって伸張処理が行われた複数のデータを合成する合成手段とを備えている。合成によって生じる冗長な部分に対応する圧縮データを削除することにより、この削除された圧縮データに対して行われる伸長処理を省略することができるため、圧縮データに対する伸長処理と合成処理をあわせた全体についての処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【０００９】
また、上述した圧縮データは、圧縮音声データであり、データ削除手段は、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する圧縮データに対して削除処理を行うことが望ましい。具体的には、上述したデータ削除手段は、発生タイミングが一致する複数の音の中から最も音圧レベルが大きな基準音を抽出し、この基準音に対して所定の比率以下の音圧レベルを有する他の音を削除することが望ましい。あるいは、上述したデータ削除手段は、発生タイミングが前後する複数の音の中から最も音圧レベルが大きな基準音を抽出し、この基準音に対して所定の比率以下の音圧レベルを有する他の音を削除することが望ましい。このような冗長な部分を削除することにより、音声の伸長および合成を行う際の処理の簡略化、高速化が可能になる。特に、上述した所定の比率は、１／２であることが望ましい。これにより、音の大小比較を行う際の処理の簡略化が可能になる。
【００１０】
また、上述した圧縮データに対して第１の部分伸張処理を行って得られた中間データに対して第２の部分伸張処理を行うことによりデータの復元が行われ、伸張処理手段によって第１の部分伸張処理を行い、合成手段によって中間データを対象に合成処理を行うことが望ましい。複数の圧縮データを対象に合成処理を行う場合に、非圧縮データを得るために行われる第１および第２の部分伸長処理を行った後ではなく、第１の部分伸長処理のみが終了したときに得られた中間データを用いて合成処理を行っている。このため、その後に行われる処理は、各圧縮データ毎に行う代わりに、合成後の中間データに対して行えばよく、処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【００１１】
また、上述した合成手段から出力される中間データに対して第２の部分伸張処理を行う第２の伸張処理手段をさらに備えることが望ましい。第２の部分伸長処理を合成後の中間データに対して行うことにより、合成された伸長データ（非圧縮データ）を得るまでに必要な処理負担の軽減と処理の高速化が可能になる。
【００１２】
また、上述した合成手段から出力される中間データに対して第１の部分伸張処理の逆変換となる圧縮処理を行う圧縮処理手段をさらに備えることが望ましい。合成後の中間データに対して圧縮処理を行うことにより、複数の圧縮データ同士を合成して再び圧縮データを得るまでに必要な処理負担の軽減と処理の高速化が可能になる。
【００１３】
また、上述した圧縮データは、ＭＰＥＧ１オーディオ形式の圧縮音声データであり、データ削除手段による削除処理は、複数の周波数帯域毎の音声データを対象に行われることが望ましい。ＭＰＥＧ１オーディオ形式の圧縮音声データの場合には、サブバンドと称される複数の周波数帯域毎の音声データが含まれているため、それぞれの周波数帯域の音声データを対象にマスキング特性を考慮することにより、冗長な周波数成分を効率的に削除することが可能になる。
【００１４】
また、上述した合成手段よりも前段に設けられており、複数の圧縮データのそれぞれに対して所定の乗数を乗算する重み付け処理を行う重み付け処理手段をさらに備え、データ削除手段は、複数の圧縮データのそれぞれに対応する乗数を考慮して削除処理を行うことが望ましい。合成処理前に各中間データに対して重み付け処理を行うことにより、合成後の処理負担の軽減や処理の高速化が可能になる。しかも、マスキング特性を考慮した音の削除処理を行う際に、この重み付け処理で用いた乗数が考慮されるため、重み付け処理の結果を反映させた正確な削除処理を行うことが可能になる。
【００１５】
また、上述した重み付け処理は、音量バランス調整処理であることが望ましい。複数の音に対して音量バランス調整（音量調整）を行う用途は多いが、従来の音声合成処理では、圧縮音声を非圧縮データに戻してからバランス調整を行っていた。本発明では、このバランス調整を中間データに対して行った結果を合成しており、音量バランス調整が必要な場合であっても処理負担の軽便と処理の高速化を実現することができる。
【００１６】
また、上述した圧縮データは、ＭＰＥＧ１オーディオ形式の圧縮音声データであり、第１の部分伸張処理によって、複数の周波数帯域毎の音声データを復元し、第２の部分伸張処理によって、複数の周波数帯域毎の音声データを用いて周波数逆変換を行うことが望ましい。ＭＰＥＧ１オーディオ形式の圧縮音声データを用いる場合には、逆正規化処理を行って周波数帯域毎の音声データを復元した中間データを用いて合成を行うことが可能であり、その後の周波数逆変換処理や窓掛け処理の回数を減らして処理負担の軽減および処理の高速化を図ることができる。
【００１７】
また、上述した第２の部分伸張処理は、処理後のデータ同士の合成と等価な処理前のデータ同士の合成が可能な処理であり、第１の部分伸張処理は、処理後のデータ同士の合成と等価な処理前の同士の合成が不可能な処理であることが望ましい。このような条件を満たす第１および第２の部分伸長処理によって復元される圧縮データに対して、第２の部分伸長処理の回数を削減することが可能になり、処理負担の軽減および処理の高速化が可能になる。
【００１８】
また、本発明の圧縮データ処理方法は、合成対象となる複数の圧縮データを取得する圧縮データ取得手段と、圧縮データ取得手段によって取得された複数の圧縮データのそれぞれについて、これらの圧縮データに対して伸張処理を行った後に合成したときに発生する冗長な部分を伸張処理を行う前に削除するデータ削除手段と、圧縮データ取得手段によって取得され、データ削除手段によって必要に応じて削除処理が行われた後の圧縮データに対して伸張処理を行う伸張処理手段と、伸張処理手段によって伸張処理が行われた複数のデータを合成する合成手段とを備えた圧縮データ処理装置の圧縮データ処理方法であって、圧縮データ取得手段によって複数の圧縮データを取得するステップと、取得された複数の圧縮データのそれぞれについて、データ削除手段によって冗長な部分を削除するステップと、冗長な部分が削除された後の圧縮データに対して、伸張処理手段によって伸張処理を行うステップと、伸張処理が終了した後の複数のデータを用いて合成手段による合成処理を行うステップとを含んでいる。合成によって生じる冗長な部分に対応する圧縮データを削除することにより、この削除された圧縮データに対して行われる伸長処理を省略することができるため、圧縮データに対する伸長処理と合成処理をあわせた全体についての処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【００１９】
また、上述した圧縮データは、圧縮音声データであり、データ削除手段によって冗長な部分を削除するステップには、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する圧縮データを削除する動作が含まれていることが望ましい。音声データには合成という概念が定義でき、しかも、聴覚のマスキング特性によって、同時に出力される音には冗長な部分が含まれることが知られているので、この冗長な部分を削除することにより、音声の伸長および合成を行う際の処理の簡略化、高速化が可能になる。
【００２０】
また、上述した圧縮データに対して第１の部分伸張処理を行ってから得られた中間データに対して第２の部分伸張処理を行うことによりデータの復元が行われ、伸張処理手段によって圧縮データに対して伸張処理を行うステップには第１の伸張処理を行う動作が含まれており、合成手段によって合成処理を行うステップには中間データを対象にしてこの合成処理を行う動作が含まれていることが望ましい。複数の圧縮データを対象に合成処理を行う場合に、非圧縮データを得るために行われる第１および第２の部分伸長処理を行った後ではなく、第１の部分伸長処理のみが終了したときに得られた中間データを用いて合成処理を行っている。このため、その後に行われる処理は、各圧縮データ毎に行う代わりに、合成後の中間データに対して行えばよく、処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【００２１】
また、上述した圧縮データ処理装置は、第２の伸張処理を行う第２の伸張処理手段を有しており、合成手段から出力される中間データに対して第２の部分伸張処理手段によって第２の部分伸張処理を行うステップをさらに含むことが望ましい。第２の部分伸長処理を合成後の中間データに対して行うことにより、合成された伸長データ（非圧縮データ）を得るまでに必要な処理負担の軽減と処理の高速化が可能になる。
【００２２】
また、上述した圧縮データ処理装置は、第１の部分伸張処理の逆変換となる圧縮処理を行う圧縮処理手段を有しており、合成手段から出力される中間データに対して圧縮処理手段によって圧縮処理を行うステップをさらに含むことが望ましい。合成後の中間データに対して圧縮処理を行うことにより、複数の圧縮データ同士を合成して再び圧縮データを得るまでに必要な処理負担の軽減と処理の高速化が可能になる。
【００２３】
また、本発明の圧縮データ処理プログラムは、複数の圧縮データを合成するためにコンピュータを、合成対象となる複数の圧縮データを取得する圧縮データ取得手段と、圧縮データ取得手段によって取得された複数の圧縮データのそれぞれについて、これらの圧縮データに対して伸張処理を行った後に合成したときに発生する冗長な部分を伸張処理を行う前に削除するデータ削除手段と、圧縮データ取得手段によって取得され、データ削除手段によって必要に応じて削除処理が行われた後の圧縮データに対して伸張処理を行う伸張処理手段と、伸張処理手段によって伸張処理が行われた複数のデータを合成する合成手段として機能させる。この圧縮データ処理プログラムをコンピュータによって実行することにより、合成によって生じる冗長な部分に対応する圧縮データを削除し、この削除された圧縮データに対して行われる伸長処理を省略することができるため、圧縮データに対する伸長処理と合成処理をあわせた全体についての処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【００２４】
また、上述した圧縮データは、圧縮音声データであり、コンピュータを、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する圧縮データに対して削除処理を行うデータ削除手段として機能させることが望ましい。これにより、圧縮音声データの中から冗長な部分を削除することができ、音声の伸長および合成を行う際の処理の簡略化、高速化が可能になる。
【００２５】
また、上述した圧縮データに対して第１の部分伸長処理を行ってから得られた中間データに対して第２の部分伸長処理を行うことによりデータの復元が行われており、コンピュータを、第１の部分伸長処理を行う伸長処理手段と、中間データを対象に合成処理を行う合成手段として機能させることが望ましい。これにより、複数の圧縮データを対象に合成処理を行う場合に、非圧縮データを得るために行われる第１および第２の部分伸長処理を行った後ではなく、第１の部分伸長処理のみが終了したときに得られた中間データを用いて合成処理を行っており、その後に行われる処理を合成後の中間データに対して行えばよいため、処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【００２６】
また、上述したデータ圧縮処理プログラムは、コンピュータを、合成手段から出力される中間データに対して第２の部分伸長処理を行う第２の伸長処理手段として機能させることが望ましい。このプログラムを実行することにより、第２の部分伸長処理を合成後の中間データに対して行うことができるため、合成された伸長データ（非圧縮データ）を得るまでに必要な処理負担の軽減と処理の高速化が可能になる。
【００２７】
また、上述したデータ圧縮処理プログラムは、コンピュータを、合成手段から出力される中間データに対して第１の部分伸長処理の逆変換となる圧縮処理を行う圧縮処理手段として機能させることが望ましい。このプログラムを実行することにより、合成後の中間データに対して圧縮処理を行うことができるため、複数の圧縮データ同士を合成して再び圧縮データを得るまでに必要な処理負担の軽減と処理の高速化が可能になる。
【００２８】
【発明の実施の形態】
以下、本発明を適用した一実施形態の圧縮データ処理装置について、図面を参照しながら詳細に説明する。
〔第１の実施形態〕
図１は、第１の実施形態の圧縮データ処理装置の構成を示す図である。図１に示す本実施形態の圧縮データ処理装置１００は、例えばゲーム装置等の一部を構成しており、所定の発音タイミングにおいて複数の音を合成出力する。このために、圧縮データ処理装置１００は、発音指示装置１０、圧縮音声データ格納装置２０、マルチトラック伸長装置３０、ＰＣＭ音源４０、Ｄ／Ａ（デジタル−アナログ）変換器５０、増幅器６０、スピーカ７０を備えている。
【００２９】
発音指示装置１０は、読み出す圧縮音声データとその読み出しタイミングを指示する。圧縮音声データ格納装置２０は、読み出し対象となる圧縮音声データを格納するためのものであり、例えば半導体メモリやハードディスク装置あるいは光ディスク装置等が用いられる。マルチトラック伸長装置３０は、圧縮音声データ格納装置２０から読み出した複数の圧縮音声データに対して合成処理と伸長処理を行い、伸長された音声データ（非圧縮音声データ）を出力する。ＰＣＭ音源４０は、マルチトラック伸長装置３０から出力された音声データに基づいて所定のフォーマット変換を行って、所定ビット数のＰＣＭデータを出力する。Ｄ／Ａ変換器５０は、このＰＣＭデータをアナログの音声信号に変換し、この音声信号が増幅器６０によって増幅されてスピーカ７０から出力される。なお、図１では、１系統の音声再生系が示されているが、例えばステレオ音声を再生する場合には、ＰＣＭ音源４０からスピーカ７０までについては、左音声に対応するＬチャンネル用と右音声に対応するＲチャンネル用の各構成が備わっている。
【００３０】
図２は、マルチトラック伸長装置３０の詳細構成を示す図である。図２に示すように、マルチトラック伸長装置３０は、圧縮音声データ読込み部３１、データ削除処理部３４、伸長処理部３５、３６、合成処理部３７を備えている。例えば、本実施形態では、２つの圧縮音声データが読み込まれて合成が行われるものとする。また、圧縮音声データは、ＭＰＥＧ１（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ　１）オーディオ形式の圧縮方式を用いて圧縮されているものとする。
【００３１】
圧縮音声データ読込み部３１は、発音指示装置１０による読み出し指示に応じて、特定された２つの圧縮音声データを読み出して、レジスタ３２、３３に格納する。２つのレジスタ３２、３３のそれぞれに格納された各圧縮音声データは、ともに後段のデータ削除処理部３４に入力される。
【００３２】
データ削除処理部３４は、圧縮音声データ読込み部３１から入力される２つの圧縮音声データについて、伸長処理を行った後に合成したときに発生する冗長な部分を削除する処理を行う。この削除処理は、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する圧縮音声データに対して行われる。なお、合成対象となる２つの音に対する音量バランス調整が必要な場合には、このバランス調整を考慮して上述した削除処理が行われる。
【００３３】
伸長処理部３５は、データ削除処理部３４によって部分的な削除処理が行われた後の一方の圧縮音声データに対して伸長処理を行う。同様に、伸長処理部３６は、データ削除処理部３４によって部分的な削除処理が行われた後の圧縮音声データに対して伸長処理を行う。これらの伸長処理によって非圧縮音声データが得られる。
【００３４】
合成処理部３７は、２つの伸長処理部３５、３６のそれぞれから出力される圧縮音声データを合成する。ＭＰＥＧ１オーディオの場合には、伸長された後の各非圧縮音声データ同士を加算することによりこの合成処理が行われる。なお、音量バランス調整を行う場合には、この合成処理部３７による加算処理が行われる前に、それぞれの帯域データに所定の乗数を乗算する重み付け処理が合成処理部３７において行われる。
【００３５】
上述した圧縮音声データ読込み部３１が圧縮データ取得手段に、データ削除処理部３４がデータ削除手段に、伸長処理部３５、３６が伸長処理手段に、合成処理部３７が合成手段、重み付け処理手段にそれぞれ対応する。
本実施形態の圧縮データ処理装置１００はこのような構成を有しており、次にその動作を説明する。
【００３６】
まず、聴覚のマスキング特性を利用したデータ削除処理の概要について説明する。一般に、聴覚が検知できる音の最小レベルは、同時に聞いているあるいは短時間の間に前後して聞いている他の音のレベルによって変化する。この現象を聴覚のマスキング特性といい、同時に聞いている他の音によって一方の音が聞こえなくなる「同時マスキング」と、短時間の間に前後して聞いている他の音によって一方の音が聞こえなくなる「テンポラル・マスキング（継時マスキング）」に大別される。また、マスクする音をマスカー（ｍａｓｋｅｒ）といい、マスクされて聞こえなくなる音をマスキー（ｍａｓｋｅｅ）という。
【００３７】
図３は、同時マスキングの概要を示す図である。図３において、横軸はマスカーあるいはマスキーの周波数を、縦軸は音圧をそれぞれ示している。図３に示すように、ある瞬間に着目したときに、所定の周波数および音圧の音Ａが存在している状態において、この音Ａの周波数を含む一定周波数範囲（ハッチングが付されている範囲）に存在する他の音Ｂは聞き取りにくくなる。他の音Ｂは、周波数が音Ａの周波数に近い程、大きな音圧レベル（音量）を有していても聞き取りにくくなる。
【００３８】
一方、他の音Ｃは、周波数が音Ａの周波数からある程度以上離れており、小さな音圧レベルであっても聞き取ることができる。マスカー（音Ａ）によるマスキング効果が及ぶ範囲をクリティカル・バンド（臨界帯域）といい、このクリティカル・バンドから外れる場合には、音圧レベルが比較的小さな他の音Ｃであっても聞き取ることができる。
【００３９】
図４は、テンポラル・マスキングの概要を示す図である。図４において、横軸はマスカーあるいはマスキーの発生時刻を、縦軸は音圧をそれぞれ示している。図４に示すように、ある瞬間に着目したときに、所定の周波数および音圧の音Ａが存在している状態において、この音Ａの発生時刻を含む一定時間範囲（ハッチングが付されている範囲）に存在する他の音Ｂ、Ｃは聞き取りにくくなる。特に、他の音Ｂ、Ｃは、発生時刻が音Ａの発生時刻に近い程、大きな音圧レベルを有していても聞き取りにくくなる。
【００４０】
このように、同時あるいは短時間の間に前後して２つの音が発生した場合を考えると、一方の音の大きさによっては、マスキング効果によって他方の音が聞こえなくなる場合がある。このような聞こえなくなる音については、最初から音が発生しない場合と同じであり、マスキング効果によって聞こえなくなる音が予めわかっていれば、この音を伸長処理を行う前に削除することができ、その分だけ伸長処理の負担を軽減するとともに処理時間を短縮することが可能になる。
【００４１】
図５は、ＭＰＥＧ１オーディオ形式の圧縮音声データを非圧縮音声データに戻すまでの一般的な伸長処理の内容を示す流れ図である。また、図６はＭＰＥＧ１オーディオ形式のフレームフォーマット図である。
図６に示すように、ＭＰＥＧ１オーディオ形式のＭＰＥＧオーディオ・ビット・ストリームは、ＡＡＵ（Ａｕｄｉｏ　Ａｃｃｅｓｓ　Ｕｎｉｔ、オーディオ復号単位）を単位とし、このＡＡＵが複数集まって構成されている。ＡＡＵは、単独で音声信号に復号できる最小単位である。各ＡＡＵは、ヘッダ、エラー・チェック、オーディオ・データ、アンシラリー・データから構成されている。また、この中でオーディオ・データは、アロケーション、スケール・ファクタ、サンプルから構成されている。
【００４２】
ヘッダには、同期パターンやサンプリングレートを指定する情報が含まれており、これらの各情報に基づいて伸長処理が行われる。
オーディオ・データには、実際の圧縮音声データが含まれている。このオーディオ・データ内のアロケーションは、３２サブバンド、２チャンネル分のデータの有無が符号化されている。
【００４３】
スケール・ファクタは、各サブバンド、各チャンネル毎に音声データを再生する際の倍率を示している。それぞれが６ビットで表されており、＋６ｄＢから−１２８ｄＢまでを２ｄＢ単位で指定することができる。
サンプルには、実際の波形データが含まれている。
【００４４】
上述したフレームフォーマットを有するＭＰＥＧ１オーディオ・ビット・ストリームを用いて圧縮音声の伸長処理を行う場合に、伸長処理の単位となる圧縮フレームとしてのＡＡＵが読み込まれ（ステップ１００）、この読み込まれたＡＡＵからヘッダが抽出された後（ステップ１０１）、アロケーション、スケール・ファクタ、サンプルのそれぞれが抽出される（ステップ１０２、１０３、１０４）。次に、これらの抽出されたアロケーション、スケール・ファクタ、サンプルに基づいて逆正規化処理が行われ（ステップ１０５）、３２個のサブバンド毎のデータが再現される。次に、周波数逆変換が行われて（ステップ１０６）、周波数成分毎のデータが時間毎の波形データに変換される。その後、各ＡＡＵ間の波形データを滑らかに結ぶための窓掛け処理が行われて（ステップ１０７）、圧縮音声データに対する一連の伸長処理が終了する。
【００４５】
このようなＭＰＥＧ１オーディオに対応する２つの音を考えたときに、どちらの音がマスカーとなってどちらの音がマスキーとなるかは、それぞれの音に対応するＡＡＵのヘッダに含まれるアロケーション、スケール・ファクタおよびサンプルに基づいて２つの音の各サブバンド毎の音圧レベルを比較することにより決定することができる。例えば、同時マスキングについて考える場合には、同時に発生する２つの音に対応するＡＡＵの各サブバンド同士を比較し、大きい方の成分の音圧レベルに対して小さい方の成分の音圧レベルが所定の比率以下である場合に、大きい方の成分をマスカー、小さい方の成分をマスキーとして決定する。マスキーとして決定された成分については削除され、その後の処理、すなわち合成前に行われる伸長処理が省略される。
【００４６】
図２に示したマルチトラック伸長装置３０では、データ削除処理部３４は、入力される２つの圧縮音声データのそれぞれに対応する各ＡＡＵのスケール・ファクタに基づいて、各帯域毎にマスキーとなるか否かを決定し、後段の伸張処理部３５、３６では、マスキーとなったサブバンドの音については伸張処理を行わないようにする。したがって、マスキング効果によって聞こえなくなる成分を考慮せずに各圧縮音声データについて別々に伸張処理を行う場合に比べて、伸張処理の負担を軽減することが可能になり、これに伴う処理の高速化が可能になる。
【００４７】
上述した本実施形態の圧縮データ処理装置１００については、以下の（１）〜（３）に示すような用途が考えられる。
（１）ゲーム装置
ゲーム装置では、各種の効果音やプレーヤキャラクタの音声あるいは敵キャラクタの音声などを、プレーヤの操作内容やゲームの進行状況に応じて適切なタイミングで発生させる必要がある。複数の音声の特定の単位（ＭＰＥＧ１オーディオの場合にはＡＡＵ）の先頭が一致していれば合成が可能であり、このときの合成音の生成において上述した圧縮データ処理装置１００を用いることができる。これにより、２あるいはそれ以上の数の音声に対応した圧縮音声データを読み出して最終的に合成音声を出力するまでの処理負担の軽減が可能になる。
【００４８】
（２）マルチチャンネル音源
複数トラックの音声を合成して出力するマルチチャンネル音源では、１つの音楽ソースから読み出される複数の圧縮音声データ、あるいは複数の音楽ソースから読み出される複数の圧縮音声データに対して並行して伸長処理を行う必要がある。このため、伸長処理の負担が大きい。このマルチチャンネル音源に、上述した圧縮データ処理装置１００を用いることにより、伸長処理に対応する処理の負担を大幅に軽減することができる。
【００４９】
（３）クロスフェード装置
現在出力中の音に対して、出力音量を徐々に下げるいわゆるフェードアウト処理を行うと同時に、別の音の出力音量を徐々に上げるいわゆるフェードイン処理を行うものがクロスフェード装置である。フェードアウト処理の対象となる音と、フェードイン処理の対象となる音とを合成する処理を上述した圧縮データ処理装置１００を用いて行うことにより、伸長処理に対応する処理の負担を大幅に軽減することができる。
【００５０】
ところで、本実施形態のマルチトラック伸長装置３０は専用のハードウエアを用いて構成することもできるが、パーソナルコンピュータ等の汎用コンピュータあるいはこれと同等の機能を有する装置を用いて実現することもできる。
図７は、マルチトラック伸長装置の変形例を示す図である。図７に示すマルチトラック伸長装置１３０は、ＣＰＵ１３１、ＲＯＭ１３２、ＲＡＭ１３３を含んで構成されており、ＲＯＭ１３２あるいはＲＡＭ１３３に格納されたプログラムをＣＰＵ１３１を用いて実行することにより、図２に示したマルチトラック伸長装置３０とほぼ同等の処理を行うコンピュータとして動作する。なお、ＣＰＵ１３１によってプログラムを実行することにより、図２に示した発音指示装置１０が行っていた発音タイミングの指示動作も行うものとすると、この発音指示装置１０を省略することができる。
【００５１】
図８および図９は、図７に示したマルチトラック伸長装置１３０の動作手順を示す流れ図であり、ＲＯＭ１３２あるいはＲＡＭ１３３に格納されている圧縮データ処理プログラムをＣＰＵ１３１によって実行することにより実施される動作手順が示されている。
【００５２】
ＣＰＵ１３１は、所定の発音タイミングになると、合成対象となる一方の圧縮音声データに対応するＭＰＥＧ１オーディオ形式の圧縮フレームとしてのＡＡＵの読み込みを行う（ステップ２００）。次に、ＣＰＵ１３１は、この読み込んだＡＡＵからヘッダを抽出した後（ステップ２０１）、アロケーション、スケール・ファクタのそれぞれの抽出（ステップ２０２、２０３）とバランス調整値の設定を行う（ステップ２０４）。バランス調整とは、異なるレベルで２つの音を合成する場合にそれぞれの音に対してゲインを調整するための処理であり、それぞれの音について調整するゲインが設定されている場合にはこのゲインに相当するバランス調整値が設定される。なお、２つの音をゲイン調整することなく同じレベルを維持した状態で合成する場合には、このバランス調整値の設定に関するステップ２０４の処理は省略していもよい。
【００５３】
次に、ＣＰＵ１３１は、合成対象となる全てのＡＡＵの読み込みを終了したか否かを判定する（ステップ２０５）。例えば、２つの圧縮音声データの合成を行う場合であって、一方の圧縮音声データに対応するＡＡＵの読み込みだけが終了し、他方の圧縮音声データに対応するＡＡＵの読み込みが終了していない場合には、ステップ２０５の判定において否定判断が行われ、他のＡＡＵについて上述したステップ２００以降の処理が繰り返される。
【００５４】
また、合成対象となる全てのＡＡＵの読み込みが終了した場合には、ステップ２０５の判定において肯定判断が行われ、次に、ＣＰＵ１３１は、各サブバンド毎にマスク値を決定するとともに（ステップ２０６）、各ＡＡＵがマスクフレームであるか否かの判定を行う（ステップ２０７）。全てのサブバンドがマスキーとなっているＡＡＵや、マスキーとなっていないサブバンドがあるが無音状態に対応するサブバンドのみが含まれるＡＡＵは、マスクフレームとして決定される。
【００５５】
図１０は、ステップ２０６におけるマスク値決定の詳細な動作手順を示す図である。まず、ＣＰＵ１３１は、処理対象となるＡＡＵとサブバンドを決定するとともに（ステップ３００、３０１）、この処理対象として決定されたサブバンドの音が、比較対象となっている同一のサブバンドにおいて最大音量であるか否かを判定する（ステップ３０２）。同一サブバンドにおいて最大音量である場合には肯定判断が行われ、次に、ＣＰＵ１３１は、サブバンド毎の最大音量を更新する（ステップ３０３）。その後、あるいは、処理対象となっているサブバンドの音量が同一サブバンドにおいて最大音量でない場合であってステップ３０２の判定において否定判断が行われた後、ＣＰＵ１３１は、未処理のサブバンドが残っているか否かを判定する（ステップ３０４）。着目しているＡＡＵに未処理のサブバンドが残っている場合にはこの判定において肯定判断が行われ、上述したステップ３０１の処理に戻って、処理対象のサブバンドを変更した後にサブバンド毎の最大音量の判定と更新が行われる。
【００５６】
また、処理対象となっている一のＡＡＵに含まれる全てのサブバンドについてサブバンド毎の最大音量の判定と更新が行われるとステップ３０４の判定において否定判断が行われ、次に、ＣＰＵ１３１は、未処理のＡＡＵが残っているか否かを判定する（ステップ３０５）。比較対象となっている一方のＡＡＵのみについて各サブバンド毎の最大音量の判定と更新が終了した場合にはこの判定において肯定判断が行われ、上述したステップ３００の処理に戻って、他のＡＡＵについて各サブバンド毎の最大音量の判定と更新が行われる。
【００５７】
全てのＡＡＵに含まれる全てのサブバンドについて最大音量の判定と更新が終了するとステップ３０５の判定において否定判断が行われ、次に、ＣＰＵ１３１は、サブバンド毎にマスク値を決定する（ステップ３０６）。実際のマスカーとマスキーとの関係は図３に示した通りであるが、マスカー（音Ａ）の音量に対してどの音量以下の音がマスキーになるかは、マスカーの音量や周波数によっても変化する。また、同時マスキングのみを考慮する場合には、発生タイミングが同じである２つのＡＡＵを処理対象とすればよいが、テンポラル・マスキングを考慮する場合には、発生タイミングが前後する３以上のＡＡＵを処理対象に設定してもよい。ＣＰＵ１３１は、各サブバンド毎に判定した最大音量（マスカーの音量）に基づいてマスク値を決定する。
【００５８】
なお、最も計算を簡略化する場合には、同時マスキングのみを考慮するとともに、各サブバンド毎に最大音量を決定してその１／２以下となる音量を有する同一帯域の音をマスキーに設定して削除するようにしてもよい。これにより、最大音量の１／２をマスク値として計算する際の計算量と、後にこのマスク値と同一帯域の他の音と音量を比較する際の計算量とを削減することが可能になる。
【００５９】
図１１は、ステップ２０７におけるマスクフレーム決定の詳細な動作手順を示す図である。まず、ＣＰＵ１３１は、処理対象となるＡＡＵとサブバンドを決定するとともに（ステップ４００、４０１）、この処理対象として決定されたサブバンドの音がマスキーであるか否かの判定を行う（ステップ４０２）。この判定は、各サブバンド毎に設定されたマスク値と着目しているサブバンドの音量とを比較することにより行われる。着目しているサブバンドの音がマスキーである場合にはステップ４０２の判定において肯定判断が行われ、次に、ＣＰＵ１３１は、未処理のサブバンドが残っているか否かを判定する（ステップ４０３）。着目しているＡＡＵに未処理のサブバンドが残っている場合にはこの判定において肯定判断が行われ、上述したステップ４０１の処理に戻って、処理対象のサブバンドを変更した後に着目しているサブバンドの音がマスキーであるか否かの判定が繰り返される。また、着目しているＡＡＵに含まれる各サブバンドの音がマスキーであって未処理のサブバンドが残っていない場合、すなわち着目しているＡＡＵに含まれる全てのサブバンドの音がマスキーである場合にはにはステップ４０３の判定において否定判断が行われ、次に、ＣＰＵ１３１は、このＡＡＵをマスクフレームに設定する（ステップ４０４）。
【００６０】
このようにしてマスクフレームの設定が行われた後、ＣＰＵ１３１は、未処理のＡＡＵが残っているか否かを判定する（ステップ４０５）。一方のＡＡＵのみについてマスクフレームの判定処理が終了した場合にはこの判定において肯定判断が行われ、上述したステップ４００の処理に戻って、他のＡＡＵについてマスクフレームの判定処理が行われる。なお、着目しているＡＡＵにマスキーでないサブバンドの音が一つでも含まれている場合には、このＡＡＵはマスクフレームではない。この場合には、上述したステップ４０２の判定において否定判断が行われ、ステップ４０３、４０４の処理が省略されてステップ４０５の判定が行われる。
【００６１】
このようにして各サブバンド毎のマスク値の決定とマスクフレームの判定処理が行われた後、実際の伸張処理が実施される。
まず、ＣＰＵ１３１は、上述したステップ２００によって読み込みが終了しているＡＡＵの中から処理対象となる一のＡＡＵを決定し（ステップ２０８）、このＡＡＵがマスクフレームであるか否かを判定する（ステップ２０９）。マスキーとなっていない有音部分のサブバンドが一つでも含まれる場合にはマスクフレームではないため、この場合には否定判断が行われる。次に、ＣＰＵ１３１は、処理対象となる一のサブバンドを決定し（ステップ２１０）、このサブバンドの音がマスキーであるか否かを判定する（ステップ２１１）。マスキーでない場合には否定判断が行われ、次に、ＣＰＵ１３１は、サンプルを抽出して（ステップ２１２）、既に抽出済みのスケール・ファクタや設定済みのバランス調整値等に基づいて逆正規化処理を実施する（ステップ２１３）。着目しているサブバンドに対応する逆正規化処理が終了した後、あるいは、着目しているサブバンドがマスキーである場合にはステップ２１１の判定において肯定判断を行った後、ＣＰＵ１３１は、未処理のサブバンドが残っているか否かを判定する（ステップ２１４）。残っている場合には肯定判断が行われ、処理対象となる一のサブバンドを決定するステップ２１０以降の処理が繰り返される。また、未処理のサブバンドが残っていない場合にはステップ２１４の判定において否定判断が行われ、次に、ＣＰＵ１３１は、未処理のＡＡＵが残っているか否かを判定する（ステップ２１５）。合成対象となっているＡＡＵの中に上述したステップ２０９〜２１４までの一連の処理が行われていない未処理のＡＡＵが残っている場合には肯定判断が行われ、処理対象となる一のＡＡＵを決定するステップ２０８以降の処理が繰り返される。
【００６２】
また、合成対象となっている全てのＡＡＵについて上述したステップ２０９〜２１４までの一連の処理が終了した場合には、ステップ２１５の判定において否定判断が行われる。次に、ＣＰＵ１３１は、それぞれのＡＡＵ毎について、各サブバンド毎に逆正規化処理によって得られた周波数領域の波形データを用いて周波数逆変換処理および窓掛け処理を行って時間領域の波形データを得た後に（ステップ２１６、２１７）、この時間領域の波形データを複数のＡＡＵについて合成する波形データの合成処理を行い（ステップ２１８）、合成後の非圧縮音声データを出力する（ステップ２１９）。
【００６３】
このように、マルチトラック伸長装置１３０では、処理対象となっているＡＡＵ内の各サブバンドの成分がマスキーとなっている場合にはこの成分に対応する逆正規化処理が省略されるため、伸張処理全体の処理負担を軽減することができるとともに、処理の高速化が可能になる。特に、処理対象となっているＡＡＵがマスクフレームの場合には、このＡＡＵ全体に対応する逆正規化処理が省略されるため、伸張処理全体の処理負担を大幅に軽減することが可能になる。
【００６４】
なお、上述した説明では、処理対象となっている全てのＡＡＵ内のマスキーではない各サブバンドについて逆正規化処理（ステップ２１３）が終了した後に、各ＡＡＵに対する周波数変換処理（ステップ２１６）と窓掛け処理（ステップ２１７）を行ったが、ＡＡＵ毎に逆正規化処理、周波数変換処理、窓掛け処理を行うようにしてもよい。この場合には、図９に示すステップ２１５の動作フローをステップ２１７とステップ２１８の間に移動すればよい。
【００６５】
〔第２の実施形態〕
上述した第１の実施形態では、２つの圧縮音声データに対して別々に伸張処理を行って非圧縮音声データを得た後に合成処理を行ったが、伸張処理の内容によっては、完全に非圧縮音声データを得る前の中間データの段階で合成処理を行うことにより、伸張処理全体の簡略化を図ることができる。
【００６６】
入力データａを出力データａ′に、入力データｂを出力データｂ′に変換するために行う伸長処理をＦとすると、ａ′＝Ｆ（ａ）、ｂ′＝Ｆ（ｂ）と表すことができる。
本明細書ではこれら２つの出力データａ′、ｂ′を合成する処理をａ′・ｂ′と表すものとすると、２つの入力データａ、ｂに基づいて合成後の非圧縮データを得るためには、２回の伸長処理Ｆと１回の合成処理を行う必要がある。
【００６７】
ところで、伸長処理を行った後の２つの非圧縮データを合成する代わりに、伸長処理前の入力データ同士を合成することができれば、その後の伸長処理を１回行うだけで同じ出力データを得ることができ、処理手順の簡略化、処理負担の軽減、処理時間の短縮等が可能になる。本明細書では伸長前に２つの入力データａ、ｂを合成する処理をａ＊ｂと表すものとする。
【００６８】
上述した伸長処理後のデータ合成を伸長処理前に行うことができるためには、
ａ′・ｂ′＝Ｆ（ａ＊ｂ）　　　　　　　　　　　　　　　　　…（１）
の関係を満たす必要がある。なお、「・」、「＊」で示された２つの合成処理の内容は、必ずしも同じである必要はない。例えば、「・」で表される合成処理が単純な加算処理である場合に、「＊」で表される合成処理は同じ内容の単純な加算処理の場合だけでなく、乗算等の他の処理であってもよい。
【００６９】
図１２は、圧縮音声データから非圧縮音声データを得るために行われる伸長処理の概略を示す図である。図１２に示すように、一般的な伸長処理は、ｎ段の部分伸長処理Ｆ_１、Ｆ_２、…、Ｆ_ｎに分解される。ｎは１以上の整数であり、最も処理が簡単で圧縮率が小さい伸長処理ではｎが１の場合もあるが、ある程度圧縮率が高い実用的な伸長処理では、通常はｎは２以上となる。
【００７０】
ところで、図１２に示すような複数の部分伸長処理Ｆ_１、Ｆ_２、…、Ｆ_ｎが直列接続されたモデルを考えると、ｍ＋１段目以降の部分伸長処理の合成処理Ｇが（１）式の関係（（１）式においてＦをＧに置き換えたａ′・ｂ′＝Ｇ（ａ＊ｂ）で示された関係）を満たす場合には、ｍ段目の部分伸長処理によって得られた中間データを合成した後この合成した中間データに対してｍ＋１段目以降の部分伸長処理を行うことで、２つの圧縮音声データのそれぞれについてｎ段の部分伸長処理を行った後の非圧縮音声データを最後に合成した結果と同じ結果が得られる。図１３は、このようにしてｍ段目の部分伸長処理の後に２つの中間データを合成する場合の伸長・合成処理の概略を示す図である。
【００７１】
このようにして伸長処理の途中段階で出力される中間データを合成することができれば、その後段で行われる部分伸長処理を共通化することができるため、伸長処理の簡略化が可能になる。本実施形態では、このような特徴を有する圧縮伸長処理としてＭＰＥＧ１オーディオ方式が採用されており、合成前に逆正規化処理までの第１の部分伸張処理が行われて中間データが生成され、この中間データを用いて合成処理を行った結果に対して周波数逆変換と窓掛け処理からなる第２の部分伸張処理が行われる。
【００７２】
図１４は、第２の実施形態の圧縮データ処理装置に含まれるマルチトラック伸張装置の構成を示す図である。図１４に示すマルチトラック伸張装置２３０は、圧縮音声データ読込み部３１、データ削除処理部３４、伸張処理部１３５、１３６、１３８、合成処理部１３７を備えている。このマルチトラック伸張装置２３０では、図２に示した第１の実施形態のマルチトラック伸張装置３０と同様に、２つの圧縮音声データが読み込まれて合成が行われる。なお、図２に示したマルチトラック伸長装置３０に含まれる構成と基本的に同じ動作を行う構成については同じ符号を付してあり、詳細な説明は省略する。
【００７３】
伸張処理部１３５は、データ削除処理部３４によって部分的な削除処理が行われた後の一方の圧縮音声データに対して、逆正規化処理までの第１の部分伸張処理を行う。同様に、伸張処理部１３６は、データ削除処理部３４によって部分的な削除処理が行われた後の他方の圧縮音声データに対して、逆正規化処理までの第１の部分伸張処理を行う。
【００７４】
合成処理部１３７は、２つの伸張処理部１３５、１３６のそれぞれから出力される中間データを合成する。各中間データの同一帯域データ同士を加算することによりこの合成処理が行われる。
伸張処理部１３８は、合成処理部１３７によって合成された後の中間データに対して、周波数逆変換と窓掛け処理からなる第２の部分伸張処理を行う。この第２の部分伸張処理によって、非圧縮音声データが得られる。上述した伸張処理部１３５、１３６が伸張処理手段に、伸張処理部１３８が第２の伸張処理手段にそれぞれ対応する。
【００７５】
ところで、上述した第１の実施形態と同様に、本実施形態のマルチトラック伸張装置２３０は専用のハードウエアを用いて構成することもできるが、パーソナルコンピュータ等の汎用コンピュータあるいはこれと同等の機能を有する装置を用いて実現することもできる。例えば、図７に示したマルチトラック伸張装置１３０と全く同じ構成を用いてマルチトラック伸張装置２３０を構成することができる。
【００７６】
図１５は、図７に示した構成によって本実施形態のマルチトラック伸張装置２３０を実現した場合の動作手順を示す流れ図であり、ＲＯＭ１３２あるいはＲＡＭ１３３に格納されている圧縮音声データ処理プログラムをＣＰＵ１３１によって実行することにより実施される動作手順が示されている。なお、ステップ２１５までの動作手順は、図８および図９に示したステップ２００〜２１５の動作手順と同じであり、図示および詳細な説明は省略する。
【００７７】
合成対象となっているＡＡＵの全てのサブバンドについて逆正規化処理までの各処理が終了してステップ２１５の判定において否定判断が行われると、次に、ＣＰＵ１３１は、逆正規化処理によって得られた周波数領域の波形データを各サブバンド毎に加算する合成処理を行った後（ステップ５００）、周波数逆変換処理および窓掛け処理を行って時間領域の波形データを生成し（ステップ５０１、５０２）、合成後の非圧縮音声データを出力する（ステップ５０３）。
【００７８】
このように、本実施形態の圧縮データ処理装置では、マルチトラック伸張装置２３０においてＭＰＥＧ１オーディオ形式の２つの圧縮音声データに対して逆正規化処理までの第１の部分伸張処理を別々に行って中間データを得るとともに、これら２つの中間データを合成した後のデータに対して周波数逆変換処理以降の第２の部分伸張処理を行っている。したがって、各圧縮音声データについて別々に第１および第２の伸張処理を行って非圧縮音声データに戻した後のデータを合成する場合に比べて、第２の部分伸張処理の回数を減らすことができるため、さらなる処理負担の軽減および処理の高速化が可能になる。
【００７９】
〔第３の実施形態〕
上述した第１および第２の実施形態では伸張処理後の非圧縮音声データを出力するようにしたが、ボイスチャット装置等では、合成後の非圧縮音声データを再び圧縮して各端末装置に送信する必要があるため、この圧縮処理までを含めた一連の処理を簡略化することが望ましい。
【００８０】
図１６は、第３の実施形態の圧縮データ処理装置としての圧縮音声データ合成装置の構成を示す図である。図１６に示すように、圧縮音声データ合成装置３３０は、圧縮音声データ読込み部３１、データ削除処理部３４、伸長処理部１３５、１３６、合成処理部１３７、圧縮処理部１３９が備わっている。例えば、本実施形態では、２つの圧縮音声データが読み込まれて合成が行われ、この合成後のデータが再び圧縮されて出力される。なお、図１４に示したマルチトラック伸長装置２３０に含まれる構成と基本的に同じ動作を行う構成については同じ符号を付してあり、詳細な説明は省略する。
【００８１】
圧縮処理部１３９は、合成処理部１３７から出力される中間データに対して、伸長処理部１３５、１３６によって行われた部分伸長処理と反対の圧縮処理を行う。合成処理部１３７からは各伸張処理部１３５、１３６によって逆正規化処理された中間データが出力されており、圧縮処理部１３９は、この逆正規化処理と反対の部分的な圧縮処理、すなわち各サブバンド毎の波形データを用いて帯域削除処理および正規化処理を行った後、アロケーション、スケール・ファクタ、サンプルおよびヘッダを作成してＡＡＵを生成する処理を行う。圧縮音声データ合成装置３３０からは、このようにして圧縮処理部１３９によって作成されたＡＡＵが出力される。上述した圧縮処理部１３９が圧縮処理手段に対応する。
【００８２】
ところで、上述した第１および第２の実施形態と同様に、本実施形態の圧縮音声データ合成装置３３０は専用のハードウエアを用いて構成することもできるが、パーソナルコンピュータ等の汎用コンピュータあるいはこれと同等の機能を有する装置を用いて実現することもできる。例えば、図７に示したマルチトラック伸長装置１３０と全く同じ構成を用いて圧縮音声データ合成装置を構成することができる。
【００８３】
図１７は、図７に示した構成によって本実施形態の圧縮音声データ合成装置を実現した場合の動作手順を示す図であり、ＲＯＭ１３２あるいはＲＡＭ１３３に格納されている圧縮音声データ合成プログラムをＣＰＵ１３１によって実行することにより実施される動作手順が示されている。なお、ステップ２１５までの動作手順は、図８および図９に示したステップ２００〜２１５の動作手順と同じであり、図示および詳細な説明は省略する。
【００８４】
合成対象となっているＡＡＵの全てのサブバンドについて逆正規化処理までの各処理が終了してステップ２１５の判定において否定判断が行われると、次に、ＣＰＵ１３１は、逆正規化処理によって得られた周波数領域の波形データを各サブバンド毎に加算する合成処理を行うとともに（ステップ６００）、合成された各サブバンド毎のデータを用いて正規化処理を行った後（ステップ６０１）、アロケーション、スケール・ファクタ、サンプルおよびヘッダ等からなるＡＡＵを作成する処理を行い（ステップ６０２）、この作成されたＡＡＵからなる合成圧縮音声データを出力する（ステップ６０３）。
【００８５】
このように、本実施形態の圧縮音声データ合成装置では、ＭＰＥＧ１オーディオ形式の２つの圧縮データに対して逆正規化処理までの第１の部分伸長処理を別々に行って中間データを得るとともに、それ以後の第２の部分伸長処理を行わずにこれら２つの中間データを合成した結果を圧縮処理している。したがって、その後の伸長処理およびこの伸長処理に対応する圧縮処理を行う手順を省略することができるため、処理負担の軽減および処理の高速化が可能になる。特に、第１の部分伸張処理の前に、データ削除処理部３４によってＡＡＵ内の冗長なサブバンドの成分が削除されるため、第１の部分伸張処理の対象となるデータ量を減らすことができるため、処理負担の軽減および処理の高速化の効果をさらに高めることが可能になる。
【００８６】
上述した本実施形態の圧縮音声データ合成装置３３０については、以下の（４）〜（６）に示した用途が考えられる。
（４）ミキサ装置
入力された複数の圧縮音声データに対して合成処理を行い、合成結果を圧縮データとして出力する従来のミキサ装置では、冗長なサブバンドの成分を含む圧縮音声データに対して一旦伸長処理を行って完全な非圧縮データにした後に合成し、再び圧縮処理を行っている。すなわち、従来のミキサ装置では、冗長なサブバンドの成分が含まれる圧縮音声データの数に対応した完全な伸長処理と、これらの伸長処理によって得られた非圧縮データを合成した後に完全な圧縮処理とを行う必要があり、処理の負担が大きい。このようなミキサ装置に上述した圧縮音声データ合成装置３３０を用いることにより、圧縮データの一部を伸張処理の対象から除外するとともに、伸長処理の一部と圧縮処理の一部を省略することができるため、処理の負担を大幅に軽減することができる。
【００８７】
（５）ボイスチャットサーバ装置
ネットワークを介して接続された複数の利用者が会話を行うボイスチャットサーバ装置では、各利用者の端末から送られてくる圧縮音声データを合成して各利用者の端末に送り返す必要がある。この合成処理を上述した圧縮音声データ合成装置３３０を用いて行うことにより、全てのサブバンドの成分が含まれる圧縮音声データに対して完全に伸長処理を行って非圧縮データを生成した後に合成して再び圧縮する場合に比べて処理の負担を軽減することができる。
【００８８】
（６）電子会議システム
ボイスチャットサーバ装置と同様に、複数箇所の会議室等に設置されたマイクロホンによって集音して生成された圧縮音声データ同士を合成する際に、上述した圧縮音声データ合成装置３３０を用いることができ、各会議室等に圧縮音声データを配信するまでの処理の負担を軽減することができる。
【００８９】
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した第２および第３の実施形態では、伸長処理部１３５、１３６によって所定の伸長処理を行った後の中間データを用いて合成処理を行うようにしたが、例えば差分ＰＣＭ（ＤＰＣＭ）形式の圧縮音声データのように、圧縮音声データそのものを合成することができる場合（伸長処理の全体が（１）式を満たす場合）には、図１４あるいは図１６に示した伸長処理部１３５、１３６を省略して（図１６に示した圧縮音声データ合成装置３３０では圧縮処理部１３９も省略可能）、２つの圧縮音声データを合成処理部１３７に直接入力するようにしてもよい。この場合に、図１４において合成処理部１３７の後段に設けられた伸長処理部１３８は、圧縮音声データに基づいて非圧縮音声データを得る伸長処理を行う。
【００９０】
【発明の効果】
上述したように、本発明によれば、合成によって生じる冗長な部分に対応する圧縮データを削除することにより、この削除された圧縮データに対して行われる伸長処理を省略することができるため、圧縮データに対する伸長処理と合成処理をあわせた全体についての処理負担の軽減およびこれに伴う処理の高速化が可能になる。
【図面の簡単な説明】
【図１】第１の実施形態の圧縮データ処理装置の構成を示す図である。
【図２】マルチトラック伸長装置の詳細構成を示す図である。
【図３】同時マスキングの概要を示す図である。
【図４】テンポラル・マスキングの概要を示す図である。
【図５】ＭＰＥＧ１オーディオ形式の圧縮音声データを非圧縮音声データに戻すまでの一般的な伸長処理の内容を示す流れ図である。
【図６】ＭＰＥＧ１オーディオ形式のフレームフォーマット図である。
【図７】マルチトラック伸長装置の変形例を示す図である。
【図８】図７に示したマルチトラック伸長装置の動作手順を示す流れ図である。
【図９】図７に示したマルチトラック伸長装置の動作手順を示す流れ図である。
【図１０】図８に示したステップ２０６のマスク値決定の詳細な動作手順を示す図である。
【図１１】図８に示したステップ２０７におけるマスクフレーム決定の詳細な動作手順を示す図である。
【図１２】圧縮音声データから非圧縮音声データを得るために行われる伸長処理の概略を示す図である。
【図１３】ｍ段目の部分伸長処理の後に２つの中間データを合成する場合の伸長・合成処理の概略を示す図である。
【図１４】第２の実施形態の圧縮データ処理装置に含まれるマルチトラック伸張装置の構成を示す図である。
【図１５】図７に示した構成によって本実施形態のマルチトラック伸張装置を実現した場合の動作手順を示す流れ図である。
【図１６】第３の実施形態の圧縮データ処理装置としての圧縮音声データ合成装置の構成を示す図である。
【図１７】図７に示した構成によって本実施形態の圧縮音声データ合成装置を実現した場合の動作手順を示す図である。
【符号の説明】
１０　発音指示装置
２０　圧縮音声データ格納装置
３０　マルチトラック伸長装置
３１　圧縮音声データ読込み部
３２、３３　レジスタ
３４　データ削除処理部
３５、３６、１３５、１３６、１３８　伸長処理部
３７、１３７　合成処理部
４０　ＰＣＭ音源
５０　Ｄ／Ａ（デジタル−アナログ）変換器
６０　増幅器
７０　スピーカ
１３０　マルチトラック伸長装置
１３１　ＣＰＵ
１３２　ＲＯＭ
１３３　ＲＡＭ
１３９　圧縮処理部
２３０　マルチトラック伸長装置
３３０　圧縮音声データ合成装置

Claims

合成対象となる複数の圧縮データを取得する圧縮データ取得手段と、
前記圧縮データ取得手段によって取得された複数の圧縮データのそれぞれについて、これらの圧縮データに対して伸張処理を行った後に合成したときに発生する冗長な部分を前記伸張処理を行う前に削除するデータ削除手段と、
前記圧縮データ取得手段によって取得され、前記データ削除手段によって必要に応じて削除処理が行われた後の前記圧縮データに対して前記伸張処理を行う伸張処理手段と、
前記伸張処理手段によって伸張処理が行われた複数のデータを合成する合成手段と、
を備えることを特徴とする圧縮データ処理装置。
請求項１において、
前記圧縮データは、圧縮音声データであり、
前記データ削除手段は、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する前記圧縮データに対して削除処理を行うことを特徴とする圧縮データ処理装置。
請求項２において、
前記データ削除手段は、発生タイミングが一致する複数の音の中から最も音圧レベルが大きな基準音を抽出し、この基準音に対して所定の比率以下の音圧レベルを有する他の音を削除することを特徴とする圧縮データ処理装置。
請求項３において、
前記所定の比率は、１／２であることを特徴とする圧縮データ処理装置。
請求項２において、
前記データ削除手段は、発生タイミングが前後する複数の音の中から最も音圧レベルが大きな基準音を抽出し、この基準音に対して所定の比率以下の音圧レベルを有する他の音を削除することを特徴とする圧縮データ処理装置。
請求項２〜５のいずれかにおいて、
前記圧縮データに対して第１の部分伸張処理を行って得られた中間データに対して第２の部分伸張処理を行うことによりデータの復元が行われ、
前記伸張処理手段によって前記第１の部分伸張処理を行い、前記合成手段によって前記中間データを対象に合成処理を行うことを特徴とする圧縮データ処理装置。
請求項６において、
前記合成手段から出力される中間データに対して前記第２の部分伸張処理を行う第２の伸張処理手段をさらに備えることを特徴とする圧縮データ処理装置。
請求項６において、
前記合成手段から出力される中間データに対して前記第１の部分伸張処理の逆変換となる圧縮処理を行う圧縮処理手段をさらに備えることを特徴とする圧縮データ処理装置。
請求項２〜８のいずれかにおいて、
前記圧縮データは、ＭＰＥＧ１オーディオ形式の圧縮音声データであり、
前記データ削除手段による削除処理は、複数の周波数帯域毎の音声データを対象に行われることを特徴とする圧縮データ処理装置。
請求項２〜８のいずれかにおいて、
前記合成手段よりも前段に設けられており、前記複数の圧縮データのそれぞれに対して所定の乗数を乗算する重み付け処理を行う重み付け処理手段をさらに備え、
前記データ削除手段は、前記複数の圧縮データのそれぞれに対応する前記乗数を考慮して削除処理を行うことを特徴とする圧縮データ処理装置。
請求項１０において、
前記重み付け処理は、音量バランス調整処理であることを特徴とする圧縮データ処理装置。
請求項６〜８のいずれかにおいて、
前記圧縮データは、ＭＰＥＧ１オーディオ形式の圧縮音声データであり、
前記第１の部分伸張処理によって、複数の周波数帯域毎の音声データを復元し、
前記第２の部分伸張処理によって、前記複数の周波数帯域毎の音声データを用いて周波数逆変換を行うことを特徴とする圧縮データ処理装置。
請求項６〜８のいずれかにおいて、
前記第２の部分伸張処理は、処理後のデータ同士の合成と等価な処理前のデータ同士の合成が可能な処理であり、
前記第１の部分伸張処理は、処理後のデータ同士の合成と等価な処理前の同士の合成が不可能な処理であることを特徴とする圧縮データ処理装置。
合成対象となる複数の圧縮データを取得する圧縮データ取得手段と、前記圧縮データ取得手段によって取得された複数の圧縮データのそれぞれについて、これらの圧縮データに対して伸張処理を行った後に合成したときに発生する冗長な部分を前記伸張処理を行う前に削除するデータ削除手段と、前記圧縮データ取得手段によって取得され、前記データ削除手段によって必要に応じて削除処理が行われた後の前記圧縮データに対して前記伸張処理を行う伸張処理手段と、前記伸張処理手段によって伸張処理が行われた複数のデータを合成する合成手段とを備えた圧縮データ処理装置の圧縮データ処理方法であって、
前記圧縮データ取得手段によって複数の圧縮データを取得するステップと、
取得された複数の圧縮データのそれぞれについて、前記データ削除手段によって前記冗長な部分を削除するステップと、
前記冗長な部分が削除された後の前記圧縮データに対して、前記伸張処理手段によって伸張処理を行うステップと、
前記伸張処理が終了した後の複数のデータを用いて前記合成手段による合成処理を行うステップと、
を含む圧縮データ処理方法。
請求項１４において、
前記圧縮データは、圧縮音声データであり、
前記データ削除手段によって前記冗長な部分を削除するステップには、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する前記圧縮データを削除する動作が含まれていることを特徴とする圧縮データ処理方法。
請求項１４において、
前記圧縮データに対して第１の部分伸張処理を行ってから得られた中間データに対して第２の部分伸張処理を行うことによりデータの復元が行われ、
前記伸張処理手段によって前記圧縮データに対して伸張処理を行うステップには前記第１の伸張処理を行う動作が含まれており、
前記合成手段によって合成処理を行うステップには前記中間データを対象にしてこの合成処理を行う動作が含まれていることを特徴とする圧縮データ処理方法。
請求項１６において、
前記圧縮データ処理装置は、前記第２の伸張処理を行う第２の伸張処理手段を有しており、
前記合成手段から出力される前記中間データに対して前記第２の部分伸張処理手段によって前記第２の部分伸張処理を行うステップをさらに含むことを特徴とする圧縮データ処理方法。
請求項１６において、
前記圧縮データ処理装置は、前記第１の部分伸張処理の逆変換となる圧縮処理を行う圧縮処理手段を有しており、
前記合成手段から出力される前記中間データに対して前記圧縮処理手段によって前記圧縮処理を行うステップをさらに含むことを特徴とする圧縮データ処理方法。
複数の圧縮データを合成するためにコンピュータを、
合成対象となる前記複数の圧縮データを取得する圧縮データ取得手段と、
前記圧縮データ取得手段によって取得された複数の圧縮データのそれぞれについて、これらの圧縮データに対して伸張処理を行った後に合成したときに発生する冗長な部分を前記伸張処理を行う前に削除するデータ削除手段と、
前記圧縮データ取得手段によって取得され、前記データ削除手段によって必要に応じて削除処理が行われた後の前記圧縮データに対して前記伸張処理を行う伸張処理手段と、
前記伸張処理手段によって伸張処理が行われた複数のデータを合成する合成手段と、
して機能させるための圧縮データ処理プログラム。
請求項１９において、
前記圧縮データは、圧縮音声データであり、
前記コンピュータを、聴覚のマスキング特性を利用して、合成後に聞き取りにくくなる音に対応する前記圧縮データに対して削除処理を行う前記データ削除手段として機能させるための圧縮データ処理プログラム。
請求項１９において、
前記圧縮データに対して第１の部分伸長処理を行ってから得られた中間データに対して第２の部分伸長処理を行うことによりデータの復元が行われており、
前記コンピュータを、前記第１の部分伸長処理を行う前記伸長処理手段と、前記中間データを対象に合成処理を行う前記合成手段として機能させるための圧縮データ処理プログラム。
請求項２１において、
前記コンピュータを、前記合成手段から出力される中間データに対して前記第２の部分伸長処理を行う第２の伸長処理手段として機能させるための圧縮データ処理プログラム。
請求項２１において、
前記コンピュータを、前記合成手段から出力される中間データに対して前記第１の部分伸長処理の逆変換となる圧縮処理を行う圧縮処理手段として機能させるための圧縮データ処理プログラム。