JP2003257125A

JP2003257125A - 音再生方法および音再生装置

Info

Publication number: JP2003257125A
Application number: JP2002059570A
Authority: JP
Inventors: Yoshiteru Uchiyama; 喜照内山
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-03-05
Filing date: 2002-03-05
Publication date: 2003-09-12

Abstract

(57)【要約】【課題】複数の音源データを１つのＣＰＵで効率よく混
合して再生する。【解決手段】音源データとして、圧縮・符号化された音
声データ１１と音楽データ１２をメモリ１上に保持し、
このメモリ１上に保持された音声データ１１と音楽デー
タ１２を１つのＣＰＵ２に入力する。このＣＰＵ２は音
声データ１１をデコード処理する音声デコーダ２１と音
楽データ１２をデコード処理する音楽デコーダ２２を有
するとともに、それぞれのデコード処理された音声デー
タと音楽データを混合する混合処理部２５を有する。ま
た、たとえば、音楽をユーザに出力している最中に音声
メッセージをユーザに伝えるような場合は、デコード処
理後の音楽データの音量を下げて、小さいな音量で音楽
を出力しながらユーザの聞き取りやすい適正な音量で音
声データを出力するようなゲイン制御を行う音声ゲイン
制御部２３と音楽ゲイン制御部２４を設ける。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、少なくとも２つの
音情報を混合して再生可能な音再生方法および音再生装
置に関する。

【０００２】

【従来の技術】たとえば、音楽に音声を重畳させて再生
するというように複数の音源データを混合して再生可能
な機器が種々の分野で利用されている。これは、たとえ
ば、音楽の再生中にその音楽を聴いているユーザに対し
て、音声によるメッセージを伝えることができるもので
あり、音楽を発生する音源と音声を発生する音源をそれ
ぞれ別個に持ち、それぞれの音源からの音源データを混
合させて出力させるようにしているのが一般的である。

【０００３】このような技術の従来例としては、たとえ
ば、特開平５−１０１５３６号公報に記載の技術（以
下、第１の従来技術という）や、特開平９−２７１６９
号公報に記載の技術（以下、第２の従来技術という）な
どがある。

【０００４】

【発明が解決しようとする課題】上述した第１の従来技
術は、ラジオやカセットテープ再生装置などからの音楽
アナログ信号と音声合成ＬＳＩから出力される音声アナ
ログ信号とを混合して再生するもので、ラジオやカセッ
トテープ再生装置などから音楽を再生している最中に、
その音楽に音声を混合させて出力させる際、その音声の
出力期間中は、ラジオやカセットテープ再生装置などか
ら出力される音楽アナログ信号を減衰させるようにし
て、音声を聞き取りやすくするというものである。

【０００５】しかし、この第１の従来技術を実現するた
めのシステム構成としては、音源発生手段として、音楽
アナログ信号を発生するための音源発生手段（ラジオや
カセットテープ再生装置）と、音声アナログ信号を発生
するための音源発生手段（音声合成ＬＳＩ）をそれぞれ
別個に用意し、さらに、これらそれぞれの音源発生手段
から出力されるアナログ信号を混合させるための混合手
段、音量を制御するための音量制御手段などの構成要素
をそれぞれ別個に用意することで１つのシステムを実現
している。

【０００６】また、第２の従来技術は、音声データと音
楽データをＣＤ（コンパクトディスク）などの記録媒体
に別フレームで記録し、それをデータ読み出し制御部が
それぞれのデータを読み出して、マイコンによってメモ
リ上に一時的に記憶させたのちに、両者を混合させて出
力させるようにしている。

【０００７】この第２の従来技術も、それを実現するた
めには、音声データや音楽データなどの音源データを発
生する音源発生手段（ＣＤなど）を必要とし、しかも、
その音源発生手段から音声データや音楽データを所定の
タイミングで読み出すためのデータ読み出し制御手段
や、読み出された音源データを処理するマイコンなどを
それぞれ個別に用意することで１つのシステムを実現し
ている。

【０００８】また、この第２の従来技術は、ＣＤなどに
記録された音声データや音楽データを音源データとして
用いているが、一般に、ＣＤなどの記録媒体に記録され
たデータ量はきわめて多いのが普通であり、たとえ、無
音削除処理などの圧縮はなされていても、それを格納す
るためには大きなメモリ容量が必要であるという問題も
ある。

【０００９】そこで本発明は、圧縮・符号化された少な
くとも２つの音源データをメモリ上に保持し、そのメモ
リ上に保持された少なくとも２つの音源データを１つの
演算処理手段（ＣＰＵ）上においてソフトウエアでの演
算処理によるデコード処理および混合・再生処理を可能
とすることで、簡単なハードウエアで複数の音源データ
の混合再生を実現することができる音再生方法および音
再生装置を提供することを目的としている。

【００１０】

【課題を解決するための手段】上述の目的を達成するた
めに、本発明の音再生方法は、２つ以上の音源データを
混合させて再生可能な音再生方法において、前記２つ以
上の音源データが圧縮・符号化された状態でメモリに保
持され、これらそれぞれの音源データを混合して出力す
る際は、前記メモリ上に保持されたそれぞれの音源デー
タを演算処理装置に入力して、この演算処理装置では、
この演算処理装置に組み込まれたソフトウエアによって
それぞれの音源データをデコード処理し、そのデコード
処理されたそれぞれの音源データを所定の混合比率で混
合して出力するようにしている。

【００１１】このような音再生方法において、前記それ
ぞれの音源データのうち、少なくとも１つの音源データ
に対するデコード処理は、そのデコード処理を行う際の
演算精度が複数段階で設定され、その複数段階の演算精
度のいずれかを選択可能とし、その演算精度の選択が可
能とされた音源データに対しては、その音源データと他
の音源データとの混合比率に応じて、その音源データに
おけるデコード処理の演算精度を選択可能としている。

【００１２】この音再生方法において、前記混合比率
は、ある１つの音源データのみを出力させる混合比率を
含むようにしている。

【００１３】この音再生方法において、前記複数の音源
データを混合する際、デコード処理後の混合すべき音声
データのうち、ユーザに対し主に伝達すべき音源データ
以外の音源データの音量を当該ユーザが可聴な範囲で小
さくするようなゲイン制御を可能としている。

【００１４】また、本発明の音再生装置は、２つ以上の
音源データを混合させて再生可能な音再生装置におい
て、２つ以上の圧縮・符号化された音源データを保持す
るメモリと、このメモリ上に保持されたそれぞれの音源
データをデコード処理するそれぞれのデコード処理部お
よびこれらデコード処理された音源データを混合する音
源データ混合処理部を有し、この音源データのデコード
処理およびそのデコード処理されたそれぞれの音源デー
タを所定の混合比率で混合する処理をソフトウエアによ
る演算によって行う演算処理手段とを有する構成として
いる。

【００１５】このような音再生装置において、前記それ
ぞれの音源データをデコード処理するそれぞれのデコー
ド処理部のうち、少なくとも１つの音源データに対する
デコード処理部は、そのデコード処理を行う際の演算精
度が複数段階で設定され、その複数段階の演算精度のい
ずれかを選択可能とし、その演算精度の選択が可能とさ
れた音源データに対しては、その音源データと他の音源
データとの混合比率に応じて、その音源データにおける
デコード処理の演算精度を選択可能としている。

【００１６】この音再生装置において、前記混合比率
は、ある１つの音源データのみを出力させる混合比率を
含むようにしている。

【００１７】この音再生装置において、前記複数の音源
データを混合する際、デコード処理後の混合すべき音声
データのうちユーザに対し主に伝達すべき音源データ以
外の音源データの音量を当該ユーザが可聴な範囲で小さ
くするようなゲイン制御を可能としている。

【００１８】このように本発明は、２つ以上の圧縮・符
号化された音源データをメモリ上に保持し、これら２つ
以上の音源データを１つの演算処理装置（ＣＰＵ）でデ
コード処理し、そのデコード処理されたそれぞれの音源
データを混合して出力するようにしている。これによっ
て、本発明を実現するに必要な主な構成要素としては、
メモリと１つのＣＰＵで済み、ハードウエアを簡素化す
ることができ、また、メモリ上に保持される音源データ
は圧縮・符号化された音源データであるので、小容量の
メモリで対応することができるとともに、メモリを有効
利用することができる。

【００１９】また、それぞれの音源データのうち、少な
くとも１つの音源データに対するデコード処理は、その
デコード処理を行う際の演算精度を複数段階に設定し、
その複数段階のいずれかの演算精度を選択可能とし、他
の音源データとの混合比率に応じていずれかの演算精度
を選択可能としている。

【００２０】これによって、ある特定の音源データにつ
いては、他の音源データとの混合比率に応じた演算精度
でデコード処理をすることができるので、場合によって
は演算精度を落としたデコード処理も可能となり、デコ
ード処理に要する演算量を極力抑えることができ、演算
処理手段（ＣＰＵ）の演算負荷を小さくすることができ
る。それによって、処理能力の小さなＣＰＵでも対応す
ることができ安価なシステムへの適用が可能となる。

【００２１】また、混合比率は、ある１つの音源データ
のみを１００％とする混合比率を含んでいる。これは、
ある１つの音源データを単独で出力可能とするもので、
これを上述の混合比率に応じた演算精度でデコード処理
することと組み合わせることによって、たとえば、ある
１つの音源データを単独で出力させるような場合は、演
算精度の高いデコード処理を行い、逆に、他の音源デー
タと混合させる場合は、演算精度を落としたデコード処
理を行うということが可能となる。

【００２２】これによって、ある１つの音源データを単
独で出力させるような場合は、音質に優れた音再生を行
うことができ、他の音源データと混合させる場合は、演
算量を削減したデコード処理が可能となり、その時の状
況に応じた効率的なデコード処理が可能となる。

【００２３】また、複数の音源データを混合する際は、
デコード処理後の混合すべき音声データのうち、ユーザ
に対して、主に伝達すべき音源データ以外の音源データ
の音量を当該ユーザが可聴な範囲で小さくするようなゲ
イン制御を行うようにしている。これにより、たとえ
ば、音楽の再生中に、その音楽を聴いているユーザに音
声メッセージを出力するような場合、その音楽を中断さ
せることなく音声メッセージを適切な音量で出力するこ
とができるので、音楽が途中で途切れるといった不自然
さをなくすことができる。

【００２４】本発明は以上のような特徴を有するので、
たとえば、携帯ＭＰ３（Mpeg audiolayer3）プレーヤな
どで、音楽を再生中に、ユーザに電池残量を音声メッセ
ージとして伝えるような場合や、時刻を音声によって報
知可能な時計などでバックグラウンドミュージックに乗
せて現在時刻を知らせるような場合、さらに、カーナビ
ゲーションシステムにおいてハードディスクに録音した
音楽を再生しながら道案内の音声メッセージを出力する
ような場合など、幅広い分野で使用することができる。

【００２５】また、本発明が行う圧縮・符号化された音
源データのデコード処理、ゲイン制御処理、混合処理な
どは、１つの演算処理手段（ＣＰＵ）内においてソフト
ウエアで実現されるので、本発明はこれらデコード処
理、ゲイン制御、混合処理などを実現するための構成要
素を個々に持つ必要がなく、音再生装置としてのハード
ウエアを簡素化することができる。

【００２６】

【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、本発明を第１の実施の形態と第２の
実施の形態に分けて説明する。

【００２７】〔第１の実施の形態〕図１は本発明の第１
の実施の形態に係る音再生装置の全体的な構成を示す図
であり、少なくとも２つ以上の圧縮・符号化された音源
データを保持するメモリ１、このメモリ１に保持された
それぞれの音源データをデコード処理してゲイン制御を
行ったのちに混合する演算処理手段（ＣＰＵという）
２、このＣＰＵ２から出力される音源データをディジタ
ル／アナログ変換するＤ／Ａ変換部３、Ｄ／Ａ変換され
た音を出力するスピーカ４を有した構成となっている。

【００２８】図２は図１で示した音再生装置のメモリ１
が保持するデータ内容とＣＰＵ２の処理機能について具
体的に説明する図である。この第１の実施の形態では、
メモリ１に格納される少なくとも２つの音源データは、
音声データ１１と音楽データ１２であるとし、音声デー
タ１１はたとえばADPCMやCELPなどの符号化アルゴリズ
ムを用いて圧縮・符号化された音声データであり、ま
た、音楽データ１２はMP3やAACなどの符号化アルゴリズ
ムを用いて圧縮・符号化された音楽データである。

【００２９】また、ＣＰＵ２はこの発明を実現するため
に必要な演算処理手段であり、圧縮・符号化された音声
データ１１を通常のPCMの音声データに復元する音声デ
ータ用デコーダ（以下、音声デコーダという）２１、圧
縮・符号化された音楽データ１２を通常のPCMの音楽デ
ータに復元する音楽データ用デコーダ（以下、音楽デコ
ーダという）２２、音声デコーダ２１によりデコード処
理された音声データのゲイン制御を行うことでその音量
を制御する音声データ用ゲイン制御処理部（音声ゲイン
制御部という）２３、音楽デコーダ２２によりデコード
処理された音楽データのゲイン制御を行うことでその音
量を制御する音楽データゲイン制御処理部（音楽ゲイン
制御部という）２４、これらゲイン制御された音声デー
タと音楽データを混合させる混合処理部２５、出力音量
を制御する出力音量制御部２６を有している。

【００３０】このように、本発明はメモリ１に格納され
た少なくとも２つの圧縮・符号化された音源データ（こ
の実施の形態では、音声データ１１と音楽データ１２の
２種類の音源データとしている）を、１つのＣＰＵ２で
デコード処理するとともに、際の混合比率（音量の比率
であるとする）を決めるためのゲイン制御を行って混合
させたのちに、出力音量を決定して出力するようにして
いる。

【００３１】なお、圧縮・符号化された音源データ（音
声データ１１と音楽データ１２）のデコード処理、ゲイ
ン制御処理、混合処理、さらには、出力音量制御処理な
どは、すべてＣＰＵ２内においてソフトウエアで実現さ
れるものである。以下に、このＣＰＵ２が行う処理につ
いて詳細に説明する。

【００３２】まず、メモリ１に格納されている圧縮・符
号化された音声データ１１は、ＣＰＵ２によって読み出
されて音声デコーダ２１でデコード処理されＰＣＭの音
声データとして出力され、また、圧縮・符号化された音
楽データ１２は、音楽デコーダ２２でデコード処理され
ＰＣＭの音楽データとして出力される。

【００３３】なお、これら音声デコーダ２１と音楽デコ
ーダ２２におけるデコード処理は、音声データ１１と音
楽データ１２に対して、それぞれフレーム単位で行うの
が一般的である。このフレームの長さは符号化する際の
符号化方式によって決まっている。

【００３４】ここで、メモリ１に格納されている圧縮・
符号化された音声データ１１のフレーム長をＬとし、圧
縮・符号化された音楽データ１２のフレーム長をＮとし
たとき、仮にＬ＝Ｎであれば、音声デコーダ２１による
デコード処理と音楽デコーダ２２によるデコード処理を
交互に行って、デコード処理後の音声データとデコード
処理後の音楽データのそれぞれのフレームごとに混合
（それぞれゲイン制御を行ったのちに混合）して行けば
よいが、音声データ１１と音楽データ１２ではそのフレ
ーム長が異なる（Ｌ≠Ｎ）のが一般的である。

【００３５】このように、音声データ１１のフレーム長
Ｌと音楽データ１２のフレーム長Ｎが異なる場合の混合
処理について図３を参照しながら以下に説明する。

【００３６】図３（ａ）は、メモリ１上に格納されてい
る圧縮・符号化された音声データ１１を示すもので、フ
レーム長Ｌごとの音声データをＶ１，Ｖ２，Ｖ３，・・
・で表せば、これら各フレーム長Ｌごとの音声データＶ
１，Ｖ２，Ｖ３，・・・が時間軸上に沿って記録されて
いる。

【００３７】また、同様に、図３（ｂ）は、メモリ１上
に格納されている圧縮・符号化された音楽データ１２で
あり、フレーム長Ｎ（この場合、Ｌ＜Ｎ）ごとの音楽デ
ータをＭ１，Ｍ２，Ｍ３，・・・で表せば、これら各フ
レーム長Ｎごとの音楽データＭ１，Ｍ２，Ｍ３，・・・
がそれぞれの時間軸上に沿って記録されている。

【００３８】メモリ１上にこのように格納された音声デ
ータ１１（各フレーム長Ｌごとの音声データＶ１，Ｖ
２，Ｖ３，・・・）と音楽データ１２（各フレーム長Ｎ
ごとの音楽データＭ１，Ｍ２，Ｍ３，・・・）は、ＣＰ
Ｕ２によって読み出され、音声データ１１は各フレーム
長Ｌごとの音声データＶ１，Ｖ２，Ｖ３，・・・単位で
音声デコーダ２１によってデコード処理され、音楽デー
タ１２は各フレーム長Ｎごとの音楽データＭ１，Ｍ２，
Ｍ３，・・・単位で音楽デコーダ２２によってデコード
処理される。

【００３９】なお、ここでは、１つのＣＰＵ２によって
デコード処理を行うので、音声データＶ１，Ｖ２，Ｖ
３，・・・と音楽データＭ１，Ｍ２，Ｍ３，・・・とを
それぞれのフレームごとに交互にデコード処理するよう
にしている。

【００４０】このとき、音声データ１１と音楽データ１
２のどちらを先にデコード処理するかは自由であるが、
ここでは、音声データ１１を先に行うものとする。した
がって、始めに音声データ１１における第１フレームの
音声データＶ１をデコード処理し、続いて音楽データ１
１における第１フレームの音楽データＭ１をデコード処
理し、これらデコード処理された音声データ（これをＶ
１’で表す）とデコード処理された音楽データ（これを
Ｍ１’で表す）とを混合する。

【００４１】このとき、デコード処理後の音声データと
音楽データのそれぞれのゲインを制御し、たとえば、音
楽を再生中にユーザに対して音声で何かを伝えたい場合
は、音声を聞き取りやすくするために、音楽データの音
量を小さくして、その分、音声データの音量を大きくす
るようなゲイン制御処理を音声ゲイン制御部２３と音楽
ゲイン制御部２４によって行うが、ここでは、その説明
を省略し、混合出力を得る処理についてのみをこの図３
によって説明する。なお、このゲイン制御についての具
体例についてはのちに説明する。

【００４２】上述のように、まず、第１フレームの音声
データＶ１をデコード処理し、デコード処理された音声
データＶ１’（図３(c)参照）を得たのち、続いて、第
１フレームの音楽データＭ１をデコード処理し、デコー
ド処理された音楽データＭ１’（図３(d)参照）を得
て、これらデコード処理された音声データＶ１’と音楽
データＭ１’を混合処理する。

【００４３】この混合処理は、音声データＶ１’のフレ
ーム長Ｌと音楽データＭ１’のフレーム長Ｎが異なり、
この場合、Ｌ＜Ｎであるので、音声データＶ１’と音楽
データＭ１’の混合処理は、図３（ｅ）に示すように、
音楽データＭ１’に対してはそのフレームの始点（ｐ０
とする）から音声データＶ１’のフレーム長Ｌに対応し
た分だけの長さ（ｐ０からｐ１までの区間）の区間で行
われ、その混合出力Ｓ１を得る。この混合処理によっ
て、音楽データＭ１’はα１だけ余ることになる。

【００４４】そして次に、第２フレームの音声データＶ
２についてデコード処理を行い、デコード処理された音
声データＶ２’（図３(c)参照）を得たのち、第２フレ
ームの音楽データＭ２についてデコード処理を行い、デ
コード処理された音楽データＭ２’（図３(d)参照）を
得るが、ここでの混合処理は、音声データＶ２’と、そ
のフレーム長Ｌに対応する音楽データに対して行われ
る。つまり、この場合、音楽データＭ２’に対しては、
デコード処理された音楽データＭ１’におけるｐ１を始
点にフレーム長Ｌに対応した分だけの長さ（ｐ１からｐ
２までの区間）の区間で混合処理が行われ、その混合出
力Ｓ２が図３（ｅ）のように出力される。この混合処理
によって、音楽データＶ２’はα２だけ余ることにな
る。

【００４５】そして次に、第３フレームの音声データＶ
３についてデコード処理を行い、デコード処理された音
声データＶ３’（図３(c)参照）を得たのち、第３フレ
ームの音楽データＭ３についてデコード処理を行い、デ
コード処理された音楽データＭ３’（図３(d)参照）を
得るが、ここでの混合処理は、音声データＶ３’と、そ
のフレーム長Ｌに対応する音楽データに対して行われ
る。つまり、この場合、音楽データに対しては、デコー
ド処理された音楽データＭ２’におけるｐ２を始点にフ
レーム長Ｌに対応した分だけの長さ（ｐ２からｐ３まで
の区間）の区間で混合処理が行われ、その混合出力Ｓ３
が図３（ｅ）のように出力される。この混合処理によっ
て、音楽データＶ３’はα３だけ余ることになる。

【００４６】そして次に、第４フレームの音声データＶ
４についてデコード処理を行い、デコード処理された音
声データＶ４’（図３(c)参照）を得たのち、第４フレ
ームの音楽データＭ４についてデコード処理を行い、デ
コード処理された音楽データＭ４’（図３(d)参照）を
得るが、ここでの混合処理は、音声データＶ４’と、そ
のフレーム長Ｌに対応する音楽データに対して行われ
る。つまり、この場合、音楽データに対しては、デコー
ド処理された音楽データＭ３’におけるｐ３を始点にフ
レーム長Ｌに対応した分だけの長さ（ｐ３からｐ４まで
の区間）の区間で混合処理が行われ、その混合出力Ｓ４
が図３（ｅ）のように出力される。この混合処理によっ
て、音楽データＶ４’はα４だけ余ることになる。

【００４７】そして次に、第５フレームの音声データＶ
５についてデコード処理を行い、デコード処理された音
声データＶ５’（図３(c)参照）を得るが、そのデコー
ド処理された音声データＶ５’のフレーム長Ｌに対応可
能な長さの音楽データがすでに音楽データＭ４’として
得られている。

【００４８】つまり、前回の混合処理による音楽データ
Ｖ４’の余りα４は、この図３からもわかるように、音
声データＶ５’のフレーム長Ｌよりも長いので、この場
合は、音楽データＭ５のデコード処理を行う前に、その
時点でデコード処理された音声データＶ５’とすでにデ
コード処理されている音楽データＭ４’のｐ４からｐ５
の区間を用いて混合処理することができ、それによっ
て、混合出力Ｓ５が図３（ｅ）のように出力される。こ
のとき、音楽データＶ４’はさらにα５だけ余ることに
なる。

【００４９】そして次に、第６フレームの音声データＶ
６についてデコード処理を行い、デコード処理された音
声データＶ６’（図３(c)参照）を得て、続いて、第５
フレームの音楽データＭ５のデコード処理を行うことに
よって、デコード処理された音楽データＭ５’（図３
(d)参照）を得て、これまで説明したような混合処理を
行い、以降、上述した処理を繰り返す。

【００５０】図４は以上説明した音声データ１１（各フ
レーム長Ｌごとの音声データＶ１，Ｖ２，・・・）と音
楽データ１２（各フレーム長Ｎごとの音楽データＭ１，
Ｍ２，・・・）のデコード処理順序１，２，３，・・・
と、それによって得られたデコード処理後の各フレーム
対応の音声データＶ１’，Ｖ２’，Ｖ３’，・・・お
よび各フレーム対応の音楽データＭ１’，Ｍ２’，Ｍ
３’，・・・と、その混合出力Ｓ１，Ｓ２，Ｓ３，・・
・の関係を示す図である。

【００５１】まず、デコード処理順序１では、デコード
処理された第１フレームの音声データＶ１’を得て、デ
コード処理順序２では、デコード処理された第１フレー
ムの音楽データＭ１’を得る。そして、その第１フレー
ムの音楽データＭ１’を得たところで、両者を混合して
混合出力Ｓ１を出力する。

【００５２】続いて、デコード処理順序３では、デコー
ド処理された第２フレームの音声データＶ２’を得て、
デコード処理順序４では、デコード処理された第２フレ
ームの音楽データＭ２’を得る。そして、その第２フレ
ームの音楽データＭ２’を得たところで、両者を混合し
て混合出力Ｓ２を出力する。このような処理を、デコー
ド処理順序５，６，７，８と繰り返す。

【００５３】そして、デコード処理順序８において、混
合出力Ｓ４を出力したあと、デコード処理順序９として
デコード処理された第５フレームの音声データＶ５’を
得るが、この時点では、図３で説明したように、前回
（デコード処理順序８）の混合処理による音楽データＭ
４’の余りα４が、音声データＶ５’のフレーム長Ｌよ
りも長いので、この場合は、その時点でデコード処理さ
れた音声データＶ５’と、すでにデコード処理されてい
る音楽データＭ４’を用いた混合処理がなされ、混合出
力Ｓ５が出力される。

【００５４】そのあとのデコード処理順序１０として
は、デコード処理された音声データＶ６’を得たのち、
デコード処理順序１１において、デコード処理された音
声データＶ６’を得て、それらによって混合出力Ｓ６を
得るというような処理を繰り返す。

【００５５】以上のような処理を行うことで、フレーム
長の異なる２つの圧縮・符号化された音源データ（この
実施の形態では音声データ１１と音楽データ１２）を１
つのＣＰＵ２によってデコード処理と混合処理を行うこ
とができる。

【００５６】ところで、前述したＣＰＵ２の処理におい
て、音声データ１１と音楽データ１２をそれぞれデコー
ド処理したのち、これらデコード処理された音声データ
と音楽データを、音声ゲイン制御部２３および音楽ゲイ
ン制御部２４でゲインの混合比率（音量比率）を制御す
ることも可能である。たとえば、前述したように、音声
メッセージをユーザに伝えるような場合は、音声データ
を適切な音量となるようなゲイン制御して、音楽データ
の音量を可聴な範囲で小さくするといった制御を行う。
これによって、音楽は小さい音量でバックグラウンド的
に出力したまま、ユーザに伝えたい音声メッセージなど
はユーザが聞き取りやすい適切な音量で出力させること
ができる。

【００５７】〔第２の実施の形態〕この第２の実施の形
態は、ＣＰＵ２で行うデコード処理をより効率よく、よ
り少ない演算量で行おうとするもので、この第２の実施
の形態も第１の実施の形態と同様、メモリ１に格納され
ている音源データとしては、圧縮・符号化された音声デ
ータ１１と、圧縮・符号化された音楽データ１２である
とする。

【００５８】図５は本発明の第２の実施の形態に係る音
再生装置の構成図であり、図２で示した構成図に対応す
るもので、図２の構成に対して、音楽データ１２をデコ
ード処理する音楽デコーダ２２が２つ存在している（こ
の図５では、第１の音楽デコーダ２２１と第２の音楽デ
コーダ２２２とする）点と、これら第１および第２の音
楽デコーダ２２１，２２２を選択するデコーダ選択部２
７が存在する点が異なり、その他は図２と同じであるの
で、図２と同じ構成要素には図２と同じ符号が付されて
いる。

【００５９】第１の音楽デコーダ２２１は、通常の演算
精度によってデコード処理を行うデコーダであって、圧
縮・符号化された音楽データ１２を音楽として聴くに十
分な音質を得ることができる程度のデコード処理を行う
ものである。一方、第２の音楽デコーダ２２２は、第１
の音楽デコーダ２２１よりも演算精度をある程度落とす
ことで、少ない演算量で音楽データ１２のデコード処理
を行うものであり、音質的には多少の劣化が生じる。

【００６０】デコーダ選択部２７は、音声データ１１と
音楽データ１２との混合比率（音量比率）に応じて、第
１および第２の音楽デコーダ２２１，２２２のいずれか
を選択するもので、具体的には、たとえば、メモリ１か
ら音楽データ１２のみを読み出して、読み出された音楽
データ１２をデコード処理して出力する場合、つまり、
音楽データの混合比率が１００％の場合には、第１の音
楽デコーダ２２１を選択する。また、音楽に乗せて音声
メッセージを出力する場合のように、音楽データ１２の
音量を小さくして音声データ１１の音量を大きくする場
合には、第２の音楽デコーダ２２２を選択する。

【００６１】これは、デコーダ選択部２７が、音楽デー
タ１２のみをデコード処理して再生するモード（音楽再
生モードという）であるか、音楽データ１２と音声デー
タ１１とを混合して再生するモード（混合再生モードと
いう）であるかを検出して、音楽再生モードであるとき
は、第１の音楽デコーダ２２１を選択し、混合再生モー
ドであるときは第２の音楽デコーダ２２２を選択する機
能を持つことで実現できる。

【００６２】また、第１および第２の音楽デコーダ２２
１，２２２は、この図５では、便宜上、２つの独立した
ブロックとして描かれているが、実際のデコード処理に
必要な演算は、それぞれのデコーダにおいて共通してい
る部分も多く、プログラムコードなどの資源の多くは共
用することができる。

【００６３】このような構成においてその動作を説明す
る。まず、音楽再生モードである場合は、デコーダ選択
部２７は第１の音楽デコーダ２２１を選択した状態にあ
る。この音楽再生モードは、ここでは、メモリ１から音
楽データ１２のみが読み出されて、音楽データのみを再
生して出力する場合である。

【００６４】このような音楽再生モードにおいては、そ
の音楽データ１２のデコード処理は、高い演算精度によ
るデコード処理が可能な第１の音楽デコーダ２２１を用
いて行われるので、高品質な音再生がなされる。また、
そのときの音楽ゲイン制御部２４におけるゲイン制御
は、この場合、音声データ１１の再生は行わないので、
全体の混合比率を１００％（これを１で表す）とすれ
ば、音楽ゲイン制御部２４と音声ゲイン制御部２３にお
ける音楽データ１２と音声データ１１の混合比率は１：
０となり、それによって音楽データ１２のみが最適な音
量に制御されて再生される。

【００６５】一方、音楽データ１２の再生中に音声メッ
セージなどをその音楽データ１２に混合させて出力する
場合について、図６を参照しながら説明する。なお、こ
の図６は、時間ｔの変化に対するデコード処理後の音楽
データとデコード処理後の音声データに対するゲインの
制御と、第１および第２の音楽デコーダ２２１，２２２
の選択制御を説明するもので、デコード処理後の音楽デ
ータ（このデコード処理後の音楽データに１２’の符号
を付す）のゲインの変化を細い実線で示し、デコード処
理後の音声データ（このデコード処理後の音声データに
１１’の符号を付す）のゲインの変化を太い実線で示し
ている。

【００６６】今、音楽データ１２を第１の音楽デコーダ
２２１によってデコード処理して再生している最中に、
ある時刻ｔ０において、音声データ１１の混合を指示す
る信号が出されたとする。

【００６７】これによって、デコード処理後の音楽デー
タ１２’と音声データ１１をデコード処理して得られた
デコード処理後の音声データ１１’のゲインの比率を制
御、つまり、デコード処理後の音楽データ１２’の音量
を小さくして、デコード処理後の音声データ１１’の音
量を大きくするようなゲイン制御を行うが、デコード処
理後の音楽データ１２’の音量を急激に小さくすると、
それを聴いているユーザにとっては不快なものとなるた
め、徐々に音量が小さくなるようなゲイン制御を行う。

【００６８】すなわち、図６に示すように、時刻ｔ０ま
では音楽ゲイン制御部２３と音声ゲイン制御部２４のゲ
インの比率は１：０、つまり、デコード処理後の音楽デ
ータ１２’が１００％の音量で出力されるようなゲイン
制御となっており、それによって、音楽はある最適な音
量で出力されている。この状態で、時刻ｔ０からデコー
ド処理後の音楽データ１２’のゲインを徐々に下げて行
く。そして、時刻ｔ１において、デコード処理後の音声
データ１１’には、デコード処理後の音楽データ１２’
よりも大きなゲインｒを与え（０＜ｒ＜１）、デコード
処理後の音楽データ１２’には１−ｒのゲインを与え
る。

【００６９】つまり、デコード処理後の音声データ１
１’は、全体のゲイン（１００％＝１）の範囲内におい
て、デコード処理後の音楽データ１２’のゲインよりも
大きな値ｒを有するゲインが与えられる。これに対し
て、デコード処理後の音楽データ１２’には、全体のゲ
インからｒを差し引いた１−ｒのゲインが与えられる。
具体的に言えば、デコード処理後の音声データ１１’に
対しては、たとえば８０％、デコード処理後の音楽デー
タ１２’に対しては、たとえば２０％を割り当てるとい
うことであり、これによって、音楽を小さい音量で出力
しながら音声メッセージなどを大きな音量で出力させる
ことができる。

【００７０】なお、上述したように、ｒは１（１００
％）未満であるので、音声出力中にも音楽を小さな音量
で継続して出力することができ、音声出力中に音楽が途
切れるといった不自然さをなくすことができる。

【００７１】なお、このデコード処理後の音声データ１
１’のゲインｒは、ユーザに伝えるべき音声がそのユー
ザにとって明瞭に聞き取れるような適切な音量となるよ
うな値で、かつ、このデコード処理後の音声データ１
１’のゲインｒで決まる１−ｒのゲインによって再生さ
れる音楽が、音声の妨げとならないような音量となるよ
うに設定することが望ましい。

【００７２】このように、時刻ｔ１以降はデコード処理
後の音楽データ１２’にデコード処理後の音声データ１
１’を混合させ、しかも、デコード処理後の音楽データ
１２’の音量を可聴な範囲で下げて、デコード処理後の
音声データ１１’を適切な音量で出力させる状態とな
る。

【００７３】そして、時刻ｔ２で音声データ１１の終了
の指示が出されると、今度は、デコード処理後の音楽デ
ータ１２’のゲインの比率を徐々に上げる制御を行い、
時刻ｔ３でもとの１００％の状態に戻る。

【００７４】ところで、この図６で説明した処理におい
て、時刻ｔ１まで、つまり、音声データ１１の出力指示
が出されるまでは、音楽データ１２に対するデコード処
理は第１の音楽デコーダ２２１を用いてのデコード処理
を行い、時刻ｔ１以降は、音楽データ１２に対しては第
２の音楽デコーダ２２２を用いてデコード処理を行う。
なお、このとき、音声データ１２に対しては音声デコー
ダ２１によるデコード処理が行われる。

【００７５】そして、時刻ｔ２以降は、音声データ１１
の再生処理は無いので、再び、第１の音楽デコーダ２２
１を用いて音楽データ１２のデコード処理を行う。

【００７６】このように、音楽データ１２のみを再生す
る場合は、演算精度の高い高性能なデコード処理を行う
ことのできる第１の音楽デコーダ２２１を用いてデコー
ド処理することにより、高品質な音楽を再生させること
ができる。なお、この第１の音楽デコーダ２２１を用い
てのデコード処理は演算量は多少多いが、このときは、
音声データ１１のデコード処理は行わないので、ＣＰＵ
２に対する演算負荷の増加は特に問題になる程ものでは
ない。

【００７７】一方、音声データ１１を音楽データ１２に
混合させて出力させる必要のある場合には、音楽データ
１２に対しては演算精度の低い第２の音楽デコーダ２２
２を用いてのデコード処理を行う。この第２の音楽デコ
ーダ２２２を用いてデコード処理されたデコード処理後
の音楽データ１２’は、音質に多少の劣化が生じるが、
このときは音声データ１１と混合させ、しかも、デコー
ド処理後の音楽データ１２’を小さな音量として出力す
るので、ユーザに対して音質の劣化を感じさせるほどの
ものとはならない。

【００７８】また、音楽データ１２に音声データ１１を
混合させる場合は、前述の第１の実施の形態で説明した
ように、音声データ１１と音楽データ１２の両方を１つ
のＣＰＵ２で交互にデコード処理するので、音声データ
１１と音楽データ１２のいずれか一方をＣＰＵ２でデコ
ード処理する場合に比べると、ＣＰＵ２の演算負荷は大
きくなるが、音楽データ１２のデコード処理を演算精度
の低いデコード処理（第２の音楽デコーダ２２２）に切
り替えるので、演算量の増加を極力抑えることができ
る。

【００７９】なお、この第２の実施の形態における音声
データ１１と音楽データ１２の混合処理は、前述の第１
の実施の形態において、図３により説明したと同様に行
うことができるので、その説明は省略する。

【００８０】このように、この第２の実施の形態では、
音楽データ１２を単独で再生する場合は、高精度なデコ
ード処理を行うことのできる第１の音楽デコーダ２２１
を用いてデコード処理し、音声データ１１を音楽データ
１２に混合させて出力させる場合には、音楽データ１２
に対しては演算量の少ない第２の音楽デコーダ２２２を
用いてデコード処理するようにしているので、このよう
な混合処理を行う場合も、デコード処理に要する演算量
の増加を極力抑えることができる。

【００８１】なお、この第２の実施の形態では、２段階
の演算精度を有する第１および第２の音楽デコーダ２２
１，２２２を設けるようにしたが、これは、２段階に限
らず、より多くの段階の演算精度を有する音楽デコーダ
を設けて、混合比率に応じて任意の音楽デコーダを選択
できるようにしてもよい。また、この第２の実施の形態
では、音楽データ１２側に複数の演算精度を有する音楽
デコーダを設けるようにしたが、音声データ１１側に複
数の演算精度を有する音声デコーダを設けるようにして
もよく、さらに、音声データ１１側と音楽データ１２側
の両方に複数の演算精度を有するデコーダをそれぞれ設
けるようにしてもよい。

【００８２】また、以上説明した第１および第２の実施
の形態においては、圧縮された音声データ１１と音楽デ
ータ１２をメモリ１上に格納し、そのメモリ１上の音声
データ１１と音楽データ１２をデコード処理して混合す
る例について説明したが、処理すべき音源データ（前述
の各実施の形態では音声データ１１と音楽データ１２）
は、通信手段などを利用して他のシステムから取得した
り、ネットワーク上から取得してメモリ１に一時的に保
持させるようにして、その一時的に保持された音源デー
タを用いるものであってもよい。

【００８３】また、前述の各実施の形態では、音声デー
タ１１と音楽データ１２を混合する例について説明した
が、これに限らず、たとえば、２つの音声データを混合
させることもできる。この場合、一方の音声データの再
生中にユーザに伝えるべき何らかの音声メッセージ（他
方の音声データという）が発生した場合には、その他方
の音声データを、現在、再生中の音声データに混合させ
て、当該再生中の音声データの音量を小さくし、他方の
音声データの音量を大きくしてユーザに伝えるといった
用い方もでき、また、２つの音楽データを同様に混合さ
せることもできる。さらに、混合すべき音源データは２
つに限られるものではなく、３つ以上でも可能である。

【００８４】また、前述の各実施の形態では、再生すべ
き音声を得るための音源データとして音声データ１１を
メモリ１に格納してそれをデコード処理して再生するよ
うにしたが、これは、再生すべき音声を得るための音源
データとしては、音声データでなくテキストデータであ
ってもよい。この場合、ＣＰＵ２側に音声合成処理手段
を設け、メモリ１からテキストデータを読み出して音声
合成処理して音声データを生成し、その音声データを音
声ゲイン制御部２３に与えるようにすれば、それ以降は
前述の各実施の形態同様の処理が可能となる。

【００８５】また、本発明は、以上説明した本発明を実
現するための処理手順が記述された処理プログラムを作
成し、その処理プログラムをフロッピィディスク、光デ
ィスク、ハードディスクなどの記録媒体に記録させてお
くことができ、本発明はその処理プログラムが記録され
た記録媒体をも含むものである。また、ネットワークか
ら当該処理プログラムを得るようにしてもよい。

【００８６】

【発明の効果】以上説明したように本発明によれば、メ
モリ上に保持された２つ以上の圧縮・符号化された音源
データを１つの演算処理装置（ＣＰＵ）でデコード処理
し、そのデコード処理されたそれぞれの音源データを混
合して出力するようにしている。これによって、本発明
を実現するための主な構成要素としては、小容量のメモ
リと１つのＣＰＵで済み、ハードウエアを簡素化するこ
とができ、また、メモリ上に保持される処理対象となる
音源データは圧縮・符号化された音源データであるの
で、小容量のメモリで対応可能とすることができるとと
もに、そのメモリを有効利用することができる。

【００８７】また、それぞれの音源データのうち、少な
くとも１つの音源データに対するデコード処理は、複数
段階の演算精度のいずれかのデコード演算精度を選択可
能とし、当該音源データに対しては、他の音源データと
の混合比率に応じてデコード処理を行う際の演算精度を
選択可能としている。これによって、ある音源データに
対しては、他の音源データとの混合比率に応じた演算精
度でデコード処理をすることができるので、デコード処
理に要する演算を極力抑えることができ、演算処理手段
（ＣＰＵ）の演算負荷を小さくすることができる。それ
によって、処理能力の小さなＣＰＵでも対応することが
でき安価なシステムへの適用が可能となる。

【００８８】また、複数の音源データを混合する際、デ
コード処理後の混合すべき音声データのうちユーザに対
し主に伝達すべき音源データ以外の音源データの音量を
当該ユーザが可聴な範囲で小さくするようなゲイン制御
を行うことによって、たとえば、音楽の再生中にその音
楽を聴いているユーザに音声メッセージを出力するよう
な場合、その音楽を中断させることなく音声メッセージ
を適切な音量で出力することができるので、音楽が途中
で途切れるといった不自然さをなくすことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係る音再生装置の
全体的な構成を示す図である。

【図２】図１で示した音再生装置のメモリが保持するデ
ータ内容とＣＰＵの処理機能について具体的に説明する
図である。

【図３】音声データのフレーム長と音楽データのフレー
ム長が異なる場合の混合処理について説明する図であ
る。

【図４】図３で示した混合処理において、音声データと
音楽データのデコード処理の順序に対するデコード処理
後の音声データおよび音楽データと、そのデコード処理
後の音声データと音楽データを混合した混合出力の関係
を示す図である。

【図５】本発明の第２の実施の形態に係る音再生装置の
メモリが保持するデータ内容とＣＰＵの処理機能につい
て具体的に説明する図である。

【図６】デコード処理後の音楽データおよびデコード処
理後の音声データに対するゲインの制御と音楽デコーダ
の選択制御を説明するタイムチャートである。

【符号の説明】１メモリ２ＣＰＵ３Ｄ／Ａ変換器４スピーカ１１音声データ１２音楽データ１１’ デコード処理後の音声データ１２’ デコード処理後の音楽データ２１音声デコーダ２２音楽デコーダ２３音声ゲイン制御部２４音楽ゲイン制御部２５混合処理部２６出力音量制御部２７デコーダ選択部

Claims

【特許請求の範囲】

【請求項１】２つ以上の音源データを混合させて再生
可能な音再生方法において、前記２つ以上の音源データが圧縮・符号化された状態で
メモリに保持され、これらそれぞれの音源データを混合
して出力する際は、前記メモリ上に保持されたそれぞれ
の音源データを演算処理装置に入力して、この演算処理
装置では、この演算処理装置に組み込まれたソフトウエ
アによってそれぞれの音源データをデコード処理し、そ
のデコード処理されたそれぞれの音源データを所定の混
合比率で混合して出力することを特徴とする音再生方
法。
【請求項２】前記それぞれの音源データのうち、少な
くとも１つの音源データに対するデコード処理は、その
デコード処理を行う際の演算精度が複数段階で設定さ
れ、その複数段階の演算精度のいずれかを選択可能と
し、その演算精度の選択が可能とされた音源データに対
しては、その音源データと他の音源データとの混合比率
に応じて、その音源データにおけるデコード処理の演算
精度を選択可能とすることを特徴とする請求項１記載の
音再生方法。
【請求項３】前記混合比率は、ある１つの音源データ
のみを出力させる混合比率を含むことを特徴とする請求
項１または２記載の音再生方法。
【請求項４】前記複数の音源データを混合する際、デ
コード処理後の混合すべき音声データのうち、ユーザに
対し主に伝達すべき音源データ以外の音源データの音量
を当該ユーザが可聴な範囲で小さくするようなゲイン制
御を可能とすることを特徴とする請求項１または２記載
の音再生方法。
【請求項５】２つ以上の音源データを混合させて再生
可能な音再生装置において、２つ以上の圧縮・符号化された音源データを保持するメ
モリと、このメモリ上に保持されたそれぞれの音源データをデコ
ード処理するそれぞれのデコード処理部およびこれらデ
コード処理された音源データを混合する音源データ混合
処理部を有し、この音源データのデコード処理およびそ
のデコード処理されたそれぞれの音源データを所定の混
合比率で混合する処理をソフトウエアによる演算によっ
て行う演算処理手段と、を有することを特徴とする音再生装置。
【請求項６】前記それぞれの音源データをデコード処
理するそれぞれのデコード処理部のうち、少なくとも１
つの音源データに対するデコード処理部は、そのデコー
ド処理を行う際の演算精度が複数段階で設定され、その
複数段階の演算精度のいずれかを選択可能とし、その演
算精度の選択が可能とされた音源データに対しては、そ
の音源データと他の音源データとの混合比率に応じて、
その音源データにおけるデコード処理の演算精度を選択
可能とすることを特徴とする請求項５記載の音再生装
置。
【請求項７】前記混合比率は、ある１つの音源データ
のみを出力させる混合比率を含むことを特徴とする請求
項５または６記載の音再生装置。
【請求項８】前記複数の音源データを混合する際、デ
コード処理後の混合すべき音声データのうちユーザに対
し主に伝達すべき音源データ以外の音源データの音量を
当該ユーザが可聴な範囲で小さくするようなゲイン制御
を可能とすることを特徴とする請求項５または６記載の
音再生装置。