JP2004205679A

JP2004205679A - 音声データ処理装置及び方法

Info

Publication number: JP2004205679A
Application number: JP2002372800A
Authority: JP
Inventors: Tadayuki Ishikawa; 忠幸石川; Yasuyuki Chagi; 康行茶木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-12-24
Filing date: 2002-12-24
Publication date: 2004-07-22

Abstract

【課題】機器の構成を簡易化させながら、所望の音声をノイズなくかつ高品質で出力させ得る音声データ処理装置及び方法を提案する。
【解決手段】音声データ処理装置及び方法において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶し、所定音を発音させる際、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを、第１の音声データの一部と置き換えて出力するようにした。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は音声データ処理装置及び方法に関し、例えばＤＶＤ（Digital Versatile Disk ）プレイヤや、ＢＳ（Broadcasting Satellite）ディジタルチューナ、セットトップボックス又はＰＶＲ（Personal Video Recorder）等の内部又は外部にディジタルオーディオ出力能力を有するオーディオ機器に適用して好適なものである。
【０００２】
【従来の技術】
近年、ディジタルコンテンツの音声フォーマットとして、ＡＡＣ（MPEG-2, Advanced Audio Coding）方式や、ドルビー社が提案しているＤＤ５．１（Dolby Digital 5.1）方式及びディジタルシアターシステム社が提案しているＤＴＳ方式（ＤＴＳ５．１、ＤＴＳ−ＥＳ６．１等）など、種々の音声フォーマットが提案されている。
【０００３】
【発明が解決しようとする課題】
ところで、ＤＶＤプレイヤやＢＳディジタルチューナなど、複数の音声フォーマットの音声データを取り扱う機器から効果音や操作音（以下、これらをまとめて効果音等と呼ぶ）を出力する方法としては、当該機器に搭載されたビーブ音用のブザーやスピーカから直接発音させる第１の方法と、効果音等の音声データを予めＰＣＭ（Pulse Code Modulation）等の特定の圧縮音声フォーマットで機器に記憶保持させ、その発音時に効果音等の音声データを当該機器において現在出力しているコンテンツの音声データ（以下、これをコンテンツ音声データと呼ぶ）の音声フォーマットに合わせてエンコードして出力することによりスピーカから発音させる第２の方法と、機器が記憶保持している効果音データを特定音声フォーマットのまま当該機器に接続されたＡＶ（Audio Video）アンプに出力し、当該ＡＶアンプにおいてエンコードするようにしてスピーカから発音させる第３の方法とが考えられる。
【０００４】
しかしながら、かかる第１の方法によると、効果音等の音質を向上させ難く、また多チャンネル出力の音量とのバランスがとり難いなどの問題があり、第２の方法によると、その機器が取り扱う音声フォーマットの数に応じた相当数のエンコーダを当該機器に搭載する必要があるため、機器全体の構成が煩雑化及び大型化し、高コスト化するなどの問題がある。
【０００５】
さらに第３の方法によると、ＡＶアンプによっては、出力音声が本来のコンテンツの音声からこれと異なる音声フォーマットの効果音等に切り替わる際、又は効果音等からコンテンツの音声に切り替わる際の切り替え時にノイズが発生する問題がある。またかかる問題を解決するため、切り替え時に出力音声をミュート（消音）する方法も考えられるものの、この方法によるとスムーズな音声の切り替えを行い難い問題がある。
【０００６】
かかる事情に鑑み、従来のＤＶＤプレイヤやＢＳディジタルチューナなどの機器では、ビープ音以外の効果音等の音声データは当該機器のアナログ出力端子から出力するのが一般的となっている。このためこの種機器においては、外部のＡＶアンプとの接続にコンテンツ音声データ出力用のディジタルケーブルに加えて効果音等の音声データ出力用のアナログケーブルをも必要とし、ディジタルケーブルのみの接続ではかかる機器が出力する効果音等が発音されない問題があった。
【０００７】
本発明は以上の点を考慮してなされたもので、機器の構成を簡易化させながら、所望の音声をノイズなくかつ高品質で出力させ得る音声データ処理装置及び方法を提案しようとするものである。
【０００８】
【課題を解決するための手段】
かかる課題を解決するため本発明においては、複数の音声フォーマットの第１の音声データを取り扱う機器に搭載される音声データ処理装置において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１の記憶手段と、所定音を発音させる際、第１の記憶手段を制御して、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを当該第１の記憶手段から読み出させ、当該第１の記憶手段から読み出された第２の音声データを、第１の音声データの一部と置き換えて出力する置換え手段とを設けるようにした。
【０００９】
この結果この音声データ処理装置によれば、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができる。
【００１０】
また本発明においては、複数の音声フォーマットの第１の音声データを取り扱う機器における音声データ処理方法において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１のステップと、所定音を発音させる際、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを、第１の音声データの一部と置き換えて出力する第２のステップとを設けるようにした。
【００１１】
この結果この音声データ処理方法によれば、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができる。
【００１２】
さらに本発明においては、複数の音声フォーマットの第１の音声データを取り扱う機器に搭載される音声データ処理装置において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１の記憶手段と、所定音を発音させる際、第１の記憶手段を制御して、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを当該第１の記憶手段から読み出させ、当該第１の記憶手段から読み出された第２の音声データを、第１の音声データの一部と置き換えて出力する置換え手段と、所定音の音声データを所望の音声フォーマットでエンコードすることにより得られた第２の音声データを記録媒体から又はネットワークを介して取得する取得手段とを設け、置換え手段は、出力対象の第１の音声データと同じ音声フォーマットの第２の音声データが第１の記憶手段に格納されていないときは、取得手段を制御して当該音声フォーマットの第２の音声データを取得させると共に、第１の記憶手段を制御して当該第２の音声データを記憶させるようにした。
【００１３】
この結果この音声データ処理装置によれば、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができる。
【００１４】
さらに本発明によれば、複数の音声フォーマットの第１の音声データを取り扱う機器における音声データ処理方法において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１のステップと、所定音を発音させる際、記憶した複数の音声データのうち、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを、第１の音声データの一部と置き換えて出力する第２のステップとを設け、第２のステップでは、出力対象の第１の音声データと同じ音声フォーマットの第２の音声データを記憶していないときは、当該音声フォーマットの第２の音声データを記録媒体から又はネットワークを介して取得して記憶するようにした。
【００１５】
この結果この音声データ処理方法によれば、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができる。
【００１６】
【発明の実施の形態】
以下図面について、本発明の一実施の形態を詳述する。
【００１７】
（１）第１の実施の形態
（１−１）第１の実施の形態による音声データ処理装置の全体構成
図１において、１は全体としてＰＶＲや、ＢＳディジタルチューナ、セットトップボックス又はＤＶＤプレイヤ等の複数の音声フォーマットを扱う機器に搭載される本実施の形態による音声データ処理装置を示し、それぞれ例えばシステムＬＳＩ（Large Scale Integrated Circuit）及びソフトウェアからなる入力データ処理部２、システムコントローラ３及びビットストリームコントローラ４と、例えばＤＲＡＭ（Dynamic Random Access Memory）等でなるビットストリームバッファ５と、フラッシュメモリ等の不揮発性メモリでなる効果音格納メモリ６と、同じ機器内のＤＶＤドライブ、ＣＤ（Compact Disk）ドライブ、ハードディスクドライブ、インターネット接続モジュール等でなる効果音入力部７とから構成されている。
【００１８】
この場合、効果音格納メモリ６には、予め各種音色の効果音等の音声データを、それぞれＡＣＣ音声フォーマットの３８４〔Kbps〕ビットレート、ＡＡＣ音声フォーマットの２５６〔Kbps〕ビットレート、ＤＴＳ音声フォーマットの７６８〔Kbps〕ビットレート及びＤＤ５．１音声フォーマットの３８４〔Kbps〕ビットレート、ＰＣＭ音声フォーマットの４８〔KHz〕ビットレート等の各種音声フォーマット及びビットレートで、かつその音声フォーマット及びビットレートに応じたフレームサイズでエンコードすることにより得られたそれぞれフレーム単位で構成される複数の音声データ（以下、これを効果音データと呼ぶ）Ｄ１が格納されている。また効果音格納メモリ６には、そのとき格納されている効果音データＤ１の音声フォーマット及びビットレートの種類と、その音声フォーマット及びビットレートでの各効果音データＤ１のフレーム数となどの情報でなる格納効果音情報Ｄ２が格納されている。
【００１９】
そして、この音声データ処理装置１では、同じ機器内部の記録媒体再生部やＢＳチューナ部等から与えられる音声データや映像音声データをコンテンツデータＤ３として入力データ処理部２に入力する。
【００２０】
入力データ処理部２は、供給されるコンテンツデータＤ３について、システムコントローラ３の制御のもとに、複数の音声フォーマットの音声データを含んでいる場合の出力すべき音声フォーマットの選択処理や、多重化されたコンテンツの分離処理等の所定の信号処理を施し、かくして得られたそのコンテンツの音声データでなるコンテンツ音声データＤ４と、そのコンテンツ音声データＤ４の音声フォーマットやビットレート、フレームサイズ及びチャンネル数等の付加情報でなるコンテンツ音声付加情報Ｄ５とをビットストリームバッファ５に送出する。
【００２１】
ビットストリームバッファ５は、供給されるコンテンツ音声データＤ４及びコンテンツ音声付加情報Ｄ５を順次記憶すると共に、当該記憶したコンテンツ音声データＤ４をビットストリームコントローラ４の制御のもとに順次読み出し、これを同じ機器内部の図示しないオーディオデコーダモジュール又は図示しないディジタル出力端子を介して外部のオーディオデコーダに出力する。
【００２２】
この結果、この内部のオーディオデコーダモジュール又は外部のオーディオデコーダにおいてコンテンツ音声データＤ４がデコードされ、得られた音声データがアナログ変換された後スピーカに与えられることにより、このコンテンツ音声データＤ４に基づくコンテンツの音声がそのスピーカから発音されることとなる。
【００２３】
またこのとき入力データ処理部２は、そのとき出力しているコンテンツ音声データＤ４の音声フォーマット及びビットレート等のデータ構造に関する情報をデータ構成情報Ｄ６としてシステムコントローラ３及びビットストリームコントローラ４に送出する。
【００２４】
そしてビットストリームコントローラ４は、供給されるデータ構造情報Ｄ６に基づいて、この後必要時に出力する効果音等の音声フォーマット及びビットレートとして、そのとき入力データ処理部２が出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートを選択する。
【００２５】
この際ビットストリームコントローラ４は、そのとき入力データ処理部２が出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた各種音色の効果音等の効果音データＤ１が効果音格納メモリ６に格納されていない場合には、効果音入力部７及び効果音格納メモリ６を制御して、予めその機器内に装填されているＤＶＤ、ＣＤ又はハードディスク等の記録媒体からそれら効果音データＤ１を再生させ、又はインターネット等のネットワークを通じてそれらの効果音データＤ１をダウンロードさせ、かくして得られたコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた各種音色の効果音等の効果音データＤ１を効果音格納メモリ６に格納させると共にこれに応じて格納効果音情報Ｄ２を更新させる。
【００２６】
なおこの実施の形態の場合、ビットストリームコントローラ４は、効果音格納メモリ６に格納されている各効果音データＤ１の使用頻度を記憶している。そしてビットストリームコントローラ４は、上述のようにして新たな音声フォーマット及びビットレートの効果音データＤ１を効果音格納メモリ６に取り込むに際して当該効果音格納メモリ６の記憶容量が不足している場合など、効果音格納メモリ６に格納されたいずれかの効果音データＤ１の削除が必要となったときには、効果音格納メモリ６を制御して、使用頻度の少ない効果音データＤ１を削除させるようになされている。
【００２７】
これによりこの音声データ処理装置１においては、効果音格納メモリ６を有効に利用することができ、その分効果音格納メモリ６として記憶容量が格段的に大きいものを必要としないことから、より一層と当該音声データ処理装置が搭載された機器全体の小型化や低コスト化を図ることができるようになされている。
【００２８】
一方、システムコントローラ３においては、他の同じ機器内のビデオ関連のモジュールや、ユーザインターフェース、システムクロック及びデバイス制御関連の他のモジュールと接続されており、ビデオ関連又はデバイス関連のモジュールから効果音を出力すべき要請が与えられ、又はユーザインターフェースを介してユーザからの操作入力が与えられると、これに応じた効果音又は操作音の出力指令（以下、これを効果音出力指令と呼ぶ）ＣＯＭ１をビットストリームコントローラ４に与える。
【００２９】
このときビットストリームコントローラ４は、システムコントローラ３から与えられる効果音出力指令ＣＯＭ１に基づいて効果音格納メモリ６を制御し、現在入力データ処理部２が出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた各種音色の効果音等のうち、指定された効果音等の効果音データＤ１を読み出させる。
【００３０】
またビットストリームコントローラ４は、これと同時にビットストリームバッファ５を制御して、この効果音格納メモリ６から読み出された効果音データＤ１を、そのときビットストリームバッファ５が蓄えているコンテンツ音声データＤ４の一部とフレーム単位で順次置き換えるようにして当該ビットストリームバッファ５に記憶させる。なお、このような効果音格納メモリ６の制御と、かかる置換え処理はシステムクロックに同期して、ビットストリームバッファ５がコンテンツ音声データＤ４を１フレーム分出力する時間間隔以内に行われる。
【００３１】
この結果、かかる効果音データＤ１は、やがてビットストリームコントローラ４の制御のもとに前後のコンテンツ音声データＤ４と共に順次ビットストリームバッファ５から読み出され、この後上述のようにコンテンツ音声データＤ４と共にデコードされ、アナログ変換されてスピーカに与えられる。
【００３２】
このようにしてこの音声データ処理装置１では、必要な効果音等をコンテンツの音声と同じスピーカから発音させ得るようになされている。
【００３３】
なおこの実施の形態の場合、ビットストリームコントローラ４は、上述のように効果音格納メモリ６から読み出した効果音データＤ１をビットストリームバッファ５に格納されているコンテンツ音声データＤ４の一部と置き換えさせる際、予めそのときビットストリームバッファ５に格納されているコンテンツ音声データＤ４のうち、当該コンテンツ音声データＤ４に基づく音声の音量レベルが最も小さい箇所を探し出して、当該箇所のコンテンツ音声データＤ４と効果音データＤ１とを置き換えさせるようになされている。これによりこのデータ処理装置１では、スピーカから効果音等が発音される際における当該効果音等の出力前後においての急激な音量変化を未然に防止させ得るようになされている。
【００３４】
（１−２）ビットストリームコントローラ４の各種処理手順
ここで、実際上、ビットストリームコントローラ４は、入力データ処理部２からデータ構造情報Ｄ６が与えられたときに、図２に示す効果音音声フォーマット選択処理手順ＲＴ１に従って、ユーザ操作時等の必要時に出力すべき効果音等の音声フォーマットを選択する。
【００３５】
すなわちビットストリームコントローラ４は、入力データ処理部２からデータ構造情報Ｄ６が与えられるとこの効果音音声フォーマット選択処理手順ＲＴ１をステップＳＰ０において開始し、続くステップＳＰ１において、当該データ構造情報Ｄ６に基づいて、そのとき入力データ処理部２から出力されているコンテンツ音声データＤ４の音声フォーマット及びビットレートを取得し、認識する。
【００３６】
続いてビットストリームコントローラ４は、ステップＳＰ２に進んで、かかるステップＳＰ１において認識した音声フォーマットと同じ音声フォーマット及びビットレートでエンコードされた各種音色の効果音等の効果音データＤ１が効果音格納メモリ６に既に格納されているか否かを、効果音格納メモリ６に格納されている格納効果音情報Ｄ２に基づいて判断する。
【００３７】
そしてビットストリームコントローラ４は、このステップＳＰ２において肯定結果を得るとステップＳＰ４に進み、これに対して否定結果を得るとステップＳＰ３に進んで、効果音入力部７及び効果音格納メモリ６を制御して、対応する音声フォーマット及びビットレートでエンコードされた各種音色の効果音等の効果音データＤ１をＤＶＤ等の記録媒体から再生させ又はネットワークからダウンロードさせて効果音格納メモリ６に格納させ、かつこれに応じて格納効果音情報Ｄ２を更新した後、ステップＳＰ４に進む。
【００３８】
そしてビットストリームコントローラ４は、このステップＳＰ４において、この後必要時に出力する効果音等の音声フォーマット及びビットレートとしてステップＳＰ１において認識した音声フォーマット及びビットレートを選択し、内部設定を切り替えた後、ステップＳＰ５に進んでこの効果音フォーマット選択処理手順ＲＴ１を終了する。
【００３９】
またビットストリームコントローラ４は、この後図３に示す第１の効果音発音処理手順ＲＴ２に従って対応する効果音等の出力処理を実行する。
【００４０】
すなわちビットストリームコントローラ４は、システムコントローラ３から効果音出力指令ＣＯＭ１が与えられると、この第１の効果音発音処理手順ＲＴ２をステップＳＰ１０において開始し、続くステップＳＰ１１において、出力すべき効果音等のフレーム数を効果音格納メモリ６に格納されている格納効果音情報Ｄ２に基づいて取得し、認識する。
【００４１】
続いてビットストリームコントローラ４は、ステップＳＰ１２に進んで、ビットストリームバッファ５が記憶している上述のコンテンツ音声付加情報Ｄ５に基づいて、そのときビットストリームバッファ５に格納されているコンテンツ音声データＤ４におけるフレームの区切り目の位置（アドレス）を検出する。
【００４２】
次いでビットストリームコントローラ４は、ステップＳＰ１３に進んで、効果音出力指令ＣＯＭ１が与えられてから予め設定された所定時間（例えば０．５秒）が経過していないか否か、及びそのときビットストリームバッファ５が記憶しているコンテンツ音声データＤ４の１つのフレームについて、そのフレームにおける平均の音声レベル（信号レベル）を検出すると共にその音声レベルが予め設定された閾値以上であるか否かをそれぞれ判断する。
【００４３】
そしてビットストリームコントローラ４は、これら２つの判断結果として共に肯定結果を得ると、ビットストリームバッファ５に格納されているコンテンツ音声データＤ４におけるこれ以降の各フレームについて、同様の判断処理を順次繰り返す。
【００４４】
そしてビットストリームコントローラ４は、やがてかかる所定時間が経過し又は平均の音声レベルが閾値以上のフレームを検出することによりこのステップＳＰ１３において否定結果を得ると、ステップＳＰ１４に進んで、ビットストリームバッファ５に格納されたコンテンツ音声付加情報Ｄ５に基づいて、そのとき当該ビットストリームバッファ５に１フレーム分以上のコンテンツ音声データＤ４が格納されているか否かを判断する。
【００４５】
そしてビットストリームコントローラ４は、このとき否定結果を得ると、この後このステップＳＰ１４において肯定結果を得るのを待ち受け、やがてビットストリームバッファ５に１フレーム分以上のコンテンツ音声データＤ４が格納されることによりこのステップＳＰ１４において肯定結果を得ると、ステップＳＰ１５に進んで、そのときまでに後述のようにして削除したコンテンツ音声データＤ４の合計フレーム数がステップＳＰ１１において認識した対応する効果音データＤ１のフレーム数未満であるか否かを判断する。
【００４６】
ビットストリームコントローラ４は、このステップＳＰ１５において否定結果を得るとステップＳＰ１７に進み、これに対して肯定結果を得るとステップＳＰ１６に進んで、ビットストリームバッファ５に格納されているコンテンツ音声データＤ４における所定の１フレーム、具体的には、効果音データＤ１の最初のフレームを入力する場合でかつステップＳＰ１３において平均の音声レベルが閾値未満のフレームを検出できた場合にはそのフレーム、検出できなかった場合にはビットストリームバッファ５に保存されている中で最小音量のフレーム、音量の検出が不可能な場合はビットストリームバッファ５に保存されている先頭のフレームを削除し、そのアドレス及びそのときまでに削除したコンテンツ音声データＤ４のフレーム数を記憶した後、ステップＳＰ１７に進む。
【００４７】
さらにビットストリームコントローラ４は、このステップＳＰ１７において、ビットストリームバッファ５に格納されたコンテンツ音声付加情報Ｄ５に基づいて、当該ビットストリームバッファ５に、そのとき置き換えようとしている効果音データＤ１の１フレーム分以上の空きがあるか否かを判断する。そしてビットストリームコントローラ４は、このステップＳＰ１７において否定結果を得るとステップＳＰ１４に戻り、この後ステップＳＰ１７において肯定結果を得るまでステップＳＰ１４〜ＳＰ１７−ＳＰ１４のループを繰り返す。
【００４８】
そしてビットストリームコントローラ４は、やがてこのステップＳＰ１７において肯定結果を得ると、ステップＳＰ１８に進んで、かかる１フレーム分の未出力の効果音データＤ１をビットストリームバッファ５におけるステップＳＰ１６において削除したコンテンツ音声データＤ４のフレームの箇所に格納する。
【００４９】
さらにビットストリームコントローラ４は、この後ステップＳＰ１９に進んで、かかる効果音データＤ１の全フレームのデータをコンテンツ音声データＤ４のその後連続する各フレームのデータと置き換え終えたか否かを判断する。
【００５０】
そしてビットストリームコントローラ４は、このステップＳＰ１９において否定結果を得るとステップＳＰ１４に戻り、この後このステップＳＰ１９において肯定結果を得るまでステップＳＰ１４〜ＳＰ１９−ＳＰ１４のループを繰り返すことにより、かかる効果音データＤ１の各フレームのデータをコンテンツ音声データＤ１のその後連続する各フレームのデータと順次置き換える。
【００５１】
そしてビットストリームコントローラ４は、やがてかかる効果音データＤ１の全フレームのデータをコンテンツ音声データＤ１の対応する各フレームのデータと置き換え終えることによりこのステップＳＰ１９において肯定結果を得ると、ステップＳＰ２０に進んでこの第１の効果音発音処理手順ＲＴ２を終了する。
【００５２】
（１−３）本実施の形態の動作及び効果
以上の構成において、この音声データ処理装置１では、各種音声フォーマット及びビットレートでエンコードされた各種音色の効果音等の効果音データＤ１を予め効果音格納メモリ６に保持し、その出力時には、そのとき出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた指定された音色の効果音等の効果音データＤ１を効果音格納メモリ６から読み出し、これをそのときストリームバッファ５に格納されているコンテンツ音声データＤ４の一部と置き換えて出力する。
【００５３】
従って、この音声データ処理装置１は、効果音等の発音のためにその機器が取り扱う各音声フォーマットにそれぞれ対応したデコーダを必要とせず、その分機器全体の構成が煩雑化及び大型化し、高コスト化するのを未然に防止することができる。
【００５４】
またこの音声データ処理装置１では、上述のように出力対象のコンテンツ音声データＤ４の一部と、これと同じ音声フォーマットの効果音データＤ１を置き換えて出力するため、効果音等の発音の前後においてノイズを発生させることなく、高音質の効果音等をスピーカから発音させることができる。
【００５５】
以上の構成によれば、各種音声フォーマット及びビットレートでエンコードされた各種音色の効果音等の効果音データＤ１を予め効果音格納メモリ６に保持し、その出力時には、そのとき出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた指定された音色の効果音等の効果音データＤ１を効果音格納メモリ６から読み出し、これをそのときストリームバッファ５に格納されているコンテンツ音声データＤ４の一部と置き換えて出力するようにしたことにより、効果音の発音のためにその機器が取り扱う各音声フォーマットにそれぞれ対応したデコーダを必要とせず、また効果音等の発音の前後においてノイズを発生させることなく、高音質の効果音等をスピーカから発音させることができ、かくして機器の構成を簡易化させながら、効果音等をノイズなくかつ高品質で出力させ得る音声データ処理装置を実現できる。
【００５６】
（２）第２の実施の形態
（２−１）第２の実施の形態による音声データ処理装置の全体構成
図１との対応部分に同一符号を付して示す図４は、第２の実施の形態による音声データ処理装置１０を示し、ＤＲＡＭでなるビットストリームバッファ１１の後段にストリーム切替え部１３が設けられ、当該ストリーム切替え部１３における出力データの切替え処理により、効果音データＤ１をコンテンツ音声データＤ４の一部と置き換えて出力し得るようになされている。
【００５７】
実際上、この音声データ処理装置１０において、ビットストリームバッファ１１は、上述のように入力データ処理部２から供給されるコンテンツ音声データＤ４及びコンテンツ音声付加情報Ｄ５を順次記憶すると共に、当該記憶したコンテンツ音声データＤ４をビットストリームコントローラ１２の制御のもとに順次読み出し、これをストリーム切替え部１３に送出する。
【００５８】
ストリーム切替え部１３は、例えば汎用ロジックＩＣ（Integrated Circuit）から構成され、その内部にはコンテンツ音声データＤ４及び効果音データＤ１間の切り替え時やコンテンツ音声データＤ４が可変長符号化（ＶＢＲ：Variable Bit Rate）されているときなどにおける緩衝のためのＦＩＦＯ（First-In First-Out）等でなるバッファメモリ１４が設けられている。
【００５９】
またストリーム切替え部１３においては、第１〜第３の入力切替端１５_１〜１５_３と第１及び第２の出力切替え端１６_１、１６_２とが設けられ、ビットストリームコントローラ１２の制御によって、図４のように第２の入力切替端１５_２及び第１の出力切替端１６_１間が導通すると共に第３の入力切替端１５_３及び第２の出力切替端１６_２が導通する第１の切替えモードと、図５ように第１の入力切替端１５_１及び第１の出力切替端１６_１間が導通すると共に第２の入力切替端１５_２及び第２の出力切替端１６_２間が導通する第２の切替えモードとに動作モードを相互に切り替えさせ得るようになされている。
【００６０】
そしてストリーム切替え部１３においては、効果音格納メモリ６からの効果音データを第１の入力切替端１５_１に入力し、ビットストリームバッファ１１からのコンテンツ音声データＤ４をバッファメモリ１４を介して第２の入力切替端１５_２に入力するようになされており、これにより第１の切替えモード時には、ビットストリームバッファ１１からのコンテンツ音声データＤ４を第１の出力切替端１６_１を介して出力し得、第２の切替えモード時には、効果音格納メモリ６からの効果音データＤ１を第１の出力切替端１６_１を介して出力し、かつビットストリームバッファ５からのコンテンツ音声データＤ２を第２の出力切替端１６_２を介して廃棄し得るようになされている。
【００６１】
かくしてビットストリームコントローラ１２においては、通常時には、ストリーム切替え部１３を制御してその動作モードを第１の切替えモードに設定することにより、ビットストリームバッファ１１から出力されたコンテンツ音声データＤ４を、ストリーム切替え部１３を介して後段に設けられた同じ機器内の図示しないオーディオデコーダモジュール又は図示しないディジタル出力端子を介して外部のオーディオデコーダに出力させる。
【００６２】
この結果、この内部のオーディオデコーダモジュール又は外部のオーディオデコーダにおいてコンテンツ音声データＤ４がデコードされ、得られた音声データがアナログ変換された後スピーカに出力される。これによりこのコンテンツ音声データＤ４に基づくそのコンテンツの音声がそのスピーカを介して外部に発音されることとなる。
【００６３】
またこのときビットストリームコントローラ１２は、第１の実施の形態の場合と同様にして、図２について上述した効果音フォーマット選択処理手順ＲＴ１を実行することにより、この後必要時に出力する効果音等の音声フォーマットとしてそのときビットストリームバッファ１１が出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートを選択する。
【００６４】
一方、ビットストリームコントローラ１２は、この後システムコントローラ３から効果音出力指示ＣＯＭ１が与えられると、ビットストリームバッファ１１に格納されたコンテンツ音声付加情報Ｄ５に基づき、システムクロックに同期してストリーム切替え部１３を制御することにより、コンテンツ音声データＤ４のフレームの区切り目のタイミングでその動作モードを第２の切替えモードに切り替えさせる。
【００６５】
またビットストリームコントローラ１２は、これと同時に効果音格納メモリ６を制御して、そのときビットストリームバッファ１１が出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた指定された音色の操作音等の効果音データＤ１を読み出させる。
【００６６】
この結果、ストリーム切替え部１３からの出力がコンテンツ音声データＤ４のフレームの区切り目のタイミングで効果音データＤ１に切り替わり、これが上述の内部のオーディオデコーダモジュール又は外部のオーディオデコーダに出力されることにより、当該効果音データＤ１に基づく効果音等がスピーカを介して発音される。
【００６７】
さらにビットストリームコントローラ１２は、その後効果音格納メモリ６がその効果音データＤ１を全て読み出し終えると、ビットストリームバッファ１１に格納されたコンテンツ音声付加情報Ｄ５に基づき、システムクロックに同期してストリーム切替え部１３を制御することにより、かかる効果音データＤ１の最後のフレームが出力し終えたタイミングでその動作モードを第１の切替えモードに切り替えさせる。
【００６８】
また、この際ビットストリームコントローラ１２は、例えばコンテンツ音声データＤ４が可変長符号化されていて１フレームのデータサイズが固定長でない場合などには、ストリーム切替え部１３内のバッファメモリ１４を利用してビットストリームバッファ１１が破綻しないように、かつ効果音データＤ１の最後のフレームに続けてコンテンツ音声データＤ４をフレームの区切り目から出力できるようにストリーム切替え部１３を制御する。
【００６９】
この結果、ストリーム切替え部１３からの出力が効果音データＤ１の最後のフレームを出力し終えたタイミングでコンテンツ音声データＤ４に切り替わり、これが上述の内部のオーディオデコーダモジュール又は外部のオーディオデコーダに出力されることにより、かかるスピーカを介して発音される音声が効果音からコンテンツの音声に戻ることとなる。
【００７０】
このようにしてこの音声データ処理装置１では、必要な効果音等をコンテンツの音声と同じスピーカから発音させ得るようになされている。
【００７１】
（２−２）本実施の形態におけるビットストリームコントローラ１２の処理
ここで、ビットストリームコントローラ１２は、上述のような対応する効果音等の出力処理を図６に示す第２の効果音発音処理手順ＲＴ３に従って実行する。
【００７２】
すなわちビットストリームコントローラ１２は、システムコントローラ３から効果音出力指令ＣＯＭ１が与えられると、この第２の効果音発音処理手順ＲＴ３をステップＳＰ３０において開始し、続くステップＳＰ３１〜ステップＳＰ３３までを図３について上述した第１の効果音発音処理手順ＲＴ１のステップＳＰ１１〜ステップＳＰ１３までと同様に処理する。
【００７３】
そしてビットストリームコントローラ１２は、この後ステップＳＰ３４に進むと、ストリーム切替え部１３を制御して、コンテンツ音声データＤ４のフレームの区切り目のタイミングでその動作モードを第２の切替えモードに切り替えさせると共に、続くステップＳＰ３５において効果音格納メモリ６を制御することにより、そのときビットストリームバッファ１１が出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた指定された音色の効果音等の効果音データＤ１を１フレーム分だけ読み出させ、ストリーム切替え部１３内のバッファメモリ１４中に存在するコンテンツ音声データＤ４を破棄する。
【００７４】
さらにビットストリームコントローラ１２は、この後ステップＳＰ３６に進んで、ステップＳＰ３１において取得したその効果音データＤ１のフレーム数に基づいて、当該効果音データＤ１の全てのフレームを出力し終えたか否かを判断する。そしてビットストリームコントローラ１２は、このステップＳＰ３６において否定結果を得るとステップＳＰ３５に戻り、この後このステップＳＰ３６において肯定結果を得るまでステップＳＰ３５−ＳＰ３６−ＳＰ３５のループを繰り返す。
【００７５】
そしてビットストリームコントローラ１２は、やがて効果音データＤ１の全てのフレームを出力し終えることによりステップＳＰ３６において肯定結果を得ると、ステップＳＰ３７に進んで、ストリーム切替え部１３を制御することにより、かかる効果音データＤ１の最後のフレームが出力し終えたタイミングでその動作モードを第１の切替えモードに切り替えさせる。
【００７６】
この際、ビットストリームコントローラ１２は、コンテンツ音声データＤ４のフレームの区切れ目のタイミングで当該コンテンツ音声データＤ４に切り替わるように、必要に応じてストリーム切替え部１３のバッファメモリ１４から読み出されるコンテンツ音声データＤ４の読み出し開始のタイミングを制御する。
【００７７】
そしてビットストリームコントローラ１２は、この後ステップＳＰ３８に進んでこの第２の効果音発音処理手順ＲＴ３を終了する。
【００７８】
（２−３）本実施の形態の動作及び効果
以上の構成において、この音声データ処理装置１０では、各種音声フォーマットでエンコードされた各種音色の効果音等の効果音データＤ１を予め効果音格納メモリ６に保持し、必要時にそのとき出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた指定された音色の効果音等の効果音データＤ１を効果音格納メモリ６から読み出し、これをそのときビットストリームバッファ５から出力されているコンテンツ音声データＤ４の一部とストリーム切替え部１３における出力データの切替え処理により置き換えて出力する。
【００７９】
従って、この音声データ処理装置１０は、第１の実施の形態による音声データ処理装置１と同様に、効果音の発音のためにその機器が取り扱う各音声フォーマットにそれぞれ対応したデコーダを必要とせず、また効果音等の発音の前後においてノイズを発生させることなく、高音質の効果音等をスピーカから発音させることができる。
【００８０】
以上の構成によれば、各種音声フォーマットでエンコードされた各種音色の効果音等の効果音データＤ１を予め効果音格納メモリ６に保持し、必要時にそのとき出力しているコンテンツ音声データＤ４と同じ音声フォーマット及びビットレートでエンコードされた指定された音色の効果音等の効果音データＤ１を効果音格納メモリ６から読み出し、これをそのときストリームバッファ５から出力されているコンテンツ音声データＤ４の一部とストリーム切替え部１３における出力データの切替え処理により置き換えて出力するようにしたことにより、効果音の発音のためにその機器が取り扱う各音声フォーマットにそれぞれ対応したデコーダを必要とせず、また効果音等の発音の前後においてノイズを発生させることなく、高音質の効果音等をスピーカから発音させることができ、かくして機器の構成を簡易化させながら、効果音等をノイズなくかつ高品質で出力させ得る音声データ処理装置を実現できる。
【００８１】
（３）他の実施の形態
なお上述の第１及び第２の実施の形態においては、ビットストリームコントローラ４、１２を他のシステムコントローラ３や入力データ処理部２等のモジュールと別体に形成するようにした場合について述べたが、本発明はこれに限らず、要は、システムコントローラ３等の各モジュールと接続され、各指令や情報を送受信することができるようにするのであれば他のモジュールと一体に形成するようにしても良い。この場合において、例えばシステムコントローラ３や入力データ処理部２にビットストリームコントローラ４、１２と同等の機能をもたせるようにしても良く、このようにすることによって、ビットストリームコントローラ４、１２を独立に構成する場合に比べて、通信経路の短縮によるエラーの減少や実装面積及び部品などの削減という新たな効果を得ることができる。
【００８２】
また上述の第１及び第２の実施の形態においては、効果音及び操作音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の音声データを記憶する記憶手段としての効果音格納メモリ６をフラッシュメモリにより構成するようにした場合について述べたが、本発明はこれに限らず、要は、コンテンツと同等の音声フォーマットのデータが格納でき、またコンテンツ音声データＤ４と同等の出力レート（可変長符号化されている場合には最大出力レート）以上で出力可能な伝送レートを有するモジュールであればフラッシュメモリ以外の例えばＤＲＡＭやＤＶＤ又はハードディスク装置等を適用するようにしても良い。これらに置き換えた場合、メディアによって様々な利点や欠点（コスト、交換の容易さ、容量の大きさ等）があるので、本発明を適用する機器によって選択して採用することで、そのメディアの利点を生かすことができる。また効果音格納メモリ６が半導体メモリによって構成されている場合、第１及び第２の実施の形態のように独立したモジュール構成を採らずに例えばビットストリームコントローラ４、１２に内蔵させるようにしても良い。
【００８３】
さらに上述の第１及び第２の実施の形態においては、入力データ処理部２をシステムコントローラ３等の他のモジュールとは別体に構成するようにした場合について述べたが、本発明はこれに限らず、例えばシステムコントローラ３に同等の機能をもたせるようにしても良い。
【００８４】
さらに上述の第１及び第２の実施の実施の形態においては、ビットストリームバッファ５、１１をＤＲＡＭにより構成するようにした場合について述べたが、本発明はこれに限らず、要は、コンテンツ音声データＤ４を一時的に蓄えることができるモジュールであればＳＲＡＭ等の他のモジュールを適用するようにしても良い。
【００８５】
さらに上述の第１及び第２の実施の実施の形態においては、ビットストリームバッファ５、１１をシステムコントローラ３等の他のモジュールとは別体に形成するようにした場合について述べたが、本発明はこれに限らず、ビットストリームバッファ５、１１をビットストリームコントローラ４、１２又は入力データ処理部２等の他のモジュールに内蔵させるようにしても良い。このようにすることによって、実装面積の削減を図れるという効果を得ることができる。
【００８６】
さらに上述の第２の実施の形態においては、ストリーム切替え部１３を汎用ロジックＩＣにより構成するようにした場合について述べたが、本発明はこれに限らず、要は、２つの入力ビットストリームを瞬間的（切り替わり時にエラーが発生しない時間内）に切替えられるものであれば、その構成としては汎用ロジックＩＣ以外の例えばシステムＬＳＩ等の他の形態を広く適用するようにしても良い。
【００８７】
さらに上述の第２の実施の形態においては、ストリーム切替え部１３をシステムコントローラ３等の他のモジュールから独立した構成とするようにした場合について述べたが、本発明はこれに限らず、ビットストリームコントローラ１２に内蔵させるようにしても良い。このようにすることによって、実装面積の削減や動作の高速化、コストの削減といった効果を得ることができる。
【００８８】
さらに上述の第２の実施の形態においては、ストリーム切替え部１３内に記憶手段としてのバッファメモリ１４を設けるようにした場合について述べたが、本発明はこれに限らず、例えば可変長符号化の音声フォーマットをサポートしないのであれば、バッファメモリ１４を省略するようにしても良い。
【００８９】
さらに上述の第１及び第２の実施の形態においては、効果音入力部７が機器内に装填されているＤＶＤ、ＣＤ又はハードディスク等の記録媒体から必要な効果音データＤ１を再生し、又はインターネット等のネットワークを通じて必要な効果音データＤ１をダウンロードするようにした場合について述べたが、本発明はこれに限らず、要は、必要な効果音データＤ１を効果音格納メモリ６に供給し得るような手段であれば、この他種々の手段を広く適用することができる。また場合に応じてこの効果音入力部７を省略するようにしても良い。
【００９０】
さらに上述の第１及び第２の実施の形態においては、第１又は第２の効果音発音処理手順ＲＴ２、ＲＴ３のステップＳＰ１３又はＳＰ３３の処理において、コンテンツ音声データＤ４の音量レベルの小さな部分で効果音データＤ１に置き換える場合について述べたが、本発明はこれに限らず、コンテンツ音声データＤ４の音量レベルの小さな部分以外の部分で効果音データＤ１に置き換えるようにしても良い。
【００９１】
さらに上述の第１及び第２の実施の形態においては、システムコントローラ３をシステムＬＳＩ及びソフトウェアにより構成するようにした場合について述べたが、本発明はこれに限らず、他のモジュールを統括できるのであればその形態はこれ以外であっても良い。
【００９２】
さらに上述の第１及び第２の実施の形態においては、システムコントローラ３をビットストリームコントローラ４等の他のモジュールと別体に形成するようにした場合について述べたが、本発明はこれに限らず、例えばビットストリームコントローラ４や入力データ処理部２と一体に形成するようにしても良い。
【００９３】
さらに上述の第１及び第２の実施の形態においては、コンテンツ音声データＤ４と入れ替える所定音が効果音又は操作音である場合について述べたが、本発明はこれに限らず、これ以外の各種音声をコンテンツ音声データＤ４と置き換える場合にも本発明を広く適用することができる。
【００９４】
さらに上述の第１の実施の形態においては、所定音を発音させる際、出力対象のコンテンツ音声データＤ４と同じ音声フォーマットの対応する効果音データＤ１を効果音格納メモリ６に読み出させ、当該効果音格納メモリ６から読み出された効果音データＤ１をコンテンツ音声データＤ４の一部と置き換えて出力する置換え手段を、システムＬＳＩ及びソフトウェアからなる制御手段としてのビットストリームコントローラ４と、ＤＲＡＭからなる記憶手段としてのビットストリームバッファ５とにより構成するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成を広く適用することができる。
【００９５】
同様に、上述の第２の実施の形態においては、かかる置換え手段を、システムＬＳＩ及びソフトウェアからなる制御手段としてのビットストリームコントローラ１２と、汎用ロジックＩＣからなる切替え手段としてのストリーム切替え部１３とにより構成するようにした場合について述べたが、本発明はこれに限らず、この他種々の構成を広く適用することができる。
【００９６】
【発明の効果】
上述のように本発明によれば、複数の音声フォーマットの第１の音声データを取り扱う機器に搭載される音声データ処理装置において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１の記憶手段と、所定音を発音させる際、第１の記憶手段を制御して、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを当該第１の記憶手段から読み出させ、当該第１の記憶手段から読み出された第２の音声データを、第１の音声データの一部と置き換えて出力する置換え手段とを設けるようにしたことにより、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができ、かくして機器の構成を簡易化させながら、所望の音声をノイズなくかつ高品質で出力させ得る音声データ処理装置を実現できる。
【００９７】
また本発明によれば、複数の音声フォーマットの第１の音声データを取り扱う機器における音声データ処理方法において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１のステップと、所定音を発音させる際、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを、第１の音声データの一部と置き換えて出力する第２のステップとを設けるようにしたことにより、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができ、かくして機器の構成を簡易化させながら、所望の音声をノイズなくかつ高品質で出力させ得る音声データ処理方法を実現できる。
【００９８】
さらに本発明によれば、複数の音声フォーマットの第１の音声データを取り扱う機器に搭載される音声データ処理装置において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１の記憶手段と、所定音を発音させる際、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを第１の記憶手段から読み出させ、当該第１の記憶手段から読み出された第２の音声データを、第１の音声データの一部と置き換えて出力する置換え手段と、所定音の音声データを所望の音声フォーマットでエンコードすることにより得られた第２の音声データを記録媒体から又はネットワークを介して取得する取得手段とを設け、置換え手段は、出力対象の第１の音声データと同じ音声フォーマットの第２の音声データが第１の記憶手段に格納されていないときは、取得手段を制御して当該音声フォーマットの第２の音声データを取得させると共に、第１の記憶手段を制御して当該第２の音声データを記憶させるようにしたことにより、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができ、かくして機器の構成を簡易化させながら、所望の音声をノイズなくかつ高品質で出力させ得る音声データ処理装置を実現できる。
【００９９】
さらに本発明によれば、複数の音声フォーマットの第１の音声データを取り扱う機器における音声データ処理方法において、所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１のステップと、所定音を発音させる際、記憶した複数の音声データのうち、出力対象の第１の音声データの音声フォーマットと同じ音声フォーマットの対応する第２の音声データを、第１の音声データの一部と置き換えて出力する第２のステップとを設け、第２のステップでは、出力対象の第１の音声データと同じ音声フォーマットの第２の音声データを記憶していないときは、当該音声フォーマットの第２の音声データを記録媒体から又はネットワークを介して取得して記憶するようにしたことにより、機器が取り扱う音声フォーマットの数に応じたエンコーダを設けることなく、また所定音の発音時にノイズを発生させずに、第１の音声データに基づく音声と同じ音質で所定音を発音させることができ、かくして機器の構成を簡易化させながら、所望の音声をノイズなくかつ高品質で出力させ得る音声データ処理方法を実現できる。
【図面の簡単な説明】
【図１】第１の実施の形態による音声データ処理装置の全体構成を示すブロック図である。
【図２】効果音フォーマット選択処理手順を示すフローチャートである。
【図３】第１の効果音発音処理手順を示すフローチャートである。
【図４】第２の実施の形態による音声データ処理装置の全体構成を示すブロック図である。
【図５】第２の効果音発音処理手順を示すフローチャートである。
【図６】第２の効果音発音処理手順を示すフローチャートである。
【符号の説明】
１、１０……音声データ処理装置、２……入力データ処理部、３……システムコントローラ、４、１２……ビットストリームコントローラ、５、１１……ビットストリームバッファ、６……効果音格納メモリ、７……効果音入力部、１３……ストリーム切替え部、Ｄ１……効果音データ、Ｄ４……コンテンツ音声データ。

Claims

複数の音声フォーマットの第１の音声データを取り扱う機器に搭載される音声データ処理装置において、
所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１の記憶手段と、
上記所定音を発音させる際、上記第１の記憶手段を制御して、出力対象の上記第１の音声データの音声フォーマットと同じ上記音声フォーマットの対応する上記第２の音声データを当該第１の記憶手段から読み出させ、当該第１の記憶手段から読み出された上記第２の音声データを、上記第１の音声データの一部と置き換えて出力する置換え手段と
を具えることを特徴とする音声データ処理装置。
上記置換え手段は、
上記第１の音声データを一時的に記憶する第２の記憶手段と、
上記第１及び第２の記憶手段を制御する制御手段と
を具え、
上記制御手段は、
上記所定音を発音させる際、上記対応する第２の音声データを上記第１の記憶手段から読み出させると共に、上記第１の記憶手段から読み出された上記第２の音声データを上記第２の記憶手段が上記一時的に記憶している上記第１の音声データの一部に代えて当該第２の記憶手段に記憶させるようにして、上記第２の音声データを上記第１の音声データの一部と置き換えて出力させる
を具えることを特徴とする請求項１に記載の音声データ処理装置。
上記置換え手段は、
上記第１の音声データ又は上記第１の記憶手段から読み出された上記第２の音声データのいずれか一方を選択的に切り替えて出力する切替え手段と、
上記第１の記憶手段及び上記切替え手段を制御する制御手段と
を具え、
上記制御手段は、
上記所定音を発音させる際、上記対応する第２の音声データを上記第１の記憶手段から読み出させると共に、上記第１の記憶手段から読み出された上記第２の音声データを上記切替え手段に選択させるようにして、上記第２の音声データを上記第１の音声データの一部と置き換えて出力させる制御手段と
を具えることを特徴とする請求項１に記載の音声データ処理装置。
各上記第２の音声データは、
それぞれ上記所定音の音声データを対応する上記音声フォーマット及びビットレートごとにそれぞれ定められたフレームサイズで上記エンコードすることにより得られた
ことを特徴とする請求項１に記載の音声データ処理装置。
上記置換え手段は、
上記第１の記憶手段に記憶された各上記第２の音声データの使用頻度を記憶し、
上記第１の記憶手段に記憶されたいずれかの上記第２の音声データの削除が必要となったときには、上記使用頻度の少ない上記第２の音声データを削除させる
ことを特徴とする請求項１に記載の音声データ処理装置。
上記置換え手段は、
上記第１の音声データのフレームの区切り目において当該第１の音声データから上記第２の音声データに切り替わり、かつ上記第１の音声データのフレームの区切り目において上記第２の音声データから上記第１の音声データに切り替わるように、上記第１の記憶手段から読み出された上記第２の音声データを上記第１の音声データの一部に置き換えて出力する
ことを特徴とする請求項１に記載の音声データ処理装置。
上記置換え手段は、
上記第２の記憶手段に格納されている上記第１の音声データの各フレームの中から、上記第１の記憶手段から読み出させる上記第２の音声データのフレーム数と同数の上記フレームを削除し、当該削除した上記第１の音声データの各上記フレームに代えて、上記第１の記憶手段から読み出させた上記第２の音声データの各上記フレームを上記第２の記憶手段に記憶させることにより、上記第２の音声データを上記第１の音声データの一部と置き換えさせる
ことを特徴とする請求項２に記載の音声データ処理装置。
上記切替え手段は、
上記第１の音声データを一時的に記憶する第４の記憶手段を具える
ことを特徴とする請求項３に記載の音声データ処理装置。
上記置換え手段は、
上記第１の記憶手段の制御と、当該第１の記憶手段から読み出された上記対応する第２の音声データを上記第１の音声データの一部と置き換える処理とを所定のシステムクロックに同期して行う
ことを特徴とする請求項１に記載の音声データ処理装置。
上記置換え手段は、
上記第１の音声データにおける音量レベルの低い箇所を検出し、上記第１の記憶手段から読み出された上記第２の音声データを、上記第１の音声データの当該箇所と置き換えるようにして、上記第１の音声データの一部と置き換える
ことを特徴とする請求項１に記載の音声データ処理装置。
複数の音声フォーマットの第１の音声データを取り扱う機器における音声データ処理方法において、
所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１のステップと、
上記所定音を発音させる際、記憶した上記複数の第２の音声データのうち、出力対象の上記第１の音声データの音声フォーマットと同じ上記音声フォーマットの対応する上記第２の音声データを、上記第１の音声データの一部と置き換えて出力する第２のステップと
を具えることを特徴とする音声データ処理方法。
上記第２のステップは、
上記出力対象の第１の音声データを一時的に記憶する記憶ステップと、
上記所定音を発音させる際、上記対応する第２の音声データを、上記一時的に記憶した上記第１の音声データの一部に代えて記憶する置換えステップと、
当該記憶した上記第１及び第２の音声データを順次出力することにより、上記第２の音声データを上記第１の音声データの一部と置き換えて出力する出力ステップと
を具えることを特徴とする請求項１１に記載の音声データ処理方法。
上記第２のステップでは、
上記所定音を発音させる際、上記対応する第２の音声データと、上記第１の音声データとを選択的に切り替えて出力することにより、上記第２の音声データを上記第１の音声データの一部と置き換えて出力させる
を具えることを特徴とする請求項１１に記載の音声データ処理方法。
各上記第２の音声データは、
上記第１の音声データを対応する上記音声フォーマット及びビットレートごとにそれぞれ定められたフレームサイズで上記エンコードすることにより得られた
ことを特徴とする請求項１１に記載の音声データ処理方法。
上記第２のステップは、
記憶した各上記第２の音声データの使用頻度を記憶する記憶ステップと、
当該記憶したいずれかの上記第２の音声データの削除が必要となったときには、上記使用頻度の少ない上記第２の音声データを削除する削除ステップと
を具えることを特徴とする請求項１１に記載の音声データ処理方法。
上記第２のステップでは、
上記第１の音声データのフレームの区切り目において当該第１の音声データから上記第２の音声データに切り替わり、かつ上記第１の音声データのフレームの区切り目において上記第２の音声データから上記第１の音声データに切り替わるように、上記対応する第２の音声データを上記第１の音声データの一部に置き換えて出力する
ことを特徴とする請求項１１に記載の音声データ処理方法。
上記第２のステップでは、
上記一時的に記憶した上記第１の音声データの各フレームの中から、上記対応する第２の音声データのフレーム数と同数の上記フレームを削除し、当該削除した上記第１の音声データの各上記フレームに代えて、上記対応する第２の音声データの各上記フレームを記憶することにより、上記第２の音声データを上記第１の音声データの一部と置き換える
ことを特徴とする請求項１２に記載の音声データ処理方法。
上記第２のステップは、
上記出力対象の第１の音声データを一時的に記憶する記憶ステップを具える
ことを特徴とする請求項１３に記載の音声データ処理方法。
上記第２のステップでは、
上記対応する第２の音声データを上記第１の音声データの一部と置き換える処理を所定のシステムクロックに同期して行う
ことを特徴とする請求項１１に記載の音声データ処理方法。
上記第２のステップでは、
上記出力対象の第１の音声データにおける音量レベルの低い箇所を検出し、上記対応する第２の音声データを、当該第１の音声データの当該箇所と置き換えるようにして、上記第１の音声データの一部と置き換える
ことを特徴とする請求項１１に記載の音声データ処理方法。
複数の音声フォーマットの第１の音声データを取り扱う機器に搭載される音声データ処理装置において、
所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１の記憶手段と、
上記所定音を発音させる際、上記第１の記憶手段を制御して、出力対象の上記第１の音声データの音声フォーマットと同じ上記音声フォーマットの対応する上記第２の音声データを当該第１の記憶手段から読み出させ、当該第１の記憶手段から読み出された上記第２の音声データを、上記第１の音声データの一部と置き換えて出力する置換え手段と、
上記所定音の音声データを所望の上記音声フォーマットでエンコードすることにより得られた上記第２の音声データを記録媒体から又はネットワークを介して取得する取得手段と
を具え、
上記置換え手段は、
上記出力対象の第１の音声データと同じ上記音声フォーマットの上記第２の音声データが上記第１の記憶手段に格納されていないときは、上記取得手段を制御して当該音声フォーマットの上記第２の音声データを取得させると共に、上記第１の記憶手段を制御して当該第２の音声データを記憶させる
ことを特徴とする音声データ処理装置。
複数の音声フォーマットの第１の音声データを取り扱う機器における音声データ処理方法において、
所定音の音声データを複数の音声フォーマットでそれぞれエンコードすることにより得られた複数の第２の音声データを記憶する第１のステップと、
上記所定音を発音させる際、記憶した上記複数の第２の音声データのうち、出力対象の上記第１の音声データの音声フォーマットと同じ上記音声フォーマットの対応する上記第２の音声データを、上記第１の音声データの一部と置き換えて出力する第２のステップと
を具え、
上記第２のステップでは、
上記出力対象の第１の音声データと同じ上記音声フォーマットの上記第２の音声データを記憶していないときは、当該音声フォーマットの上記第２の音声データを記録媒体から又はネットワークを介して取得して記憶する
ことを特徴とする音声データ処理方法。