JP6182894B2

JP6182894B2 - 音響処理装置および音響処理方法

Info

Publication number: JP6182894B2
Application number: JP2013028988A
Authority: JP
Inventors: 誠橘; 橘　　誠; 嘉山　啓; 啓嘉山; 久湊　裕司; 裕司久湊; 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-02-18
Filing date: 2013-02-18
Publication date: 2017-08-23
Anticipated expiration: 2033-02-18
Also published as: JP2014157325A

Description

本発明は、音声信号の音響特性を制御する技術に関する。

音声信号の音響特性を制御する技術が従来から提案されている。例えば特許文献１には、素片接続型の音声合成で生成される歌唱音の明瞭度を制御する技術が開示されている。また、特許文献２には、音声信号の気息性（ブレスネス）を制御する技術が開示されている。

特開２００９−２８８６１５号公報特開２００７−３１０１９２号公報

特許文献１や特許文献２の技術では、明瞭度や気息性等の音響特性が相違する多様な音声信号の生成が実現されるが、現実の応用の場面では、音響特性の制御後の音声信号の再生音を受聴する受聴者が再生音を単調な印象と知覚する可能性も否定できない。例えば、多数の受聴者を収容した音響空間（例えばコンサートホールやライブホール）で音声信号を再生した場合を想定すると、受聴者が歌唱音の再生とともに一斉に盛上がっても再生音の音響特性は変動しないから、再生音が単調な印象と知覚され得る。以上の事情を考慮して、本発明は、音響特性の変化に富んだ音声信号を生成することを目的とする。

以上の課題を解決するために、本発明の第１態様に係る音響処理装置は、歌唱音の音声信号を再生させる音声制御手段と、音声信号の再生音を聴取する受聴者の状況に応じた再生状況情報を生成する情報生成手段とを具備し、音声制御手段は、情報生成手段が生成した再生状況情報に応じて音声信号の音響特性を制御する。以上の構成では、音声信号の再生音を聴取する受聴者（人間や人間以外の動物）の状況に応じて音声信号の音響特性が制御されるから、再生音の受聴者の状況（再生状況）に応じた多様な音声信号を生成できるという利点がある。なお、第１態様に係る音響処理装置の具体例は、例えば第１実施形態として後述される。

第１態様に係る音響処理装置の好適例において、情報生成手段は、受聴者の動作（例えば発声や手拍子等の動作や通信端末を利用した投稿）に応じた再生状況情報を生成する。例えば、受聴者が発音した音響の特徴量に応じた再生状況情報を情報生成手段が生成する構成や、各受聴者からの指示により当該受聴者の通信端末から送信された投稿情報に応じた再生状況情報を情報生成手段が生成する構成が好適である。以上の態様では、受聴者の状況（盛上がりの度合）に応じた音響特性の音声信号が生成される。また、受聴者が盛上がるほど、受聴者の動作（発声や手拍子や跳躍等）の特徴量と歌唱音の特徴量（旋律や拍点）とが接近するという傾向がある。以上の傾向を考慮すると、受聴者の動作（歌唱や手拍子や跳躍等）の特徴量と歌唱音の特徴量（旋律や拍点）との類似度に応じた再生状況情報を情報生成手段が生成することも可能である。

本発明の第２態様に係る音響処理装置は、歌唱音の音声信号を再生させる音声制御手段と、音声信号の再生音と並列に演奏される楽器の演奏状況に応じた演奏状況情報を生成する情報生成手段とを具備し、音声制御手段は、情報生成手段が生成した演奏状況情報に応じて音声信号の音響特性を制御する。以上の構成では、音声信号の再生音と並列に演奏される楽器の演奏状況に応じて音声信号の音響特性が制御されるから、楽器の演奏状況に応じた多様な音声信号を生成できるという利点がある。なお、第２態様に係る音響処理装置の具体例は、例えば第２実施形態として後述される。

本発明の第３態様に係る音響処理装置は、歌唱音の音声信号を再生させる音声制御手段と、音声信号の歌唱音の楽曲に関連する楽曲関連情報を生成する情報生成手段とを具備し、音声制御手段は、情報生成手段が生成した楽曲関連情報に応じて音声信号の音響特性を制御する。以上の構成では、音声信号の歌唱音の楽曲に関連する楽曲関連情報に応じて音声信号の音響特性が制御されるから、楽曲の内容等に応じた多様な音声信号を生成できるという利点がある。なお、第３態様に係る音響処理装置の具体例は、例えば第３実施形態として後述される。

第１態様から第３態様に係る音響処理装置の好適例において、音声制御手段は、音高と発音記号とを時系列に指定する楽曲情報を利用した音声合成で歌唱音の音声信号を生成する。以上の構成によれば、単調な印象と知覚され易い傾向にある合成音を多様な音響特性で再生できるという利点がある。

第１態様から第３態様に係る音響処理装置の好適例において、音声制御手段は、音声信号の音響特性として、音量、音高、気息性、明瞭度、オーバーシュートの度合、プレパレーションの度合、ビブラートの深度およびビブラートの速度の少なくともひとつを制御する。ただし、制御対象となる音響特性は以上の例示に限定されない。また、音声制御手段が複数の音声素片を利用した素片接続型の音声合成で音声信号を生成する構成では、各音声素片の音素（特に母音）の継続長を再生状況情報に応じて制御することも可能である。

以上の各態様に係る音響処理装置は、音声信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

第１態様に係るプログラムは、歌唱音の音声信号を再生させる音声制御処理と、音声信号の再生音を聴取する受聴者の状況に応じた再生状況情報を生成する情報生成処理とをコンピュータに実行させるプログラムであって、音声制御処理では、情報生成処理で生成した再生状況情報に応じて音声信号の音響特性を制御する。第２態様に係るプログラムは、歌唱音の音声信号を再生させる音声制御処理と、音声信号の再生音と並列に演奏される楽器の演奏状況に応じた演奏状況情報を生成する情報生成処理とをコンピュータに実行させるプログラムであって、音声制御処理では、情報生成処理で生成した演奏状況情報に応じて音声信号の音響特性を制御する。第３態様に係るプログラムは、歌唱音の音声信号を再生させる音声制御処理と、音声信号の歌唱音の楽曲に関連する楽曲関連情報を生成する情報生成処理とをコンピュータに実行させるプログラムであって、音声制御処理では、情報生成処理で生成した楽曲関連情報に応じて音声信号の音響特性を制御する。

第１実施形態の音響処理装置のブロック図である。第２実施形態の音響処理装置のブロック図である。第３実施形態の音響処理装置のブロック図である。歌唱表現（プレパレーションおよびオーバーシュート）の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００Aのブロック図である。第１実施形態の音響処理装置１００Aには検出装置１２と再生装置１４とが接続される。検出装置１２および再生装置１４は、コンサートホールやライブハウス等の音響空間Ｈ内に設置される。検出装置１２は、音響空間Ｈ内の音響を収音する収音機器（マイクロホン）であり、再生装置１４は、音響空間Ｈ内に音響を放射する放音機器（スピーカ）である。

第１実施形態の音響処理装置１００Aは、楽曲の歌唱音の波形を示す音声信号Ｖを再生装置１４に供給する信号処理装置である。したがって、楽曲の歌唱音が再生装置１４から音響空間Ｈ内に再生される。音響空間Ｈ内には、再生装置１４が再生する歌唱音を受聴する多数の受聴者（聴衆）Ｒが存在する。検出装置１２は、多数の受聴者Ｒの動作に起因した音響を収音するように音響空間Ｈ内に設置される。具体的には、第１実施形態の検出装置１２は、音響空間Ｈ内の多数の受聴者Ｒが発音した音響（例えば歓声や拍手音）を収音する。

図１に示すように、音響処理装置１００Aは、演算処理装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２が実行するプログラムＰGMや演算処理装置２２が使用する各種のデータ（音声素片群Ｌ，楽曲情報Ｓ）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置２４として任意に採用される。

第１実施形態の記憶装置２４は、音声素片群Ｌと楽曲情報Ｓとを記憶する。音声素片群Ｌは、音声信号Ｖの合成用の素材として利用される複数の音声素片の集合（音声合成ライブラリ）である。音声素片は、言語的な意味の区別の最小単位である音素（例えば母音や子音）の単体や複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。楽曲情報Ｓは、楽曲を構成する各音符の音高（歌唱パートの旋律）と発音記号（歌詞）とを時系列に指定する時系列データである。音声信号Ｖの生成に適用される各種の変数（例えば明瞭度等）の数値も楽曲情報Ｓにて時系列に指定される。

演算処理装置２２は、記憶装置２４に記憶されたプログラムＰGMを実行することで、音声信号Ｖを生成するための複数の機能（情報生成部３２，音声制御部３４）を実現する。なお、演算処理装置２２の各機能を複数の集積回路に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置２２の一部の機能を実現する構成も採用され得る。

情報生成部３２は、検出装置１２による検出結果に応じて再生状況情報ＤAを生成する。再生状況情報ＤAは、音響空間Ｈ内の受聴者Ｒの状況に応じたデータである。具体的には、第１実施形態の情報生成部３２は、音響空間Ｈ内の多数の受聴者Ｒが発音した音響の音量を示す再生状況情報ＤAを検出装置１２による検出結果（音響空間Ｈ内の収録音）から生成する。例えば再生状況情報ＤAは、受聴者Ｒが発声した音声（歓声）の音量や受聴者Ｒの拍手の音量を指定する。各受聴者Ｒが楽曲の歌唱音の再生とともに一斉に盛上がると、各受聴者Ｒが発声や拍手等の動作で発音する音響（発声音や拍手音）の音量が増加する。したがって、再生状況情報ＤAは、音響空間Ｈ内の雰囲気の盛上がりの度合の指標として利用され得る。

図１の音声制御部３４は、音声信号Ｖを生成して再生装置１４に再生させる。第１実施形態の音声制御部３４は、記憶装置２４に記憶された音声素片群Ｌの各音声素片を相互に接続する素片接続型の音声合成により、記憶装置２４に記憶された楽曲情報Ｓが指定する楽曲の歌唱音の音声信号Ｖを生成する。具体的には、音声制御部３４は、楽曲情報Ｓが指定する発音記号に対応する音声素片を音声素片群Ｌから順次に選択し、楽曲情報Ｓで指定される音高に各音声素片を調整して相互に接続することで音声信号Ｖを生成する。なお、音声制御部３４が音声信号Ｖを生成する方法は、素片接続型の音声合成に限定されない。例えば、隠れマルコフモデル（ＨＭＭ）等の統計モデルを利用した音響特性の制御で音声信号Ｖを合成する統計モデル型の音声合成を採用することも可能である。

音声制御部３４は、音声信号Ｖの音響特性を可変に制御することが可能である。第１実施形態の音声制御部３４は、情報生成部３２が生成した再生状況情報ＤAに応じて音声信号Ｖの音響特性を動的に制御する。具体的には、音声制御部３４は、音声合成に適用する各種の変数を再生状況情報ＤAに応じて可変に設定することで音声信号Ｖの聴感的な明瞭度（ブライトネス）を変更する。音声信号Ｖの明瞭度の制御には、例えば特許文献１の技術が採用され得る。

ところで、雑音等の環境音の音量が大きい状況では発声者の音声の音響特性が非線形に変化する（例えば音量や明瞭度や音高の変動が発生する）という現象（ロンバード(Lombard)効果）が観察される。以上の傾向を考慮して、第１実施形態では、再生状況情報ＤAが示す音量（音響空間Ｈ内の受聴者Ｒの動作に起因した音響の音量）が大きいほど音声信号Ｖの明瞭度が増加するように、音声制御部３４は音声信号Ｖの音響特性を制御する。したがって、音響空間Ｈ内の多数の受聴者Ｒの発声音が大きい（すなわち音響空間Ｈ内の雰囲気が盛上がる）ほど、音声信号Ｖの再生音の明瞭度が増加するという傾向がある。すなわち、ロンバード効果が再現される。

以上に説明した通り、第１実施形態では、音響空間Ｈ内の受聴者Ｒの状況（発声音の音量）を示す再生状況情報ＤAに応じて音声信号Ｖの音響特性が可変に制御される。したがって、音声信号Ｖの音響特性が受聴者Ｒの状況に依存しない構成と比較して、音響特性の変化に富んだ多様な音声信号Ｖを生成できるという利点がある。第１実施形態では特に、音響空間Ｈ内の多数の受聴者Ｒが発音した音響の音量に応じて音声信号Ｖの明瞭度が制御されるから、音響空間Ｈ内の雰囲気の盛上がりに適合した歌唱音を音響空間Ｈ内に再生できるという利点がある。

＜第１実施形態の変形例＞
（１）第１実施形態では、音響空間Ｈ内の受聴者Ｒが発音した音響（発声音や拍手音）の音量を示す再生状況情報ＤAを例示したが、再生状況情報ＤAの内容は音量に限定されない。例えば、音響空間Ｈ内の多数の受聴者Ｒを撮像する撮像装置（ビデオカメラ）を検出装置１２として利用した構成では、検出装置１２が撮像した動画像から特定される各受聴者Ｒの動作（例えば音声信号Ｖの再生音に同期して手や身体を振る動作）の動作量の平均値を情報生成部３２が再生状況情報ＤAとして生成することが可能である。例えば、動画像において相前後する画像間の変化量に応じて再生状況情報ＤAが生成される。音声制御部３４は、再生状況情報ＤAに応じて音声信号Ｖの音響特性を動的に制御する。例えば、音響空間Ｈ内の雰囲気が盛上がるほど各受聴者Ｒの動作量が増加するという傾向がある。以上の傾向を考慮すると、再生状況情報ＤAが示す動作量が大きいほど音声制御部３４が音声信号Ｖの明瞭度を増加させる構成が好適である。

（２）音声信号Ｖの再生とともに音響空間Ｈ内の雰囲気が盛上がるほど、受聴者Ｒの動作の特徴量と歌唱音の特徴量とが接近するという傾向がある。例えば、音響空間Ｈ内の雰囲気が盛上がるほど、多数の受聴者Ｒが音声信号Ｖの再生音に並行して大音量で歌唱するという関係を前提とした場合、音響空間Ｈ内の雰囲気が盛上がるほど受聴者Ｒが発音する音声の特徴量（音高やリズム）と音声信号Ｖの再生音の特徴量とが接近するという傾向が想定される。また、例えば、音響空間Ｈ内の雰囲気が盛上がるほど、多数の受聴者Ｒが音声信号Ｖの再生音に同期して拍手するという関係を前提とした場合、音響空間Ｈ内の雰囲気が盛上がるほど受聴者Ｒの拍手のリズムと音声信号Ｖの再生音のリズム（拍点の間隔や時点）とが接近するという傾向が想定される。以上に例示した傾向を考慮すると、受聴者Ｒの動作の特徴量と音声信号Ｖの再生音の特徴量との類似度（相関や距離）に応じた再生状況情報ＤAを情報生成部３２が生成する構成が好適である。音声制御部３４は、再生状況情報ＤAが示す類似度が高い（すなわち各受聴者Ｒの動作が音声信号Ｖの再生音に同調して音響空間Ｈ内の雰囲気が盛上がる）ほど音声信号Ｖの明瞭度を増加させる。

（３）ＳＮＳ（Social Networking Service）等の通信サービスでは、携帯電話機やスマートフォン等の可搬型の通信端末に対する所定の操作を契機として、利用者による評価や投稿を意味する投稿情報が、通信端末から通信網（例えばインターネット）を介して特定のＳＮＳサーバ装置に送信され得る。以上の構成では、音響空間Ｈ内の多数の受聴者Ｒが自身の通信端末に対して投稿情報（音声信号Ｖの再生音に関する評価や投稿）の送信を指示した総回数（投稿回数）に応じて再生状況情報ＤAを生成することも可能である。音響空間Ｈ内の雰囲気が盛上がるほど各受聴者Ｒによる投稿回数は増加するという傾向が想定される。したがって、投稿回数を示す再生状況情報ＤAは、前述の第１実施形態と同様に、音響空間Ｈ内の雰囲気の盛上がりの度合の指標として利用され得る。音声制御部３４は、例えば、再生状況情報ＤAが示す投稿回数が多い（すなわち音響空間Ｈ内の雰囲気が盛上がる）ほど音声信号Ｖの明瞭度を増加させる。なお、以上の例示では、音響空間Ｈ内の受聴者Ｒによる投稿回数に着目したが、例えばインターネット等の通信網を介して音響空間Ｈ内の再生状況を各通信端末（音響空間Ｈの内外は不問）対する動画配信で中継するとともに各通信端末からのコメントの投稿を受付ける通信サービス（動画配信サービス）を想定すると、複数の受聴者Ｒ（動画の視聴者）が投稿したコメントの総数を示す再生状況情報ＤAを情報生成部３２が生成することも可能である。

以上の説明から理解される通り、再生状況情報ＤAは、音声信号Ｖの再生音を受聴する受聴者Ｒの状況（発声、手拍子、投稿等の動作）に応じた情報として包括的に表現される。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図２は、第２実施形態の音響処理装置１００Bのブロック図である。図２に示す通り、第２実施形態では、音響空間Ｈ内の複数の演奏者（バックバンド）の各々が音声信号Ｖの再生と並行して楽器Ｉを演奏する状況を想定する。第２実施形態の検出装置１２は、各楽器Ｉの演奏音を収音して演奏音の波形を示す楽音信号Ｍを生成する。なお、以上の説明では各楽器Ｉの演奏音を収音する場合を例示したが、エレキギター等の電子楽器（電気楽器）の演奏を想定すると、各電子楽器が生成する電気信号を検出装置１２が楽音信号Ｍとして検出することも可能である。

第２実施形態の音響処理装置１００Bの演算処理装置２２は、第１実施形態と同様の要素（情報生成部３２，音声制御部３４）に加えて再生処理部３６として機能する。再生処理部３６は、検出装置１２が生成する楽音信号Ｍと音声制御部３４が生成する音声信号Ｖとの各々に対して所定の音響処理（例えば各種の効果付与処理）を実行するとともに任意の混合比で混合したうえで再生装置１４に供給する。すなわち、各演奏者が楽器Ｉで演奏した楽音を伴奏音として音声信号Ｖの歌唱音が音響空間Ｈ内に再生される。なお、楽音信号Ｍと音声信号Ｖとを個別に再生する（すなわち両者を混合せずに個別に再生する）ことも可能である。

第２実施形態の情報生成部３２は、検出装置１２による検出結果（楽音信号Ｍ）に応じた演奏状況情報ＤBを生成する。演奏状況情報ＤBは、音声信号Ｖの再生と並列に演奏される各楽器Ｉの演奏状況に応じたデータである。具体的には、第２実施形態の情報生成部３２は、音響空間Ｈ内の複数の楽器Ｉの演奏音の音量（例えば複数の楽器Ｉにわたる合計値）を示す演奏状況情報ＤBを生成する。音響空間Ｈ内の雰囲気が盛上がると、各楽器Ｉの楽音の音量も増加する（あるいは、各楽器Ｉの楽音の音量が増加すると音響空間Ｈ内の雰囲気が盛上がる）という傾向がある。したがって、演奏状況情報ＤBは、第１実施形態の再生状況情報ＤAと同様に、音響空間Ｈ内の雰囲気の盛上がりの度合の指標として利用され得る。

第２実施形態の音声制御部３４は、情報生成部３２が生成した演奏状況情報ＤBに応じて音声信号Ｖの音響特性（例えば明瞭度）を制御する。具体的には、演奏状況情報ＤBが示す音量が大きい（すなわち音響空間Ｈ内の雰囲気が盛上がる）ほど、音声制御部３４は音声信号Ｖの明瞭度を増加させる。したがって、第１実施形態と同様に、音響特性の変化に富んだ多様な音声信号Ｖを生成できるという効果が実現される。

＜第２実施形態の変形例＞
第２実施形態では、音響空間Ｈ内の各楽器Ｉの演奏音の音量を示す演奏状況情報ＤBを例示したが、演奏状況情報ＤBの内容は演奏音の音量に限定されない。例えば、音響空間Ｈ内で実際に演奏されている楽器Ｉの総数を示す演奏状況情報ＤBを情報生成部３２が生成することも可能である。音響空間Ｈ内で演奏される楽器Ｉの総数が増加するほど音響空間Ｈ内の雰囲気が盛上がるという傾向がある。以上の傾向を考慮して、演奏状況情報ＤBが示す楽器Ｉの総数が多いほど、音声制御部３４は音声信号Ｖの明瞭度を増加させる。なお、楽器Ｉの総数に代えて、楽器Ｉの種類数（音響空間Ｈ内で発音されている音色の種類数）を示す演奏状況情報ＤBを情報生成部３２が生成する構成も好適である。

以上の説明から理解される通り、演奏状況情報ＤBは、音声信号Ｖの再生と並列に演奏される１以上の楽器Ｉの演奏状況に応じた情報として包括される。

＜第３実施形態＞
図３は、第３実施形態の音響処理装置１００Cのブロック図である。図３に示す通り、第３実施形態では前述の各形態の検出装置１２が省略される。他方、記憶装置２４に記憶された楽曲情報Ｓは、楽曲内のキー（調）を時系列に指定する情報を内包する。第３実施形態の情報生成部３２は、記憶装置２４内の楽曲情報Ｓが指定する楽曲（すなわち、音声信号Ｖが示す歌唱音に対応する楽曲）に関連する楽曲関連情報ＤCを生成する。具体的には、楽曲関連情報ＤCは、楽曲情報Ｓが指定する楽曲のキーの時系列を示すデータである。

第３実施形態の音声制御部３４は、情報生成部３２が生成した楽曲関連情報ＤCに応じて音声信号Ｖの音響特性（例えば明瞭度）を制御する。具体的には、音声制御部３４は、楽曲関連情報ＤCが指定するキーが長調（メジャー）である場合に、楽曲関連情報ＤCが短調（マイナー）を指定する場合と比較して音声信号Ｖの明瞭度を増加させる。したがって、第１実施形態と同様に、音響特性の変化に富んだ多様な音声信号Ｖを生成できるという利点がある。

＜第３実施形態の変形例＞
（１）第３実施形態では、楽曲のキーに応じた楽曲関連情報ＤCを例示したが、楽曲関連情報ＤCの内容は楽曲のキーに限定されない。例えば、楽曲情報Ｓが楽曲のジャンルの情報を内包する構成では、楽曲情報Ｓが指定するジャンルに応じた楽曲関連情報ＤCを情報生成部３２が生成することも可能である。音声制御部３４は、楽曲関連情報ＤCが示すジャンルに応じて音声信号Ｖの音響特性を制御する。例えば、音声制御部３４は、楽曲関連情報ＤCが示すジャンルがロックやポップスである場合に、楽曲関連情報ＤCが演歌を示す場合と比較して音声信号Ｖの明瞭度を増加させる。

（２）楽曲のサビの内外（楽曲の歌唱中の各時点がサビに該当するか否か）を時系列に示す楽曲関連情報ＤCを情報生成部３２が生成することも可能である。例えば、楽曲の各構成部（イントロ，Ａメロ，Ｂメロ，サビ等）を時系列に指定する情報が楽曲情報Ｓに内包された構成では、楽曲情報Ｓを参照することで情報生成部３２が楽曲関連情報ＤCを生成する。音声制御部３４は、楽曲関連情報ＤCがサビ（特定の区間）を示す場合に、楽曲関連情報ＤCがサビ以外を示す場合と比較して音声信号Ｖの明瞭度を増加させる。

（３）相異なる楽器に対応する複数のパートで構成される伴奏音を指定する伴奏情報が楽曲毎に記憶装置２４に記憶された構成も好適である。伴奏情報は、例えば楽曲情報Ｓに内包されたＭＩＤＩ（Musical Instrument Digital Interface）形式の時系列データである。伴奏情報で指定される伴奏音の楽音信号が演算処理装置２２にて生成され、音声制御部３４が生成した音声信号Ｖとともに再生装置１４から再生される。すなわち、伴奏情報で指定される伴奏音のもとで音声信号Ｖの歌唱音が音響空間Ｈ内に再生される。以上の構成では、伴奏情報に応じた楽曲関連情報ＤCを情報生成部３２が生成することも可能である。例えば、情報生成部３２は、伴奏情報が指定する伴奏音の同時発音数（同時に発音するパートの総数やＭＩＤＩデータのトラックの総数）に応じた楽曲関連情報ＤCを生成する。音声制御部３４は、例えば、楽曲関連情報ＤCが示す伴奏音の同時発音数が多い（例えば音響空間Ｈ内の雰囲気が盛上がる）ほど音声信号Ｖの明瞭度を増加させる。

以上の例示から理解される通り、楽曲関連情報ＤCは、音声信号Ｖの歌唱音に対応する楽曲（楽曲情報Ｓが指定する楽曲）に関連する情報として包括される。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。なお、以下の説明では、前述の各形態において音声信号Ｖの音響特性の制御に適用される情報（再生状況情報ＤA，演奏状況情報ＤB，楽曲関連情報ＤC）を制御情報Ｄとして包括的に表記する。

（１）前述の各形態では音声信号Ｖの明瞭度を制御したが、制御情報Ｄに応じて制御される音響特性は明瞭度に限定されない。例えば以下に例示する音響特性を制御情報Ｄに応じて制御することが可能である。

［ａ］音量
音声信号Ｖの音量を制御情報Ｄに応じて制御することが可能である。例えば、音響空間Ｈ内の雰囲気が盛上がるほど、音声制御部３４は音声信号Ｖの音量を増加させる。

［ｂ］気息性
音声信号Ｖの気息性を制御情報Ｄに応じて制御することが可能である。例えば、音響空間Ｈ内の雰囲気が平静である（盛下がる）ほど、音声制御部３４は音声信号Ｖの気息性を増加させる（例えば囁き声に接近させる）。音声信号Ｖの気息性の制御には、例えば特許文献２の技術が採用される。音声信号Ｖの気息性や明瞭度を制御する構成は、音声信号Ｖの声質（表情）を制御する構成として包括される。

［ｃ］オーバーシュート，プレパレーション
音高の変動に直前に逆方向に音高を変動させるプレパレーションや、音高の変動時に音高を一時的に過剰に変動させるオーバーシュート等の歌唱表現（歌唱スタイル）を制御情報Ｄに応じて制御することが可能である。例えば、図４には、歌唱音の音高の時間的な変動が、音響空間Ｈ内の雰囲気の盛上がりが大きい場合（実線）と盛上がりが小さい場合（破線）とについて図示されている。図４から理解される通り、音響空間Ｈ内の雰囲気が盛上がるほど、音声制御部３４は音声信号Ｖのオーバーシュートやプレパレーションを強調する。

［ｄ］ビブラート
歌唱音に付与されるビブラートを制御情報Ｄに応じて制御することが可能である。例えば、ビブラートの深度（音高の振幅）や速度（音高の変動の周波数）を制御情報Ｄに応じて制御する構成が好適である。具体的には、音響空間Ｈ内の雰囲気が盛上がるほど、音声制御部３４はビブラートの深度や速度を増加させる（すなわちビブラートを強調する）。

なお、以上に例示したオーバーシュート、プレパレーションおよびビブラートは、歌唱表現の好適例である。歌唱表現の他例としては、こぶし（基本的な旋律内で音声を短時間で微細に変動させる装飾的な節回し）やしゃくり（前述のプレパレーションと同様の節回し）が想定される。以上の説明から理解される通り、音声信号Ｖの歌唱音の歌唱表現（歌唱の抑揚）を制御情報Ｄに応じて制御する構成（歌唱表現を強調または抑制する構成）が好適である。

［ｅ］複数の音響特性の組合せ
音声信号Ｖの複数の音響特性を制御情報Ｄに応じて制御することも可能である。例えば、音声制御部３４は、前述の例示から適宜に選択された２種類以上の音響特性を制御情報Ｄに応じて制御する。

以上の説明から理解される通り、音声制御部３４が制御情報Ｄに応じて制御する音声信号Ｖの音響特性は歌唱音の声質や歌唱表現を包含する。歌唱音の声質の好適例が前述の気息性および明瞭度であり、歌唱表現の好適例が前述のオーバーシュート、プレパレーションおよびビブラートである。また、前述のロンバード効果としては、環境音の音量が大きい状況における発声者の音声の音量の増加や音高の上昇（例えば音声がうわずる）等の現象も観察される。したがって、制御情報Ｄに応じて音声信号Ｖの音量や音高を制御することも可能である。例えば、音響空間Ｈ内の雰囲気が盛上がるほど、音声信号Ｖの音量を増加させたり音声信号Ｖの音高を上昇させたりする（ただし楽曲情報Ｓで指定される音高の範囲内で）構成が想定される。以上の例示から理解される通り、本発明の好適例における音声制御部３４は、音量、音高、気息性、明瞭度、オーバーシュートの度合、プレパレーションの度合、ビブラートの深度およびビブラートの速度の少なくともひとつを制御する要素としても表現される。なお、環境音の音量が大きい状況で発声者の音声の各音素（特に母音）の継続長が長くなるという現象もロンバード効果の好例である。したがって、音声信号Ｖの生成に利用される音声素片の各音素の継続長を制御情報Ｄに応じて伸縮する構成も好適である。例えば、音響空間Ｈ内の雰囲気が盛上がるほど、音声信号Ｖの生成に適用される各音声素片の音素（特に母音）の継続長を伸長する構成が採用される。

（２）前述の各形態では、楽曲情報Ｓが指定する歌唱音の音声信号Ｖを音声制御部３４が音声合成で生成する構成を例示したが、音声信号Ｖを取得する方法は音声合成に限定されない。例えば、事前に収録された歌唱音の音声信号Ｖを記憶装置２４に記憶するとともに音声制御部３４が記憶装置２４から音声信号Ｖを取得して音響特性を制御する構成や、収音機器が収音した音声信号Ｖを音声制御部３４が取得して音響特性を制御する構成も採用される。なお、音声合成以外の方法で音声制御部３４が音声信号Ｖを取得する構成では、例えば周波数帯域毎に強度を調整するイコライジング処理等の各種の音響処理で音声信号Ｖの音響特性を制御する構成が好適である。

また、各音声素片の音響特性が相違する複数の音声素片群Ｌ（例えば囁き声／通常／大声の各音声素片群Ｌ）を記憶装置２４に記憶させ、音声信号Ｖの合成に適用する音声素片群Ｌを音声制御部３４が制御情報Ｄに応じて選択する構成や、複数の音声素片群Ｌの各音声素片を音声制御部３４が制御情報Ｄに応じて補間して音声信号Ｖの合成に利用する構成も採用される。

（３）制御情報Ｄの内容は適宜に変更される。また、複数の制御情報Ｄ（再生状況情報ＤA，演奏状況情報ＤB，楽曲関連情報ＤC）から選択された２以上の制御情報Ｄを音声信号Ｖの制御に適用することも可能である。

（４）通信網に接続されたサーバ装置（典型的にはインターネットに接続されたウェブサーバ）として音響処理装置１００（１００A，１００B，１００C）を実現することも可能である。音響処理装置１００は、音響空間Ｈから離間した位置に設置され、音声制御部３４による制御後の音声信号Ｖが通信網を介して再生装置１４に供給される。検出装置１２を具備する構成（第１実施形態や第２実施形態）では、検出装置１２による検出結果が通信網を介して音響処理装置１００に通知される。また、複数の音響空間Ｈの各々にて生成される音声信号Ｖを通信網上の１個の音響処理装置１００が統括的に制御する構成も採用され得る。

１００A，１００B，１００C……音響処理装置、１２……検出装置、１４……再生装置、２２……演算処理装置、２４……記憶装置、３２……情報生成部、３４……音声制御部、３６……再生処理部。

Claims

歌唱音の音声信号を再生させる音声制御手段と、
前記音声信号の再生音を聴取する受聴者の通信端末から投稿情報が送信された回数に応じた再生状況情報を生成する情報生成手段とを具備し、
前記音声制御手段は、前記情報生成手段が生成した再生状況情報に応じて前記音声信号の音響特性を制御する
音響処理装置。
前記情報生成手段は、前記音声信号の再生音と並列に演奏される楽器の演奏状況に応じた演奏状況情報を生成し、
前記音声制御手段は、前記情報生成手段が生成した再生状況情報および演奏状況情報に応じて前記音声信号の音響特性を制御する
請求項１の音響処理装置。
前記情報生成手段は、前記音声信号の歌唱音の楽曲に関連する楽曲関連情報を生成し、
前記音声制御手段は、前記情報生成手段が生成した再生状況情報および楽曲関連情報に応じた音響特性の音声信号を生成する
請求項１または請求項２の音響処理装置。
前記音声制御手段は、音高と発音記号とを時系列に指定する楽曲情報を利用した音声合成で前記歌唱音の音声信号を生成する
請求項１から請求項３の何れかの音響処理装置。
前記音声制御手段は、前記音声信号の音響特性として、音量、音高、気息性、明瞭度、オーバーシュートの度合、プレパレーションの度合、ビブラートの深度およびビブラートの速度の少なくともひとつを制御する
請求項１から請求項４の何れかの音響処理装置。
歌唱音の音声信号を再生させる音声制御ステップと、
前記音声信号の再生音を聴取する受聴者の通信端末から投稿情報が送信された回数に応じた再生状況情報を生成する情報生成ステップとを含み、
前記音声制御ステップでは、前記情報生成ステップにおいて生成した再生状況情報に応じて前記音声信号の音響特性を制御する
音響処理方法。