JP2008135892A

JP2008135892A - 音声処理装置および音声処理方法

Info

Publication number: JP2008135892A
Application number: JP2006319368A
Authority: JP
Inventors: Katsuaki Yamashita; 功誠山下; Shinichi Honda; 真一本多
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2006-11-27
Filing date: 2006-11-27
Publication date: 2008-06-12
Anticipated expiration: 2026-11-27
Also published as: US8121714B2; JP4823030B2; EP2088590A4; ES2526740T3; US20080269930A1; EP2088590A1; WO2008065731A1; EP2088590B1; CN101361124B; CN101361124A

Abstract

【課題】音声データをサムネイル表示のように同時に確認することは困難である。
【解決手段】音声処理装置１６の入力部１８においてユーザは、記憶装置１２に記憶された音楽データから同時に再生したい複数の音楽データを選択する。再生装置１４は、制御部２０による制御のもと、選択された音楽データをそれぞれ再生し複数の音声信号を生成する。音声処理部２４は制御部２０による制御のもと、各音声信号に対し、周波数帯域の割り当ておよび周波数成分の抽出、時分割、周期的な変調、加工、定位の割り当てを行い、音声信号の分離情報および強調の度合いに係る情報を付加する。ダウンミキサー２６は複数の音声信号を混合し、所定のチャンネル数を有する音声信号として出力し、出力装置３０はそれを音響として出力する。
【選択図】図１

Description

本発明は音声信号を処理する技術に関し、特に複数の音声信号を混合して出力する音声処理装置、およびそれに適用される音声処理方法に関する。

近年の情報処理技術の発展により、記録媒体やネットワーク、放送波などを介して膨大な数のコンテンツを容易に入手できるようになった。例えば音楽のコンテンツは、それを記録したＣＤ（Compact Disk）などの記録媒体を購入する他、ネットワークを介して音楽配信サイトからダウンロードすることが一般的に行われている。ユーザが自分で録画、録音したデータも含めると、ＰＣや再生装置、記録媒体に保存したコンテンツは増大化する一方となる。そのため、このような膨大な数のコンテンツから所望の一のコンテンツを容易に捜索するための技術が必要になってきた。その技術の一つにサムネイル表示がある。

サムネイル表示は複数の静止画や動画を、サイズの小さい静止画像または動画像としてディスプレイに1度に並べて表示する技術である。サムネイル表示により、例えばカメラや録画装置で撮り貯めたりダウンロードしたりした画像データが多数保存され、それらのファイル名や録画日時などの属性情報が分かりづらい場合であっても、一見して内容が把握でき、所望のデータを正確に選択することが可能となった。また複数の画像データを一覧することで、全てのデータをざっと鑑賞したり、それを保存した記録媒体などの中身を短時間で把握したりすることもできるようになった。

サムネイル表示はユーザに対し視覚的に並列に、複数のコンテンツの一部をインプットする技術である。したがって、視覚的に並べることのできない音楽などの音声データについては当然、アルバムのジャケットなど付加的な画像データの仲介なくしてはサムネイル表示を利用することができない。しかしながら個人が所有する音楽コンテンツなどの音声データの数は増加する一方であり、例えば題名や入手日時、付加的な画像データなどの手がかりにおいて判断がつかない場合であっても所望の音声データを容易に選択したり、ざっと鑑賞したりするニーズがあるのは画像データの場合と同様である。

本発明はこのような課題に鑑みてなされたものであり、その目的は、複数の音声データを聴覚上分離して同時に聴かせる技術を提供することにある。

本発明のある態様は音声処理装置に関する。この音声処理装置は、複数の音声信号を同時に再生する音声処理装置であって、ユーザに聴感上分離して聞こえるように各入力音声信号に対して所定の処理を施す音声処理部と、処理を施された前記複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備え、音声処理部は、複数の入力音声信号のそれぞれに対し、周波数帯域を所定の規則で分割してなる複数のブロックから選択されたブロックを割り当て、各入力音声信号から、割り当てたブロックに属する周波数成分を抽出する周波数帯域分割フィルタを備え、周波数帯域分割フィルタは、複数の入力音声信号の少なくともいずれかに、不連続な複数のブロックを割り当てることを特徴とする。

本発明の別の態様は音声処理方法に関する。この音声処理方法は、複数の入力音声信号のそれぞれに対し、互いにマスキングされない周波数帯域を割り当てるステップと、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出するステップと、各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力するステップと、を含むことを特徴とする。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、複数の音声データを聴覚上区別して同時に聴くことができる。

図１は本実施の形態における音声処理装置を含む音声処理システムの全体構造を示している。本実施の形態における音声処理システムは、ユーザがハードディスクなどの記憶装置や記録媒体に保存した複数の音声データを同時に再生し、得られた複数の音声信号にフィルタ処理を施した後、混合して所望のチャンネル数を有する出力音声信号とし、ステレオやイヤホンなどの出力装置から出力する。

複数の音声信号を単に混合して出力するだけでは、それらが互いに打ち消しあったりひとつの音声信号のみが際立って聴こえたりして、画像データのサムネイル表示のようにそれぞれを独立に認識することが難しい。そこで本実施の形態における音声処理装置は、人間が音声を認識するためのメカニズムのうち聴覚抹消系すなわち内耳のレベルでそれぞれの音声信号を相対的に分離し、聴覚中枢系すなわち脳のレベルで独立に認識するための手がかりを与えることにより、複数の音声信号の聴覚上の分離を行う。この処理が上述のフィルタ処理である。

さらに本実施の形態の音声処理装置は、画像データのサムネイル表示においてユーザが１つのサムネイル画像に注目するが如く、ユーザが注意を向ける対象となった音声データの信号を、混合された出力音声信号の中でも強調されるようにする。またはユーザが画像データのサムネイル表示において視点をずらしていくように、複数の音声信号のそれぞれの強調の度合いを多段階的にまたは連続的に変化させて出力する。ここで「強調の度合い」とは、複数の音声信号の“聴こえ易さ”、すなわち聴覚上の認識しやすさを意味する。例えば強調の度合いが他より大きいとき、その音声信号は他の音声信号より鮮明に、大きく、あるいは近くに聞こえる音かもしれない。強調の度合いはそのような人間の感じ方を総合的に考慮した主観的なパラメータである。

強調の度合いを変化させる場合に、単に音量調節をするだけでは、強調したい音声データの信号が別の音声信号にかき消されて結局よく聞き取れず、強調の効果が十分得られなかったり、強調しない音声データの音が聴こえなくなってしまい同時に再生する意味がなくなってしまう可能性は十分残される。これは人間の聴覚上の聴こえ易さが音量の他、周波数特性などと密接に関わっているためである。そのため、ユーザが要求する強調の度合いの変化をユーザ自身が十分認識できるように、上述のフィルタ処理の内容を調整する。以上述べたフィルタ処理の原理、および具体的な処理内容は後に詳述する。

以下の説明において音声データは音楽データとするが、それに限る趣旨ではなく、落語や会議などにおける人声、環境音、放送波に含まれる音声など、音声信号のデータであればよく、それらが混合していてもよい。

音声処理システム１０は、複数の音楽データを記憶する記憶装置１２、複数の音楽データをそれぞれ再生して生成した複数の音声信号が分離して聴こえるように処理を施し、ユーザが要求する強調の度合いを反映させた上で混合する音声処理装置１６、混合された音声信号を音響として出力する出力装置３０を含む。

音声処理システム１０はパーソナルコンピュータや、ポータブルプレーヤなどの音楽再生機器など、一体的またはローカルな接続によって構成してよい。この場合、記憶装置１２はハードディスクやフラッシュメモリ、音声処理装置１６はプロセッサユニット、出力装置３０は内蔵スピーカや外部に接続したスピーカ、イヤホンなどを用いることができる。あるいは記憶装置１２を、音声処理装置１６とネットワークを介して接続されるサーバ内のハードディスクなどで構成してもよい。また記憶装置１２が記憶する音楽データは、ＭＰ３など一般的な符号化形式によって符号化されていてもよい。

音声処理装置１６は、再生する音楽データの選択や強調に係るユーザの指示を入力する入力部１８、ユーザが選択した複数の音楽データをそれぞれ再生して複数の音声信号とする複数の再生装置１４、音声信号の区別や強調をユーザに認識させるために複数の音声信号のそれぞれに対し所定のフィルタ処理を施す音声処理部２４、フィルタ処理が施された複数の音声信号を混合して所望のチャンネル数を有する出力信号を生成するダウンミキサー２６、再生や強調に関するユーザからの選択指示に応じて再生装置１４や音声処理部２４の動作を制御する制御部２０、制御部２０による制御に必要なテーブル、すなわちあらかじめ設定されているパラメータや、記憶装置１２に記憶されている音楽データ個々の情報を記憶する記憶部２２を含む。

入力部１８は、記憶装置１２に記憶されている音楽データから所望の複数の音楽データを選択したり、再生中の複数の音楽データのうち強調する対象を変化させたりするための指示を入力するインターフェースを提供する。入力部１８は例えば、選択対象の音楽データを象徴するアイコンなどの情報を記憶部２２から読み出して一覧表示するとともにカーソルを表示する表示装置と、当該カーソルを動かし画面上のポイントを選択するポインティングデバイスにより構成する。その他、キーボード、トラックボール、ボタン、タッチパネルなど一般的な入力装置、表示装置、それらの組み合わせのいずれでもよい。

なお以後の説明では、記憶装置１２に記憶される音楽データはそれぞれひとつの曲のデータであるとし、曲単位の指示入力、処理を行うものとするが、音楽データがアルバムなど複数の曲の集合であっても同様である。

制御部２０は、入力部１８において、ユーザから再生する音楽データの選択入力があった場合に、その情報を再生装置１４に与えるとともに、再生する音楽データの音声信号ごとに適切な処理が行われるように、必要なパラメータを記憶部２２から取得し、音声処理部２４に対し初期設定を行う。さらに強調する音楽データの選択入力があった場合に、音声処理部２４の設定を変更することによりその入力を反映させる。設定内容は後に詳述する。

再生装置１４は、記憶装置１２に記憶された音楽データのうち、選択されたものを適宜復号して音声信号を生成する。図１では同時に再生可能な音楽データを４つとして、４つの再生装置１４を示しているが、その数はこれに限らない。また、マルチプロセッサなどによって並列に再生処理が可能な場合は、再生装置１４は外観上１つであるが、ここでは各音楽データを再生し、それぞれの音声信号を生成する処理ユニットとして別々に示している。

音声処理部２４は選択された音楽データに対応する音声信号のそれぞれに上述のようなフィルタ処理を施すことにより、ユーザが要求する強調の度合いを反映させた、聴覚上分離して認識できる複数の音声信号を生成する。詳細は後に述べる。

ダウンミキサー２６は入力された複数の音声信号を、必要に応じて各種の調整を行ったうえで混合し、モノラル、ステレオ、５．１チャンネルなど所定のチャンネル数を有する出力信号として出力する。チャンネル数は固定でもよいし、ユーザによりハードウェア的、ソフトウェア的に切り替え設定が可能な構成としてもよい。ダウンミキサー２６は一般的なダウンミキサーで構成してもよい。

記憶部２２はメモリ、ハードディスクなどの記憶素子、記憶装置でよく、記憶装置１２に記憶された音楽データの情報、強調の度合いを示す指標と音声処理部２４に設定されるパラメータとを対応づけたテーブルなどを記憶する。音楽データの情報には、音楽データに対応した曲の曲名、演奏者名、アイコン、ジャンルなど一般的な情報のいずれが含まれていてもよく、さらに音声処理部２４において必要となるパラメータの一部が含まれていてもよい。音楽データの情報は当該音楽データを記憶装置１２に記憶させたときに読み出して記憶部２２に記憶させてもよいし、音声処理装置１６を動作させるたびに記憶装置１２から読み出して記憶部２２に格納するようにしてもよい。

ここで音声処理部２４において行われる処理の内容を明らかにするために、同時に聴こえる複数の音を聞き分ける原理について説明する。人間は、耳における音の感知と、脳における音の解析との２段階によって音を認識する。人間が異なる音源から同時に発せられた音を聞き分けるには、この２段階のいずれかまたは双方において別の音源であることを表す情報、すなわち分離情報を取得できればよい。例えば右耳と左耳とで異なる音を聴くことは、内耳レベルで分離情報を得たことになり、脳において別の音として解析され認識できる。最初から混合されている音の場合は、音脈や音色の違いなどを、これまでの生活で学習し記憶された分離情報と照らして解析することにより、脳レベルで分離することが可能である。

複数の音楽を混合して１組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、上述のように音脈や音色の違いなどを頼りに脳で別の音であることを認識することになるが、そのようにして聞き分けることのできる音は限定的であり、多種多様な音楽に適用することはほとんど不可能である。そこで本発明者は、最終的に混合しても分離して認識できる音声信号を生成するために、以下に述べるように内耳または脳に働きかけを行う分離情報を音声信号に人工的に付加する手法に想到した。

まず内耳レベルで分離情報を与える手法として、周波数帯域での音声信号の分割、および音声信号の時分割について説明する。図２は、周波数帯域分割について説明するための図である。図の横軸は周波数であり周波数ｆ０からｆ８までを可聴帯域とする。同図では曲ａ、曲ｂの２曲の音声信号を混合して聴く場合について示しているが曲の数はいくつでもよい。周波数帯域分割の手法では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。そして各音声信号から、割り当てられたブロックに属する周波数成分のみを抽出する。

図２では、可聴帯域をｆ１、ｆ２、・・・、ｆ７の周波数で８つのブロックに分割している。そして例えば斜線にて示すように、曲ａに対し周波数ｆ１〜ｆ２、ｆ３〜ｆ４、ｆ５〜ｆ６、ｆ７〜ｆ８の４つのブロックを、曲ｂに対し周波数ｆ０〜ｆ１、ｆ２〜ｆ３、ｆ４〜ｆ５、ｆ６〜ｆ７の４つのブロックを割り当てる。ここでブロックの境界となる周波数ｆ１、ｆ２、・・・、ｆ７を、例えばＢａｒｋの２４臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより発揮することができる。

臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。ここでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象であり、マスキング量はその最小可聴値の上昇量である。すなわち、異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明したＢａｒｋの２４個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数ｆ１〜ｆ２のブロックに属する曲ａの周波数成分が、周波数ｆ２〜ｆ３のブロックに属する曲ｂの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、曲ａと曲ｂは互いに打ち消しあうことの少ない音声信号となる。

なお、ブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。

図２に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には周波数帯によって変化させてもよい。例えば臨界帯域２つ分を１つのブロックとする帯域と４つ分を１つのブロックとする帯域があってもよい。ブロックへの分割の仕方（以後、分割パターンと呼ぶ）は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよいし、曲ごとの特徴的な周波数帯域を考慮して決定してもよい。ここで特徴的な周波数帯域とは、例えば主旋律が占める周波数帯域など曲の表現上、重要となる周波数帯域である。特徴的な周波数帯域が重なると予想される場合は、その帯域を細かく分割して均等に割り当て、どちらかの曲において主旋律が聞こえないなどの不具合が発生しないようにすることが望ましい。

また図２に示した例では、一連のブロックを交互に曲ａ、曲ｂに割り当てたが、連続した２つのブロックを曲ａに割り当てるなど、割り当て方はこれに限らない。この場合も、例えばある曲の特徴的な周波数帯域が連続したブロック２つ分に渡るときは当該２つのブロックをその曲に割り当てるなど、周波数帯域分割を行ったことによる悪影響の発生が曲の重要な部分では最低限抑制されるように割り当て方を決定することが望ましい。

一方で、明らかに高域、中域、低域に偏った３曲を混合したい場合など特殊な場合を除き、ブロック数は混合する曲の数より多くし、ひとつの曲に不連続な複数のブロックを割り当てるようにすることが望ましい。これも上述と同様の理由で、特徴的な周波数帯域が重なった場合でも、ある曲の特徴的な周波数帯域の全てが別の曲に割り当てられてしまうことを防止し、より幅広い帯域でおよそ均等に割り当てを行うようにして、平均的に全ての曲が聞こえるようにするためである。

図３は音声信号の時分割について説明するための図である。同図において横軸は時間、縦軸は音声信号の振幅、すなわち音量を示している。この場合も曲ａ、曲ｂの２曲の音声信号を混合して聴く場合を一例として示している。時分割の手法では、共通の周期で音声信号の振幅を変調させる。そしてそのピークが曲によって異なるタイミングで表れるように位相をずらす。内耳レベルへの働きかけのため、このときの周期は数十ミリ秒から数百ミリ秒程度でよい。

図３では共通の周期Ｔで曲ａ、曲ｂの振幅を変調させている。そして曲ａの振幅がピークとなる時刻ｔ０、ｔ２、ｔ４、ｔ６において曲ｂの振幅を小さくし、曲ｂの振幅がピークとなる時刻ｔ１、ｔ３、ｔ５において曲ａの振幅を小さくする。実際には、同図に示すように振幅が最大となる時刻、最小となる時刻がある程度の時間的幅を有するように振幅の変調を行ってもよい。この場合、曲ａの振幅が最小となる時間を曲ｂの振幅が最大となる時間と合わせるようにすることができる。３曲以上を混合する場合でも、曲ａの振幅が最小となる時間に、曲ｂの振幅が最大の時間、曲ｃの振幅が最大の時間を設けることができる。

一方、ピークとなる時刻に時間的幅を持たない正弦波状の変調を行ってもよい。この場合は単に位相をずらして、ピークとなるタイミングを異ならせる。いずれの場合によっても、内耳の時間的分解能を利用して分離情報を与えることができる。

次に脳レベルで分離情報を与える手法について説明する。脳レベルで与える分離情報は、脳において音を分析する際に、各音の音脈を認識する手がかりを与える。本実施の形態では、音声信号に周期的に特定の変化を与える手法、音声信号に定常的に加工処理を施す手法、定位を変化させる手法を導入する。音声信号に周期的に特定の変化を与える手法では、混合する全てまたは一部の音声信号の振幅を変調させたり、周波数特性を変調させたりする。変調は短期間にパルス状に発生させてもよいし、数秒の長時間に渡って緩やかに変化するようにしてもよい。複数の音声信号に共通の変調を行う場合は、そのピークのタイミングを音声信号ごとに異ならせる。

あるいは、周期的にクリック音などのノイズを付加したり一般的なオーディオフィルタによって実現できる加工処理を施したり定位を左右に振ったりしてもよい。これらの変調を組み合わせたり、音声信号によって別の変調を適用したり、タイミングをずらしたりすることにより、音声信号の音脈を気づかせる手がかりを与えることができる。

音声信号に定常的に加工処理を施す手法では、混合する全てまたは一部の音声信号に、一般的なエフェクターで実現できる、エコー、リバーブ、ピッチシフトなどの様々な音響加工の１つまたは組み合わせを施す。定常的に周波数特性を元の音声信号と異ならせてもよい。例えば同じ楽器による同じテンポの曲であっても一方にエコー処理が施されることにより、別の曲として認識しやすくなる。複数の音声信号に加工処理を施す場合は当然、加工内容や加工の強度を音声信号によって異ならせる。

定位を変化させる手法では、混合する全ての音声信号のそれぞれに異なる定位を与える。これにより内耳との協働により脳において音響の空間的な情報解析を行うことで、音声信号を分離しやすくなる。

以上述べた原理を用い、本実施の形態の音声処理装置１６における音声処理部２４は、混合したときに聴感上分離して認識できるように音声信号のそれぞれに対し処理を施す。図４は音声処理部２４の構成を詳細に示している。音声処理部２４は、前処理部４０、周波数帯域分割フィルタ４２、時分割フィルタ４４、変調フィルタ４６、加工フィルタ４８、定位設定フィルタ５０を含む。前処理部４０は、一般的なオートゲインコントローラなどでよく、再生装置１４から入力した複数の音声信号の音量がおよそ揃うようにゲイン調整を行う。

周波数帯域分割フィルタ４２は、上述したように、可聴帯域を分割してなるブロックを各音声信号に割り当て、それぞれの音声信号から割り当てられたブロックに属する周波数成分を抽出する。例えば周波数帯域分割フィルタ４２を、音声信号のチャンネルごと、ブロックごとに設けたバンドパスフィルタ（図示せず）として構成することにより、周波数成分の抽出が可能となる。分割パターンや音声信号へのブロックの割り当て方（以後、割り当てパターンと呼ぶ）は、制御部２０が各バンドパスフィルタなどを制御して周波数帯域の設定や有効なバンドパスフィルタの設定を行うことにより変更することができる。割り当てパターンに関しては、具体例を後に述べる。

時分割フィルタ４４は上述した音声信号の時分割の手法を実施し、各音声信号の振幅を、数十ミリ秒から数百ミリ秒程度の周期で位相を異ならせて時間変調させる。時分割フィルタ４４は、例えばゲインコントローラを時間軸で制御することによって実現できる。変調フィルタ４６は上述した、音声信号に周期的に特定の変化を与える手法を実施し、例えばゲインコントローラ、イコライザ、オーディオフィルタなどを時間軸で制御することによって実現できる。加工フィルタ４８は上述した、音声信号に定常的に特殊効果（以下、加工処理と呼ぶ）を施す手法を実施し、例えばエフェクターなどで実現できる。定位設定フィルタ５０は上述した、定位を変化させる手法を実施し、例えばパンポットなどで実現できる。

本実施の形態では上述のとおり、混合した複数の音声信号を聴覚上分離して認識させたうえで、ある音声信号を強調して聴かせることを実現する。そのため周波数帯域分割フィルタ４２やその他のフィルタ内部で、ユーザが要求する強調の度合いに応じて処理を変更する。さらに音声信号を通過させるフィルタも強調の度合いに応じて選択する。後者の場合、各フィルタにおける音声信号の出力端子にデマルチプレクサを接続するなどする。このとき、制御部２０からの制御信号によって次のフィルタへの入力の可否を設定することにより、次のフィルタの選択、非選択を変更できる。

次に強調の度合いを変化させる具体的な手法について説明する。まず、ユーザが強調したい音楽データを選択する模様について一例を説明する。図５は、４つの音楽データが選択されそれらの音声信号が混合されて出力されている状態において、音声処理装置１６の入力部１８に表示される画面の例を示している。入力画面９０は、題名が「曲ａ」、「曲ｂ」、「曲ｃ」、「曲ｄ」なる再生中の音楽データのアイコン９２ａ、９２ｂ、９２ｃ、９２ｄと、再生を停止するための「停止」ボタン９４、およびカーソル９６を含む。

音声処理装置１６は、再生中の状態でユーザがカーソル９６を入力画面９０上で移動させると、そのカーソルの指し示すアイコンが表す音楽データを強調させたい対象と判断する。図５においてはカーソル９６は「曲ｂ」のアイコン９２ｂを示しているため、「曲ｂ」のアイコン９２ｂに対応する音楽データを強調対象とし、その音声信号を音声処理部２４にて強調するように制御部２０が動作する。このとき、他の３つの音楽データは非強調対象として、音声処理部２４にて同一のフィルタ処理を行うようにしてもよい。これによりユーザには、４つの曲が同時かつ分離して聞こえるとともに、「曲ｂ」のみが特によく聴こえる状態となる。

一方で、カーソル９６からアイコンまでの距離に従い、強調対象の音楽データ以外の音楽データの強調の度合いを変化させてもよい。図５の例では、カーソル９６が示す「曲ｂ」のアイコン９２ｂに対応する音楽データの強調の度合いを最も高くし、カーソル９６が示すポイントから同程度の近距離にある「曲ａ」のアイコン９２ａおよび「曲ｃ」のアイコン９２ｃに対応する音楽データの強調の度合いを中程度とする。そしてカーソル９６が示すポイントから最も離れた「曲ｄ」のアイコン９２ｄに対応する音楽データの強調の度合いを最も低くする。

この態様においては、たとえカーソル９６がいずれかのアイコンを指し示していなくても、指し示しているポイントからの距離で強調の度合いを決定できる。例えば強調の度合いをカーソル９６からの距離に応じて連続的に変化させるとすると、サムネイル表示において視点を徐々にずらしていくのと同様に、カーソル９６の動きに合わせて曲が近づいたり遠のいたりするように聴かせることができる。カーソル９６を導入せず、ユーザからの左右の指示入力によってアイコン自体を画面上で移動させ、画面の真ん中に近いアイコンほど強調の度合いを高くするなどしてもよい。

制御部２０は、入力部１８におけるカーソル９６の動きに係る情報を取得し、それが指し示すポイントからの距離などに応じて、各アイコンに対応する音楽データに対し、強調の度合いを示す指標を設定する。この指標を以後、フォーカス値と呼ぶ。なおここで説明するフォーカス値は一例であり、強調の度合いを決定できる指標であればいかなる数値、図形などでもよい。例えばカーソルの位置に関わらず、それぞれのフォーカス値を独立に設定できるようにしてもよいし、全体を１として割合で決定するようにしてもよい。

次に周波数帯域分割フィルタ４２において強調の度合いを変化させる手法について説明する。図２では複数の音声信号を分離して認識させる手法を説明するため、「曲ａ」と「曲ｂ」とでほぼ均等に周波数帯域のブロックの割り当てを行った。一方、ある音声信号を強調して聞かせ、ある音声信号を目立たなくさせるためには、ブロックを割り当てる数に大小をつける。図６はブロックの割り当てパターンを模式的に示している。

同図は、可聴帯域を７個のブロックに分割した場合について示している。図２と同様、横軸に周波数をとり、説明の便宜上、低域側のブロックからブロック１、ブロック２、・・・、ブロック７とする。まず「パターン群Ａ」と記載された上から３つの割り当てパターンに着目する。各割り当てパターンの左に記載された数値はフォーカス値であり、例として「１．０」、「０．５」、「０．１」の場合を示している。この場合のフォーカス値は大きいほど強調の度合いが高いとし、最大値を１．０、最小値を０．１とする。ある音声信号の強調の度合いを最高とする場合、すなわち他の音声信号と比較し最も聞き取り易くする場合、フォーカス値が１．０の割り当てパターンを当該音声信号に適用する。同図の「パターン群Ａ」では、ブロック２、ブロック３、ブロック５、およびブロック６の４つのブロックが同音声信号に割り当てられる。

ここで同じ音声信号の強調の度合いを少し低下させる場合、割り当てパターンを例えばフォーカス値が０．５の割り当てパターンに変更する。同図の「パターン群Ａ」では、ブロック１、ブロック２、ブロック３の３つのブロックが割り当てられる。同様に同じ音声信号の強調の度合いを最低としたい場合、すなわち聞き取れる範囲で最も目立たなくする場合は、割り当てパターンを、フォーカス値が０．１の割り当てパターンに変更する。同図の「パターン群Ａ」では、ブロック１の１つのブロックが割り当てられる。このように、求められる強調の度合いによってフォーカス値を変化させ、フォーカス値が大きい場合は多数のブロックを、小さい場合は少数のブロックを割り当てる。これにより内耳レベルで強調の度合いについての情報を与えることができ、強調、非強調を認識させることができる。

同図に示すとおり、強調の度合いが最高である、フォーカス値が１．０の音声信号に対しても、全てのブロックを割り当ててしまわないようにすることが望ましい。同図ではブロック１、ブロック４、およびブロック７が割り当てられていない。これは、例えばブロック１をフォーカス１．０の音声信号にも割り当ててしまうと、ブロック１のみを割り当てられたフォーカス値０．１の別の音声信号の周波数成分をマスキングしてしまう可能性があるためである。本実施の形態では、複数の音声信号を分離して聴かせつつ、強調の度合いに高低をつけるため、強調の度合いが低くても聞き取りが可能となることが望ましい。そのため、強調の度合いが最低の、または低い音声信号に割り当てられたブロックは、強調の度合いが最高の、または高い音声信号には割り当てないようにする。

同図では、フォーカス値が０．１、０．５、１．０の３段階の割り当てパターンのみを示したが、割り当てパターンを多数のフォーカス値であらかじめ設定する場合は、フォーカス値にしきい値を設け、それ以下のフォーカス値を有する音声信号を、非強調対象としてもよい。そして非強調対象の音声信号に対して割り当てるブロックを、当該しきい値より大きなフォーカス値を有する強調対象の音声信号には割り当てないように割り当てパターンを設定してもよい。強調対象、非強調対象の区別は２つのしきい値によって行ってもよい。

以上の説明は「パターン群Ａ」に着目して行ったが、「パターン群Ｂ」、「パターン群Ｃ」についても同様である。ここで割り当てパターン群が「パターン群Ａ」、「パターン群Ｂ」、「パターン群Ｃ」と３種類存在するのは、フォーカス値０．５や０．１などの音声信号において割り当てるブロックができるだけ重複しないようにするためである。例えば３つの音楽データを再生する場合には、対応する３つの音声信号にそれぞれ「パターン群Ａ」、「パターン群Ｂ」、「パターン群Ｃ」を適用する。

このとき全ての音声信号がフォーカス値０．１であったとしても、「パターン群Ａ」、「パターン群Ｂ」、「パターン群Ｃ」で異なるブロックが割り当てられ、分離して聞き取りやすくなる。なおいずれのパターン群においても、フォーカス値０．１で割り当てられるブロックは、フォーカス値１．０では割り当てられないブロックである。この理由は既に述べたとおりである。

フォーカス値０．５の場合は「パターン群Ａ」、「パターン群Ｂ」、「パターン群Ｃ」で重複するブロックが存在するが、２つのパターン群の組み合わせでは重複するブロックは最大でも１つである。このように、混合する音声信号に強調の度合いを設定する場合は、音声信号同士で割り当てるブロックに重複を許してよいが、重複するブロックの個数を最小限に抑えることや、強調の度合いが低い音声信号へ割り当てるブロックの、他の音声信号への割り当てを制限するなどの工夫により、分離と強調を同時に達成することができる。また重複するブロックがあっても、周波数帯域分割フィルタ４２以外のフィルタにおいて分離のレベルを補うように処理を調整してもよい。

図６に示したブロックの割り当てパターンは、フォーカス値と対応づけて記憶部２２に記憶させておく。そして制御部２０は入力部１８におけるカーソル９６の動きなどに応じて各音声信号のフォーカス値を決定し、その音声信号にあらかじめ割り当てられたパターン群のうち、そのフォーカス値に対応する割り当てパターンを記憶部２２から読み出すことにより割り当てるブロックを取得する。そのブロックに対応させて有効となるバンドパスフィルタの設定などを周波数帯域分割フィルタ４２に対して行う。

ここで記憶部２２に記憶させておく割り当てパターンは、フォーカス値０．１、０．５、１．０以外のフォーカス値を含んでよい。しかしながらブロックの個数は有限であるため、あらかじめ準備できる割り当てパターンは限られる。そのため記憶部２２に記憶されていないフォーカス値の場合は、その前後のフォーカス値で、記憶部２２に記憶されている直近のフォーカス値の割り当てパターンを補間することによって割り当てパターンを決定する。補間の方法としては、ブロックをさらに分割して割り当てる周波数帯域を調整したり、あるブロックに属する周波数成分の振幅を調整したりする。後者の場合、周波数帯域分割フィルタ４２にはゲインコントローラを含める。

例えばフォーカス値０．５において、ある３つのブロックを割り当て、フォーカス値０．３でそのうち２つのブロックを割り当てる場合、フォーカス値０．４ではフォーカス値０．３で与えられない残りの１つのブロックの周波数帯域を２分割したうちの一方を割り当てるか、当該１つのブロックを割り当ててしまい、その周波数成分のみ振幅を２分の１にする。この例では線形補間を行っているが、強調の度合いを示すフォーカス値が人間の聴覚による感覚的、主観的な値であることを考慮した場合、必ずしも線形補間である必要はなく、実際の聴こえ方を実験するなどしてあらかじめテーブルまたは数式などによって補間のルールを設定してよい。制御部２０はその設定に従い補間を行い、周波数帯域分割フィルタ４２に対して設定を行う。これにより、フォーカス値をほぼ連続的に設定することができ、強調の度合いをカーソル９６の動きに合わせて見かけ上連続的に変化させることができる。

記憶部２２に記憶させる割り当てパターンは、分割パターンが異なる数種類のシリーズを含んでいてもよい。この場合、最初に音楽データが選択された時点で、どの分割パターンを適用するかを決定しておく。決定に際しては、後述するように各音楽データの情報を手がかりにできる。分割パターンは、制御部２０がバンドパスフィルタの上限および下限の周波数の設定を行うことなどによって周波数帯域分割フィルタ４２に反映される。

各音声信号にどの割り当てパターン群を割り当てるかは、対応する音楽データの情報に基づいて決定してよい。図７は記憶部２２に記憶される音楽データの情報の一例を示している。音楽データ情報テーブル１１０は、題名欄１１２、およびパターン群欄１１４を含む。題名欄１１２には各音楽データに対応する曲の題名が記載される。同欄は音楽データのＩＤなど音楽データを識別するものであれば他の属性を記載する欄としてもよい。

パターン群欄１１４には、各音楽データについて推奨される割り当てパターン群の名前またはＩＤが記載される。ここで推奨されるパターン群を選択する根拠として、当該音楽データの特徴的な周波数帯域を利用してもよい。例えば、音声信号がフォーカス値０．１となったときに、特徴的な周波数帯域が割り当てられるようなパターン群を推奨する。これにより、非強調の状態にあっても音声信号の最も重要な成分が、同じフォーカス値の別の音声信号や高いフォーカス値の音声信号にマスキングされづらくなり、より聞き取りやすくなる。

この態様は、例えばパターン群とそのＩＤを標準化し、音楽データを提供するベンダーなどが、推奨されるパターン群を音楽データの情報として音楽データに付加することなどによって実現できる。一方、音楽データに付加する情報を、パターン群の名前やＩＤに代わり、特徴的な周波数帯域とすることもできる。この場合、制御部２０はあらかじめ、それぞれの音楽データの特徴的な周波数帯域を記憶装置１２より読み出し、その周波数帯に最も適したパターン群をそれぞれ選択して音楽データ情報テーブル１１０を生成し、記憶部２２に保存してもよい。あるいは音楽のジャンルや楽器の種類などに基づき特徴的な周波数帯域を判断し、それによりパターン群を選択するようにしてもよい。

音楽データに付加する情報が特徴的な周波数帯域であった場合は、その情報そのものを記憶部２２に記憶させておいてもよい。この場合、再生する複数の音楽データの特徴的な周波数帯域を総合的に判断して、まず最適な分割パターンを選択し、次いで割り当てパターンを選択することができる。さらには特徴的な周波数帯域に基づき処理の最初に新たな分割パターンを生成してもよい。ジャンルなどで判断する場合も同様である。

次に周波数帯域分割フィルタ４２以外のフィルタにおいて、強調の度合いを変化させる場合について説明する。図８は記憶部２２に記憶させる、フォーカス値と各フィルタの設定とを対応付けたテーブルの例を示している。フィルタ情報テーブル１２０は、フォーカス値欄１２２、時分割欄１２４、変調欄１２６、加工欄１２８、および定位設定欄１３０を含む。フォーカス値欄１２２にはフォーカス値の範囲が記載される。時分割欄１２４、変調欄１２６、加工欄１２８には、フォーカス値欄の各範囲において、それぞれ時分割フィルタ４４、変調フィルタ４６、加工フィルタ４８による処理を行う場合は「○」、行わない場合は「×」が記載される。フィルタ処理実行の可否が識別できれば「○」、「×」以外の記載方法でもよい。

定位設定欄１３０には、フォーカス値欄の各範囲において、どの定位を与えるかが「中央」、「右寄り・左寄り」、「端」などで表される。同図に示すように、フォーカス値が高いときは定位を中央に置き、フォーカス値が低くなるにつれ定位を中央から離していくようにすると、強調の度合いの変化を定位によっても認識し易くなる。定位の左右はランダムに割り振ってもよいし、音楽データのアイコンの画面上の位置などに基づいてもよい。さらに、フォーカス値に対する定位の変化がないように定位設定欄１３０の設定を無効とし、それぞれの音声信号に対し常にアイコンの位置に対応した定位を与えれば、カーソルの動きに対応して強調される音声信号の聴こえる方向も変化するような態様とすることができる。なおフィルタ情報テーブル１２０にはさらに、周波数帯域分割フィルタ４２の選択、非選択を含めてもよい。

変調フィルタ４６や加工フィルタ４８が行うことのできる処理が複数ある場合や、処理の度合いを内部パラメータで調整できる場合は、各欄に具体的な処理の内容や内部パラメータを表すようにしてもよい。例えば時分割フィルタ４４において音声信号のピークとなる時間を強調の度合いの範囲によって変化させる場合、時分割欄１２４にその時間を記載する。フィルタ情報テーブル１２０は、各フィルタの相互の影響などを考慮して、実験などによってあらかじめ作成しておく。これにより非強調音声信号にふさわしい音響効果を選択したり、すでに分離して聴こえる音声信号に過剰な加工を行わないようにしたりする。フィルタ情報テーブル１２０を複数用意し、音楽データの情報に基づき最適なものを選択するようにしてもよい。

制御部２０はフォーカス値がフォーカス値欄１２２に示される範囲の境界を越えるたびに、フィルタ情報テーブル１２０を参照して各フィルタの内部パラメータや、デマルチプレクサなどの設定に反映させる。これにより、フォーカス値の大きい音声信号は中央からはっきり聞こえ、フォーカス値の小さい音声信号は端の方からくぐもったように聞こえるなど、強調の度合いを反映して音声信号にさらにメリハリをつけることができる。

図９は、本実施の形態における音声処理装置１６の動作を示すフローチャートである。まずユーザは入力部１８に対して記憶装置１２に記憶された音楽データの中から、同時に再生したい複数の音楽データの選択入力を行う。入力部１８において当該選択入力を検出したら（Ｓ１０のＹ）、制御部２０による制御のもと、それらの音楽データの再生、各種フィルタ処理、混合処理を行い、出力装置３０から出力する（Ｓ１２）。周波数帯域分割フィルタ４２で用いられるブロックの分割パターンの選択や割り当てパターン群の各音声信号への割り当てもここで行われ、周波数帯域分割フィルタ４２に設定される。その他のフィルタへの初期設定も同様である。なおこの段階での出力信号は、全てのフォーカス値を同一にして強調の度合いを等しくしてよい。このときユーザには各音声信号が均等に、分離して聴こえる。

同時に入力部１８には入力画面９０を表示させ、ユーザがカーソル９６を画面上で移動させるかどうかを監視しながら、混合した出力信号を出力し続ける（Ｓ１４のＮ、Ｓ１２）。カーソル９６が移動したら（Ｓ１４のＹ）、制御部２０はその動きに合わせて各音声信号のフォーカス値を更新し（Ｓ１６）、その値に対応するブロックの割り当てパターンを記憶部２２から読み出して、周波数帯域分割フィルタ４２の設定を更新する（Ｓ１８）。さらにフォーカス値の範囲に対して設定された、処理を行うべきフィルタの選択情報と、各フィルタでの処理の内容や内部パラメータなどの情報を記憶部２２から読み出し、それぞれのフィルタの設定を適宜更新する（Ｓ２０、Ｓ２２）。なおＳ１４からＳ２２までの処理は、Ｓ１２の音声信号の出力と並列に行ってよい。

これらの処理を、カーソルが移動するたびに繰り返す（Ｓ２４のＮ、Ｓ１２〜２２）。これにより、各音声信号に強調の度合いの高低がつくとともにカーソル９６の動きに合わせてその度合いが経時変化する態様を実現できる。結果としてユーザはカーソル９６の動きに合わせて音声信号が遠のいたり近づいたりする感覚を得ることができる。そして例えばユーザが、入力画面９０の「停止」ボタン９４を選択した場合（Ｓ２４のＹ）、全ての処理を終了する。

以上述べた本実施の形態によれば、混合した際に分離して聴くことができるように、それぞれの音声信号に対してフィルタ処理を施す。具体的には各音声信号に周波数帯域や時間を分配することにより、内耳レベルで分離情報を与えたり、一部または全ての音声信号に対し周期的に変化を与える、音響加工処理を施す、異なる定位を与える、といったことを行うことにより、脳レベルで分離情報を与える。これにより、それぞれの音声信号を混合したときに、内耳レベル、脳レベルの双方で分離情報を取得でき、最終的には分離して認識することが容易になる。結果として、サムネイル表示を眺めるが如く音声そのものを同時に観測することができ、多数の音楽コンテンツなどの内容を確認したい場合でも時間をかけずに容易に行うことができる。

また本実施の形態では、各音声信号の強調の度合いを変化させる。具体的には、強調の度合いによって割り当てる周波数帯域を増やしたり、フィルタ処理の施し方に強弱をつけたり、施すフィルタ処理を変更したりする。これにより、強調の度合いの高い音声信号を他の音声信号より際立たせて聴こえるようにすることができる。この場合も、強調の度合いの低い音声信号を打ち消してしまうことがないように、低い音声信号に割り当てる周波数帯域は使用しないなどの配慮を行う。結果的には、複数の音声信号のそれぞれが聴こえつつも、焦点を絞るように、着目したい音声信号が際立って聴こえるようにできる。この態様を、ユーザが移動させるカーソルの動きに追随させて経時変化させることにより、サムネイル表示において視点をずらしていくように、カーソルからの距離に応じた聴こえ方の変化を生むことができるため、多くの音楽コンテンツなどから所望のコンテンツを容易かつ感覚的に選択することができる。

以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば本実施の形態では、音声信号が分離して聴こえるようにしながら強調の度合いも変化させたが、目的によっては、強調の度合いを変化させずに全ての音声信号を均一に聴かせるのみでもよい。強調の度合いに高低をつけない態様は、例えばフォーカス値の設定を無効にしたりフォーカス値を固定とすることにより同様の構成で実現することができる。これによっても複数の音声信号の分離受聴が可能となり、多数の音楽コンテンツなどを容易に把握することができる。

また本実施の形態では主に、音楽コンテンツを鑑賞する場合を想定して説明したが、本発明はそれに限らない。例えばテレビ受像機のオーディオ系統に、実施の形態で示した音声処理装置を設けてもよい。そして、ユーザのテレビ受像機への指示により多チャンネルの画像表示が行われている間は、各チャンネルの音声も、フィルタ処理後、混合して出力するようにする。これにより、多チャンネルの画像に加え音声も同時に区別して鑑賞することができる。この状態でユーザがチャンネル選択を行うと、当該チャンネルの音声を強調させつつ、別のチャンネルの音声も聴こえるようにしておくことも可能となる。さらに単一のチャンネルの画像表示においても、主音声と副音声を同時に聴く際、強調の度合いを段階的に変化させることが可能となり、互いに打ち消しあうことなく主として聴きたい音声を強調させることができる。

さらに図６に示したように本実施の形態の周波数帯域分割フィルタでは、フォーカス値０．１の音声信号に対して割り当てたブロックを、フォーカス値１．０の音声信号に対しては割り当てない、というルールに基づいて、各フォーカス値の割り当てパターンを固定的とした例を主に説明した。一方、例えばフォーカス値０．１となる音声信号がない期間や状態においては、フォーカス値０．１の音声信号に対してに割り当てるべきブロックを全てフォーカス値１．０の音声信号に割り当ててもよい。

例えば図６の例で、再生する音楽データが３つのみ選択された場合は、対応する３つの音声信号にパターン群Ａ、パターン群Ｂ、パターン群Ｃをそれぞれ割り当てれば、同一パターン群のフォーカス値１．０とフォーカス値０．１の割り当てパターンが共存することはない。この場合、例えばパターン群Ａが割り当てられた音声信号は、フォーカス値１．０のときに、フォーカス値０．１で割り当てる最も低域のブロックも一緒に割り当てることができる。このように、各フォーカス値に対する音声信号の数などに応じて、割り当てパターンを動的にしてもよい。これにより、強調対象の音声信号に割り当てられるブロック数を、非強調対象の音声信号を認識できる範囲で可能な限り多くすることができ、強調対象の音声信号の音質を高めることができる。

さらに、最も強調したい音声信号に全周波数帯域を割り当てるようにしてもよい。これにより当該音声信号はより強調されるとともに、その音質はさらに向上する。この場合も、他の音声信号は周波数帯域分割フィルタ以外のフィルタによって分離情報を与えることにより分離して認識させることは可能である。

本実施の形態における音声処理装置を含む音声処理システムの全体構造を示す図である。本実施の形態における音声信号の周波数帯域分割について説明するための図である。本実施の形態における音声信号の時分割について説明するための図である。本実施の形態における音声処理部の構成を詳細に示す図である。本実施の形態において音声処理装置の入力部に表示される画面の例を示す図である。本実施の形態においてブロックの割り当て方のパターンを模式的に示す図である。本実施の形態において記憶部に記憶される音楽データの情報の一例を示す図である。本実施の形態において記憶部に記憶させる、フォーカス値と各フィルタの設定とを対応付けたテーブルの例を示す図である。本実施の形態における音声処理装置の動作を示すフローチャートである。

符号の説明

１０音声処理システム、１２記憶装置、１４再生装置、１６音声処理装置、１８入力部、２０制御部、２２記憶部、２４音声処理部、２６ダウンミキサー、３０出力装置、４０前処理部、４２周波数帯域分割フィルタ、４４時分割フィルタ、４６変調フィルタ、４８加工フィルタ、５０定位設定フィルタ。

Claims

複数の音声信号を同時に再生する音声処理装置であって、
ユーザに聴感上分離して聞こえるように各入力音声信号に対して所定の処理を施す音声処理部と、
前記処理を施された前記複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備え、
前記音声処理部は、複数の入力音声信号のそれぞれに対し、周波数帯域を所定の規則で分割してなる複数のブロックから選択されたブロックを割り当て、各入力音声信号から、割り当てたブロックに属する周波数成分を抽出する周波数帯域分割フィルタを備え、
前記周波数帯域分割フィルタは、前記複数の入力音声信号の少なくともいずれかに、不連続な複数のブロックを割り当てることを特徴とする音声処理装置。
前記複数のブロックは、周波数帯域をＢａｒｋの臨界帯域の境界周波数のいずれかによって分割してなることを特徴とする請求項１に記載の音声処理装置。
前記複数の入力音声信号ごとに前記複数のブロックのうち優先的に割り当てを行うブロックを決定する特徴帯域抽出部をさらに備え、
前記周波数帯域分割フィルタは、前記複数のブロックのうち前記特徴帯域抽出部が決定した、ある入力音声信号に対し優先的に割り当てを行うブロック以外のブロックを、他の入力音声信号に割り当てることを特徴とする請求項１または２に記載の音声処理装置。
前記音声処理部は、複数の入力音声信号のそれぞれの振幅を、共通の周期で位相を異ならせて時間変調させる時分割フィルタをさらに備えたことを特徴とする請求項１から３のいずれかに記載の音声処理装置。
前記音声処理部は、複数の入力音声信号の少なくともいずれかに対し、所定の周期で所定の音響加工処理を施す変調フィルタをさらに備えたことを特徴とする請求項１から３のいずれかに記載の音声処理装置。
前記音声処理部は、複数の入力音声信号の少なくともいずれかに対し、定常的に所定の音響加工処理を施す加工フィルタをさらに備えたことを特徴とする請求項１から３のいずれかに記載の音声処理装置。
前記音声処理部は、複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィルタをさらに備えたことを特徴とする請求項１から３のいずれかに記載の音声処理装置。
複数の入力音声信号のそれぞれに対し、互いにマスキングされない周波数帯域を割り当てるステップと、
各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出するステップと、
各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力するステップと、
を含むことを特徴とする音声処理方法。
周波数帯域を所定の規則で分割してなる複数のブロックから選択されたブロックのパターンを記憶したメモリを参照して、複数の入力音声信号のそれぞれに対し前記パターンを割り当てる機能と、
各入力音声信号から、割り当てた前記パターンを構成するブロックに属する周波数成分を抽出する機能と、
各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。