JP2008135892A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JP2008135892A
JP2008135892A JP2006319368A JP2006319368A JP2008135892A JP 2008135892 A JP2008135892 A JP 2008135892A JP 2006319368 A JP2006319368 A JP 2006319368A JP 2006319368 A JP2006319368 A JP 2006319368A JP 2008135892 A JP2008135892 A JP 2008135892A
Authority
JP
Japan
Prior art keywords
audio
audio signal
audio signals
filter
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006319368A
Other languages
English (en)
Other versions
JP4823030B2 (ja
Inventor
Katsuaki Yamashita
功誠 山下
Shinichi Honda
真一 本多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Priority to JP2006319368A priority Critical patent/JP4823030B2/ja
Priority to CN2007800017072A priority patent/CN101361124B/zh
Priority to PCT/JP2007/000699 priority patent/WO2008065731A1/ja
Priority to US12/093,049 priority patent/US8121714B2/en
Priority to ES07790221.1T priority patent/ES2526740T3/es
Priority to EP07790221.1A priority patent/EP2088590B1/en
Publication of JP2008135892A publication Critical patent/JP2008135892A/ja
Application granted granted Critical
Publication of JP4823030B2 publication Critical patent/JP4823030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/009Signal processing in [PA] systems to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声データをサムネイル表示のように同時に確認することは困難である。
【解決手段】音声処理装置16の入力部18においてユーザは、記憶装置12に記憶された音楽データから同時に再生したい複数の音楽データを選択する。再生装置14は、制御部20による制御のもと、選択された音楽データをそれぞれ再生し複数の音声信号を生成する。音声処理部24は制御部20による制御のもと、各音声信号に対し、周波数帯域の割り当ておよび周波数成分の抽出、時分割、周期的な変調、加工、定位の割り当てを行い、音声信号の分離情報および強調の度合いに係る情報を付加する。ダウンミキサー26は複数の音声信号を混合し、所定のチャンネル数を有する音声信号として出力し、出力装置30はそれを音響として出力する。
【選択図】図1

Description

本発明は音声信号を処理する技術に関し、特に複数の音声信号を混合して出力する音声処理装置、およびそれに適用される音声処理方法に関する。
近年の情報処理技術の発展により、記録媒体やネットワーク、放送波などを介して膨大な数のコンテンツを容易に入手できるようになった。例えば音楽のコンテンツは、それを記録したCD(Compact Disk)などの記録媒体を購入する他、ネットワークを介して音楽配信サイトからダウンロードすることが一般的に行われている。ユーザが自分で録画、録音したデータも含めると、PCや再生装置、記録媒体に保存したコンテンツは増大化する一方となる。そのため、このような膨大な数のコンテンツから所望の一のコンテンツを容易に捜索するための技術が必要になってきた。その技術の一つにサムネイル表示がある。
サムネイル表示は複数の静止画や動画を、サイズの小さい静止画像または動画像としてディスプレイに1度に並べて表示する技術である。サムネイル表示により、例えばカメラや録画装置で撮り貯めたりダウンロードしたりした画像データが多数保存され、それらのファイル名や録画日時などの属性情報が分かりづらい場合であっても、一見して内容が把握でき、所望のデータを正確に選択することが可能となった。また複数の画像データを一覧することで、全てのデータをざっと鑑賞したり、それを保存した記録媒体などの中身を短時間で把握したりすることもできるようになった。
サムネイル表示はユーザに対し視覚的に並列に、複数のコンテンツの一部をインプットする技術である。したがって、視覚的に並べることのできない音楽などの音声データについては当然、アルバムのジャケットなど付加的な画像データの仲介なくしてはサムネイル表示を利用することができない。しかしながら個人が所有する音楽コンテンツなどの音声データの数は増加する一方であり、例えば題名や入手日時、付加的な画像データなどの手がかりにおいて判断がつかない場合であっても所望の音声データを容易に選択したり、ざっと鑑賞したりするニーズがあるのは画像データの場合と同様である。
本発明はこのような課題に鑑みてなされたものであり、その目的は、複数の音声データを聴覚上分離して同時に聴かせる技術を提供することにある。
本発明のある態様は音声処理装置に関する。この音声処理装置は、複数の音声信号を同時に再生する音声処理装置であって、ユーザに聴感上分離して聞こえるように各入力音声信号に対して所定の処理を施す音声処理部と、処理を施された前記複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備え、音声処理部は、複数の入力音声信号のそれぞれに対し、周波数帯域を所定の規則で分割してなる複数のブロックから選択されたブロックを割り当て、各入力音声信号から、割り当てたブロックに属する周波数成分を抽出する周波数帯域分割フィルタを備え、周波数帯域分割フィルタは、複数の入力音声信号の少なくともいずれかに、不連続な複数のブロックを割り当てることを特徴とする。
本発明の別の態様は音声処理方法に関する。この音声処理方法は、複数の入力音声信号のそれぞれに対し、互いにマスキングされない周波数帯域を割り当てるステップと、各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出するステップと、各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力するステップと、を含むことを特徴とする。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、複数の音声データを聴覚上区別して同時に聴くことができる。
図1は本実施の形態における音声処理装置を含む音声処理システムの全体構造を示している。本実施の形態における音声処理システムは、ユーザがハードディスクなどの記憶装置や記録媒体に保存した複数の音声データを同時に再生し、得られた複数の音声信号にフィルタ処理を施した後、混合して所望のチャンネル数を有する出力音声信号とし、ステレオやイヤホンなどの出力装置から出力する。
複数の音声信号を単に混合して出力するだけでは、それらが互いに打ち消しあったりひとつの音声信号のみが際立って聴こえたりして、画像データのサムネイル表示のようにそれぞれを独立に認識することが難しい。そこで本実施の形態における音声処理装置は、人間が音声を認識するためのメカニズムのうち聴覚抹消系すなわち内耳のレベルでそれぞれの音声信号を相対的に分離し、聴覚中枢系すなわち脳のレベルで独立に認識するための手がかりを与えることにより、複数の音声信号の聴覚上の分離を行う。この処理が上述のフィルタ処理である。
さらに本実施の形態の音声処理装置は、画像データのサムネイル表示においてユーザが1つのサムネイル画像に注目するが如く、ユーザが注意を向ける対象となった音声データの信号を、混合された出力音声信号の中でも強調されるようにする。またはユーザが画像データのサムネイル表示において視点をずらしていくように、複数の音声信号のそれぞれの強調の度合いを多段階的にまたは連続的に変化させて出力する。ここで「強調の度合い」とは、複数の音声信号の“聴こえ易さ”、すなわち聴覚上の認識しやすさを意味する。例えば強調の度合いが他より大きいとき、その音声信号は他の音声信号より鮮明に、大きく、あるいは近くに聞こえる音かもしれない。強調の度合いはそのような人間の感じ方を総合的に考慮した主観的なパラメータである。
強調の度合いを変化させる場合に、単に音量調節をするだけでは、強調したい音声データの信号が別の音声信号にかき消されて結局よく聞き取れず、強調の効果が十分得られなかったり、強調しない音声データの音が聴こえなくなってしまい同時に再生する意味がなくなってしまう可能性は十分残される。これは人間の聴覚上の聴こえ易さが音量の他、周波数特性などと密接に関わっているためである。そのため、ユーザが要求する強調の度合いの変化をユーザ自身が十分認識できるように、上述のフィルタ処理の内容を調整する。以上述べたフィルタ処理の原理、および具体的な処理内容は後に詳述する。
以下の説明において音声データは音楽データとするが、それに限る趣旨ではなく、落語や会議などにおける人声、環境音、放送波に含まれる音声など、音声信号のデータであればよく、それらが混合していてもよい。
音声処理システム10は、複数の音楽データを記憶する記憶装置12、複数の音楽データをそれぞれ再生して生成した複数の音声信号が分離して聴こえるように処理を施し、ユーザが要求する強調の度合いを反映させた上で混合する音声処理装置16、混合された音声信号を音響として出力する出力装置30を含む。
音声処理システム10はパーソナルコンピュータや、ポータブルプレーヤなどの音楽再生機器など、一体的またはローカルな接続によって構成してよい。この場合、記憶装置12はハードディスクやフラッシュメモリ、音声処理装置16はプロセッサユニット、出力装置30は内蔵スピーカや外部に接続したスピーカ、イヤホンなどを用いることができる。あるいは記憶装置12を、音声処理装置16とネットワークを介して接続されるサーバ内のハードディスクなどで構成してもよい。また記憶装置12が記憶する音楽データは、MP3など一般的な符号化形式によって符号化されていてもよい。
音声処理装置16は、再生する音楽データの選択や強調に係るユーザの指示を入力する入力部18、ユーザが選択した複数の音楽データをそれぞれ再生して複数の音声信号とする複数の再生装置14、音声信号の区別や強調をユーザに認識させるために複数の音声信号のそれぞれに対し所定のフィルタ処理を施す音声処理部24、フィルタ処理が施された複数の音声信号を混合して所望のチャンネル数を有する出力信号を生成するダウンミキサー26、再生や強調に関するユーザからの選択指示に応じて再生装置14や音声処理部24の動作を制御する制御部20、制御部20による制御に必要なテーブル、すなわちあらかじめ設定されているパラメータや、記憶装置12に記憶されている音楽データ個々の情報を記憶する記憶部22を含む。
入力部18は、記憶装置12に記憶されている音楽データから所望の複数の音楽データを選択したり、再生中の複数の音楽データのうち強調する対象を変化させたりするための指示を入力するインターフェースを提供する。入力部18は例えば、選択対象の音楽データを象徴するアイコンなどの情報を記憶部22から読み出して一覧表示するとともにカーソルを表示する表示装置と、当該カーソルを動かし画面上のポイントを選択するポインティングデバイスにより構成する。その他、キーボード、トラックボール、ボタン、タッチパネルなど一般的な入力装置、表示装置、それらの組み合わせのいずれでもよい。
なお以後の説明では、記憶装置12に記憶される音楽データはそれぞれひとつの曲のデータであるとし、曲単位の指示入力、処理を行うものとするが、音楽データがアルバムなど複数の曲の集合であっても同様である。
制御部20は、入力部18において、ユーザから再生する音楽データの選択入力があった場合に、その情報を再生装置14に与えるとともに、再生する音楽データの音声信号ごとに適切な処理が行われるように、必要なパラメータを記憶部22から取得し、音声処理部24に対し初期設定を行う。さらに強調する音楽データの選択入力があった場合に、音声処理部24の設定を変更することによりその入力を反映させる。設定内容は後に詳述する。
再生装置14は、記憶装置12に記憶された音楽データのうち、選択されたものを適宜復号して音声信号を生成する。図1では同時に再生可能な音楽データを4つとして、4つの再生装置14を示しているが、その数はこれに限らない。また、マルチプロセッサなどによって並列に再生処理が可能な場合は、再生装置14は外観上1つであるが、ここでは各音楽データを再生し、それぞれの音声信号を生成する処理ユニットとして別々に示している。
音声処理部24は選択された音楽データに対応する音声信号のそれぞれに上述のようなフィルタ処理を施すことにより、ユーザが要求する強調の度合いを反映させた、聴覚上分離して認識できる複数の音声信号を生成する。詳細は後に述べる。
ダウンミキサー26は入力された複数の音声信号を、必要に応じて各種の調整を行ったうえで混合し、モノラル、ステレオ、5.1チャンネルなど所定のチャンネル数を有する出力信号として出力する。チャンネル数は固定でもよいし、ユーザによりハードウェア的、ソフトウェア的に切り替え設定が可能な構成としてもよい。ダウンミキサー26は一般的なダウンミキサーで構成してもよい。
記憶部22はメモリ、ハードディスクなどの記憶素子、記憶装置でよく、記憶装置12に記憶された音楽データの情報、強調の度合いを示す指標と音声処理部24に設定されるパラメータとを対応づけたテーブルなどを記憶する。音楽データの情報には、音楽データに対応した曲の曲名、演奏者名、アイコン、ジャンルなど一般的な情報のいずれが含まれていてもよく、さらに音声処理部24において必要となるパラメータの一部が含まれていてもよい。音楽データの情報は当該音楽データを記憶装置12に記憶させたときに読み出して記憶部22に記憶させてもよいし、音声処理装置16を動作させるたびに記憶装置12から読み出して記憶部22に格納するようにしてもよい。
ここで音声処理部24において行われる処理の内容を明らかにするために、同時に聴こえる複数の音を聞き分ける原理について説明する。人間は、耳における音の感知と、脳における音の解析との2段階によって音を認識する。人間が異なる音源から同時に発せられた音を聞き分けるには、この2段階のいずれかまたは双方において別の音源であることを表す情報、すなわち分離情報を取得できればよい。例えば右耳と左耳とで異なる音を聴くことは、内耳レベルで分離情報を得たことになり、脳において別の音として解析され認識できる。最初から混合されている音の場合は、音脈や音色の違いなどを、これまでの生活で学習し記憶された分離情報と照らして解析することにより、脳レベルで分離することが可能である。
複数の音楽を混合して1組のスピーカやイヤホンなどから聴く場合は、本来、内耳レベルでの分離情報が得られないため、上述のように音脈や音色の違いなどを頼りに脳で別の音であることを認識することになるが、そのようにして聞き分けることのできる音は限定的であり、多種多様な音楽に適用することはほとんど不可能である。そこで本発明者は、最終的に混合しても分離して認識できる音声信号を生成するために、以下に述べるように内耳または脳に働きかけを行う分離情報を音声信号に人工的に付加する手法に想到した。
まず内耳レベルで分離情報を与える手法として、周波数帯域での音声信号の分割、および音声信号の時分割について説明する。図2は、周波数帯域分割について説明するための図である。図の横軸は周波数であり周波数f0からf8までを可聴帯域とする。同図では曲a、曲bの2曲の音声信号を混合して聴く場合について示しているが曲の数はいくつでもよい。周波数帯域分割の手法では、可聴帯域を複数のブロックに分割し、各ブロックを複数の音声信号の少なくともいずれかに割り当てる。そして各音声信号から、割り当てられたブロックに属する周波数成分のみを抽出する。
図2では、可聴帯域をf1、f2、・・・、f7の周波数で8つのブロックに分割している。そして例えば斜線にて示すように、曲aに対し周波数f1〜f2、f3〜f4、f5〜f6、f7〜f8の4つのブロックを、曲bに対し周波数f0〜f1、f2〜f3、f4〜f5、f6〜f7の4つのブロックを割り当てる。ここでブロックの境界となる周波数f1、f2、・・・、f7を、例えばBarkの24臨界帯域の境界周波数のいずれかとすることにより、周波数帯域分割の効果をより発揮することができる。
臨界帯域とは、ある周波数帯域を有する音が、それ以上帯域幅を広げても他の音に対するマスキング量が増加しなくなる周波数帯域のことである。ここでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇する現象、すなわち聴きづらくなる現象であり、マスキング量はその最小可聴値の上昇量である。すなわち、異なる臨界帯域にある音どうしは互いにマスキングされにくい。実験によって判明したBarkの24個の臨界帯域を利用して周波数帯域を分割することにより、例えば周波数f1〜f2のブロックに属する曲aの周波数成分が、周波数f2〜f3のブロックに属する曲bの周波数成分をマスキングするなどの影響を抑えることができる。他のブロックについても同様であり、結果として、曲aと曲bは互いに打ち消しあうことの少ない音声信号となる。
なお、ブロックへの分割は臨界帯域によらなくてもよい。いずれの場合でも、重複する周波数帯域を少なくすることにより、内耳の周波数分解能を利用して分離情報を与えることができる。
図2に示した例では、各ブロックが同程度の帯域幅を有しているが、実際には周波数帯によって変化させてもよい。例えば臨界帯域2つ分を1つのブロックとする帯域と4つ分を1つのブロックとする帯域があってもよい。ブロックへの分割の仕方(以後、分割パターンと呼ぶ)は、例えば低域の周波数を有する音はマスキングされにくい、などの一般的な音の特性を考慮して決定してもよいし、曲ごとの特徴的な周波数帯域を考慮して決定してもよい。ここで特徴的な周波数帯域とは、例えば主旋律が占める周波数帯域など曲の表現上、重要となる周波数帯域である。特徴的な周波数帯域が重なると予想される場合は、その帯域を細かく分割して均等に割り当て、どちらかの曲において主旋律が聞こえないなどの不具合が発生しないようにすることが望ましい。
また図2に示した例では、一連のブロックを交互に曲a、曲bに割り当てたが、連続した2つのブロックを曲aに割り当てるなど、割り当て方はこれに限らない。この場合も、例えばある曲の特徴的な周波数帯域が連続したブロック2つ分に渡るときは当該2つのブロックをその曲に割り当てるなど、周波数帯域分割を行ったことによる悪影響の発生が曲の重要な部分では最低限抑制されるように割り当て方を決定することが望ましい。
一方で、明らかに高域、中域、低域に偏った3曲を混合したい場合など特殊な場合を除き、ブロック数は混合する曲の数より多くし、ひとつの曲に不連続な複数のブロックを割り当てるようにすることが望ましい。これも上述と同様の理由で、特徴的な周波数帯域が重なった場合でも、ある曲の特徴的な周波数帯域の全てが別の曲に割り当てられてしまうことを防止し、より幅広い帯域でおよそ均等に割り当てを行うようにして、平均的に全ての曲が聞こえるようにするためである。
図3は音声信号の時分割について説明するための図である。同図において横軸は時間、縦軸は音声信号の振幅、すなわち音量を示している。この場合も曲a、曲bの2曲の音声信号を混合して聴く場合を一例として示している。時分割の手法では、共通の周期で音声信号の振幅を変調させる。そしてそのピークが曲によって異なるタイミングで表れるように位相をずらす。内耳レベルへの働きかけのため、このときの周期は数十ミリ秒から数百ミリ秒程度でよい。
図3では共通の周期Tで曲a、曲bの振幅を変調させている。そして曲aの振幅がピークとなる時刻t0、t2、t4、t6において曲bの振幅を小さくし、曲bの振幅がピークとなる時刻t1、t3、t5において曲aの振幅を小さくする。実際には、同図に示すように振幅が最大となる時刻、最小となる時刻がある程度の時間的幅を有するように振幅の変調を行ってもよい。この場合、曲aの振幅が最小となる時間を曲bの振幅が最大となる時間と合わせるようにすることができる。3曲以上を混合する場合でも、曲aの振幅が最小となる時間に、曲bの振幅が最大の時間、曲cの振幅が最大の時間を設けることができる。
一方、ピークとなる時刻に時間的幅を持たない正弦波状の変調を行ってもよい。この場合は単に位相をずらして、ピークとなるタイミングを異ならせる。いずれの場合によっても、内耳の時間的分解能を利用して分離情報を与えることができる。
次に脳レベルで分離情報を与える手法について説明する。脳レベルで与える分離情報は、脳において音を分析する際に、各音の音脈を認識する手がかりを与える。本実施の形態では、音声信号に周期的に特定の変化を与える手法、音声信号に定常的に加工処理を施す手法、定位を変化させる手法を導入する。音声信号に周期的に特定の変化を与える手法では、混合する全てまたは一部の音声信号の振幅を変調させたり、周波数特性を変調させたりする。変調は短期間にパルス状に発生させてもよいし、数秒の長時間に渡って緩やかに変化するようにしてもよい。複数の音声信号に共通の変調を行う場合は、そのピークのタイミングを音声信号ごとに異ならせる。
あるいは、周期的にクリック音などのノイズを付加したり一般的なオーディオフィルタによって実現できる加工処理を施したり定位を左右に振ったりしてもよい。これらの変調を組み合わせたり、音声信号によって別の変調を適用したり、タイミングをずらしたりすることにより、音声信号の音脈を気づかせる手がかりを与えることができる。
音声信号に定常的に加工処理を施す手法では、混合する全てまたは一部の音声信号に、一般的なエフェクターで実現できる、エコー、リバーブ、ピッチシフトなどの様々な音響加工の1つまたは組み合わせを施す。定常的に周波数特性を元の音声信号と異ならせてもよい。例えば同じ楽器による同じテンポの曲であっても一方にエコー処理が施されることにより、別の曲として認識しやすくなる。複数の音声信号に加工処理を施す場合は当然、加工内容や加工の強度を音声信号によって異ならせる。
定位を変化させる手法では、混合する全ての音声信号のそれぞれに異なる定位を与える。これにより内耳との協働により脳において音響の空間的な情報解析を行うことで、音声信号を分離しやすくなる。
以上述べた原理を用い、本実施の形態の音声処理装置16における音声処理部24は、混合したときに聴感上分離して認識できるように音声信号のそれぞれに対し処理を施す。図4は音声処理部24の構成を詳細に示している。音声処理部24は、前処理部40、周波数帯域分割フィルタ42、時分割フィルタ44、変調フィルタ46、加工フィルタ48、定位設定フィルタ50を含む。前処理部40は、一般的なオートゲインコントローラなどでよく、再生装置14から入力した複数の音声信号の音量がおよそ揃うようにゲイン調整を行う。
周波数帯域分割フィルタ42は、上述したように、可聴帯域を分割してなるブロックを各音声信号に割り当て、それぞれの音声信号から割り当てられたブロックに属する周波数成分を抽出する。例えば周波数帯域分割フィルタ42を、音声信号のチャンネルごと、ブロックごとに設けたバンドパスフィルタ(図示せず)として構成することにより、周波数成分の抽出が可能となる。分割パターンや音声信号へのブロックの割り当て方(以後、割り当てパターンと呼ぶ)は、制御部20が各バンドパスフィルタなどを制御して周波数帯域の設定や有効なバンドパスフィルタの設定を行うことにより変更することができる。割り当てパターンに関しては、具体例を後に述べる。
時分割フィルタ44は上述した音声信号の時分割の手法を実施し、各音声信号の振幅を、数十ミリ秒から数百ミリ秒程度の周期で位相を異ならせて時間変調させる。時分割フィルタ44は、例えばゲインコントローラを時間軸で制御することによって実現できる。変調フィルタ46は上述した、音声信号に周期的に特定の変化を与える手法を実施し、例えばゲインコントローラ、イコライザ、オーディオフィルタなどを時間軸で制御することによって実現できる。加工フィルタ48は上述した、音声信号に定常的に特殊効果(以下、加工処理と呼ぶ)を施す手法を実施し、例えばエフェクターなどで実現できる。定位設定フィルタ50は上述した、定位を変化させる手法を実施し、例えばパンポットなどで実現できる。
本実施の形態では上述のとおり、混合した複数の音声信号を聴覚上分離して認識させたうえで、ある音声信号を強調して聴かせることを実現する。そのため周波数帯域分割フィルタ42やその他のフィルタ内部で、ユーザが要求する強調の度合いに応じて処理を変更する。さらに音声信号を通過させるフィルタも強調の度合いに応じて選択する。後者の場合、各フィルタにおける音声信号の出力端子にデマルチプレクサを接続するなどする。このとき、制御部20からの制御信号によって次のフィルタへの入力の可否を設定することにより、次のフィルタの選択、非選択を変更できる。
次に強調の度合いを変化させる具体的な手法について説明する。まず、ユーザが強調したい音楽データを選択する模様について一例を説明する。図5は、4つの音楽データが選択されそれらの音声信号が混合されて出力されている状態において、音声処理装置16の入力部18に表示される画面の例を示している。入力画面90は、題名が「曲a」、「曲b」、「曲c」、「曲d」なる再生中の音楽データのアイコン92a、92b、92c、92dと、再生を停止するための「停止」ボタン94、およびカーソル96を含む。
音声処理装置16は、再生中の状態でユーザがカーソル96を入力画面90上で移動させると、そのカーソルの指し示すアイコンが表す音楽データを強調させたい対象と判断する。図5においてはカーソル96は「曲b」のアイコン92bを示しているため、「曲b」のアイコン92bに対応する音楽データを強調対象とし、その音声信号を音声処理部24にて強調するように制御部20が動作する。このとき、他の3つの音楽データは非強調対象として、音声処理部24にて同一のフィルタ処理を行うようにしてもよい。これによりユーザには、4つの曲が同時かつ分離して聞こえるとともに、「曲b」のみが特によく聴こえる状態となる。
一方で、カーソル96からアイコンまでの距離に従い、強調対象の音楽データ以外の音楽データの強調の度合いを変化させてもよい。図5の例では、カーソル96が示す「曲b」のアイコン92bに対応する音楽データの強調の度合いを最も高くし、カーソル96が示すポイントから同程度の近距離にある「曲a」のアイコン92aおよび「曲c」のアイコン92cに対応する音楽データの強調の度合いを中程度とする。そしてカーソル96が示すポイントから最も離れた「曲d」のアイコン92dに対応する音楽データの強調の度合いを最も低くする。
この態様においては、たとえカーソル96がいずれかのアイコンを指し示していなくても、指し示しているポイントからの距離で強調の度合いを決定できる。例えば強調の度合いをカーソル96からの距離に応じて連続的に変化させるとすると、サムネイル表示において視点を徐々にずらしていくのと同様に、カーソル96の動きに合わせて曲が近づいたり遠のいたりするように聴かせることができる。カーソル96を導入せず、ユーザからの左右の指示入力によってアイコン自体を画面上で移動させ、画面の真ん中に近いアイコンほど強調の度合いを高くするなどしてもよい。
制御部20は、入力部18におけるカーソル96の動きに係る情報を取得し、それが指し示すポイントからの距離などに応じて、各アイコンに対応する音楽データに対し、強調の度合いを示す指標を設定する。この指標を以後、フォーカス値と呼ぶ。なおここで説明するフォーカス値は一例であり、強調の度合いを決定できる指標であればいかなる数値、図形などでもよい。例えばカーソルの位置に関わらず、それぞれのフォーカス値を独立に設定できるようにしてもよいし、全体を1として割合で決定するようにしてもよい。
次に周波数帯域分割フィルタ42において強調の度合いを変化させる手法について説明する。図2では複数の音声信号を分離して認識させる手法を説明するため、「曲a」と「曲b」とでほぼ均等に周波数帯域のブロックの割り当てを行った。一方、ある音声信号を強調して聞かせ、ある音声信号を目立たなくさせるためには、ブロックを割り当てる数に大小をつける。図6はブロックの割り当てパターンを模式的に示している。
同図は、可聴帯域を7個のブロックに分割した場合について示している。図2と同様、横軸に周波数をとり、説明の便宜上、低域側のブロックからブロック1、ブロック2、・・・、ブロック7とする。まず「パターン群A」と記載された上から3つの割り当てパターンに着目する。各割り当てパターンの左に記載された数値はフォーカス値であり、例として「1.0」、「0.5」、「0.1」の場合を示している。この場合のフォーカス値は大きいほど強調の度合いが高いとし、最大値を1.0、最小値を0.1とする。ある音声信号の強調の度合いを最高とする場合、すなわち他の音声信号と比較し最も聞き取り易くする場合、フォーカス値が1.0の割り当てパターンを当該音声信号に適用する。同図の「パターン群A」では、ブロック2、ブロック3、ブロック5、およびブロック6の4つのブロックが同音声信号に割り当てられる。
ここで同じ音声信号の強調の度合いを少し低下させる場合、割り当てパターンを例えばフォーカス値が0.5の割り当てパターンに変更する。同図の「パターン群A」では、ブロック1、ブロック2、ブロック3の3つのブロックが割り当てられる。同様に同じ音声信号の強調の度合いを最低としたい場合、すなわち聞き取れる範囲で最も目立たなくする場合は、割り当てパターンを、フォーカス値が0.1の割り当てパターンに変更する。同図の「パターン群A」では、ブロック1の1つのブロックが割り当てられる。このように、求められる強調の度合いによってフォーカス値を変化させ、フォーカス値が大きい場合は多数のブロックを、小さい場合は少数のブロックを割り当てる。これにより内耳レベルで強調の度合いについての情報を与えることができ、強調、非強調を認識させることができる。
同図に示すとおり、強調の度合いが最高である、フォーカス値が1.0の音声信号に対しても、全てのブロックを割り当ててしまわないようにすることが望ましい。同図ではブロック1、ブロック4、およびブロック7が割り当てられていない。これは、例えばブロック1をフォーカス1.0の音声信号にも割り当ててしまうと、ブロック1のみを割り当てられたフォーカス値0.1の別の音声信号の周波数成分をマスキングしてしまう可能性があるためである。本実施の形態では、複数の音声信号を分離して聴かせつつ、強調の度合いに高低をつけるため、強調の度合いが低くても聞き取りが可能となることが望ましい。そのため、強調の度合いが最低の、または低い音声信号に割り当てられたブロックは、強調の度合いが最高の、または高い音声信号には割り当てないようにする。
同図では、フォーカス値が0.1、0.5、1.0の3段階の割り当てパターンのみを示したが、割り当てパターンを多数のフォーカス値であらかじめ設定する場合は、フォーカス値にしきい値を設け、それ以下のフォーカス値を有する音声信号を、非強調対象としてもよい。そして非強調対象の音声信号に対して割り当てるブロックを、当該しきい値より大きなフォーカス値を有する強調対象の音声信号には割り当てないように割り当てパターンを設定してもよい。強調対象、非強調対象の区別は2つのしきい値によって行ってもよい。
以上の説明は「パターン群A」に着目して行ったが、「パターン群B」、「パターン群C」についても同様である。ここで割り当てパターン群が「パターン群A」、「パターン群B」、「パターン群C」と3種類存在するのは、フォーカス値0.5や0.1などの音声信号において割り当てるブロックができるだけ重複しないようにするためである。例えば3つの音楽データを再生する場合には、対応する3つの音声信号にそれぞれ「パターン群A」、「パターン群B」、「パターン群C」を適用する。
このとき全ての音声信号がフォーカス値0.1であったとしても、「パターン群A」、「パターン群B」、「パターン群C」で異なるブロックが割り当てられ、分離して聞き取りやすくなる。なおいずれのパターン群においても、フォーカス値0.1で割り当てられるブロックは、フォーカス値1.0では割り当てられないブロックである。この理由は既に述べたとおりである。
フォーカス値0.5の場合は「パターン群A」、「パターン群B」、「パターン群C」で重複するブロックが存在するが、2つのパターン群の組み合わせでは重複するブロックは最大でも1つである。このように、混合する音声信号に強調の度合いを設定する場合は、音声信号同士で割り当てるブロックに重複を許してよいが、重複するブロックの個数を最小限に抑えることや、強調の度合いが低い音声信号へ割り当てるブロックの、他の音声信号への割り当てを制限するなどの工夫により、分離と強調を同時に達成することができる。また重複するブロックがあっても、周波数帯域分割フィルタ42以外のフィルタにおいて分離のレベルを補うように処理を調整してもよい。
図6に示したブロックの割り当てパターンは、フォーカス値と対応づけて記憶部22に記憶させておく。そして制御部20は入力部18におけるカーソル96の動きなどに応じて各音声信号のフォーカス値を決定し、その音声信号にあらかじめ割り当てられたパターン群のうち、そのフォーカス値に対応する割り当てパターンを記憶部22から読み出すことにより割り当てるブロックを取得する。そのブロックに対応させて有効となるバンドパスフィルタの設定などを周波数帯域分割フィルタ42に対して行う。
ここで記憶部22に記憶させておく割り当てパターンは、フォーカス値0.1、0.5、1.0以外のフォーカス値を含んでよい。しかしながらブロックの個数は有限であるため、あらかじめ準備できる割り当てパターンは限られる。そのため記憶部22に記憶されていないフォーカス値の場合は、その前後のフォーカス値で、記憶部22に記憶されている直近のフォーカス値の割り当てパターンを補間することによって割り当てパターンを決定する。補間の方法としては、ブロックをさらに分割して割り当てる周波数帯域を調整したり、あるブロックに属する周波数成分の振幅を調整したりする。後者の場合、周波数帯域分割フィルタ42にはゲインコントローラを含める。
例えばフォーカス値0.5において、ある3つのブロックを割り当て、フォーカス値0.3でそのうち2つのブロックを割り当てる場合、フォーカス値0.4ではフォーカス値0.3で与えられない残りの1つのブロックの周波数帯域を2分割したうちの一方を割り当てるか、当該1つのブロックを割り当ててしまい、その周波数成分のみ振幅を2分の1にする。この例では線形補間を行っているが、強調の度合いを示すフォーカス値が人間の聴覚による感覚的、主観的な値であることを考慮した場合、必ずしも線形補間である必要はなく、実際の聴こえ方を実験するなどしてあらかじめテーブルまたは数式などによって補間のルールを設定してよい。制御部20はその設定に従い補間を行い、周波数帯域分割フィルタ42に対して設定を行う。これにより、フォーカス値をほぼ連続的に設定することができ、強調の度合いをカーソル96の動きに合わせて見かけ上連続的に変化させることができる。
記憶部22に記憶させる割り当てパターンは、分割パターンが異なる数種類のシリーズを含んでいてもよい。この場合、最初に音楽データが選択された時点で、どの分割パターンを適用するかを決定しておく。決定に際しては、後述するように各音楽データの情報を手がかりにできる。分割パターンは、制御部20がバンドパスフィルタの上限および下限の周波数の設定を行うことなどによって周波数帯域分割フィルタ42に反映される。
各音声信号にどの割り当てパターン群を割り当てるかは、対応する音楽データの情報に基づいて決定してよい。図7は記憶部22に記憶される音楽データの情報の一例を示している。音楽データ情報テーブル110は、題名欄112、およびパターン群欄114を含む。題名欄112には各音楽データに対応する曲の題名が記載される。同欄は音楽データのIDなど音楽データを識別するものであれば他の属性を記載する欄としてもよい。
パターン群欄114には、各音楽データについて推奨される割り当てパターン群の名前またはIDが記載される。ここで推奨されるパターン群を選択する根拠として、当該音楽データの特徴的な周波数帯域を利用してもよい。例えば、音声信号がフォーカス値0.1となったときに、特徴的な周波数帯域が割り当てられるようなパターン群を推奨する。これにより、非強調の状態にあっても音声信号の最も重要な成分が、同じフォーカス値の別の音声信号や高いフォーカス値の音声信号にマスキングされづらくなり、より聞き取りやすくなる。
この態様は、例えばパターン群とそのIDを標準化し、音楽データを提供するベンダーなどが、推奨されるパターン群を音楽データの情報として音楽データに付加することなどによって実現できる。一方、音楽データに付加する情報を、パターン群の名前やIDに代わり、特徴的な周波数帯域とすることもできる。この場合、制御部20はあらかじめ、それぞれの音楽データの特徴的な周波数帯域を記憶装置12より読み出し、その周波数帯に最も適したパターン群をそれぞれ選択して音楽データ情報テーブル110を生成し、記憶部22に保存してもよい。あるいは音楽のジャンルや楽器の種類などに基づき特徴的な周波数帯域を判断し、それによりパターン群を選択するようにしてもよい。
音楽データに付加する情報が特徴的な周波数帯域であった場合は、その情報そのものを記憶部22に記憶させておいてもよい。この場合、再生する複数の音楽データの特徴的な周波数帯域を総合的に判断して、まず最適な分割パターンを選択し、次いで割り当てパターンを選択することができる。さらには特徴的な周波数帯域に基づき処理の最初に新たな分割パターンを生成してもよい。ジャンルなどで判断する場合も同様である。
次に周波数帯域分割フィルタ42以外のフィルタにおいて、強調の度合いを変化させる場合について説明する。図8は記憶部22に記憶させる、フォーカス値と各フィルタの設定とを対応付けたテーブルの例を示している。フィルタ情報テーブル120は、フォーカス値欄122、時分割欄124、変調欄126、加工欄128、および定位設定欄130を含む。フォーカス値欄122にはフォーカス値の範囲が記載される。時分割欄124、変調欄126、加工欄128には、フォーカス値欄の各範囲において、それぞれ時分割フィルタ44、変調フィルタ46、加工フィルタ48による処理を行う場合は「○」、行わない場合は「×」が記載される。フィルタ処理実行の可否が識別できれば「○」、「×」以外の記載方法でもよい。
定位設定欄130には、フォーカス値欄の各範囲において、どの定位を与えるかが「中央」、「右寄り・左寄り」、「端」などで表される。同図に示すように、フォーカス値が高いときは定位を中央に置き、フォーカス値が低くなるにつれ定位を中央から離していくようにすると、強調の度合いの変化を定位によっても認識し易くなる。定位の左右はランダムに割り振ってもよいし、音楽データのアイコンの画面上の位置などに基づいてもよい。さらに、フォーカス値に対する定位の変化がないように定位設定欄130の設定を無効とし、それぞれの音声信号に対し常にアイコンの位置に対応した定位を与えれば、カーソルの動きに対応して強調される音声信号の聴こえる方向も変化するような態様とすることができる。なおフィルタ情報テーブル120にはさらに、周波数帯域分割フィルタ42の選択、非選択を含めてもよい。
変調フィルタ46や加工フィルタ48が行うことのできる処理が複数ある場合や、処理の度合いを内部パラメータで調整できる場合は、各欄に具体的な処理の内容や内部パラメータを表すようにしてもよい。例えば時分割フィルタ44において音声信号のピークとなる時間を強調の度合いの範囲によって変化させる場合、時分割欄124にその時間を記載する。フィルタ情報テーブル120は、各フィルタの相互の影響などを考慮して、実験などによってあらかじめ作成しておく。これにより非強調音声信号にふさわしい音響効果を選択したり、すでに分離して聴こえる音声信号に過剰な加工を行わないようにしたりする。フィルタ情報テーブル120を複数用意し、音楽データの情報に基づき最適なものを選択するようにしてもよい。
制御部20はフォーカス値がフォーカス値欄122に示される範囲の境界を越えるたびに、フィルタ情報テーブル120を参照して各フィルタの内部パラメータや、デマルチプレクサなどの設定に反映させる。これにより、フォーカス値の大きい音声信号は中央からはっきり聞こえ、フォーカス値の小さい音声信号は端の方からくぐもったように聞こえるなど、強調の度合いを反映して音声信号にさらにメリハリをつけることができる。
図9は、本実施の形態における音声処理装置16の動作を示すフローチャートである。まずユーザは入力部18に対して記憶装置12に記憶された音楽データの中から、同時に再生したい複数の音楽データの選択入力を行う。入力部18において当該選択入力を検出したら(S10のY)、制御部20による制御のもと、それらの音楽データの再生、各種フィルタ処理、混合処理を行い、出力装置30から出力する(S12)。周波数帯域分割フィルタ42で用いられるブロックの分割パターンの選択や割り当てパターン群の各音声信号への割り当てもここで行われ、周波数帯域分割フィルタ42に設定される。その他のフィルタへの初期設定も同様である。なおこの段階での出力信号は、全てのフォーカス値を同一にして強調の度合いを等しくしてよい。このときユーザには各音声信号が均等に、分離して聴こえる。
同時に入力部18には入力画面90を表示させ、ユーザがカーソル96を画面上で移動させるかどうかを監視しながら、混合した出力信号を出力し続ける(S14のN、S12)。カーソル96が移動したら(S14のY)、制御部20はその動きに合わせて各音声信号のフォーカス値を更新し(S16)、その値に対応するブロックの割り当てパターンを記憶部22から読み出して、周波数帯域分割フィルタ42の設定を更新する(S18)。さらにフォーカス値の範囲に対して設定された、処理を行うべきフィルタの選択情報と、各フィルタでの処理の内容や内部パラメータなどの情報を記憶部22から読み出し、それぞれのフィルタの設定を適宜更新する(S20、S22)。なおS14からS22までの処理は、S12の音声信号の出力と並列に行ってよい。
これらの処理を、カーソルが移動するたびに繰り返す(S24のN、S12〜22)。これにより、各音声信号に強調の度合いの高低がつくとともにカーソル96の動きに合わせてその度合いが経時変化する態様を実現できる。結果としてユーザはカーソル96の動きに合わせて音声信号が遠のいたり近づいたりする感覚を得ることができる。そして例えばユーザが、入力画面90の「停止」ボタン94を選択した場合(S24のY)、全ての処理を終了する。
以上述べた本実施の形態によれば、混合した際に分離して聴くことができるように、それぞれの音声信号に対してフィルタ処理を施す。具体的には各音声信号に周波数帯域や時間を分配することにより、内耳レベルで分離情報を与えたり、一部または全ての音声信号に対し周期的に変化を与える、音響加工処理を施す、異なる定位を与える、といったことを行うことにより、脳レベルで分離情報を与える。これにより、それぞれの音声信号を混合したときに、内耳レベル、脳レベルの双方で分離情報を取得でき、最終的には分離して認識することが容易になる。結果として、サムネイル表示を眺めるが如く音声そのものを同時に観測することができ、多数の音楽コンテンツなどの内容を確認したい場合でも時間をかけずに容易に行うことができる。
また本実施の形態では、各音声信号の強調の度合いを変化させる。具体的には、強調の度合いによって割り当てる周波数帯域を増やしたり、フィルタ処理の施し方に強弱をつけたり、施すフィルタ処理を変更したりする。これにより、強調の度合いの高い音声信号を他の音声信号より際立たせて聴こえるようにすることができる。この場合も、強調の度合いの低い音声信号を打ち消してしまうことがないように、低い音声信号に割り当てる周波数帯域は使用しないなどの配慮を行う。結果的には、複数の音声信号のそれぞれが聴こえつつも、焦点を絞るように、着目したい音声信号が際立って聴こえるようにできる。この態様を、ユーザが移動させるカーソルの動きに追随させて経時変化させることにより、サムネイル表示において視点をずらしていくように、カーソルからの距離に応じた聴こえ方の変化を生むことができるため、多くの音楽コンテンツなどから所望のコンテンツを容易かつ感覚的に選択することができる。
以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば本実施の形態では、音声信号が分離して聴こえるようにしながら強調の度合いも変化させたが、目的によっては、強調の度合いを変化させずに全ての音声信号を均一に聴かせるのみでもよい。強調の度合いに高低をつけない態様は、例えばフォーカス値の設定を無効にしたりフォーカス値を固定とすることにより同様の構成で実現することができる。これによっても複数の音声信号の分離受聴が可能となり、多数の音楽コンテンツなどを容易に把握することができる。
また本実施の形態では主に、音楽コンテンツを鑑賞する場合を想定して説明したが、本発明はそれに限らない。例えばテレビ受像機のオーディオ系統に、実施の形態で示した音声処理装置を設けてもよい。そして、ユーザのテレビ受像機への指示により多チャンネルの画像表示が行われている間は、各チャンネルの音声も、フィルタ処理後、混合して出力するようにする。これにより、多チャンネルの画像に加え音声も同時に区別して鑑賞することができる。この状態でユーザがチャンネル選択を行うと、当該チャンネルの音声を強調させつつ、別のチャンネルの音声も聴こえるようにしておくことも可能となる。さらに単一のチャンネルの画像表示においても、主音声と副音声を同時に聴く際、強調の度合いを段階的に変化させることが可能となり、互いに打ち消しあうことなく主として聴きたい音声を強調させることができる。
さらに図6に示したように本実施の形態の周波数帯域分割フィルタでは、フォーカス値0.1の音声信号に対して割り当てたブロックを、フォーカス値1.0の音声信号に対しては割り当てない、というルールに基づいて、各フォーカス値の割り当てパターンを固定的とした例を主に説明した。一方、例えばフォーカス値0.1となる音声信号がない期間や状態においては、フォーカス値0.1の音声信号に対してに割り当てるべきブロックを全てフォーカス値1.0の音声信号に割り当ててもよい。
例えば図6の例で、再生する音楽データが3つのみ選択された場合は、対応する3つの音声信号にパターン群A、パターン群B、パターン群Cをそれぞれ割り当てれば、同一パターン群のフォーカス値1.0とフォーカス値0.1の割り当てパターンが共存することはない。この場合、例えばパターン群Aが割り当てられた音声信号は、フォーカス値1.0のときに、フォーカス値0.1で割り当てる最も低域のブロックも一緒に割り当てることができる。このように、各フォーカス値に対する音声信号の数などに応じて、割り当てパターンを動的にしてもよい。これにより、強調対象の音声信号に割り当てられるブロック数を、非強調対象の音声信号を認識できる範囲で可能な限り多くすることができ、強調対象の音声信号の音質を高めることができる。
さらに、最も強調したい音声信号に全周波数帯域を割り当てるようにしてもよい。これにより当該音声信号はより強調されるとともに、その音質はさらに向上する。この場合も、他の音声信号は周波数帯域分割フィルタ以外のフィルタによって分離情報を与えることにより分離して認識させることは可能である。
本実施の形態における音声処理装置を含む音声処理システムの全体構造を示す図である。 本実施の形態における音声信号の周波数帯域分割について説明するための図である。 本実施の形態における音声信号の時分割について説明するための図である。 本実施の形態における音声処理部の構成を詳細に示す図である。 本実施の形態において音声処理装置の入力部に表示される画面の例を示す図である。 本実施の形態においてブロックの割り当て方のパターンを模式的に示す図である。 本実施の形態において記憶部に記憶される音楽データの情報の一例を示す図である。 本実施の形態において記憶部に記憶させる、フォーカス値と各フィルタの設定とを対応付けたテーブルの例を示す図である。 本実施の形態における音声処理装置の動作を示すフローチャートである。
符号の説明
10 音声処理システム、 12 記憶装置、 14 再生装置、 16 音声処理装置、 18 入力部、 20 制御部、 22 記憶部、 24 音声処理部、 26 ダウンミキサー、 30 出力装置、 40 前処理部、 42 周波数帯域分割フィルタ、 44 時分割フィルタ、 46 変調フィルタ、 48 加工フィルタ、 50 定位設定フィルタ。

Claims (9)

  1. 複数の音声信号を同時に再生する音声処理装置であって、
    ユーザに聴感上分離して聞こえるように各入力音声信号に対して所定の処理を施す音声処理部と、
    前記処理を施された前記複数の入力音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部と、を備え、
    前記音声処理部は、複数の入力音声信号のそれぞれに対し、周波数帯域を所定の規則で分割してなる複数のブロックから選択されたブロックを割り当て、各入力音声信号から、割り当てたブロックに属する周波数成分を抽出する周波数帯域分割フィルタを備え、
    前記周波数帯域分割フィルタは、前記複数の入力音声信号の少なくともいずれかに、不連続な複数のブロックを割り当てることを特徴とする音声処理装置。
  2. 前記複数のブロックは、周波数帯域をBarkの臨界帯域の境界周波数のいずれかによって分割してなることを特徴とする請求項1に記載の音声処理装置。
  3. 前記複数の入力音声信号ごとに前記複数のブロックのうち優先的に割り当てを行うブロックを決定する特徴帯域抽出部をさらに備え、
    前記周波数帯域分割フィルタは、前記複数のブロックのうち前記特徴帯域抽出部が決定した、ある入力音声信号に対し優先的に割り当てを行うブロック以外のブロックを、他の入力音声信号に割り当てることを特徴とする請求項1または2に記載の音声処理装置。
  4. 前記音声処理部は、複数の入力音声信号のそれぞれの振幅を、共通の周期で位相を異ならせて時間変調させる時分割フィルタをさらに備えたことを特徴とする請求項1から3のいずれかに記載の音声処理装置。
  5. 前記音声処理部は、複数の入力音声信号の少なくともいずれかに対し、所定の周期で所定の音響加工処理を施す変調フィルタをさらに備えたことを特徴とする請求項1から3のいずれかに記載の音声処理装置。
  6. 前記音声処理部は、複数の入力音声信号の少なくともいずれかに対し、定常的に所定の音響加工処理を施す加工フィルタをさらに備えたことを特徴とする請求項1から3のいずれかに記載の音声処理装置。
  7. 前記音声処理部は、複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィルタをさらに備えたことを特徴とする請求項1から3のいずれかに記載の音声処理装置。
  8. 複数の入力音声信号のそれぞれに対し、互いにマスキングされない周波数帯域を割り当てるステップと、
    各入力音声信号から、割り当てた周波数帯域に属する周波数成分を抽出するステップと、
    各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力するステップと、
    を含むことを特徴とする音声処理方法。
  9. 周波数帯域を所定の規則で分割してなる複数のブロックから選択されたブロックのパターンを記憶したメモリを参照して、複数の入力音声信号のそれぞれに対し前記パターンを割り当てる機能と、
    各入力音声信号から、割り当てた前記パターンを構成するブロックに属する周波数成分を抽出する機能と、
    各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力音声信号として出力する機能と、
    をコンピュータに実現させることを特徴とするコンピュータプログラム。
JP2006319368A 2006-11-27 2006-11-27 音声処理装置および音声処理方法 Active JP4823030B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006319368A JP4823030B2 (ja) 2006-11-27 2006-11-27 音声処理装置および音声処理方法
CN2007800017072A CN101361124B (zh) 2006-11-27 2007-06-26 声音处理装置和声音处理方法
PCT/JP2007/000699 WO2008065731A1 (fr) 2006-11-27 2007-06-26 Processeur audio et procédé de traitement audio
US12/093,049 US8121714B2 (en) 2006-11-27 2007-06-26 Audio processing apparatus and audio processing method
ES07790221.1T ES2526740T3 (es) 2006-11-27 2007-06-26 Procesador de audio y método de procesamiento de audio
EP07790221.1A EP2088590B1 (en) 2006-11-27 2007-06-26 Audio processor and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006319368A JP4823030B2 (ja) 2006-11-27 2006-11-27 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JP2008135892A true JP2008135892A (ja) 2008-06-12
JP4823030B2 JP4823030B2 (ja) 2011-11-24

Family

ID=39467534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006319368A Active JP4823030B2 (ja) 2006-11-27 2006-11-27 音声処理装置および音声処理方法

Country Status (6)

Country Link
US (1) US8121714B2 (ja)
EP (1) EP2088590B1 (ja)
JP (1) JP4823030B2 (ja)
CN (1) CN101361124B (ja)
ES (1) ES2526740T3 (ja)
WO (1) WO2008065731A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010206499A (ja) * 2009-03-03 2010-09-16 Nippon Hoso Kyokai <Nhk> 明瞭度改善機能付再生装置
JP2012034295A (ja) * 2010-08-02 2012-02-16 Nippon Hoso Kyokai <Nhk> 音響信号変換装置及び音響信号変換プログラム
EP2434491A1 (en) 2010-09-28 2012-03-28 Sony Ericsson Mobile Communications Japan, Inc. Sound processing device and sound processing method
EP2571280A2 (en) 2011-09-13 2013-03-20 Sony Corporation Information processing device and computer program

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4785909B2 (ja) * 2008-12-04 2011-10-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置
CN102473415B (zh) * 2010-06-18 2014-11-05 松下电器(美国)知识产权公司 声音控制装置及声音控制方法
EP2463861A1 (en) * 2010-12-10 2012-06-13 Nxp B.V. Audio playback device and method
EP2656640A2 (en) * 2010-12-22 2013-10-30 Genaudio, Inc. Audio spatialization and environment simulation
US10107887B2 (en) 2012-04-13 2018-10-23 Qualcomm Incorporated Systems and methods for displaying a user interface
US9195431B2 (en) 2012-06-18 2015-11-24 Google Inc. System and method for selective removal of audio content from a mixed audio recording
US9338552B2 (en) 2014-05-09 2016-05-10 Trifield Ip, Llc Coinciding low and high frequency localization panning
JP6732739B2 (ja) * 2014-10-01 2020-07-29 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
JP6478613B2 (ja) * 2014-12-16 2019-03-06 株式会社東芝 受信装置、通信システム、および干渉検出方法
CN106034274A (zh) * 2015-03-13 2016-10-19 深圳市艾思脉电子股份有限公司 基于声场波合成的3d音响装置及其合成方法
US10560790B2 (en) * 2016-06-27 2020-02-11 Oticon A/S Method and a hearing device for improved separability of target sounds
WO2019203124A1 (ja) * 2018-04-17 2019-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング方法、及びミキシングプログラム
US11516581B2 (en) 2018-04-19 2022-11-29 The University Of Electro-Communications Information processing device, mixing device using the same, and latency reduction method
JP7292650B2 (ja) 2018-04-19 2023-06-19 国立大学法人電気通信大学 ミキシング装置、ミキシング方法、及びミキシングプログラム
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10256858A (ja) * 1997-03-10 1998-09-25 Fujitsu Ltd 音の選択装置
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置
JP2001095081A (ja) * 1999-09-21 2001-04-06 Alpine Electronics Inc 案内音声補正装置
JP2003233387A (ja) * 2002-02-07 2003-08-22 Nissan Motor Co Ltd 音声報知装置
JP2006180545A (ja) * 2006-02-06 2006-07-06 Fujitsu Ten Ltd 車載用音響再生装置
JP2006270741A (ja) * 2005-03-25 2006-10-05 Clarion Co Ltd 車載音響処理装置、および、ナビゲーション装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2058497B (en) * 1979-08-31 1984-02-29 Nissan Motor Voice warning system with volume control
JPH03236691A (ja) * 1990-02-14 1991-10-22 Hitachi Ltd テレビジョン受信機用音声回路
JPH1031500A (ja) * 1996-07-15 1998-02-03 Atr Ningen Joho Tsushin Kenkyusho:Kk 可変レート符号化方法および可変レート符号化装置
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
EP1561215A2 (en) * 2002-01-23 2005-08-10 Koninklijke Philips Electronics N.V. Mixing system for mixing oversampled digital audio signals
DE10242558A1 (de) * 2002-09-13 2004-04-01 Audi Ag Audiosystem insbesondere für ein Kraftfahrzeug
EP1494364B1 (en) * 2003-06-30 2018-04-18 Harman Becker Automotive Systems GmbH Device for controlling audio data output
CN1662100B (zh) * 2004-02-24 2010-12-08 三洋电机株式会社 低音强调电路以及低音强调处理方法
JP2006019908A (ja) * 2004-06-30 2006-01-19 Denso Corp 車両用報知音出力装置及びプログラム
DE102005061859A1 (de) * 2005-12-23 2007-07-05 GM Global Technology Operations, Inc., Detroit Sicherheitseinrichtung für ein Fahrzeug mit einer Klangregeleinrichtung

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10256858A (ja) * 1997-03-10 1998-09-25 Fujitsu Ltd 音の選択装置
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置
JP2001095081A (ja) * 1999-09-21 2001-04-06 Alpine Electronics Inc 案内音声補正装置
JP2003233387A (ja) * 2002-02-07 2003-08-22 Nissan Motor Co Ltd 音声報知装置
JP2006270741A (ja) * 2005-03-25 2006-10-05 Clarion Co Ltd 車載音響処理装置、および、ナビゲーション装置
JP2006180545A (ja) * 2006-02-06 2006-07-06 Fujitsu Ten Ltd 車載用音響再生装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010206499A (ja) * 2009-03-03 2010-09-16 Nippon Hoso Kyokai <Nhk> 明瞭度改善機能付再生装置
JP2012034295A (ja) * 2010-08-02 2012-02-16 Nippon Hoso Kyokai <Nhk> 音響信号変換装置及び音響信号変換プログラム
EP2434491A1 (en) 2010-09-28 2012-03-28 Sony Ericsson Mobile Communications Japan, Inc. Sound processing device and sound processing method
US8903525B2 (en) 2010-09-28 2014-12-02 Sony Corporation Sound processing device, sound data selecting method and sound data selecting program
US9972297B2 (en) 2010-09-28 2018-05-15 Sony Corporation Sound processing device, sound data selecting method and sound data selecting program
EP2571280A2 (en) 2011-09-13 2013-03-20 Sony Corporation Information processing device and computer program
US8908110B2 (en) 2011-09-13 2014-12-09 Sony Corporation Information processing device and computer program

Also Published As

Publication number Publication date
US8121714B2 (en) 2012-02-21
JP4823030B2 (ja) 2011-11-24
EP2088590A4 (en) 2013-08-14
ES2526740T3 (es) 2015-01-14
US20080269930A1 (en) 2008-10-30
EP2088590A1 (en) 2009-08-12
WO2008065731A1 (fr) 2008-06-05
EP2088590B1 (en) 2014-12-10
CN101361124B (zh) 2011-07-27
CN101361124A (zh) 2009-02-04

Similar Documents

Publication Publication Date Title
JP4823030B2 (ja) 音声処理装置および音声処理方法
JP4766491B2 (ja) 音声処理装置および音声処理方法
Thompson Understanding audio: getting the most out of your project or professional recording studio
JP6178456B2 (ja) デジタル音声信号からハプティック・イベントを自動生成するシステム及び方法
EP1635611B1 (en) Audio signal processing apparatus and method
JP4372169B2 (ja) オーディオ再生装置およびオーディオ再生方法
EP2434491B1 (en) Sound processing device and sound processing method
US10623879B2 (en) Method of editing audio signals using separated objects and associated apparatus
KR20090130833A (ko) 디지털 오디오 파일로부터 햅틱 이벤트들을 자동으로 생성하는 시스템 및 방법
Case Mix smart: Pro audio tips for your multitrack mix
d'Escrivan Music technology
Case Mix smart: Professional techniques for the home studio
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
Coryat Guerrilla home recording: how to get great sound from any studio (no matter how weird or cheap your gear is)
WO2023062865A1 (ja) 情報処理装置および方法、並びにプログラム
Exarchos et al. Audio processing
Katz B. Equalization Techniques
Bazil Sound Equalization Tips and Tricks
Karlsson Mixing pop in 9.1: How do listeners perceive different delay/panning combinations, applied to solo pop guitar?
Liston et al. LISTENER PREFERENCE OF REVERBERATION IN THE POST-PRODUCTION OF LIVE MUSIC RECORDINGS
Keep Responsive performance strategies with electronic feedback: shaping intrinsic behaviours
KR20030093868A (ko) 오디오 다채널 방식을 이용한 노래반주장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080409

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20101125

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110906

R150 Certificate of patent or registration of utility model

Ref document number: 4823030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250