JP2018074252A - Acoustic system and control method of same, signal generating device, computer program - Google Patents
Acoustic system and control method of same, signal generating device, computer program Download PDFInfo
- Publication number
- JP2018074252A JP2018074252A JP2016208845A JP2016208845A JP2018074252A JP 2018074252 A JP2018074252 A JP 2018074252A JP 2016208845 A JP2016208845 A JP 2016208845A JP 2016208845 A JP2016208845 A JP 2016208845A JP 2018074252 A JP2018074252 A JP 2018074252A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- separation
- acoustic system
- areas
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は音響システム及びその制御方法、信号生成装置、コンピュータプログラムに関する。 The present invention relates to an acoustic system, a control method thereof, a signal generation device, and a computer program.
空間を複数のエリアに分割してエリアごとの音声を取得する技術が知られている(特許文献1)。 A technique is known in which a space is divided into a plurality of areas and audio for each area is acquired (Patent Document 1).
しかしながら、複数のエリアに分割したエリアの音声をリアルタイム処理し、放送しようとすると、処理や伝送が間に合わずデータが欠損し、音声が途切れてしまう可能性があった。 However, if the voice of the area divided into a plurality of areas is processed in real time and broadcasted, the processing and transmission may not be in time, data may be lost, and the voice may be interrupted.
本発明は上記課題に鑑みなされたものであり、空間を分割した複数のエリアから音声を取得して再生用信号を生成する構成において、処理の効率化を可能にする技術を提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a technique that enables efficient processing in a configuration in which audio is obtained from a plurality of areas divided into spaces and a reproduction signal is generated. And
上記目的を達成するため、本発明による音響システムは以下の構成を備える。即ち、
音声を収集するマイクアレイと、
前記マイクアレイが収集した音声を、一定の空間を分割した複数の分離エリアおける音声に分離する分離手段と、
前記一定の空間の前記複数の分離エリアへの分割を制御する制御手段と、
前記分離した音声に基づき、再生用信号を生成する生成手段と
を備える。
In order to achieve the above object, an acoustic system according to the present invention comprises the following arrangement. That is,
A microphone array that collects audio,
Separation means for separating the sound collected by the microphone array into sound in a plurality of separation areas into which a certain space is divided;
Control means for controlling division of the constant space into the plurality of separation areas;
Generating means for generating a reproduction signal based on the separated sound.
本発明によれば、空間を分割した複数のエリアから音声を取得して再生用信号を生成する構成において、処理を効率化することが可能になる。 According to the present invention, it is possible to improve processing efficiency in a configuration in which sound is obtained from a plurality of areas divided into spaces and a reproduction signal is generated.
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The following embodiments do not limit the present invention, and all the combinations of features described in the present embodiment are not necessarily essential to the solution means of the present invention. In addition, about the same structure, the same code | symbol is attached | subjected and demonstrated.
<実施形態1>
本発明の第一の実施形態(実施形態1)では、音源分離処理がリアルタイム再生に間に合わなくなった場合に、使用する分離エリア数を低減する構成を説明する。
<
In the first embodiment (Embodiment 1) of the present invention, a configuration for reducing the number of separation areas to be used when the sound source separation processing is not in time for real-time reproduction will be described.
(音声信号処理装置)
図1は音声信号処理装置100の構成を示すブロック図である。音声信号処理装置100は、マイクアレイにより所定の空間エリアから音声を収集し、収集した音声を複数の分離エリアに基づき複数の音声信号に分離して音声処理を行い、ミキシングを行って再生用信号を生成する装置である。音声信号処理装置100はマイクアレイ111、音源分離部112、分離エリア制御部113、音声信号処理部114、記憶部115、リアルタイム再生用信号生成部116、及び、リプレイ再生用信号生成部117を備える。
(Audio signal processor)
FIG. 1 is a block diagram showing the configuration of the audio
マイクアレイ111は複数のマイクロホンからなる。マイクアレイ111は、担当する空間の音声をマイクロホンで収集する。マイクアレイ111を構成する各マイクロホンがそれぞれ収音するため、マイクアレイ111が収集する音声は、全体として、各マイクロホンが収集した複数の音声からなるマルチチャネルの信号となる。マイクアレイ111は、空間の音声をマイクロホンで収音し、収音した信号をA/D変換(アナログ/デジタル変換)したのち、音源分離部112へ出力する。
The
音源分離部112、分離エリア制御部113、音声信号処理部114、リアルタイム再生用信号生成部116、リプレイ再生用信号生成部117は例えばCPU(中央演算処理装置)やDSP、MPUなどの演算処理装置からなる。DSPはDigital Signal Processorの略称であり、MPUはMicro-processing unitの略称である。
The sound
音源分離部112は、マイクアレイ111が収音を担当する空間をN(N>1)個のエリア(以下、「分離エリア」)に分割した場合に、マイクアレイ111から入力された信号を各分離エリアにおける音声に分離する音源分離処理を行う。前述のように、マイクアレイ111から入力される信号は各マイクロホンが収集した複数の音声からなるマルチチャネルの信号である。そのため、マイクアレイ111を構成する各マイクロホンと集音したい分離エリアとの位置関係に基づき、マイクロホンが収集した音声信号に位相制御および重みづけをして加算することで、任意の分離エリアの音声を再現することができる。なお、本実施形態では、この分離エリアの配置が予め定められている例を説明する。音源分離部112はマイクアレイ111から入力された信号を用いて空間をN(N>1)個のエリアに分割するように音源分離処理を行う。分離処理は処理フレームごと、つまり所定の時間間隔ごとに行われる。例えば、所定の時間ごとにビームフォーミング処理を行い、エリアごとの音声を取得する。分離して取得した音声は音声信号処理部114および記憶部115へ出力される。
The sound
分離エリア制御部113は、音源の分離や再生用信号の生成等を行うための処理負荷に応じてマイクアレイが収音する一定の空間の複数の分離エリアへの分割を制御する。具体的には、複数の分離エリアの配置及び個数を制御する。例えば、処理装置の処理負荷が大きく、全てのエリアの音源分離処理を行うと処理がリアルタイム再生に間に合わない場合、分離エリア制御部113は音源分離部112で行う音源分離エリアを結合してエリア数を減らす。例えば、処理が十分に間に合っている状態では、例えば図2(A)のように収音空間A1を8×8=64個の分離エリアA2に細かくエリア分割する。処理が間に合わなくなった場合には、例えば前フレームの処理においてそのエリアの音声が所定のレベル以上であったか否かを判定し、所定のレベル未満のエリアについては図2(B)に示すようにエリアを結合しエリア数を減らす。所定のレベル以上の音声は有意な音声である蓋然性が高い一方で、所定のレベル未満の音声は雑音等の有意でない音声である蓋然性が高い。そのため、音声が所定のレベル以上のエリアには細かい分離エリアを優先的に割り当てることで、有意な音声を忠実に再現するとともに、所定レベル未満のエリアでは分離エリアを統合することで、処理を高速化することができる。
The separation
エリアの分離サイズ変化の例を図3に示す。図3(D)は、処理負荷に基づいたエリア制御が行われている(エリア制御ON)か否(エリア制御OFF)かの状態を示している。fpからfp+7はフレーム番号を表す。図3(C)は、エリアごとに分離した音声のレベルが所定のレベル以上(音有)か所定のレベル未満(音無)かの状態を示している。ここではフレームfp+1およびfp+3において音有の状態となっている。図3(B)は最も細かく分割されたエリアの分割サイズを示している。この分割サイズは、収音空間A1の面積を1とした場合の最小エリアの面積を表している。例えばフレームfpでは空間を64のエリアに等分割しているため最少のエリアサイズは1/64となっている。図3(A)は、各フレームが複数のエリアに分離された様子を示している。 An example of the change in the separation size of the area is shown in FIG. FIG. 3D shows a state in which area control based on the processing load is being performed (area control ON) or not (area control OFF). fp to fp + 7 represent frame numbers. FIG. 3C shows a state where the sound level separated for each area is equal to or higher than a predetermined level (with sound) or lower than a predetermined level (no sound). Here, sound is present in frames fp + 1 and fp + 3. FIG. 3B shows the division size of the most finely divided area. This division size represents the area of the minimum area when the area of the sound collection space A1 is 1. For example, in the frame fp, since the space is equally divided into 64 areas, the minimum area size is 1/64. FIG. 3A shows a state in which each frame is separated into a plurality of areas.
fp+1からfp+6までが処理負荷が大きくエリア数を減らす必要がある時間である。フレームfpにおいては、どこのエリアでも音声レベルが所定値を超えなかった(図3(C)で音無)。そのため、フレームfp+1ではエリアサイズは1辺が収音空間の1/2で収音空間を4つに分割した大きなエリアになる(図3(B)で1/4)。 The time from fp + 1 to fp + 6 is the time when the processing load is large and the number of areas needs to be reduced. In the frame fp, the sound level did not exceed a predetermined value in any area (no sound in FIG. 3C). Therefore, in the frame fp + 1, the area size is a large area in which one side is 1/2 of the sound collection space and the sound collection space is divided into four (1/4 in FIG. 3B).
フレームfp+1では音声レベルが所定値を超えたエリアがあった(図3(C)で音有)。そのため、フレームfp+2では音声のあったエリアA3は再び1辺が収音空間A1の1/8の小さなエリアに分割される(図3(B)で1/64)。 In the frame fp + 1, there was an area where the sound level exceeded a predetermined value (with sound in FIG. 3C). For this reason, in the frame fp + 2, the area A3 where the voice is present is again divided into areas each having a side that is 1/8 smaller than the sound collection space A1 (1/64 in FIG. 3B).
続いてフレームfp+2ではどこのエリアでも音声レベルが所定値を超えなかった(図3(C)で音無)。そのため、フレームfp+3では、一部のエリアが結合され1辺が収音空間の1/4の中間の大きさのエリアに分割される(図3(B)で1/16)。 Subsequently, in the frame fp + 2, the sound level did not exceed the predetermined value in any area (no sound in FIG. 3C). Therefore, in the frame fp + 3, some areas are combined and one side is divided into an area having an intermediate size of 1/4 of the sound collection space (1/16 in FIG. 3B).
フレームfp+3では音声レベルが所定値を超えたエリアがあった(図3(C)で音有)。そのためフレームfp+4では音声のあったエリアA3は再び1辺が収音空間の1/8の小さなエリアに分割される(図3(B)で1/64)。 In the frame fp + 3, there was an area where the sound level exceeded a predetermined value (with sound in FIG. 3C). For this reason, in the frame fp + 4, the area A3 where the sound is present is again divided into areas whose one side is 1/8 as small as the sound collection space (1/64 in FIG. 3B).
フレームfp+4、fp+5ではどこのエリアも音声レベルが所定値を超えなかった(図3(C)で音無)。そのため、エリアが結合されフレームfp+6では1辺が収音空間の1/2で収音空間を4つに分割した大きなエリアになる。 In frames fp + 4 and fp + 5, the sound level did not exceed a predetermined value in any area (no sound in FIG. 3C). Therefore, the areas are combined, and in the frame fp + 6, one side is a half of the sound collection space and the sound collection space is divided into four.
分離エリア制御部113は、このようにして音声検出の有無に応じて分離エリア数を増減させる。ここで分離エリア制御部113は音源分離エリアを結合してエリア数を減らす例を説明した。もっとも、実際には音源分離部112に複数のエリアサイズに分離するビームフォーミング用のフィルタを持ち、分離エリア制御部113は使用するフィルタを制御するようにしてもよい。
In this way, the separation
さらに分離エリア制御部113では分離エリア制御によって結合したエリアについてフレームと結合したエリア情報を分離エリア制御リストとして管理する。例えばフレームfqにおいて4つのエリアを結合した場合、フレームfqと4つのエリアがリストとして管理される。ここでエリアはあらかじめIDなどを付けて区別が付けられるようにしておく。分離エリア制御部113は、処理の負荷が小さくなったことに応じて分離エリア制御リストに記録されたフレームと結合されたエリアについてそれぞれのエリアの音源分離を行うように音源分離部112へ指示を出す。音源分離が行われるとそのフレームとエリアはリストから削除される。
Further, the separation
音声信号処理部114では、フレーム、エリアごとの音声信号の処理を行う。音声信号処理部114で行われる処理は、例えば、エリアと収音装置の距離による影響を補正するための遅延補正処理、ゲイン補正処理や、エコー除去などである。
The audio
記憶部115は、例えばHDD(ハードディスクドライブ)やSSD(ソリッドステートドライブ)、メモリのような記憶装置である。記憶部115は、音源分離部112において分離エリア制御されたフレームの全音声チャンネルの信号と音声信号処理部114で音声信号処理を行った信号を、時刻情報とともに記録する。
The
リアルタイム再生用信号生成部116では音源分離部112から得たエリアごとの音声を収音から所定の時間内にミキシングすることでリアルタイム再生用の信号を生成し出力する。例えば、外部から時間に応じて変化する空間内の仮想の聴取点と仮想の聴取者の向き(以下、単に聴取点と聴取者の向きと称する)と、再生環境の情報とを取得し、音源のミキシングを行う。ここで再生環境とは、リアルタイム再生用信号生成部116で生成した信号を再生する再生装置がスピーカ(ステレオ、サラウンド、その他マルチチャンネル)か、あるはヘッドホンかといった、再生装置の構成に関する環境である。すなわち、音源のミキシングにおいては、各分割エリアの音声信号を、再生装置のチャンネル数等の環境に合わせて合成・変換する処理を行う。
The real-time playback
リプレイ再生用信号生成部117は、リプレイ再生が要求された場合に、該当する時刻のデータを記憶部115から取得し、リアルタイム再生用信号生成部116と同様の処理を行い出力する。
When replay playback is requested, the replay playback
図4は、音声信号処理装置100のハードウェア構成例を示すブロック図である。音声信号処理装置100は、例えば、パーソナルコンピュータ(PC)や組込みシステム、タブレット端末、スマートフォン等により実現される。
FIG. 4 is a block diagram illustrating a hardware configuration example of the audio
図4において、CPU990は中央演算処理装置であり、コンピュータプログラムに基づいて他の構成要素と協働し、音声信号処理装置100全体の動作を制御する。ROM991は読出し専用メモリであり、基本プログラムや基本処理に使用するデータ等を記憶する。RAM992は書込み可能メモリであり、CPU990のワークエリア等として機能する。
In FIG. 4, a
外部記憶ドライブ993は記録媒体へのアクセスを実現し、USBメモリ等のメディア(記録媒体)994に記憶されたコンピュータプログラムやデータを本システムにロードすることができる。ストレージ995はSSD(ソリッドステートドライブ)等の大容量メモリとして機能する装置である。ストレージ995には、各種コンピュータプログラムやデータが格納される。
The
操作部996はユーザからの指示やコマンドの入力を受け付ける装置であり、キーボードやポインティングデバイス、タッチパネル等がこれに相当する。ディスプレイ997は、操作部996から入力されたコマンドや、それに対する音声信号処理装置100の応答出力等を表示する表示装置である。インターフェイス(I/F)998は外部装置とのデータのやり取りを中継する装置である。また、マイクアレイ111は、インターフェイス998を介して音声信号処理装置100に接続される。システムバス999は、音声信号処理装置100内のデータの流れを司るデータバスである。
The
図1の各機能要素は、CPU990がコンピュータプログラムに基づき装置全体を制御することにより実現される。なお、以上の各装置と同等の機能を実現するソフトウェアにより、ハードウェア装置の代替として構成することもできる。
Each functional element in FIG. 1 is realized by the
(処理手順)
続いて、音声信号処理装置100が実行する処理の手順について図5を参照して説明する。図5(A)から図5(C)は、本実施形態の音声信号処理装置100が実行する処理の手順を示すフローチャートである。
(Processing procedure)
Next, the procedure of processing executed by the audio
図5(A)は、収音からリアルタイム再生用信号を生成するまでのフローである。はじめに、マイクアレイ111において空間内の音の収音が行われる(S111)。収音された各チャンネルの音声信号は音源分離部112へ出力される。
FIG. 5A is a flow from collecting sound to generating a real-time reproduction signal. First, sound in the space is collected in the microphone array 111 (S111). The collected audio signal of each channel is output to the sound
続いて分離エリア制御部113において処理の負荷の観点から音源分離がリアルタイム再生に間に合うか否かを判定する(S112)。この処理は、図3を参照して説明したように、所定のレベルの音声の有無等に基づいて行われる。
Subsequently, the separation
リアルタイム再生に間に合わないと判定された場合(S112でNO)、分離エリア制御部113では音源分離エリアが少なくなるようにエリア数を制御する(S113)。具体的には、例えば、一定レベル以上の音声が検出されないエリア等の重要度の低い分離エリアを統合して分離エリアの個数を減少させる。そして、どのようなエリアで分離するかという情報を音源分離部112へ出力する。さらに分離エリア制御部113では分離エリア制御リストを作成する。
When it is determined that it is not in time for real-time reproduction (NO in S112), the separation
続いて記憶部115において分離エリア制御を行ったフレームの音声信号を記録する(S114)。 Subsequently, the audio signal of the frame subjected to the separation area control is recorded in the storage unit 115 (S114).
リアルタイム再生に間に合うと判定された場合、あるいはS114において記録を行った後、音源分離部112において音源分離が行われる(S115)。すなわち、S111で集音したマルチチャネルの信号をもとに、各分離エリアにおける音声を合成する。前述のように、分離エリアの音声は、マイクアレイ111を構成するマイクロホンと、分離エリアの位置との関係に基づき、各マイクロホンが収集した音声信号に位相制御および重みづけをして加算することで再現することができる。分離されたエリアごとの音声信号は音声信号処理部114へ出力される。
When it is determined that it is in time for real-time reproduction, or after recording in S114, the sound
続いて音声信号処理部114において分離エリアごとの音声信号の処理を行う(S116)。音声信号処理部114による処理は、前述のように、例えば、分離エリアと収音装置との距離による影響を補正するための遅延補正処理、ゲイン補正処理や、エコー除去による雑音処理などである。処理された音声信号はリアルタイム再生用信号生成部116および記憶部115へ出力される。
Subsequently, the audio
続いてリアルタイム再生用信号生成部116においてリアルタイム再生用の音声のミキシングが行われる(S117)。ミキシングにおいては、再生機器の仕様(例えば、チャンネル数等)に合わせて再生できるように信号を合成・変換したりする。リアルタイム再生用にミキシングされた音声は外部の再生機器あるいは放送用信号として出力される。
Subsequently, the real-time
続いて記憶部115において各エリアの音声の記録が行われる(S118)。リプレイ再生用の音声信号は記憶部115のエリアごとの音声を用いて作成される。
Subsequently, the voice of each area is recorded in the storage unit 115 (S118). The audio signal for replay reproduction is created using the audio for each area of the
次に、図5(B)を用いて図5(A)のS112においてリアルタイム再生に処理が間に合わなかった場合(S112でNO)の処理を説明する。 Next, referring to FIG. 5B, a description will be given of processing in the case where processing is not in time for real-time playback in S112 of FIG. 5A (NO in S112).
分離エリア制御部113では処理装置の負荷が所定値より低い場合に、分離エリア制御リストに基づいて記憶部115からデータを読み出す(S121)。
The separation
続いて分離エリア制御リストに記載のエリアを結合して音源分離を行ったエリアについて再度結合前のエリアについて音源分離処理を行う(S122)。処理を行った音声信号は音声信号処理部114へ出力する。対応するフレームとエリアは処理が終わると分離エリア制御リストから削除される。S123はS116と同様のため詳細な説明を省略する。
Subsequently, the sound source separation process is performed again on the area before combining the areas where the sound source separation is performed by combining the areas described in the separation area control list (S122). The processed audio signal is output to the audio
続いて記憶部115では入力されたエリアの音声信号を以前のデータに上書きし記録する(S124)。
Subsequently, the
次に、図5(C)を用いてリプレイが要求された場合の処理フローを説明する。リプレイが要求されると、リプレイ再生用信号生成部117は記憶部115からリプレイ時間に対応したエリアごとの音声信号を読み出す(S131)。
Next, a processing flow when replay is requested will be described with reference to FIG. When a replay is requested, the replay playback
続いてリプレイ再生用信号生成部117においてリプレイ再生用の音声のミキシングが行われる(S132)。リプレイ再生用にミキシングされた音声は外部の再生機器あるいは放送用信号として出力される。
Subsequently, the replay
以上説明したように、処理負荷に応じて分離エリアを制御する。すなわち、一定の空間において、音源の分離及び再生用信号の生成の少なくともいずれかの処理の負荷がより大きい領域を、より細かい分離エリアに分割するように制御する。そのため、音量レベルが所定値より低いエリアの分離度は低下するが、音量レベルが所定値以上のエリアは高い分解能でリアルタイム再生用信号生成に間に合う。さらに処理負荷が軽い時に分離エリア制御したエリアの分離を行う事でリプレイ時には十分な分解能のデータを得ることができる。 As described above, the separation area is controlled according to the processing load. That is, in a certain space, control is performed so that a region where the processing load of at least one of sound source separation and reproduction signal generation is larger is divided into finer separation areas. For this reason, the degree of separation of the area where the sound volume level is lower than the predetermined value is lowered, but the area where the sound volume level is higher than the predetermined value is in time for generating the real-time reproduction signal with high resolution. Furthermore, when the processing load is light, the separation of the areas controlled by the separation area is performed, so that data with sufficient resolution can be obtained during replay.
本実施形態においてマイクアレイ111はマイクロホンからなる例を説明したが、反射板などの構造物とセットであってもよい。またマイクアレイ111で使用するマイクロホンは無指向性であってもよいし、指向性マイクであってもよく、それらの混合でもよい。
In the present embodiment, the
本実施形態において音源分離部112はビームフォーミングを用いてエリアごとの音声収音を行う例を説明したが、その他の音源分離を用いてもよい。例えばエリアごとのパワースペクトル密度(PSD)を推定し、推定したPSDに基づいてウィナーフィルタによる分離を行ってもよい。
In the present embodiment, the sound
本実施形態において分離エリア制御部113はエリアの音声レベルが所定値以上か否かで分離エリアを制御する例を説明したが、その他の判定基準を持っていてもよい。例えば同じ音声を使用する場合でも、レベルではなく、音の特徴量を検出する構成を備え、特徴量の有無を判定してもよい。具体的には、音声の特徴量解析により悲鳴や銃声や、ボールの音、自動車の音などが音声に含まれる場合など、予め定められた特徴を示す音声が検出されたときは分離エリアを小さくして、詳細な音声を再現するようにしてもよい。また、例えば全てのエリアを含む空間を撮影し、その撮影した動画像から分離エリアを制御してもよい。例えば、動画から人物や動物、マーカ等の特定の被写体を検出し、その被写体周辺の分離エリアの大きさがより小さくなるように制御してもよい。
In the present embodiment, the example in which the separation
またテレビ放送などの生中継では、時間調整や、不慮の事態に対応するため実際の撮影から数秒から数分程度の一定の遅延を持たせて放送するようなシステムが一般に知られている。そのようなシステムを用いた場合、分離エリア制御部113は遅延時間分の映像や音声に含まれる事象に応じて分離順序を制御してもよい。例えば、スポーツのライブ中継において2分の遅延がある場合、2分間の試合展開から分離エリアを設定して、音源分離をしてもよい。例えばサッカーなどの競技においてゴールが決まると、2分間の映像からゴールを決めた選手やボールの動きを検出し、その軌跡周辺の分離エリアが細かくなるように設定されるようになっていてもよい。反対に選手やボールが入らないエリアについては分離エリアが粗くなるように設定されるようにするとよい。
In live broadcasts such as television broadcasting, a system is generally known that broadcasts with a certain delay of several seconds to several minutes from actual shooting in order to adjust the time or cope with an unexpected situation. When such a system is used, the separation
また本実施形態では分離エリア制御部113はエリア数を極力減らしたが、処理負荷に応じてエリア数を計算し、必要最低限のエリア数を低減するようにしてもよい。
In the present embodiment, the separation
また本実施形態では分離エリア制御部113は前フレームの音声のレベルを用いて分離エリアを制御したが、処理フレームの情報を用いて分離エリアを制御してもよい。つまり、分離エリア制御部113は分離したエリアの音声のレベルが所定値以上であれば、そのエリアをさらに細かく分割したエリアでの音源分離を行うように音源分離部112へ指示する。分離エリア制御部113および音源分離部112はこの処理をエリアが所定のサイズまで小さくなるまで繰り返し行う。このようにして1フレーム分、分離エリア制御が遅れないようにすることができる。ただし、この手法は音源数が増えると、処理量が増えてしまうため、あらかじめ音源数が少ないとわかっている場面で用いるか、繰り返しの回数を処理負荷の許容範囲内に制限するようにするとよい。
In this embodiment, the separation
本実施形態において音声信号処理部114は遅延補正処理、ゲイン補正処理、エコー除去を行うとしたが、他の処理も行ってもよい。例えばエリアごとの雑音除去処理などを行うようになっていてもよい。
In the present embodiment, the audio
本実施形態においては、リプレイ再生用信号生成部117とリアルタイム再生用信号生成部116は同様の処理を行う例を説明した。ただし、リプレイ再生用信号生成部117とリアルタイム再生用信号生成部116では異なるミキシングをしてもよい。たとえばリアルタイム再生用信号生成部116では分離エリアの大きさが粗い音声が入力されることがあるため、処理の実施済みか否かに応じて例えばエリアサイズの大きいエリアはミキシング時のレベルを下げるなどしてもよい。
In the present embodiment, the example in which the replay reproduction
また本実施形態では示さなかったが、図6に示すようにエリア制御の状況を表示装置に表示させる表示制御を行うようにしてもよい。例えば表示画面にはタイムバー501とタイムカーソル502、エリア分割表示503、エリア分割割合表示504等が表示される。ここで、タイムバー501は現在までの録音時間を表すバーで、タイムカーソル502の位置が表示画面の時間を表す。エリア分割表示503にはタイムカーソル502の指す時刻におけるエリアの分割状態を示す。この分割状態を示す画像は、実際の空間の画像や、実際の空間を再現したCG等に重畳されて表示されるようにしてもよい。エリア分割割合表示504にはエリア分割のサイズごとの割合が表示される。あるいは図3のような画面が表示されていてもよい。このように表示を行うことで、エリア分割の状態を直感的に分かりやすくすることができる。またこの表示装置はさらにタッチパネルのような入力装置を備えていてもよい。例えばユーザがエリアサイズの大きくなっているエリアをタッチなどで選択し、そのエリアの分割を細かくする処理を優先的に行うように設定できるようにしてもよい。
Although not shown in the present embodiment, as shown in FIG. 6, display control for displaying the status of area control on the display device may be performed. For example, a
<実施形態2>
本発明の第二の実施形態(実施形態2)は複数のユーザがそれぞれ聴取点を設定し、その聴取点に応じた音響を再生装置で再生する音響システムに関する。
<
The second embodiment (Embodiment 2) of the present invention relates to an acoustic system in which a plurality of users each set a listening point and a sound corresponding to the listening point is played back by a playback device.
(音響システム)
図7は音響システム20の構成を示すブロック図である。音響システム20は収音部21と再生信号生成部22、および複数の再生部23を備える。収音部21と再生信号生成部22、複数の再生部23は互いに有線もしくは無線の伝送経路を通じてデータの送受信を行う。収音部21、再生信号生成部22、及び、再生部23の間の伝送経路はLAN等の専用の通信経路により実現されるが、インターネット等の公衆通信網を経由してもよい。
(Acoustic system)
FIG. 7 is a block diagram showing the configuration of the
図8(A)収音部21の構成を示すブロック図、図8(B)は再生信号生成部22の構成を示すブロック図、図8(B)は再生部23の構成を示すブロック図である。図8(A)の収音部21は、マイクアレイ111、及び、収音信号送信部211を備える。マイクアレイ111は実施形態1と同様のため詳細な説明は省略する。収音信号送信部211はマイクアレイ111から入力されたマイク信号を送信する。
8A is a block diagram showing the configuration of the
図8(B)の再生信号生成部22は、音源分離部112、分離エリア制御部113、音声信号処理部114、記憶部115、収音信号受信部221、聴取点受信部222、再生用信号生成部223、再生信号送信部224を備える。音源分離部112、音声信号処理部114、記憶部115は実施形態1とほぼ同様のため詳細な説明を省略する。
8B includes a sound
分離エリア制御部113は後述する聴取点受信部222から入力される複数の聴取点に基づいて音源分離部112の音源分離を行うエリアを制御する。ここで聴取点とは、ユーザが設定する空間内での仮想の聴取者の位置と向き、および時刻からなる情報である。例えば、分離エリア制御部113では再生信号生成部22の処理負荷を監視し、負荷が大きくなると聴取点の分布に基づいて分離エリア数を減らすようにエリアを制御する。例えばリアルタイムで聴取しているユーザが設定している聴取者の位置が図9(A)の様に分布したとする。その場合、図9(B)に示すように、より多くの聴取点が設定されているエリアの周辺を細かく分割し、聴取点が少ないエリアを粗く分割するようにエリアを制御する。
The separation
また、過去の時刻の聴取点をユーザが指定してきた場合、つまりリプレイが要求された場合にはその時刻における分離エリアの状況と指定された視点に基づいて音源分離処理が必要か否かを判定し、必要な場合には処理負荷に応じて音源分離を実施する。例えば、指定された時刻においてエリア制御が行われていない場合、あるいはエリア制御されたが、今回指定された聴取点周辺は十分に細かいエリアで音源分離されている場合には改めて分離を行う必要はない。一方、指定された時刻においてエリア制御が行われ、かつ、今回指定された聴取点周辺のエリアの分割が粗い場合、分離エリア制御部113は聴取点の周辺のエリア分割を細かくするように音源分離部112へ制御信号を出力する。
Also, when the user has specified listening points at a past time, that is, when replay is requested, it is determined whether sound source separation processing is necessary based on the situation of the separation area at the time and the specified viewpoint If necessary, sound source separation is performed according to the processing load. For example, if area control is not performed at the specified time, or if area control is performed but the sound source is separated in a sufficiently fine area around the listening point specified this time, it is necessary to perform separation again Absent. On the other hand, when the area control is performed at the designated time and the area around the listening point designated this time is rough, the separation
収音信号受信部221は収音部21から収音信号を受信する。聴取点受信部222は複数の再生部23の各々から聴取点を受信する。受信した聴取点は分離エリア制御部113および再生用信号生成部223へ出力する。再生用信号生成部223は、実施形態1のリアルタイム再生用信号生成部116とリプレイ再生用信号生成部117を合わせた機能を持つ。聴取点受信部222から入力された聴取者の位置と向き、時刻に応じて再生信号を生成する。入力された時刻がリアルタイムであればリアルタイム再生用信号生成部116と同様であり、時刻が過去であればリプレイ再生用信号生成部117と同様になる。聴取点ごとに生成した音声信号は再生信号送信部224へ出力される。再生信号送信部224では受信した聴取点ごとの音声信号を、それぞれの再生部23へ出力する。
The collected sound
図8(C)の再生部23は、聴取点入力部231、聴取点送信部232、再生信号受信部233、及び、スピーカ234を備える。聴取点入力部231は、ユーザが時刻と収音を行っている空間内の仮想的な聴取者の位置と聴取者の向きを設定できる入力装置である。聴取点入力部231は、キーボード、ポインティング装置、あるいは、タッチパネル等により実現される。設定された聴取点は聴取点送信部232へ出力される。
The
聴取点送信部232はユーザによって設定された聴取点を聴取点受信部222へ出力する。再生信号受信部233は聴取点入力部231で設定した聴取点に対応する音声信号を受信し、スピーカ234へ出力する。スピーカ234では入力された音声信号をD/A変換してスピーカから放音する。
The listening
(処理手順)
続いて、音響システム20が実行する処理の手順について94を参照して説明する。図10Aから図10Cは、本実施形態の音響システム20が実行する処理の手順を示すフローチャートである。
(Processing procedure)
Subsequently, a procedure of processing executed by the
図10Aに示すように、はじめにマイクアレイ111において空間内の音の収音が行われる(S201)。収音された音声は収音信号送信部211へ出力される。続いて収音信号が収音部21の収音信号送信部211から送信され、再生信号生成部22の収音信号受信部221において受信される(S202)。受信された収音信号は音源分離部112へ出力される。続いて複数の再生部23の聴取点入力部231において聴取点が入力される(S203)。入力された聴取点は聴取点送信部232へ出力される。
As shown in FIG. 10A, first, sound in the space is collected in the microphone array 111 (S201). The collected sound is output to the collected sound
続いて聴取点が聴取点送信部232から送信され、再生信号生成部22の聴取点受信部222において受信される(S204)。受信された複数の聴取点は分離エリア制御部113および再生用信号生成部223へ出力される。
Subsequently, the listening point is transmitted from the listening
続いて分離エリア制御部113において処理がリアルタイム再生に間に合うか否かの判定が行われる(S205)。リアルタイム再生に間に合うと判定された場合(S205でYES)はS208へ進み、リアルタイム再生に間に合わないと判定された場合(S205でNO)はS206へ進む。
Subsequently, the separation
S206では、分離エリア制御部113において分離エリアの制御が行われる。すなわち、S206では複数のエリアを結合し、エリア数を減らす制御を音源分離部112へ出力する。さらに分離エリア制御リストを生成し、分離エリアの制御情報を管理する。続いて音源分離部112ではエリアが制御されると、そのフレームの収音信号を記憶部115へ出力し、記憶部115において入力された収音信号を記録する(S207)。そして、S208へ進む。
In S206, the separation
S208では、音源分離部112においてエリアごとの音源分離が行われる。分離されたエリアごとの音声信号は音声信号処理部114へ出力される。
In S208, the sound
続いて音声信号処理部114において音声信号の処理が行われる(S209)。処理された音声信号は記憶部115へ出力される。
Subsequently, the audio
続いて記憶部115において処理されたエリアごとの音声信号が記録される(S210)。続いて再生用信号生成部223では記憶部115から聴取点受信部222から入力された複数の聴取点の時刻に応じてエリアごとの音声を取得し、聴取点ごとに再生用の音声のミキシングが行われる(S211)。ミキシングされた複数の再生信号は再生信号送信部224へ出力される。
Subsequently, an audio signal for each area processed in the
続いて聴取点ごとに生成された複数の再生信号は再生信号送信部224から送信され、入力した聴取点に対応する再生信号が、それぞれの再生部23の再生信号受信部233において受信される(S212)。最後に再生信号受信部233で受信した再生信号はスピーカから再生される(S213)。
Subsequently, a plurality of reproduction signals generated for each listening point are transmitted from the reproduction
次に、図10(B)を用いて図10(A)のS205において処理が間に合わないと判定された場合で、エリア数を減らした場合の処理を説明する。 Next, a process when the number of areas is reduced when it is determined in S205 of FIG. 10A that the process is not in time will be described with reference to FIG.
分離エリア制御部113では処理負荷が所定値を下回った場合に、分離エリア制御リストを参照し、分離を行う時刻(フレーム)とエリアを決定する(S221)。分離するエリアや時刻の情報は音源分離部112へ出力される。
When the processing load falls below a predetermined value, the separation
続いて音源分離部112において、記憶部115から入力された時刻情報に基づいて収音信号を読み出す(S222)。S223からS225についてはS208からS210と同様のため詳細な説明を省略する。
Subsequently, the sound
以上説明したように、処理負荷および複数の聴取点の分布に基づいて分離エリアを結合して、エリア数を低減させる。そのため、重要な音声信号を忠実に再現することができるとともに、処理を効率化してリアルタイム処理を実現することができる。さらにリプレイ時にはリアルタイム時には伝送が間に合わなかったエリアに対しても分離された音を使って再生信号を生成できる。 As described above, the number of areas is reduced by combining the separation areas based on the processing load and the distribution of the plurality of listening points. Therefore, it is possible to faithfully reproduce important audio signals, and to realize real-time processing by improving processing efficiency. Further, at the time of replay, a reproduction signal can be generated using the separated sound even in an area where transmission is not in time in real time.
本実施形態において再生部23は簡単のため全て同じ構成としたが、その構成は異なっていてもよい。本実施形態では記載しなかったが、自由視点映像を生成する自由視点映像生成システムと組み合わせて用いてもよい。例えば複数の撮像装置で音声を収音した空間と略同じ空間をあらゆる方向から撮像し、その撮像した画像から自由視点映像を生成する。その場合、聴取点は視点から算出するようになっていてもよいし、聴取点に連動して自由視点映像が生成されるようになっていてもよい。
In the present embodiment, all the
本実施形態において再生用信号生成部223は再生信号生成部22内に構成されたが、再生部23内に構成されるようになっていてもよい。本実施形態において分離エリア制御部113は、複数の聴取者の位置のみを用いて分離エリアを決定したが図9(C)に示すように聴取者の向きに応じて聴取の向き前方の前方に存在する領域を細かく分割し、後方を粗く分割するようにしてもよい。
In the present embodiment, the reproduction
本実施形態においてエリア制御を行った場合、聴取点入力部231において入力できる聴取位置を制限するようにしてもよい。本実施形態において再生部23は一律で扱ったが、分離エリアを制御するために聴取点ごとに異なる重みを持っていてもよい。また実施形態1と同様に、エリア制御の状況を表示する表示装置や分離エリア制御を指示する入力装置を備えていてもよい。
When area control is performed in the present embodiment, listening positions that can be input by the listening
本発明の各実施形態においては、再生までの時間が限られているリアルタイム再生においても音源分離するエリアの数を制御することで空間全体を収音し、かつ重要なエリアの分解能を保ったまま再生することができる。 In each embodiment of the present invention, even in real-time playback where the time until playback is limited, by controlling the number of areas for sound source separation, the entire space is collected and the resolution of important areas is maintained. Can be played.
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
<Other embodiments>
The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
100:音声信号処理装置、111:マイクアレイ、112:音源分離部、113:分離エリア制御部、114:音声信号処理部、115:記憶部、116:リアルタイム再生用信号生成部、117:リプレイ再生用信号生成部 100: Audio signal processing device, 111: Microphone array, 112: Sound source separation unit, 113: Separation area control unit, 114: Audio signal processing unit, 115: Storage unit, 116: Signal generation unit for real-time reproduction, 117: Replay reproduction Signal generator
Claims (17)
前記マイクアレイが収集した音声を、一定の空間を分割した複数の分離エリアおける音声に分離する分離手段と、
前記一定の空間の前記複数の分離エリアへの分割を制御する制御手段と、
前記分離した音声に基づき、再生用信号を生成する生成手段と
を備えることを特徴とする音響システム。 A microphone array that collects audio,
Separation means for separating the sound collected by the microphone array into sound in a plurality of separation areas into which a certain space is divided;
Control means for controlling division of the constant space into the plurality of separation areas;
An acoustic system comprising: a generation unit that generates a reproduction signal based on the separated sound.
前記制御手段は、前記撮影手段により生成された画像に基づいて、前記複数の分離エリアの配置及び個数を制御する
ことを特徴とする請求項2に記載の音響システム。 A photographing means for photographing the fixed space and generating an image;
The acoustic system according to claim 2, wherein the control unit controls the arrangement and the number of the plurality of separation areas based on an image generated by the photographing unit.
前記マイクアレイが収集した音声を、一定の空間を分割した複数の分離エリアおける音声に分離する分離工程と、
前記分離した音声に基づき、再生用信号を生成する生成工程と
を有し、
前記分離工程の前に前記一定の空間の前記複数の分離エリアへの分割を制御する制御工程を有する
ことを特徴とする音響システムの制御方法。 A method for controlling an acoustic system including a microphone array for collecting sound,
A separation step of separating the sound collected by the microphone array into sound in a plurality of separation areas into which a certain space is divided;
Generating a reproduction signal based on the separated audio, and
A control method for an acoustic system, comprising: a control step of controlling division of the certain space into the plurality of separation areas before the separation step.
前記マイクアレイが収集した音声を、一定の空間を分割した複数の分離エリアおける音声に分離する分離手段と、
前記一定の空間の前記複数の分離エリアへの分割を制御する制御手段と、
前記分離した音声に基づき、再生用信号を生成する生成手段と
を備えることを特徴とする信号生成装置。 A signal generation device that generates a reproduction signal based on sound collected by a microphone array that collects sound,
Separation means for separating the sound collected by the microphone array into sound in a plurality of separation areas into which a certain space is divided;
Control means for controlling division of the constant space into the plurality of separation areas;
A signal generation device comprising: a generation unit configured to generate a reproduction signal based on the separated sound.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016208845A JP6821390B2 (en) | 2016-10-25 | 2016-10-25 | Sound processing equipment, sound processing methods and programs |
US15/729,416 US10547961B2 (en) | 2016-10-25 | 2017-10-10 | Signal processing apparatus, signal processing method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016208845A JP6821390B2 (en) | 2016-10-25 | 2016-10-25 | Sound processing equipment, sound processing methods and programs |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018074252A true JP2018074252A (en) | 2018-05-10 |
JP2018074252A5 JP2018074252A5 (en) | 2019-11-14 |
JP6821390B2 JP6821390B2 (en) | 2021-01-27 |
Family
ID=62114530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016208845A Active JP6821390B2 (en) | 2016-10-25 | 2016-10-25 | Sound processing equipment, sound processing methods and programs |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6821390B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7316614B2 (en) | 2020-06-09 | 2023-07-28 | 本田技研工業株式会社 | Sound source separation device, sound source separation method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105199A (en) * | 2010-11-12 | 2012-05-31 | Toshiba Corp | Acoustic signal processing device, television apparatus and program |
JP2014110613A (en) * | 2012-12-04 | 2014-06-12 | Oki Electric Ind Co Ltd | Microphone array selection device, microphone array selection program, and sound collection device |
JP2014143678A (en) * | 2012-12-27 | 2014-08-07 | Panasonic Corp | Voice processing system and voice processing method |
JP2016025469A (en) * | 2014-07-18 | 2016-02-08 | 沖電気工業株式会社 | Sound collection/reproduction system, sound collection/reproduction device, sound collection/reproduction method, sound collection/reproduction program, sound collection system and reproduction system |
-
2016
- 2016-10-25 JP JP2016208845A patent/JP6821390B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105199A (en) * | 2010-11-12 | 2012-05-31 | Toshiba Corp | Acoustic signal processing device, television apparatus and program |
JP2014110613A (en) * | 2012-12-04 | 2014-06-12 | Oki Electric Ind Co Ltd | Microphone array selection device, microphone array selection program, and sound collection device |
JP2014143678A (en) * | 2012-12-27 | 2014-08-07 | Panasonic Corp | Voice processing system and voice processing method |
JP2016025469A (en) * | 2014-07-18 | 2016-02-08 | 沖電気工業株式会社 | Sound collection/reproduction system, sound collection/reproduction device, sound collection/reproduction method, sound collection/reproduction program, sound collection system and reproduction system |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7316614B2 (en) | 2020-06-09 | 2023-07-28 | 本田技研工業株式会社 | Sound source separation device, sound source separation method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6821390B2 (en) | 2021-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150264502A1 (en) | Audio Signal Processing Device, Position Information Acquisition Device, and Audio Signal Processing System | |
JP2015139162A (en) | Acoustic signal processing apparatus, moving image imaging apparatus and control method therefor | |
US20200358415A1 (en) | Information processing apparatus, information processing method, and program | |
EP3142384A1 (en) | System and method for enhancing virtual audio height perception | |
JP2018189924A (en) | Information processing device, information processing method, and program | |
EP2743917B1 (en) | Information system, information reproducing apparatus, information generating method, and storage medium | |
US10547961B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
JP6646116B2 (en) | Video / audio processing program and game device | |
JP6742216B2 (en) | Sound processing system, sound processing method, program | |
JP6821390B2 (en) | Sound processing equipment, sound processing methods and programs | |
JP6818445B2 (en) | Sound data processing device and sound data processing method | |
CN112165591B (en) | Audio data processing method and device and electronic equipment | |
JP2002232988A (en) | Multi-channel sound collection system | |
US11159905B2 (en) | Signal processing apparatus and method | |
JP2018191127A (en) | Signal generation device, signal generation method, and program | |
JP6732564B2 (en) | Signal processing device and signal processing method | |
JP3282202B2 (en) | Recording device, reproducing device, recording method and reproducing method, and signal processing device | |
JPWO2018207478A1 (en) | Audio processing device and audio processing method | |
JP6274244B2 (en) | Sound collecting / reproducing apparatus, sound collecting / reproducing program, sound collecting apparatus and reproducing apparatus | |
JP6634976B2 (en) | Information processing apparatus and program | |
JP2020167471A (en) | Information processing apparatus, information processing method and program | |
JP6427300B2 (en) | All-sky camera camera image display system, method and program | |
JP4415775B2 (en) | Audio signal processing apparatus and method, audio signal recording / reproducing apparatus, and program | |
JP7111202B2 (en) | SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM | |
JP2003264897A (en) | Acoustic providing system, acoustic acquisition apparatus, acoustic reproducing apparatus, method therefor, computer-readable recording medium, and acoustic providing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191004 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191004 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200728 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210106 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6821390 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |