JP2023012347A - Acoustic device and acoustic control method - Google Patents

Acoustic device and acoustic control method Download PDF

Info

Publication number
JP2023012347A
JP2023012347A JP2021115945A JP2021115945A JP2023012347A JP 2023012347 A JP2023012347 A JP 2023012347A JP 2021115945 A JP2021115945 A JP 2021115945A JP 2021115945 A JP2021115945 A JP 2021115945A JP 2023012347 A JP2023012347 A JP 2023012347A
Authority
JP
Japan
Prior art keywords
sound source
sound
source signal
reverberation
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021115945A
Other languages
Japanese (ja)
Inventor
浩二 阪本
Koji Sakamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2021115945A priority Critical patent/JP2023012347A/en
Publication of JP2023012347A publication Critical patent/JP2023012347A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

To provide an acoustic device and an acoustic control method that can perform proper surround reproduction according to a sound source signal.SOLUTION: An acoustic device comprises a separation part and an output control part. The separation part separates a predetermined sound source signal which requires no additional processing for pseudo reverberant sound from the sound source signal, and then removes the separated predetermined sound source signal from the sound source signal. The output control part applies a filter for generating a pseudo reverberant sound to the sound signal having the predetermined sound source signal removed by the separation part, and outputs the resulting signal.SELECTED DRAWING: Figure 1A

Description

本発明は、音響装置および音響制御方法に関する。 The present invention relates to an acoustic device and an acoustic control method.

従来、例えば音楽や音声といった各種音源の音源信号を複数のチャンネルから出力する音響装置が知られている(例えば、特許文献1参照)。従来技術にあっては、音源信号から生成される疑似的な疑似残響音を直接音に積極的に付加し、複数のチャンネルでサラウンド再生するようにしている。 2. Description of the Related Art Acoustic devices that output sound source signals of various sound sources such as music and voice from a plurality of channels are conventionally known (see, for example, Patent Document 1). In the prior art, a pseudo-pseudo-reverberation sound generated from a sound source signal is positively added to the direct sound, and surround reproduction is performed on a plurality of channels.

特許第5372142号公報Japanese Patent No. 5372142

しかしながら、従来技術には、音源信号に応じた適切なサラウンド再生を行うという点で、改善の余地があった。 However, the prior art still has room for improvement in terms of performing appropriate surround reproduction according to the sound source signal.

本発明は、上記に鑑みてなされたものであって、音源信号に応じた適切なサラウンド再生を行うことができる音響装置および音響制御方法を提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide an acoustic device and an acoustic control method capable of performing appropriate surround reproduction according to sound source signals.

上記課題を解決し、目的を達成するために、本発明は、音響装置において、分離部と、出力制御部とを備える。分離部は、音源信号から疑似的な疑似残響音の付加処理が不要な所定音源信号を分離し、分離された前記所定音源信号を前記音源信号から除去する。出力制御部は、前記分離部によって前記所定音源信号が除去された前記音源信号に対し、前記疑似残響音を生成するためのフィルタを適用して出力する。 In order to solve the above problems and achieve the object, the present invention provides an audio device comprising a separator and an output controller. The separation unit separates a predetermined sound source signal that does not require a pseudo-reverberation adding process from the sound source signal, and removes the separated predetermined sound source signal from the sound source signal. The output control unit applies a filter for generating the pseudo-reverberation sound to the sound source signal from which the predetermined sound source signal has been removed by the separation unit, and outputs the sound source signal.

本発明によれば、音源信号に応じた適切なサラウンド再生を行うことができる。 According to the present invention, appropriate surround reproduction can be performed according to the sound source signal.

図1Aは、第1の実施形態に係る音響制御方法の概要を説明する図である。FIG. 1A is a diagram explaining an outline of an acoustic control method according to the first embodiment. 図1Bは、第1の実施形態に係る音響制御方法の概要を説明する図である。FIG. 1B is a diagram explaining an overview of the acoustic control method according to the first embodiment. 図2は、第1の実施形態に係る音響装置を備えた音響システムの構成例を示すブロック図である。FIG. 2 is a block diagram showing a configuration example of an audio system including the audio device according to the first embodiment. 図3は、分離部による分離・抽出処理を説明する図である。FIG. 3 is a diagram for explaining separation/extraction processing by the separation unit. 図4Aは、再生される音の音像などを説明する図である。FIG. 4A is a diagram for explaining a sound image of reproduced sound and the like. 図4Bは、再生される音の音像などを説明する図である。FIG. 4B is a diagram for explaining a sound image of reproduced sound and the like. 図4Cは、再生される音の音像などを説明する図である。FIG. 4C is a diagram for explaining a sound image of reproduced sound and the like. 図4Dは、再生される音の音像などを説明する図である。FIG. 4D is a diagram for explaining a sound image of reproduced sound and the like. 図4Eは、再生される音の音像などを説明する図である。FIG. 4E is a diagram for explaining a sound image of reproduced sound and the like. 図4Fは、再生される音の音像などを説明する図である。FIG. 4F is a diagram for explaining a sound image of reproduced sound. 図4Gは、再生される音の音像などを説明する図である。FIG. 4G is a diagram for explaining a sound image of reproduced sound. 図5は、第1の実施形態に係る音響装置が実行する処理手順を示すフローチャートである。FIG. 5 is a flow chart showing a processing procedure executed by the audio device according to the first embodiment. 図6は、第2の実施形態に係る音響装置を備えた音響システムの構成例を示すブロック図である。FIG. 6 is a block diagram showing a configuration example of an audio system including an audio device according to the second embodiment. 図7は、決定部によるゲインの決定処理を説明する図である。FIG. 7 is a diagram for explaining gain determination processing by the determination unit. 図8は、第2の実施形態に係る音響装置が実行する処理手順を示すフローチャートである。FIG. 8 is a flow chart showing a processing procedure executed by the audio device according to the second embodiment.

以下、添付図面を参照して、本願の開示する音響装置および音響制御方法の実施形態を詳細に説明する。なお、以下に示す実施形態によりこの発明が限定されるものではない。 Hereinafter, embodiments of the acoustic device and the acoustic control method disclosed in the present application will be described in detail with reference to the accompanying drawings. In addition, this invention is not limited by embodiment shown below.

(第1の実施形態)
<第1の実施形態に係る音響装置による音響制御方法の概要>
以下では先ず、第1の実施形態に係る音響装置による音響制御方法の概要について図1Aおよび図1Bを参照して説明する。図1Aおよび図1Bは、第1の実施形態に係る音響制御方法の概要を説明する図である。
(First embodiment)
<Overview of Acoustic Control Method by Acoustic Device According to First Embodiment>
First, the outline of the sound control method by the sound device according to the first embodiment will be described below with reference to FIGS. 1A and 1B. 1A and 1B are diagrams for explaining the outline of the acoustic control method according to the first embodiment.

第1の実施形態に係る音響制御方法は、例えば、図1Aに示す音響装置1によって実行される。図1Aでは、例えば車両の車室などの車内空間において、前方の左右に配置された2つのスピーカFR,FLから音源信号である直接音および実際の残響音が出力され、また、後方の左右に配置された2つのスピーカRL,RRから疑似的な疑似残響音が出力されて直接音に付加されることで、サラウンド再生を行う場合を示している。 The sound control method according to the first embodiment is executed by, for example, the sound device 1 shown in FIG. 1A. In FIG. 1A, for example, in an interior space such as a vehicle cabin, direct sound and actual reverberant sound, which are sound source signals, are output from two speakers FR and FL arranged on the left and right in the front. A case is shown in which a pseudo-pseudo-reverberant sound is output from two arranged speakers RL and RR and added to the direct sound to perform surround reproduction.

ここで、音源信号は、例えば2つのスピーカFR,FLそれぞれから異なる音を出力することで空間的な広がり(音像幅)をもった音源の信号である。つまり、音源信号は、2つのチャンネル(スピーカFR,FL)でステレオ再生されるステレオ信号である。 Here, the sound source signal is, for example, a sound source signal having a spatial spread (sound image width) by outputting different sounds from two speakers FR and FL. That is, the sound source signal is a stereo signal that is stereo-reproduced by two channels (speakers FR and FL).

また、音源信号は、例えばクラシック音楽やオペラ等のような複数の楽器音や音声(ボーカル)が混在した音、すなわち、複数の音源が混在する音の信号であるが、これに限定されるものではない。すなわち、音源信号は、音声のみの音の信号であってもよいし、ピアノのみやバイオリンのみといった単一の楽器(音源)の音の信号であってもよい。 Further, the sound source signal is, for example, a sound in which a plurality of instrumental sounds and voices (vocal) such as classical music and opera are mixed, that is, a sound signal in which a plurality of sound sources are mixed, but is limited to this. is not. That is, the sound source signal may be a sound signal of voice only, or a sound signal of a single musical instrument (sound source) such as only a piano or only a violin.

ここで、図1Aに示すように、空間において、例えば楽器音や音声(ボーカル)などの音源が定位した位置である音源Sからの音響を受聴する聴取者(リスナ)Lは、2種類の空間印象を知覚できることが知られている。一方の空間印象は、直接音と時間的にも空間的にも融合して知覚される「みかけの音源の幅」と定義される音像幅ASWであり、他方の空間印象は「みかけの音源以外の音源によって聴き手のまわりが満たされている感じ」と定義される包まれ感LEVである。なお、音像幅ASWは、音源信号の初期成分である直接音および初期反射音成分に由来した音像Aの幅である。また、包まれ感LEVは、音源信号の後期成分である残響音成分に由来した音像Bである。 Here, as shown in FIG. 1A, a listener (listener) L who listens to sound from a sound source S, which is a position where a sound source such as an instrumental sound or voice (vocal) is localized in a space, has two types of spaces. It is known that impressions can be perceived. One spatial impression is the sound image width ASW, which is defined as the “width of the apparent sound source” that is perceived as being fused with the direct sound both temporally and spatially. The sense of envelopment LEV is defined as "the feeling that the surroundings of the listener are filled with the sound source of the music." The sound image width ASW is the width of the sound image A derived from the direct sound and early reflected sound components, which are the initial components of the sound source signal. Also, the enveloping feeling LEV is the sound image B derived from the reverberant sound component, which is the late component of the sound source signal.

これら音像幅ASWと包まれ感LEVを設計および評価するにあたっては、いわゆる「第一波面の法則」を用いた指標を利用する場合がある。かかる指標では、図1Bに示すように、2つの閾値TH1,TH2によって区画された2つの領域R1,R2が定義される。 In order to design and evaluate the sound image width ASW and the feeling of envelopment LEV, an index using the so-called "law of the first wavefront" may be used. In such an index, two regions R1 and R2 defined by two thresholds TH1 and TH2 are defined as shown in FIG. 1B.

領域R1は、音源信号に含まれる成分のうち、主として直接音を含む成分(初期成分)が含まれる領域である。例えば、領域R1の初期成分が大きいと音像幅ASWが大きくなるため、聴感上、拡散されていると聴取者Lが感じることで音源によっては音質が悪い(不明瞭である)と評価される。なお、直接音とは、例えば、音声(ボーカル)や楽器等から直接録音した音であり、壁等で反射した音を含まない音である。 The region R1 is a region containing components (initial components) mainly containing direct sound among the components contained in the sound source signal. For example, when the initial component of the region R1 is large, the sound image width ASW is large. Therefore, the listener L perceives that the sound is diffused, and depending on the sound source, the sound quality is evaluated as being poor (unclear). Note that the direct sound is, for example, a sound recorded directly from a voice (vocal), musical instrument, or the like, and does not include sound reflected by walls or the like.

また、領域R2は、音源信号に含まれる成分のうち、主として残響音を含む成分(後期成分)が含まれる領域である。例えば、領域R2の残響音の成分が大きいと包まれ感LEVが大きくなるため、聴感上、拡散されていると聴取者Lが感じることで包まれ感が充実すると評価される。なお、残響音とは、例えば、音声や楽器等の音が壁等で反射した音を録音した音であり、直接音から時間的に遅れた音である。 Further, the region R2 is a region that mainly includes components (late components) including reverberant sound among the components included in the sound source signal. For example, when the reverberation component in the region R2 is large, the enveloping feeling LEV increases. Note that the reverberating sound is, for example, the sound obtained by recording the sound of a voice, musical instrument, or the like that is reflected by a wall or the like, and is the sound that is temporally delayed from the direct sound.

なお、車室などの比較的狭い空間では、直接音と残響音とは分離しにくく、直接音に残響音が混在しやすくなる。かかる場合、領域R2の残響音の成分が小さくなって、包まれ感LEVが小さくなる。そこで、直接音と残響音とが混在してしまう車室のような狭い空間では、音響装置1は、直接音に、疑似的な疑似残響音を積極的に付加することで、領域R2の残響音の成分を大きくし、包まれ感LEVを確保することができる。 In a relatively narrow space such as a passenger compartment, it is difficult to separate the direct sound and the reverberant sound, and the reverberant sound tends to be mixed with the direct sound. In such a case, the component of the reverberant sound in the region R2 becomes small, and the enveloping feeling LEV becomes small. Therefore, in a narrow space such as a vehicle compartment where direct sound and reverberant sound coexist, the acoustic device 1 positively adds a pseudo pseudo-reverberant sound to the direct sound to reduce the reverberation in the region R2. By enlarging the sound component, it is possible to ensure the wrapped feeling LEV.

なお、上記では、直接音等がスピーカFR,FLから出力され、疑似残響音がスピーカRL,RRから出力されるとしたが、これに限られない。すなわち、例えば音響装置1は、4つのスピーカFR,FL,RL,RRのうち全部あるいは一部から直接音等を出力し、その大きさなどを調整するようにしてもよい。これにより、例えば音響装置1は、直接音等の音像Aの空間的な位置を移動させることが可能になる。同様に、音響装置1は、4つのスピーカFR,FL,RL,RRのうち全部あるいは一部から疑似残響音を出力し、その大きさなどを調整するようにしてもよい。これにより、例えば音響装置1は、疑似残響音の音像Bの空間的な位置を移動させることが可能になる。このように、音響装置1は、直接音等の音像Aや疑似残響音の音像Bをそれぞれ任意の位置に定位させることができる。 In the above description, the direct sound or the like is output from the speakers FR and FL, and the pseudo-reverberation sound is output from the speakers RL and RR. However, the present invention is not limited to this. That is, for example, the acoustic device 1 may directly output sound or the like from all or some of the four speakers FR, FL, RL, and RR, and adjust the volume and the like. As a result, for example, the acoustic device 1 can move the spatial position of the sound image A such as the direct sound. Similarly, the acoustic device 1 may output pseudo-reverberant sound from all or some of the four speakers FR, FL, RL, and RR, and adjust the volume and the like. As a result, for example, the acoustic device 1 can move the spatial position of the sound image B of the pseudo-reverberant sound. In this manner, the acoustic device 1 can localize the sound image A such as the direct sound and the sound image B such as the pseudo-reverberant sound at arbitrary positions.

ところで、従来技術においては、音源のLRチャンネルの相関等に基づいて、音源信号から初期反射音成分を含むサラウンド成分を抽出し、抽出されたサラウンド成分を遅延させて出力することで、疑似残響音を付加する処理が行われる場合があった。しかしながら、かかる場合、様々な種類の音源信号に対して意図通りのサラウンド成分を抽出できるとは限らなかった。また、上記のようにサラウンド成分を遅延させて出力すると、そもそも存在していた初期反射音が得られず、結果として適切なサラウンド再生を行うことができないおそれがあった。 By the way, in the conventional technology, the surround component including the early reflected sound component is extracted from the sound source signal based on the correlation of the left and right channels of the sound source, and the extracted surround component is delayed and output to produce a pseudo-reverberation sound. was sometimes added. However, in such a case, it is not always possible to extract intended surround components from various types of sound source signals. Moreover, when the surround component is delayed and output as described above, the early reflection sound that originally existed cannot be obtained, and as a result, there is a possibility that appropriate surround reproduction cannot be performed.

そこで、本実施形態に係る音響装置1にあっては、音源信号に応じた適切なサラウンド再生を行うことができるような構成とした。 Therefore, the audio device 1 according to the present embodiment is configured so as to be able to perform appropriate surround reproduction according to the sound source signal.

以下、音響装置1の処理について、図1Aを参照して具体的に説明すると、音響装置1は先ず、音源装置50の音源信号から、疑似的な疑似残響音の付加処理が不要な所定音源信号を分離し、分離された所定音源信号を音源信号から除去する(ステップS1)。なお、所定音源信号の分離の詳細な手法については、後述する。また、ここでの所定音源信号は、例えば音声(ボーカル)成分を含む。 Hereinafter, the processing of the audio device 1 will be specifically described with reference to FIG. 1A. are separated, and the separated predetermined sound source signal is removed from the sound source signal (step S1). A detailed method for separating the predetermined sound source signal will be described later. Also, the predetermined sound source signal here includes, for example, an audio (vocal) component.

次いで、音響装置1は、所定音源信号が除去された音源信号(以下、「除去音源信号」と記載する場合がある)に対して、疑似残響音を生成するためのフィルタを適用し、疑似残響音を示す残響信号を生成してスピーカRL,RRから出力する(ステップS2)。なお、フィルタとしては、例えば、FIR(Finite Impulse Response)フィルタや、IIR(Infinite Impulse Response)フィルタ等のインパルス応答性のフィルタを用いることができるが、これに限定されるものではない。 Next, the audio device 1 applies a filter for generating a pseudo-reverberation sound to the sound source signal from which the predetermined sound source signal has been removed (hereinafter, may be referred to as a “removed sound source signal”). A reverberation signal representing sound is generated and output from the speakers RL and RR (step S2). As the filter, for example, an impulse response filter such as an FIR (Finite Impulse Response) filter or an IIR (Infinite Impulse Response) filter can be used, but the filters are not limited to these.

このように、本実施形態にあっては、疑似残響音の付加処理が不要な所定音源信号(例えば音声成分)が除去された音源信号にのみフィルタが適用されて、残響信号が生成される。言い換えると、音源信号のうちの所定音源信号には、フィルタが適用されず、残響信号が生成されない。 As described above, in this embodiment, the filter is applied only to the sound source signal from which the predetermined sound source signal (for example, the voice component) that does not require the addition processing of the pseudo reverberation is removed, and the reverberation signal is generated. In other words, the filter is not applied to the predetermined sound source signal of the sound source signals, and no reverberation signal is generated.

これにより、例えば音源信号に、疑似残響音の付加処理が必要な音源信号と、不要な音源信号(ここでは所定音源信号)とが含まれる場合であっても、付加処理が必要な音源信号に対してのみ残響信号が生成されるため、音源信号に応じた(詳しくは音源信号の内容(種類)に応じた)適切なサラウンド再生を行うことができる。 As a result, even if the sound source signal includes, for example, a sound source signal that requires pseudo-reverberation addition processing and an unnecessary sound source signal (here, a predetermined sound source signal), the sound source signal that requires addition processing Since the reverberation signal is generated only for the sound source signal, appropriate surround sound reproduction can be performed according to the sound source signal (more specifically, according to the content (type) of the sound source signal).

なお、所定音源信号に含まれる音声成分については、上記したフィルタが適用されず、直接音として再生されることとなる。そのため、聴取者Lは、再生された所定音源信号(ここでは音声)における包まれ感LEVを感じない状態となるが、これは、音声(ボーカル)などは包まれ感LEVがない方が、聴取者Lは、再生された音声を明瞭に聞くことができるためである。 Note that the audio component included in the predetermined sound source signal is not applied with the above-described filter, and is reproduced as direct sound. Therefore, the listener L is in a state of not feeling the feeling of envelopment LEV in the reproduced predetermined sound source signal (here, voice). This is because the person L can clearly hear the reproduced voice.

なお、上記では、所定音源信号が除去された音源信号にのみフィルタが適用される例を示したが、これに限定されるものではない。すなわち、例えば、音響装置1は、所定音源信号が除去された音源信号、および、所定音源信号の両方に対してフィルタを適用してもよい。このとき、所定音源信号が除去された音源信号については、対応する疑似残響音の残響レベルが相対的に大きくなるような残響信号が生成される一方、所定音源信号については、対応する疑似残響音の残響レベルが相対的に小さくなるような残響信号が生成されるようにしてもよい。なお、上記した「残響レベル」は、例えば残響信号がスピーカRL,RRから再生されたときの室内(ここでは車室内)における疑似残響音の残響の度合いを示す指標値である。 In the above, an example in which the filter is applied only to the sound source signal from which the predetermined sound source signal has been removed has been shown, but the present invention is not limited to this. That is, for example, the acoustic device 1 may apply a filter to both the sound source signal from which the predetermined sound source signal has been removed and the predetermined sound source signal. At this time, for the sound source signal from which the predetermined sound source signal has been removed, a reverberation signal is generated such that the reverberation level of the corresponding pseudo-reverberant sound is relatively large. A reverberation signal may be generated such that the reverberation level of is relatively small. The above-mentioned "reverberation level" is an index value indicating the degree of reverberation of the pseudo-reverberation sound in the room (in this case, the passenger compartment) when the reverberation signals are reproduced from the speakers RL and RR, for example.

なお、上記では、所定音源信号が音声成分を含むようにしたが、これに限定されるものではない。すなわち、所定音源信号には、サラウンド再生されて包まれ感LEVが大きくなると、響きすぎて不自然な聴こえ方となるような音、具体的にはドラムなどの打楽器の音など打点間に無音が存在するような過渡的な音の成分を含んでもよい。 Although the predetermined sound source signal includes the audio component in the above description, the present invention is not limited to this. That is, the predetermined sound source signal includes sounds that are too reverberant and unnatural when the feeling of envelopment LEV increases due to surround reproduction. May include transient sound components as they exist.

<第1の実施形態に係る音響装置を備えた音響システムの構成>
次に、第1の実施形態に係る音響装置1を備えた音響システムの構成について、図2を用いて説明する。図2は、第1の実施形態に係る音響装置1を備えた音響システムの構成例を示すブロック図である。図2では、本実施形態の特徴を説明するために必要な構成要素のみを機能ブロックで表しており、一般的な構成要素についての記載を省略している。
<Structure of Acoustic System Equipped with Acoustic Apparatus According to First Embodiment>
Next, the configuration of an audio system including the audio device 1 according to the first embodiment will be described with reference to FIG. FIG. 2 is a block diagram showing a configuration example of an acoustic system including the acoustic device 1 according to the first embodiment. In FIG. 2, only the components necessary for explaining the features of this embodiment are represented by functional blocks, and the description of general components is omitted.

換言すれば、図2に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各機能ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。 In other words, each component illustrated in FIG. 2 is functionally conceptual and does not necessarily need to be physically configured as illustrated. For example, the specific forms of distribution and integration of each functional block are not limited to those shown in the figure, and all or part of them can be functionally or physically distributed in arbitrary units according to various loads and usage conditions.・It is possible to integrate and configure.

図2に示すように、音響システム100は、音響装置1と、音源装置50と、各種センサ60と、複数のスピーカFL,FR,RL,RRとを備える。なお、本実施形態に係る音響システム100は、車両に搭載されるが、これに限定されるものではない。 As shown in FIG. 2, the sound system 100 includes a sound device 1, a sound source device 50, various sensors 60, and a plurality of speakers FL, FR, RL, and RR. Although the acoustic system 100 according to this embodiment is mounted on a vehicle, it is not limited to this.

音源装置50は、音源信号を音響装置1へ出力する。音源信号は、例えばステレオ信号である。音源信号は、音響装置1を介して2つのチャンネルである2つのスピーカFL,FRからそれぞれ異なる信号が出力されることで、空間的な広がりをもった音像となる。 The sound source device 50 outputs a sound source signal to the acoustic device 1 . The sound source signal is, for example, a stereo signal. The sound source signal is output as different signals from the two speakers FL and FR, which are two channels, via the acoustic device 1, thereby forming a spatially expanded sound image.

各種センサ60には、車両の状態を検出する各種のセンサが含まれる。各種センサ60としては、例えば車両における車速などの走行状態、窓の開閉状態、エアコンの運転状態、乗員の着席状態、スピーカFL,FR,RL,RRに対するフェーダ調整指示(乗員による前後バランス調整指示)、自動運転の有無などを検出可能なセンサが含まれ、検出された車両の状態を示す情報を音響装置1へ出力する。なお、上記では、車両の状態として、走行状態や窓の開閉状態など具体的に示したが、これらはあくまでも例示であって限定されるものではない。 Various sensors 60 include various sensors that detect the state of the vehicle. The various sensors 60 include, for example, the running state of the vehicle such as vehicle speed, the open/closed state of windows, the operating state of the air conditioner, the seated state of the passenger, fader adjustment instructions for the speakers FL, FR, RL, and RR (front-rear balance adjustment instructions by the passenger). , a sensor capable of detecting the presence or absence of automatic driving, etc., and outputs information indicating the detected state of the vehicle to the acoustic device 1 . In the above description, the state of the vehicle, such as the running state and the open/closed state of the windows, is specifically shown, but these are merely examples and are not limited.

複数のスピーカFL,FR,RL,RRは、音響装置1に接続される。これらスピーカFL,FR,RL,RRは、音響装置1から出力される信号を音として出力する。例えば、スピーカFL,FRは、音源信号である直接音を出力し、スピーカRL,RRは、音源信号から生成された疑似残響音を出力するが、これに限られない。 A plurality of speakers FL, FR, RL and RR are connected to the audio device 1 . These speakers FL, FR, RL, and RR output signals output from the acoustic device 1 as sounds. For example, the speakers FL and FR output the direct sound, which is the sound source signal, and the speakers RL and RR output the pseudo-reverberation sound generated from the sound source signal, but the present invention is not limited to this.

音響装置1は、制御部2と、記憶部3とを備える。制御部2は、取得部21と、分離部22と、出力制御部23とを備える。音響装置1は、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリ、入出力ポートなどを有するコンピュータや各種の回路を含む。 The audio device 1 includes a control section 2 and a storage section 3 . The control unit 2 includes an acquisition unit 21 , a separation unit 22 and an output control unit 23 . The audio device 1 includes a computer and various circuits having, for example, a CPU (Central Processing Unit), ROM (Read Only Memory), RAM (Random Access Memory), flash memory, input/output ports, and the like.

コンピュータのCPUは、たとえば、ROMに記憶されたプログラムを読み出して実行することによって、制御部2の取得部21、分離部22および出力制御部23として機能する。 The CPU of the computer functions as an acquisition unit 21, a separation unit 22, and an output control unit 23 of the control unit 2 by reading and executing programs stored in the ROM, for example.

また、制御部2の取得部21、分離部22および出力制御部23の少なくともいずれか一つまたは全部をASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成することもできる。 At least one or all of the acquisition unit 21, the separation unit 22, and the output control unit 23 of the control unit 2 is configured by hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array). can also

また、記憶部3は、RAMやフラッシュメモリに対応する。RAMやフラッシュメモリは、各種プログラムの情報等を記憶することができる。なお、音響装置1は、有線や無線のネットワークで接続された他のコンピュータや可搬型記録媒体を介して上記したプログラムや各種情報を取得することとしてもよい。 Also, the storage unit 3 corresponds to a RAM or a flash memory. The RAM and flash memory can store information of various programs and the like. Note that the audio device 1 may acquire the above-described programs and various types of information via another computer or portable recording medium connected via a wired or wireless network.

取得部21は、各種情報や信号を取得する。例えば、取得部21は、音源装置50から音源信号を取得する。例えば、取得部21は、ステレオ信号である音源信号を取得する。具体的には、取得部21は、2つのチャンネルである2つのスピーカFL,FRそれぞれから出力される音源信号を取得する。取得部21は、取得された音源信号を分離部22および出力制御部23へ出力する。 The acquisition unit 21 acquires various information and signals. For example, the acquisition unit 21 acquires a sound source signal from the sound source device 50 . For example, the acquisition unit 21 acquires a sound source signal that is a stereo signal. Specifically, the acquisition unit 21 acquires sound source signals output from the two speakers FL and FR, which are two channels. Acquisition unit 21 outputs the acquired sound source signal to separation unit 22 and output control unit 23 .

なお、以下では、ステレオ信号である音源信号のうち、左側のチャンネルであるスピーカFLから出力(再生)される音源信号を「Lch用音源信号」、右側のチャンネルであるスピーカFRから出力される音源信号を「Rch用音源信号」と記載する場合がある。 In the following description, among the sound source signals, which are stereo signals, the sound source signal output (reproduced) from the left channel speaker FL is referred to as the "Lch sound source signal", and the sound source signal output from the right channel speaker FR. The signal may be described as "Rch sound source signal".

取得部21は、各種センサ60から出力された車両の状態(例えば車速などの走行状態や、窓の開閉状態など)を示す情報を取得し、取得された情報を出力制御部23へ出力する。 The acquisition unit 21 acquires information indicating the state of the vehicle (for example, the running state such as the vehicle speed, the open/closed state of the windows, etc.) output from the various sensors 60, and outputs the acquired information to the output control unit 23.

分離部22は、音源信号から、疑似残響音の付加処理が不要な所定音源信号などを含む各種の音源信号を分離して抽出する処理を行う。例えば、分離部22は、上記した所定音源信号に加え、L成分音源信号、R成分音源信号、残響音成分音源信号などを分離して抽出することができる。 The separation unit 22 separates and extracts various sound source signals including a predetermined sound source signal that does not require pseudo-reverberation addition processing from the sound source signal. For example, the separation unit 22 can separate and extract an L component sound source signal, an R component sound source signal, a reverberant sound component sound source signal, etc., in addition to the above-described predetermined sound source signal.

L成分音源信号は、2つのチャンネルであるスピーカFL,FRのうち一方のチャンネル(スピーカFL)で再生される音の成分(L成分)を含む音源信号である。R成分音源信号は、他方のチャンネル(スピーカFR)で再生される音の成分(R成分)を含む音源信号である。なお、L成分音源信号は第1音源信号の一例であり、R成分音源信号は第2音源信号の一例である。残響音成分音源信号は、初期反射音などの実際の残響音成分を含む音源信号である。 The L component sound source signal is a sound source signal including a sound component (L component) reproduced by one channel (speaker FL) of the two channels of speakers FL and FR. The R component sound source signal is a sound source signal including a sound component (R component) reproduced by the other channel (speaker FR). Note that the L component excitation signal is an example of the first excitation signal, and the R component excitation signal is an example of the second excitation signal. A reverberant sound component sound source signal is a sound source signal containing actual reverberant sound components such as early reflections.

なお、上記では、分離部22が、音源信号から、所定音源信号、L成分音源信号、R成分音源信号および残響音成分音源信号を分離して抽出するとしたが、これに限られず、例えばこれら各種音源信号のうちの一部を分離して抽出する構成であってもよい。また、所定音源信号は、上記したように音声成分を含むことから、以下では、所定音源信号を「音声音源信号」と記載する場合がある。 In the above description, the separation unit 22 separates and extracts the predetermined sound source signal, the L component sound source signal, the R component sound source signal, and the reverberant sound component sound source signal from the sound source signal. A configuration may be used in which a portion of the sound source signal is separated and extracted. Further, since the predetermined sound source signal includes an audio component as described above, the predetermined sound source signal may be referred to as an "audio sound source signal" below.

ここで、分離部22による分離・抽出処理について図3を参照しつつ説明する。図3は、分離部22による分離・抽出処理を説明する図である。図3に示すように、分離部22には、先ず、取得部21からLch用音源信号およびRch用音源信号が入力される。 Here, the separation/extraction processing by the separation unit 22 will be described with reference to FIG. FIG. 3 is a diagram for explaining separation/extraction processing by the separation unit 22. As shown in FIG. As shown in FIG. 3 , the separation unit 22 first receives the Lch excitation signal and the Rch excitation signal from the acquisition unit 21 .

次いで、分離部22は、Lch用音源信号およびRch用音源信号に対してそれぞれ、時間周波数解析を行い、Lch音源データとRch音源データを算出する。例えば、分離部22は、Lch用音源信号に対して短時間フーリエ変換することで、時間領域から時間周波数領域に変換し、Lch音源データを算出する。同様に、分離部22は、Rch用音源信号に対して短時間フーリエ変換することで、Rch音源データを算出する。 Next, the separation unit 22 performs time-frequency analysis on the Lch excitation signal and the Rch excitation signal, respectively, and calculates Lch excitation data and Rch excitation data. For example, the separation unit 22 performs a short-time Fourier transform on the Lch excitation signal to convert it from the time domain to the time-frequency domain, thereby calculating Lch excitation data. Similarly, the separating unit 22 calculates Rch excitation data by performing a short-time Fourier transform on the Rch excitation signal.

Lch音源データおよびRch音源データは、対応する音響信号の時間に対する周波数特性を示す。詳しくは、Lch音源データおよびRch音源データは、音響信号を所定の周波数帯域毎および経過時間毎に区分けし、区分けされた領域毎に相対的なデシベル値(図示せず)が設定されるデータである。 The Lch voicing data and the Rch voicing data indicate frequency characteristics of corresponding acoustic signals with respect to time. Specifically, the Lch sound source data and the Rch sound source data are data in which an acoustic signal is divided into predetermined frequency bands and elapsed times, and a relative decibel value (not shown) is set for each divided region. be.

このように、分離部22は、音源信号に対して時間周波数解析を行うことで、Lch音源データおよびRch音源データを精度良く算出することができる。本実施形態にあっては、精度良く算出された音源データを用いることで、音源信号に応じた適切なサラウンド再生を行うことが可能になる。 In this manner, the separation unit 22 can accurately calculate the Lch excitation data and the Rch excitation data by performing time-frequency analysis on the excitation signal. In this embodiment, by using the sound source data calculated with high accuracy, it is possible to perform appropriate surround sound reproduction according to the sound source signal.

次いで、分離部22は、Lch音源データとRch音源データとの差分情報を算出する。差分情報は、例えばRch音源データからLch音源データを減算したLRチャンネル差を示す情報であり、具体的にはレベル差情報および位相差情報である。詳しくは、レベル(振幅)差情報は、チャネル間レベル差(ICLD(Inter-channel Level Difference))であり、位相差情報は、チャネル間位相差(ICPD(Inter-channel Phase Difference))である。 Next, the separation unit 22 calculates difference information between the Lch excitation data and the Rch excitation data. The difference information is, for example, information indicating the LR channel difference obtained by subtracting the Lch voicing source data from the Rch voicing source data, and is specifically level difference information and phase difference information. Specifically, the level (amplitude) difference information is an inter-channel level difference (ICLD), and the phase difference information is an inter-channel phase difference (ICPD).

このように、分離部22は、2つのチャンネル(スピーカFL,FR)でそれぞれ再生される音源信号間の差を示す差分情報を算出し、かかる差分情報を用いることで、後述するような音声音源信号等の分離を精度良く行うことが可能になる。 In this way, the separation unit 22 calculates difference information indicating the difference between the sound source signals respectively reproduced by the two channels (speakers FL and FR), and uses the difference information to generate an audio sound source as described later. It is possible to accurately separate signals and the like.

次いで、分離部22は、差分情報に基づいて、各種音源信号を分離して抽出するためのマスクを生成する。詳しくは、分離部22は、差分情報に基づいて、音声音源信号、L成分音源信号、R成分音源信号および残響音成分音源信号などを分離・抽出するためのマスクをそれぞれ生成する。なお、マスクとしては、例えば0または1の2値だけをとるバイナリマスクを用いることができるが、これに限定されるものではない。 Next, the separation unit 22 generates masks for separating and extracting various sound source signals based on the difference information. Specifically, the separating unit 22 generates masks for separating and extracting the speech sound source signal, the L component sound source signal, the R component sound source signal, the reverberant sound component sound source signal, and the like based on the difference information. As the mask, for example, a binary mask that takes only binary values of 0 or 1 can be used, but it is not limited to this.

また、以下では、音声音源信号を分離・抽出するためのマスクを「音声用マスク」と記載する場合がある。また、L成分音源信号、R成分音源信号および残響音成分音源信号を分離・抽出するためのマスクをそれぞれ「L成分用マスク」、「R成分用マスク」および「残響音用マスク」と記載する場合がある。 Also, hereinafter, a mask for separating/extracting an audio source signal may be referred to as an "audio mask". Masks for separating and extracting the L component sound source signal, the R component sound source signal, and the reverberant sound component sound source signal are described as "L component mask," "R component mask," and "reverberant sound mask," respectively. Sometimes.

先ず、「音声用マスク」の生成について説明する。なお、音声(ボーカル)は通常、モノラル録音されるため、ここでは、Lch用音源信号およびRch用音源信号には、同じ音声音源信号が含まれているものとする。 First, the generation of the "voice mask" will be described. Since voice (vocal) is normally recorded in monaural, it is assumed here that the Lch sound source signal and the Rch sound source signal include the same sound source signal.

分離部22は、差分情報のうちレベル差情報であるICLD、位相差情報であるICPDと、下記の設定条件1とに基づいて音声用マスクの値(正確には各領域における値)を設定し、音声用マスクを生成する。 The separating unit 22 sets the value of the audio mask (more precisely, the value in each region) based on ICLD, which is level difference information, ICPD, which is phase difference information, and setting condition 1 below. , to generate a mask for the audio.

〔設定条件1〕
マスクの値 1:|ICLD|<閾値a、かつ、|ICPD|<閾値bの領域
マスクの値 0:上記以外の領域
ここで、閾値aおよび閾値bはともに、比較的小さい値に設定される。詳しくは、閾値aおよび閾値bは、ICLDおよびICPDがともに0あるいは0付近であることが推定できるような値に設定されるが、これに限定されるものではなく、任意の値に設定可能である。
[Setting condition 1]
Mask value 1: Area where |ICLD|<threshold a and |ICPD|<threshold b Mask value 0: Area other than the above Here, threshold a and threshold b are both set to relatively small values. . Specifically, the threshold a and the threshold b are set to values that allow estimation that both ICLD and ICPD are 0 or near 0, but are not limited to this and can be set to arbitrary values. be.

上記したように、Lch用音源信号およびRch用音源信号には同じ音声音源信号が含まれるため、音声用マスクは、設定条件1により、音声音源信号が含まれる領域(言い換えるとICLDおよびICPDがともに0あるいは0付近である領域)の値が1に、それ以外の領域が0に設定されることとなる。 As described above, since the same sound source signal is included in the Lch sound source signal and the Rch sound source signal, the sound mask is set to the region including the sound source signal (in other words, both ICLD and ICPD) according to setting condition 1. 0 or near 0) is set to 1, and other areas are set to 0.

次いで、分離部22は、生成された音声用マスクを用いて、音声音源信号を分離・抽出する。具体的には、分離部22は、音声用マスクの値が1に設定された時間周波数領域から、音声音源信号を分離・抽出する。 Next, the separation unit 22 separates and extracts the audio source signal using the generated audio mask. Specifically, the separation unit 22 separates and extracts the audio source signal from the time-frequency domain in which the value of the audio mask is set to 1.

例えば、分離部22は、Lch音源データおよびRch音源データに対して、音声用マスクを適用してフィルタリングすることで、Lch音源データおよびRch音源データからそれぞれ音声音源信号を分離する。そして、分離部22は、分離された2つの音声音源信号を平均化し、平均化された信号を音声音源信号として抽出する。 For example, the separating unit 22 applies an audio mask to the Lch excitation data and the Rch excitation data and filters them, thereby separating the audio excitation signal from the Lch excitation data and the Rch excitation data. Then, the separating unit 22 averages the separated two audio source signals and extracts the averaged signal as an audio source signal.

なお、上記では、音声用マスクがLch音源データおよびRch音源データの両方に適用される例を示したが、これに限定されるものではなく、例えばLch音源データおよびRch音源データの一方に適用され、一方のデータから音声音源信号が分離・抽出されてもよい。 Although an example in which the audio mask is applied to both the Lch sound source data and the Rch sound source data has been described above, the present invention is not limited to this. , an audio source signal may be separated and extracted from one of the data.

なお、上記では、音声用マスクにおいて、ICLDおよびICPDが0あるいは0付近である領域以外の領域の値が0に設定されるようにしたが、これに加えてあるいは代えて、例えば音声帯域(一例として300~3400Hz)以外の周波数領域の値が、予め0に設定されてもよい。すなわち、ここでは、音声音源信号の分離・抽出する処理が行われる。このため、上記のように、音声帯域以外の周波数領域、言い換えると音声音源信号が存在し得ない周波数領域の値が予め0に設定されることで、音声音源信号が存在し得ない周波数領域に音声音源信号が存在すると誤検知することがなく、よって音声音源信号を精度良く分離・抽出することが可能になる。 In the above description, in the audio mask, the value of the area other than the area where ICLD and ICPD are 0 or near 0 is set to 0, but in addition or instead of this, for example, the audio band 300 to 3400 Hz) may be set to 0 in advance. That is, here, a process of separating and extracting the sound source signal is performed. For this reason, as described above, by setting the value of the frequency region other than the voice band, in other words, the value of the frequency region in which the sound source signal cannot exist, to 0 in advance, the frequency region in which the sound source signal cannot exist can be obtained. It is possible to accurately separate and extract the audio source signal without erroneously detecting the presence of the audio source signal.

また、音声用マスクにおいて、例えば音声帯域以下の周波数領域の値が、予め1に設定されるようにしてもよい。これにより、モノラル成分を含む楽器の音源信号であって、音声帯域以下の周波数の楽器(例えばバスドラムなど)の音源信号も分離して抽出することが可能になる。 Also, in the voice mask, for example, the value of the frequency region below the voice band may be set to 1 in advance. This makes it possible to separate and extract sound source signals of musical instruments that include monaural components and whose frequencies are below the voice band (for example, bass drums).

次に、「L成分用マスク」の生成について説明する。例えば、ある楽器音(一例としてピアノ)の成分が、Rch用音源信号に比べてLch用音源信号に多く含まれる場合がある。L成分用マスクは、このような楽器音の成分をL成分音源信号として分離・抽出するためのマスクである。 Next, generation of the “L component mask” will be described. For example, there are cases where more components of a certain musical instrument sound (eg, a piano) are included in the Lch tone generator signal than in the Rch tone generator signal. The L component mask is a mask for separating/extracting such an instrumental sound component as an L component sound source signal.

具体的には、分離部22は、レベル差情報であるICLD、位相差情報であるICPDと、下記の設定条件2とに基づいてL成分用マスクの値(正確には各領域における値)を設定し、L成分用マスクを生成する。 Specifically, the separating unit 22 determines the value of the L component mask (more precisely, the value in each region) based on ICLD as level difference information, ICPD as phase difference information, and setting condition 2 below. set and generate a mask for the L component.

〔設定条件2〕
マスクの値 1:ICLD<閾値c、かつ、ICPD<閾値dの領域
マスクの値 0:上記以外の領域
ここで、閾値cおよび閾値dはともに、0以下の値に設定される。詳しくは、閾値cおよび閾値dは、ICLDおよびICPDがともに負値であることが推定できるような値に設定されるが、これに限定されるものではなく、任意の値に設定可能である。
[Setting condition 2]
Mask value 1: Area where ICLD<threshold c and ICPD<threshold d Mask value 0: Area other than the above Here, threshold c and threshold d are both set to a value of 0 or less. Specifically, the threshold c and the threshold d are set to values that allow estimation that both ICLD and ICPD are negative values, but are not limited to this and can be set to arbitrary values.

すなわち、上記したようにある楽器音(ここではピアノ)の成分がLch用音源信号に多く含まれるため、Rch音源データからLch音源データを減算して得た差分情報では、ある楽器音の成分を含む領域のICLDおよびICPDが負値となる。従って、L成分用マスクは、設定条件2により、ある楽器音(ここではピアノ)の成分が含まれる領域(言い換えるとICLDおよびICPDがともに負値である領域)の値が1に、それ以外の領域が0に設定されることとなる。 That is, since the Lch sound source signal contains many components of a certain musical instrument sound (here, a piano) as described above, the difference information obtained by subtracting the Lch sound source data from the Rch sound source data does not include the certain musical instrument sound component. The ICLD and ICPD of the containing region will be negative. Therefore, under setting condition 2, the L component mask has a value of 1 in a region containing a component of a musical instrument sound (in this case, a piano) (in other words, a region in which both ICLD and ICPD are negative values), and The area will be set to 0.

次いで、分離部22は、生成されたL成分用マスクを用いて、L成分音源信号を分離・抽出する。具体的には、分離部22は、L成分用マスクの値が1に設定された時間周波数領域から、L成分音源信号を分離・抽出する。例えば、分離部22は、Lch音源データに対して、L成分用マスクを適用してフィルタリングすることで、Lch音源データからL成分音源信号を分離する。 Next, the separation unit 22 separates and extracts the L component excitation signal using the generated L component mask. Specifically, the separation unit 22 separates and extracts the L component excitation signal from the time-frequency domain in which the value of the L component mask is set to 1. For example, the separating unit 22 separates the L component excitation signal from the Lch excitation data by filtering the Lch excitation data by applying the L component mask.

次に、「R成分用マスク」の生成について説明する。例えば、ある楽器音(一例としてギター)の成分が、Lch用音源信号に比べてRch用音源信号に多く含まれる場合がある。R成分用マスクは、このような楽器音の成分をR成分音源信号として分離・抽出するためのマスクである。 Next, generation of the “R component mask” will be described. For example, there are cases where more components of a certain musical instrument sound (guitar as an example) are included in the Rch sound source signal than in the Lch sound source signal. The R component mask is a mask for separating/extracting such an instrumental sound component as an R component sound source signal.

具体的には、分離部22は、レベル差情報であるICLD、位相差情報であるICPDと、下記の設定条件3とに基づいてR成分用マスクの値(正確には各領域における値)を設定し、R成分用マスクを生成する。 Specifically, the separating unit 22 determines the value of the R component mask (more precisely, the value in each region) based on ICLD as level difference information, ICPD as phase difference information, and setting condition 3 below. set and generate a mask for the R component.

〔設定条件3〕
マスクの値 1:ICLD>閾値e、かつ、ICPD>閾値fの領域
マスクの値 0:上記以外の領域
ここで、閾値eおよび閾値fはともに、0以上の値に設定される。詳しくは、閾値eおよび閾値fは、ICLDおよびICPDがともに正値であることが推定できるような値に設定されるが、これに限定されるものではなく、任意の値に設定可能である。
[Setting condition 3]
Mask value 1: Area where ICLD>threshold value e and ICPD>threshold value f Mask value 0: Area other than the above Here, both the threshold value e and the threshold value f are set to a value of 0 or more. Specifically, the threshold e and the threshold f are set to values that allow estimation that both ICLD and ICPD are positive values, but are not limited to this and can be set to arbitrary values.

すなわち、上記したようにある楽器音(ここではギター)の成分がRch用音源信号に多く含まれるため、Rch音源データからLch音源データを減算して得た差分情報では、ある楽器音の成分を含む領域のICLDおよびICPDが正値となる。従って、R成分用マスクは、設定条件3により、ある楽器音(ここではギター)の成分が含まれる領域(言い換えるとICLDおよびICPDがともに正値である領域)の値が1に、それ以外の領域が0に設定されることとなる。 That is, since the Rch sound source signal contains many components of a certain musical instrument sound (guitar in this case) as described above, the difference information obtained by subtracting the Lch sound source data from the Rch sound source data does not include the certain musical instrument sound component. ICLD and ICPD of the containing region are positive. Therefore, according to the setting condition 3, the R component mask has a value of 1 in a region containing a component of a musical instrument sound (here, a guitar) (in other words, a region in which both ICLD and ICPD are positive values), and The area will be set to 0.

次いで、分離部22は、生成されたR成分用マスクを用いて、R成分音源信号を分離・抽出する。具体的には、分離部22は、R成分用マスクの値が1に設定された時間周波数領域から、R成分音源信号を分離・抽出する。例えば、分離部22は、Rch音源データに対して、R成分用マスクを適用してフィルタリングすることで、Rch音源データからR成分音源信号を分離する。 Next, the separation unit 22 separates and extracts the R component excitation signal using the generated R component mask. Specifically, the separation unit 22 separates and extracts the R component excitation signal from the time-frequency domain in which the value of the R component mask is set to 1. For example, the separating unit 22 separates the R-component excitation signal from the R-channel excitation data by filtering the R-channel excitation data by applying an R-component mask.

次に、「残響音用マスク」について説明する。例えば、Lch用音源信号およびRch用音源信号には、上記した音声などのモノラル成分、L成分やR成分の他に、初期反射音などの実際の残響音成分が含まれる場合がある。かかる残響音成分においては、再生時に音像が不明瞭になりやすいものがあり、残響音用マスクは、このような残響音成分を残響音成分音源信号として分離・抽出するためのマスクである。 Next, the “reverberation mask” will be described. For example, the Lch sound source signal and the Rch sound source signal may include actual reverberant sound components such as early reflected sound in addition to the monaural component such as the above-described voice, L component, and R component. Some of such reverberant sound components tend to make the sound image unclear during reproduction, and the reverberant sound mask is a mask for separating and extracting such reverberant sound components as reverberant sound component sound source signals.

具体的には、分離部22は、レベル差情報であるICLD、位相差情報であるICPDと、下記の設定条件4とに基づいて残響音用マスクの値(正確には各領域における値)を設定し、残響音用マスクを生成する。 Specifically, the separation unit 22 determines the value of the reverberation mask (more precisely, the value in each region) based on ICLD as level difference information, ICPD as phase difference information, and setting condition 4 below. set and generate a mask for reverberation.

〔設定条件4〕
マスクの値 0:|ICLD|<閾値a、かつ、|ICPD|<閾値bの領域
マスクの値 0:ICLD<閾値c、かつ、ICPD<閾値dの領域
マスクの値 0:ICLD>閾値e、かつ、ICPD>閾値fの領域
マスクの値 1:上記以外の領域
設定条件4の内容から分かるように、上述した設定条件1~3においてマスクの値が1に設定される領域が、設定条件4では0に設定され、それ以外の領域の値が1に設定される。すなわち、例えばICLDとICPDとで正負が反転するような領域やICPD≒180°となるような領域は、再生時に音像が不明瞭になりやすい残響音を含む領域であるため、当該領域の値が1に設定されることとなる。
[Setting condition 4]
Mask value 0: Area where |ICLD|<threshold a and |ICPD|<threshold b Mask value 0: Area where ICLD<threshold c and ICPD<threshold d Mask value 0: ICLD>threshold e, and area where ICPD>threshold value f mask value 1: area other than the above is set to 0, and the value of other areas is set to 1. That is, for example, a region where ICLD and ICPD are reversed in positive and negative or a region where ICPD ≈ 180° is a region containing reverberant sound that tends to make the sound image unclear during reproduction. It will be set to 1.

次いで、分離部22は、生成された残響音用マスクを用いて、残響音成分音源信号を分離・抽出する。具体的には、分離部22は、残響音用マスクの値が1に設定された時間周波数領域から、残響音成分音源信号を分離・抽出する。 Next, the separation unit 22 separates and extracts the reverberant sound component sound source signal using the generated reverberant sound mask. Specifically, the separating unit 22 separates and extracts the reverberant sound component sound source signal from the time-frequency domain in which the value of the reverberant sound mask is set to 1.

例えば、分離部22は、Lch音源データおよびRch音源データに対して、残響音用マスクを適用してフィルタリングすることで、Lch音源データおよびRch音源データからそれぞれ残響音成分音源信号を分離する。そして、分離部22は、分離された2つの残響音成分音源信号を平均化し、平均化された信号を残響音成分音源信号として抽出する。 For example, the separating unit 22 separates reverberant sound component sound source signals from the Lch sound source data and the Rch sound source data by filtering the Lch sound source data and the Rch sound source data by applying reverberant sound masks. Then, the separation unit 22 averages the two separated reverberant sound component sound source signals and extracts the averaged signal as a reverberant sound component sound source signal.

なお、上記では、残響音用マスクがLch音源データおよびRch音源データの両方に適用される例を示したが、これに限定されるものではなく、例えばLch音源データおよびRch音源データの一方に適用され、一方のデータから残響音成分音源信号が分離・抽出されてもよい。 Although an example in which the reverberation mask is applied to both the Lch sound source data and the Rch sound source data has been described above, the present invention is not limited to this. and a reverberant sound component sound source signal may be separated and extracted from one of the data.

なお、上記では、各マスクの値が1あるいは0に設定されるため、各音源信号の分離処理において分離歪が発生する場合があるが、かかる場合、各マスクにローパスフィルタを組み合わせることで、分離歪の軽減を図るようにしてもよい。また、各マスクの値が0に設定される領域について、例えば0.1など緩和した値が設定されることで、分離歪の軽減を図るようにしてもよい。 In the above description, since the value of each mask is set to 1 or 0, separation distortion may occur in the separation processing of each sound source signal. You may try to reduce the distortion. Also, for regions where the value of each mask is set to 0, a relaxed value such as 0.1 may be set to reduce the separation distortion.

図2の説明を続けると、分離部22は、分離・抽出された、音声音源信号、L成分音源信号、R成分音源信号および残響音成分音源信号を出力制御部23へ出力する。また、分離部22は、音声音源信号(所定音源信号)を音源信号から除去して除去音源信号を生成し、生成された除去音源信号を出力制御部23へ出力する。 Continuing with the description of FIG. 2 , the separation unit 22 outputs the separated/extracted speech sound source signal, L component sound source signal, R component sound source signal, and reverberant sound component sound source signal to the output control unit 23 . The separation unit 22 also removes the sound source signal (predetermined sound source signal) from the sound source signal to generate a removed sound source signal, and outputs the generated removed sound source signal to the output control unit 23 .

出力制御部23は、取得部21から入力される音源信号、および、分離部22から入力される音声音源信号、L成分音源信号、R成分音源信号、残響音成分音源信号、除去音源信号に所定の処理を施してスピーカFL,FR,RL,RRから出力する。 The output control unit 23 controls the sound source signal input from the acquisition unit 21, the speech sound source signal input from the separation unit 22, the L component sound source signal, the R component sound source signal, the reverberant sound component sound source signal, and the removed sound source signal. , and output from the speakers FL, FR, RL, and RR.

例えば、出力制御部23は、直接音等を含む音源信号をD/A変換し、D/A変換後の音源信号を増幅してスピーカFL,FRから出力(再生)する。ここで、再生される音の音像などについて図4A~図4Gを参照して説明する。 For example, the output control unit 23 D/A converts a sound source signal including direct sound or the like, amplifies the D/A converted sound source signal, and outputs (reproduces) it from the speakers FL and FR. Here, the sound image of reproduced sound will be described with reference to FIGS. 4A to 4G.

図4A~図4Gは、出力制御部23によって再生される音の音像などを説明する図である。なお、図4Aは、直接音等を含む音源信号のみが出力されて再生された状態を示し、言い換えると、疑似残響音等が再生(付加)されていない状態を示している。また、図4A~図4Fでは、音声(ボーカル)の音像を符号A1で示している。また、音源信号は、上記したようにステレオ信号であり、Lch用音源信号およびRch用音源信号を含む。図4A~図4Fでは、Rch用音源信号に比べてLch用音源信号に多く含まれる楽器音等の音像を符号ALで示し、Lch用音源信号に比べてRch用音源信号に多く含まれる楽器音等の音像を符号ARで示している。 4A to 4G are diagrams for explaining a sound image of sound reproduced by the output control section 23. FIG. Note that FIG. 4A shows a state in which only a sound source signal including direct sound or the like is output and reproduced, in other words, a state in which pseudo-reverberant sound or the like is not reproduced (added). 4A to 4F, the sound image of voice (vocal) is indicated by symbol A1. Also, the sound source signal is a stereo signal as described above, and includes an Lch sound source signal and an Rch sound source signal. In FIGS. 4A to 4F, the symbol AL denotes a sound image such as a musical instrument sound that is included more in the Lch sound source signal than in the Rch sound source signal. A sound image such as that shown in FIG.

図4Aに示すように、出力制御部23が、直接音等を含む音源信号をスピーカFL,FRから出力すると、音声の音像A1や楽器音の音像AL,ARがスピーカFL,FR間において比較的狭い間隔で定位する。 As shown in FIG. 4A, when the output control unit 23 outputs sound source signals including direct sounds and the like from the speakers FL and FR, the sound image A1 of the voice and the sound images AL and AR of the musical instrument sound are relatively different between the speakers FL and FR. Localized at narrow intervals.

図2の説明を続けると、出力制御部23は、フィルタ23aを有し、かかるフィルタ23aを用いて疑似残響音を生成して出力する。フィルタ23aは、疑似残響音を生成するためのフィルタである。なお、フィルタとしては、例えばFIRフィルタやIIRフィルタ等を用いることができるが、これに限定されるものではない。 Continuing the description of FIG. 2, the output control unit 23 has a filter 23a, and uses the filter 23a to generate and output a pseudo-reverberation sound. The filter 23a is a filter for generating pseudo-reverberant sound. As the filter, for example, an FIR filter, an IIR filter, or the like can be used, but the filter is not limited to this.

例えば、出力制御部23は、所定音源信号が除去された前記音源信号、すなわち除去音源信号に対し、フィルタ23aを適用して疑似残響音を示す残響信号を生成する。そして、出力制御部23は、残響信号をD/A変換し、D/A変換後の残響信号を増幅してスピーカRL,RRから出力する。これにより、疑似残響音が直接音等に付加される。 For example, the output control unit 23 applies the filter 23a to the sound source signal from which the predetermined sound source signal has been removed, ie, the removed sound source signal, to generate a reverberation signal representing a pseudo-reverberation sound. The output control unit 23 D/A converts the reverberation signal, amplifies the D/A converted reverberation signal, and outputs the amplified reverberation signal from the speakers RL and RR. As a result, the pseudo-reverberation sound is added to the direct sound or the like.

従って、図4Bに示すように、例えば出力制御部23は、スピーカRL,RRから出力される疑似残響音の大きさ等を調整し、疑似残響音の音像Bを聴取者Lの周辺に定位させることで、聴取者Lは、十分な包まれ感LEVを感じることができる。 Therefore, as shown in FIG. 4B, for example, the output control unit 23 adjusts the volume of the pseudo-reverberant sound output from the speakers RL and RR, and localizes the sound image B of the pseudo-reverberant sound around the listener L. Thus, the listener L can feel a sufficient wrapped feeling LEV.

このように、本実施形態に係る出力制御部23は、疑似残響音の付加処理が不要な音声音源信号が除去された音源信号(除去音源信号)にのみフィルタ23aを適用し、残響信号を生成して出力する。 As described above, the output control unit 23 according to the present embodiment applies the filter 23a only to the sound source signal (removed sound source signal) from which the sound source signal that does not require the addition processing of the pseudo reverberation is removed, and generates the reverberation signal. and output.

これにより、例えば音源信号に、疑似残響音の付加処理が必要な音源信号と、不要な音源信号(ここでは音声音源信号)とが含まれる場合であっても、付加処理が必要な音源信号に対してのみ残響信号が生成されて出力されるため、音源信号に応じた(詳しくは音源信号の内容(種類)に応じた)適切なサラウンド再生を行うことができる。 As a result, even if the sound source signal includes, for example, a sound source signal that requires pseudo-reverberation addition processing and an unnecessary sound source signal (here, a speech sound source signal), the sound source signal that requires addition processing can Since the reverberation signal is generated and output only for the sound source signal, appropriate surround sound reproduction corresponding to the sound source signal (more specifically, according to the content (type) of the sound source signal) can be performed.

なお、上記において、出力制御部23は、音声音源信号が除去された音源信号(除去音源信号)にのみフィルタ23aを適用したが、これに限定されるものではない。すなわち、例えば出力制御部23は、音声音源信号(所定音源信号)が除去された音源信号、および、音声音源信号の両方に対してフィルタ23aを適用してもよい。このとき、出力制御部23は、音声音源信号が除去された音源信号(除去音源信号)に対応する疑似残響音の残響レベルが、音声音源信号に対応する疑似残響音の残響レベルより高くなるようにして出力する。逆に言えば、出力制御部23は、音声音源信号に対応する疑似残響音の残響レベルが、除去音源信号に対応する疑似残響音の残響レベルより低くなるようにして出力する。言い換えると、フィルタ23aは、上記した疑似残響音の残響レベルとなる残響信号を生成するように設定される。 In the above description, the output control unit 23 applies the filter 23a only to the sound source signal from which the sound source signal has been removed (removed sound source signal), but the present invention is not limited to this. That is, for example, the output control unit 23 may apply the filter 23a to both the sound source signal from which the sound source signal (predetermined sound source signal) has been removed and the sound source signal. At this time, the output control unit 23 controls the reverberation level of the pseudo reverberation sound corresponding to the sound source signal from which the sound source signal has been removed (removed sound source signal) to be higher than the reverberation level of the pseudo reverberation sound corresponding to the sound source signal. output as Conversely, the output control unit 23 outputs the pseudo-reverberant sound corresponding to the audio source signal so that the reverberation level is lower than the reverberation level of the pseudo-reverberant sound corresponding to the removed sound source signal. In other words, the filter 23a is set to generate a reverberation signal having the reverberation level of the pseudo-reverberation sound described above.

これにより、例えば音声(ボーカル)の音像や音色が極端に鮮明で手前に浮き出てくるような不自然な印象を聴取者Lに与えることを抑制することが可能になる。詳しくは、例えばボーカルと楽器音とが混在する音楽の音源信号に対し、楽器音の音源信号(すなわち除去音源信号)にのみ大きな残響がかかり、ボーカルの音声音源信号に残響が全くかからないようにした場合、ボーカルのみ音像や音色が極端に鮮明で手前に浮き出てくるような不自然な印象を聴取者Lに与えることがある。これは、大きな残響がかかって反射音が多くなると音像(ここでは楽器の音像)を遠くに感じる心理特性があり、それに伴って残響が全くかからない音像(ここではボーカルの音像)が手前に近づく印象となることに起因する。そこで、音声音源信号が除去された音源信号、および、音声音源信号の両方に対してフィルタ23aを適用し、残響レベルを上記のように異ならせることで、上述した不自然な印象を聴取者Lに与えることを抑制することが可能になる。 As a result, it is possible to prevent the listener L from having an unnatural impression that the sound image or timbre of the voice (vocal) is extremely clear and stands out in front of the listener L, for example. Specifically, for example, for a musical sound source signal in which vocals and instrumental sounds are mixed, large reverberation is applied only to the sound source signal of the instrumental sound (that is, the removed sound source signal), and no reverberation is applied to the vocal sound source signal. In this case, the listener L may be given an unnatural impression that the sound image and timbre of only the vocal are extremely clear and stand out in front of the listener. This is because there is a psychological characteristic of feeling the sound image (here, the sound image of an instrument) farther away when there is a lot of reflected sound due to strong reverberation, and along with this, the impression that the sound image without any reverberation (here, the vocal sound image) approaches the foreground. It is caused by becoming Therefore, by applying the filter 23a to both the sound source signal from which the sound source signal has been removed and the sound source signal, and varying the reverberation levels as described above, the unnatural impression described above can be reduced to the listener L. It becomes possible to suppress giving to

なお、出力制御部23は、サラウンド再生される除去音源信号を出力するスピーカを、スピーカFL,FR,RL,RRの中から、除去音源信号の内容(種類)に応じて選択してもよい。一例として、出力制御部23は、直接音と疑似残響音とが聴取者Lを挟むようにして再生されるように、音源信号および残響信号が出力されるスピーカを選択することで、包まれ感LEVを向上させるようにしてもよい。 Note that the output control unit 23 may select a speaker for outputting the removed sound source signal for surround reproduction from among the speakers FL, FR, RL, and RR according to the content (type) of the removed sound source signal. As an example, the output control unit 23 selects the speakers that output the sound source signal and the reverberation signal so that the direct sound and the pseudo-reverberation sound are reproduced with the listener L sandwiched therebetween, thereby reducing the enveloping feeling LEV. It may be improved.

具体的に説明すると、残響信号(言い換えると、フィルタ23aが適用されてサラウンド再生される除去音源信号)には、上記したL成分音源信号やR成分音源信号が含まれ、L成分音源信号やR成分音源信号は、分離部22によって分離・抽出されている。従って、出力制御部23は、残響信号(フィルタ23aが適用された除去音源信号)のうち、L成分音源信号をスピーカRRからサラウンド再生(出力)し、R成分音源信号をスピーカRLからサラウンド再生する。 Specifically, the reverberation signal (in other words, the removed sound source signal that is reproduced in surround sound by applying the filter 23a) includes the L component sound source signal and the R component sound source signal, and the L component sound source signal and the R component sound source signal. The component sound source signals are separated and extracted by the separating section 22 . Therefore, of the reverberation signal (the removed sound source signal to which the filter 23a is applied), the output control unit 23 surround-plays (outputs) the L component sound source signal from the speaker RR, and surround-plays the R component sound source signal from the speaker RL. .

これにより、聴取者Lは、直接音のL成分が再生されるスピーカFLと疑似残響音のL成分がサラウンド再生されるスピーカRRとの間、および、直接音のR成分が再生されるスピーカFRと疑似残響音のR成分がサラウンド再生されるスピーカRLとの間に位置することとなる。そのため、疑似残響音の音像Bは聴取者Lの周辺に定位しやすくなり、結果として聴取者Lにおける包まれ感LEVを向上させることが可能になる。 As a result, the listener L can move between the speaker FL that reproduces the L component of the direct sound and the speaker RR that reproduces the L component of the pseudo-reverberant sound in surround sound, and the speaker FR that reproduces the R component of the direct sound. and the speaker RL through which the R component of the pseudo-reverberation sound is reproduced in surround sound. Therefore, the pseudo-reverberant sound image B is easily localized around the listener L, and as a result, the enveloping feeling LEV for the listener L can be improved.

また、出力制御部23は、分離された残響音成分音源信号に対し、フィルタ23aを適用して残響信号を生成する。そして、出力制御部23は、残響音成分音源信号から生成された残響信号をスピーカRL,RRから出力してもよい。これにより、残響音成分音源信号による疑似残響音が直接音等に付加される。詳しくは、例えば実際の残響音成分のうち、再生時に音像が不明瞭になりやすい残響音成分の疑似残響音が直接音に付加され、これにより当該残響音成分の音像が明瞭化され、また、包まれ感LEVをより向上させることが可能になる。 The output control unit 23 also applies the filter 23a to the separated reverberant sound component sound source signal to generate a reverberation signal. Then, the output control unit 23 may output the reverberation signal generated from the reverberation sound component sound source signal from the speakers RL and RR. As a result, the pseudo-reverberant sound generated by the reverberant component sound source signal is added to the direct sound or the like. Specifically, for example, among the actual reverberant sound components, the pseudo-reverberant sound of the reverberant sound component whose sound image tends to be unclear during reproduction is added to the direct sound, thereby clarifying the sound image of the reverberant sound component, and It is possible to further improve the wrapped feeling LEV.

ところで、例えば車両の車室においては、図4Bに想像線で示すように、車室の後方(例えば後部座席)に他の聴取者Lxが着席する場合がある。このとき、上記した疑似残響音の付加処理が行わると、聴取者Lxに対して、疑似残響音を含む残響音が過剰になるおそれがある。 By the way, for example, in a passenger compartment of a vehicle, another listener Lx may be seated behind the passenger compartment (for example, in the rear seat) as indicated by the imaginary line in FIG. 4B. At this time, if the pseudo-reverberating sound adding process described above is performed, the reverberant sound including the pseudo-reverberating sound may become excessive for the listener Lx.

そこで、本実施形態に係る出力制御部23は、車両の状態に応じて疑似残響音の付加処理を行うことで、聴取者Lxに対して残響音が過剰になることを抑制してもよい。詳しくは、出力制御部23は、車両の状態に応じて、除去音源信号に対してフィルタ23aを適用し、適用された除去音源信号(すなわち残響信号)を、チャンネル(例えばスピーカRL,RRなど)から出力することで、残響音が過剰になることを抑制してもよい。 Therefore, the output control unit 23 according to the present embodiment may suppress excessive reverberation for the listener Lx by performing pseudo reverberation addition processing according to the state of the vehicle. Specifically, the output control unit 23 applies the filter 23a to the removed sound source signal according to the state of the vehicle, and transmits the applied removed sound source signal (that is, the reverberation signal) to a channel (for example, speakers RL, RR, etc.). Excessive reverberation may be suppressed by outputting from .

例えば、出力制御部23は、図4Bに想像線で示すように、後部座席の聴取者Lxより後方にスピーカRxが存在するような車両の状態である場合、フィルタ23aが適用された除去音源信号(残響信号)をスピーカRxから出力する。これにより、図示は省略するが、疑似残響音の音像を聴取者Lxの周辺に定位させることが可能となる。そのため、聴取者Lxおいても、聴取者Lと同様、包まれ感LEVを確保することができ、残響音が過剰になることを抑制することができる。 For example, as shown by the imaginary line in FIG. 4B, when the vehicle is in a state where the speaker Rx exists behind the listener Lx in the back seat, the output control unit 23 outputs the removed sound source signal to which the filter 23a is applied. (reverberation signal) is output from the speaker Rx. As a result, although illustration is omitted, it is possible to localize the sound image of the pseudo-reverberant sound around the listener Lx. Therefore, even for the listener Lx, the wrapped feeling LEV can be secured similarly to the listener L, and excessive reverberation can be suppressed.

また、例えば出力制御部23は、スピーカFL,FR,RL,RRに対するフェーダ調整指示(車両の状態の一例)に応じて疑似残響音の付加処理を行ってもよい。例えば、出力制御部23は、後部座席重視で再生することを示すフェーダ調整指示が車両の状態として各種センサ60から検出された場合、スピーカRL,RRから出力される残響信号を弱めたり、残響信号の出力を禁止したりしてもよい。これにより、疑似残響音が低下する、あるいは無くなるため、聴取者Lxに対して残響音が過剰になることを抑制することができる。 Further, for example, the output control unit 23 may perform pseudo-reverberation addition processing according to fader adjustment instructions (an example of the state of the vehicle) for the speakers FL, FR, RL, and RR. For example, the output control unit 23 weakens the reverberation signals output from the speakers RL and RR or adjusts the reverberation signals when the various sensors 60 detect, as the state of the vehicle, a fader adjustment instruction indicating that reproduction is to be performed with emphasis placed on the rear seats. may be prohibited. As a result, the pseudo-reverberant sound is reduced or eliminated, so that excessive reverberant sound for the listener Lx can be suppressed.

また、例えば出力制御部23は、乗員の着席状態(車両の状態の一例)に応じて疑似残響音の付加処理を行ってもよい。例えば、出力制御部23は、後部座席に乗員が着席していないこと、すなわち聴取者Lxが存在しないことを示す乗員の着席状態が車両の状態として各種センサ60から検出された場合に、残響信号をスピーカRL,RRから出力するようにしてもよい。これにより、上記したような過剰な残響音が生じることはない。 Further, for example, the output control unit 23 may perform pseudo-reverberation sound addition processing according to the seated state of the passenger (an example of the state of the vehicle). For example, the output control unit 23 outputs the reverberation signal when the various sensors 60 detect that the passenger is not seated in the rear seat, that is, that the listener Lx is not present, as the state of the vehicle. may be output from the speakers RL and RR. As a result, excessive reverberation as described above does not occur.

また、例えば出力制御部23は、車両の状態の一例である、車両における窓の開閉状態、エアコンの運転状態、車速などの走行状態の少なくともいずれかに応じて疑似残響音の付加処理を行ってもよい。例えば、後部座席の窓が開放されている状態や、エアコンが比較的強風で運転されている状態、車速が比較的高い走行状態などにおいては、後部座席に比較的大きな騒音が発生する。従って、後部座席の聴取者Lxは、上記したような残響音を感じにくい環境下にあると推定される。そこで、出力制御部23は、上記した窓の開放、エアコンの強風運転、高速走行などが車両の状態として各種センサ60から検出された場合に、残響信号をスピーカRL,RRから出力するようにしてもよい。これにより、聴取者Lxは残響音を感じにくい環境下にあるため、聴取者Lxに対して残響音が過剰になることを抑制することができる。 Further, for example, the output control unit 23 performs processing for adding a pseudo-reverberation sound in accordance with at least one of the conditions of the vehicle, such as an open/closed state of the windows in the vehicle, an operating state of the air conditioner, and a running state such as the vehicle speed. good too. For example, when the windows of the rear seats are open, when the air conditioner is operated with a relatively strong wind, when the vehicle is traveling at a relatively high speed, etc., relatively loud noise is generated in the rear seats. Therefore, it is presumed that the listener Lx in the rear seat is in an environment in which it is difficult for the listener Lx to perceive the above-described reverberant sound. Therefore, the output control unit 23 outputs reverberation signals from the speakers RL and RR when the various sensors 60 detect the state of the vehicle, such as opening the window, operating the air conditioner in a strong wind, or running at high speed. good too. As a result, since the listener Lx is in an environment in which it is difficult for the listener Lx to perceive the reverberant sound, it is possible to suppress excessive reverberant sound for the listener Lx.

なお、上記では、残響信号が、聴取者Lの後方に配置されたスピーカRL,RRから出力されるようにしたが、これに限定されるものではなく、例えば聴取者Lの上方に配置されたスピーカ(図示せず)などその他のスピーカから出力されるように構成してもよい。 In the above description, the reverberation signals are output from the speakers RL and RR arranged behind the listener L, but the present invention is not limited to this. It may be configured to output from another speaker such as a speaker (not shown).

また、出力制御部23は、音像の定位制御などを行うことができる。具体的には、出力制御部23は、分離された音声音源信号による音声の音像A1が所定位置に定位するように、音声音源信号を出力することができる。例えば、図4Cに示すように、出力制御部23は、分離された音声音源信号をスピーカRL,RRから強調して出力することで、音声音源信号による音声(ボーカル)の音像A1を聴取者L側へ変位した位置に定位させることができる。これにより、例えば音声の音像A1と楽器音の音像AL,ARとが重なりにくくすることが可能となり、よって各音像A1,AL,ARに対応する音をそれぞれ明瞭化させることができる。なお、本明細書における「強調」は、例えば各種信号に対応する音を新たに加えて再生したり、再生される音の大きさを増加させたりすることを意味するが、これに限定されるものではない。 In addition, the output control unit 23 can perform localization control of a sound image. Specifically, the output control unit 23 can output the audio source signal so that the sound image A1 of the audio generated by the separated audio source signal is localized at a predetermined position. For example, as shown in FIG. 4C, the output control unit 23 emphasizes and outputs the separated sound source signals from the speakers RL and RR, so that the sound image A1 of the sound (vocal) from the sound source signals is output to the listener L. It can be localized to a position displaced to the side. As a result, for example, the sound image A1 of the voice and the sound images AL and AR of the musical instrument sound can be made difficult to overlap, so that the sounds corresponding to the sound images A1, AL and AR can be clarified. In addition, "emphasis" in this specification means, for example, adding and reproducing sounds corresponding to various signals, or increasing the volume of the reproduced sounds, but is limited to this. not a thing

なお、上記では、所定位置が聴取者L側へ変位した位置となるようにしたが、これに限定されるものではなく、任意の位置に設定可能である。例えば、図示は省略するが、聴取者Lの上方にスピーカが配置され、かかるスピーカから音声音源信号が強調して出力されるようにすることで、音声の音像A1を上方へ変位した位置に定位させるようにしてもよい。これにより、音像A1と音像AL,ARとは、高さ方向にずれることとなるため、例えば音の立体感が増して臨場感を向上させることができる。 In the above description, the predetermined position is displaced toward the listener L side, but the present invention is not limited to this, and can be set to any position. For example, although not shown, a speaker is placed above the listener L, and the sound source signal is emphasized and output from the speaker, thereby localizing the sound image A1 of the sound upward. You can let it run. As a result, the sound image A1 and the sound images AL and AR are displaced in the height direction, so that, for example, the three-dimensional effect of the sound can be increased to improve the sense of reality.

また、出力制御部23は、分離された音声音源信号を、例えばスピーカFL,FRなどから強調して出力してもよい。これにより、直接音に含まれる音声(ボーカル)に、強調された音声音源信号の音声が付加され、よって音声の音像A1をより明瞭化することが可能になる。 Further, the output control unit 23 may emphasize and output the separated sound source signal from the speakers FL, FR, for example. As a result, the voice of the voice source signal emphasized is added to the voice (vocal) included in the direct sound, thereby making it possible to further clarify the sound image A1 of the voice.

また、出力制御部23は、音像の音像幅制御などを行うことができる。具体的には、出力制御部23は、図4Dに示すように、分離されたL成分音源信号を一方のスピーカ(チャンネル)FLから出力し、L成分音源信号による音の音像幅を制御してもよい。例えば、出力制御部23は、分離されたL成分音源信号をスピーカFLから強調して出力する。これにより、直接音に含まれるL成分の例である楽器音(例えばピアノ)に、強調されたL成分音源信号の楽器音が付加され、よって当該楽器音の音像ALの音像幅を左方へ拡大させることが可能になる。 In addition, the output control unit 23 can perform sound image width control of the sound image. Specifically, as shown in FIG. 4D, the output control unit 23 outputs the separated L component sound source signal from one speaker (channel) FL, and controls the sound image width of the L component sound source signal. good too. For example, the output control unit 23 emphasizes and outputs the separated L component sound source signal from the speaker FL. As a result, the instrumental sound (for example, piano), which is an example of the L component included in the direct sound, is added to the instrumental sound of the emphasized L component sound source signal. It is possible to expand.

同様に、出力制御部23は、分離されたR成分音源信号を他方のスピーカ(チャンネル)FRから出力し、R成分音源信号による音の音像幅を制御してもよい。例えば、出力制御部23は、分離されたR成分音源信号をスピーカFRから強調して出力する。これにより、直接音に含まれるR成分の例である楽器音(例えばギター)に、強調されたR成分音源信号の楽器音が付加され、よって当該楽器音の音像ARの音像幅を右方へ拡大させることが可能になる。 Similarly, the output control unit 23 may output the separated R component sound source signal from the other speaker (channel) FR and control the sound image width of the sound by the R component sound source signal. For example, the output control unit 23 emphasizes and outputs the separated R component sound source signal from the speaker FR. As a result, an instrumental sound (for example, a guitar), which is an example of the R component included in the direct sound, is added with the instrumental sound of the enhanced R component sound source signal. It is possible to expand.

また、図4Dに想像線で示すように、出力制御部23は、分離されたL成分音源信号をスピーカRLから出力し、L成分音源信号による音(ここでは楽器音)の音像ALxの音像幅を後方へ拡大させるように制御してもよい。同様に、出力制御部23は、分離されたR成分音源信号をスピーカRRから出力し、R成分音源信号による音(ここでは楽器音)の音像ARxの音像幅を後方へ拡大させるように制御してもよい。これにより、音像ALx,ARxが聴取者Lを包み込むような位置に定位させることが可能になる。 4D, the output control unit 23 outputs the separated L component sound source signal from the speaker RL, and the sound image width ALx of the sound (instrument sound in this case) by the L component sound source signal. may be controlled to expand backward. Similarly, the output control unit 23 outputs the separated R component sound source signal from the speaker RR, and controls to expand the sound image width of the sound image ARx of the sound (instrument sound in this case) caused by the R component sound source signal to the rear. may As a result, the sound images ALx and ARx can be localized at positions where the listener L is wrapped.

ここで、例えば車室内には、走行音やエアコン音などの騒音(走行騒音)が発生する。なお、図4Eの例では、騒音の音像を符号Cで示している。騒音の音像Cは、聴取者L付近に定位することがある。この場合、騒音の音像Cが音声の音像A1や楽器音の音像AL,ARと近接したり、重なったりするため、音声や音楽などに騒音が混ざってしまい、音像A1,AL,ARが不明瞭になるおそれがあった。 Here, for example, noise (running noise) such as running noise and air conditioner noise is generated in the vehicle interior. In addition, in the example of FIG. 4E, the sound image of noise is indicated by symbol C. As shown in FIG. A sound image C of noise may be localized near the listener L in some cases. In this case, since the sound image C of the noise is close to or overlaps with the sound image A1 of the voice and the sound images AL and AR of the musical instrument sounds, the noise is mixed with the voice and music, and the sound images A1, AL and AR are unclear. was likely to become

そこで、例えば出力制御部23は、分離された音声音源信号をスピーカFL,FRから強調して出力したり、スピーカRL,RRから強調して出力されていた音声音源信号を弱めたり、出力禁止したりすることで、音声音源信号による音声の音像A1を騒音の音像Cから離間する方向(例えば前方)へ変位した位置に定位させる(矢印D1参照)。これにより、例えば音声の音像A1と騒音の音像Cとが重なりにくくすることが可能となる、言い換えると音声に騒音が混ざりにくくすることが可能となり、音声の音像A1を明瞭化することができる。 Therefore, for example, the output control unit 23 emphasizes and outputs the separated sound source signals from the speakers FL and FR, weakens the sound source signals that have been emphasized and output from the speakers RL and RR, or prohibits output. By doing so, the sound image A1 of the sound generated by the sound source signal is localized at a position displaced in a direction away from the noise sound image C (for example, forward) (see arrow D1). As a result, for example, the sound image A1 of the sound and the sound image C of the noise can be made difficult to overlap, in other words, it is possible to make it difficult for the noise to mix with the sound, and the sound image A1 of the sound can be clarified.

また、例えば出力制御部23は、分離されたL成分音源信号をスピーカFLから強調して出力したり、スピーカRLから強調して出力されていたL成分音源信号を弱めたり、出力禁止したりする。これにより、出力制御部23は、L成分音源信号の楽器音の音像ALを騒音の音像Cから離間する方向(例えば前方)へ変位した位置に定位させたり(矢印D2a参照)、音像ALの音像幅を左方へ拡大させたりする(矢印D2b参照)。これにより、例えば楽器音の音像ALと騒音の音像Cとが重なりにくくすることが可能となる、言い換えると楽器音に騒音が混ざりにくくすることが可能となり、楽器音の音像ALを明瞭化することができる。 Further, for example, the output control unit 23 emphasizes and outputs the separated L component sound source signal from the speaker FL, weakens the L component sound source signal that has been emphasized and output from the speaker RL, or prohibits output. . As a result, the output control unit 23 localizes the sound image AL of the instrumental sound of the L-component sound source signal to a position displaced in a direction away from the sound image C of the noise (for example, forward) (see arrow D2a). The width is expanded to the left (see arrow D2b). As a result, for example, the sound image AL of the instrumental sound and the sound image C of the noise can be made difficult to overlap, in other words, it is possible to make it difficult for the noise to mix with the instrumental sound, thereby clarifying the sound image AL of the instrumental sound. can be done.

同様に、例えば出力制御部23は、分離されたR成分音源信号をスピーカFRから強調して出力したり、スピーカRRから強調して出力されていたR成分音源信号を弱めたり、出力禁止したりする。これにより、出力制御部23は、R成分音源信号の楽器音の音像ARを騒音の音像Cから離間する方向へ変位した位置に定位させたり(矢印D3a参照)、音像ARの音像幅を右方へ拡大させたりする(矢印D3b参照)。これにより、例えば楽器音の音像ARと騒音の音像Cとが重なりにくくすることが可能となる、言い換えると楽器音に騒音が混ざりにくくすることが可能となり、楽器音の音像ARを明瞭化することができる。 Similarly, for example, the output control unit 23 emphasizes and outputs the separated R component sound source signal from the speaker FR, weakens the R component sound source signal that has been emphasized and output from the speaker RR, or prohibits output. do. As a result, the output control unit 23 localizes the sound image AR of the instrumental sound of the R component sound source signal to a position displaced away from the noise sound image C (see arrow D3a), or shifts the sound image width of the sound image AR to the right. (see arrow D3b). As a result, for example, the sound image AR of the instrumental sound and the sound image C of the noise can be made difficult to overlap, in other words, it is possible to make it difficult for the noise to mix with the instrumental sound, and the sound image AR of the instrumental sound can be clarified. can be done.

なお、出力制御部23は、騒音の音像Cの位置に応じて、音像A1,AL,ARの定位制御や音像幅制御を行ってもよい。すなわち、例えば、騒音の音像Cの位置は、車速などの走行状態、窓の開閉状態、エアコンの運転状態などに応じて変化する。そのため、例えば走行状態や窓の開閉状態、エアコンの運転状態と、騒音の音像Cの位置との相関関係を予め実験等を通じて算出しておき、出力制御部23は、算出された相関関係を示す情報に基づいて、音像A1,AL,ARの定位制御や音像幅制御を行ってもよい。なお、騒音の音像Cの位置は、図示しないマイクなどを用いて集音された音などを解析して検出されるようにしてもよい。 Note that the output control unit 23 may perform localization control and sound image width control of the sound images A1, AL, and AR according to the position of the sound image C of noise. That is, for example, the position of the sound image C of the noise changes according to the running state such as the vehicle speed, the open/closed state of the windows, the operating state of the air conditioner, and the like. Therefore, for example, the correlation between the driving state, the window opening/closing state, the operating state of the air conditioner, and the position of the sound image C of the noise is calculated in advance through experiments or the like, and the output control unit 23 indicates the calculated correlation. Localization control and sound image width control of the sound images A1, AL, and AR may be performed based on the information. The position of the sound image C of the noise may be detected by analyzing the sound collected using a microphone (not shown) or the like.

ここで、例えば車両は、乗員(運転者)の運転操作を要しない自動運転制御によって走行可能に構成される場合がある。このような自動運転制御が実行されているとき、乗員である聴取者Lにおいては運転負荷が軽減されるため、図4Fに示すように、車両の窓や車外に、映像31が映し出されることがある。なお、映像31は、任意の種類の映像に設定可能であるが、ここでは、音源信号に含まれる楽器音に対応する楽器が演奏される映像や音声(ボーカル)を発する歌手などの映像が含まれるものとする。 Here, for example, a vehicle may be configured to be able to run by automatic driving control that does not require driving operation by a passenger (driver). When such automatic driving control is executed, the driving load on the listener L, who is a passenger, is reduced. Therefore, as shown in FIG. be. Note that the video 31 can be set to any type of video, but here includes a video of a musical instrument being played corresponding to the instrumental sound contained in the sound source signal, and a video of a singer emitting voice (vocal). shall be

このように、自動運転制御が実行されて映像31が映し出されている車両状態の場合、出力制御部23は、映像31に応じて音像A1,AL,ARの定位制御や音像幅制御を行ってもよい。例えば、出力制御部23は、分離された音声音源信号をスピーカFL,FRから強調して出力するなどして、音声音源信号による音声の音像A1を映像31と重なるような位置に定位させる。また、例えば、出力制御部23は、分離されたL成分音源信号をスピーカFLやスピーカRLから強調して出力するなどして、L成分音源信号の楽器音の音像ALを映像31と重なるような位置に定位させたり、音像ALの音像幅を制御したりする。同様に、出力制御部23は、分離されたR成分音源信号をスピーカFRやスピーカRRから強調して出力するなどして、R成分音源信号の楽器音の音像ARを映像31と重なるような位置に定位せたり、音像ARの音像幅を制御したりする。これにより、音像A1,AL,ARが歌手や楽器の映像31に重なるため、聴取者Lに対して、映像31に即した音像A1,AL,ARの拡がりを感じさせることが可能になる。 In this way, when the vehicle is in a state where the automatic driving control is executed and the image 31 is displayed, the output control unit 23 performs localization control and sound image width control of the sound images A1, AL, and AR according to the image 31. good too. For example, the output control unit 23 emphasizes and outputs the separated audio source signal from the speakers FL and FR, and localizes the sound image A1 of the audio by the audio source signal to a position overlapping the image 31 . Further, for example, the output control unit 23 emphasizes and outputs the separated L component sound source signal from the speaker FL or the speaker RL, so that the sound image AL of the instrumental sound of the L component sound source signal overlaps with the image 31. It localizes to a position and controls the sound image width of the sound image AL. Similarly, the output control unit 23 emphasizes and outputs the separated R component sound source signal from the speaker FR and the speaker RR, so that the sound image AR of the instrumental sound of the R component sound source signal overlaps with the image 31. or control the sound image width of the sound image AR. As a result, the sound images A1, AL, and AR are superimposed on the image 31 of the singer and the musical instrument, so that the listener L can feel the expansion of the sound images A1, AL, and AR in line with the image 31. FIG.

また、図4Gに示すように、例えば自動運転制御の実行時や駐車時において、乗員である聴取者Lの座席の向きが変えられることがある。このような場合、出力制御部23は、座席の向き(あるいは聴取者Lの顔の向き)などに応じて、音像A1,AL,ARの定位制御や音像幅制御を行ってもよい。例えば、出力制御部23は、分離された音声音源信号を、スピーカFL,FR,RL,RRのうち座席の向きに応じて選択されたスピーカから強調して出力するなどして、音声音源信号による音声の音像A1を聴取者Lの正面方向の位置に定位させる。また、例えば、出力制御部23は、分離されたL成分音源信号を、座席の向きに応じて選択されたスピーカから強調して出力するなどして、L成分音源信号の楽器音の音像ALを聴取者Lの左方向の位置に定位させたり、音像ALの音像幅を制御したりする。同様に、出力制御部23は、分離されたR成分音源信号を、座席の向きに応じて選択されたスピーカから強調して出力するなどして、R成分音源信号の楽器音の音像ARを聴取者Lの右方向の位置に定位させたり、音像ARの音像幅を制御したりする。これにより、音像A1,AL,ARを、座席の向き(言い換えると聴取者Lの向き)などを含む車両の状態に即した位置に定位(配置)することが可能になる。なお、上記した聴取者Lの顔の向きは、図示しない車内カメラなどによって検出されるが、これに限定されるものではない。 Also, as shown in FIG. 4G, for example, when the automatic driving control is executed or when the vehicle is parked, the direction of the seat of the listener L who is a passenger may be changed. In such a case, the output control unit 23 may perform localization control and sound image width control of the sound images A1, AL, and AR according to the orientation of the seat (or the orientation of the face of the listener L). For example, the output control unit 23 emphasizes and outputs the separated audio source signal from a speaker selected according to the orientation of the seat from among the speakers FL, FR, RL, and RR, and outputs the separated audio source signal. The sound image A1 of the voice is localized at a position in front of the listener L. Further, for example, the output control unit 23 emphasizes and outputs the separated L component sound source signal from a speaker selected according to the orientation of the seat, thereby producing a sound image AL of the instrument sound of the L component sound source signal. It localizes the sound to the left of the listener L and controls the sound image width of the sound image AL. Similarly, the output control unit 23 emphasizes and outputs the separated R component sound source signal from a speaker selected according to the orientation of the seat, and listens to the sound image AR of the instrument sound of the R component sound source signal. It localizes the sound to the right of the person L and controls the sound image width of the sound image AR. This makes it possible to localize (arrange) the sound images A1, AL, and AR at positions that match the state of the vehicle including the direction of the seat (in other words, the direction of the listener L). Although the direction of the face of the listener L is detected by an in-vehicle camera (not shown) or the like, it is not limited to this.

また、上記では、座席の向きや聴取者Lの顔の向きなどに応じて、音像A1,AL,ARの定位制御等が行われるようにしたが、これに限られず、例えば聴取者L(乗員)などの指示に応じて定位制御等が行われてもよい。また、定位制御等においては、図4Gに示すように、音像A1,AL,ARと騒音の音像Cとが重ならないようにすることで、音像A1,AL,ARを明瞭化することができる。 In the above description, localization control of the sound images A1, AL, and AR is performed according to the orientation of the seat and the orientation of the listener L's face. ), etc., localization control may be performed. Further, in the localization control, etc., the sound images A1, AL, AR can be clarified by preventing the sound images A1, AL, AR from overlapping with the noise sound image C, as shown in FIG. 4G.

図2の説明を続けると、例えば音源信号に含まれる音声として、ボーカルと、ナビゲーションなどにおける音声案内とが含まれる場合がある。かかる場合、ボーカルに音声案内が重なって、聴取者Lは音声案内を聞き取りにくくなるおそれがある。 Continuing the description of FIG. 2, for example, voices included in the sound source signal may include vocals and voice guidance in navigation and the like. In such a case, the voice guidance may overlap with the vocal, making it difficult for the listener L to hear the voice guidance.

そこで、例えば出力制御部23は、ボーカルを含む音声音源信号が除去された音源信号(除去音源信号)と、音声案内を含む音源信号とをスピーカFL,FRから直接音として出力する。これにより、図示は省略するが、車室内には、楽器音の音像AL,ARと、音声案内の音像とが定位することとなる。そのため、ボーカルに音声案内が重なることがなく、よって聴取者Lは音声案内を容易に聞き取ることが可能になる。また、このときの出力制御部23は、オーディオボリュームを下げずに音声案内を行うことも可能である。 Therefore, for example, the output control unit 23 outputs the sound source signal (removed sound source signal) from which the sound source signal including the vocal is removed and the sound source signal including the voice guidance as direct sounds from the speakers FL and FR. As a result, although not shown, the sound images AL and AR of the musical instrument sounds and the sound image of the voice guidance are localized in the passenger compartment. Therefore, the voice guidance does not overlap the vocal, so that the listener L can easily hear the voice guidance. At this time, the output control unit 23 can also provide voice guidance without lowering the audio volume.

<第1の実施形態に係る音響装置の制御処理>
次に、音響装置1における具体的な処理手順について図5を用いて説明する。図5は、第1の実施形態に係る音響装置1が実行する処理手順を示すフローチャートである。
<Control processing of the audio device according to the first embodiment>
Next, a specific processing procedure in the audio device 1 will be described with reference to FIG. FIG. 5 is a flow chart showing a processing procedure executed by the acoustic device 1 according to the first embodiment.

図5に示すように、音響装置1の制御部2は、音源装置50から音源信号を取得する(ステップS10)。次いで、制御部2は、音源信号から、音声音源信号、L成分音源信号、R成分音源信号および残響音成分音源信号を分離する(ステップS11)。 As shown in FIG. 5, the control unit 2 of the acoustic device 1 acquires a sound source signal from the sound source device 50 (step S10). Next, the control unit 2 separates the speech sound source signal, the L component sound source signal, the R component sound source signal, and the reverberant sound component sound source signal from the sound source signal (step S11).

次いで、制御部2は、音源信号から音声音源信号を除去し、音声音源信号が除去された音源信号、および、残響音成分音源信号にそれぞれフィルタ23aを適用して残響音信号を生成する(ステップS12)。 Next, the control unit 2 removes the sound source signal from the sound source signal, applies the filter 23a to the sound source signal from which the sound source signal has been removed, and the reverberant sound component sound source signal, respectively, to generate a reverberation sound signal (step S12).

次いで、制御部2は、音源信号、分離された音声音源信号、L成分音源信号およびR成分音源信号、生成された残響音信号をそれぞれ出力制御する(ステップS13)。 Next, the control unit 2 controls output of the sound source signal, the separated sound source signal, the L component sound source signal, the R component sound source signal, and the generated reverberation sound signal (step S13).

上述してきたように、第1の実施形態に係る音響装置1は、分離部22と、出力制御部23とを備える。分離部22は、音源信号から疑似的な疑似残響音の付加処理が不要な所定音源信号(音声音源信号)を分離し、分離された所定音源信号を音源信号から除去する。出力制御部23は、分離部22によって所定音源信号が除去された音源信号に対し、疑似残響音を生成するためのフィルタ23aを適用して出力する。これにより、音源信号に応じた適切なサラウンド再生を行うことができる。 As described above, the acoustic device 1 according to the first embodiment includes the separator 22 and the output controller 23 . The separation unit 22 separates a predetermined sound source signal (speech sound source signal) that does not require processing to add a pseudo pseudo-reverberation sound from the sound source signal, and removes the separated predetermined sound source signal from the sound source signal. The output control unit 23 applies a filter 23a for generating a pseudo-reverberation sound to the sound source signal from which the predetermined sound source signal has been removed by the separation unit 22, and outputs the result. As a result, appropriate surround reproduction can be performed according to the sound source signal.

また、分離部22においては、時間周波数解析を用いるようにしたため、比較的低演算量で、音声音源信号などの各種音源信号を分離することが可能になる。また、本実施形態においては、分離された音声音源信号などの各種音源信号ごとに、音像定位制御や音像幅制御、包まれ感LEVの最適化などを行うようにしたので、スピーカFL,FR,RL,RRから再生される音について総合的な空間印象を向上させることができる。 In addition, since the separation unit 22 uses time-frequency analysis, it is possible to separate various sound source signals such as speech sound source signals with a relatively low amount of calculation. In addition, in the present embodiment, sound image localization control, sound image width control, optimization of feeling of envelopment LEV, etc. are performed for each of various sound source signals such as separated sound source signals. It is possible to improve the overall spatial impression of the sounds reproduced from RL and RR.

また、本実施形態にあっては、音源信号から音声音源信号などの各種音源信号を分離する処理と、フィルタ23aとを併用するようにした。これにより、例えばフィルタ23aのみを用いる場合に比べ、フィルタ23aのフィルタ長を短くすることができ、よって制御部2における演算量をよって減少させることが可能になる。 Further, in this embodiment, the filter 23a is used in combination with the process of separating various sound source signals such as the voice sound source signal from the sound source signal. As a result, the filter length of the filter 23a can be shortened compared to the case where only the filter 23a is used, for example, so that the amount of calculation in the control section 2 can be reduced.

また、例えば音源信号に継続時間の短い打楽器などの楽器音が含まれると、周波数特性において、所定の周波数付近でレベルが突出する卓越成分が存在することがある。かかる卓越成分が存在すると、サラウンド再生したときに疑似残響音を含む残響音が過剰になりやすい。また、高周波数ほど残響音が分離しやすく、残響音が過剰になりやすい。そこで、例えば制御部2は、高周波数ほど直線的または滑らかに減衰するような周波数特性にする処理を行うことで、上記した卓越成分の影響を低減させることができ、よって継続時間の短い打楽器の楽器音を含むような音源信号であっても、残響音が過剰になることを抑制することが可能になる。 Further, for example, if the sound source signal contains an instrumental sound such as a percussion instrument with a short duration, the frequency characteristics may include a dominant component whose level protrudes near a predetermined frequency. If such a dominant component exists, the reverberant sound including the pseudo-reverberant sound tends to be excessive during surround reproduction. Also, the higher the frequency, the easier it is for the reverberant sound to separate, and the reverberant sound tends to be excessive. Therefore, for example, the control unit 2 can reduce the influence of the above-described dominant component by performing processing to make the frequency characteristic such that the higher the frequency is linearly or smoothly attenuated. Even with a sound source signal that includes instrumental sounds, excessive reverberation can be suppressed.

また、制御部2は、例えば各スピーカFR,FL,RL,RR(サラウンドチャンネル)に残響信号を出力する際、ランダム的な遅延を入れたり、フィルタ23aの立上りなどの時間特性にランダム性を持たせたりして、相互相関が低くなるようにしてもよい。これにより、聴取者Lは、疑似残響音をより自然な残響音として感じることが可能になる。 In addition, when outputting reverberation signals to the speakers FR, FL, RL, and RR (surround channels), the control unit 2 adds a random delay, or controls the time characteristics such as the rising edge of the filter 23a to have randomness. The cross-correlation may be lowered. This allows the listener L to perceive the pseudo-reverberant sound as more natural reverberant sound.

(第2の実施形態)
<第2の実施形態に係る音響装置の構成>
次いで、第2の実施形態に係る音響装置1の構成について図6を参照しつつ説明する。図6は、第2の実施形態に係る音響装置1を備えた音響システム100の構成例を示すブロック図である。なお、以下においては、第1の実施形態と共通の構成については、同一の符号を付して説明を省略する。
(Second embodiment)
<Structure of Acoustic Device According to Second Embodiment>
Next, the configuration of the acoustic device 1 according to the second embodiment will be described with reference to FIG. FIG. 6 is a block diagram showing a configuration example of an audio system 100 including the audio device 1 according to the second embodiment. In addition, below, about the structure common to 1st Embodiment, the same code|symbol is attached|subjected and description is abbreviate|omitted.

第2の実施形態に係る音響装置1の制御部2は、疑似残響音を生成するフィルタ23aのゲインを設定するフィルタ設定部24を備える。第2の実施形態では、フィルタ設定部24により、フィルタ23aのゲインを音源(楽器や音声)毎に変えることで、1曲の音源信号においてより自然な疑似残響音を出力することがきる。具体的には、第2の実施形態において、フィルタ設定部24は、音源信号に含まれる音源毎の特徴に基づいて音源毎にゲインが最適化されたフィルタに設定することで、高音質なサラウンド再生を実現することができる。 The control unit 2 of the acoustic device 1 according to the second embodiment includes a filter setting unit 24 that sets the gain of the filter 23a that generates the pseudo reverberation sound. In the second embodiment, the filter setting unit 24 changes the gain of the filter 23a for each sound source (instrument or voice), thereby outputting a more natural pseudo-reverberation sound in the sound source signal of one piece of music. Specifically, in the second embodiment, the filter setting unit 24 sets a filter whose gain is optimized for each sound source based on the characteristics of each sound source included in the sound source signal, thereby achieving high-quality surround sound. Regeneration can be realized.

以下、具体的に説明すると、制御部2の取得部21は、音源信号に関する音源情報を取得する。音源情報は、例えば、音源信号の種別(ジャンル)や、録音環境に関する情報であるが、これに限定されるものではない。なお、音源信号の種別は、例えば、音声や楽器(打楽器や管楽器等)、クラシック音楽等である。録音環境は、例えば、レコーディングスタジオやコンサートホール等の録音した場所の情報である。 Specifically, the acquisition unit 21 of the control unit 2 acquires sound source information about the sound source signal. The sound source information is, for example, the type (genre) of the sound source signal and information about the recording environment, but is not limited to this. The types of sound source signals are, for example, voice, musical instruments (percussion instruments, wind instruments, etc.), classical music, and the like. The recording environment is, for example, information about the recording location such as a recording studio or a concert hall.

取得部21は、例えば、聴取者L等のユーザによる入力により音源情報を取得したり、インターネットを介してサーバ等から音源情報を取得したりする。また、取得部21は、取得した音源信号を解析して音源情報を取得してもよい。取得部21は、取得された音源情報をフィルタ設定部24へ出力する。 For example, the acquisition unit 21 acquires sound source information through input by a user such as the listener L, or acquires sound source information from a server or the like via the Internet. Further, the acquisition unit 21 may acquire sound source information by analyzing the acquired sound source signal. The acquisition unit 21 outputs the acquired sound source information to the filter setting unit 24 .

フィルタ設定部24は、検出部24aと、決定部24bとを備える。検出部24aは、音源信号に基づいて、音源信号に含まれる音響成分の特徴である特徴情報を検出する。 The filter setting unit 24 includes a detection unit 24a and a determination unit 24b. Based on the sound source signal, the detection unit 24a detects feature information that is a feature of an acoustic component included in the sound source signal.

例えば、検出部24aは、音響成分の特徴に関する特徴情報として、2つのチャンネルそれぞれで再生される音源信号の関係性に関するチャンネル関係情報を検出する。具体的には、チャンネル関係情報は、LRチャンネル差やLRチャンネル相関の情報を含む。 For example, the detection unit 24a detects channel relationship information relating to the relationship between the sound source signals reproduced on each of the two channels as the feature information relating to the features of the acoustic component. Specifically, the channel-related information includes LR channel difference and LR channel correlation information.

LRチャンネル差とは、上記したチャンネル間レベル差(ICLD)や、チャンネル間時間差(Inter-channel Time Difference)であるが、これらに限定されるものではない。LRチャンネル相関とは、2つのチャンネルでステレオ再生される2つの音源信号の相関成分に関する情報である。具体的には、LRチャンネル相関は、チャンネル間の相互相関(ICC:Inter-channel Cross Correlation)であるが、これに限定されるものではない。 The LR channel difference is the above-described inter-channel level difference (ICLD) or inter-channel time difference (Inter-channel Time Difference), but is not limited to these. LR channel correlation is information about correlation components of two sound source signals that are stereo-reproduced in two channels. Specifically, the LR channel correlation is inter-channel cross correlation (ICC), but is not limited to this.

このように、検出部24aは、特徴情報として、チャンネル関係情報を検出することで、音響成分を高精度に検出することができるため、出力制御部23におけるフィルタ処理により最適な疑似残響音を生成することができる。 In this way, the detection unit 24a can detect the acoustic component with high accuracy by detecting the channel-related information as the feature information, so that the output control unit 23 performs filtering to generate an optimal pseudo-reverberation sound. can do.

そして、検出部24aは、チャンネル関係情報を一定間隔で連続して検出して時系列に並べ、検出した時系列のチャンネル関係情報について移動平均を算出することで、かかる移動平均を特徴情報として検出する。これにより、チャンネル関係情報の急峻な変化を平滑化できるため、後段の決定部24bによって決定されるゲインの急峻な変化を平滑化できる。この結果、出力制御部23によって生成される疑似残響音の変化を滑らかにすることができるため、より自然なサラウンド再生を実現できる。 Then, the detection unit 24a continuously detects the channel-related information at regular intervals, arranges them in time series, and calculates a moving average of the detected time-series channel-related information, thereby detecting the moving average as feature information. do. As a result, a sharp change in the channel-related information can be smoothed, and a sharp change in the gain determined by the determination unit 24b in the subsequent stage can be smoothed. As a result, changes in the pseudo reverberation generated by the output control unit 23 can be smoothed, so that more natural surround reproduction can be achieved.

なお、検出部24aは、時系列のチャンネル関係情報のうち、音源信号の音圧レベル(振幅)が所定値未満の区間についてはチャンネル関係情報を最大化した後移動平均する。つまり、検出部24aは、時系列のチャンネル関係情報のうち、音源信号の音圧レベルが所定値未満の区間はサラウンドを出さず所定値未満の区間周辺はサラウンドを出さない方向へ制御するよう移動平均を算出する。 Note that the detection unit 24a maximizes the channel-related information in the time-series channel-related information, and then performs moving average for the interval in which the sound pressure level (amplitude) of the sound source signal is less than a predetermined value. In other words, the detecting unit 24a moves so as not to output surround sound in the section where the sound pressure level of the sound source signal is less than a predetermined value in the time-series channel-related information, and to control in a direction not to output surround sound around the section in which the sound pressure level is less than the predetermined value. Calculate the average.

これにより、打楽器のソロ演奏のように打点間に無音が存在するような場合に第一波面の法則が成立する上限が低くなるため、打楽器に対しフィルタゲインを下げて適したサラウンドレベルへ制御される。 This lowers the upper limit at which the law of the first wave front holds when there is silence between strikes, such as when performing a solo percussion instrument. be.

また、検出部24aは、音響成分の継続時間や周波数に関する情報を特徴情報として検出する。継続時間とは、音源信号が継続する時間である。具体的には、検出部24aは、音源信号の包絡線を算出し、算出した包絡線を微分後、再度包絡線を算出し、得られた包絡線の傾きから継続時間を検出する。周波数とは、音源信号の周波数成分に関する情報である。具体的には、検出部24aは、音源信号に対して短時間フーリエ変換した音源データにおいて、音源信号の周波数の重心を検出する。 The detection unit 24a also detects information about the duration and frequency of the acoustic component as feature information. Duration time is the duration of the sound source signal. Specifically, the detection unit 24a calculates the envelope of the sound source signal, differentiates the calculated envelope, calculates the envelope again, and detects the duration from the slope of the obtained envelope. Frequency is information about the frequency component of the sound source signal. Specifically, the detection unit 24a detects the center of gravity of the frequency of the sound source signal in the sound source data obtained by performing a short-time Fourier transform on the sound source signal.

このように、検出部24aは、特徴情報として、継続時間や周波数の情報を検出することで、音響成分を高精度に検出することができるため、後段の出力制御部23におけるフィルタ処理により最適な疑似残響音を生成することができる。 In this way, the detection unit 24a can detect the acoustic component with high accuracy by detecting the duration time and frequency information as the characteristic information. A pseudo-reverberant sound can be generated.

決定部24bは、出力制御部23が用いるフィルタ23aのゲインを決定する。具体的には、決定部24bは、検出部24aが検出した特徴情報および取得部21によって取得された音源情報の少なくとも一方に基づいて、フィルタ23aのゲインを決定する。 The determination unit 24b determines the gain of the filter 23a used by the output control unit 23. FIG. Specifically, the determination unit 24b determines the gain of the filter 23a based on at least one of the feature information detected by the detection unit 24a and the sound source information acquired by the acquisition unit 21. FIG.

具体的には、決定部24bは、特徴情報および音源情報の少なくとも一方に基づいて、第1波面の法則から求めた閾値範囲を補正し、補正後の閾値範囲に基づいてゲインを決定する。ここで、第1波面の法則を元にしたゲインの決定処理について図7を用いて説明する。 Specifically, the determination unit 24b corrects the threshold range obtained from the first wavefront law based on at least one of the feature information and the sound source information, and determines the gain based on the corrected threshold range. Here, gain determination processing based on the law of the first wavefront will be described with reference to FIG.

図7は、決定部24bによるゲインの決定処理を説明する図である。図7に示すように、決定部24bは、まず、第1波面の法則から求めた閾値範囲を特徴情報(チャンネル関係情報、継続時間および周波数)および音源情報に基づいて補正する。 FIG. 7 is a diagram illustrating gain determination processing by the determination unit 24b. As shown in FIG. 7, the determining unit 24b first corrects the threshold range obtained from the first wavefront law based on feature information (channel related information, duration and frequency) and sound source information.

例えば、図7の中段のグラフに示す閾値範囲である領域R1および領域R2を基準範囲とする。かかる場合、決定部24bは、特徴情報および音源情報に基づいて、閾値TH1および閾値TH2を時間および振幅の2軸で補正することで、領域R1および領域R2を補正する。 For example, regions R1 and R2, which are threshold ranges shown in the middle graph of FIG. 7, are set as reference ranges. In such a case, the determination unit 24b corrects the regions R1 and R2 by correcting the threshold TH1 and the threshold TH2 on the two axes of time and amplitude based on the feature information and the sound source information.

例えば、決定部24bは、チャンネル関係情報が大きい程、閾値TH1および閾値TH2を時間および振幅が大きくなる方向に補正する。つまり、決定部24bは、チャンネル関係情報が大きい程、領域R1および領域R2が大きくなるように補正する。 For example, the determination unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and amplitude increase as the channel-related information increases. That is, the determination unit 24b corrects the area R1 and the area R2 so that the larger the channel-related information, the larger the area R1 and the area R2.

一方、決定部24bは、チャンネル関係情報が小さい程、閾値TH1および閾値TH2を時間および振幅が小さくなる方向に補正する。つまり、決定部24bは、チャンネル関係情報が小さい程、領域R1および領域R2が小さくなるように補正する。 On the other hand, the determining unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude become smaller as the channel-related information becomes smaller. That is, the determining unit 24b corrects the area R1 and the area R2 so that the smaller the channel-related information, the smaller the area R1 and the area R2.

なお、チャンネル関係情報であるチャンネル間レベル差が大きい程、または、チャンネル間時間差が大きい程、相互相関が低い程(無相関成分が多い程)、チャンネル関係情報が大きくなる。 The channel-related information increases as the inter-channel level difference, which is the channel-related information, increases, as the inter-channel time difference increases, or as the cross-correlation decreases (the number of uncorrelated components increases).

また、決定部24bは、音響成分の継続時間が長い程、閾値TH1および閾値TH2を時間および振幅が大きくなる方向に補正する。つまり、決定部24bは、音響成分の継続時間が長い程、領域R1および領域R2が大きくなるように補正する。 Further, the determining unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude increase as the duration of the acoustic component increases. In other words, the determination unit 24b corrects the region R1 and the region R2 so that the longer the duration of the acoustic component, the larger the region R1 and the region R2.

一方、決定部24bは、音響成分の継続時間が短い程、閾値TH1および閾値TH2を時間および振幅が小さくなる方向に補正する。つまり、決定部24bは、音響成分の継続時間が短い程、領域R1および領域R2が小さくなるように補正する。 On the other hand, the determining unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude become smaller as the duration of the acoustic component becomes shorter. In other words, the determining unit 24b corrects the area R1 and the area R2 so that the shorter the duration of the acoustic component, the smaller the area R1 and the area R2.

また、決定部24bは、音響成分の周波数(重心)が低い程、閾値TH1および閾値TH2を時間および振幅が大きくなる方向に補正する。つまり、決定部24bは、音響成分の周波数(重心)が低い程、領域R1および領域R2が大きくなるように補正する。 Further, the determination unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude increase as the frequency (center of gravity) of the acoustic component decreases. In other words, the determining unit 24b corrects the area R1 and the area R2 so that the lower the frequency (center of gravity) of the acoustic component is, the larger the area R1 and the area R2 are.

一方、決定部24bは、音響成分の周波数(重心)が高い程、閾値TH1および閾値TH2を時間および振幅が小さくなる方向に補正する。つまり、決定部24bは、音響成分の周波数(重心)が高い程、領域R1および領域R2が小さくなるように補正する。 On the other hand, the determining unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude decrease as the frequency (center of gravity) of the acoustic component increases. In other words, the determining unit 24b corrects the region R1 and the region R2 so that the higher the frequency (center of gravity) of the acoustic component, the smaller the region R1 and the region R2.

また、決定部24bは、音源情報から音源信号がクラシックである場合には、閾値TH1および閾値TH2を時間および振幅が大きくなる方向に補正する。つまり、決定部24bは、音源信号がクラシックである場合には、領域R1および領域R2が大きくなるように補正する。 Further, when the sound source information indicates that the sound source signal is classical music, the determination unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude increase. That is, when the sound source signal is classical music, the determination unit 24b corrects the area R1 and the area R2 to be larger.

一方、決定部24bは、音源情報から音源信号が音声である場合には、閾値TH1および閾値TH2を時間および振幅が小さくなる方向に補正する。つまり、決定部24bは、音源信号が音声である場合には、領域R1および領域R2が小さくなるように補正する。 On the other hand, when the sound source information indicates that the sound source signal is voice, the determination unit 24b corrects the threshold TH1 and the threshold TH2 so that the time and the amplitude become smaller. In other words, when the sound source signal is voice, the determining unit 24b corrects the area R1 and the area R2 to be smaller.

そして、決定部24bは、補正後の閾値範囲に基づいて、後段の出力制御部23で用いられるフィルタ23aのゲインを決定する。具体的には、決定部24bは、フィルタ23aにより生成される疑似残響音が補正後の閾値範囲に収まるようにゲインを決定する。 Then, the determination unit 24b determines the gain of the filter 23a used in the subsequent output control unit 23 based on the corrected threshold range. Specifically, the determination unit 24b determines the gain so that the pseudo reverberation generated by the filter 23a falls within the corrected threshold range.

つまり、決定部24bは、領域R1および領域R2が大きくなるように補正された場合には、疑似残響音の時間および振幅が大きくなるようにゲインを決定する。一方、決定部24bは、領域R1および領域R2が小さくなるように補正された場合には、疑似残響音の時間および振幅が小さくなるようにゲインを決定する。 In other words, the determination unit 24b determines the gain so that the duration and amplitude of the pseudo-reverberation sound are increased when the region R1 and the region R2 are corrected to be increased. On the other hand, the determining unit 24b determines the gain so that the time and amplitude of the pseudo-reverberant sound are reduced when the region R1 and the region R2 are corrected to be smaller.

このように、決定部24bは、特徴情報および音源情報に基づいて補正した第1波面の法則の閾値範囲からゲインを決定することで、最適な疑似残響音を生成するためのゲインを決定することができる。 In this way, the determination unit 24b determines the gain from the threshold range of the first wavefront law corrected based on the feature information and the sound source information, thereby determining the gain for generating the optimum pseudo-reverberation sound. can be done.

そして、出力制御部23は、決定部24bによって決定されたゲインが設定されたフィルタ23aを用いて、疑似残響音を示す残響信号を生成して出力する。 Then, the output control unit 23 uses the filter 23a to which the gain determined by the determination unit 24b is set to generate and output a reverberation signal representing a pseudo-reverberation sound.

これにより、第2の実施形態においては、例えば音声や、打楽器、クラシック音楽等のように、音源の残響音の特徴が異なる場合であっても、音源毎に最適な疑似残響音を生成でき、音源の特徴に応じて最適なサラウンド再生が可能となる。すなわち、第2の実施形態にあっては、高音質なサラウンド再生を行うことができる。 As a result, in the second embodiment, even when the characteristics of the reverberant sound of the sound source are different, such as voice, percussion instruments, classical music, etc., it is possible to generate the optimum pseudo-reverberant sound for each sound source, Optimal surround reproduction is possible according to the characteristics of the sound source. That is, in the second embodiment, surround reproduction with high sound quality can be performed.

<第2の実施形態に係る音響装置の制御処理>
次に、第2の実施形態に係る音響装置1における具体的な処理手順について図8を用いて説明する。図8は、第2の実施形態に係る音響装置1が実行する処理手順を示すフローチャートである。
<Control processing of the audio device according to the second embodiment>
Next, a specific processing procedure in the acoustic device 1 according to the second embodiment will be described using FIG. FIG. 8 is a flow chart showing a processing procedure executed by the audio device 1 according to the second embodiment.

図8に示すように、音響装置1の制御部2は、ステップS10,S11において、第1の実施形態と同様の処理を行う。次いで、制御部2は、音源信号に関する音源情報を取得する(ステップS11a)。 As shown in FIG. 8, the control unit 2 of the audio device 1 performs the same processing as in the first embodiment in steps S10 and S11. Next, the control unit 2 acquires sound source information regarding the sound source signal (step S11a).

次いで、制御部2は、取得された音源信号および音源情報に基づいて、音源信号に含まれる音響成分の特徴である特徴情報を検出する(ステップS11b)。次いで、制御部2は、検出された特徴情報に基づいて、第1波面の法則における閾値範囲を決定する(ステップS11c)。 Next, based on the acquired sound source signal and sound source information, the control unit 2 detects feature information that is a feature of the acoustic component included in the sound source signal (step S11b). Next, the control unit 2 determines the threshold range in the first wavefront law based on the detected feature information (step S11c).

次いで、制御部2は、決定した閾値範囲に基づいて、疑似残響音が閾値範囲に収まるようフィルタ23aのゲインを決定する(ステップS11d)。そして、制御部2は、ゲインが決定して設定されたフィルタ23aを用いて、ステップS12以降の処理を実行する。 Next, based on the determined threshold range, the control unit 2 determines the gain of the filter 23a so that the pseudo-reverberation sound falls within the threshold range (step S11d). Then, the control unit 2 executes the processing from step S12 onward using the filter 23a whose gain has been determined and set.

なお、上記では、音源信号から音声音源信号を除去する処理の際、Lch用音源信号およびRch用音源信号に対して時間周波数解析が行われるようにしたが、これに限定されるものではない。すなわち、時間周波数解析を行わず、Lch用音源信号とRch用音源信号との差や比、LRチャンネル相関などを用いて、音源信号から音声音源信号を除去する処理が行われてもよく、これにより低演算化を図るようにしてもよい。 In the above description, time-frequency analysis is performed on the Lch excitation signal and the Rch excitation signal in the process of removing the audio excitation signal from the excitation signal, but the present invention is not limited to this. That is, without performing time-frequency analysis, processing for removing the audio source signal from the source signal may be performed using the difference or ratio between the Lch source signal and the Rch source signal, the LR channel correlation, or the like. You may try to reduce the calculation by

さらなる効果や変形例は、当業者によって容易に導き出すことができる。このため、本発明のより広範な態様は、以上のように表しかつ記述した特定の詳細および代表的な実施形態に限定されるものではない。したがって、添付の特許請求の範囲およびその均等物によって定義される総括的な発明の概念の精神または範囲から逸脱することなく、様々な変更が可能である。 Further effects and modifications can be easily derived by those skilled in the art. Therefore, the broader aspects of the invention are not limited to the specific details and representative embodiments so shown and described. Accordingly, various changes may be made without departing from the spirit or scope of the general inventive concept defined by the appended claims and equivalents thereof.

1 音響装置
2 制御部
22 分離部
23 出力制御部
24a 検出部
24b 決定部
1 acoustic device 2 control unit 22 separation unit 23 output control unit 24a detection unit 24b determination unit

Claims (10)

音源信号から疑似的な疑似残響音の付加処理が不要な所定音源信号を分離し、分離された前記所定音源信号を前記音源信号から除去する分離部と、
前記分離部によって前記所定音源信号が除去された前記音源信号に対し、前記疑似残響音を生成するためのフィルタを適用して出力する出力制御部と
を備えることを特徴とする音響装置。
a separation unit that separates a predetermined sound source signal that does not require processing for adding a pseudo-pseudo reverberation sound from a sound source signal, and removes the separated predetermined sound source signal from the sound source signal;
an output control unit that applies a filter for generating the pseudo-reverberation sound to the sound source signal from which the predetermined sound source signal has been removed by the separation unit, and outputs the sound device.
前記出力制御部は、
前記分離部によって分離された前記所定音源信号による音の音像が所定位置に定位するように、前記所定音源信号を出力すること
を特徴とする請求項1に記載の音響装置。
The output control unit is
2. The acoustic apparatus according to claim 1, wherein the predetermined sound source signal is output such that a sound image of the sound generated by the predetermined sound source signal separated by the separation unit is localized at a predetermined position.
前記出力制御部は、
前記所定音源信号が除去された前記音源信号、および、前記所定音源信号に対して前記フィルタを適用し、前記所定音源信号が除去された前記音源信号に対応する前記疑似残響音の残響レベルが、前記所定音源信号に対応する前記疑似残響音の残響レベルより高くなるようにして出力すること
を特徴とする請求項1または2に記載の音響装置。
The output control unit is
the sound source signal from which the predetermined sound source signal has been removed, and the reverberation level of the pseudo-reverberation sound corresponding to the sound source signal from which the predetermined sound source signal has been removed by applying the filter to the predetermined sound source signal, 3. The acoustic apparatus according to claim 1, wherein the reverberation level of the pseudo-reverberation sound corresponding to the predetermined sound source signal is higher than that of the pseudo-reverberation sound.
前記分離部は、
前記音源信号に対して時間周波数解析を行って前記所定音源信号の分離を行うこと
を特徴とする請求項1~3のいずれか1つに記載の音響装置。
The separation unit is
The acoustic device according to any one of claims 1 to 3, wherein time-frequency analysis is performed on the sound source signal to separate the predetermined sound source signal.
前記音源信号は、
2つのチャンネルでステレオ再生されるステレオ信号であり、
前記分離部は、
2つの前記チャンネルでそれぞれ再生される前記音源信号間の差を示す差分情報を算出し、算出された前記差分情報に基づいて前記所定音源信号の分離を行うこと
を特徴とする請求項1~4のいずれか1つに記載の音響装置。
The sound source signal is
A stereo signal reproduced in stereo on two channels,
The separation unit is
Difference information indicating a difference between the sound source signals respectively reproduced by the two channels is calculated, and the predetermined sound source signal is separated based on the calculated difference information. Acoustic device according to any one of.
前記音源信号は、
2つのチャンネルでステレオ再生されるステレオ信号であり、
前記分離部は、
前記音源信号から、2つの前記チャンネルのうち一方の前記チャンネルで再生される音の成分を含む第1音源信号と、他方の前記チャンネルで再生される音の成分を含む第2音源信号とを分離し、
前記出力制御部は、
前記分離部によって分離された前記第1音源信号を一方の前記チャンネルから出力して前記第1音源信号による音の音像幅を制御し、前記第2音源信号を他方の前記チャンネルから出力して前記第2音源信号による音の音像幅を制御すること
を特徴とする請求項1~5のいずれか1つに記載の音響装置。
The sound source signal is
A stereo signal reproduced in stereo on two channels,
The separation unit is
Separating from the sound source signal a first sound source signal containing sound components reproduced in one of the two channels and a second sound source signal containing sound components reproduced in the other channel death,
The output control unit is
The first sound source signal separated by the separation unit is output from one of the channels to control the sound image width of the sound by the first sound source signal, and the second sound source signal is output from the other channel to control the The acoustic device according to any one of claims 1 to 5, wherein the sound image width of the sound by the second sound source signal is controlled.
前記音源信号に基づいて、前記音源信号に含まれる音響成分の特徴を示す特徴情報を検出する検出部と、
前記検出部によって検出された前記特徴情報に基づいて前記フィルタのゲインを決定する決定部と
をさらに備え、
前記出力制御部は、
前記決定部によって決定された前記ゲインが設定された前記フィルタを用いて、前記疑似残響音を示す残響信号を生成して出力すること
を特徴とする請求項1~6のいずれか1つに記載の音響装置。
a detection unit that detects feature information indicating features of acoustic components included in the sound source signal based on the sound source signal;
a determination unit that determines a gain of the filter based on the feature information detected by the detection unit;
The output control unit is
The filter according to any one of claims 1 to 6, wherein the filter to which the gain determined by the determination unit is set is used to generate and output a reverberation signal representing the pseudo reverberation sound. sound equipment.
車両の状態を取得する取得部
をさらに備え、
前記出力制御部は、
前記取得部によって取得された前記車両の状態に応じて、前記所定音源信号が除去された前記音源信号に対して前記フィルタを適用し、聴取者の後方および上方の少なくともいずれかに配置されるチャンネルから出力すること
を特徴とする請求項1~7のいずれか1つに記載の音響装置。
further comprising an acquisition unit that acquires the state of the vehicle,
The output control unit is
A channel arranged at least either behind or above a listener by applying the filter to the sound source signal from which the predetermined sound source signal has been removed according to the state of the vehicle acquired by the acquisition unit. 8. The acoustic device according to any one of claims 1 to 7, wherein the output is from.
前記所定音源信号は、音声成分を含むこと
を特徴とする請求項1~8のいずれか1つに記載の音響装置。
The acoustic device according to any one of claims 1 to 8, wherein the predetermined sound source signal includes a voice component.
音源信号から疑似的な疑似残響音の付加処理が不要な所定音源信号を分離し、分離された前記所定音源信号を前記音源信号から除去する分離工程と、
前記分離工程によって前記所定音源信号が除去された前記音源信号に対し、前記疑似残響音を生成するためのフィルタを適用して出力する出力制御工程と
を含むことを特徴とする音響制御方法。
a separation step of separating a predetermined sound source signal that does not require processing for adding a pseudo-pseudo reverberation sound from a sound source signal, and removing the separated predetermined sound source signal from the sound source signal;
and an output control step of applying a filter for generating the pseudo-reverberation sound to the sound source signal from which the predetermined sound source signal has been removed by the separating step, and outputting the sound control method.
JP2021115945A 2021-07-13 2021-07-13 Acoustic device and acoustic control method Pending JP2023012347A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021115945A JP2023012347A (en) 2021-07-13 2021-07-13 Acoustic device and acoustic control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021115945A JP2023012347A (en) 2021-07-13 2021-07-13 Acoustic device and acoustic control method

Publications (1)

Publication Number Publication Date
JP2023012347A true JP2023012347A (en) 2023-01-25

Family

ID=85381717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021115945A Pending JP2023012347A (en) 2021-07-13 2021-07-13 Acoustic device and acoustic control method

Country Status (1)

Country Link
JP (1) JP2023012347A (en)

Similar Documents

Publication Publication Date Title
JP5149968B2 (en) Apparatus and method for generating a multi-channel signal including speech signal processing
JP5957446B2 (en) Sound processing system and method
US9264834B2 (en) System for modifying an acoustic space with audio source content
KR101989062B1 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
KR101532505B1 (en) Apparatus and method for generating an output signal employing a decomposer
EP1571884A2 (en) Sound reproducing method and apparatus
JP2001069597A (en) Voice-processing method and device
EP2252083B1 (en) Signal processing apparatus
KR100630826B1 (en) Symmetric acoustic system and control method thereof of vehicle
JP2002051392A (en) In-vehicle conversation assisting device
CN116074728A (en) Method for audio processing
JP4130779B2 (en) Sound field control system and sound field control method
JP2001296894A (en) Voice processor and voice processing method
JP2023012347A (en) Acoustic device and acoustic control method
JP2002247699A (en) Stereophonic signal processing method and device, and program and recording medium
JP3560087B2 (en) Sound signal processing device and surround reproduction method
JP7195100B2 (en) Acoustic device and sound field control method
JP7487060B2 (en) Audio device and audio control method
JP4943098B2 (en) Sound reproduction system and sound reproduction method
KR101745019B1 (en) Audio system and method for controlling the same
JP2009027331A (en) Sound field reproduction system
JP2022102805A (en) Acoustic device and acoustic control method
JP2009237048A (en) Audio signal interpolation device
KR20200128671A (en) Audio signal processor, systems and methods for distributing a peripheral signal to a plurality of peripheral signal channels
JPH08331699A (en) Method and device for conversion to pseuro stereophonic form

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240227