JP2019066601A - Acoustic processing device, program and method - Google Patents

Acoustic processing device, program and method Download PDF

Info

Publication number
JP2019066601A
JP2019066601A JP2017190242A JP2017190242A JP2019066601A JP 2019066601 A JP2019066601 A JP 2019066601A JP 2017190242 A JP2017190242 A JP 2017190242A JP 2017190242 A JP2017190242 A JP 2017190242A JP 2019066601 A JP2019066601 A JP 2019066601A
Authority
JP
Japan
Prior art keywords
sound
masking
acoustic signal
speaker
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017190242A
Other languages
Japanese (ja)
Other versions
JP6972858B2 (en
Inventor
一浩 片桐
Kazuhiro Katagiri
一浩 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017190242A priority Critical patent/JP6972858B2/en
Publication of JP2019066601A publication Critical patent/JP2019066601A/en
Application granted granted Critical
Publication of JP6972858B2 publication Critical patent/JP6972858B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Abstract

To provide an acoustic processing device without reducing masking effect for the sound to be listened by a listener to surrounding people located in the surroundings while reducing the restriction on an installation environment of a speaker.SOLUTION: An acoustic signal processing device 10 which generates an acoustic signal supplied to a speaker includes: stereophonic acoustic masking sound holding means for holding a stereophonic acoustic masking sound subjected to stereophonic acoustic processing which localizes the masking sound for masking an input sound to be listened by a listener from the speaker to a place different from the place where the input sound can be heard by the listener; mixing means for performing mixing processing for mixing the stereophonic acoustic masking sound and the input sound so as to generate a mixed sound; and output means for outputting an acoustic signal of the mixed sound mixed by the mixing means.SELECTED DRAWING: Figure 1

Description

本発明は、音響処理装置、プログラム及び方法に関し、スピーカから音響信号を立体的に再生する際のスピーチプライバシーに適用し得る。   The present invention relates to an audio processing apparatus, program, and method, and can be applied to speech privacy in three-dimensionally reproducing an audio signal from a speaker.

現在、公共空間や店舗などにおいてセキュリティ情報やプライバシーが重要な場所(例えば、行政機関や金融機関、医療施設等)では、会話の内容が第三者に漏れ聞こえない様にするスピーチプライバシーが求められている。   Currently, in places where security information and privacy are important in public spaces and stores (for example, administrative agencies, financial institutions, medical facilities, etc.), speech privacy is required so that the contents of conversations can not be heard by a third party. ing.

従来のスピーチプライバシーに関する技術としては、特許文献1、2の記載技術がある。   As a conventional technology related to speech privacy, there are the technologies described in Patent Documents 1 and 2.

特許文献1では、マスキング音を再生するスピーカを用いて、会話をマスキングすることで、ユーザの後方にいる人が聞え難くなる装置を提案している。また特許文献2では、話者の位置とマスキング音を再生するスピーカの位置が離れていると、音源の位置から聞き分けられてしまう問題に対して、ステレオスピーカを用い、ユーザの後方にいる人の正面でマスキング音が聞える装置を提案している。従来では、上述のようなスピーチプライバシーを実現する装置が、実際の店舗で使用されている例もある。   Patent Document 1 proposes a device that makes it difficult for a person behind the user to hear by masking a conversation using a speaker that reproduces a masking sound. Further, according to Patent Document 2, when the position of the speaker and the position of the speaker for reproducing the masking sound are separated, the stereo speaker is used for the problem of being heard from the position of the sound source. We have proposed a device where you can hear the masking sound in front of you. Conventionally, there is also an example in which an apparatus for realizing the speech privacy as described above is used in an actual store.

特開2012−137742号公報JP, 2012-137742, A 特開2007−235864号公報JP 2007-235864 A 特開2013−183358号公報JP, 2013-183358, A

ところで、現在、ICT(Information and Communication Technology)の発達に伴い、対面対話だけでなく、端末を介して遠隔地とのハンズフリー通話を行うことも多くなっている。そして、現在、ハンズフリー通話の状況でのスピーチプライバシーの需要が高まっている。   By the way, nowadays, with the development of information and communication technology (ICT), not only face-to-face communication but also hands-free communication with a remote place through a terminal is often performed. And now there is a growing demand for speech privacy in hands-free calling situations.

例えば、店舗等で顧客がハンズフリー通話により各種サービスを受ける状況では、顧客は店舗などにおり、対応するスタッフはコールセンターなどの遠隔地にいることが想定される。この場合、顧客の声(近端音)は端末のマイクで拾い、スタッフの声(遠端音)は端末のスピーカから再生されることになる。しかしながら、従来のスピーチプライバシーに対応したハンズフリー装置(以下、「スピーチプライバシー装置」と呼ぶ)では、以下のような課題を解決することが出来ない。まず、スピーチプライバシー装置により効果を得るには、マスキング音量に対して、話者の音量が一定値以下でなくてはならない。例えば、顧客が対面で店員と会話する場合は、その場の雑音やマスキング音が直接聞えるため、話者が状況に応じて自分の音量をコントロール出来る。しかし、従来のスピーチプライバシー装置の場合、遠端話者(例えば、遠隔地にいる店員)は、近端話者(例えば、店舗にいる顧客)の状況が分からないため、自身の音量をコントロールすることができず、近端側で十分なスピーチプライバシーの効果を得られない可能性がある。例えば、従来のスピーチプライバシー装置において、遠端音が大きい場合を考慮してマスキング音量を大きく設定すると、マスキング音自体が、近端音と遠端音をともに阻害してしまう恐れがある。   For example, in a situation where a customer receives various services by hands-free calling at a store etc., it is assumed that the customer is at the store etc and the corresponding staff is at a remote place such as a call center. In this case, the voice of the customer (near end sound) is picked up by the microphone of the terminal, and the voice of the staff (far end sound) is reproduced from the speaker of the terminal. However, the following problems can not be solved with a hands-free device (hereinafter referred to as a "speech privacy device") compatible with conventional speech privacy. First, in order to be effective by the speech privacy device, the volume of the speaker must be below a certain value with respect to the masking volume. For example, when a customer talks with a clerk in a face-to-face manner, the noise and masking sound of the place can be heard directly, so the speaker can control his own volume according to the situation. However, in the case of the conventional speech privacy apparatus, the far-end speaker (for example, a clerk at a remote place) controls his own volume because he does not know the situation of the near-end speaker (for example, the customer at the store). It may not be possible and near-end may not be able to achieve sufficient speech privacy effects. For example, in the conventional speech privacy apparatus, if the masking volume is set large in consideration of the case where the far-end sound is large, the masking sound itself may disturb both the near-end sound and the far-end sound.

また、特許文献1、2に記載された従来のスピーチプライバシー装置はともに、遠端話者の音声を出力するスピーカを近端話者の位置よりも後方(近端話者から見てスピーカと反対側)に設置する必要がある。従来のスピーチプライバシー装置において、顧客よりも前にスピーカを置いてしまうと、スピーチプライバシー装置のマスキング音により、遠端音自体がマスキングされてしまう。そのため、従来のスピーチプライバシー装置では、近端話者の後方側にスピーカを設置するスペースの確保が必要となり、当該スピーチプライバシー装置が使用出来る環境が制限される。   Further, in both of the conventional speech privacy devices described in Patent Documents 1 and 2, the speaker outputting the voice of the far-end speaker is located behind the position of the near-end speaker (as opposed to the speaker as seen from the near-end speaker Needs to be installed on the In the conventional speech privacy apparatus, if the speaker is placed before the customer, the far-end sound itself is masked by the masking sound of the speech privacy apparatus. Therefore, in the conventional speech privacy apparatus, it is necessary to secure a space for installing a speaker on the rear side of the near-end speaker, and the environment in which the speech privacy apparatus can be used is limited.

さらに、特許文献1、2に記載された従来のスピーチプライバシー装置はともに、スピーカを近端話者よりも後方に設置するため、近端話者の後方に位置する人に対しては、話者の声は聞え難くなるが、近端話者の横方向(スピーカの方向を向いている近端話者から見て横方向)にいる人に対しては効果が薄れてしまう。そのため、従来のスピーチプライバシー装置では、例えば、券売機やATMなど顧客(近端話者)が利用する端末が横一列に並んでいる様な状況には対応することができない。   Furthermore, both of the conventional speech privacy devices described in Patent Documents 1 and 2 place the speaker behind the near-end speaker, so the speaker can be used for people located behind the near-end speaker. The voice of the speaker becomes difficult to hear, but the effect diminishes for those who are in the lateral direction of the near-end speaker (the lateral direction as viewed from the near-end speaker facing the speaker). Therefore, the conventional speech privacy apparatus can not cope with a situation where terminals used by customers (near end speakers) such as a ticket vending machine or an ATM are arranged in a horizontal row, for example.

以上のような問題に鑑みて、スピーカの設置環境の制限を緩和しつつ、聴者(近端話者)に聴取させる音を周囲に位置する者(以下、「周辺者」と呼ぶ)に対してマスキングする効果を低減させない音響処理装置、プログラム及び方法が望まれている。   In view of the problems as described above, while relaxing the restriction on the installation environment of the speaker, for those who are located in the surroundings (hereinafter referred to as "neighbors") the sound that the listener (near end speaker) listens to There is a need for an audio processing device, program and method that does not reduce the masking effect.

第1の本発明は、スピーカに供給する音響信号を生成する音響信号処理装置において、(1)前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施した立体音響マスキング音を保持する立体音響マスキング音保持手段と、(2)前記立体音響マスキング音と、前記入力音を混合する混合処理を行い混合音を生成する混合手段と、(3)前記混合手段が混合した混合音の音響信号を出力する出力手段とを有することを特徴とする。   According to a first aspect of the present invention, there is provided an acoustic signal processing apparatus for generating an acoustic signal to be supplied to a speaker, wherein (1) a masking sound for masking an input sound for causing a listener to listen from the speaker is Stereophonic sound masking sound holding means holding stereophonic sound masking sound subjected to stereophonic sound processing localized to a place different from the place where the input sound can be heard; (2) mixing that mixes the stereophonic sound masking sound with the input sound It is characterized by having a mixing means for processing to generate a mixed sound, and (3) an output means for outputting an acoustic signal of the mixed sound mixed by the mixing means.

第2の本発明の音響信号処理プログラムは、スピーカに供給する音響信号を生成する音響信号処理装置に搭載されたコンピュータを、(1)前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施した立体音響マスキング音を保持する立体音響マスキング音保持手段と、(2)前記立体音響マスキング音と、前記入力音を混合する混合処理を行い混合音を生成する混合手段と、(3)前記混合手段が混合した混合音の音響信号を出力する出力手段として機能させることを特徴とする。   According to a second aspect of the present invention, there is provided an acoustic signal processing program for masking an input sound for causing a listener to listen to a computer mounted on an acoustic signal processing apparatus that generates an acoustic signal to be supplied to a speaker. Stereophonic sound masking sound holding means for holding a stereophonic sound masking sound subjected to stereophonic sound processing localized to a place different from the place where the input sound can be heard by the listener with respect to the masking sound of (2) the stereophonic sound masking It is characterized in that it functions as mixing means for mixing processing for mixing sound and the input sound to generate mixed sound, and (3) output means for outputting an acoustic signal of the mixed sound mixed by the mixing means.

第3の本発明は、スピーカに供給する音響信号を生成する音響信号処理装置が行う音響信号処理方法において、(1)立体音響マスキング音保持手段、混合手段、及び出力手段を有し、(2)前記立体音響マスキング音保持手段は、前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施した立体音響マスキング音を保持し、(3)前記混合手段は、前記立体音響マスキング音と、前記入力音を混合する混合処理を行い混合音を生成し、(4)前記出力手段は、前記混合手段が混合した混合音の音響信号を出力することを特徴とする。   A third aspect of the present invention is an acoustic signal processing method performed by an acoustic signal processing apparatus for generating an acoustic signal to be supplied to a speaker, the method comprising: (1) three-dimensional acoustic masking sound holding means, mixing means, and output means The stereophonic sound masking sound holding means localizes the masking sound for masking the input sound to be listened to by the listener from the speaker to a place different from the place where the input sound can be heard by the listener (3) the mixing means performs mixing processing for mixing the three-dimensional acoustic masking sound and the input sound to generate a mixed sound, and (4) the output means includes: The mixing means may output an acoustic signal of the mixed sound mixed.

本発明によれば、スピーカの設置環境の制限を緩和しつつ、聴者に聴取させる音を周囲に位置する周辺者に対してマスキングする効果を低減させない音響処理装置を提供することができる。   According to the present invention, it is possible to provide a sound processing device that does not reduce the effect of masking the sound to be heard by the listener against the surrounding people while relaxing the restriction of the installation environment of the speaker.

第1の実施形態に係る音響信号処理装置の機能的構成を示すブロック図である。It is a block diagram showing functional composition of an acoustic signal processing device concerning a 1st embodiment. 第1の実施形態に係る音響信号処理装置のユーザ(スイートスポット内にいる聴者)の音の聞こえ方について示した説明図である。It is explanatory drawing shown about how the sound of the user (the listener who exists in a sweet spot) of the acoustic signal processing apparatus concerning 1st Embodiment is audible. 第1の実施形態に係る音響信号処理装置のユーザ以外の者(スイートスポット外にいる者)の音の聞こえ方について示した説明図である。It is explanatory drawing shown how sound of persons other than the user of the acoustic signal processing apparatus concerning 1st Embodiment (person outside a sweet spot) is heard. 第1の実施形態に係る音響信号処理装置でトランスオーラル再生を行う際の環境モデル(スピーカ使用時にクロストークが発生する状況)について示した説明図である。It is explanatory drawing shown about the environment model at the time of performing transaural reproduction | regeneration by the acoustic signal processing apparatus which concerns on 1st Embodiment (state which crosstalk generate | occur | produces at the time of speaker use). 第2の実施形態に係る音響信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the acoustic signal processing apparatus which concerns on 2nd Embodiment. 第3の実施形態に係る音響信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the acoustic signal processing apparatus which concerns on 3rd Embodiment. 第4の実施形態に係る音響信号処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the acoustic signal processing apparatus which concerns on 4th Embodiment.

(A)第1の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound processing device, program and method according to the present invention will be described in detail with reference to the drawings.

(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る音響信号処理装置10の全体構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing an overall configuration of an acoustic signal processing device 10 according to a first embodiment.

音響信号処理装置10は、入力音I(入力音の音響信号)を処理して出力する装置である。この実施形態では、音響信号処理装置10は、ステレオスピーカSpに音響信号を出力するものとする。ステレオスピーカSpは、左側スピーカSpLと右側スピーカSpRにより構成されている。   The sound signal processing device 10 is a device that processes and outputs an input sound I (sound signal of input sound). In this embodiment, the acoustic signal processing apparatus 10 outputs an acoustic signal to the stereo speaker Sp. The stereo speaker Sp is configured of a left speaker SpL and a right speaker SpR.

また、音響信号処理装置10は、入力音Iを聴取させる対象(聴者)であるユーザU以外の者(以下、「周辺者」と呼ぶ)に対して入力音Iをマスキングする(聞き取りにくくする)ためのマスキング音Mの供給を受け、マスキング音Mに立体音響処理を施して入力音Iと混合した音響信号を生成して、スピーカSpL、SpRに出力する。なお、この実施形態では、音響信号処理装置10は、2つのスピーカにより構成されるステレオスピーカに出力する例について説明したが、出力するスピーカの構成(例えば、スピーカの数や位置)については限定されないものである。   Further, the acoustic signal processing apparatus 10 masks the input sound I against persons other than the user U who is the target (listener) who is made to listen to the input sound I (hereinafter referred to as “peripheral”) In response to the supply of the masking sound M, the masking sound M is subjected to three-dimensional acoustic processing to generate an acoustic signal mixed with the input sound I and output to the speakers SpL and SpR. In this embodiment, an example in which the sound signal processing apparatus 10 outputs to a stereo speaker configured by two speakers has been described, but the configuration of the speaker to output (for example, the number and positions of the speakers) is not limited. It is a thing.

音響信号処理装置10の使用環境(用途)は限定されないものである。この実施形態の例では、入力音Iを、ハンズフリー通話における遠端側の音(以下、「遠端音」と呼ぶ)(例えば、遠端側のマイクで捕捉された音)とする。そして、音響信号処理装置10は、入力音Iに基づく音をステレオスピーカSP(左側スピーカSpL、右側スピーカSpR)から出力させて、近端側のユーザUに聴取させるものとして説明する。なお、実際のハンズフリー通話では、近端側のユーザUが発話した音声を含む音(以下、「近端音」と呼ぶ)を捕捉して遠端側に伝送する構成が必要となるが、近端側から遠端側への通信構成については限定されないため、図1では図示省略している。なお、音響信号処理装置10は、ハンズフリー通話以外にも単に、録音された音声(例えば、ユーザUに対する音声ガイダンス等)を入力音Iとして処理する装置としてもよい。   The use environment (application) of the acoustic signal processing device 10 is not limited. In the example of this embodiment, the input sound I is the sound on the far end side in hands-free communication (hereinafter, referred to as “far end sound”) (for example, the sound captured by the far end microphone). The acoustic signal processing apparatus 10 is described as outputting the sound based on the input sound I from the stereo speaker SP (left speaker SpL, right speaker SpR) and causing the user U on the near end to listen. Note that in an actual hands-free call, it is necessary to have a configuration for capturing a sound (hereinafter, referred to as a “near end sound”) including a voice uttered by the near end user U and transmitting it to the far end. The communication configuration from the near end side to the far end side is not limited, and is not shown in FIG. The sound signal processing device 10 may be a device that processes a recorded voice (for example, voice guidance for the user U) as the input sound I other than the hands-free call.

図1では、入力音響信号Iを聴取させる対象となるユーザUと、ステレオスピーカSPを構成する各スピーカSpL、SpRとの位置関係を上側から見た場合の例について示している。図1では、ユーザUの位置(上側から見た場合の頭部の中心位置)をPU、左側スピーカSpLの位置(上側から見た場合の中心位置)をPL、右側スピーカSpRの位置(上側から見た場合の中心位置)をPRとして図示している。図1では、ユーザUから見て、前側に各スピーカSpL、SpRが配置されている。   FIG. 1 shows an example in which the positional relationship between the user U who is the target of listening to the input sound signal I and the speakers SpL and SpR constituting the stereo speaker SP is viewed from the upper side. In FIG. 1, the position of the user U (the center position of the head when viewed from the top) is PU, the position of the left speaker SpL (the center position when viewed from the top) is PL, the position of the right speaker SpR (from the top The central position when viewed is shown as PR. In FIG. 1, the speakers SpL and SpR are disposed on the front side when viewed from the user U.

また、図1では、領域ASは、音響信号処理装置10において行われる立体音響処理のスイートスポット(聴者に対して設計通りに音像を定位させることが可能な領域)である。そして、ユーザUは領域AS内に位置している。   Further, in FIG. 1, the area AS is a sweet spot of stereo sound processing performed in the sound signal processing apparatus 10 (an area where a sound image can be localized for a listener as designed). Then, the user U is located in the area AS.

次に音響信号処理装置10の内部構成について説明する。   Next, the internal configuration of the acoustic signal processing device 10 will be described.

図1に示すように、音響信号処理装置10は、入力音信号入力部12、マスキング音信号入力部11、立体音響処理部13、信号混合部14、及びスピーカ出力部15を有している。音響信号処理装置10の各構成要素の詳細については後述する。   As shown in FIG. 1, the acoustic signal processing apparatus 10 includes an input sound signal input unit 12, a masking sound signal input unit 11, a three-dimensional sound processing unit 13, a signal mixing unit 14, and a speaker output unit 15. Details of each component of the acoustic signal processing device 10 will be described later.

音響信号処理装置10は、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る音響再生プログラムを含む)を実行させることで実現するようにしてもよいが、その場合であっても、機能的には、図1のように表すことができる。   The acoustic signal processing apparatus 10 may be realized by causing a computer including a processor, a memory, and the like to execute a program (including the acoustic reproduction program according to the embodiment), but even in such a case, functional Can be represented as shown in FIG.

(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態における音響信号処理装置10の動作(実施形態に係る音響再生方法)を説明する。
(A-2) Operation of First Embodiment Next, an operation (sound reproduction method according to the embodiment) of the acoustic signal processing device 10 in the first embodiment having the above-described configuration will be described.

入力音信号入力部12は、入力音I(アナログの音響信号)が供給されると、入力Iをアナログ信号からデジタル信号に変換する。   When the input sound I (analog acoustic signal) is supplied, the input sound signal input unit 12 converts the input I from an analog signal to a digital signal.

また、マスキング音信号入力部11は、マスキング音M(アナログの音響信号)が入力されると、そのマスキング音Mを、アナログ信号からデジタル信号に変換する。   Further, when the masking sound M (analog acoustic signal) is input, the masking sound signal input unit 11 converts the masking sound M from an analog signal to a digital signal.

マスキング音Mとしては、ステレオスピーカSpから再生される入力音I(遠端音)や、ユーザUの発話する音声(近端音)をマスキング可能な成分が含まれていれば、具体的な内容は限定されないものである。マスキング音Mとしては、例えば、人間が発話した音声サンプルをそのまま、又は加工した音響信号としてもよい。   If the masking sound M includes a component capable of masking the input sound I (far end sound) reproduced from the stereo speaker Sp or the voice (near end sound) uttered by the user U, specific content Is not limited. As the masking sound M, for example, an audio sample uttered by a human may be used as it is or as an processed acoustic signal.

なお、音響信号処理装置10における入力音I及びマスキング音Mの入力形式は上記の構成に限定されず種々の構成を適用することができる。例えば、音響信号処理装置10に、デジタル形式の入力音I及びマスキング音Mを入力するようにしてもよいし、ストリーム形式ではなくファイル形式の音響データとしてまとめて入力するようにしてもよい。   The input format of the input sound I and the masking sound M in the acoustic signal processing apparatus 10 is not limited to the above-described configuration, and various configurations can be applied. For example, the input sound I and masking sound M in digital format may be input to the audio signal processing apparatus 10, or may be input collectively as audio data in file format instead of stream format.

立体音響処理部13は、マスキング音Mに対し、ユーザUがスピーカSpRもしくはSpLとは別の場所(すなわち、入力音Iが定位することになる場所とは異なる場所)からマスキング音Mが聞えるように音像を定位させる立体音響処理を行う。立体音響処理部13において、マスキング音Mを立体音響処理した立体音響処理したマスキング音(以下、「立体音響マスキング音」とも呼ぶ)を、同時に複数設定(同じマスキング音Mに基づく立体音響マスキング音を設定)することもでき、各立体音響マスキング音が、ユーザに対して別々の方向に定位するように立体音響処理を行う。   For the masking sound M, the user can make the masking sound M heard from a place other than the speaker SpR or SpL (that is, a place different from the place where the input sound I is to be localized). Perform stereophonic sound processing to localize the sound image. In the three-dimensional sound processing unit 13, a masking sound processed by three-dimensional sound processing of the masking sound M (hereinafter also referred to as "three-dimensional sound masking sound") is simultaneously set in plural (three-dimensional sound masking sound based on the same masking sound M). The stereophonic sound processing is performed so that each stereophonic sound masking sound is localized in different directions with respect to the user.

次に、図2を用いて、立体音響処理部13における立体音響処理(立体音響マスキング音の設定)の具体例について説明する。   Next, a specific example of stereophonic sound processing (setting of stereophonic sound masking sound) in the stereophonic sound processing unit 13 will be described using FIG.

図2では、スウィートスポットAS内に位置し、2つのスピーカSpL、SpRの位置PL、PRの位置を結んだ線の中間点の方向Fを向いているユーザUに対して左90度の方向(Fの方向を0度として反時計回りに90度の方向)に位置する第1の立体音響マスキング音MS1と、ユーザUに対して右90度の方向(Fの方向を0度として時計回りに90度の方向)に位置する第2の立体音響マスキング音MS2が設定された状態について図示している。また、この実施形態では、入力音Iについては特に立体音響処理されていないため、図2では、入力音Iは2つのスピーカの間(位置PLとPRとの間の空間)に定位する結果となる状態について示している。なお、この実施形態では、入力音Iについては特に立体音響処理されない例について示しているが、入力音Iについても所定の方向(例えば、ユーザUが向くと想定される方向)に定位する立体音響処理を施すようにしてもよい。立体音響処理部13は、例えば、図2に示すような状態を実現するために、マスキング音Mに基づいて、ユーザUに対して1又は複数の方向(入力音Iが定位する場所とは異なる方向)に対してマスキング音Mを定位させる立体音響処理を行った立体音響マスキング音を生成する。   In FIG. 2, the direction of 90 degrees left with respect to the user U facing the direction F of the midpoint of the line connecting the positions of the two speakers SpL and SpR PL and PR located in the sweet spot AS ( The first stereophonic sound masking sound MS1 positioned at 90 degrees counterclockwise with 0 degrees as the direction of F, and clockwise 90 degrees right with respect to the user U (the direction of F as 0 degrees It is illustrated about the state where the 2nd three-dimensional sound masking sound MS2 located in the direction of 90 degrees is set. Further, in this embodiment, since the input sound I is not particularly subjected to three-dimensional sound processing, in FIG. 2, the input sound I is localized between two speakers (the space between the positions PL and PR) and State is shown. Although this embodiment shows an example in which the input sound I is not particularly subjected to the stereophonic sound processing, the stereophonic sound localized in a predetermined direction (for example, a direction in which the user U is assumed to be directed) is also performed on the input sound I. Processing may be performed. For example, in order to realize the state as shown in FIG. 2, the three-dimensional sound processing unit 13 is based on the masking sound M in one or more directions with respect to the user U (different from where the input sound I is localized 3D acoustic masking sound generated by performing stereophonic sound processing to localize the masking sound M with respect to the direction).

立体音響処理部13が行う立体音響処理の方式については限定されないものであるが、例えば、以下の参考文献1に記載されるようなトランスオーラル再生の技術を適用するようにしてもよい。トランスオーラル再生は、イヤホンやヘッドフォンを用いる立体音響技術であるバイノーラル再生と同様の立体音響の効果を、スピーカでも得られるように応用した技術である。
[参考文献1]WG Gardner著,「3−D Audio Using Loudspeakers」,Springer(US),1977年発行
The method of stereophonic sound processing performed by the stereophonic sound processing unit 13 is not limited, but, for example, a technique of transaural reproduction as described in the following reference 1 may be applied. Transaural reproduction is a technology in which the same three-dimensional sound effect as binaural reproduction, which is a three-dimensional sound technology using earphones and headphones, is applied to a speaker.
[Reference 1] WG Gardner, "3-D Audio Using Loudspeakers", Springer (US), published in 1977

バイノーラル再生では、音源とする音響信号に定位させたい方向の頭部伝達関数を畳み込み、バイノーラル音源に変換し、ヘッドフォンやイヤホンから再生することで、立体音響効果を生み出すことが出来る。   In binaural reproduction, a three-dimensional sound effect can be generated by convoluting a head-related transfer function in a direction desired to be localized to an acoustic signal as a sound source, converting it into a binaural sound source, and reproducing it from headphones or earphones.

図4は、立体音響処理部13がトランスオーラル再生の技術を利用した立体音響処理を行う際の環境モデルについて示した説明図である。   FIG. 4 is an explanatory view showing an environment model when the stereophonic sound processing unit 13 performs stereophonic sound processing using the technique of transaural reproduction.

図4では、ユーザUの右耳の符号をe、ユーザUの左耳の符号をeと図示している。 In FIG. 4, the code of the right ear of the user U is illustrated as e R and the code of the left ear of the user U is illustrated as e L.

例えば、仮にバイノーラル音源をスピーカSpL、SpRからそのまま再生した場合、十分な立体音響効果を得ることができなくなる。例えば、右耳用バイノーラル音源は、ユーザUの右耳eにのみ到達する必要があるが、右側スピーカSpRから再生した右耳用バイノーラル音源は、右耳eだけでなく左耳eにも到達してしまう。また、同様に、左側スピーカSpLから再生された左耳用バイノーラル音源も左耳eだけでなく右耳eにも到達することになる。このような現象はクロストークと呼ばれ、スピーカを再生環境とする際の立体音響効果を妨げる原因となっている。 For example, if a binaural sound source is reproduced as it is from the speakers SpL and SpR, it is impossible to obtain a sufficient three-dimensional sound effect. For example, the binaural sound source for the right ear needs to reach only the right ear e R of the user U, but the binaural sound source for the right ear reproduced from the right speaker SpR is not only the right ear e R but also the left ear e L Will reach you. Similarly, the binaural sound source for the left ear reproduced from the left speaker SpL also reaches not only the left ear e L but also the right ear e R. Such a phenomenon is called crosstalk, which is a cause of obstructing a stereophonic sound effect when the speaker is used as a reproduction environment.

これに対して、参考文献1に記載されたトランスオーラル再生では、各スピーカから両耳までの室内伝達関数を測定した後、バイノーラル音源に伝達関数を畳み込み、その中のクロストーク成分のみをキャンセルするフィルタを設計する。   On the other hand, in transaural reproduction described in reference 1, after measuring the room transfer function from each speaker to both ears, the transfer function is convoluted with the binaural sound source, and only the crosstalk component in that is canceled. Design a filter.

図4では、右スピーカ右耳経路(右側スピーカSpRから右耳eへの経路)の伝達関数をGRR、右スピーカ左耳経路(右側スピーカSpRから左耳eへの経路)の伝達関数をGRL、左スピーカ右耳経路(左側スピーカSpLから右耳eへの経路)の伝達関数をGLR、左スピーカ左耳経路(左側スピーカSpLから左耳eへの経路)の伝達関数をGLLと図示している。 In Figure 4, the transfer function of the right speaker right ear path transfer function G RR of (path from the right speaker SpR to the right ear e R), (path from the right speaker SpR to the left ear e L) right speaker left ear path G RL , Transfer function of left speaker right ear path (path from left speaker SpL to right ear e R ) G LR , Transfer function of left speaker left ear path (path from left speaker SpL to left ear e L ) Is illustrated as GLL .

また、以下では、トランスオーラル再生における左スピーカ左耳経路のフィルタをCLL(ω)(「ω」は周波数を表す。以下同様)、右スピーカ右耳経路のフィルタをCRR(ω)、左スピーカ右耳経路のフィルタをCLR(ω)、右スピーカ左耳経路のフィルタをCRL(ω)、左スピーカ左耳経路のフィルタをCLL(ω)とする。さらに、以下では、左耳用の音源定位位置に対応した頭部伝達関数(HRTF:Head−Related Transfer Function)をH(ω)とし、左耳用の音源定位位置に対応した頭部伝達関数(HRTF)をH(ω)とする。 Also, in the following, the filter for the left speaker left ear path in transaural reproduction is C LL (ω) (“ω” represents a frequency. The same applies hereinafter), the filter for the right speaker right ear path is C RR (ω), left The filter of the speaker right ear path is C LR (ω), the filter of the right speaker left ear path is C RL (ω), and the filter of the left speaker left ear path is C LL (ω). Furthermore, in the following, a head-related transfer function (HRTF) corresponding to the sound source localization position for the left ear is H L (ω), and a head-related transfer function corresponding to the sound source localization position for the left ear Let (HRTF) be H R (ω).

そうすると、トランスオーラル再生における各経路のフィルタは、以下の(1)式〜(4)式のように示すことができる。そして、(1)式〜(4)式の共通項(すなわち、各フィルタの共通項)をまとめたものをG(ω)とすると、G(ω)は以下の(5)式のように示すことができる。 Then, the filters of each path in transaural reproduction can be expressed as the following equations (1) to (4). Then, assuming that G 0 (ω) is a sum of common terms (that is, common terms of each filter) of the equations (1) to (4), G 0 (ω) is given by the following equation (5) Can be shown.

そして、上記の(1)式〜(4)式に示す各経路のフィルタを左右のスピーカSpL、SpRごとにまとめると、(6)式、(7)式に示すように、トランスオーラル再生においてクロストークの抑圧に用いられるクロストークキャンセルフィルタを求めることができる。(6)式に示すC(ω)は、右側スピーカSpR用のクロストークキャンセルフィルタであり、(7)式に示すC(ω)は、左側スピーカSpL用のクロストークキャンセルフィルタである。

Figure 2019066601
Then, when the filters of each path shown in the above equations (1) to (4) are summarized for each of the left and right speakers SpL and SpR, as shown in the equations (6) and (7), cross in transaural reproduction It is possible to obtain a crosstalk cancellation filter used to suppress the talk. C R (ω) shown in the equation (6) is a crosstalk cancellation filter for the right speaker SpR, and C L (ω) shown in the equation (7) is a crosstalk cancellation filter for the left speaker SpL.
Figure 2019066601

トランスオーラル再生では、音像定位させる音源(この実施形態ではマスキング音M)に、上記のようなクロストークキャンセルフィルタを掛けて、各スピーカから再生することで、クロストーク成分が聴者(ユーザU)の耳元で打ち消され、左右それぞれのバイノーラル音源だけが耳に届き、バイノーラル再生と同様の立体音響効果を得ることができる。   In the transaural reproduction, the crosstalk cancellation filter as described above is applied to the sound source (the masking sound M in this embodiment) for sound image localization, and the crosstalk component is reproduced for each listener (user U). It is canceled at the ear, and only the left and right binaural sound sources reach the ear, and a stereophonic effect similar to binaural reproduction can be obtained.

したがって、立体音響処理部13は、マスキング音Mに基づき、図2に示すように、第1の立体音響マスキング音MS1(方向D1)と、第2の立体音響マスキング音MS2(方向D2)を定位させるトランスオーラル再生の処理を行う場合、まず、第1の立体音響マスキング音MS1を設定した第1のバイノーラル音源と、第2の立体音響マスキング音MS2を設定したバイノーラル音源を生成する。そして、立体音響処理部13は、右耳用(右側スピーカSpR用)のバイノーラル音源に右側スピーカSpR用のクロストークキャンセルフィルタC(ω)を掛けて右側スピーカSpR用のトランスオーラル再生の音響信号(音源)を生成し、左耳用(左側スピーカSpL用)のバイノーラル音源に左側スピーカSpL用のクロストークキャンセルフィルタC(ω)を掛けて左側スピーカSpL用のトランスオーラル再生の音響信号(音源)を生成する処理を行う。 Therefore, based on the masking sound M, as shown in FIG. 2, the three-dimensional sound processing unit 13 localizes the first three-dimensional sound masking sound MS1 (direction D1) and the second three-dimensional sound masking sound MS2 (direction D2) When performing processing of transaural reproduction to be performed, first, a first binaural sound source in which the first three-dimensional sound masking sound MS1 is set and a binaural sound source in which the second three-dimensional sound masking sound MS2 is set are generated. Then, the three-dimensional sound processing unit 13 applies a crosstalk cancellation filter C R (ω) for the right speaker SpR to the binaural sound source for the right ear (for the right speaker SpR) to generate an acoustic signal for transaural reproduction for the right speaker SpR. (Sound source) is generated, the crosstalk cancellation filter C L (ω) for the left speaker SpL is applied to the binaural sound source for the left ear (for the left speaker SpL), and the acoustic signal for the transaural reproduction for the left speaker SpL (sound source Process to generate).

以下では、立体音響処理部13が処理した音響信号(立体音響マスキング音の音響信号)をXと呼ぶものとする。ここでは、音響信号処理装置10の再生環境は、ステレオスピーカSp(スピーカSpL、SpR)であるため、音響信号Xには、右側スピーカSpR用の音響信号(以下、「XR」と呼ぶ)と、左側スピーカSpL用の音響信号(以下、「XL」と呼ぶ)が含まれることになる。   Hereinafter, the acoustic signal processed by the three-dimensional acoustic processing unit 13 (the acoustic signal of the three-dimensional acoustic masking sound) will be referred to as X. Here, since the reproduction environment of the acoustic signal processing apparatus 10 is the stereo speaker Sp (speakers SpL and SpR), the acoustic signal X includes an acoustic signal for the right speaker SpR (hereinafter referred to as “XR”); An acoustic signal (hereinafter referred to as “XL”) for the left speaker SpL is included.

信号混合部14は、立体音響処理部13においてマスキング音Mが立体音響処理された音響信号XR、XLと、入力音信号入力部12で取得した入力音Iを混合する処理を行う。   The signal mixing unit 14 performs processing of mixing the acoustic signals XR and XL in which the masking sound M is subjected to stereophonic sound processing in the stereophonic sound processing unit 13 and the input sound I acquired by the input sound signal input unit 12.

以下では、入力音Iの右側スピーカSpR用の信号を「IR」と呼び、入力音Iの左側スピーカSpL用の信号を「IL」と呼ぶものとする。なお、入力音信号入力部12で取得した入力音Iがモノラル信号である場合に、入力音信号入力部12は、ステレオ信号に変換処理してIRとILを得るようにしてもよい。   Hereinafter, the signal for the right speaker SpR of the input sound I is referred to as “IR”, and the signal for the left speaker SpL of the input sound I is referred to as “IL”. When the input sound I acquired by the input sound signal input unit 12 is a monaural signal, the input sound signal input unit 12 may convert it into a stereo signal to obtain IR and IL.

このとき、信号混合部14は、混合の際に、入力音Iが立体音響処理された音響信号Xに含まれるマスキング音Mの成分により十分マスキングされるように入力音Iと音響信号Xとの音量を調整することが望ましい。例えば、信号混合部14は、入力音Iと音響信号Xとの音量の比が1:1となるように音量調整するようにしてもよい。この際、入力音Iの音量に合わせて音響信号Xの音量を調節してもよいし、音響信号Xの音量にあわせて入力音Iの音量を調整するようにしてもよい。信号混合部14は、再生環境のスピーカごと(音響信号のチャネルごと)に音響信号を混合する処理を行う。   At this time, the signal mixing unit 14 mixes the input sound I with the sound signal X so that the input sound I is sufficiently masked by the component of the masking sound M included in the sound signal X subjected to stereophonic sound processing. It is desirable to adjust the volume. For example, the signal mixing unit 14 may adjust the volume so that the ratio of the volume of the input sound I to the sound signal X is 1: 1. At this time, the volume of the sound signal X may be adjusted in accordance with the volume of the input sound I, or the volume of the input sound I may be adjusted in accordance with the volume of the sound signal X. The signal mixing unit 14 performs processing of mixing the acoustic signal for each speaker (for each channel of the acoustic signal) of the reproduction environment.

この実施形態では、音響信号処理装置10の再生環境は、ステレオスピーカSp(スピーカSpL、SpR)であるため、信号混合部14は、IRとXRを混合して、右側スピーカSpR用の音響信号(以下、「OR」と呼ぶ)を生成し、ILとXLを混合して左側スピーカSpL用の音響信号(以下、「OL」と呼ぶ)を生成する。   In this embodiment, since the reproduction environment of the acoustic signal processing apparatus 10 is the stereo speakers Sp (speakers SpL and SpR), the signal mixing unit 14 mixes IR and XR to generate an acoustic signal for the right speaker SpR ( Hereinafter, “OR” is generated, and IL and XL are mixed to generate an acoustic signal for the left speaker SpL (hereinafter, referred to as “OL”).

なお、信号混合部14に立体音響マスキング音となる音響信号が複数供給された場合、信号混合部14は、全ての立体音響マスキング音(音響信号)を加算した音を音響信号Xとして、入力音Iとの音量比を決定し混合するようにしてもよい。   When a plurality of acoustic signals to be the three-dimensional acoustic masking sound are supplied to the signal mixing unit 14, the signal mixing unit 14 uses the sound obtained by adding all the three-dimensional acoustic masking sounds (acoustic signals) as the acoustic signal X as the input sound. The volume ratio with I may be determined and mixed.

スピーカ出力部15は、信号混合部14において処理したステレオ音源(音響信号OR、OL)を左右のスピーカSpL、SpRに分配して出力する。これにより、右スピーカSpRは、右スピーカ用音源(OR)を再生し、左スピーカSpLは左スピーカ用音源(OL)を再生することになる。   The speaker output unit 15 distributes and outputs stereo sound sources (acoustic signals OR and OL) processed by the signal mixing unit 14 to the left and right speakers SpL and SpR. Thus, the right speaker SpR reproduces the right speaker sound source (OR), and the left speaker SpL reproduces the left speaker sound source (OL).

この実施形態では、上述の通り、スピーカ出力部15が音響信号を、スピーカSpL、SpRに直接供給するものとして説明したが、音響信号OR、OLを出力する形式については限定されないものである。スピーカ出力部15は、例えば、音響信号OR、OLの音声データを通信により間接的に送信(例えば、スピーカを備える装置に送信)するようにしてもよい。   In this embodiment, as described above, the speaker output unit 15 is described as directly supplying the acoustic signal to the speakers SpL and SpR. However, the format for outputting the acoustic signals OR and OL is not limited. For example, the speaker output unit 15 may indirectly transmit (for example, transmit to a device including a speaker) audio data of the acoustic signals OR and OL through communication.

(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of the First Embodiment According to the first embodiment, the following effects can be achieved.

第1の実施形態の音響信号処理装置10では、マスキング音Mに立体音響処理を行った立体音響マスキング音と、入力音I(遠隔音/遠端音)と混合してスピーカSpL、SpRに供給する。また、第1の実施形態の音響信号処理装置10では、マスキング音Mを、ユーザUにとって、入力音I(遠隔音)の音像が定位する位置とは別の場所(別の方向)に定位するように、立体音響処理を行う。さらに、第1の実施形態の音響信号処理装置10では、立体音響処理されたマスキング音Mに、入力音Iをそのまま混合する混合処理を行う。さらにまた、第1の実施形態の音響信号処理装置10では、混合処理を行う際、マスキング効果が得られる割合で入力音Iと立体音響処理されたマスキング音Mの音量を調節する。また、第1の実施形態の音響信号処理装置10では、立体音響の効果があるスウィートスポットの領域ASは、ユーザUが存在する位置に設定する。この際、第1の実施形態の音響信号処理装置10において、各スピーカSpL、SpRの配置は任意であり、各スピーカSpL、SpRとユーザUの位置関係から立体音響のパラメータを設定する。   In the acoustic signal processing apparatus 10 of the first embodiment, the masking sound M is mixed with the three-dimensional acoustic masking sound subjected to three-dimensional acoustic processing and the input sound I (remote sound / far end sound) and supplied to the speakers SpL and SpR. Do. Further, in the acoustic signal processing apparatus 10 according to the first embodiment, the masking sound M is localized for the user U at a different position (different direction) from the position where the sound image of the input sound I (remote sound) is localized. Perform stereophonic sound processing. Furthermore, in the acoustic signal processing apparatus 10 according to the first embodiment, the mixing process of mixing the input sound I as it is with the masking sound M subjected to the three-dimensional acoustic process is performed. Furthermore, in the sound signal processing apparatus 10 according to the first embodiment, when mixing processing is performed, the volume of the input sound I and the masking sound M subjected to stereophonic sound processing are adjusted at a rate at which the masking effect is obtained. Further, in the sound signal processing apparatus 10 according to the first embodiment, the area AS of the sweet spot having the effect of the three-dimensional sound is set to a position where the user U exists. At this time, in the acoustic signal processing apparatus 10 of the first embodiment, the arrangement of the speakers SpL and SpR is arbitrary, and the parameters of the stereophonic sound are set from the positional relationship between the speakers SpL and SpR and the user U.

このように、第1の実施形態では、スピーカSpL、SpRから再生される音には、入力音Iと立体音響処理されたマスキング音M(1又は複数の立体音響マスキング音)が混ざっているがユーザUの位置(スウィートスポットの領域AS)では、図2に示すようにユーザUの正面(方向X)から聞え、立体音響処理された立体音響マスキング音MS1、MS2は、その立体音響効果により、正面以外(方向D1、D2)から聞えることになる。しかし、図3に示すように、ユーザUの位置以外の場所(スウィートスポットの領域AS以外の場所)にいる周辺者Hにとっては、入力音Iと立体音響マスキング音MS1、MS2とが混ざった状態で聴こえるため、入力音Iが聞こえにくくなる。言い換えると、周辺者Hにとっては、スウィートスポットの領域AS内にいるユーザUとは異なり、入力音Iが聞こえる場所と、マスキング音Mが聞こえる場所を分離した状態では聞こえず、入力音Iを聞きづらい状態となる。   As described above, in the first embodiment, the sound reproduced from the speakers SpL and SpR is mixed with the input sound I and the masking sound M (one or more three-dimensional sound masking sounds) subjected to the three-dimensional sound processing. At the position of the user U (the area AS of the sweet spot), as shown in FIG. 2, the user U can be heard from the front (direction X) of the user U, and the stereophonic sound masking sounds MS1, MS2 subjected to stereophonic sound processing are It can be heard from other than the front (directions D1, D2). However, as shown in FIG. 3, for the peripheral person H who is at a place other than the position of the user U (a place other than the area AS of the sweet spot), a state where the input sound I and the stereophonic sound masking sounds MS1 and MS2 are mixed. To make it difficult to hear the input sound I. In other words, unlike the user U who is in the sweet spot area AS, it is difficult for the neighbor H to hear the input sound I in a state where the place where the input sound I can be heard and the place where the masking sound M is heard are not separated. It becomes a state.

以上のように、第1の実施形態では、ユーザUにのみ、入力音Iをクリア(明確)に聞かせることができる。   As described above, in the first embodiment, only the user U can hear the input sound I in a clear manner.

また、第1の実施形態では、音響信号処理装置10(信号混合部14)が入力音Iと立体音響処理されたマスキング音Mの音量を調節して混合するため、どのような環境でも安定してスピーチプライバシーの効果を得ることができる。   Further, in the first embodiment, the sound signal processing apparatus 10 (the signal mixing unit 14) adjusts and mixes the volume of the input sound I and the masking sound M subjected to stereophonic sound processing, so that it is stable in any environment. Can have the effect of speech privacy.

さらに、第1の実施形態では、スピーカSpL、SpRの位置とユーザUとの位置関係に関わらず、立体音響処理によりユーザUに対して任意の方向にマスキング音Mの定位を行うことができるため、スピーカSpL、SpRの設置位置を任意の位置とすることができる。   Furthermore, in the first embodiment, regardless of the positional relationship between the positions of the speakers SpL and SpR and the user U, localization of the masking sound M can be performed in an arbitrary direction with respect to the user U by the stereophonic sound processing. The installation positions of the speakers SpL and SpR can be set as arbitrary positions.

さらにまた、図2、図3に示すように、ユーザUの近くにスピーカSpL、SpRを置くことで、ユーザUが発話する音声(近端音)についても、スピーカSpL、SpRから再生された音でマスキングされ、ユーザUの位置(スウィートスポットの領域AS)以外の場所にいる周辺者Hにとって、入力音I(遠端音)、ユーザUが発話する音声(近端音)ともに聞え難くなる。   Furthermore, as shown in FIG. 2 and FIG. 3, by placing the speakers SpL and SpR near the user U, the sound reproduced from the speakers SpL and SpR also for the voice (near end sound) spoken by the user U It becomes difficult to hear both the input sound I (far end sound) and the voice uttered by the user U (near end sound) for the peripheral person H who is masked at the other than the position of the user U (the area AS of the sweet spot).

以上のように、第1の実施形態では、ユーザUとスピーカSpL、SpRの位置関係の制限を緩和し、スウィートスポットの領域AS内にいるユーザUに対してのみ入力音I(遠端音)を聴取させ、さらに、ユーザUが発話する音声(近端音)を周辺者Hに聴き取りにくくさせるという効果を同時に奏することができる。すなわち、第1の実施形態では、従来技術では難しかったユーザUの隣(横方向)の位置でもスピーチプライバシーの効果を得ることが可能となる。   As described above, in the first embodiment, the restriction on the positional relationship between the user U and the speakers SpL and SpR is eased, and the input sound I (far end sound) for only the user U in the sweet spot area AS It is possible to simultaneously achieve the effect of making it difficult for the peripheral person H to listen to the voice (near-end sound) uttered by the user U. That is, in the first embodiment, it is possible to obtain the effect of speech privacy even at the position (lateral direction) next to the user U, which is difficult in the prior art.

(B)第2の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of the sound processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.

(B−1)第2の実施形態の構成及び動作
図5は、第2の実施形態に係る音響信号処理装置10Aの全体構成について示したブロック図である。図5では、上述の図1と同一部分又は対称部分については同一符号又は対称符号を付している。
(B-1) Configuration and Operation of Second Embodiment FIG. 5 is a block diagram showing an overall configuration of an acoustic signal processing device 10A according to a second embodiment. In FIG. 5, the same or symmetrical parts as those in FIG.

以下では、第2の実施形態の音響信号処理装置10Aについて第1の実施形態との差異を説明する。   Below, the difference with 1st Embodiment is demonstrated about 10 A of acoustic signal processing apparatuses of 2nd Embodiment.

第1の実施形態の音響信号処理装置10では、マスキング音信号入力部11で入力されたマスキング音Mを立体音響処理して立体音響マスキング音を生成していた。これに対して第2の実施形態の音響信号処理装置10Aでは、マスキング音Mの供給を受けて立体音響処理を行うのではなく、予めマスキング音Mに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号(音響信号のデータ)をデータベースに保持し、そこから所望の立体音響マスキング音の音響信号を選択して利用するものとする。   In the acoustic signal processing apparatus 10 according to the first embodiment, the masking sound M input at the masking sound signal input unit 11 is subjected to three-dimensional acoustic processing to generate three-dimensional acoustic masking sound. On the other hand, in the acoustic signal processing apparatus 10A of the second embodiment, the sound image is localized at various positions in advance with respect to the masking sound M, instead of receiving the supply of the masking sound M and performing three-dimensional acoustic processing. In addition, the acoustic signal (data of the acoustic signal) of the three-dimensional acoustic masking sound subjected to the three-dimensional acoustic processing is held in a database, and the acoustic signal of the desired three-dimensional acoustic masking sound is selected and used therefrom.

図5に示す音響信号処理装置10Aでは、マスキング音信号入力部11と立体音響処理部13とが、マスキング音データベース16とマスキング音選択部17に置き換えられている点で第1の実施形態と異なっている。   The acoustic signal processing apparatus 10A shown in FIG. 5 is different from the first embodiment in that the masking sound signal input unit 11 and the three-dimensional sound processing unit 13 are replaced by a masking sound database 16 and a masking sound selection unit 17. ing.

マスキング音データベース16には、予めマスキング音Mに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号(音響信号のデータ)が蓄積されている。ここでは、マスキング音データベース16には、N個(Nは2以上の整数)の立体音響マスキング音の音響信号X(X1〜XN)が蓄積されているものとする。音響信号X1〜XNは、それぞれ異なる位置にマスキング音Mが定位された音響信号であるものとする。各音響信号Xは、マスキング音Mを1つの位置に定位した音響信号としてもよいし、マスキング音Mを複数の位置に定位した音響信号としてもよい。   In the masking sound database 16, acoustic signals (data of acoustic signals) of the three-dimensional acoustic masking sound on which the three-dimensional acoustic processing has been performed are stored in advance so that sound images are localized at various positions with respect to the masking sound M. Here, it is assumed that acoustic signals X (X1 to XN) of N (N is an integer of 2 or more) three-dimensional acoustic masking sounds are accumulated in the masking sound database 16. The sound signals X1 to XN are sound signals in which the masking sound M is localized at different positions. Each acoustic signal X may be an acoustic signal in which the masking sound M is localized at one position, or may be an acoustic signal in which the masking sound M is localized at a plurality of positions.

そして、マスキング音選択部17は、マスキング音データベース16に蓄積された立体音響マスキング音の音響信号(X1〜XN)の中から1又は複数の音響信号Xを選択して取得し、信号混合部14に供給する処理を行う。   Then, the masking sound selection unit 17 selects and acquires one or more acoustic signals X from among the acoustic signals (X1 to XN) of the three-dimensional acoustic masking sound accumulated in the masking sound database 16, and the signal mixing unit 14 Process to supply

マスキング音選択部17で選択する音響信号Xの数や組み合わせについては限定されないものである。マスキング音選択部17では、例えば、ユーザ(例えば、システム管理者等)の操作に応じた設定に基づき、選択する音響信号Xを決定するようにしてもよい。   The number and the combination of the acoustic signals X selected by the masking sound selection unit 17 are not limited. The masking sound selection unit 17 may determine the acoustic signal X to be selected, for example, based on the setting according to the operation of the user (for example, a system administrator).

信号混合部14は、マスキング音選択部17から複数の音響信号Xが供給された場合には、それらを全て加算(混合)した音響信号と入力音Iとを混合する処理を行う。   When a plurality of acoustic signals X are supplied from the masking sound selection unit 17, the signal mixing unit 14 performs processing of mixing the input sound I with the acoustic signal obtained by adding (mixing) all of them.

(B−2)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-2) Effects of Second Embodiment According to the second embodiment, the following effects can be achieved.

第2の実施形態の音響信号処理装置10Aでは、立体音響処理を省略し、マスキング音データベース16から立体音響処理された立体音響マスキング音の音響信号Xを取得するため、第1の実施形態と比較してリアルタイムの処理量を低減することができる。   In the acoustic signal processing apparatus 10A of the second embodiment, the stereophonic sound processing is omitted, and in order to acquire the acoustic signal X of the stereophonic sound masking sound subjected to stereophonic sound processing from the masking sound database 16, comparison with the first embodiment is made. Real-time throughput can be reduced.

(C)第3の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
(C) Third Embodiment Hereinafter, a third embodiment of the sound processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.

(C−1)第3の実施形態の構成及び動作
図6は、第3の実施形態に係る音響信号処理装置10Bの全体構成について示したブロック図である。図6では、上述の図1と同一部分又は対称部分については同一符号又は対称符号を付している。
(C-1) Configuration and Operation of Third Embodiment FIG. 6 is a block diagram showing the overall configuration of an acoustic signal processing device 10B according to the third embodiment. In FIG. 6, the same or symmetrical parts as in FIG. 1 described above are denoted by the same reference numerals or symmetrical reference numerals.

以下では、第3の実施形態の音響信号処理装置10Bについて第2の実施形態との差異を説明する。   Below, the difference with 2nd Embodiment is demonstrated about the acoustic signal processing apparatus 10B of 3rd Embodiment.

第3の実施形態の音響信号処理装置10Bでは、出力レベル調整部18と背景雑音レベル推定部19が追加されている点で第1の実施形態と異なっている。また、第3の実施形態では、上述の通り、ユーザUの音声を含む近端音を収音するためのマイクMicが設置されている点で、第1の実施形態と異なっている。マイクMicの具体的な構成については限定されないものである。マイクMicとしては、例えば、全指向性マイクの他に、指向性を持ったマイクやエリア収音を行う収音装置等を適用することができる。   The acoustic signal processing device 10B of the third embodiment is different from the first embodiment in that an output level adjustment unit 18 and a background noise level estimation unit 19 are added. Further, as described above, the third embodiment is different from the first embodiment in that the microphone Mic for collecting the near-end sound including the voice of the user U is installed. The specific configuration of the microphone Mic is not limited. As the microphone Mic, for example, in addition to the omnidirectional microphone, a microphone with directivity, a sound collection device for collecting an area, or the like can be applied.

第1の実施形態の音響信号処理装置10において、信号混合部14の出力レベルは、入力音I若しくは立体音響マスキング音の音響信号Xの音量により変るため、他の要素(例えば、ステレオスピーカSpの音量調節機能)で調節することが望ましい。これに対して、第3の実施形態は、ユーザUがいる環境(近端側;スウィートスポットの領域AS)の雑音レベルを推定し、推定した雑音レベルの大きさに応じて、信号混合部14の出力レベルを調節する。第3の実施形態では、図6に示すように、ユーザUのいるスウィートスポットAS内の領域の音(近端音)を収音するためのマイクMicが設置されているため、音響信号処理装置10Bは、このマイクMicが収音した近端音からユーザUのいる環境の背景雑音のレベルを推定する。   In the acoustic signal processing apparatus 10 according to the first embodiment, the output level of the signal mixing unit 14 changes according to the volume of the acoustic signal X of the input sound I or the stereophonic sound masking sound, so other elements (for example, the stereo speaker Sp It is desirable to adjust with the volume control function). On the other hand, in the third embodiment, the noise level of the environment in which the user U is present (near end; sweet spot area AS) is estimated, and the signal mixing unit 14 is calculated according to the estimated noise level. Adjust the output level of In the third embodiment, as shown in FIG. 6, the microphone Mic for picking up the sound (near-end sound) of the area in the sweet spot AS where the user U is located is installed, so the acoustic signal processing apparatus 10B estimates the level of background noise of the environment in which the user U is present from the near-end sound picked up by the microphone Mic.

背景雑音レベル推定部19は、マイクMicで収音した音に基づいて、所定の方式(具体的な方式は限定されない)によりユーザUのいる場所(スウィートスポットの領域AS)における背景雑音のレベルを推定する。背景雑音レベル推定部19は、ユーザUの音声(スウィートスポットの領域AS内の音声)及び入力音Iの音声(遠端話者の音声)が発生していない無音区間を推定し、その無音期間にマイクMicが収音した音に基づいて背景雑音を推定するようにしてもよい。   Based on the sound collected by the microphone Mic, the background noise level estimation unit 19 sets the level of the background noise at the place where the user U is located (the area AS of the sweet spot) by a predetermined method (the specific method is not limited). presume. The background noise level estimation unit 19 estimates a silent interval in which the voice of the user U (voice in the area AS of the sweet spot) and the voice of the input sound I (voice of the far end talker) are not generated. The background noise may be estimated based on the sound collected by the microphone Mic.

背景雑音レベル推定部19において、音声が発生しているかどうかの判定(無音区間の判定)は、例えば収音した音の情報を利用した音声区間検出技術を使用するようにしてもよい。また、マイクMicで収音した音にステレオスピーカSp(スピーカSpL、SpR)から出力されたマスキング音Mの成分(立体音響マスキング音)が含まれる場合、背景雑音レベル推定部19は、マイクMicで収音した音から、マスキング音Mの成分を抑圧してから背景雑音レベルの推定を行うことが望ましい。背景雑音レベル推定部19は、マスキング音Mの成分を抑圧する際には、例えば、スペクトル減算法等の種々の目的音強調処理を適用することができる。   The background noise level estimation unit 19 may use, for example, a voice section detection technique using information on collected sound to determine whether a voice is generated (determination of a silent section). When the sound picked up by the microphone Mic includes a component of the masking sound M (three-dimensional acoustic masking sound) output from the stereo speakers Sp (speakers SpL and SpR), the background noise level estimation unit 19 uses the microphone Mic. It is desirable to estimate the background noise level after suppressing the component of the masking sound M from the collected sound. When suppressing the component of the masking sound M, the background noise level estimation unit 19 can apply various target sound emphasizing processes such as spectral subtraction.

出力レベル調整部18は、背景雑音レベル推定部19で推定した背景雑音レベルに応じて、信号混合部14の出力レベルを調整する。出力レベル調整部18は、例えば、信号混合部14が出力する音響信号のパワーと、背景雑音レベル推定部19が推定した背景雑音のパワーとの比が一定になるように、信号混合部14が出力する音響信号のパワーのレベルを調整するようにしてもよい。信号混合部14が出力する音響信号のパワーをS、推定した背景雑音のパワーをNとした場合、出力レベル調整部18は、例えば、SN比(SとNのパワーの比)を10dBとするようにしてもよい。   The output level adjustment unit 18 adjusts the output level of the signal mixing unit 14 in accordance with the background noise level estimated by the background noise level estimation unit 19. The output level adjustment unit 18 is configured such that, for example, the ratio of the power of the acoustic signal output from the signal mixing unit 14 to the power of the background noise estimated by the background noise level estimation unit 19 is constant. The power level of the audio signal to be output may be adjusted. When the power of the acoustic signal output from the signal mixing unit 14 is S and the power of the estimated background noise is N, the output level adjustment unit 18 sets, for example, an SN ratio (ratio of S to N power) to 10 dB. You may do so.

(C−2)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
(C-2) Effects of Third Embodiment According to the third embodiment, the following effects can be achieved.

第3の実施形態では、ユーザUのいる場所(スウィートスポットの領域AS)の背景雑音のレベル(音量)に応じて、信号混合部14の出力レベル(音量)を調節している。第3の実施形態では、例えば、背景雑音のレベルが大きいほど信号混合部14の出力レベルを大きくし、背景雑音のレベルが小さいほど信号混合部14の出力レベルを小さくすることで、ユーザUのいる場所(スウィートスポットの領域AS)の環境に関わらず、ユーザUに対する入力音Iの聞えやすさと、ユーザUのスピーチプライバシーを安定して保つことが出来る。   In the third embodiment, the output level (volume) of the signal mixing unit 14 is adjusted according to the level (volume) of the background noise at the place where the user U is located (the area AS of the sweet spot). In the third embodiment, for example, the output level of the signal mixing unit 14 is increased as the background noise level increases, and the output level of the signal mixing unit 14 is reduced as the background noise level decreases. Regardless of the environment of a place (a sweet spot area AS), it is possible to keep the user U's easy to hear the input sound I and the user U's speech privacy stable.

(D)第4の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
(D) Fourth Embodiment Hereinafter, a fourth embodiment of the sound processing device, program and method according to the present invention will be described in detail with reference to the drawings.

(D−1)第4の実施形態の構成
図7は、第4の実施形態に係る音響信号処理装置10Cの全体構成について示したブロック図である。図7では、上述の図6と同一部分又は対称部分については同一符号又は対称符号を付している。
(D-1) Configuration of Fourth Embodiment FIG. 7 is a block diagram showing the overall configuration of an acoustic signal processing device 10C according to a fourth embodiment. In FIG. 7, the same parts or symmetrical parts as those in FIG.

以下では、第4の実施形態の音響信号処理装置10Cについて第3の実施形態との差異を説明する。   Below, the difference with 3rd Embodiment is demonstrated about 10 C of acoustic signal processing apparatuses of 4th Embodiment.

第3の実施形態の音響信号処理装置10Bでは、マスキング音信号入力部11で入力されたマスキング音Mを立体音響処理して立体音響マスキング音を生成していた。これに対して第4の実施形態の音響信号処理装置10Cでは、第2の実施形態と同様に、マスキング音データベース16及びマスキング音選択部17を備え、マスキング音データベース16から任意の立体音響マスキング音の音響信号を選択して取得し、信号混合部14に供給する処理を行う。したがって、図7に示すように、音響信号処理装置10Cでは、入力音信号入力部12と立体音響処理部13とが、マスキング音データベース16とマスキング音選択部17に置き換えられている点で第3の実施形態と異なっている。   In the acoustic signal processing apparatus 10B of the third embodiment, the masking sound M input at the masking sound signal input unit 11 is subjected to stereo acoustic processing to generate a stereo acoustic masking sound. On the other hand, in the acoustic signal processing apparatus 10C of the fourth embodiment, as in the second embodiment, the masking sound database 16 and the masking sound selection unit 17 are provided, and any three-dimensional sound masking sound from the masking sound database 16 Is selected and acquired, and supplied to the signal mixing unit 14. Therefore, as shown in FIG. 7, in the acoustic signal processing device 10C, the third embodiment differs in that the input sound signal input unit 12 and the three-dimensional sound processing unit 13 are replaced by the masking sound database 16 and the masking sound selection unit 17. It differs from the embodiment of

マスキング音データベース16及びマスキング音選択部17は、第2の実施形態と同様の構成であるため、詳しい説明を省略する。   The masking sound database 16 and the masking sound selection unit 17 have the same configurations as those of the second embodiment, and thus detailed description will be omitted.

第4の実施形態の音響信号処理装置10Cでは、第2の実施形態と同様に、マスキング音選択部17が、マスキング音データベース16から1又は複数の音響信号Xを選択して取得し、信号混合部14に供給する処理を行う。   In the acoustic signal processing apparatus 10C of the fourth embodiment, the masking sound selection unit 17 selects and acquires one or more acoustic signals X from the masking sound database 16 as in the second embodiment, and mixes the signals. A process of supplying to the unit 14 is performed.

(D−2)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
(D-2) Effects of Fourth Embodiment According to the fourth embodiment, the following effects can be achieved.

第4の実施形態の音響信号処理装置10Cでは、立体音響処理を省略し、マスキング音データベース16から立体音響処理された立体音響マスキング音の音響信号Xを取得するため、第3の実施形態と比較してリアルタイムの処理量を低減することができる。   In the acoustic signal processing apparatus 10C of the fourth embodiment, the stereophonic sound processing is omitted, and in order to acquire the acoustic signal X of the stereophonic sound masking sound subjected to stereophonic sound processing from the masking sound database 16, comparison with the third embodiment Real-time throughput can be reduced.

(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(E) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.

(E−1)第2、第4の実施形態の説明では、1種類のマスキング音Mを適用する例について説明したが、複数種類のマスキング音Mを適用するようにしてもよい。例えば、第2、第4の実施形態において、マスキング音データベース16に、マスキング音Mごとに音響信号Xのセットを蓄積するようにしてもよい。例えば、L個(Lは2以上の整数)のマスキング音M(M1〜ML)が存在する場合、マスキング音M1〜MLのそれぞれに対してN個の音響信号X1〜XNを生成して、マスキング音データベース16に蓄積(L・N個の立体音響処理されたマスキング音を蓄積)するようにしてもよい。   (E-1) In the description of the second and fourth embodiments, an example in which one type of masking sound M is applied has been described, but a plurality of types of masking sound M may be applied. For example, in the second and fourth embodiments, the masking sound database 16 may store a set of acoustic signals X for each masking sound M. For example, when L (L is an integer of 2 or more) masking sounds M (M1 to ML) are present, N acoustic signals X1 to XN are generated for each of the masking sounds M1 to ML to perform masking. It is also possible to store in the sound database 16 (store L / N three-dimensional sound processed masking sounds).

10…音響信号処理装置、11…マスキング音信号入力部、12…入力音信号入力部、13…立体音響処理部、14…信号混合部、15…スピーカ出力部、AS…スウィートスポットの領域、D1…方向、D2…方向、F…方向、H…周辺者、I…入力音、MS1…第1の立体音響マスキング音、MS2…第2の立体音響マスキング音、SP…ステレオスピーカ、SpL…左側スピーカ、SpR…右側スピーカ。   DESCRIPTION OF SYMBOLS 10 ... Sound signal processing apparatus, 11 ... Masking sound signal input part, 12 ... Input sound signal input part, 13 ... Three-dimensional sound processing part, 14 ... Signal mixing part, 15 ... Speaker output part, AS ... Area | region of sweet spot, D1 ... direction, D2 ... direction, F ... direction, H ... peripheral, I ... input sound, MS1 ... first stereophonic sound masking sound, MS2 ... second stereophonic sound masking sound, SP ... stereo speaker, SpL ... left side speaker , SpR ... right speaker.

Claims (8)

スピーカに供給する音響信号を生成する音響信号処理装置において、
前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施した立体音響マスキング音を保持する立体音響マスキング音保持手段と、
前記立体音響マスキング音と、前記入力音を混合する混合処理を行い混合音を生成する混合手段と、
前記混合手段が混合した混合音の音響信号を出力する出力手段と
を有することを特徴とする音響信号処理装置。
In an acoustic signal processing device that generates an acoustic signal to be supplied to a speaker,
A masking sound for masking an input sound to be listened to by a listener from the speaker is held, and a stereophonic sound masking sound subjected to stereophonic sound processing localized to a place different from a place where the input sound can be heard by the listener is held. Stereophonic sound masking sound holding means;
Mixing means for mixing the three-dimensional sound masking sound and the input sound to generate a mixed sound;
An acoustic signal processing apparatus, comprising: output means for outputting an acoustic signal of mixed sound mixed by the mixing means.
前記立体音響マスキング音保持手段は、前記マスキング音が供給されると、前記マスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施して前記立体音響マスキング音を保持することを特徴とする請求項1に記載の音響信号処理装置。   The stereophonic sound masking sound holding means performs stereophonic sound processing to localize the masking sound to a place different from the place where the input sound can be heard by the listener, when the masking sound is supplied, to the stereophonic sound masking The acoustic signal processing apparatus according to claim 1, which holds a sound. 前記立体音響マスキング音保持手段は、
複数の立体音響マスキング音を蓄積しているデータベースと、
前記データベースから1又は複数の立体音響マスキング音を選択して保持する選択手段と
を有することを特徴とする請求項1に記載の音響信号処理装置。
The three-dimensional sound masking sound holding means is
A database storing multiple 3D sound masking sounds,
The acoustic signal processing apparatus according to claim 1, further comprising: selection means for selecting and holding one or more three-dimensional sound masking sounds from the database.
前記混合手段は、前記入力音の音量、及び又は、立体音響マスキング音の音量を調節して混合することを特徴とする請求項1に記載の音響信号処理装置。   The sound signal processing apparatus according to claim 1, wherein the mixing unit adjusts and mixes the volume of the input sound and / or the volume of a three-dimensional sound masking sound. 前記聴者の居る場所の音を捕捉する捕捉手段と、
前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、
前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段とをさらに有する
ことを特徴とする請求項1〜4のいずれかに記載の音響信号処理装置。
Capturing means for capturing the sound of the place where the listener is located;
A background noise estimating unit that estimates the volume of background noise at the location of the listener based on the sound captured by the capturing means;
The adjusting apparatus according to any one of claims 1 to 4, further comprising: adjusting means for adjusting the volume of the mixed sound generated by the mixing means based on the volume of the background noise estimated by the background noise estimating unit. The acoustic signal processing apparatus as described.
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする請求項5に記載の音響信号処理装置。   The adjustment means adjusts the volume of the mixed sound so that the ratio of the volume of the mixed sound to the volume of the background noise estimated by the background noise estimation unit is constant. The acoustic signal processing device according to claim 1. スピーカに供給する音響信号を生成する音響信号処理装置に搭載されたコンピュータを、
前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施した立体音響マスキング音を保持する立体音響マスキング音保持手段と、
前記立体音響マスキング音と、前記入力音を混合する混合処理を行い混合音を生成する混合手段と、
前記混合手段が混合した混合音の音響信号を出力する出力手段
して機能させることを特徴とする音響再生プログラム。
A computer mounted on an acoustic signal processing device that generates an acoustic signal to be supplied to a speaker;
A masking sound for masking an input sound to be listened to by a listener from the speaker is held, and a stereophonic sound masking sound subjected to stereophonic sound processing localized to a place different from a place where the input sound can be heard by the listener is held. Stereophonic sound masking sound holding means;
Mixing means for mixing the three-dimensional sound masking sound and the input sound to generate a mixed sound;
A sound reproducing program characterized by functioning as an output means which outputs an acoustic signal of mixed sound mixed by the mixing means.
スピーカに供給する音響信号を生成する音響信号処理装置が行う音響信号処理方法において、
立体音響マスキング音保持手段、混合手段、及び出力手段を有し、
前記立体音響マスキング音保持手段は、前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施した立体音響マスキング音を保持し、
前記混合手段は、前記立体音響マスキング音と、前記入力音を混合する混合処理を行い混合音を生成し、
前記出力手段は、前記混合手段が混合した混合音の音響信号を出力する
ことを特徴とする音響再生方法。
An acoustic signal processing method performed by an acoustic signal processing device that generates an acoustic signal to be supplied to a speaker
3D sound masking sound holding means, mixing means, and output means,
The stereophonic sound masking sound holding means performs stereophonic sound processing to localize the masking sound for masking the input sound to be listened to by the listener from the speaker to a place different from the place where the input sound can be heard by the listener Hold the applied 3D sound masking sound,
The mixing means performs mixing processing for mixing the three-dimensional sound masking sound and the input sound to generate a mixed sound.
The sound reproduction method, wherein the output means outputs an acoustic signal of the mixed sound mixed by the mixing means.
JP2017190242A 2017-09-29 2017-09-29 Sound processing equipment, programs and methods Active JP6972858B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017190242A JP6972858B2 (en) 2017-09-29 2017-09-29 Sound processing equipment, programs and methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017190242A JP6972858B2 (en) 2017-09-29 2017-09-29 Sound processing equipment, programs and methods

Publications (2)

Publication Number Publication Date
JP2019066601A true JP2019066601A (en) 2019-04-25
JP6972858B2 JP6972858B2 (en) 2021-11-24

Family

ID=66340518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017190242A Active JP6972858B2 (en) 2017-09-29 2017-09-29 Sound processing equipment, programs and methods

Country Status (1)

Country Link
JP (1) JP6972858B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7487772B2 (en) 2020-06-04 2024-05-21 日本電信電話株式会社 Method for generating communication environment, device for generating communication environment, and program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098631A (en) * 2010-11-05 2012-05-24 Yamaha Corp Sound processing device
JP2012119785A (en) * 2010-11-29 2012-06-21 Yamaha Corp Communication system
JP2014174255A (en) * 2013-03-07 2014-09-22 Sony Corp Signal processing device, signal processing method, and storage medium
WO2016088306A1 (en) * 2014-12-03 2016-06-09 株式会社ソシオネクスト Sound reproduction system
JP2016133647A (en) * 2015-01-20 2016-07-25 株式会社リコー Communication system, method, device, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098631A (en) * 2010-11-05 2012-05-24 Yamaha Corp Sound processing device
JP2012119785A (en) * 2010-11-29 2012-06-21 Yamaha Corp Communication system
JP2014174255A (en) * 2013-03-07 2014-09-22 Sony Corp Signal processing device, signal processing method, and storage medium
WO2016088306A1 (en) * 2014-12-03 2016-06-09 株式会社ソシオネクスト Sound reproduction system
JP2016133647A (en) * 2015-01-20 2016-07-25 株式会社リコー Communication system, method, device, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7487772B2 (en) 2020-06-04 2024-05-21 日本電信電話株式会社 Method for generating communication environment, device for generating communication environment, and program

Also Published As

Publication number Publication date
JP6972858B2 (en) 2021-11-24

Similar Documents

Publication Publication Date Title
US11991315B2 (en) Audio conferencing using a distributed array of smartphones
US11037544B2 (en) Sound output device, sound output method, and sound output system
US10869142B2 (en) Hearing aid with spatial signal enhancement
US8073125B2 (en) Spatial audio conferencing
US9578440B2 (en) Method for controlling a speaker array to provide spatialized, localized, and binaural virtual surround sound
JP5325988B2 (en) Method for rendering binaural stereo in a hearing aid system and hearing aid system
Rämö et al. Digital augmented reality audio headset
EP1902597B1 (en) A spatial audio processing method, a program product, an electronic device and a system
EP3468228B1 (en) Binaural hearing system with localization of sound sources
Mueller et al. Localization of virtual sound sources with bilateral hearing aids in realistic acoustical scenes
KR20090077934A (en) Method and apparatus for recording, transmitting, and playing back sound events for communication applications
EP2806661B1 (en) A hearing aid with spatial signal enhancement
US8666080B2 (en) Method for processing a multi-channel audio signal for a binaural hearing apparatus and a corresponding hearing apparatus
JP2006279492A (en) Interactive teleconference system
JP6972858B2 (en) Sound processing equipment, programs and methods
EP2216975A1 (en) Telecommunication device
JP2006352728A (en) Audio apparatus
JP2004274147A (en) Sound field fixed multi-point talking system
WO2017211448A1 (en) Method for generating a two-channel signal from a single-channel signal of a sound source
Shabtai et al. Spherical array processing with binaural sound reproduction for improved speech intelligibility
JP2662824B2 (en) Conference call terminal
Chen et al. Enhancing stereophonic teleconferencing with microphone arrays through sound field warping
Riikonen Käyttäjäkeskeinen akustiikka kahdensuuntaisessa lisätyn audiotodellisuuden järjestelmässä

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210827

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210827

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210907

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6972858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150