JP2018152834A - Method and apparatus for controlling audio signal output in virtual auditory environment - Google Patents

Method and apparatus for controlling audio signal output in virtual auditory environment Download PDF

Info

Publication number
JP2018152834A
JP2018152834A JP2017113712A JP2017113712A JP2018152834A JP 2018152834 A JP2018152834 A JP 2018152834A JP 2017113712 A JP2017113712 A JP 2017113712A JP 2017113712 A JP2017113712 A JP 2017113712A JP 2018152834 A JP2018152834 A JP 2018152834A
Authority
JP
Japan
Prior art keywords
azimuth
information
orientation
sound source
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017113712A
Other languages
Japanese (ja)
Inventor
彦 王
Yan Wang
彦 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Dynabook Inc
Original Assignee
Toshiba Corp
Toshiba Client Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Client Solutions Co Ltd filed Critical Toshiba Corp
Publication of JP2018152834A publication Critical patent/JP2018152834A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Abstract

PROBLEM TO BE SOLVED: To provide a method and an apparatus for controlling an audio signal output capable of causing a listener to obtain a real virtual auditory experience.SOLUTION: An apparatus for controlling audio signal output in a virtual auditory environment includes: audio input means arranged to receive one or more audio signals corresponding to one or more sound sources in a virtual auditory environment; azimuth information acquisition means arranged to acquire azimuth information of an object in a virtual auditory environment; identification means that is disposed for identifying a collection of one or more pieces of sound source directional data corresponding to directional information respectively representing transmission characteristics with which one or more sound sources transmit sound waves in directions corresponding to the directional information in a virtual auditory environment; processing means arranged to respectively process one or more sound signals on the basis of a collection of one or more sound source orientation data to obtain a binaural sound signal; and sound output means arranged to output the binaural sound signal.SELECTED DRAWING: Figure 1

Description

本発明の実施形態は仮想聴覚技術に関し、特に仮想聴覚環境において音声信号出力を制御する方法及び装置に関する。   Embodiments of the present invention relate to virtual auditory technology, and more particularly to a method and apparatus for controlling audio signal output in a virtual auditory environment.

人間の聴覚は、視覚以外で外界情報を感知するもう1つの重要なルートである。現実聴覚環境において、音源から放射される音波は、直達及び環境反射のルートを介して傾聴者に伝送され、また傾聴者の頭部、耳介、胴体などの生理的構造によって散乱又は反射した後に両耳に伝送されるため、両耳に受信される音圧信号は、音源及び環境の音響空間情報を含む。聴覚系(高層神経系を含む)はこれらの情報を用いて、相応の空間的聴覚、及び音源の位置決めと周囲の音響環境に対する主観的感覚を生じる。   Human hearing is another important route for sensing external information other than vision. In a real auditory environment, sound waves radiated from a sound source are transmitted to the listener via direct and environmental reflection routes, and after being scattered or reflected by physiological structures such as the listener's head, pinna, and trunk. Since it is transmitted to both ears, the sound pressure signal received by both ears includes the sound space information and the acoustic space information of the environment. The auditory system (including the higher nervous system) uses this information to produce a corresponding spatial hearing and a subjective sense of the sound source positioning and the surrounding acoustic environment.

仮想聴覚環境は、自然音響環境に身を置いたような感覚を傾聴者に生じるように、人工的に発生し、又は音響環境を制御したものである。バイノーラル音声信号は音声の主な情報を含むため、バイノーラル音声信号を人工的にシミュレーションすると共にイヤホン又はスピーカで再生するという方法によって、特定の音響環境に身を置いたような主観的感覚を傾聴者に生じることができる。   The virtual auditory environment is generated artificially or the acoustic environment is controlled so that a listener feels a sense of being placed in a natural acoustic environment. Since the binaural audio signal contains the main information of the audio, the listener senses the subjective sensation as if he was placed in a specific acoustic environment by artificially simulating the binaural audio signal and reproducing it with an earphone or speaker. Can occur.

従来技術には、イヤホン又はスピーカによって傾聴者に相応の空間的聴覚を仮想させる幾つかの方案が開示されている。例えば、特許文献1では、5.1chサラウンドのイヤホン再生の信号処理の方法が提供されており、その方法を用いることでイヤホン再生の頭内位置決め効果を消去することができ、且つリスニングルームの部屋反射音をシミュレーションする必要がない前提で、自然な5.1chサラウンド効果を再生することができる。   In the prior art, several methods have been disclosed in which a listener can virtually imagine a corresponding spatial hearing by an earphone or a speaker. For example, Patent Document 1 provides a signal processing method for 5.1-channel surround earphone playback. By using this method, it is possible to eliminate the intra-head positioning effect of the earphone playback, and a room in a listening room. A natural 5.1ch surround effect can be reproduced on the premise that it is not necessary to simulate the reflected sound.

現在のこれらの方案において、イヤホン又はスピーカによって傾聴者に自然な空間的聴覚の効果のみが提供される。しかしながら、傾聴者自身が移動又は回転する際に、感じた音場はそれに伴って変化することなく、より迫真の没入効果を得ることができない。   In these current schemes, earphones or speakers only provide the listener with a natural spatial auditory effect. However, when the listener himself / herself moves or rotates, the sound field that he / she feels does not change accordingly, and a more realistic immersion effect cannot be obtained.

中国特許出願公開第CN1402593号明細書China Patent Application Publication No. CN1402593

本発明が解決しようとする課題は、仮想的な聴覚環境を構築し、それに身を置いた傾聴者は自身の物理方位の相違に応じてその物理方位に適合する音声効果が聞こえ、これにより傾聴者にリアルな仮想聴覚体験を得させることができ、さらに、その仮想聴覚環境は傾聴者の物理方位の変化に伴って調整し、傾聴者にその物理方位の変化に適合する音声効果を感じさせることにより、傾聴者の仮想聴覚体験を強化することができる音声信号出力を制御する方法及び装置を提供することである。   The problem to be solved by the present invention is that a virtual auditory environment is constructed, and a listener who is placed on the virtual auditory environment hears a sound effect adapted to the physical orientation according to the difference in his / her physical orientation, thereby listening. Allows the listener to obtain a realistic virtual auditory experience, and further adjusts the virtual auditory environment according to the change in the physical orientation of the listener so that the listener can feel the sound effect adapted to the change in the physical orientation. Accordingly, it is an object of the present invention to provide a method and apparatus for controlling audio signal output that can enhance the virtual auditory experience of a listener.

本発明の一実施例による仮想聴覚環境において音声信号出力を制御する方法は、前記仮想聴覚環境におけるオブジェクトの方位情報を取得する第1取得ステップと、前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記方位情報に対応する1つ又は複数の音源方位データの集合を特定する第1特定ステップと、出力するためのバイノーラル音声信号を得るように、前記1つ又は複数の音源方位データの集合に基づいて、前記1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する第1処理ステップと、を含む。   According to an embodiment of the present invention, a method for controlling audio signal output in a virtual auditory environment includes a first acquisition step of acquiring azimuth information of an object in the virtual auditory environment, and 1 in the virtual auditory environment for the object. A first specifying step of specifying a set of one or more sound source azimuth data corresponding to the azimuth information, each of which represents transmission characteristics in which one or a plurality of sound sources transmit sound waves in a direction corresponding to the azimuth information; First processing for processing one or a plurality of audio signals corresponding to the one or the plurality of sound sources based on the set of the one or more sound source azimuth data so as to obtain a binaural sound signal for performing Steps.

更なる実施例において、前記方法は、前記仮想聴覚環境における前記オブジェクトの変化後の方位情報を取得する第2取得ステップと、前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記変化後の方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定する第2特定ステップと、出力するためのバイノーラル音声信号を得るように、前記別の1つ又は別の複数の音源方位データの集合に基づいて、前記1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する第2処理ステップと、をさらに含む。   In a further embodiment, the method includes a second acquisition step of acquiring azimuth information after the change of the object in the virtual auditory environment, and one or more sound sources in the virtual auditory environment for the object. Second specification for specifying another one or another set of sound source azimuth data corresponding to the changed azimuth information, each representing transmission characteristics for transmitting a sound wave in the azimuth corresponding to the changed azimuth information One or more sounds corresponding to the one or more sound sources based on the set of one or more other sound source orientation data to obtain a step and a binaural sound signal to output A second processing step for processing each of the signals.

本発明の一実施例による仮想聴覚環境において音声信号出力を制御する装置は、前記仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号を受信するように配置される音声入力手段と、前記仮想聴覚環境におけるオブジェクトの方位情報を取得するように配置される方位情報取得手段と、前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記方位情報に対応する1つ又は複数の音源方位データの集合を特定するように配置される特定手段と、バイノーラル音声信号を得るように、前記1つ又は複数の音源方位データの集合に基づいて、前記1つ又は複数の音声信号をそれぞれ処理するように配置される処理手段と、前記バイノーラル音声信号を出力するように配置される音声出力手段と、を備える。   An apparatus for controlling audio signal output in a virtual auditory environment according to an embodiment of the present invention is arranged to receive one or more audio signals corresponding to one or more sound sources in the virtual auditory environment. Input means, orientation information acquisition means arranged to acquire the orientation information of the object in the virtual auditory environment, and one or more sound sources in the virtual auditory environment for the object Identifying means arranged to identify a set of one or more sound source azimuth data corresponding to the azimuth information, each representing a transmission characteristic transmitted in a azimuth corresponding to, and so as to obtain a binaural audio signal Processing means arranged to process each of the one or more audio signals based on a set of one or more sound source orientation data; Serial and an audio output means arranged to output a binaural audio signal.

更なる実施例において、前記方位情報取得手段はさらに、前記仮想聴覚環境における前記オブジェクトの変化後の方位情報を取得するように配置され、前記特定手段はさらに、前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記変化後の方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定するように配置され、前記処理手段はさらに、バイノーラル音声信号を得るように、前記別の1つ又は別の複数の音源方位データの集合に基づいて、前記1つ又は複数の音声信号をそれぞれ処理するように配置される。   In a further embodiment, the azimuth information acquisition means is further arranged to acquire azimuth information after the change of the object in the virtual auditory environment, and the specifying means further includes the virtual auditory sense for the object. One or more other sound source orientations corresponding to the changed orientation information, each representing a transmission characteristic in which one or more sound sources in the environment transmit sound waves in the orientation corresponding to the changed orientation information Arranged to identify a set of data, and the processing means is further adapted to obtain the binaural audio signal based on the one or more other sets of sound source azimuth data. It arrange | positions so that an audio | voice signal may be processed, respectively.

本発明の実施例による単一オブジェクト仮想聴覚環境において音声信号出力を制御する装置の構成ブロック図。1 is a block diagram illustrating a configuration of an apparatus for controlling audio signal output in a single object virtual auditory environment according to an embodiment of the present invention. 本発明の実施例による単一オブジェクト仮想現実システムの模式図。1 is a schematic diagram of a single object virtual reality system according to an embodiment of the present invention. FIG. 本発明の実施例による単一オブジェクト仮想聴覚環境において音声信号出力を制御する方法のフローチャート。5 is a flowchart of a method for controlling audio signal output in a single object virtual auditory environment according to an embodiment of the present invention. 本発明の実施例による多重オブジェクト仮想聴覚環境において音声信号出力を制御する装置の構成ブロック図。1 is a block diagram of an apparatus for controlling audio signal output in a multi-object virtual auditory environment according to an embodiment of the present invention. 本発明の実施例による多重オブジェクト仮想現実システムの模式図。1 is a schematic diagram of a multiple object virtual reality system according to an embodiment of the present invention. 本発明の実施例による多重オブジェクト仮想聴覚環境において音声信号出力を制御する方法のフローチャート。4 is a flowchart of a method for controlling audio signal output in a multi-object virtual auditory environment according to an embodiment of the present invention.

音源が音波をある具体的な方位に伝送する伝送特性は関数データの集合として表されることができ、このような音波伝送特性を示す関数データの集合は、音声信号が前記音源が音波をその方位に伝送する伝送特性を表すように、音声信号を処理するために用いることができる。このような処理された音声信号が再生機器によって音声に変換される場合、その音声は、傾聴者が仮想的な音源空間方位を感じられるように、前記音源が音波をその方位に伝送する伝送特性を表す。複数の関数データの集合を用いて音源が音波を複数の具体的な方位に伝送する伝送特性をそれぞれ表し、その複数の関数データの集合を用いて音声信号をそれぞれ処理すれば、前記音源が音波を複数の具体的な方位に伝送する伝送特性をそれぞれ音声信号に表せることができる。このような方案によって仮想的な聴覚環境を構築することができ、これに基づき、傾聴者の現実の物理方位を仮想聴覚環境における具体的な方位に映し、傾聴者の異なる現実の物理方位と仮想聴覚環境における異なる具体的な方位との間で対応関係を付ければ、傾聴者は自身の物理方位の相違に応じて自身の物理方位に適合する音声効果が聞こえる。本発明に提出されるこのような技術案により、傾聴者に感じられる音声は既定の空間的な方位感覚を変わらずに発現するわけではなくなり、傾聴者の物理方位に適合する空間的な方位感覚を発現可能になる。   A transmission characteristic in which a sound source transmits sound waves in a specific direction can be represented as a set of function data. A set of function data indicating such sound wave transmission characteristics indicates that a sound signal is transmitted from a sound source. It can be used to process audio signals so as to represent transmission characteristics transmitted in a direction. When such a processed audio signal is converted into audio by a playback device, the audio is transmitted in such a manner that the sound source transmits sound waves in that direction so that the listener can feel the virtual sound source space direction. Represents. Each sound source represents a transmission characteristic in which a sound source transmits sound waves in a plurality of specific directions using a set of a plurality of function data, and each sound signal is processed using each of the plurality of function data sets. Can be represented in the audio signal, respectively. A virtual auditory environment can be constructed by such a plan, and based on this, the physical physical orientation of the listener is reflected in a specific orientation in the virtual auditory environment, and the actual physical orientation and virtual of the listener are different. If a correspondence is established between different specific orientations in the auditory environment, the listener can hear a sound effect that matches the physical orientation according to the difference in the physical orientation of the listener. With such a technical proposal submitted to the present invention, the sound perceived by the listener does not express the predetermined spatial orientation sense, and the spatial orientation sense that matches the physical orientation of the listener. Can be expressed.

本発明の技術案において、音波伝送特性を表すための前記関数データの集合は、音源方位データの集合と称する。本発明に適用される音源方位データの集合は、例えば頭部関連の伝達関数データ(Head Related Transfer Function、HRTF)の集合、両耳間の時間差データ(Interaural Time Difference、ITD)の集合、両耳間の強度差データ(IID)の集合などの、音源から発される音波がある方位に伝送される伝送特性を表すことができる、如何なる適切なデータの集合であってもよい。   In the technical solution of the present invention, the set of function data for representing the sound wave transmission characteristics is referred to as a set of sound source direction data. The set of sound source direction data applied to the present invention includes, for example, a set of head related transfer function data (HRTF), a set of interaural time difference (ITD) data, and binaural Any suitable set of data that can represent the transmission characteristics of sound waves emitted from a sound source transmitted in a certain direction, such as a set of intensity difference data (IID) between them.

ITDは、音源から左・右耳までの距離差異による、音信号が両耳に到達する際の時間差のことをいう。IIDは、音源から左・右耳までの距離差異による、音信号が両耳に到達する際の強度差のことをいう。ITDとIIDは何れも音源位置及び音波の周波数の関数である。音源位置決めデータの集合がITDとIIDデータの集合である場合、ユーザは、音源がその左側に位置するか、それとも右側に位置するかを識別することができる。   ITD refers to the time difference when a sound signal reaches both ears due to the difference in distance from the sound source to the left and right ears. IID refers to an intensity difference when a sound signal reaches both ears due to a difference in distance from the sound source to the left and right ears. ITD and IID are both functions of sound source position and sound wave frequency. If the set of sound source positioning data is a set of ITD and IID data, the user can identify whether the sound source is located on the left side or the right side thereof.

HRTFは自由音場の場合の音源から両耳までの音響伝送関数であり、自由音場における音源から発される音波が一定の角度で耳道内のある点に入射する際に発生する特徴変化を表すために用いられる。HRTFは、音源位置、音波の周波数及び人体表面形状と性質の関数である。音源から人体測定点までの単位インパルス応答は、頭部関連のインパルス応答(Head Related Impulse Response,HRIR)と称する。HRTFはHRIRのフーリエ変換である。音源位置決めデータの集合がHRTFデータの集合である場合、ユーザは、音源がその前方に位置するか、后方に位置するか、上方に位置するか、下方に位置するか、左側に位置するか、それとも右側に位置するかを識別することができる。   HRTF is an acoustic transfer function from a sound source to both ears in the case of a free sound field, and a characteristic change that occurs when a sound wave emitted from a sound source in a free sound field is incident on a point in the ear canal at a certain angle. Used to represent. HRTF is a function of sound source position, sound wave frequency, and human body surface shape and properties. The unit impulse response from the sound source to the human body measurement point is referred to as a head related impulse response (HRIR). HRTF is the Fourier transform of HRIR. If the set of sound source positioning data is a set of HRTF data, the user can determine whether the sound source is located in front of it, located behind, located above, located below, located on the left side, Or it can be identified whether it is located on the right side.

本発明をよりよく理解するように、後文ではHRTFデータの集合を例として本発明の技術案における音源方位データの集合の適用を説明する。本発明の各実施例を詳細に説明する前に、まずはHRTFの取得方式を簡単に紹介する。   In order to better understand the present invention, an application of a set of sound source azimuth data in the technical solution of the present invention will be described below by taking a set of HRTF data as an example. Before describing each embodiment of the present invention in detail, first, an HRTF acquisition method will be briefly introduced.

HRTFは実験測定によって取得されることができる。測定は通常自由音場(例えば、消音室)内で行われる。HRTFの測定原理は、通常の音響伝送関数の測定に類似する。音源(例えば、小型スピーカシステム)は励起信号を発生させ、1対のマイクロフォンを用いて検体の両耳における音圧信号をピックアップし、次に信号処理の方法で伝送関数を求める。音源と検体との間の相対的な位置を変えることによって、異なる音源位置のHRTFを得ることができる。両耳における音圧信号のピックアップについて、人口頭部モデルの検体に対しては、マイクロフォンを耳道シミュレーターの末端に置くことができ、鼓膜の位置で測定することに相当する。また、人間の検体に対しては、超小型マイクロフォンを閉鎖の耳道口に置いて測定することができる。   The HRTF can be obtained by experimental measurements. Measurements are usually made in a free sound field (eg, a muffler room). The measurement principle of HRTF is similar to the measurement of normal acoustic transfer function. A sound source (for example, a small speaker system) generates an excitation signal, picks up a sound pressure signal in both ears of the specimen using a pair of microphones, and then obtains a transfer function by a signal processing method. By changing the relative position between the sound source and the specimen, HRTFs at different sound source positions can be obtained. For picking up sound pressure signals in both ears, for a human head model specimen, a microphone can be placed at the end of the ear canal simulator, which corresponds to measuring at the location of the eardrum. For human specimens, an ultra-small microphone can be placed in the closed ear canal for measurement.

HRTFは、計算の方式で取得されることもできる。例えば、頭部を剛性球に簡略化し、両耳を球面上の対向する2つの点に簡略化して、剛性球が平面に波を入射するRaylei散乱公式を用いてHRTFを算出することができる。また例えば、胴体の影響を考慮する場合に、頭部と胴体を半径が異なる2つの球に簡略化し、グリーン関数及び多重散乱の方法を用いてHRTFを算出することができる。また、レーザー又はCTスキャンなどの方法を用いて研究対象の外形をコンピュータ画像に変換し、近似方法を用いてHRTFを算出することもできる。   The HRTF can also be obtained by a calculation method. For example, the HRTF can be calculated using the Raylei scattering formula, in which the head is simplified to a rigid sphere and both ears are simplified to two opposing points on the sphere, and the rigid sphere impinges a wave on the plane. For example, when the influence of the trunk is taken into consideration, the head and the trunk can be simplified to two spheres having different radii, and the HRTF can be calculated using the Green function and the multiple scattering method. It is also possible to convert the outline of the research object into a computer image using a method such as laser or CT scan, and calculate the HRTF using an approximation method.

以上はHRTFを取得する若干の既知の方式を挙げたのみであるが、如何なる既知の又は将来開発する可能性のある方式によって取得されたHRTFは何れも本発明の基本的な思想に適用することができるため、本発明の保護範囲内に含まれると理解すべきである。   The above is only a few known methods for acquiring HRTFs, but any HRTF acquired by any known or possibly developed method applies to the basic idea of the present invention. Therefore, it should be understood that it falls within the protection scope of the present invention.

以下では、図面を合わせて、それぞれ単一オブジェクト仮想聴覚環境と多重オブジェクト仮想聴覚環境について、本発明の各実施例を説明する。前記仮想聴覚環境は、例えば仮想航空・宇宙飛行訓練、仮想軍事訓練、仮想エンタテインメントシステム、仮想会議システム等の多種のシーンに適用することができる。通常の場合に、以上で挙げられた各種の適用シーンは仮想聴覚環境と仮想視覚環境とを同時に含み、両者は互いに協同して相対的に完全な仮想現実環境を構築する。その仮想現実環境において、ユーザは体験者として仮想現実環境におけるオブジェクトに映され、ユーザの行為は相応に仮想現実環境におけるオブジェクトの活動に映され、例えば、ユーザは、現実環境における自身の運動によって仮想現実シーンにおけるオブジェクトの運動を実現することができる。後文では、理解及び記載の便宜のために、現実世界におけるユーザと仮想現実環境におけるユーザが映されるオブジェクトとを厳格に区別しないことを説明する必要がある。例えば、仮想現実環境におけるオブジェクトの方位情報を取得する必要があれば、実際の操作ステップは、ユーザに付けられる方位検出手段によって、現実におけるユーザの物理方位を検出してから、現実世界のユーザと仮想現実環境におけるオブジェクトとの間の対応関係に基づいて仮想現実環境におけるオブジェクトの方位情報を取得するということである。理解及び記載の便宜のために、この種類の操作を直接に、オブジェクトの方位情報を検出することと称することができる。また、本発明に記載の仮想聴覚環境は、仮想視覚環境に依存せずに、単独で存在することができることを説明する必要もある。   In the following, embodiments of the present invention will be described for a single object virtual auditory environment and a multi-object virtual auditory environment, respectively, with reference to the drawings. The virtual auditory environment can be applied to various scenes such as virtual aerospace training, virtual military training, virtual entertainment system, and virtual conference system. In a normal case, the various application scenes listed above include a virtual auditory environment and a virtual visual environment at the same time, and both cooperate with each other to construct a relatively complete virtual reality environment. In the virtual reality environment, the user is reflected in the object in the virtual reality environment as an experience person, and the user's action is correspondingly reflected in the activity of the object in the virtual reality environment. The movement of the object in the real scene can be realized. In the latter part, for convenience of understanding and description, it is necessary to explain that the user in the real world and the object in which the user in the virtual reality environment is not strictly distinguished. For example, if it is necessary to acquire the orientation information of the object in the virtual reality environment, the actual operation step is performed by detecting the physical physical orientation of the user in the real world by the orientation detection means attached to the user, and then the user in the real world. That is, the orientation information of the object in the virtual reality environment is acquired based on the correspondence relationship with the object in the virtual reality environment. For convenience of understanding and description, this type of operation can be referred to as directly detecting object orientation information. It is also necessary to explain that the virtual auditory environment described in the present invention can exist independently without depending on the virtual visual environment.

単一オブジェクト仮想聴覚環境
図1には、本発明の実施例による単一オブジェクト仮想聴覚環境において音声信号出力を制御する装置10(以下では「装置10」と略称)を示す。単一オブジェクト仮想聴覚環境において、オブジェクトの数は1つのみである。図1に示すように、装置10は、音声入力手段110、方位情報取得手段120、特定手段130、処理手段140及び音声出力手段150を含む。
Single Object Virtual Auditory Environment FIG. 1 shows an apparatus 10 (hereinafter abbreviated as “apparatus 10”) for controlling audio signal output in a single object virtual auditory environment according to an embodiment of the present invention. In a single object virtual auditory environment, there is only one object. As shown in FIG. 1, the apparatus 10 includes a voice input unit 110, a direction information acquisition unit 120, a specifying unit 130, a processing unit 140, and a voice output unit 150.

図1を参照して、音声入力手段110は音声信号を受信して処理手段140に伝送するためのものである。音声信号は、例えばマイクロフォンにより収集された音声信号、又は音声プレイヤーから出力される音声信号であってもよい。音声信号は、例えばモノラル、2チャンネル又はステレオ音声信号であってもよい。   Referring to FIG. 1, voice input means 110 is for receiving a voice signal and transmitting it to processing means 140. The audio signal may be, for example, an audio signal collected by a microphone or an audio signal output from an audio player. The audio signal may be, for example, a monaural, 2-channel or stereo audio signal.

仮想聴覚環境におけるオブジェクトの方位を特定するために、方位情報取得手段120は、オブジェクトの方位情報を取得する。その方位情報は、その単一オブジェクト仮想聴覚環境におけるオブジェクトの方位を含む。   In order to specify the orientation of the object in the virtual auditory environment, the orientation information acquisition unit 120 acquires the orientation information of the object. The orientation information includes the orientation of the object in the single object virtual auditory environment.

オブジェクトの方位情報は、方位情報提供手段(未図示)によって方位情報取得手段120に提供することができる。方位情報提供手段の機能は、多種の方式によって実現することができ、これらの方式は単独で使用してもよく、組み合わせて使用してもよい。例えば、ユーザは方位検出手段を装備し、方位検出手段によってユーザが仮想聴覚環境において映されたオブジェクトの方位を検出し、検出した方位情報を方位情報取得手段120に提供することができる。或いは、ユーザはユーザ入力インターフェイスを装備し、ユーザ入力インターフェイスによってユーザが仮想聴覚環境において映されたオブジェクトの方位についての入力を受信し、方位情報を方位情報取得手段120に提供することもできる。方位検出手段は、ジャイロ、コンパス、加速度計などの、オブジェクト方位を検出するために用いられる任意の適切な素子及び素子の組合せであってもよい。ユーザ入力インターフェイスの入力は、文字、符号、音声、又はインターフェイスにおけるアイコンに対するクリック、ドラッグなどの多種の方式を含んでもよい。   The azimuth information of the object can be provided to the azimuth information acquisition means 120 by the azimuth information provision means (not shown). The function of the direction information providing means can be realized by various methods, and these methods may be used alone or in combination. For example, the user can be equipped with an orientation detection means, and the orientation detection means can detect the orientation of the object shown in the virtual auditory environment and provide the detected orientation information to the orientation information acquisition means 120. Alternatively, the user may be provided with a user input interface, and the user input interface may receive an input about the direction of the object imaged in the virtual auditory environment and provide the direction information to the direction information acquisition unit 120. The orientation detection means may be any suitable element and combination of elements used to detect object orientation, such as a gyro, compass, accelerometer or the like. The input of the user input interface may include various methods such as clicking, dragging on characters, symbols, sounds, or icons in the interface.

方位情報取得手段120はオブジェクトの方位情報を取得した後に、特定手段130に伝送する。特定手段130はオブジェクトの方位情報に基づいて、そのオブジェクトに対してその方位情報に対応する1つ又は複数のHRTFデータの集合を特定すると共に、特定情報を処理手段140に伝送する。特定情報は多種の形式であってもよく、例えば、特定情報は1つ又は複数のHRTFデータの集合そのものを含んでもよいが、或いは特定された1つ又は複数のHRTFデータの集合のインデックスのみを含んでもよい。後者について、処理手段140には、各インデックスに対応するHRTFデータの集合が記憶される必要がある。   The azimuth information acquisition unit 120 acquires the azimuth information of the object and then transmits it to the identification unit 130. Based on the direction information of the object, the specifying unit 130 specifies a set of one or a plurality of HRTF data corresponding to the direction information for the object, and transmits the specific information to the processing unit 140. The specific information may be in various formats, for example, the specific information may include the set of one or more HRTF data itself, or only the index of the specified set of one or more HRTF data. May be included. Regarding the latter, the processing means 140 needs to store a set of HRTF data corresponding to each index.

上述のそのオブジェクトに対して特定された1つ又は複数のHRTFデータの集合は、単一オブジェクト仮想聴覚環境における1つ又は複数の音源が音波をそのオブジェクトの存在する方位に伝送する伝送特性を表すために用いられる。単一オブジェクト仮想聴覚環境においてそのオブジェクトに対する音源が単一の音源である場合、特定手段130は、そのオブジェクトのみに対してその単一の音源に対応する1つのHRTFデータの集合を特定する。単一オブジェクト仮想聴覚環境においてそのオブジェクトに対する音源が複数の音源である場合、特定手段130は、そのオブジェクトに対してその複数の音源に対応する複数のHRTFデータの集合を特定する。   The set of one or more HRTF data specified for the object described above represents a transmission characteristic in which one or more sound sources in a single object virtual auditory environment transmit sound waves in the direction in which the object exists. Used for. When the sound source for the object is a single sound source in the single object virtual auditory environment, the specifying unit 130 specifies a set of one HRTF data corresponding to the single sound source only for the object. When the sound source for the object is a plurality of sound sources in the single object virtual auditory environment, the specifying unit 130 specifies a set of a plurality of HRTF data corresponding to the plurality of sound sources for the object.

仮想聴覚環境における音源が音波をオブジェクトの存在する方位に伝送する伝送特性を表すためのHRTFデータの集合は、実験測定方式又は算出方式によって取得されることができる。1つの例において、実験測定又は算出方式によって互いに1つ1つ対応する方位情報とHRTFデータの集合を予め取得することができる。得られた対応関係は、装置10の内部の記憶手段(未図示)に予め記憶されてもよく、或いは装置10外の外部メモリ予め記憶されてもよい。この例において、特定手段130はそのオブジェクトの方位情報、及び予め記憶された方位情報とHRTFデータの集合との対応関係に基づいて、そのオブジェクトに、その方位情報にマッチングする1つ又は複数のHRTFデータの集合を選択することができる。   A set of HRTF data for representing transmission characteristics in which a sound source in a virtual auditory environment transmits sound waves in the direction in which the object exists can be acquired by an experimental measurement method or a calculation method. In one example, a set of azimuth information and HRTF data corresponding to each other can be acquired in advance by an experimental measurement or calculation method. The obtained correspondence relationship may be stored in advance in a storage unit (not shown) inside the apparatus 10 or may be stored in advance in an external memory outside the apparatus 10. In this example, the identifying means 130 is based on the orientation information of the object and the correspondence relationship between the orientation information stored in advance and the set of HRTF data, and the object has one or more HRTFs that match the orientation information. A set of data can be selected.

HRTFの実際の測定において、通常M個の有限空間方位の測定のみができるが、全ての空間方位の測定を尽くすことができないと理解すべきであるので、方位情報取得手段120が取得して特定手段130に伝送した方位情報がそのM個の有限空間方位内に含まれていなければ、特定手段130は空間補間法、例えば線形補間法を用いて、M個の既知のHRTFデータの集合から、その方位情報に対応するHRTFデータの集合を算出することもできる。   In actual measurement of HRTF, normally only M finite spatial orientations can be measured, but it should be understood that all spatial orientations cannot be measured. If the orientation information transmitted to the means 130 is not included in the M finite spatial orientations, the identifying means 130 uses a spatial interpolation method, for example, a linear interpolation method, from a set of M known HRTF data, A set of HRTF data corresponding to the orientation information can also be calculated.

もう1つの例において、方位情報とHRTFデータの集合との対応関係を予め取得して記憶せずに、特定手段130がそのオブジェクトの方位情報、及び予め記憶されたHRTFを算出する際に必要な他の関連情報に基づいて、そのオブジェクトに、その方位情報に対応する1つ又は複数のHRTFデータの集合をリアルタイムに算出することもできる。   In another example, it is necessary when the specifying unit 130 calculates the orientation information of the object and the prestored HRTF without acquiring and storing the correspondence relationship between the orientation information and the set of HRTF data in advance. Based on other related information, a set of one or more HRTF data corresponding to the orientation information can be calculated for the object in real time.

処理手段140は、特定手段130がそのオブジェクトに対して特定したその方位情報に対応する1つ又は複数のHRTFデータの集合に基づいて、音声入力手段110からの単一オブジェクト仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理して、出力するためのバイノーラル音声信号を得ると共に、そのバイノーラル音声信号を音声出力手段150に伝送する。そのうち、そのオブジェクトに対して特定したその方位情報に対応する各HRTFデータの集合のいずれにも、左・右耳に対する2グループのHRTFデータが含まれている。   Based on the set of one or more HRTF data corresponding to the orientation information identified by the identifying means 130 for the object, the processing means 140 is one in the single object virtual auditory environment from the speech input means 110. Alternatively, one or a plurality of audio signals corresponding to a plurality of sound sources are processed to obtain a binaural audio signal for output, and the binaural audio signal is transmitted to the audio output means 150. Of these, two groups of HRTF data for the left and right ears are included in each set of HRTF data corresponding to the orientation information specified for the object.

具体的に、仮想聴覚環境における音源毎に、処理手段140はまずその音源に対応する音声信号に対してフーリエ変換を行い、その音声信号の周波数領域表示を得る。次に、処理手段140は、左・右耳に対応する2グループのHRTFデータを、音声信号の周波数領域表示とそれぞれ掛算した後に、出力するためのバイノーラル音声信号を得るように、フーリエ逆変換を行う。   Specifically, for each sound source in the virtual auditory environment, the processing means 140 first performs a Fourier transform on the sound signal corresponding to the sound source to obtain a frequency domain display of the sound signal. Next, the processing means 140 multiplies the two groups of HRTF data corresponding to the left and right ears with the frequency domain display of the audio signal, respectively, and then performs inverse Fourier transform so as to obtain a binaural audio signal to be output. Do.

以上は周波数領域における信号処理方式に対応するものであるが、時間領域に対応する場合は、左・右耳に対応する2グループのHRIRデータと音声信号とをコンボリューションすることにより、出力するためのバイノーラル音声信号を得ると理解できる。   The above corresponds to the signal processing method in the frequency domain, but in the case of the time domain, output is performed by convolving two groups of HRIR data corresponding to the left and right ears and the audio signal. It can be understood that a binaural audio signal is obtained.

音声出力手段150は、バイノーラル音声信号をユーザに提供する。   The audio output means 150 provides a binaural audio signal to the user.

オブジェクトの単一オブジェクト仮想聴覚環境における方位が変化する可能性があることを考慮すると、更なる実施例において、装置10はオブジェクトの変化後の方位情報に基づいて、そのオブジェクトに対して変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定することにより、そのオブジェクトに、その現在方位にマッチングするHRTFデータの集合をリアルタイムに選択するという効果を実現することもできる。以下では、この更なる実施例について詳細に説明する。   In view of the possibility that the orientation of an object in a single-object virtual auditory environment may change, in a further embodiment, the device 10 may determine a post-change for that object based on the changed orientation information of the object. By specifying another or a plurality of HRTF data sets corresponding to the azimuth information, it is possible to realize an effect of selecting, in real time, a set of HRTF data matching the current azimuth for the object. it can. In the following, this further embodiment will be described in detail.

オブジェクトの仮想聴覚環境における方位が変化した場合、方位情報提供手段(未図示)はそのオブジェクトの方位変化を取得すると共に、方位変化情報を方位情報取得手段120に提供することができる。方位情報提供手段の機能は多種の方式によって実現することができる。例えば、方位検出手段によってユーザが仮想聴覚環境に映されたオブジェクトの方位変化を検出し、及び/又はユーザ入力インターフェイスによってユーザが仮想聴覚環境において映されたオブジェクトの方位変化についての入力を受信し、方位変化情報を方位情報取得手段120に提供することができる。例えば、方位検出手段はそのオブジェクトの方位変化をリアルタイム又は周期的に検出することができ、トリガーに応じてそのオブジェクトの方位変化を検出することもできる。一方、随時にユーザ入力インターフェイスによってそのオブジェクトの方位変化を入力することもできる。そのオブジェクトの単一オブジェクト仮想聴覚環境における方位変化は、水平方向における回転、平行移動、垂直方向における回転、平行移動、或いはその任意の組合せを含んでもよい。   When the orientation of the object in the virtual auditory environment changes, the orientation information providing means (not shown) can acquire the orientation change of the object and provide the orientation change information to the orientation information acquisition means 120. The function of the direction information providing means can be realized by various methods. For example, the orientation detection means detects the orientation change of the object reflected in the virtual auditory environment, and / or the user input interface receives the input about the orientation change of the object reflected in the virtual auditory environment, Direction change information can be provided to the direction information acquisition means 120. For example, the azimuth detecting means can detect the azimuth change of the object in real time or periodically, and can detect the azimuth change of the object in response to the trigger. On the other hand, the orientation change of the object can be input at any time by the user input interface. The orientation change of the object in the single object virtual auditory environment may include horizontal rotation, translation, vertical rotation, translation, or any combination thereof.

方位情報取得手段120は方位情報提供手段(未図示)からの方位変化情報を取得した後に、オブジェクトの原方位情報及び今回取得した方位変化情報に基づいて、オブジェクトの変化後の方位情報を算出すると共に、変化後の方位情報を特定手段130に提供する。特定手段130はオブジェクトの変化後の方位情報に基づいて、オブジェクトに対してその変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定する。   The azimuth information acquisition unit 120 calculates azimuth information after the change of the object based on the original azimuth information of the object and the azimuth change information acquired this time after acquiring the azimuth change information from the azimuth information providing unit (not shown). At the same time, the direction information after the change is provided to the specifying unit 130. Based on the azimuth information after the change of the object, the specifying unit 130 specifies one or another set of HRTF data corresponding to the changed azimuth information for the object.

或いは、方位情報提供手段は、直接にそのオブジェクトの変化後の方位を取得すると共に、変化後の方位情報を方位情報取得手段120に提供することもできる。この場合、方位情報取得手段120は上述の算出を実行する必要がなく、取得された変化後の方位情報を特定手段130に伝送することのみが必要であり、特定手段130は変化後の方位情報に基づいて、そのオブジェクトに対して、その変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定する。   Alternatively, the azimuth information providing unit can directly acquire the azimuth after the change of the object, and can also provide the azimuth information acquisition unit 120 with the changed azimuth information. In this case, the azimuth information acquisition unit 120 does not need to execute the above-described calculation, and only needs to transmit the acquired azimuth information after change to the identification unit 130. Based on the above, another one or another set of HRTF data corresponding to the changed orientation information is specified for the object.

特定手段130がオブジェクトに対して変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定する方式は、前文に記載された特定手段130がオブジェクトに対して方位情報に対応する1つ又は複数のHRTFデータの集合を特定する方式に類似し、簡明のために、ここでは繰り返し述べない。   The identification means 130 identifies another one or another set of HRTF data corresponding to the changed azimuth information for the object. The identification means 130 described in the preceding sentence describes the azimuth information for the object. Is similar to the method of identifying one or more sets of HRTF data corresponding to, and will not be repeated here for the sake of brevity.

特定手段130が変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定した後に、処理手段140はその1つ又は複数のHRTFデータの集合に基づいて、音声入力手段110からの仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号を処理し、出力するためのバイノーラル音声信号を得る。その後に、音声出力手段150はバイノーラル音声信号をユーザに提供する。   After the identifying means 130 identifies another set of one or more HRTF data corresponding to the changed azimuth information, the processing means 140 inputs speech based on the one or more sets of HRTF data. One or more audio signals corresponding to one or more sound sources in the virtual auditory environment from means 110 are processed and a binaural audio signal is obtained for output. Thereafter, the audio output means 150 provides the user with a binaural audio signal.

処理手段140が別の1つ又は別の複数のHRTFデータの集合に基づいて1つ又は複数の音声信号を処理する方式は、前文に記載された処理手段140が1つ又は複数のHRTFデータの集合に基づいて1つ又は複数の音声信号を処理する方式に類似し、簡明のために、ここでは繰り返し述べない。   The manner in which the processing means 140 processes one or more audio signals based on another set of one or more HRTF data is the same as the processing means 140 described in the preamble of one or more HRTF data. It is similar to a scheme for processing one or more audio signals based on a set and will not be repeated here for the sake of brevity.

後文では、ビーチシーンをシミュレーションする単一オブジェクト仮想聴覚環境を例として、図2を組み合わせて、図1の音声信号出力を制御する装置の具体的な適用シーンにおける活用をさらに説明する。   In the latter part, taking a single object virtual auditory environment for simulating a beach scene as an example, FIG. 2 will be combined to further explain the use of the apparatus for controlling the audio signal output of FIG. 1 in a specific application scene.

図2には、本発明の実施例による例としての単一オブジェクト仮想現実システム20を示す。図2に示すように、単一オブジェクト仮想現実システム20は、音声・映像プレイヤー210、図1の音声信号出力を制御する装置10(以下では「装置10」と略称)、方位情報提供手段220、両耳イヤホン230及び仮想現実メガネ240を含む。
図2を参照して、音声・映像プレイヤー210は、音声信号と映像信号とを提供するためのものである。音声・映像プレイヤー210は、パソコン、スマートフォン、パーソナルデジタルアシスタント、MP3プレイヤーなどの、音声・映像再生機能を有する如何なる適切な機器であってもよい。本実施例のビーチシーンにおいて、ユーザが両耳イヤホン230と仮想現実メガネ240をかけた場合、音声・映像プレイヤー210は、そのユーザに青い海と白い砂浜の仮想視覚環境を提示するように仮想現実メガネ240に映像信号を伝送し、またユーザに波の音の仮想聴覚環境を提供するように、両耳イヤホン230に装置10により処理された音声信号を伝送する。また、本実施例のビーチシーンにおいて、音源の数が1つのみであり、即ち海であるとする。
FIG. 2 illustrates an exemplary single object virtual reality system 20 according to an embodiment of the present invention. As shown in FIG. 2, the single object virtual reality system 20 includes an audio / video player 210, an apparatus 10 (hereinafter abbreviated as “apparatus 10”) for controlling the audio signal output of FIG. It includes binaural earphones 230 and virtual reality glasses 240.
Referring to FIG. 2, the audio / video player 210 is for providing an audio signal and a video signal. The audio / video player 210 may be any suitable device having an audio / video reproduction function, such as a personal computer, a smartphone, a personal digital assistant, or an MP3 player. In the beach scene of the present embodiment, when the user wears the binaural earphone 230 and the virtual reality glasses 240, the audio / video player 210 displays the virtual reality so as to present the virtual visual environment of the blue sea and the white sand beach to the user. The video signal is transmitted to the glasses 240, and the audio signal processed by the device 10 is transmitted to the binaural earphone 230 so as to provide the user with a virtual auditory environment of wave sound. Moreover, in the beach scene of a present Example, the number of sound sources is only one, ie, it is the sea.

ユーザが映されたオブジェクトが仮想現実シーンに入ると、方位情報提供手段220はユーザの現実環境における物理方位を取得することによりユーザが映されたオブジェクトの仮想現実シーンにおける方位を取得すると共に、オブジェクトの方位情報を装置10に提供する。方位情報提供手段220が方位検出手段であるものを例として、本実施例のビーチシーンにおいて、方位検出手段はユーザの存在する物理方位を検出することにより、その仮想ビーチシーンにおけるオブジェクトの方向、位置及び両者の変化を取得すると共に、方位情報及び方位変化情報を装置10に提供する。方位検出手段は、ユーザの物理方位を検出できる如何なる適切な位置に設けられてもよく、例えば、独立でユーザの頭部位置に掛けられ、或いは両耳イヤホン230又は仮想現実メガネ240に集積されることができる。   When the object shown by the user enters the virtual reality scene, the orientation information providing means 220 acquires the orientation in the virtual reality scene of the object shown by the user by acquiring the physical orientation in the user's real environment, and the object Is provided to the apparatus 10. Taking the direction information providing means 220 as the direction detection means as an example, in the beach scene of the present embodiment, the direction detection means detects the physical direction in which the user exists, and thereby the direction and position of the object in the virtual beach scene. And the change of both are obtained, and the direction information and the direction change information are provided to the apparatus 10. The direction detection means may be provided at any suitable position where the physical direction of the user can be detected. For example, the direction detection means is independently placed on the user's head position, or integrated in the binaural earphone 230 or the virtual reality glasses 240. be able to.

オブジェクトの左耳が音源(即ち、海)方向に向くものを例として、オブジェクトが音源方向に直面する際の方位が0度であり、且つオブジェクトが時計回りに回転する際に角度が増加すると仮定すると、この場合、方位検出手段に検出された方位が90度である。装置10における方位情報取得手段(未図示)は方位検出手段からの90度の方位情報を取得すると共に装置10における特定手段(未図示)に伝送する。その後、特定手段はオブジェクトに対して、その90度の方位情報に対応するHRTFデータの集合を特定すると共に、特定情報を装置10における処理手段(未図示)に伝送する。処理手段は、特定された90度の方位情報に対応するHRTFデータの集合に基づいて、装置10における音声入力手段(未図示)が音声・映像プレイヤー210から受信した波の音の音声信号を処理し、出力するためのバイノーラル音声信号を得る。装置10における音声出力手段(未図示)はバイノーラル音声信号を両耳イヤホン230によってユーザに提供する。音声・映像プレイヤー210からの波の音の音声信号を、90度の方位情報に対応するHRTFデータの集合を用いて処理したため、ユーザに感じられた波の音は90度の方位情報に対応する方位特徴を表し、即ちユーザに感じられた波の音は、その左耳側に位置する。   As an example, assuming that the object's left ear faces the sound source (ie, the sea) direction, the orientation when the object faces the sound source direction is 0 degrees, and the angle increases when the object rotates clockwise. In this case, the azimuth detected by the azimuth detecting means is 90 degrees. The azimuth information acquisition means (not shown) in the apparatus 10 acquires 90 degree azimuth information from the azimuth detection means and transmits it to the identification means (not shown) in the apparatus 10. Thereafter, the specifying unit specifies a set of HRTF data corresponding to the 90-degree azimuth information for the object, and transmits the specific information to a processing unit (not shown) in the apparatus 10. The processing means processes the sound signal of the sound of the wave received from the sound / video player 210 by the sound input means (not shown) in the apparatus 10 based on the set of HRTF data corresponding to the specified 90-degree azimuth information. Then, a binaural audio signal for output is obtained. Audio output means (not shown) in the device 10 provides binaural audio signals to the user via the binaural earphone 230. Since the sound signal of the wave sound from the audio / video player 210 is processed using the set of HRTF data corresponding to the 90 degree azimuth information, the wave sound felt by the user corresponds to the 90 degree azimuth information. The sound of the wave that represents the azimuth feature, that is, felt by the user, is located on the left ear side.

さらに、ユーザの現実環境における物理方位が変化し、例えば時計回りに90度回転した場合、ユーザが映されたオブジェクトも、ビーチシーンにおいて時計回りに90度回転し、この際に方位検出手段に検出された方位変化は時計回りに90度回転したことであり、且つその方位変化情報を装置10における方位情報取得手段(未図示)に提供する。方位情報取得手段はこの時計回りに90度回転したという方位変化情報を取得した後に、オブジェクトの原方位情報(即ち、90度の方位情報)及び今回取得した方位変化情報(即ち、時計回りに90度回転したという方位変化情報)に基づいて、変化後の方位情報(即ち、180度の方位情報)を算出すると共に、変化後の方位情報を装置10における特定手段(未図示)に伝送する。特定手段は変化後の方位情報に基づいて、オブジェクトに対してその変化後の方位情報に対応するHRTFデータの集合を特定すると共に、特定情報を装置10における処理手段(未図示)に提供する。処理手段は特定されたHRTFデータの集合に基づいて、装置10における音声入力手段(未図示)が音声・映像プレイヤー210から受信した波の音の音声信号を処理し、出力するためのバイノーラル音声信号を得る。装置10における音声出力手段(未図示)は、バイノーラル音声信号を両耳イヤホン230によってユーザに提供する。音声・映像プレイヤー210からの波の音の音声信号は、変化後の方位情報(180度の方位情報)に対応するHRTFデータの集合を用いて処理したため、ユーザに感じられた波の音は180度の方位情報に対応する方位特徴を表し、即ちユーザに感じられた波の音は、ユーザの真後ろに位置する。   Furthermore, when the physical orientation of the user in the real environment changes, for example, when the user rotates 90 degrees clockwise, the object in which the user is projected also rotates 90 degrees clockwise in the beach scene, and this is detected by the direction detection means. The orientation change thus made is that the orientation has been rotated 90 degrees clockwise, and the orientation change information is provided to orientation information acquisition means (not shown) in the apparatus 10. After the azimuth information acquisition means acquires the azimuth change information indicating that it has rotated 90 degrees clockwise, the original azimuth information of the object (that is, azimuth information of 90 degrees) and the azimuth change information acquired this time (that is, 90 deg. Clockwise). Based on the direction change information (rotated degree of rotation), the changed direction information (ie, 180 degree direction information) is calculated, and the changed direction information is transmitted to a specifying means (not shown) in the apparatus 10. The specifying means specifies a set of HRTF data corresponding to the changed azimuth information for the object based on the changed azimuth information, and provides the specific information to a processing means (not shown) in the apparatus 10. The processing means processes a binaural audio signal for processing and outputting the sound signal of the wave sound received from the audio / video player 210 by the audio input means (not shown) in the apparatus 10 based on the specified set of HRTF data. Get. Audio output means (not shown) in the device 10 provides binaural audio signals to the user via the binaural earphone 230. Since the sound signal of the wave sound from the audio / video player 210 is processed using a set of HRTF data corresponding to the changed azimuth information (180 degree azimuth information), the wave sound felt by the user is 180. The azimuth | direction characteristic corresponding to the azimuth | direction azimuth | direction information is represented, ie, the sound of the wave felt by the user is located in the back of a user.

上述の実施例はオブジェクトの仮想現実シーンにおける方向が時計回りに90度水平に回転したものを例とし、オブジェクトの位置変化に関わらないが、当業者は、本発明の技術案は実際により複雑なオブジェクト方位変化に適用することができると理解すべきであることを説明する必要がある。例えば、前記オブジェクトの方位変化は、平行移動、或いは回転と平行移動の組合せを含んでもよい。また、前記平行移動及び回転は、2次元平面に限らず、3次元空間内の任意の平行移動及び回転であってもよい。   The above-described embodiment is an example in which the direction of the object in the virtual reality scene is rotated 90 degrees clockwise and is not related to the position change of the object. However, those skilled in the art will recognize that the technical solution of the present invention is actually more complicated. It should be explained that it should be understood that it can be applied to object orientation changes. For example, the azimuth change of the object may include parallel movement or a combination of rotation and parallel movement. The translation and rotation are not limited to a two-dimensional plane, and may be any translation and rotation in a three-dimensional space.

また、上述のビーチ適用シーンにおいて仮想聴覚環境と仮想視覚環境とを組み合わせて記載したのは、本発明の技術案をよりうまく説明するために過ぎず、本発明の技術案は仮想聴覚環境の適用シーンのみに活用できることを説明する必要がある。   Further, the description of the combination of the virtual auditory environment and the virtual visual environment in the above-described beach application scene is only for better explaining the technical solution of the present invention, and the technical solution of the present invention is applied to the virtual auditory environment. It is necessary to explain that it can be used only for scenes.

図3には、本発明の実施例による単一オブジェクト仮想聴覚環境において音声信号出力を制御する方法を示す。その方法は、第1取得ステップS310、第1特定ステップS320、及び第1処理ステップS330を含む。   FIG. 3 illustrates a method for controlling audio signal output in a single object virtual auditory environment according to an embodiment of the present invention. The method includes a first acquisition step S310, a first identification step S320, and a first processing step S330.

図3を参照して、第1取得ステップS310において、単一オブジェクト仮想聴覚環境におけるオブジェクトの方位情報を取得する。その方位情報は、オブジェクトの単一オブジェクト仮想聴覚環境における方位を含む。   With reference to FIG. 3, in the first acquisition step S310, the orientation information of the object in the single object virtual auditory environment is acquired. The orientation information includes the orientation of the object in the single object virtual auditory environment.

第1特定ステップS320において、そのオブジェクトに対して、その方位情報に対応する1つ又は複数の音源方位データの集合を特定する。その1つ又は複数の音源方位データの集合は、単一オブジェクト仮想聴覚環境における1つ又は複数の音源が音波をそのオブジェクトの存在する方位に伝送する伝送特性をそれぞれ表す。   In the first specifying step S320, a set of one or more sound source direction data corresponding to the direction information is specified for the object. The set of one or more sound source azimuth data represents transmission characteristics in which one or more sound sources in a single object virtual auditory environment transmit sound waves in the direction in which the object exists.

オブジェクトに対して、その方位情報に対応する1つ又は複数の音源方位データの集合を特定することは、多種の方式によって実現することができる。例えば、そのオブジェクトの方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、そのオブジェクトに、その方位情報にマッチングする1つ又は複数の音源方位データの集合を選択することができる。また例えば、そのオブジェクトの方位情報に基づいて、そのオブジェクトに、その方位情報に対応する1つ又は複数の音源方位データの集合を算出することができる。   Specifying a set of one or more sound source azimuth data corresponding to the azimuth information for an object can be realized by various methods. For example, based on the azimuth information of the object, one or a plurality of sound source azimuth data matching the azimuth information is matched with the object according to the correspondence relationship between the azimuth information stored in advance and the set of the sound source azimuth data. A set can be selected. For example, based on the azimuth information of the object, a set of one or a plurality of sound source azimuth data corresponding to the azimuth information can be calculated for the object.

音源方位データの集合は、例えば頭部関連の伝達関数データの集合、両耳間の時間差データの集合、両耳間の強度差データの集合などの、音源から発される音波がある方位に伝送される伝送特性を表すことができる、如何なる適切なデータの集合であってもよい。   A set of sound source azimuth data is transmitted in a certain direction, such as a set of transfer function data related to the head, a set of time difference data between both ears, and a set of intensity difference data between both ears. It can be any suitable collection of data that can represent the transmission characteristics to be performed.

第1処理ステップS330において、出力するためのバイノーラル音声信号を得るように、特定された1つ又は複数の音源方位データの集合に基づいて、単一オブジェクト仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する。   In a first processing step S330, one or more sound sources in a single object virtual auditory environment are based on the identified set of one or more sound source orientation data to obtain a binaural audio signal for output. One or more corresponding audio signals are processed respectively.

そのオブジェクトの単一オブジェクト仮想聴覚環境における方位が変化する可能性があることを考慮すると、更なる実施例において、そのオブジェクトの変化後の方位情報に基づいて、そのオブジェクトに対して変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定することにより、そのオブジェクトに、その現在方位にマッチングするHRTFデータの集合をリアルタイムに選択するという効果を実現することもできる。   In view of the possibility that the orientation of the object in the single object virtual auditory environment may change, in a further embodiment, the changed orientation for the object based on the changed orientation information of the object. By specifying another or a plurality of HRTF data sets corresponding to the information, it is possible to realize an effect of selecting, in real time, a set of HRTF data that matches the current orientation for the object. .

この更なる実施例において、上述の第1取得ステップ、第1特定ステップ及び第1処理ステップ以外に、第2取得ステップ、第2特定ステップ及び第2処理ステップをさらに含む。   In this further embodiment, in addition to the first acquisition step, the first specification step, and the first processing step described above, a second acquisition step, a second specification step, and a second processing step are further included.

第2取得ステップにおいて、単一オブジェクト仮想聴覚環境におけるそのオブジェクトの変化後の方位情報を取得する。その変化後の方位情報は、そのオブジェクトの単一オブジェクト仮想聴覚環境における変化後の方位を含む。   In the second acquisition step, the orientation information after the change of the object in the single object virtual auditory environment is acquired. The changed orientation information includes the changed orientation of the object in the single-object virtual auditory environment.

第2特定ステップにおいて、そのオブジェクトに対して、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定する。その別の1つ又は別の複数の音源方位データの集合は、単一オブジェクト仮想聴覚環境における1つ又は複数の音源が音波をそのオブジェクトの存在する変化後の方位に伝送する伝送特性をそれぞれ表す。   In the second specifying step, another one or another set of sound source direction data corresponding to the changed direction information is specified for the object. The other one or another set of sound source azimuth data represents a transmission characteristic in which one or more sound sources in the single object virtual auditory environment transmit sound waves to the changed azimuth in which the object exists. .

そのオブジェクトに対して、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定することも、多種の方式によって実現することができる。例えば、そのオブジェクトの変化後の方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、そのオブジェクトに、その変化後の方位情報にマッチングする別の1つ又は別の複数の音源方位データの集合を選択することができる。また例えば、そのオブジェクトの変化後の方位情報に基づいて、そのオブジェクトに、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を算出することができる。   Specifying another one or a plurality of sets of sound source direction data corresponding to the changed direction information for the object can be realized by various methods. For example, based on the orientation information after the change of the object, another one that matches the orientation information after the change to the object according to the correspondence relationship between the orientation information stored in advance and the set of sound source orientation data. One or another set of sound source orientation data can be selected. Further, for example, based on the azimuth information after the change of the object, one or another set of a plurality of sound source azimuth data corresponding to the azimuth information after the change can be calculated for the object.

第2処理ステップにおいて、出力するためのバイノーラル音声信号を得るように、特定された別の1つ又は別の複数の音源方位データの集合に基づいて、単一オブジェクト仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する。   In a second processing step, one or more in a single object virtual auditory environment based on another identified one or another set of source orientation data to obtain a binaural audio signal for output One or a plurality of audio signals corresponding to each sound source are processed.

多重オブジェクト仮想聴覚環境
図4には、本発明の実施例による多重オブジェクト仮想聴覚環境において音声信号出力を制御する装置40(以下では「装置40」と略称)を示す。オブジェクト仮想聴覚環境において、オブジェクトの数は複数である。図4に示すように、装置40は、音声入力手段410、方位情報取得手段420、特定手段430、処理手段440及び音声出力手段450を含む。
Multi-Object Virtual Auditory Environment FIG. 4 shows a device 40 (hereinafter abbreviated as “device 40”) that controls audio signal output in a multi-object virtual auditory environment according to an embodiment of the present invention. In the object virtual auditory environment, there are a plurality of objects. As shown in FIG. 4, the apparatus 40 includes a voice input unit 410, a direction information acquisition unit 420, a specifying unit 430, a processing unit 440, and a voice output unit 450.

図4を参照して、音声入力手段410は音声信号を受信して処理手段440に伝送するためのものである。多重オブジェクト仮想聴覚環境について、音声信号は、例えばマイクロフォンにより収集された音声信号、又は音声プレイヤーから出力される音声信号であってもよい。典型的なマイクロフォンにより収集された音声信号は各オブジェクトからの音声信号であってもよく、典型的な音声プレイヤーから出力される音声信号は仮想聴覚環境における非オブジェクト音源からの音声信号であってもよい。ここで記載された各オブジェクトからの音声信号について、その実際の意味は、各ユーザがマイクロフォンによって収集して音声入力手段410に伝送する音声信号であり、ここでは各オブジェクトからの音声信号と略称する。これに類似し、ここで記載された仮想聴覚環境における非オブジェクト音源からの音声信号について、その実際の意味は、音声プレイヤーが音声ファイルを再生して音声入力手段410に伝送する音声信号であり、ここでは仮想聴覚環境における非オブジェクト音源からの音声信号と略称する。音声信号は、例えばモノラル、2チャンネル又はステレオ音声信号であってもよい。   Referring to FIG. 4, voice input means 410 is for receiving a voice signal and transmitting it to processing means 440. For multi-object virtual auditory environments, the audio signal may be, for example, an audio signal collected by a microphone or an audio signal output from an audio player. The audio signal collected by a typical microphone may be an audio signal from each object, and the audio signal output from a typical audio player may be an audio signal from a non-object sound source in a virtual auditory environment. Good. The actual meaning of the audio signal from each object described here is an audio signal that each user collects with a microphone and transmits to the audio input means 410. Here, the audio signal is abbreviated as an audio signal from each object. . Similar to this, the actual meaning of the audio signal from the non-object sound source in the virtual auditory environment described here is the audio signal that the audio player reproduces the audio file and transmits to the audio input means 410, Here, it is abbreviated as an audio signal from a non-object sound source in a virtual auditory environment. The audio signal may be, for example, a monaural, 2-channel or stereo audio signal.

仮想聴覚環境におけるオブジェクトの方位を特定するために、方位情報取得手段420は、多重オブジェクト仮想聴覚環境における各オブジェクトの方位情報を取得する。   In order to specify the orientation of the object in the virtual auditory environment, the orientation information acquisition unit 420 acquires the orientation information of each object in the multi-object virtual auditory environment.

1つの例において、各オブジェクトは、仮想聴覚環境における非オブジェクト音源からの音声信号のみを受信する。この場合に、前記各オブジェクトの方位情報は、そのオブジェクトの仮想聴覚環境における方位のみを含んでもよい。
もう1つの例において、各オブジェクトは、仮想聴覚環境における非オブジェクト音源からの音声信号、及び他のオブジェクトからの音声信号を受信し、或いは他のオブジェクトからの音声信号のみを受信する。この2種類の場合に、前記各オブジェクトの方位情報は、そのオブジェクトの仮想聴覚環境における方位、及びそのオブジェクトの他のオブジェクトに対する相対的な方位を含む。
In one example, each object receives only audio signals from non-object sound sources in the virtual auditory environment. In this case, the orientation information of each object may include only the orientation of the object in the virtual auditory environment.
In another example, each object receives audio signals from non-object sound sources in a virtual auditory environment and audio signals from other objects, or receives only audio signals from other objects. In these two types, the orientation information of each object includes the orientation of the object in the virtual auditory environment and the relative orientation of the object with respect to other objects.

オブジェクトの方位情報は、方位情報提供手段(未図示)によって方位情報取得手段420に提供することができる。方位情報提供手段の機能は、多種の方式によって実現することができ、これらの方式は単独で使用してもよく、組み合わせて使用してもよい。例えば、各ユーザはそれぞれ方位検出手段を装備し、方位検出手段によってユーザが仮想聴覚環境において映されたオブジェクトの方位を検出し、検出した方位情報を方位情報取得手段420に提供することができる。方位検出手段は、ジャイロ、コンパス、加速度計などの、オブジェクト方位を検出するために用いられる任意の適切な素子及び素子の組合せであってもよい。或いは、各ユーザはそれぞれユーザ入力インターフェイスを装備し、ユーザは、その仮想聴覚環境において映されたオブジェクトの方位、及びそのオブジェクトの他のオブジェクトに対する相対的な方位を自己定義することもできる。ユーザ入力インターフェイスの入力は、文字、符号、音声、又はインターフェイスにおけるアイコンに対するクリック、ドラッグなどの多種の方式を含んでもよい。ユーザ入力インターフェイスによって入力された方位情報は、直ちに方位情報取得手段420に提供される。以上に記載された検出方式及びユーザ自己定義方式は、単独で使用してもよく、組み合わせて使用してもよい。   The azimuth information of the object can be provided to the azimuth information obtaining unit 420 by the azimuth information providing unit (not shown). The function of the direction information providing means can be realized by various methods, and these methods may be used alone or in combination. For example, each user can be equipped with an orientation detection unit, and the orientation detection unit can detect the orientation of an object reflected in the virtual auditory environment and provide the detected orientation information to the orientation information acquisition unit 420. The orientation detection means may be any suitable element and combination of elements used to detect object orientation, such as a gyro, compass, accelerometer or the like. Alternatively, each user can be equipped with a user input interface, and the user can self-define the orientation of the object projected in the virtual auditory environment and the orientation of the object relative to other objects. The input of the user input interface may include various methods such as clicking, dragging on characters, symbols, sounds, or icons in the interface. The azimuth information input by the user input interface is immediately provided to the azimuth information acquisition unit 420. The detection methods and user self-defining methods described above may be used alone or in combination.

方位情報取得手段420は各オブジェクトの方位情報を取得した後に、特定手段430に伝送し、特定手段430は各オブジェクトの方位情報に基づいて、オブジェクト毎に対してその方位情報に対応する1つ又は複数のHRTFデータの集合を特定すると共に、特定情報を処理手段440に伝送する。特定情報は多種の形式であってもよく、例えば、特定情報は1つ又は複数のHRTFデータの集合そのものを含んでもよいが、或いは特定された1つ又は複数のHRTFデータの集合のインデックスのみを含んでもよい。後者について、処理手段440には、各インデックスに対応するHRTFデータの集合が記憶される必要がある。   The orientation information acquisition unit 420 acquires the orientation information of each object and then transmits the orientation information to the identification unit 430. The identification unit 430 corresponds to the orientation information for each object based on the orientation information of each object. A set of a plurality of HRTF data is specified, and the specified information is transmitted to the processing means 440. The specific information may be in various formats, for example, the specific information may include the set of one or more HRTF data itself, or only the index of the specified set of one or more HRTF data. May be included. For the latter, the processing means 440 needs to store a set of HRTF data corresponding to each index.

上述のオブジェクト毎に対して特定された1つ又は複数のHRTFデータの集合は、多重オブジェクト仮想聴覚環境における1つ又は複数の音源が音波をそのオブジェクトの存在する方位に伝送する伝送特性を表すために用いられる。多重オブジェクト仮想聴覚環境においてあるオブジェクトに対する音源が単一の音源である場合、特定手段430は、そのオブジェクトに対してその単一の音源に対応する1つのHRTFデータの集合のみを特定する。多重オブジェクト仮想聴覚環境においてあるオブジェクトに対する音源が複数の音源である場合、特定手段430は、その複数の音源に相応するように、そのオブジェクトに対してその複数の音源に対応する複数のHRTFデータの集合を特定する。   The set of one or more HRTF data specified for each object described above represents transmission characteristics in which one or more sound sources in a multi-object virtual auditory environment transmit sound waves in the direction in which the object exists. Used for. When the sound source for an object in the multi-object virtual auditory environment is a single sound source, the specifying unit 430 specifies only one HRTF data set corresponding to the single sound source for the object. When the sound source for an object in the multi-object virtual auditory environment is a plurality of sound sources, the specifying unit 430 corresponds to the plurality of sound sources, and the plurality of HRTF data corresponding to the plurality of sound sources is associated with the object. Identify the set.

特定手段430がオブジェクト毎に対してその方位情報に対応する1つ又は複数のHRTFデータの集合を特定することは、多種の方式によって実現することができる。例えば、特定手段430は各オブジェクトの方位情報に基づいて、予め記憶された方位情報とHRTFデータの集合との対応関係に応じて、オブジェクト毎に対して、その方位情報にマッチングする1つ又は複数のHRTFデータの集合を特定する。方位情報とHRTFデータの集合との対応関係の取得方式は既に前文で説明しており、簡明のために、ここでは繰り返し述べない。また例えば、特定手段430が各オブジェクトの方位情報、及び予め記憶されたHRTFを算出する際に必要な他の関連情報に基づいて、そのオブジェクト毎に、その方位情報に対応する1つ又は複数のHRTFデータの集合をリアルタイムに算出することができる。   Specifying one or a plurality of sets of HRTF data corresponding to the orientation information for each object by the specifying unit 430 can be realized by various methods. For example, the specifying unit 430 may match one or a plurality of matching information for each object based on the orientation information of each object according to the correspondence between the orientation information stored in advance and the set of HRTF data. Identifies a set of HRTF data. The method of acquiring the correspondence relationship between the orientation information and the set of HRTF data has already been described in the previous sentence, and will not be repeated here for the sake of brevity. Further, for example, based on the orientation information of each object and other related information necessary for calculating the pre-stored HRTF, the identifying unit 430 may provide one or more corresponding to the orientation information for each object. A set of HRTF data can be calculated in real time.

処理手段440は、特定手段430がそのオブジェクト毎に対して特定したその方位情報に対応する1つ又は複数のHRTFデータの集合に基づいて、音声入力手段410からの多重オブジェクト仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理して、出力するためのバイノーラル音声信号を得る。その後、音声出力手段450は、バイノーラル音声信号をそれぞれ相応のユーザに提供する。   The processing means 440 is one in the multi-object virtual auditory environment from the voice input means 410 based on a set of one or more HRTF data corresponding to the orientation information specified by the specifying means 430 for each object. Alternatively, one or a plurality of audio signals corresponding to a plurality of sound sources are processed to obtain a binaural audio signal for output. Thereafter, the audio output unit 450 provides binaural audio signals to the corresponding users.

各オブジェクトの多重オブジェクト仮想聴覚環境における方位及び/又は他のオブジェクトに対する相対的な方位が変化する可能性があることを考慮すると、更なる実施例において、装置40は、各オブジェクトの変化後の方位情報に基づいて、オブジェクト毎に対してその変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定することにより、オブジェクト毎に、その変化後の方位にマッチングするHRTFデータの集合をリアルタイムに選択するという効果を実現することもできる。以下では、この更なる実施例について詳細に説明する。   In view of the possibility that the orientation of each object in the multi-object virtual auditory environment and / or the orientation relative to other objects may change, in a further embodiment, the device 40 may change the orientation of each object after the change. Based on the information, for each object, by specifying another or a plurality of sets of HRTF data corresponding to the changed orientation information, the object is matched with the changed orientation. The effect of selecting a set of HRTF data in real time can also be realized. In the following, this further embodiment will be described in detail.

複数のオブジェクトにおけるあるオブジェクトの仮想聴覚環境における方位及び/又は他のオブジェクトに対する相対的な方位が変化した場合、そのオブジェクトに装備された方位情報提供手段(未図示)はそのオブジェクトの方位変化及び/又は他のオブジェクトに対する相対的な方位変化を取得すると共に、方位変化情報を方位情報取得手段420に提供することができる。   When an orientation of an object in a plurality of objects in the virtual auditory environment and / or an orientation relative to another object is changed, orientation information providing means (not shown) installed in the object changes the orientation of the object and / or Alternatively, the azimuth change information can be provided to the azimuth information obtaining unit 420 while obtaining the azimuth change relative to another object.

1つの例において、各オブジェクトは、仮想聴覚環境における非オブジェクト音源からの音声信号のみを受信する。この場合に、前記各オブジェクトの方位変化情報は、そのオブジェクトの仮想聴覚環境における方位変化のみを含んでもよい。   In one example, each object receives only audio signals from non-object sound sources in the virtual auditory environment. In this case, the direction change information of each object may include only the direction change in the virtual auditory environment of the object.

もう1つの例において、各オブジェクトは、仮想聴覚環境における非オブジェクト音源からの音声信号、及び他のオブジェクトからの音声信号を受信し、或いは他のオブジェクトからの音声信号のみを受信する。この2種類の場合に、前記各オブジェクトの方位情報は、そのオブジェクトの仮想聴覚環境における方位変化、及びそのオブジェクトの他のオブジェクトに対する相対的な方位変化を含む。   In another example, each object receives audio signals from non-object sound sources in a virtual auditory environment and audio signals from other objects, or receives only audio signals from other objects. In these two types, the orientation information of each object includes a change in orientation of the object in the virtual auditory environment and a change in orientation relative to the other object.

方位情報提供手段の機能は、多種の方式によって実現することができ、これらの方式は単独で使用してもよく、組み合わせて使用してもよい。例えば、各ユーザはそれぞれ方位検出手段を装備し、方位検出手段によってユーザが仮想聴覚環境において映されたオブジェクトの方位変化をリアルタイムに、周期的に、又はトリガーに応じて検出し、検出した方位変化情報を方位情報取得手段420に提供することができる。オブジェクトのその多重オブジェクト仮想聴覚環境における方位変化は、水平方向における回転或いは平行移動或いはその組合せ、及び/又は垂直方向における回転或いは平行移動或いはその組合せを含んでもよい。或いは、各ユーザはそれぞれユーザ入力インターフェイスを装備し、ユーザは、その仮想聴覚環境において映されたオブジェクトの方位変化、及びそのオブジェクトの他のオブジェクトに対する相対的な方位変化を自己定義することもできる。ユーザ入力インターフェイスの入力は、文字、符号、音声、又はインターフェイスにおけるアイコンに対するクリック、ドラッグなどの多種の方式を含んでもよい。ユーザ入力インターフェイスによって入力された方位変化情報は、直ちに方位情報取得手段420に提供される。以上に記載された検出方式及びユーザ自己定義方式は、単独で使用してもよく、組み合わせて使用してもよい。   The function of the direction information providing means can be realized by various methods, and these methods may be used alone or in combination. For example, each user is equipped with an orientation detection means, and the orientation detection means detects the orientation change of the object reflected in the virtual auditory environment in real time, periodically, or in response to a trigger, and detects the orientation change. Information can be provided to the orientation information acquisition means 420. The orientation change of an object in its multi-object virtual auditory environment may include horizontal rotation or translation or a combination thereof and / or vertical rotation or translation or a combination thereof. Alternatively, each user can be equipped with a user input interface, and the user can self-define the orientation change of the object projected in the virtual auditory environment and the orientation change relative to other objects of the object. The input of the user input interface may include various methods such as clicking, dragging on characters, symbols, sounds, or icons in the interface. The direction change information input by the user input interface is immediately provided to the direction information acquisition unit 420. The detection methods and user self-defining methods described above may be used alone or in combination.

以上に記載された検出方式及びユーザ自己定義方式は組み合わせて、共に方位情報取得手段420にオブジェクトのその多重オブジェクト仮想聴覚環境における方位変化情報を提供することができる。例えば、仮想聴覚環境に入る際に、ユーザはユーザ入力インターフェイスによってその映されたオブジェクトの仮想聴覚環境における方位、及び/又はそのオブジェクトの他のオブジェクトに対する相対的な方位を自己定義して入力すると共に、方位情報を初期方位情報として方位情報取得手段420に提供することができる。その後、各ユーザに装備された方位検出手段は、ユーザが仮想聴覚環境において映されたオブジェクトの方位変化をリアルタイムに、周期的に、又はトリガーに応じて検出し、検出した方位変化情報を方位情報取得手段420に提供する。この過程において、ユーザは、随時にユーザ入力インターフェイスによって、オブジェクトの仮想聴覚環境における方位、及び/又はそのオブジェクトの他のオブジェクトに対する相対的な方位を自己定義して調整することもできる。   The detection method and the user self-definition method described above can be combined to provide the azimuth information acquisition means 420 with the azimuth change information in the multi-object virtual auditory environment of the object. For example, upon entering the virtual auditory environment, the user may self-define and input the orientation of the projected object in the virtual auditory environment and / or the relative orientation of the object with respect to other objects via the user input interface. The azimuth information can be provided to the azimuth information acquisition means 420 as initial azimuth information. After that, the direction detecting means equipped to each user detects the direction change of the object reflected in the virtual auditory environment in real time, periodically or in response to a trigger, and the detected direction change information is direction information. Provide to the acquisition means 420. In this process, the user can also self-define and adjust the orientation of the object in the virtual auditory environment and / or the relative orientation of the object relative to other objects from time to time through the user input interface.

方位情報取得手段420は各オブジェクトの仮想聴覚環境における方位変化情報を取得した後に、各オブジェクトの原方位情報及び今回取得した方位変化情報に基づいて、変化後の方位情報を算出すると共に、各オブジェクトの変化後の方位情報を特定手段130に提供する。特定手段430は各オブジェクトの変化後の方位情報に基づいて、オブジェクト毎に対してその変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定する。   The azimuth information acquisition means 420 calculates the azimuth information after the change based on the original azimuth information of each object and the azimuth change information acquired this time after acquiring the azimuth change information of each object in the virtual auditory environment. Is provided to the specifying means 130. The specifying unit 430 specifies one or another set of HRTF data corresponding to the changed direction information for each object based on the changed direction information of each object.

或いは、オブジェクトに装備された方位情報提供手段は、直接にそのオブジェクト的変化後の方位及び/又は他のオブジェクトの変化後の相対的な方位を取得すると共に、変化後の方位情報を方位情報取得手段120に提供することもできる。この場合に、方位情報取得手段420は上述の算出を実行する必要がなく、取得された各オブジェクトの変化後の方位情報を特定手段430に伝送することのみが必要であり、特定手段430は各オブジェクトの変化後の方位情報に基づいて、オブジェクト毎に対して、その変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合をそれぞれ特定する。   Alternatively, the orientation information providing means equipped on the object directly acquires the orientation after the object change and / or the relative orientation after the change of another object, and acquires the orientation information after the change. Means 120 may also be provided. In this case, the azimuth information acquisition unit 420 does not need to perform the above-described calculation, and only needs to transmit the acquired azimuth information of each object to the identification unit 430. Based on the azimuth information after the change of the object, another one or another set of HRTF data corresponding to the azimuth information after the change is specified for each object.

特定手段430がオブジェクト毎に対して、その変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定した後に、処理手段440はその1つ又は複数のHRTFデータの集合に基づいて、音声入力手段110からの仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号を処理し、出力するためのバイノーラル音声信号を得る。その後に、音声出力手段450はバイノーラル音声信号をそれぞれ相応のユーザに提供する。   After the specifying unit 430 specifies another set of one or another HRTF data corresponding to the changed orientation information for each object, the processing unit 440 sets the one or more HRTF data. Based on the set, one or more audio signals corresponding to one or more sound sources in the virtual auditory environment from the audio input means 110 are processed to obtain a binaural audio signal for output. Thereafter, the audio output means 450 provides binaural audio signals to the corresponding users.

本発明の実施例による多重オブジェクト仮想聴覚環境において音声信号出力を制御する装置は、遠端側に位置し、例えば、遠隔サーバに集積されることができる。ローカル側に位置し、例えば、ローカルな音声・映像再生機器又はマルチパーティ会議機器に集積されることもできる。   An apparatus for controlling audio signal output in a multi-object virtual auditory environment according to an embodiment of the present invention is located on the far end side and can be integrated in a remote server, for example. It is located on the local side and can be integrated into, for example, a local audio / video playback device or multi-party conference device.

上述の実施例は、多重オブジェクト仮想聴覚環境における音声信号出力を制御する装置において複数のオブジェクトにおける各オブジェクトの方位情報を取得すると共に、オブジェクト毎に対してその方位情報に対応する1つ又は複数のHRTFデータの集合を特定するものを例として説明しているが、当業者は、他の実施例において、その音声信号出力を制御する装置は、複数のオブジェクトにおける一部のオブジェクトの方位情報のみを取得すると共に、その一部のオブジェクトに対して、その方位情報に対応する1つ又は複数のHRTFデータの集合をそれぞれ特定することもできると理解すべきであることを説明する必要がある。例えば、その音声信号出力を制御する装置がローカル側に位置する場合、ローカルなオブジェクトの方位情報のみを取得すると共に、ローカルなオブジェクトに対して、その方位情報に対応する1つ又は複数のHRTFデータの集合を特定することができ、ローカルなオブジェクトの方位情報は、ローカルなオブジェクトの多重オブジェクト仮想聴覚環境における方位及び/又は他のオブジェクトに対する相対的な方位を含んでもよい。そのローカルなオブジェクトの数は、1つ又は複数であってもよい。   The above-described embodiment acquires direction information of each object in a plurality of objects in an apparatus for controlling audio signal output in a multi-object virtual auditory environment, and one or more corresponding to the direction information for each object. Although an example of identifying a set of HRTF data has been described as an example, those skilled in the art will understand that, in another embodiment, an apparatus that controls the output of the audio signal only includes orientation information of some objects in a plurality of objects. It is necessary to explain that it should be understood that, for some of the objects, one or more sets of HRTF data corresponding to the orientation information can be specified for each of the objects. For example, if the device that controls the output of the audio signal is located on the local side, only the azimuth information of the local object is acquired, and for the local object, one or more HRTF data corresponding to the azimuth information The local object orientation information may include a local object orientation in a multi-object virtual auditory environment and / or a relative orientation relative to other objects. The number of local objects may be one or more.

後文では、マルチパーティ会議シーンをシミュレーションする多重オブジェクト仮想聴覚環境を例として、図5を組み合わせて、図4の音声信号出力を制御する装置の具体的な適用シーンにおける活用をさらに詳細に説明する。   In the latter part, the multi-object virtual auditory environment for simulating a multi-party conference scene is taken as an example, and FIG. 5 is used as an example to explain in more detail the utilization of the apparatus for controlling the audio signal output of FIG. .

図5には、本発明の実施例による例としての多重オブジェクト仮想現実システム50を示す。図5に示すように、多重オブジェクト仮想現実システム50は、マルチパーティ会議機器510、図4の音声信号出力を制御する装置40(以下では「装置40」と略称)、ユーザ入力インターフェイス520、両耳イヤホン530及び仮想現実メガネ540を含む。本適用シーンにおいて、装置40がローカル側に位置し、且つローカルなオブジェクトの方位情報及び変化した方位情報のみを受信するものを例として説明する。   FIG. 5 shows an exemplary multi-object virtual reality system 50 according to an embodiment of the present invention. As shown in FIG. 5, the multi-object virtual reality system 50 includes a multi-party conference device 510, a device 40 (hereinafter abbreviated as “device 40”) for controlling the audio signal output of FIG. 4, a user input interface 520, binaural Including earphones 530 and virtual reality glasses 540. In this application scene, the case where the apparatus 40 is located on the local side and receives only the orientation information of the local object and the changed orientation information will be described as an example.

図5を参照して、マルチパーティ会議機器510は、映像信号及び参会者からの音声信号を提供し、前記映像信号はマルチパーティ会議シーンの仮想視覚環境をシミュレーションするためのものであり、前記音声信号はマルチパーティ会議シーンの仮想聴覚環境をシミュレーションするためのものである。ユーザが両耳イヤホン530と仮想現実メガネ540をかけた場合、マルチパーティ会議機器510は、そのユーザに仮想的なマルチパーティ会議シーンを提示するように仮想現実メガネ540に映像信号を伝送する。前記仮想的なマルチパーティ会議シーンにおいて、そのユーザ及び他の参会者は、それぞれ異なる方位に位置するオブジェクトとして提示されることができる。これに基づき、マルチパーティ会議機器510は、さらに、異なる方位に位置するオブジェクトの音声をシミュレーションするように、両耳イヤホン530に装置40により処理された他の参会者からの音声信号を伝送する。   Referring to FIG. 5, a multi-party conference device 510 provides a video signal and an audio signal from a participant, and the video signal is for simulating a virtual visual environment of a multi-party conference scene, The audio signal is for simulating a virtual auditory environment in a multi-party conference scene. When the user wears the binaural earphone 530 and the virtual reality glasses 540, the multi-party conference device 510 transmits a video signal to the virtual reality glasses 540 so as to present a virtual multi-party conference scene to the user. In the virtual multi-party conference scene, the user and other participants can be presented as objects located in different directions. Based on this, the multi-party conference equipment 510 further transmits audio signals from other participants processed by the device 40 to the binaural earphone 530 so as to simulate the audio of the object located in different directions. .

本実施例のマルチパーティ会議シーンにおいて、合計3名の参会者がいるが、それぞれ装置40の所在地に位置するローカルなユーザA、及び別箇所に位置するノンローカル参会者BとCであることとする。ローカルなユーザAには、上述の両耳イヤホン530と仮想現実メガネ540がかけられている。マルチパーティ会議機器510が起動された後に、ローカルなユーザAは仮想現実シーンにおけるローカルなオブジェクトaに映され、ノンローカル参会者BとCはそれぞれ仮想現実シーンにおける他のオブジェクトbとcに映される。この際に、ローカルなユーザAは、仮想現実メガネ540を介して仮想現実シーンにおけるオブジェクトbとcが見え、自身が仮想現実シーンに映されたオブジェクトaも見えるか、或いは少なくとも一部が見える。   In the multi-party conference scene of this embodiment, there are a total of three participants, each of which is a local user A located at the location of the device 40 and a non-local participant B and C located at different locations. I will do it. The local user A is wearing the above-described binaural earphone 530 and virtual reality glasses 540. After the multi-party conferencing equipment 510 is activated, the local user A is shown on the local object a in the virtual reality scene, and the non-local participants B and C are shown on the other objects b and c in the virtual reality scene, respectively. Is done. At this time, the local user A can see the objects b and c in the virtual reality scene through the virtual reality glasses 540, and can also see the object a reflected in the virtual reality scene, or at least a part thereof.

本実施例において、ローカルなユーザAはユーザ入力インターフェイス520によって、自身が映されたローカルなオブジェクトaのマルチパーティ会議シーンにおける方位及びそのオブジェクトaの他のオブジェクトbとcに対する相対的な方位を自己定義して入力すると共に、この方位情報を初期方位情報として装置40における方位情報取得手段(未図示)に提供することができる。   In this embodiment, the local user A uses the user input interface 520 to determine the orientation of the local object a in which the user is reflected in the multi-party conference scene and the relative orientation of the object a relative to the other objects b and c. While defining and inputting, this azimuth | direction information can be provided to the azimuth | direction information acquisition means (not shown) in the apparatus 40 as initial azimuth | direction information.

装置40における方位情報取得手段(未図示)は、その方位情報を取得すると共に装置40における特定手段(未図示)に伝送し、特定手段はローカルなオブジェクトaに対してその方位情報に対応する2つのHRTFデータの集合を特定し、特定情報を装置40における処理手段(未図示)に伝送する。その内の1つのHRTFデータの集合は、オブジェクトbが音源として発する音波がオブジェクトaに伝送される伝送特徴を表し、他方のHRTFデータの集合は、オブジェクトcが音源として発する音波がオブジェクトaに伝送される伝送特徴を表す。その後、装置40における処理手段(未図示)は、特定された2つのHRTFデータの集合に基づいて、装置40における音声入力手段(未図示)がマルチパーティ会議機器510から受信したオブジェクトbとcからの音声信号をそれぞれ処理し、出力するためのバイノーラル音声信号を得る。装置40における音声出力手段(未図示)はバイノーラル音声信号を両耳イヤホン530によってローカルなユーザAに提供する。オブジェクトbとcからの音声信号はそれぞれ装置40における処理手段により、方位情報に対応する異なるHRTFデータの集合に基づいて処理されたため、ローカルなユーザAに感じられたオブジェクトbとcからの音声は方位情報に対応する方位特徴を表す。このような方案に従って、ユーザは、仮想現実シーンのマルチパーティ会議において、音声のみに基づいて、異なる参会者の方位を識別することができる。例えば、ローカルなユーザAが自己定義して入力した方位情報は、ローカルなオブジェクトaが真ん中、オブジェクトbがその左前方、オブジェクトcがその右前方に位置するものであると仮定すると、ローカルなユーザAが実際にその仮想的なマルチパーティ会議において聞こえた参会者Bの音声はその左前方にあり、参会者Cの音声はその右前方にあり、ユーザAが設定した、或いはユーザAが仮想現実メガネ540を介して見えた仮想視覚シーンと一致しない箇所がないため、聴覚においてユーザの仮想現実体験を強化している。   The orientation information acquisition means (not shown) in the device 40 acquires the orientation information and transmits it to the specifying means (not shown) in the device 40. The specifying means corresponds to the orientation information for the local object a 2. One set of HRTF data is specified, and the specified information is transmitted to processing means (not shown) in the apparatus 40. One set of HRTF data represents transmission characteristics in which sound waves emitted from the object b as a sound source are transmitted to the object a, and the other set of HRTF data transmits sound waves emitted from the object c as a sound source to the object a. Represents the transmission characteristics to be performed. Thereafter, the processing means (not shown) in the device 40 is based on the objects b and c received from the multi-party conference device 510 by the voice input means (not shown) in the device 40 based on the set of two specified HRTF data. The binaural audio signal for processing and outputting is obtained. Audio output means (not shown) in device 40 provides binaural audio signals to local user A via binaural earphones 530. Since the audio signals from the objects b and c are processed by the processing means in the device 40 based on different sets of HRTF data corresponding to the direction information, the audio from the objects b and c felt by the local user A is The azimuth | direction characteristic corresponding to azimuth | direction information is represented. In accordance with such a plan, the user can identify the orientations of different participants based only on audio in a multi-party conference of a virtual reality scene. For example, assuming that local user A is positioned in the middle, local object a is in the middle, object b is in the front left, and object c is in the right front, The voice of the participant B that A actually heard in the virtual multi-party conference is in the left front, the voice of the participant C is in the right front, and the user A has set or the user A Since there is no portion that does not match the virtual visual scene seen through the virtual reality glasses 540, the user's virtual reality experience is enhanced in hearing.

さらに、ローカルなユーザAは、随時にユーザ入力インターフェイス520によってローカルなオブジェクトaのマルチパーティ会議シーンにおける方位及びそのオブジェクトaの他のオブジェクトbとcに対する相対的な方位を調整することもできる。   Further, the local user A can adjust the orientation of the local object a in the multi-party conference scene and the relative orientation of the object a with respect to the other objects b and c by the user input interface 520 at any time.

装置40における方位情報取得手段(未図示)は、変化後の方位情報を取得すると共に装置40における特定手段(未図示)に伝送し、特定手段はローカルなオブジェクトaに対して変化後の方位情報に対応する2つのHRTFデータの集合を特定する。その内の1つのHRTFデータの集合は、オブジェクトbが音源として発する音波がオブジェクトaに伝送される伝送特徴を表し、他方のHRTFデータの集合は、オブジェクトcが音源として発する音波がオブジェクトaに伝送される伝送特徴を表す。その後、装置40における処理手段(未図示)は、特定された2つのHRTFデータの集合に基づいて、装置40における音声入力手段(未図示)がマルチパーティ会議機器510から受信したオブジェクトbとcからの音声信号をそれぞれ処理し、出力するためのバイノーラル音声信号を得る。装置40における音声出力手段(未図示)はバイノーラル音声信号を両耳イヤホン530によってローカルなユーザに提供する。オブジェクトbとcからの音声信号はそれぞれ装置40における処理手段により、変化後の方位情報に対応するHRTFデータの集合に基づいて処理されたため、ローカルなユーザAに感じられたオブジェクトbとcからの音声は方位情報の変化に対応する変化を表す。このような方案に従って、ユーザは、仮想現実シーンのマルチパーティ会議において、音声のみに基づいて、異なる参会者の方位の変化を識別することができる。例えば、ユーザAが前回自己定義して入力した方位情報を基に、ユーザAが自己定義して入力した変化後の方位情報は、ローカルなオブジェクトaが変わらずに真ん中に位置し、オブジェクトbがその真ん前に移動し、オブジェクトcがその右側に移動したものであると仮定すると、ユーザAが実際にその仮想的なマルチパーティ会議において聞こえた参会者Bの音声はその真ん前に移動し、参会者Cの音声はその右側に移動し、ユーザAが今回設定した、或いは仮想現実メガネ540を介して見えた仮想視覚シーンと一致しない箇所がないため、聴覚においてユーザの仮想現実体験をさらに強化している。   Orientation information acquisition means (not shown) in the apparatus 40 acquires the changed orientation information and transmits it to the specifying means (not shown) in the apparatus 40, and the specifying means changes the orientation information for the local object a. Two sets of HRTF data corresponding to are identified. One set of HRTF data represents transmission characteristics in which sound waves emitted from the object b as a sound source are transmitted to the object a, and the other set of HRTF data transmits sound waves emitted from the object c as a sound source to the object a. Represents the transmission characteristics to be performed. Thereafter, the processing means (not shown) in the device 40 is based on the objects b and c received from the multi-party conference device 510 by the voice input means (not shown) in the device 40 based on the set of two specified HRTF data. The binaural audio signal for processing and outputting is obtained. Audio output means (not shown) in device 40 provides binaural audio signals to local users via binaural earphones 530. Since the audio signals from the objects b and c are processed by the processing means in the device 40 based on the set of HRTF data corresponding to the changed azimuth information, the audio signals from the objects b and c felt by the local user A are obtained. The voice represents a change corresponding to the change of the direction information. According to such a plan, the user can identify a change in the direction of different participants based only on the sound in the multi-party conference of the virtual reality scene. For example, based on the azimuth information that the user A has previously defined and entered, the azimuth information after the change that the user A has self-defined and entered is such that the local object a is not changed and the object b is located in the middle. Assuming that object C has moved to the right and object c has moved to its right, participant B's voice that user A actually heard in the virtual multi-party conference moved to the front, The voice of the party C moves to the right side, and since there is no part that does not match the virtual visual scene set by the user A or seen through the virtual reality glasses 540, the user's virtual reality experience is further enhanced in hearing. doing.

前記2つのノンローカル参会者BとCについて、各々のローカル側にも装置40を装備し、類似した仮想聴覚環境を提供することもできると理解できる。   It can be understood that the two non-local participants B and C can also be provided with a device 40 on each local side to provide a similar virtual auditory environment.

上述のマルチパーティ会議適用シーンにおいて仮想聴覚環境と仮想視覚環境とを組み合わせて記載したのは、本発明の技術案をよりうまく説明するために過ぎず、本発明の技術案は仮想聴覚環境の適用シーンのみに活用できると理解できる。   The combination of the virtual auditory environment and the virtual visual environment in the above-described multi-party conference application scene is only described for better explaining the technical solution of the present invention, and the technical solution of the present invention is applied to the virtual auditory environment. It can be understood that it can be used only for scenes.

図6は、本発明の実施例による多重オブジェクト仮想聴覚環境において音声信号出力を制御する方法を示す。その方法は、第1取得ステップS610、第1特定ステップS620及び第1処理ステップS630を含む。   FIG. 6 illustrates a method for controlling audio signal output in a multi-object virtual auditory environment according to an embodiment of the present invention. The method includes a first acquisition step S610, a first identification step S620, and a first processing step S630.

図6を参照して、第1取得ステップS610において、多重オブジェクト仮想聴覚環境における複数のオブジェクトにおける少なくとも1つのオブジェクトの方位情報を取得する。その少なくとも1つのオブジェクトの方位情報は、そのオブジェクトの多重オブジェクト仮想聴覚環境における方位及び/又は他のオブジェクトに対する相対的な方位を含む。   Referring to FIG. 6, in the first acquisition step S610, the orientation information of at least one object among a plurality of objects in the multi-object virtual auditory environment is acquired. The orientation information of the at least one object includes the orientation of the object in a multi-object virtual auditory environment and / or a relative orientation with respect to other objects.

第1特定ステップS620において、その少なくとも1つのオブジェクトに対して、その方位情報に対応する1つ又は複数の音源方位データの集合を特定する。その1つ又は複数の音源方位データの集合は、多重オブジェクト仮想聴覚環境における1つ又は複数の音源が音波をその少なくとも1つのオブジェクトの存在する方位に伝送する伝送特性をそれぞれ表す。   In the first specifying step S620, a set of one or more sound source direction data corresponding to the direction information is specified for the at least one object. The set of one or more sound source direction data represents transmission characteristics in which one or more sound sources in the multi-object virtual auditory environment transmit sound waves in the direction in which the at least one object exists.

少なくとも1つのオブジェクトに対して、その方位情報に対応する1つ又は複数の音源方位データの集合を特定することは、多種の方式によって実現することができる。例えば、その少なくとも1つのオブジェクトの方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、その少なくとも1つのオブジェクトに、その方位情報にマッチングする1つ又は複数の音源方位データの集合を選択することができる。また例えば、その少なくとも1つのオブジェクトの方位情報に基づいて、その少なくとも1つのオブジェクトに、その方位情報に対応する1つ又は複数の音源方位データの集合を算出することができる。   Specifying a set of one or more sound source direction data corresponding to the direction information for at least one object can be realized by various methods. For example, based on the azimuth information of the at least one object, one or more matching the azimuth information to the at least one object according to the correspondence between the azimuth information stored in advance and the set of sound source azimuth data, or A set of a plurality of sound source direction data can be selected. Also, for example, based on the orientation information of the at least one object, a set of one or more sound source orientation data corresponding to the orientation information can be calculated for the at least one object.

音源方位データの集合は、例えば頭部関連の伝達関数データの集合、両耳間の時間差データの集合、両耳間の強度差データの集合などの、音源から発される音波がある方位に伝送される伝送特性を表すことができる、如何なる適切なデータの集合であってもよい。   A set of sound source azimuth data is transmitted in a certain direction, such as a set of transfer function data related to the head, a set of time difference data between both ears, and a set of intensity difference data between both ears. It can be any suitable collection of data that can represent the transmission characteristics to be performed.

第1処理ステップS630において、出力するためのバイノーラル音声信号を得るように、特定された1つ又は複数の音源方位データの集合に基づいて、多重オブジェクト仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する。   Corresponding to one or more sound sources in a multi-object virtual auditory environment based on the identified set of one or more sound source orientation data to obtain a binaural audio signal for output in a first processing step S630 One or more audio signals to be processed.

1つの例において、その少なくとも1つのオブジェクトにおけるオブジェクト毎に対して、他のオブジェクトはその多重オブジェクト仮想聴覚環境における1つ又は複数の音源とされる。   In one example, for each object in the at least one object, the other object is one or more sound sources in the multi-object virtual auditory environment.

その少なくとも1つのオブジェクトの多重オブジェクト仮想聴覚環境における方位が変化する可能性があることを考慮すると、更なる実施例において、その少なくとも1つのオブジェクトの変化後の方位情報に基づいて、その少なくとも1つのオブジェクトに対してその変化後の方位情報に対応する別の1つ又は別の複数のHRTFデータの集合を特定することにより、その少なくとも1つのオブジェクトに、その現在方位にマッチングするHRTFデータの集合をリアルタイムに選択するという効果を実現することもできる。   In view of the possibility that the orientation of the at least one object in the multi-object virtual auditory environment may change, in a further embodiment, the at least one object is based on the changed orientation information of the at least one object. By specifying another one or another set of HRTF data corresponding to the changed orientation information for the object, the set of HRTF data that matches the current orientation is assigned to the at least one object. The effect of selecting in real time can also be realized.

この更なる実施例において、上述の第1取得ステップ、第1特定ステップ及び第1処理ステップ以外に、第2取得ステップ、第2特定ステップ及び第2処理ステップをさらに含む。   In this further embodiment, in addition to the first acquisition step, the first specification step, and the first processing step described above, a second acquisition step, a second specification step, and a second processing step are further included.

第2取得ステップにおいて、その少なくとも1つのオブジェクトの変化後の方位情報を取得する。その少なくとも1つのオブジェクトの変化後の方位情報は、そのオブジェクトの前記仮想聴覚環境における変化後の方位及び/又は他のオブジェクトに対する変化後の相対的な方位を含む。   In the second acquisition step, the orientation information after the change of the at least one object is acquired. The changed orientation information of the at least one object includes a changed orientation of the object in the virtual auditory environment and / or a changed relative orientation with respect to another object.

第2特定ステップにおいて、その少なくとも1つのオブジェクトに対して、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定する。その別の1つ又は別の複数の音源方位データの集合は、多重オブジェクト仮想聴覚環境における1つ又は複数の音源が音波をその少なくとも1つのオブジェクトの存在する変化後の方位に伝送する伝送特性をそれぞれ表す。   In the second specifying step, another one or another set of sound source direction data corresponding to the changed direction information is specified for the at least one object. The other one or another set of sound source azimuth data is a transmission characteristic in which one or more sound sources in a multi-object virtual auditory environment transmit sound waves to a changed azimuth in which the at least one object exists. Represent each.

その少なくとも1つのオブジェクトに対して、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定することも、多種の方式によって実現することができる。例えば、その少なくとも1つのオブジェクトの変化後の方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、その少なくとも1つのオブジェクトに、その変化後の方位情報にマッチングする別の1つ又は別の複数の音源方位データの集合を選択することができる。また例えば、その少なくとも1つのオブジェクトの変化後の方位情報に基づいて、その少なくとも1つのオブジェクトに、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を算出することができる。   It is also possible to specify another one or another set of sound source azimuth data corresponding to the changed azimuth information for the at least one object by various methods. For example, based on the azimuth information after the change of the at least one object, according to the correspondence between the azimuth information stored in advance and the set of sound source azimuth data, the azimuth information after the change is assigned to the at least one object. One or another set of sound source azimuth data that matches can be selected. Also, for example, based on the azimuth information after the change of the at least one object, another one or another set of sound source azimuth data corresponding to the azimuth information after the change is calculated for the at least one object. can do.

第2処理ステップにおいて、出力するためのバイノーラル音声信号を得るように、特定された別の1つ又は別の複数の音源方位データの集合に基づいて、多重オブジェクト仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する。   In a second processing step, one or more in the multi-object virtual auditory environment is based on another identified one or another set of sound source orientation data to obtain a binaural audio signal for output. One or more audio signals corresponding to the sound source are processed.

本発明の各実施例による音声信号出力を制御する装置における各手段は、完全又は一部的に、ソフトウェア、ハードウェア、ファームウェア、或いはその任意の組合せによって実現することができる。ハードウェア手段の例は、システムオンチップ(SOC)、集積回路(IC)、特定用途向け集積回路(ASIC)、現場でプログラム可能なゲートアレイ(FPGA)などを含むが、これらに限らない。   Each means in the apparatus for controlling the audio signal output according to each embodiment of the present invention can be realized completely or partly by software, hardware, firmware, or any combination thereof. Examples of hardware means include, but are not limited to, system on chip (SOC), integrated circuit (IC), application specific integrated circuit (ASIC), field programmable gate array (FPGA), and the like.

本発明の各実施例による音声信号出力を制御する装置は、単機機器として実現され、即ち全ての手段が1つの物理機器において実現されてもよい。或いは、本発明の各実施例による音声信号出力を制御する装置は、分布式機器、即ち一部の手段と他の手段とがそれぞれ、異なる物理機器又は位置に配置されるものであってもよい。
本発明の各実施例による音声信号出力を制御する装置と外部装置との間、或いは本発明の各実施例による音声信号出力を制御する装置の内部の各手段の間は、如何なる現在既知の、又は将来開発する通信技術によって互いに通信することができ、このような技術は、プロセス/スレッド間通信、ブルートゥース、赤外線、無線又は有線のコンピュータネットワーク、通信ネットワークなどを含むが、これらに限らない。
The apparatus for controlling the output of the audio signal according to each embodiment of the present invention may be realized as a single device, that is, all means may be realized in one physical device. Alternatively, the apparatus for controlling the audio signal output according to each embodiment of the present invention may be a distributed device, that is, a part of means and another means are respectively arranged in different physical devices or positions. .
Between the device for controlling the audio signal output according to each embodiment of the present invention and an external device, or between the means within the device for controlling the audio signal output according to each embodiment of the present invention, any currently known, Alternatively, they may communicate with each other by future-developed communication technologies, including but not limited to process / thread communication, Bluetooth, infrared, wireless or wired computer networks, communication networks, and the like.

本発明の以上の記載は、如何なる当業者も発明を実現又は使用できるようにするためのものである。当業者にとって、本発明の各種の補正は全て自明であり、且つ本稿に定義された一般的な原理は、本開示の精神及び保護範囲を逸脱しない場合に、他の変形に適用することもできる。よって、本発明は本稿の実例及び設計に限らず、本稿に開示されている原理及び新規性特性の最も広い範囲と一致している。   The above description of the present invention is intended to enable any person skilled in the art to make or use the invention. Various modifications of the present invention will be obvious to those skilled in the art, and the general principles defined herein may be applied to other variations without departing from the spirit and scope of protection of the present disclosure. . Thus, the present invention is not limited to the examples and designs of this paper, but is consistent with the widest range of principles and novelty characteristics disclosed in this paper.

10 装置
110 音声入力手段
120 方位情報取得手段
130 特定手段
140 処理手段
150 音声出力手段
10 apparatus 110 voice input means 120 orientation information acquisition means 130 identification means 140 processing means 150 voice output means

Claims (27)

仮想聴覚環境において音声信号出力を制御する方法であって、
前記仮想聴覚環境におけるオブジェクトの方位情報を取得する第1取得ステップと、
前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記方位情報に対応する1つ又は複数の音源方位データの集合を特定する第1特定ステップと、
出力するためのバイノーラル音声信号を得るように、前記1つ又は複数の音源方位データの集合に基づいて、前記1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する第1処理ステップと、
を含む、方法。
A method of controlling audio signal output in a virtual auditory environment,
A first acquisition step of acquiring orientation information of the object in the virtual auditory environment;
One or more sound source azimuth data corresponding to the azimuth information, each representing transmission characteristics of one or more sound sources in the virtual auditory environment for transmitting the sound waves in the azimuth corresponding to the azimuth information. A first identification step for identifying a set of
First processing each of one or more audio signals corresponding to the one or more sound sources based on the set of one or more sound source orientation data to obtain a binaural audio signal for output. Processing steps;
Including a method.
前記仮想聴覚環境における前記オブジェクトの変化後の方位情報を取得する第2取得ステップと、
前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記変化後の方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定する第2特定ステップと、
出力するためのバイノーラル音声信号を得るように、前記別の1つ又は別の複数の音源方位データの集合に基づいて、前記1つ又は複数の音源に対応する1つ又は複数の音声信号をそれぞれ処理する第2処理ステップと、
をさらに含む、請求項1に記載の方法。
A second acquisition step of acquiring orientation information after the change of the object in the virtual auditory environment;
One or more sound sources in the virtual auditory environment for the object, each representing a transmission characteristic for transmitting a sound wave in a direction corresponding to the changed direction information; another corresponding to the changed direction information A second specifying step of specifying one or another set of sound source direction data;
In order to obtain a binaural audio signal for output, one or more audio signals corresponding to the one or more sound sources are respectively obtained based on the other one or another set of sound source direction data. A second processing step to process;
The method of claim 1, further comprising:
前記第1特定ステップは、前記方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、前記オブジェクトに、前記方位情報にマッチングする前記1つ又は複数の音源方位データの集合を選択することを含む、請求項1に記載の方法。   In the first specifying step, based on the azimuth information, the object is matched with the azimuth information according to a correspondence relationship between azimuth information stored in advance and a set of sound source azimuth data. The method of claim 1, comprising selecting a set of sound source orientation data. 前記第1特定ステップは、前記方位情報に基づいて、前記オブジェクトに、前記方位情報に対応する前記1つ又は複数の音源方位データの集合を算出することを含む、請求項1に記載の方法。   The method according to claim 1, wherein the first specifying step includes calculating a set of the one or more sound source azimuth data corresponding to the azimuth information for the object based on the azimuth information. 前記第2特定ステップは、前記変化後の方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、前記オブジェクトに、前記変化後の方位情報にマッチングする前記別の1つ又は別の複数の音源方位データの集合を選択することを含む、請求項2に記載の方法。   The second specifying step matches the object with the changed azimuth information according to a correspondence relationship between the azimuth information stored in advance and a set of sound source azimuth data based on the changed azimuth information. 3. The method of claim 2, comprising selecting the one or more other sets of sound source orientation data. 前記第2特定ステップは、前記変化後の方位情報に基づいて、前記オブジェクトに、前記変化後の方位情報に対応する前記別の1つ又は別の複数の音源方位データの集合を算出することを含む、請求項2に記載の方法。   The second specifying step calculates, based on the changed azimuth information, the one or another set of sound source azimuth data corresponding to the changed azimuth information for the object. The method of claim 2 comprising. 前記オブジェクトが1つのオブジェクトであり、
前記第1取得ステップは、前記1つのオブジェクトの前記仮想聴覚環境における方位を含む、前記1つのオブジェクトの方位情報を取得することを含み、
前記第1特定ステップは、前記1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記1つのオブジェクトの前記方位に伝送する伝送特性をそれぞれ表す、その方位情報に対応する1つ又は複数の音源方位データの集合を特定することを含む、請求項1に記載の方法。
The object is one object;
The first obtaining step includes obtaining azimuth information of the one object including an azimuth in the virtual auditory environment of the one object;
The first specifying step corresponds to the azimuth information for the one object, each representing a transmission characteristic in which one or more sound sources in the virtual auditory environment transmit sound waves to the azimuth of the one object. The method of claim 1, comprising identifying a set of one or more sound source orientation data to perform.
前記オブジェクトが1つのオブジェクトであり、
前記第2取得ステップは、前記1つのオブジェクトの前記仮想聴覚環境における変化後の方位を含む、前記1つのオブジェクトの変化後の方位情報を取得することを含み、
前記第2特定ステップは、前記1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記1つのオブジェクトの前記変化後の方位に伝送する伝送特性をそれぞれ表す、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定することを含む、請求項2に記載の方法。
The object is one object;
The second obtaining step includes obtaining azimuth information after the change of the one object, including the azimuth after the change in the virtual auditory environment of the one object,
The second specifying step represents, for the one object, a transmission characteristic in which one or a plurality of sound sources in the virtual auditory environment transmit sound waves in the changed direction of the one object, respectively. 3. The method of claim 2, comprising identifying another one or more sets of sound source orientation data corresponding to subsequent orientation information.
前記オブジェクトが複数のオブジェクトであり、
前記第1取得ステップは、そのオブジェクトの前記仮想聴覚環境における方位及び/又は他のオブジェクトに対する相対的な方位を含む、前記複数のオブジェクトにおける少なくとも1つのオブジェクトの方位情報を取得することを含み、
前記第1特定ステップは、前記少なくとも1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記少なくとも1つのオブジェクトの前記方位に伝送する伝送特性をそれぞれ表す、その方位情報に対応する1つ又は複数の音源方位データの集合を特定することを含む、請求項1に記載の方法。
The object is a plurality of objects;
The first obtaining step includes obtaining orientation information of at least one object in the plurality of objects, including orientation of the object in the virtual auditory environment and / or orientation relative to other objects;
The first specifying step represents, for each of the at least one object, one or more sound sources in the virtual auditory environment that indicate transmission characteristics for transmitting sound waves in the direction of the at least one object, respectively. The method of claim 1, comprising identifying a set of one or more sound source orientation data corresponding to.
前記オブジェクトが複数のオブジェクトであり、
前記第2取得ステップは、そのオブジェクトの前記仮想聴覚環境における変化後の方位及び/又は他のオブジェクトに対する変化後の相対的な方位を含む、前記複数のオブジェクトにおける少なくとも1つのオブジェクトの変化後の方位情報を取得することを含み、
前記第2特定ステップは、前記少なくとも1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記少なくとも1つのオブジェクトの前記変化後の方位に伝送する伝送特性をそれぞれ表す、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定することを含む、請求項2に記載の方法。
The object is a plurality of objects;
The second obtaining step includes a changed orientation of the object in the virtual auditory environment and / or a changed relative orientation with respect to another object, and a changed orientation of at least one object in the plurality of objects. Including obtaining information,
The second specifying step represents, for the at least one object, transmission characteristics in which one or more sound sources in the virtual auditory environment transmit sound waves to the changed orientation of the at least one object, respectively. The method according to claim 2, further comprising identifying another one or another set of sound source orientation data corresponding to the changed orientation information.
前記少なくとも1つのオブジェクトにおけるオブジェクト毎に対して、他のオブジェクトは前記仮想聴覚環境における前記1つ又は複数の音源である、請求項9又は10に記載の方法。   The method according to claim 9 or 10, wherein for each object in the at least one object, another object is the one or more sound sources in the virtual auditory environment. 前記音源方位データの集合には、
頭部関連の伝達関数データの集合と、
両耳間の時間差データの集合と、
両耳間の強度差データの集合と、の内のいずれか1つが含まれている、請求項1乃至請求項10のいずれか1項に記載の方法。
The set of sound source direction data includes
A set of transfer function data related to the head,
A set of time difference data between both ears;
The method according to any one of claims 1 to 10, wherein any one of a set of intensity difference data between both ears is included.
仮想聴覚環境において音声信号出力を制御する装置であって、
前記仮想聴覚環境における1つ又は複数の音源に対応する1つ又は複数の音声信号を受信するように配置される音声入力手段と、
前記仮想聴覚環境におけるオブジェクトの方位情報を取得するように配置される方位情報取得手段と、
前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記方位情報に対応する1つ又は複数の音源方位データの集合を特定するように配置される特定手段と、
バイノーラル音声信号を得るように、前記1つ又は複数の音源方位データの集合に基づいて、前記1つ又は複数の音声信号をそれぞれ処理するように配置される処理手段と、
前記バイノーラル音声信号を出力するように配置される音声出力手段と、
を備える、装置。
A device for controlling audio signal output in a virtual auditory environment,
Audio input means arranged to receive one or more audio signals corresponding to one or more sound sources in the virtual auditory environment;
Azimuth information acquisition means arranged to acquire azimuth information of objects in the virtual auditory environment;
One or more sound source azimuth data corresponding to the azimuth information, each representing transmission characteristics of one or more sound sources in the virtual auditory environment for transmitting the sound waves in the azimuth corresponding to the azimuth information. Identifying means arranged to identify a set of
Processing means arranged to process each of the one or more audio signals based on the set of one or more sound source orientation data to obtain a binaural audio signal;
Audio output means arranged to output the binaural audio signal;
An apparatus comprising:
前記方位情報取得手段はさらに、前記仮想聴覚環境における前記オブジェクトの変化後の方位情報を取得するように配置され、
前記特定手段はさらに、前記オブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記変化後の方位情報に対応する方位に伝送する伝送特性をそれぞれ表す、前記変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定するように配置され、
前記処理手段はさらに、バイノーラル音声信号を得るように、前記別の1つ又は別の複数の音源方位データの集合に基づいて、前記1つ又は複数の音声信号をそれぞれ処理するように配置される、請求項13に記載の装置。
The azimuth information acquisition means is further arranged to acquire azimuth information after the change of the object in the virtual auditory environment,
The specifying means further represents the changed azimuth for each of the objects, each representing a transmission characteristic in which one or a plurality of sound sources in the virtual auditory environment transmit sound waves in a direction corresponding to the changed azimuth information. Arranged to identify another one or another set of sound source orientation data corresponding to the information,
The processing means is further arranged to process each of the one or more audio signals based on the other one or another set of sound source azimuth data to obtain a binaural audio signal. The apparatus of claim 13.
前記方位情報取得手段は、前記仮想聴覚環境における前記オブジェクトの方位変化情報を受信すると共に、前記方位変化情報及び前記方位情報に基づいて、前記オブジェクトの前記変化後の方位情報を特定するように配置される、請求項14に記載の装置。   The azimuth information acquisition means is arranged to receive the azimuth change information of the object in the virtual auditory environment and to specify the azimuth information after the change of the object based on the azimuth change information and the azimuth information. The apparatus of claim 14. 前記特定手段は、前記方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、前記オブジェクトに、前記方位情報にマッチングする前記1つ又は複数の音源方位データの集合を選択するように配置される、請求項13に記載の装置。   The specifying unit is configured to match the object with the one or more sound source directions according to the correspondence relationship between the stored direction information and the set of sound source direction data based on the direction information. The apparatus of claim 13, arranged to select a collection of data. 前記特定手段は、前記方位情報に基づいて、前記オブジェクトに、前記方位情報に対応する前記1つ又は複数の音源方位データの集合を算出するように配置される、請求項13に記載の装置。   The apparatus according to claim 13, wherein the specifying unit is arranged to calculate the set of the one or more sound source azimuth data corresponding to the azimuth information based on the azimuth information. 前記特定手段は、前記変化後の方位情報に基づいて、予め記憶された方位情報と音源方位データの集合との対応関係に応じて、前記オブジェクトに、前記変化後の方位情報にマッチングする前記別の1つ又は別の複数の音源方位データの集合を選択するように配置される、請求項14に記載の装置。   The specifying means matches the object with the changed azimuth information according to the correspondence relationship between the azimuth information stored in advance and the set of sound source azimuth data based on the changed azimuth information. 15. The apparatus of claim 14, arranged to select one or another set of sound source orientation data. 前記特定手段は、前記変化後の方位情報に基づいて、前記オブジェクトに、前記変化後の方位情報に対応する前記別の1つ又は別の複数の音源方位データの集合を算出するように配置される、請求項14に記載の装置。   The specifying means is arranged to calculate, on the object, the other one or another set of a plurality of sound source direction data corresponding to the changed direction information based on the changed direction information. The apparatus according to claim 14. 前記オブジェクトが1つのオブジェクトであり、
前記方位情報取得手段は、前記1つのオブジェクトの前記仮想聴覚環境における方位を含む、前記1つのオブジェクトの方位情報を取得するように配置され、
前記特定手段は、前記1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記1つのオブジェクトの前記方位に伝送する伝送特性をそれぞれ表す、その方位情報に対応する1つ又は複数の音源方位データの集合を特定するように配置される、請求項13に記載の装置。
The object is one object;
The azimuth information acquisition means is arranged to acquire azimuth information of the one object including the azimuth in the virtual auditory environment of the one object,
The specifying unit corresponds to direction information that represents transmission characteristics of one or a plurality of sound sources in the virtual auditory environment for transmitting the sound wave to the direction of the one object for the one object, respectively. 14. The apparatus of claim 13, arranged to identify a set of one or more sound source orientation data.
前記オブジェクトが1つのオブジェクトであり、
前記方位情報取得手段は、前記1つのオブジェクトの前記仮想聴覚環境における変化後の方位を含む、前記1つのオブジェクトの変化後の方位情報を取得するように配置され、
前記特定手段は、前記1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記1つのオブジェクトの前記変化後の方位に伝送する伝送特性をそれぞれ表す、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定するように配置される、請求項14に記載の装置。
The object is one object;
The azimuth information acquisition means is arranged to acquire the azimuth information after the change of the one object, including the azimuth after the change in the virtual auditory environment of the one object,
The specifying means represents, for the one object, a transmission characteristic in which one or a plurality of sound sources in the virtual auditory environment transmit sound waves to the changed direction of the one object, respectively, The apparatus according to claim 14, arranged to identify another one or another set of sound source orientation data corresponding to orientation information.
前記オブジェクトが複数のオブジェクトであり、
前記方位情報取得手段は、そのオブジェクトの前記仮想聴覚環境における方位及び/又は他のオブジェクトに対する相対的な方位を含む、前記複数のオブジェクトにおける少なくとも1つのオブジェクトの方位情報を取得するように配置され、
前記特定手段は、前記少なくとも1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記少なくとも1つのオブジェクトの前記方位に伝送する伝送特性をそれぞれ表す、その方位情報に対応する1つ又は複数の音源方位データの集合を特定するように配置される、請求項13に記載の装置。
The object is a plurality of objects;
The azimuth information acquisition means is arranged to acquire azimuth information of at least one object in the plurality of objects including an azimuth of the object in the virtual auditory environment and / or a relative azimuth relative to another object,
The specifying means corresponds to the orientation information, each of which represents a transmission characteristic in which one or more sound sources in the virtual auditory environment transmit sound waves to the orientation of the at least one object with respect to the at least one object. 14. The apparatus of claim 13, arranged to identify a set of one or more sound source orientation data to be
前記オブジェクトが複数のオブジェクトであり、
前記方位情報取得手段は、そのオブジェクトの前記仮想聴覚環境における変化後の方位及び/又は他のオブジェクトに対する変化後の相対的な方位を含む、前記複数のオブジェクトにおける少なくとも1つのオブジェクトの変化後の方位情報を取得するように配置され、
前記特定手段は、前記少なくとも1つのオブジェクトに対して、前記仮想聴覚環境における1つ又は複数の音源が音波を前記少なくとも1つのオブジェクトの前記変化後の方位に伝送する伝送特性をそれぞれ表す、その変化後の方位情報に対応する別の1つ又は別の複数の音源方位データの集合を特定するように配置される、請求項14に記載の装置。
The object is a plurality of objects;
The azimuth information acquisition means includes a changed azimuth of the object in the virtual auditory environment and / or a changed azimuth relative to another object, and the changed azimuth of at least one object in the plurality of objects. Arranged to get information,
The specifying means represents, for the at least one object, a transmission characteristic in which one or more sound sources in the virtual auditory environment transmit sound waves in the changed orientation of the at least one object, respectively. 15. The apparatus of claim 14, arranged to identify another one or another set of sound source orientation data corresponding to subsequent orientation information.
前記少なくとも1つのオブジェクトにおけるオブジェクト毎に対して、他のオブジェクトは前記仮想聴覚環境における前記1つ又は複数の音源である、請求項22又は23に記載の装置。   24. The apparatus of claim 22 or 23, wherein for each object in the at least one object, another object is the one or more sound sources in the virtual auditory environment. 前記方位情報取得手段に前記オブジェクトの前記方位情報を提供するように配置される方位情報提供手段をさらに備える、請求項13に記載の装置。   The apparatus according to claim 13, further comprising orientation information providing means arranged to provide the orientation information acquisition means with the orientation information of the object. 前記方位情報取得手段に前記オブジェクトの前記変化後の方位情報又は前記オブジェクトの方位変化情報を提供するように配置される方位情報提供手段をさらに備える、請求項14に記載の装置。   15. The apparatus according to claim 14, further comprising orientation information providing means arranged to provide the orientation information acquisition means with the changed orientation information of the object or the orientation change information of the object. 前記音源方位データの集合には、
頭部関連の伝達関数データの集合と、
両耳間の時間差データの集合と、
両耳間の強度差データの集合と、の内のいずれか1つが含まれている、請求項13乃至請求項23のいずれか1項に記載の装置。

The set of sound source direction data includes
A set of transfer function data related to the head,
A set of time difference data between both ears;
The apparatus according to any one of claims 13 to 23, wherein any one of a set of intensity difference data between both ears is included.

JP2017113712A 2017-03-14 2017-06-08 Method and apparatus for controlling audio signal output in virtual auditory environment Pending JP2018152834A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710149313.7 2017-03-14
CN201710149313.7A CN108574925A (en) 2017-03-14 2017-03-14 The method and apparatus that audio signal output is controlled in virtual auditory environment

Publications (1)

Publication Number Publication Date
JP2018152834A true JP2018152834A (en) 2018-09-27

Family

ID=63578455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017113712A Pending JP2018152834A (en) 2017-03-14 2017-06-08 Method and apparatus for controlling audio signal output in virtual auditory environment

Country Status (2)

Country Link
JP (1) JP2018152834A (en)
CN (1) CN108574925A (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582273A (en) * 2018-11-26 2019-04-05 联想(北京)有限公司 Audio-frequency inputting method, electronic equipment and audio output device
CN114025287B (en) * 2021-10-29 2023-02-17 歌尔科技有限公司 Audio output control method, system and related components

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5944197A (en) * 1982-09-06 1984-03-12 Matsushita Electric Ind Co Ltd Headphone device
JPH03236700A (en) * 1990-02-14 1991-10-22 Sony Corp Acoustic signal reproducing device
JPH0879899A (en) * 1994-09-01 1996-03-22 Sanyo Electric Co Ltd Audio signal reproducing device
JPH10230899A (en) * 1997-02-24 1998-09-02 Motoya Takeyama Man-machine interface of aerospace aircraft

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102064781B (en) * 2010-10-29 2015-09-09 华为终端有限公司 A kind of method of adjustment of terminal audio frequency, device and terminal
CN105163242B (en) * 2015-09-01 2018-09-04 深圳东方酷音信息技术有限公司 A kind of multi-angle 3D sound back method and device
CN105872928B (en) * 2016-04-26 2019-06-04 惠州Tcl移动通信有限公司 A kind of method and system that the virtual surround sound based on mobile terminal generates
CN106484099B (en) * 2016-08-30 2022-03-08 广州大学 Content playback apparatus, processing system having the same, and method thereof
CN106412751B (en) * 2016-11-14 2019-08-20 惠州Tcl移动通信有限公司 A kind of earphone taken one's bearings and its implementation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5944197A (en) * 1982-09-06 1984-03-12 Matsushita Electric Ind Co Ltd Headphone device
JPH03236700A (en) * 1990-02-14 1991-10-22 Sony Corp Acoustic signal reproducing device
JPH0879899A (en) * 1994-09-01 1996-03-22 Sanyo Electric Co Ltd Audio signal reproducing device
JPH10230899A (en) * 1997-02-24 1998-09-02 Motoya Takeyama Man-machine interface of aerospace aircraft

Also Published As

Publication number Publication date
CN108574925A (en) 2018-09-25

Similar Documents

Publication Publication Date Title
US10939225B2 (en) Calibrating listening devices
US11706582B2 (en) Calibrating listening devices
CN108616789B (en) Personalized virtual audio playback method based on double-ear real-time measurement
KR102433613B1 (en) Method for binaural audio signal processing based on personal feature and device for the same
US20150326963A1 (en) Real-time Control Of An Acoustic Environment
US20210112366A1 (en) Display A Graphical Representation to Indicate Sound Will Externally Localize as Binaural Sound
US10757523B2 (en) Emoji that indicates a location of binaural sound
EP3354045A1 (en) Differential headtracking apparatus
US11528577B2 (en) Method and system for generating an HRTF for a user
Spagnol et al. Current use and future perspectives of spatial audio technologies in electronic travel aids
WO2016167007A1 (en) Head-related transfer function selection device, head-related transfer function selection method, head-related transfer function selection program, and sound reproduction device
Gamper Enabling technologies for audio augmented reality systems
WO2018036194A1 (en) Sound signal processing method, terminal, and computer storage medium
JP2018152834A (en) Method and apparatus for controlling audio signal output in virtual auditory environment
Carvalho et al. Head tracker using webcam for auralization
CN114339582B (en) Dual-channel audio processing method, device and medium for generating direction sensing filter
Geronazzo et al. Acoustic selfies for extraction of external ear features in mobile audio augmented reality
JP6587047B2 (en) Realistic transmission system and realistic reproduction device
Tashev Audio challenges in virtual and augmented reality devices
US11792581B2 (en) Using Bluetooth / wireless hearing aids for personalized HRTF creation
WO2023085186A1 (en) Information processing device, information processing method, and information processing program
D'Andrea Fonseca et al. Head tracker using webcam for auralization
Dodds et al. Full Reviewed Paper at ICSA 2019
Gamper Audio augmented reality in telecommunication

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181024

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190329