JP2016100677A - Presence transmission system and presence reproduction apparatus - Google Patents

Presence transmission system and presence reproduction apparatus Download PDF

Info

Publication number
JP2016100677A
JP2016100677A JP2014234480A JP2014234480A JP2016100677A JP 2016100677 A JP2016100677 A JP 2016100677A JP 2014234480 A JP2014234480 A JP 2014234480A JP 2014234480 A JP2014234480 A JP 2014234480A JP 2016100677 A JP2016100677 A JP 2016100677A
Authority
JP
Japan
Prior art keywords
sound
sound source
subject
face posture
ear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014234480A
Other languages
Japanese (ja)
Other versions
JP6587047B2 (en
Inventor
イシイ・カルロス・トシノリ
Carlos Toshinori Ishii
超然 劉
Chaoran Liu
超然 劉
石黒 浩
Hiroshi Ishiguro
浩 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2014234480A priority Critical patent/JP6587047B2/en
Publication of JP2016100677A publication Critical patent/JP2016100677A/en
Application granted granted Critical
Publication of JP6587047B2 publication Critical patent/JP6587047B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Headphones And Earphones (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a presence transmission system capable of transmitting presence by reproducing a three-dimensional sound environment observed at a first location, for a person at a second location.SOLUTION: A presence transmission system 1000, on the transmission side, comprises: a microphone array group 100; a LRF group 200 for detecting a position of a person; and a sound source position determination apparatus 300 for estimating a direction in which sound arrives, identifying a position of a sound source by using integration with a detection result of position detection means, and separating sound arriving from the identified position of the sound source to output the separated sound. The presence transmission system, on the reception side, comprises: a face posture estimation unit 520 for estimating a face posture of a subject 2; and a sound synthesis unit 550 for synthesizing, depending on a position of a sound source and the face posture, a sound signal to be reproduced at each ear of the subject 2 from a signal of the separated sound by using a head transfer function from a second location's position corresponding to the position of the sound source at the first location to each ear of the subject.SELECTED DRAWING: Figure 1

Description

この発明は音源定位技術と音空間再構成技術に関し、特に、音源定位および音源分離技術を用いて、遠隔地への臨場感を伝達するための技術に関する。   The present invention relates to a sound source localization technique and a sound space reconstruction technique, and more particularly to a technique for transmitting a sense of realism to a remote place using a sound source localization technique and a sound source separation technique.

近年、ロボット遠隔操作システムにおいて、操作者の存在感をロボット側に伝達する研究が広く行われている(たとえば、非特許文献1、非特許文献2、非特許文献3を参照)。しかし、操作者側へ遠隔地の臨場感を伝達することに注目した研究は少ない。   In recent years, in a robot remote control system, research for transmitting an operator's presence to a robot side has been widely performed (for example, see Non-Patent Document 1, Non-Patent Document 2, and Non-Patent Document 3). However, there are few studies that focus on transmitting a sense of realism to remote operators.

対面コミュニケーションに比べて、遠隔地にいる人物がロボットを介して人とコミュニケーションする場合、空間情報などの欠落によって相手との共有情報が不足する。そのため、操作者側ではコミュニケーションが行われている現場の臨場感を感じることが困難である。   Compared with face-to-face communication, when a person in a remote place communicates with a person via a robot, information shared with the other party is insufficient due to lack of spatial information or the like. For this reason, it is difficult for the operator to feel a sense of realism at the site where communication is performed.

臨場感の伝達に大きな手助けとなるのは、バーチャルリアリティ技術である。現在では多くの遠隔医療・軍事・コミュニケーション目的のアプリケーションなどにおいてバーチャルリアリティ技術が利用されており、臨場感の伝達はこれらの一つの大きな目的となっている。   Virtual reality technology is a great help for the transmission of realism. Currently, virtual reality technology is used in many telemedicine, military, and communication applications, and the transmission of realism is one of these major purposes.

一方で、ロボットと人とのコミュニケーションにおける音源定位および音源分離の技術についてもすでに多くの報告がある。人とロボットとの音声コミュニケーションにおいて、ロボットに取付けたマイクロフォンは通常離れた位置(1m以上)にある。したがって例えば電話音声のよう にマイクと口との距離が数センチの場合と比べて、信号と雑音の比(SNR)は低くなる。このため、傍にいる他人の声や環境の雑音が妨害音となり、ロボット による目的音声の認識が難しくなる。従って、ロボットへの応用として、音源定位や音源分離は重要である。   On the other hand, there have already been many reports on sound source localization and sound source separation techniques in communication between robots and people. In voice communication between a person and a robot, the microphone attached to the robot is usually located at a distance (1 m or more). Therefore, the signal-to-noise ratio (SNR) is lower than when the distance between the microphone and the mouth is a few centimeters, for example, for telephone voices. For this reason, the voices of others nearby and the noise of the environment become disturbing sounds, making it difficult for the robot to recognize the target speech. Therefore, sound source localization and sound source separation are important for robot applications.

音源定位に関して、実環境を想定した従来技術として特許文献1または特許文献2に記載のものがある。特許文献1または特許文献2に記載の技術は、分解能が高いMUSIC法と呼ばれる公知の音源定位の手法を用いている。   Regarding the sound source localization, there are those described in Patent Document 1 or Patent Document 2 as conventional techniques assuming an actual environment. The technique described in Patent Document 1 or Patent Document 2 uses a known sound source localization method called the MUSIC method with high resolution.

特許文献1または特許文献2に記載の発明では、マイクロフォンアレイを用い、マイクロフォンアレイからの信号をフーリエ変換して得られた受信信号ベクトルと、過去の相関行列とに基づいて現在の相関行列を計算する。このようにして求められた相関行列を固有値分解し、最大固有値と、最大固有値以外の固有値に対応する固有ベクトルで ある雑音空間とを求める。さらに、マイクロフォンアレイのうち、1つのマイクロフォンを基準として、各マイクの出力の位相差と、雑音空間と、最大固有値とに基づいて、MUSIC法により音源の方向を推定する。   In the invention described in Patent Document 1 or Patent Document 2, a current correlation matrix is calculated based on a received signal vector obtained by Fourier-transforming a signal from the microphone array using a microphone array and a past correlation matrix. To do. The correlation matrix thus obtained is subjected to eigenvalue decomposition to obtain the maximum eigenvalue and a noise space that is an eigenvector corresponding to an eigenvalue other than the maximum eigenvalue. Furthermore, the direction of the sound source is estimated by the MUSIC method based on the phase difference of the output of each microphone, the noise space, and the maximum eigenvalue with one microphone as a reference in the microphone array.

さらに、特許文献3では、人間とそれ以外の雑音源とが混在している場合、人間の発生する音声と 雑音とを精度高く分離することを目的として、音源定位および音源分離をするシステムが開示されている。ここでは、音源定位装置は、人の位置を検出するLRF(レーザレンジファインダ)群と、マイクロフォンアレイ群の出力から得られる複数チャンネルの音源信号の各々と、マイクロフォンアレイに含まれる各マイクロフォンの間の位置関係と、LRF群の出力とに基づいて、複数の方向の各々について、所定時間ごとにMUSICパワーを算出し、そのピークを音源位置として所定時間ごとに検出する音源定位処理部と、マイクロフォンアレイの出力信号から、音源定位処理部により検出された音源位置からの音声信号を分離する音源分離処理部と、分離された音声信号の属性を人位置計測装置の出力を用いて高精度で 判定する音源種類同定処理部とを含む。   Furthermore, Patent Document 3 discloses a sound source localization and sound source separation system for the purpose of accurately separating human-generated speech and noise when humans and other noise sources coexist. Has been. Here, the sound source localization device includes an LRF (laser range finder) group that detects a person's position, each of a plurality of sound source signals obtained from the output of the microphone array group, and each microphone included in the microphone array. A sound source localization processing unit that calculates MUSIC power at predetermined time intervals for each of a plurality of directions based on the positional relationship and the output of the LRF group, and detects the peak as a sound source position at predetermined time intervals, and a microphone array The sound source separation processing unit that separates the sound signal from the sound source position detected by the sound source localization processing unit from the output signal of the sound, and the attribute of the separated sound signal is determined with high accuracy using the output of the human position measurement device And a sound source type identification processing unit.

特開2008−175733号公報明細書Japanese Patent Application Laid-Open No. 2008-175733 特開2011−220701号公報明細書JP 2011-220701 A Specification 特開2012−211768号公報明細書Japanese Patent Application Laid-Open No. 2012- 211768

Nishio, S., Ishiguro, H., Hagita, N. Can a Teleoperated Android Represent Personal Presence? - A Case Study with Children. Psychologia, 50(4): 330-342. 2007.Nishio, S., Ishiguro, H., Hagita, N. Can a Teleoperated Android Represent Personal Presence?-A Case Study with Children. Psychologia, 50 (4): 330-342. 2007. Ishi, C.T., Liu, C., Ishiguro, H., Hagita, N. 2010. Head motion during dialogue speech and nod timing control in humanoid robots. In Proceedings of 5th ACM/IEEE International Conference on Hu-man-Robot Interaction (HRI 2010). OSAKA, JAPAN. 293-300.Ishi, CT, Liu, C., Ishiguro, H., Hagita, N. 2010.Head motion during dialogue speech and nod timing control in humanoid robots.In Proceedings of 5th ACM / IEEE International Conference on Hu-man-Robot Interaction ( HRI 2010). OSAKA, JAPAN. 293-300. Sumioka, H., Nishio, S., Minato, T., Yamazaki, R., Ishiguro, H. Minimal Human Design Approach for Sonzai-kan Media: Investigation of a Feeling of Human Presence. Cognitive Computation, 2014.Sumioka, H., Nishio, S., Minato, T., Yamazaki, R., Ishiguro, H. Minimal Human Design Approach for Sonzai-kan Media: Investigation of a Feeling of Human Presence. Cognitive Computation, 2014.

しかしながら、上述したような、これらバーチャルリアリティに関する研究の大部分は、視覚における臨場感伝達に着目しているものである。音環境の構築に関するバーチャルリアリティの研究は、ゲームなどのアプリケーションで用いられているものの、未だ少ないのが現状である。   However, most of these researches on virtual reality as described above focus on visual sense transmission. Although research on virtual reality related to the construction of sound environments is used in applications such as games, there are currently only a few.

3次元音場を再現するため従来広く使われた方法は、バイノーラル(両耳)レコーディングされた音声をステレオで再生することである。この方法は簡便であるという利点があるが、正確なステレオマイクロフォンのセッティングが必要で、尚且つダミーヘッドが動かないためダイナミックに音場を再現することができない。さらに、各音源に対して加工を加えることも不可能である。
サラウンドチャンネルスピーカーは空間的な音場の再現のために開発されており、DirAC(Directional Audio Coding)を用いた音場再現の研究は少なくない。
A widely used method for reproducing a three-dimensional sound field is to reproduce binaural (both ears) recorded sound in stereo. This method has the advantage of being simple, but requires an accurate stereo microphone setting, and the dummy head does not move, so that the sound field cannot be reproduced dynamically. Furthermore, it is impossible to process each sound source.
Surround channel speakers have been developed to reproduce spatial sound fields, and there are many studies on sound field reproduction using DirAC (Directional Audio Coding).

しかし、サラウンドスピーカーシステムには二つの問題点がある。一つ目は、音場を録音した環境とそれを再生する環境が異なる場合、部屋の大きさや形状などの環境的要素が音響の伝達に影響を与えてしまい、これらの影響を正確に補正することは困難であるという点である。二つ目は、サラウンドスピーカーシステムでは “sweet spot” の位置がシステムの中心付近に限られている、という点である。即ち、聴者の場所が制限される。   However, there are two problems with the surround speaker system. First, if the environment in which the sound field is recorded and the environment in which it is played back are different, environmental factors such as the size and shape of the room affect the sound transmission, and these effects are corrected accurately. That is difficult. Second, in the surround speaker system, the “sweet spot” position is limited near the center of the system. That is, the location of the listener is limited.

このような事情はあるものの、再現側でのリッチな音環境の構築は、遠隔操作ロボットなどのソーシャルメディアにおいても、操作者に遠隔地での自身の存在感や現場の臨場感を伝えるために重要な要素であると考えられる。   Despite these circumstances, the creation of a rich sound environment on the reproduction side is intended to convey the presence of the remote location to the operator and the presence of the site even in social media such as remote control robots. It is considered an important factor.

この発明は、このような問題点を解決するためになされたものであって、その目的は、第1の場所において観測された3次元的な音環境を、第2の場所にいる人に対して再現することで、臨場感を伝達することが可能な臨場感伝達システムおよび臨場感再現装置を提供することである。   The present invention has been made to solve such a problem, and the object thereof is to provide a person in a second place with a three-dimensional sound environment observed in the first place. It is to provide a sense of presence transmission system and a sense of presence reproduction device capable of transmitting a sense of reality by reproducing the actual feeling.

この発明の1つの局面に従うと、第1の場所の音環境を第2の場所に伝送して再現するための臨場感伝達システムであって、第1の場所に設置される音源定位装置を備え、音源定位装置は、第1の場所における対象物の位置を検出する位置検出手段と、マイクロフォンアレイ部からの出力に応じて、音の到来方向を推定し、位置検出手段の検出結果と統合して、音源の位置を特定して出力する音源定位手段と、特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、第2の場所に設置される音声合成装置をさらに備え、音声合成装置は、第2の場所内の被験者の顔姿勢を検出するための顔姿勢検出手段と、被験者に装着され、被験者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源定位手段から、音源の位置の位置を受信し、検出された顔姿勢に応じて、第2の場所において、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数を用いて、音源分離手段からの分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含む。   According to one aspect of the present invention, there is provided a sense of presence transmission system for transmitting and reproducing the sound environment of the first place to the second place, comprising a sound source localization device installed at the first place. The sound source localization device estimates the direction of arrival of sound according to the output from the microphone array unit and position detection means for detecting the position of the object in the first place, and integrates it with the detection result of the position detection means. And a sound source localization unit for specifying and outputting the position of the sound source, and a sound source separation unit for separating and outputting the sound from the specified position of the sound source, and being synthesized at the second location The speech synthesizer further includes a face posture detecting means for detecting the face posture of the subject in the second location, and a sound that is attached to the subject and that corresponds to the sound environment with respect to both ears of the subject. Sound reproduction means for reproduction and sound source localization means The position of the position of the sound source is received, and the head transmission from the position corresponding to the position of the position of the sound source at the first place to each ear of the subject in the second place according to the detected face posture. Sound space reconstruction means for synthesizing a sound signal to be reproduced to each ear by the sound reproduction means from the separated sound signal from the sound source separation means using a function.

好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、ヘッドフォンに装着されたジャイロおよびコンパスを含む。   Preferably, the sound reproduction means is headphones, and the face posture detection means includes a gyro and a compass attached to the headphones.

好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、撮像された被験者の画像から被験者の顔姿勢を推定する。   Preferably, the sound reproduction means is a headphone, and the face posture detection means estimates the face posture of the subject from the captured subject image.

好ましくは、マイクロフォンアレイ部は、複数のマイクロフォンアレイを含み、音源定位手段は、複数のマイクロフォンアレイの各々に基づく音の到来方向と位置検出手段で検出された音源の位置が、交差することに応じて、音源の位置を特定する。   Preferably, the microphone array unit includes a plurality of microphone arrays, and the sound source localization means responds to the fact that the sound arrival direction based on each of the plurality of microphone arrays and the position of the sound source detected by the position detection means intersect. To specify the position of the sound source.

好ましくは、音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、第2の場所において、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数をデータベースから選択して、各耳へ再現するための音信号を合成する。   Preferably, the apparatus further includes a database that stores coefficients of a plurality of head-related transfer functions corresponding to directions from the sound source to each ear of the subject, and the sound space reconstructing means is the sound source at the first location at the second location. A head-related transfer function from the position corresponding to the position of the head to each ear of the subject is selected from the database, and a sound signal for reproduction to each ear is synthesized.

好ましくは、音空間再構成装置は、被験者が第2の場所における自身の位置または顔姿勢を指定する指示手段と、指示手段からの指示に応じて、音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える。   Preferably, the sound space reconstruction device is configured such that the subject specifies the position or face posture of the subject in the second place, and the volume of the signal of the separated sound from the sound source separation unit according to the instruction from the instruction unit And volume control means for individually controlling the sound volume.

この発明の他の局面に従うと、第1の場所の音環境に関する情報を送信する送信装置からの情報に基づき、第1の場所の音環境を第2の場所で再現するための臨場感再現装置であって、送信装置からは、第1の場所における音源の位置を示す位置情報と、位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、第2の場所内の被験者の顔姿勢を検出するための顔姿勢検出手段と、被験者に装着され、被験者の両耳に対して音環境に対応する音を再現するための音再現手段と、音源位置の位置情報を受信し、検出された顔姿勢に応じて、第2の場所において、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数を用いて、分離音の信号から音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備える。   According to another aspect of the present invention, the realistic reproduction device for reproducing the sound environment of the first place at the second location based on the information from the transmission device that transmits the information about the sound environment of the first location. The transmitting device transmits position information indicating the position of the sound source in the first place and a separated sound signal obtained by separating the sound from the position of the sound source specified by the position information. A face posture detection means for detecting the face posture of the subject in the place, a sound reproduction means for reproducing sound corresponding to the sound environment for both ears of the subject, and a position of the sound source position The information is received and separated according to the detected face posture using a head-related transfer function from the position corresponding to the position of the sound source at the first place to each ear of the subject at the second place. Sound signal for reproducing to each ear from sound signal by sound reproduction means And a sound space reconstruction means for combining.

好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、ヘッドフォンに装着されたジャイロおよびコンパスを含む。   Preferably, the sound reproduction means is headphones, and the face posture detection means includes a gyro and a compass attached to the headphones.

好ましくは、音再現手段は、ヘッドフォンであり、顔姿勢検出手段は、撮像された被験者の画像から被験者の顔姿勢を推定する。   Preferably, the sound reproduction means is a headphone, and the face posture detection means estimates the face posture of the subject from the captured subject image.

好ましくは、音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、音空間再構成手段は、第2の場所において、第1の場所の音源の位置の位置に相当する位置から被験者の各耳への頭部伝達関数をデータベースから選択して、各耳へ再現するための音信号を合成する。   Preferably, the apparatus further includes a database that stores coefficients of a plurality of head-related transfer functions corresponding to directions from the sound source to each ear of the subject, and the sound space reconstructing means is the sound source at the first location at the second location. A head-related transfer function from the position corresponding to the position of the head to each ear of the subject is selected from the database, and a sound signal for reproduction to each ear is synthesized.

好ましくは、被験者が第2の場所における自身の位置または顔姿勢を指定する指示手段と、指示手段からの指示に応じて、音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える。   Preferably, the subject individually controls the volume of the separated sound signal from the sound source separation means in accordance with the instruction means for specifying the position or face posture of the subject in the second place and the instruction from the instruction means. Volume control means is further provided.

本発明によれば、第1の場所において観測された3次元的な音環境を、第2の場所にいる人に対して再現することで、臨場感を伝達することが可能である。   According to the present invention, it is possible to convey a sense of realism by reproducing the three-dimensional sound environment observed at the first place with respect to the person at the second place.

また、この発明によれば、遠隔操作型ロボットを操作する操作者に、ロボットの存在する環境の臨場感を伝達することが可能である。   Further, according to the present invention, it is possible to transmit a sense of reality of the environment where the robot exists to an operator who operates the remote control type robot.

本実施の形態の臨場感伝達システム1000の構成を説明するためのブロック図である。It is a block diagram for demonstrating the structure of the presence transmission system 1000 of this Embodiment. 音源定位装置300の構成を説明するための機能ブロック図である。3 is a functional block diagram for explaining a configuration of a sound source localization apparatus 300. FIG. 受信側の音声合成装置500を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the speech synthesizer 500 of the receiving side. 音源定位装置300のハードウェア構成を説明するためのブロック図である。4 is a block diagram for explaining a hardware configuration of a sound source localization apparatus 300. FIG. 実験系を説明するための図である。It is a figure for demonstrating an experimental system. 実験結果を示す図である。It is a figure which shows an experimental result. インタフェースの画面表示例を示す図である。It is a figure which shows the example of a screen display of an interface. ユーザインタフェースの実験結果を示す図である。It is a figure which shows the experimental result of a user interface.

以下、本発明の実施の形態の臨場感伝達システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。   Hereinafter, the configuration of the presence transmission system according to the embodiment of the present invention will be described with reference to the drawings. In the following embodiments, components and processing steps given the same reference numerals are the same or equivalent, and the description thereof will not be repeated unless necessary.

なお、以下の説明では、音センサとしては、いわゆるマイクロフォン、より特定的にはエレクトレットコンデンサマイクロフォンを例にとって説明を行うが、音声を電気信号として検出できるセンサであれば、他の音センサであってもよい。   In the following description, a so-called microphone, more specifically an electret condenser microphone, will be described as an example of the sound sensor. However, any other sound sensor may be used as long as it can detect sound as an electric signal. Also good.

以下に説明するように、本実施の形態の臨場感伝達システムは、遠隔地にあるロボット周囲に分布している複数の音源から構成される音環境(3次元音場)を、操作者(オペレーター)側に再現・加工することで、音の臨場感を伝達する。   As will be described below, the realistic sensation transmission system according to the present embodiment is configured such that a sound environment (three-dimensional sound field) composed of a plurality of sound sources distributed around a robot in a remote place is represented by an operator (operator). ) Reproduce and process on the side to convey the sense of reality of the sound.

そして、操作者側の音環境の再生には、ヘッドフォンを例として説明することにする。   The headphone is taken as an example for reproducing the sound environment on the operator side.

図1は、本実施の形態の臨場感伝達システム1000の構成を説明するためのブロック図である。   FIG. 1 is a block diagram for explaining the configuration of the realistic sensation transmission system 1000 according to the present embodiment.

図1では、臨場感の送信側の座標系は、(x,y,z)であり、受信側の座標系は、(x´,y´,z´)であるものとする。   In FIG. 1, it is assumed that the transmission-side coordinate system of the presence is (x, y, z), and the reception-side coordinate system is (x ′, y ′, z ′).

臨場感伝達システム1000において、臨場感の送信側は、複数のマイクロフォンアレイ10.1〜10.Mを含むマイクロフォンアレイ群100と、複数のレーザレンジファインダ(LRF:Laser Range Finder)20.1〜20.Lを含むLRF群200と、マイクロフォンアレイ群100とLRF群200との出力に基づいて、送信側の環境に存在する音源の定位と音源の分離を行う音源定位装置300とを備える。   In the presence transmission system 1000, the transmission side of the presence is a plurality of microphone arrays 10.1-10. A microphone array group 100 including M, and a plurality of laser range finders (LRF) 20.1 to 20. LRF group 200 including L, and sound source localization apparatus 300 that performs sound source localization and sound source separation existing in the environment on the transmission side based on the outputs of microphone array group 100 and LRF group 200.

音源定位装置300において、人位置検出追跡部310は、LRF群200の出力を用いて、どの位置に人間が存在するかを示す情報(人位置情報と呼ぶ)を検出し、人の動きに応じて、非発声期間においても人位置の追跡を行う。音源定位部320は、マイクロフォンアレイ群52の出力および人位置検出追跡部310から出力される人位置情報を受けて、マイクロフォンアレイ群52から出力される音声信号に基づいて音源定位を行ない、音源分離部330は、音源を分離して分離した各音源からの音を収集し、分離音を受信側に送信する。また、音源定位部からの音源の方向および位置の情報(方向・位置情報と呼ぶ)も受信側に送信される。   In the sound source localization apparatus 300, the human position detection / tracking unit 310 uses the output of the LRF group 200 to detect information (referred to as human position information) indicating a position where a person exists, and responds to the movement of the person. Thus, the human position is tracked even during the non-voicing period. The sound source localization unit 320 receives the output of the microphone array group 52 and the human position information output from the human position detection / tracking unit 310, performs sound source localization based on the audio signal output from the microphone array group 52, and performs sound source separation. The unit 330 collects sound from each sound source that is separated from the sound source, and transmits the separated sound to the receiving side. Information on the direction and position of the sound source (referred to as direction / position information) from the sound source localization unit is also transmitted to the receiving side.

臨場感伝達システム1000の受信側(オペレーター側:臨場感再現装置)の処理では、音声合成装置500は、音源分離部330からの分離音を受信して音量を正規化するための音量制御部510と、オペレーター2が装着したヘッドホン上のセンサ600からの情報を基に、オペレータ2の顔の向きを推定する顔姿勢推定部520と、受信した方向・位置情報と推定されたオペレーター2の顔の向きに応じて、音源の位置および顔の向きから、左右のチャンネルに対応した頭部伝達関数(HTRF:Head Relative Transfer Function)をデータベース530から選択し、分離した音声に畳み込み演算を行い、ステレオヘッドフォン610でオペレーター2に再生する音声を再構成して合成する音空間再構成部540とを備える。   In processing on the reception side (operator side: presence reproduction device) of the presence transmission system 1000, the speech synthesizer 500 receives the separated sound from the sound source separation unit 330 and normalizes the volume. Then, based on the information from the sensor 600 on the headphones worn by the operator 2, the face posture estimation unit 520 that estimates the face direction of the operator 2 and the received direction / position information of the face of the operator 2 estimated. Depending on the direction, the head transfer function (HTRF: Head Relative Transfer Function) corresponding to the left and right channels is selected from the database 530 from the position of the sound source and the direction of the face, convolution is performed on the separated sound, and stereo headphones 610 includes a sound space reconstruction unit 540 that reconstructs and synthesizes the sound to be played back to the operator 2 at 610.

オペレーター2の頭部回転トラッキングのためのセンサ600としては、ヘッドフォン610の上部に取り付けたジャイロセンサーおよびコンパスを用いることができる。   As the sensor 600 for tracking the head rotation of the operator 2, a gyro sensor and a compass attached to the upper part of the headphone 610 can be used.

また、音量制御部310においては、分離した各音源のボリュームについては、オペレータ2が、表示部650に表示されるユーザインタフェースにて独立して調節することが可能な構成としてもよい。   Further, the volume control unit 310 may be configured such that the operator 2 can independently adjust the volume of each separated sound source through a user interface displayed on the display unit 650.

なお、送信側および受信側の処理では、システムを構成する各部の同期を制御するための同期用タイムサーバを設け、各処理を同期して処理する構成としてもよい。   Note that the processing on the transmission side and the reception side may be configured to provide a synchronization time server for controlling the synchronization of each unit constituting the system, and to process each process in synchronization.

図2は、音源定位装置300の構成を説明するための機能ブロック図である。   FIG. 2 is a functional block diagram for explaining the configuration of the sound source localization apparatus 300.

図2を参照して、音源定位部320は、各マイクロフォンアレイ10.1〜10.Mからの信号によって、それぞれ、音の3次元到来方向(DOA:Direction Of Arrival)を推定する3次元空間DOA評価部3202.1〜3202.Mと、3次元空間地図を格納する3次元空間地図格納部3204とを備え、空間情報統合部3206は、3次元空間地図で表現される環境とマイクロフォンアレイの位置関係、各音源のDOA、および人位置検出追跡部310からの情報を統合することで、3次元上での人位置情報を取得する。この人位置情報は、ヒューマントラッキングシステムを構成する人位置検出追跡部310により、非発声時にも常時追跡されている。   Referring to FIG. 2, sound source localization section 320 includes microphone arrays 10.1-10. 3D spatial DOA evaluation units 3202.1 to 3202,... That estimate the direction of arrival (DOA: Direction Of Arrival) of the sound by signals from M respectively. M and a 3D spatial map storage unit 3204 for storing a 3D spatial map. The spatial information integration unit 3206 includes a positional relationship between the environment represented by the 3D spatial map and the microphone array, DOA of each sound source, and By integrating the information from the human position detection / tracking unit 310, the human position information in three dimensions is acquired. This person position information is always tracked by the person position detection and tracking unit 310 constituting the human tracking system even during non-speech.

音源分離部330において、音源分離処理部3302.1〜3302.nは、推定した人位置情報に基づいて各人の音声を分離し、空間情報統合部3206からの位置情報と合わせて受信側(オペレーター側)のシステムに送信する。   In the sound source separation unit 330, the sound source separation processing units 3302.1 to 3302. n separates each person's voice based on the estimated person position information, and sends it to the receiving side (operator side) system together with the position information from the spatial information integration unit 3206.

以下、各部の動作について、さらに詳しく説明する。
(3次元音源定位)
音源定位に関しては、まず、3次元空間DOA評価部3202.1〜3202.Mが、各マイクロフォンアレイ10.1〜10.Mのそれぞれに対してDOA推定を行う。空間情報統合部3206は、複数のアレイによるDOA情報と人位置検出追跡部310からの人位置情報を統合することで、音源の3次元空間内の位置を推定する。
実環境での音のDOA推定は広く研究されてきており、MUSIC法は、複数のソースを高い分解能で定位できる最も有効な手法の一つであり、たとえば、上述した特許文献1,2にも開示されている。音源数を固定した数値に仮定し、しきい値を超えたMUSICスペクトルのピークを音源として認識する。ここでは、たとえば、MUSIC法の実装にあたり、100msごとに1度の分解能を有するように構成したとしても、動作クロック周波数2GHzのシングルコアCPUで、リアルタイムに音源の方向を探索することができる。
さらに、コミュニケーションロボットの遠隔操作システムにとって、最も重要な音源は人の音声である。そこで、音源定位装置300では、人の声を漏れ無く抽出するために、複数の2次元LRFで構成したヒューマントラッキングシステムを使用する。空間情報統合部3206は、複数のマイクロフォンアレイからのDOA推定出力とLRFのトラッキング結果が同じ位置で交差すれば、そこに音源がある可能性が高いと判断する。
Hereinafter, the operation of each unit will be described in more detail.
(3D sound source localization)
Regarding sound source localization, first, the three-dimensional space DOA evaluation unit 3202.1 to 3202. M represents each microphone array 10.1-10. DOA estimation is performed for each of M. The spatial information integration unit 3206 estimates the position of the sound source in the three-dimensional space by integrating the DOA information from the plurality of arrays and the human position information from the human position detection tracking unit 310.
The DOA estimation of sound in a real environment has been widely studied, and the MUSIC method is one of the most effective methods that can localize a plurality of sources with high resolution. It is disclosed. Assuming that the number of sound sources is fixed, the peak of the MUSIC spectrum exceeding the threshold is recognized as a sound source. Here, for example, even when the MUSIC method is implemented so as to have a resolution of once every 100 ms, the direction of the sound source can be searched in real time by a single core CPU having an operation clock frequency of 2 GHz.
Furthermore, the most important sound source for a communication robot remote control system is human voice. Therefore, the sound source localization apparatus 300 uses a human tracking system configured by a plurality of two-dimensional LRFs in order to extract a human voice without omission. If the DOA estimation output from the plurality of microphone arrays and the LRF tracking result intersect at the same position, the spatial information integration unit 3206 determines that there is a high possibility that there is a sound source there.

ここで、音源定位装置300のように、2次元のLRFを用いている場合は、人位置情報は2次元に限られる。ここでは、検出された音源の位置が口元の高さの範囲内にあるかの制限(たとえば、z=1〜1.6m)もかけて音源の特定を行う。 無音区間や音源方向推定が不十分な区間では、最後に推定された口元の高さと最新の2次元位置情報を用いて、音源分離を行う。
(音源分離)
音源分離部330では、選択された複数の人物(人数:n人)をパラレルに分離している。
Here, when the two-dimensional LRF is used as in the sound source localization apparatus 300, the human position information is limited to two dimensions. Here, the sound source is specified by limiting the position of the detected sound source within the range of the height of the mouth (for example, z = 1 to 1.6 m). In silent sections and sections where sound source direction estimation is insufficient, sound source separation is performed using the last estimated mouth height and the latest two-dimensional position information.
(Sound source separation)
The sound source separation unit 330 separates a plurality of selected persons (number of persons: n persons) in parallel.

音源分離処理部3302.1〜3302.nでは、計算量が少なく且つロバストな遅延和ビームフォーマ(Delay-Sum Beamformer)を用いて、目的方向の人の声を分離する。フレーム長は20msで、シフト長は10msである。
ここで、遅延和ビームフォーマについては、たとえば、以下の文献に開示がある。
Sound source separation processing units 3302.1 to 3302. In n, the human voice in the target direction is separated using a delay-sum beamformer with a small amount of calculation and a robustness. The frame length is 20 ms and the shift length is 10 ms.
Here, the delay sum beamformer is disclosed in the following document, for example.

文献1:国際公開WO2004/034734公報(再表2004-034734号公報)
ビームフォーミングの基本原理を、2マイクロホンの場合を例に簡単に説明する。
Reference 1: International Publication WO 2004/034734 (Republished 2004-034734)
The basic principle of beam forming will be briefly described by taking the case of 2 microphones as an example.

特性が全く等しい2個の全指向性マイクロホンを間隔dで配置し、これらに対して平面波が方向θから到来する状況を考える。この平面波は各マイクロホンにおいて、経路差dsinθの分だけ、伝搬遅延時間が異なる信号として受信される。ビームフォーミングを行う装置であるビームフォーマでは、或る方向θ0から到来する信号に関する伝搬遅延を補償するように、δ=dsinθ/c(cは音速)だけ、一方のマイクロホン信号を遅延させ、その出力信号を他方のマイクロホン信号と加算または減算する。 Consider a situation in which two omnidirectional microphones having exactly the same characteristics are arranged at an interval d and a plane wave arrives from a direction θ. This plane wave is received by each microphone as a signal having a different propagation delay time by the path difference dsinθ. In a beam former that is an apparatus that performs beam forming, one microphone signal is delayed by δ = dsin θ 0 / c (c is the speed of sound) so as to compensate for a propagation delay related to a signal arriving from a certain direction θ 0. The output signal is added to or subtracted from the other microphone signal.

加算器の入力では、方向θから到来する信号の位相が一致する。従って、加算器の出力において、方向θから到来した信号は強調される。一方、θ以外の方向から到来した信号は、互いに位相が一致しないため、θから到来した信号ほど強調されることはない。その結果、加算器出力を用いるビームフォーマは、θにビーム(Beam:特に感度の高い方向)を有する指向性を形成する。対照的に、減算器では、方向θから到来する信号が完全にキャンセルされる。従って、減算器出力を用いるビームフォーマは、θにヌル(Null:特に感度の低い方向)を有する指向性を形成する。このように遅延と加算のみを行うビームフォーマを、「遅延和ビームフォーマ」と呼ぶ。 At the input of the adder, the phases of the signals arriving from the direction θ 0 match. Accordingly, the signal coming from the direction θ 0 is emphasized at the output of the adder. On the other hand, signals coming from directions other than θ 0 are not emphasized as much as signals coming from θ 0 because their phases do not match each other. As a result, the beamformer using the adder output forms a directivity having a beam (Beam: a particularly sensitive direction) at θ 0 . In contrast, the subtractor completely cancels the signal coming from direction θ 0 . Therefore, the beamformer using the subtracter output forms a directivity having null (Null: a direction with particularly low sensitivity) at θ 0 . A beamformer that performs only delay and addition in this way is called a “delay sum beamformer”.

ここで、より一般に、空間に指向性音源Sと無指向性雑音源Nが存在すると仮定すると、遅延和ビームフォーマの出力は以下の形になる:   Here, more generally, assuming that a directional sound source S and an omnidirectional noise source N are present in space, the output of the delayed sum beamformer has the following form:

Yは周波数fに対応したビームフォーマの出力で、Sdirは信号の方向、wSdirはSdir方向のビームフォーマレスポンスを指す。式の二つ目の項目は、分離音声に混在する雑音を表している。この雑音成分を低減させるために、各周波数に以下のようなウェイトを掛ける。 Y is the output of the beamformer corresponding to the frequency f, Sdir indicates the signal direction, and w Sdir indicates the beamformer response in the Sdir direction. The second item in the equation represents noise mixed in separated speech. In order to reduce this noise component, the following weights are applied to each frequency.

PFはウェイト掛けした後のビームフォーマ出力である。
図3は、受信側の音声合成装置500を説明するための機能ブロック図である。
YPF is the beamformer output after weighting.
FIG. 3 is a functional block diagram for explaining the speech synthesizer 500 on the receiving side.

音量制御部510は、音源分離部330からの分離音をそれぞれ受信して音量をそれぞれ正規化するための音量制御処理部5102.1〜5102.nを備える。   The volume control unit 510 receives the separated sounds from the sound source separation unit 330 and normalizes the volume, respectively. n.

音量制御部510は、各音源とアレイの間の距離による違いを補正するため、分離した各音声に対して距離によって以下のように正規化を行う。   The volume control unit 510 performs normalization on each separated sound as follows in order to correct a difference due to the distance between each sound source and the array.

このうち、Nは音源の数で、distnはn番目の音源とアレイの距離を表す。giはi番目の音源に掛ける正規化ファクタで、Yiはi番目の音源の分離結果を示している。 Of these, N is the number of sound sources, and dist n is the distance between the nth sound source and the array. g i is a normalization factor applied to the i-th sound source, and Y i indicates the separation result of the i-th sound source.

顔姿勢推定部520は、オペレーター2が装着したヘッドホン上のセンサ600からの情報を基に、オペレータ2の顔の向きを推定する。   The face posture estimation unit 520 estimates the face direction of the operator 2 based on information from the sensor 600 on the headphones worn by the operator 2.

ただし、たとえば、オペレータ2の顔の向きを推定する方法は、このような構成に限定されるわけでなく、たとえば、オペレータ2の画像を撮像し、この撮像データからオペレータ2の頭部姿勢を推定することとしてもよい。このような撮像画像による頭部姿勢の推定については、特に限定されないが、たとえば、以下の文献に開示がある。   However, for example, the method of estimating the face direction of the operator 2 is not limited to such a configuration. For example, an image of the operator 2 is captured and the head posture of the operator 2 is estimated from the captured data. It is good to do. The estimation of the head posture based on such a captured image is not particularly limited, but is disclosed in the following document, for example.

文献2:特開2014−93006号公報
音空間再構成部540において、空間再構成部550は、送信側から受信した方向・位置情報と推定されたオペレーター2の顔の向きに応じて、座標系(x´,y´,z´)における音源の位置を再構成し、推定された顔の向きから、左右のチャンネルに対応した正確な頭部伝達関数(HTRF:Head Relative Transfer Function)をデータベース530から選択する。
Document 2: JP 2014-93006 A In the sound space reconstruction unit 540, the space reconstruction unit 550 determines the coordinate system according to the direction / position information received from the transmission side and the estimated face orientation of the operator 2. The position of the sound source at (x ′, y ′, z ′) is reconstructed, and an accurate head transfer function (HTRF: Head Relative Transfer Function) corresponding to the left and right channels is calculated from the estimated face orientation in the database 530. Select from.

ここで、頭部伝達関数HTRFとは、任意に配置された音源から発せられたインパルス信号を、受聴者の外耳道入り口で測定したインパルス応答であり、たとえば、以下の文献にも開示がある。   Here, the head-related transfer function HTRF is an impulse response obtained by measuring an impulse signal emitted from an arbitrarily arranged sound source at the listener's ear canal entrance, and is disclosed in the following documents, for example.

文献3:特開2010−118978号公報
音空間再構成部540において、HTRF処理部5502.1〜5502.nは、分離され音量が制御された音声に、選択された頭部伝達関数との畳み込み演算を行い、左耳音声合成部5504.1および右耳音声合成部5504.2は、ステレオヘッドフォン610の左右のスピーカでオペレーター2に再生する左耳用音声および右耳用音声をそれぞれ合成する。
Document 3: JP 2010-118978 A In the sound space reconstruction unit 540, the HTRF processing units 5502.1 to 5502. n performs a convolution operation with the selected head-related transfer function on the separated and volume-controlled speech, and the left ear speech synthesis unit 5504.1 and the right ear speech synthesis unit 5504.2 are connected to the stereo headphone 610. The left ear sound and the right ear sound to be reproduced to the operator 2 by the left and right speakers are respectively synthesized.

ヘッドフォンを用いた3D音場の再現においては、日常、人は両耳に到達した音波の違いによって音源定位を行っていることを利用する。ヘッドフォン610で、この違いを再現することで、ステレオヘッドフォンで3D音場を合成することが可能になる。   In reproduction of a 3D sound field using headphones, it is used that a person ordinarily performs sound source localization based on a difference in sound waves reaching both ears. By reproducing this difference with the headphones 610, it is possible to synthesize a 3D sound field with stereo headphones.

頭部伝達関数HTRFは、空間内の音源から発した音波が人の両耳に到達する時点の違いを表現する関数であって、3D音場のバイナル再現に多く使われる。しかし、ヘッドフォンを使って空間上に存在する音源を再現する際には、バーチャルな音源が聴者の頭部・体の動きと共に動いてしまうという問題点がある。人の日常経験を考えると、外部音源の位置は聴者の体の動きに関連せず、固定されている。ヘッドフォンによる3D音場の再現ではこの経験と異なるため、臨場感の伝達にマイナスに働き、不自然な印象の原因となってしまう。さらに、頭部伝達関数を使った場合、前後の誤判断が起こるという問題がある。これは、前方にある音源が後方にあるように聞こえる、もしくはその逆の現象である。日常生活では音源を定位するために意識的・無意識的に頭部を回し、その効果を定位の補助に用いている。   The head-related transfer function HTRF is a function that expresses the difference in the point in time when sound waves emitted from a sound source in space reach the human ears, and is often used to reproduce a 3D sound field. However, when reproducing the sound source existing in the space using headphones, there is a problem that the virtual sound source moves with the movement of the listener's head and body. Considering human daily experience, the position of the external sound source is not related to the movement of the listener's body and is fixed. Reproduction of 3D sound field using headphones is different from this experience, so it works negatively in the transmission of realism and causes an unnatural impression. Further, when the head-related transfer function is used, there is a problem that a wrong judgment before and after occurs. This sounds like a sound source in front is behind, or vice versa. In everyday life, the head is turned consciously and unconsciously to localize the sound source, and the effect is used to assist in localization.

これらを考慮し、臨場感伝達システム1000では、オペレーター2の頭部回転をトラッキングすることで、頭部の向きに合わせたHTRFを用いてステレオ音声を合成する。正確なHTRFを選択するのに必要な連続的音源位置情報は、複数のマイクロフォンアレイのDOA推定結果、および、人位置推定システムから取得されている。   Taking these into consideration, the presence-sensation transmission system 1000 synthesizes stereo sound using HTRF that matches the direction of the head by tracking the head rotation of the operator 2. The continuous sound source position information necessary for selecting an accurate HTRF is obtained from DOA estimation results of a plurality of microphone arrays and a human position estimation system.

すなわち、一つの音声を特定の方向から聞こえるようにするため、その方向に対応したHTRFによってフィルタリングしてステレオ化する。HTRFを表す係数のデータベースとしては、特に限定されないが、たとえば、一般公開されているKEMAR(Knowles Elec-tronics Manikin for Acoustic Research) ダミーヘッドのHTRFデータベースを利用することができる。KEMARは、HTRF研究のために一般的な頭部サイズを使って作られたダミーヘッドで、データベースには空間からのインパルス信号に対するダミーヘッドの左右耳のレスポンスとして、仰角−40度から90度までの総計710方向のインパルス応答が含まれている。各インパルス応答の長さは512サンプルで、サンプリング周波数は44.1kHzである。なお、被験者の頭部の形状に対応したHTRFを合成しておき、これをデータベースとして使用することも可能である。   That is, in order to make one sound heard from a specific direction, the sound is filtered and stereo- lated by the HTRF corresponding to that direction. A database of coefficients representing HTRF is not particularly limited, but, for example, a publicly available KERF (Knowles Elec-tronics Manikin for Acoustic Research) dummy head HTRF database can be used. KEMAR is a dummy head made using a general head size for HTRF research. The database shows the response of the left and right ears of the dummy head to impulse signals from the space, from an elevation angle of -40 degrees to 90 degrees. The impulse response in a total of 710 directions is included. Each impulse response has a length of 512 samples and a sampling frequency of 44.1 kHz. It is also possible to synthesize HTRF corresponding to the shape of the subject's head and use it as a database.

HTRFを用いてダイナミックに音場を合成するには、頭部の向きのリアルタイム検出が必要であるため、上述のように、ヘッドフォンの上部にジャイロセンサーとコンパスを取り付け、頭部回転のトラッキングを行う構成とすることができる。このとき、角度情報はシリアルおよびブルートゥース経由のいずれかでシステムに送られる。音場の合成に使う方向は音源方向から頭部角度を引いたもので、この方向に対応した左右チャンネルのインパルス応答がデータベースから選出され、分離結果と畳み込み演算を行った音声がオペレーターの両耳に再生される。   In order to dynamically synthesize a sound field using HTRF, real-time detection of the head orientation is necessary. Therefore, as described above, a gyro sensor and a compass are attached to the upper part of the headphone to track the head rotation. It can be configured. At this time, the angle information is sent to the system either serially or via Bluetooth. The direction used to synthesize the sound field is the sound source direction minus the head angle, and the impulse responses of the left and right channels corresponding to this direction are selected from the database, and the result of the separation and convolution calculation is the operator's ears. To be played.

図4は、音源定位装置300のハードウェア構成を説明するためのブロック図である。   FIG. 4 is a block diagram for explaining a hardware configuration of the sound source localization apparatus 300.

なお、音声合成装置500も、基本的には、同様の構成を有する。すなわち、図2または図3に示した各機能ブロックの機能は、以下に説明するようなハードウェア上で動作するソフトウェアにより実現される。   Note that the speech synthesizer 500 basically has the same configuration. That is, the function of each functional block shown in FIG. 2 or FIG. 3 is realized by software that operates on hardware as described below.

図4に示されるように、音源定位装置300は、外部記録媒体64に記録されたデータを読み取ることができるドライブ装置52と、バス66に接続された中央演算装置(CPU:Central Processing Unit)56と、ROM(Read Only Memory) 58と、RAM(Random Access Memory)60と、不揮発性記憶装置54と、マイクフォンアレイ10.1〜10.Mからの音声データおよびレーザレンジファインダ20.1〜20.Lからの測距データを取込むためのデータ入力インタフェース(以下、データ入力I/F)68とを含んでいる。   As shown in FIG. 4, the sound source localization device 300 includes a drive device 52 that can read data recorded on the external recording medium 64, and a central processing unit (CPU) 56 connected to a bus 66. ROM (Read Only Memory) 58, RAM (Random Access Memory) 60, nonvolatile storage device 54, microphone array 10.1-10. Audio data from M and laser range finder 20.1-20. A data input interface (hereinafter referred to as data input I / F) 68 for fetching distance measurement data from L is included.

外部記録媒体64としては、たとえば、CD−ROM、DVD−ROMのような光ディスクやメモリカードを使用することができる。ただし、記録媒体ドライブ52の機能を実現する装置は、光ディスクやフラッシュメモリなどの不揮発性の記録媒体に記憶されたデータを読み出せる装置であれば、対象となる記録媒体は、これらに限定されない。また、不揮発性記憶装置54の機能を実現する装置も、不揮発的にデータを記憶し、かつ、ランダムアクセスできる装置であれば、ハードディスクのような磁気記憶装置を使用してもよいし、フラッシュメモリなどの不揮発性半導体メモリを記憶装置として用いるソリッドステートドライブ(SSD:Solid State Drive)を用いることもできる。   As the external recording medium 64, for example, an optical disk such as a CD-ROM or a DVD-ROM or a memory card can be used. However, the target recording medium is not limited to this as long as the device that realizes the function of the recording medium drive 52 is a device that can read data stored in a nonvolatile recording medium such as an optical disk or a flash memory. In addition, a device that realizes the function of the nonvolatile storage device 54 may be a magnetic storage device such as a hard disk or a flash memory as long as it can store data in a nonvolatile manner and can be accessed randomly. A solid state drive (SSD) that uses a nonvolatile semiconductor memory such as a storage device can also be used.

このような音源定位装置300の主要部は、コンピュータハードウェアと、CPU56により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアは、マスクROMやプログラマブルROMなどにより、音源定位装置300の製造時に記録されており、これが実行時にRAM60に読みだされる構成としてもよいし、ドライブ装置52により記録媒体64から読取られて不揮発性記憶装置54に一旦格納され、実行時にRAM60に読みだされる構成としてもよい。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから、一旦、不揮発性記憶装置54にコピーされ、不揮発性記憶装置54からRAM60に読出されてCPU56により実行される構成であってもよい。   The main part of such a sound source localization apparatus 300 is realized by computer hardware and software executed by the CPU 56. In general, such software is recorded at the time of manufacture of the sound source localization device 300 by a mask ROM, a programmable ROM, or the like, and may be read into the RAM 60 at the time of execution, or may be read from the recording medium 64 by the drive device 52. A configuration may be adopted in which the data is read and temporarily stored in the nonvolatile storage device 54 and then read out to the RAM 60 at the time of execution. Alternatively, when the device is connected to a network, the server is temporarily copied from the server on the network to the nonvolatile storage device 54, read from the nonvolatile storage device 54 to the RAM 60, and executed by the CPU 56. There may be.

図4に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分の1つは、不揮発性記憶装置54等の記録媒体に記憶されたソフトウェアである。   The computer hardware itself and its operating principle shown in FIG. 4 are general. Accordingly, one of the most essential parts of the present invention is software stored in a recording medium such as the nonvolatile storage device 54.

また、音声合成装置500の場合は、不揮発性記憶装置54にデータベース530も格納される構成とできる。
(システム評価実験)
以下では、臨場感伝達システム1000を評価するために行った被験者実験について説明する。
In the case of the speech synthesizer 500, the database 530 can also be stored in the nonvolatile storage device 54.
(System evaluation experiment)
In the following, a subject experiment conducted for evaluating the realistic feeling transmission system 1000 will be described.

図5は、このような実験系を説明するための図である。   FIG. 5 is a diagram for explaining such an experimental system.

図5(c)には、オペレーター側の環境を、図5(b)にロボット側の環境の様子を示す。   FIG. 5C shows the environment on the operator side, and FIG. 5B shows the environment on the robot side.

図5(c)に示す被験者(オペレータ)は、ロボットを介してロボット側にいる人物(図5(b)内の人物)と会話をし、ロボット側の視覚情報無しの状態で、その対話相手のいる方向を推定することが求められる。
比較対象として、図5(a)に示すロボットの耳に位置するステレオマイクロフォンを用いた。この実験ではミニマルデザインされているヒューマノイドロボットTelenoid-R3を使用した。このロボットは両耳位置にマイクの装着が可能で、且つ、首には3自由度があるため、図5(c)の被験者の頭部動作を線形的にマッピングすることができる。
以下に、比較対象の条件を述べる。この条件では、ロボットの耳にある二つのマイクロフォンから採った音を、そのままオペレーターのステレオヘッドフォンの左右チャンネルで再生する。トラッキングしたオペレーターの首の動きは、線形的にロボットにマッピングされる。
ロボット側の3次元音源位置推定は、図5(b)中に白矢印で示す3つのマイクロフォンアレイによって行われた。天井には直径15cmで8チャンネルのマイクが円形に配置されたマイクロフォンアレイが2つ設置してあり、卓上には直径30cmで16チャンネルのマイクが半球面上に配置されたマイクロフォンアレイが設置してある。
総計20名の被験者がこの実験に参加した。全て大学生で、ロボットや音響研究に関わりがない者である。被験者にはオペレーター役として、別室のロボット側にいる話者1名(研究補助者)とロボットを介して会話し、その相手のいる方向を判定するように指示した。実験補助者はランダムに方向を選び、その方向から会話を進める。被験者は方向の判定ができたら協力者に知らせ、協力者は次の方向に移動する。この手順を4回繰り返した。方向の判定は8方向に制限しており、被験者はそのうちのどの方向かを回答するという形式である。
実験の最後に、二つの条件について、臨場感と聞き取り易さに関する主観評価のアンケートを採った。1から7までの七段階評価で、1は「臨場感が低い/聞き取り難い」で、7は「臨場感が高い/聞き取り易い」を示す。
図6は、実験結果を示す図である。
The subject (operator) shown in FIG. 5 (c) has a conversation with a person on the robot side (person in FIG. 5 (b)) via the robot, and the conversation partner without visual information on the robot side. It is required to estimate the direction of the road.
As a comparison object, a stereo microphone located at the ear of the robot shown in FIG. In this experiment, a minimalist humanoid robot Telenoid-R3 was used. Since this robot can be equipped with microphones at both ear positions and has three degrees of freedom in the neck, the head movement of the subject in FIG. 5C can be linearly mapped.
The conditions for comparison are described below. Under this condition, the sound taken from the two microphones in the robot's ear is played as it is on the left and right channels of the operator's stereo headphones. The tracked operator's neck movement is linearly mapped to the robot.
The three-dimensional sound source position estimation on the robot side was performed by three microphone arrays indicated by white arrows in FIG. Two microphone arrays with a 15 cm diameter 8-channel microphone arranged in a circle are installed on the ceiling, and a microphone array with a 30 cm diameter 16-channel microphone arranged on a hemisphere is installed on the desktop. is there.
A total of 20 subjects participated in this experiment. All are university students who are not involved in robotics or acoustic research. The subject was instructed as an operator to talk to a speaker (research assistant) on the robot side in a separate room via the robot and determine the direction of the other person. The experiment assistant chooses a direction at random and advances the conversation from that direction. The subject informs the collaborator when the direction is determined, and the collaborator moves in the next direction. This procedure was repeated 4 times. Direction determination is limited to eight directions, and the subject answers in which direction.
At the end of the experiment, we took a subjective evaluation questionnaire on the presence and ease of listening for the two conditions. In a seven-step evaluation from 1 to 7, 1 indicates “low sense of reality / difficult to hear” and 7 indicates “high sense of reality / easy to hear”.
FIG. 6 is a diagram showing experimental results.

図6(a)は、臨場感伝達システム1000での条件と比較条件での方向定位の精度の平均値とその標準偏差を示す。   FIG. 6A shows the average value of the direction localization accuracy under the condition in the realistic sensation transmission system 1000 and the comparison condition, and the standard deviation thereof.

t検定の結果、両者の精度差に有意差がみられた(t = 0.59、 p < 0.001)。
図6(b)(c)に示すように、主観評価アンケートでは、臨場感と聞き取り易さの評価で類似した結果が得られた。臨場感と聞き取り易さの両方において、臨場感伝達システム1000での条件での評価は、比較条件よりも有意に高い(t = 6.68、 p < 0.001とt = 4.86、 p < 0.001)。
臨場感の評価での両条件の有意差の可能な理由としては、ロボットの首と人間の首の可動範囲が違うことも考えられる。
(バーチャル音場における音源ボリュームの調整)
臨場感伝達システム1000では、選択されたすべての音源に対して、位置情報を反映したステレオ音声を合成し、足し合わせて、バーチャル音場を表現する出力が再生される。しかし、これでは選択された各音源のボリュームが予測できない。もし、オペレーター側で各音源のボリュームを各々独立して操作することができれば、自分にとって最も快適な音環境を作ることができる。このことに注目して、オペレーターがバーチャル空間上にある音源や自分の位置を変えることができるように、インタフェースも設けてもよい。
以下では、バーチャル音場をコントロールするための2つの異なる操作パターンのユーザインタフェースについて説明する。
As a result of t-test, a significant difference was found in the accuracy difference between the two (t = 0.59, p <0.001).
As shown in FIGS. 6B and 6C, in the subjective evaluation questionnaire, similar results were obtained in the evaluation of the presence and ease of hearing. In both the sense of presence and the ease of hearing, the evaluation with the condition in the presence transmission system 1000 is significantly higher than the comparison condition (t = 6.68, p <0.001 and t = 4.86, p <0.001).
One possible reason for the significant difference between the two conditions in the evaluation of the presence is that the movable range of the robot's neck and the human's neck are different.
(Adjustment of sound source volume in virtual sound field)
In the realistic sensation transmission system 1000, the stereo sound reflecting the position information is synthesized and added to all the selected sound sources, and the output representing the virtual sound field is reproduced. However, this cannot predict the volume of each selected sound source. If the operator can control the volume of each sound source independently, the most comfortable sound environment for him can be created. With this in mind, an interface may be provided so that the operator can change the sound source and his / her position in the virtual space.
Below, the user interface of two different operation patterns for controlling a virtual sound field is demonstrated.

図7は、このようなインタフェースの画面表示例を示す図である。
図7(a)に示す1つ目のインタフェースでは、オペレーターがスクリーン上の白円(これはバーチャル空間(座標系(x´,y´,z´))上でのオペレーターの位置を表す)を任意の場所にマウスでドラッグ&ドロップすることによって、各音源のボリュームを調整する。黒丸が実験補助者の位置を示す。
FIG. 7 is a diagram showing a screen display example of such an interface.
In the first interface shown in FIG. 7A, the operator displays a white circle on the screen (this represents the position of the operator on the virtual space (coordinate system (x ′, y ′, z ′)). Adjust the volume of each sound source by dragging and dropping it to the desired location. A black circle indicates the position of the assistant for the experiment.

希望の場所へ自身のバーチャルな位置を移動させることによって各音源との距離・角度が再計算され、音源のボリュームがその距離に従って変更される(特定の音源に接近させると、その音源のボリュームが大きくなる)。このインタフェースを“drag-and-drop”と表記する。実環境での会話シーンでは、会話参加者間の物理的距離は環境や相手との社会的関係に影響される。“drag-and-drop”は、この観点に注目したバーチャル音場コントロール法である。
図7(b)に示す2つ目のインタフェースでは、オペレーターの顔の向きによって各音源のボリュームが調整される。オペレーターの顔方向を利用して音源の音量を操作するため、両手が解放される。オペレーターの顔の前方にある音源は強調され、後方にある音源は減衰される。ボリュームを調節するファクタは角度と比例する。このインタフェースを“face dir”と表記する。顔の向きや視線方向は現時点における人の注意を示すだけでなく、次のターゲットやそのゴールをも示す。“face dir”はこの観点に注目したバーチャル音場コントロール法である。
図7(b)中では、被験者(オペレータ)の顔の向きは、白丸に付随する矢印で示されている。
(提案ユーザインタフェースの評価)
図7のユーザインタフェースを評価するための被験者実験を行った。比較対象として、従来のモノラルマイクロフォンを使ったインタフェースを用いた。
図5で述べた実験被験者が、この実験にも参加した(大学生16名。前セクションの220名中最初の4は従来法との比較を行っていないため除外)。
By moving your own virtual position to the desired location, the distance and angle with each sound source are recalculated, and the volume of the sound source is changed according to the distance (when approaching a specific sound source, the volume of that sound source growing). This interface is expressed as “drag-and-drop”. In a conversation scene in a real environment, the physical distance between conversation participants is influenced by the environment and social relationships with the other party. “Drag-and-drop” is a virtual sound field control method that focuses on this viewpoint.
In the second interface shown in FIG. 7B, the volume of each sound source is adjusted according to the orientation of the operator's face. Both hands are released to control the volume of the sound source using the face direction of the operator. The sound source in front of the operator's face is emphasized and the sound source in the back is attenuated. The factor that adjusts the volume is proportional to the angle. This interface is denoted as “face dir”. The direction of the face and the direction of the line of sight not only indicate the attention of the person at the present time, but also indicate the next target and its goal. “Face dir” is a virtual sound field control method that focuses on this point of view.
In FIG. 7B, the direction of the face of the subject (operator) is indicated by an arrow attached to the white circle.
(Evaluation of the proposed user interface)
A subject experiment was conducted to evaluate the user interface of FIG. For comparison, an interface using a conventional monaural microphone was used.
The experimental subjects described in FIG. 5 also participated in this experiment (16 university students. The first 4 out of 220 in the previous section were excluded because they were not compared with the conventional method).

実験のデザインは被験者内比較を採用した。被験者は提案インタフェース及び従来のインタフェースを使って、ロボット側の環境にいる対話者2名(研究補助者)と会話をする。会話トピックに制限はない。用いたインタフェースごとに会話のセッションを分けた。セッションの長さは3分間で、各セッション終了後にインタフェースの「使い易さ」「臨場感」「聞取り易さ」に関して前実験と同じく1から7まで7段階の主観評価アンケートを採った。
図8は、ユーザインタフェースの実験結果を示す図である。
The experimental design used within-subject comparison. The subject uses the proposed interface and the conventional interface to converse with two interlocutors (research assistants) in the robot environment. There are no restrictions on conversation topics. Separate conversation sessions for each interface used. The length of the session was 3 minutes, and after each session, a seven-stage subjective evaluation questionnaire from 1 to 7 was taken in the same way as in the previous experiment regarding “ease of use”, “realism”, and “easy to hear” of the interface.
FIG. 8 is a diagram illustrating a result of the user interface experiment.

図8には、各インタフェースに対する主観評価の平均値と標準偏差を示す。実験結果に対して分散分析(ANOVA, with-in participants、 Bonferroni’s posttest)を行った。
図8(a)に示す「使い易さ」と図8(b)の「臨場感」では、主観評価の平均値に有意差が見られた(F(2、13)=16.03、 p<0.001 and F(2、13)=6.74、 p=0.009)。
FIG. 8 shows the average value and standard deviation of subjective evaluation for each interface. Analysis of variance (ANOVA, with-in participants, Bonferroni's posttest) was performed on the experimental results.
There was a significant difference in the average value of subjective evaluation between “ease of use” shown in FIG. 8A and “realism” in FIG. 8B (F (2,13) = 16.03, p <0.001). and F (2,13) = 6.74, p = 0.009).

多重比較(Bonferroni法)の結果、“drag-and-drop” と “face dir” は従来法よりも使い易く(“drag-and-drop” vs. “conventional”: p=0.001; “face
dir” vs. “conventional”: p=0.001)、臨場感が高い(“drag-and-drop” vs. “conventional”: p=0.006; “face dir” vs. “conventional”: p=0.04)と評価された。
As a result of multiple comparison (Bonferroni method), “drag-and-drop” and “face dir” are easier to use than the conventional method (“drag-and-drop” vs. “conventional”: p = 0.001; “face
dir ”vs.“ conventional ”: p = 0.001) and high presence (“ drag-and-drop ”vs.“ conventional ”: p = 0.006;“ face dir ”vs.“ conventional ”: p = 0.04) It was evaluated.

しかし、「聞取り易さ」では有意差が見られなかった(F(2、13)=3.67、 p=0.052)。
以上の結果は、提案したインタフェースの有効性を示している。
However, there was no significant difference in “easy to hear” (F (2,13) = 3.67, p = 0.052).
The above results show the effectiveness of the proposed interface.

なお、以上の説明では、臨場感伝達システム1000において、送信側で音源としての位置の特定を行うのは、人であるものとして説明したが、このような場合には限定されず、臨場感伝達システム1000は、移動しながら音を発生する音源がある音環境を受信側において再現することに使用することが可能である。   In the above description, in the realistic sensation transmission system 1000, it has been described that the position of the sound source on the transmission side is specified by a person. However, the present invention is not limited to such a case, and the presence sensation transmission is performed. The system 1000 can be used to reproduce a sound environment including a sound source that generates sound while moving on the receiving side.

以上説明したように、臨場感伝達システム1000によれば、所定の場所において観測された3次元的な音環境を、それとは異なる場所にいる人に対して再現することで、臨場感を伝達することが可能である。   As described above, according to the realistic sensation transmission system 1000, the realistic sensation is transmitted by reproducing the three-dimensional sound environment observed in a predetermined place for a person in a different place. It is possible.

また、この臨場感伝達システム1000によれば、遠隔操作型ロボットを操作する操作者に、ロボットの存在する環境の臨場感を伝達することが可能である。   Further, according to the presence transmission system 1000, it is possible to transmit the presence of the environment in which the robot exists to an operator who operates the remote operation type robot.

また、臨場感伝達システム1000によれば、ユーザの操作によって、離れた場所での音の聞こえ方を制御することで、被験者の意志にしたがって、臨場感を変化させつつ体験することが可能である。   Further, according to the presence sense transmission system 1000, it is possible to experience while changing the sense of presence according to the will of the subject by controlling how the sound is heard at a remote place by the user's operation. .

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。   The embodiment disclosed this time should be considered as illustrative in all points and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

2 被験者、10.1〜10.M マイクロフォンアレイ、20.1〜20.L LRF、100 マイクロフォンアレイ群、200 LRF群、300 音源定位装置、310 人位置検出追跡部、320 音源定位部、330 音源分離部、500 音声合成装置、510 音量制御部、520 顔姿勢推定部、530 データベース、540 空間音声再構成部、550 音声合成部、600 センサ、610 ヘッドフォン、650 表示部。   2 Subjects, 10.1-10. M microphone array, 20.1-20. L LRF, 100 microphone array group, 200 LRF group, 300 sound source localization device, 310 person position detection tracking unit, 320 sound source localization unit, 330 sound source separation unit, 500 speech synthesizer, 510 volume control unit, 520 face posture estimation unit, 530 database, 540 spatial speech reconstruction unit, 550 speech synthesis unit, 600 sensor, 610 headphones, 650 display unit.

Claims (11)

第1の場所の音環境を第2の場所に伝送して再現するための臨場感伝達システムであって、
前記第1の場所に設置される音源定位装置を備え、前記音源定位装置は、
前記第1の場所における対象物の位置を検出する位置検出手段と、
マイクロフォンアレイ部からの出力に応じて、音の到来方向を推定し、前記位置検出手段の検出結果と統合して、音源の位置を特定して出力する音源定位手段と、
特定された音源の位置からの音を分離して出力するための音源分離手段とを含み、
前記第2の場所に設置される音声合成装置をさらに備え、前記音声合成装置は、
前記第2の場所内の被験者の顔姿勢を検出するための顔姿勢検出手段と、
前記被験者に装着され、前記被験者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
前記音源定位手段から、前記音源の位置の位置を受信し、検出された顔姿勢に応じて、前記第2の場所において、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を用いて、前記音源分離手段からの分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを含む、臨場感伝達システム。
A realistic feeling transmission system for transmitting and reproducing the sound environment of the first place to the second place,
A sound source localization device installed in the first location, the sound source localization device,
Position detecting means for detecting the position of the object in the first place;
According to the output from the microphone array unit, the direction of sound arrival is estimated, integrated with the detection result of the position detection means, and the sound source localization means for specifying and outputting the position of the sound source;
Sound source separation means for separating and outputting the sound from the position of the identified sound source,
A speech synthesizer installed in the second location;
Face posture detection means for detecting the face posture of the subject in the second location;
Sound reproduction means for reproducing the sound corresponding to the sound environment for both ears of the subject, worn by the subject;
The position of the position of the sound source is received from the sound source localization means, and the position of the sound source in the second place is determined from the position corresponding to the position of the sound source of the first place according to the detected face posture. Sound space reconstruction means for synthesizing a sound signal for reproduction to each ear by the sound reproduction means from a separated sound signal from the sound source separation means using a head-related transfer function to each ear of the subject. , Presence transmission system.
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、前記ヘッドフォンに装着されたジャイロおよびコンパスを含む、請求項1記載の臨場感伝達システム。
The sound reproduction means is a headphone,
The presence sense transmission system according to claim 1, wherein the face posture detection means includes a gyro and a compass attached to the headphones.
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、撮像された前記被験者の画像から前記被験者の顔姿勢を推定する、請求項1記載の臨場感伝達システム。
The sound reproduction means is a headphone,
The presence sense transmission system according to claim 1, wherein the face posture detection unit estimates the face posture of the subject from the captured image of the subject.
前記マイクロフォンアレイ部は、複数のマイクロフォンアレイを含み、
前記音源定位手段は、複数のマイクロフォンアレイの各々に基づく音の到来方向と前記位置検出手段で検出された音源の位置が、交差することに応じて、前記音源の位置を特定する、請求項1〜3のいずれか1項に記載の臨場感伝達システム。
The microphone array unit includes a plurality of microphone arrays,
The sound source localization means identifies the position of the sound source in accordance with a crossing of a sound arrival direction based on each of a plurality of microphone arrays and a sound source position detected by the position detection means. The realistic sensation transmission system according to any one of to 3.
音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記第2の場所において、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ再現するための音信号を合成する、請求項1〜4のいずれか1項に記載の臨場感伝達システム。
A database further storing coefficients of a plurality of head related transfer functions according to directions from the sound source to each ear of the subject;
The sound space reconstruction means includes:
In the second place, a head-related transfer function to the ear of the subject from a position corresponding to the position of the sound source in the first place is selected from the database and reproduced to each ear. The realistic sensation transmission system according to claim 1, wherein the sound signal is synthesized.
前記音声合成装置は、
前記被験者が前記第2の場所における自身の位置または顔姿勢を指定する指示手段と、
前記指示手段からの指示に応じて、前記音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える、請求項1〜5のいずれか1項に記載の臨場感伝達システム。
The speech synthesizer
Instructing means for the subject to specify his or her position or face posture in the second location;
The sound volume control means for individually controlling the sound volume of the signal of the separated sound from the sound source separation means in accordance with an instruction from the instruction means, according to any one of claims 1 to 5. Realistic transmission system.
第1の場所の音環境に関する情報を送信する送信装置からの情報に基づき、前記第1の場所の音環境を第2の場所で再現するための臨場感再現装置であって、前記送信装置からは、前記第1の場所における音源の位置を示す位置情報と、前記位置情報で特定された音源の位置からの音を分離した分離音の信号とが送信され、
前記第2の場所内の被験者の顔姿勢を検出するための顔姿勢検出手段と、
前記被験者に装着され、前記被験者の両耳に対して前記音環境に対応する音を再現するための音再現手段と、
前記音源位置の前記位置情報を受信し、検出された顔姿勢に応じて、前記第2の場所において、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を用いて、前記分離音の信号から前記音再現手段により各耳へ再現するための音信号を合成する音空間再構成手段とを備える、臨場感再現装置。
A realistic reproduction device for reproducing the sound environment of the first location at a second location based on information from the transmission device that transmits information about the sound environment of the first location, from the transmission device Is transmitted position information indicating the position of the sound source in the first location, and a signal of the separated sound obtained by separating the sound from the position of the sound source specified by the position information,
Face posture detection means for detecting the face posture of the subject in the second location;
Sound reproduction means for reproducing the sound corresponding to the sound environment for both ears of the subject, worn by the subject;
The position information of the sound source position is received, and from the position corresponding to the position of the sound source position of the first place to each ear of the subject in the second place according to the detected face posture. And a sound space reconstruction unit that synthesizes a sound signal for reproduction to each ear by the sound reproduction unit from the separated sound signal using the head-related transfer function.
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、前記ヘッドフォンに装着されたジャイロおよびコンパスを含む、請求項7記載の臨場感再現装置。
The sound reproduction means is a headphone,
The realistic sensation reproduction apparatus according to claim 7, wherein the face posture detection means includes a gyro and a compass attached to the headphones.
前記音再現手段は、ヘッドフォンであり、
前記顔姿勢検出手段は、撮像された前記被験者の画像から前記被験者の顔姿勢を推定する、請求項7記載の臨場感再現装置。
The sound reproduction means is a headphone,
The realistic sensation reproduction apparatus according to claim 7, wherein the face posture detection unit estimates the face posture of the subject from the captured image of the subject.
音源から被験者の各耳までの方向に応じた複数の頭部伝達関数の係数を保存するデータベースをさらに備え、
前記音空間再構成手段は、
前記第2の場所において、前記第1の場所の前記音源の位置の位置に相当する位置から前記被験者の各耳への頭部伝達関数を前記データベースから選択して、各前記耳へ再現するための音信号を合成する、請求項7〜9のいずれか1項に記載の臨場感再現装置。
A database further storing coefficients of a plurality of head related transfer functions according to directions from the sound source to each ear of the subject;
The sound space reconstruction means includes:
In the second place, a head-related transfer function to the ear of the subject from a position corresponding to the position of the sound source in the first place is selected from the database and reproduced to each ear. The realistic sensation reproducing apparatus according to claim 7, wherein the sound signal is synthesized.
前記被験者が前記第2の場所における自身の位置または顔姿勢を指定する指示手段と、
前記指示手段からの指示に応じて、前記音源分離手段からの分離音の信号の音量を個別に制御するための音量制御手段とをさらに備える、請求項7〜10のいずれか1項に記載の臨場感再現装置。
Instructing means for the subject to specify his or her position or face posture in the second location;
The sound volume control means for individually controlling the sound volume of the separated sound signal from the sound source separation means in accordance with an instruction from the instruction means, according to any one of claims 7 to 10. Realistic reproduction device.
JP2014234480A 2014-11-19 2014-11-19 Realistic transmission system and realistic reproduction device Active JP6587047B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014234480A JP6587047B2 (en) 2014-11-19 2014-11-19 Realistic transmission system and realistic reproduction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014234480A JP6587047B2 (en) 2014-11-19 2014-11-19 Realistic transmission system and realistic reproduction device

Publications (2)

Publication Number Publication Date
JP2016100677A true JP2016100677A (en) 2016-05-30
JP6587047B2 JP6587047B2 (en) 2019-10-09

Family

ID=56078134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014234480A Active JP6587047B2 (en) 2014-11-19 2014-11-19 Realistic transmission system and realistic reproduction device

Country Status (1)

Country Link
JP (1) JP6587047B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768479A (en) * 2020-07-29 2020-10-13 腾讯科技(深圳)有限公司 Image processing method, image processing apparatus, computer device, and storage medium
JP2021528916A (en) * 2018-06-26 2021-10-21 ノキア テクノロジーズ オーユー Equipment and related methods for presenting audio

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122374A (en) * 2001-10-17 2003-04-25 Nippon Hoso Kyokai <Nhk> Surround sound generating method, and its device and its program
JP2010041425A (en) * 2008-08-05 2010-02-18 Yamaha Corp Sound reproducing device and program
JP2012211768A (en) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International Sound source positioning apparatus
JP2014207568A (en) * 2013-04-12 2014-10-30 富士通株式会社 Information processing device, voice processing method and voice processing program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003122374A (en) * 2001-10-17 2003-04-25 Nippon Hoso Kyokai <Nhk> Surround sound generating method, and its device and its program
JP2010041425A (en) * 2008-08-05 2010-02-18 Yamaha Corp Sound reproducing device and program
JP2012211768A (en) * 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International Sound source positioning apparatus
JP2014207568A (en) * 2013-04-12 2014-10-30 富士通株式会社 Information processing device, voice processing method and voice processing program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021528916A (en) * 2018-06-26 2021-10-21 ノキア テクノロジーズ オーユー Equipment and related methods for presenting audio
JP7037671B2 (en) 2018-06-26 2022-03-16 ノキア テクノロジーズ オーユー Equipment and related methods for presenting audio
CN111768479A (en) * 2020-07-29 2020-10-13 腾讯科技(深圳)有限公司 Image processing method, image processing apparatus, computer device, and storage medium
CN111768479B (en) * 2020-07-29 2021-05-28 腾讯科技(深圳)有限公司 Image processing method, image processing apparatus, computer device, and storage medium

Also Published As

Publication number Publication date
JP6587047B2 (en) 2019-10-09

Similar Documents

Publication Publication Date Title
JP6665379B2 (en) Hearing support system and hearing support device
US10397722B2 (en) Distributed audio capture and mixing
US10251012B2 (en) System and method for realistic rotation of stereo or binaural audio
JP2023158059A (en) Spatial audio for interactive audio environments
CA2656766C (en) Method and apparatus for creating a multi-dimensional communication space for use in a binaural audio system
EP3891521A1 (en) Audio augmentation using environmental data
US11641561B2 (en) Sharing locations where binaural sound externally localizes
JP2021520760A (en) Positioning of sound source
Gamper Enabling technologies for audio augmented reality systems
US20200221243A1 (en) System and method for realistic rotation of stereo or binaural audio
JP6587047B2 (en) Realistic transmission system and realistic reproduction device
Geronazzo et al. Superhuman hearing-virtual prototyping of artificial hearing: a case study on interactions and acoustic beamforming
Niwa et al. Efficient Audio Rendering Using Angular Region-Wise Source Enhancement for 360$^{\circ} $ Video
Moldoveanu et al. TRAINING SYSTEM FOR IMPROVING SPATIAL SOUND LOCALIZATION.
Waters et al. Using bat-modelled sonar as a navigational tool in virtual environments
Steffens et al. Auditory orientation and distance estimation of sighted humans using virtual echolocation with artificial and self-generated sounds
KR20160136716A (en) A method and an apparatus for processing an audio signal
Liu et al. Auditory scene reproduction for tele-operated robot systems
Basu et al. Vision-steered audio for interactive environments
El-Mohandes et al. DeepBSL: 3-D Personalized Deep Binaural Sound Localization on Earable Devices
WO2023173285A1 (en) Audio processing method and apparatus, electronic device, and computer-readable storage medium
Ishi et al. A sound-selective hearing support system using environment sensor network
EP4052487A1 (en) Systems and methods for classifying beamformed signals for binaural audio playback
Gamper Audio augmented reality in telecommunication
JP2024007669A (en) Sound field reproduction program using sound source and position information of sound-receiving medium, device, and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190827

R150 Certificate of patent or registration of utility model

Ref document number: 6587047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250