JP2021196433A - Sound pickup device, system, program, and method for transmitting environmental sound signal picked up by plurality of microphones to reproduction device - Google Patents

Sound pickup device, system, program, and method for transmitting environmental sound signal picked up by plurality of microphones to reproduction device Download PDF

Info

Publication number
JP2021196433A
JP2021196433A JP2020101320A JP2020101320A JP2021196433A JP 2021196433 A JP2021196433 A JP 2021196433A JP 2020101320 A JP2020101320 A JP 2020101320A JP 2020101320 A JP2020101320 A JP 2020101320A JP 2021196433 A JP2021196433 A JP 2021196433A
Authority
JP
Japan
Prior art keywords
acoustic
tag
sound
signal
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020101320A
Other languages
Japanese (ja)
Other versions
JP7403392B2 (en
Inventor
正樹 内藤
Masaki Naito
俊治 堀内
Toshiharu Horiuchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2020101320A priority Critical patent/JP7403392B2/en
Publication of JP2021196433A publication Critical patent/JP2021196433A/en
Application granted granted Critical
Publication of JP7403392B2 publication Critical patent/JP7403392B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a sound pickup device etc. for transmitting an environmental sound signal picked up by a plurality of microphones so that a reproduction device can reproduce it to enable a sound to be heard from a predetermined arrival direction.SOLUTION: A sound pickup device that transmits environmental sound signals picked up by a plurality of microphones to a reproduction device which reproduces sounds through a plurality of speakers has: a first acoustic database which stores an acoustic signal for each acoustic tag; sound source separation means which detects one or more acoustic signals present in the environmental sound signals from the environmental sound signals, and also estimates an arrival direction of each acoustic signal; acoustic tag estimation means which uses the first acoustic database to estimate an acoustic tag of an acoustic signal; and acoustic tag transmission means which transmits acoustic tags and the arrival direction to the reproduction device. Arrival method estimation means estimates arrival directions of acoustic signals through a spline sound source separation system or beam forming using the plurality of microphones.SELECTED DRAWING: Figure 2

Description

本発明は、環境音に内在する音響信号の収音及び再生の技術に関する。特に、ネットワークを介したテレプレゼンス(テレビ会議)システムに適する。 The present invention relates to a technique for collecting and reproducing an acoustic signal inherent in an environmental sound. In particular, it is suitable for telepresence (video conference) systems via networks.

仕事や業務に限らず、離れて暮らす親と子など、メンバ同士が異なる拠点間で離れて活動や生活をする場合が多い。この場合、スマートフォンやパソコンなどの電話や通信の機能によって、相手の状況を認識し合おうとする。このとき、自発的にコミュニケーションをとる必要があり、遠隔で活動するメンバが疎外感を抱くなどの問題が指摘されている(例えば非特許文献1参照)。 Not limited to work and work, there are many cases where members live apart from each other, such as parents and children who live apart from each other. In this case, the situation of the other party is recognized by the telephone and communication functions of a smartphone or a personal computer. At this time, it is necessary to communicate voluntarily, and problems such as feeling alienated by members who work remotely have been pointed out (see, for example, Non-Patent Document 1).

これに対し、複数の拠点間で、映像及び音声を常時流し続けるテレプレゼンスシステムが利用されるようになってきている(例えば非特許文献2、3参照)。これは、テレビ会議システムと同じであるが、通話又は会議中にのみ接続するものではなく、常時接続されている。このシステムによれば、遠隔の異なる拠点に滞在するメンバ(親子、家族、社員)同士であっても、相手周辺の環境音や画像を常時送信することによって、互いの状況を共有しながら、あたかも同じ居所にいるような環境を提供することができる。テレプレゼンスシステムは、国内及び海外における拠点間のみではなく、会社と在宅又はシェアオフィスとの間でも、ネットワークを介して手軽に接続することができる。
例えば代表的なテレビ電話のSkype(登録商標)によれば、遠隔拠点のメンバの動向を共有するために、「在籍/離席」の状態を、相手側の端末のディスプレイに表示することができる。
On the other hand, a telepresence system that constantly flows video and audio between a plurality of bases has come to be used (see, for example, Non-Patent Documents 2 and 3). This is the same as a video conference system, but it is not only connected during a call or conference, but is always connected. According to this system, even members (parents and children, family members, employees) who stay at different remote locations can share the situation with each other by constantly transmitting environmental sounds and images around the other party, as if they were. It is possible to provide an environment that makes you feel like you are in the same place. The telepresence system can be easily connected via a network not only between domestic and overseas bases but also between a company and a home or shared office.
For example, according to Skype (registered trademark), which is a typical videophone, the status of "enrollment / absence" can be displayed on the display of the other party's terminal in order to share the trends of members at remote locations. ..

尚、他の従来技術として、映像を拡大表示する際に、複数のマイクで収音した音響信号の音場の方向、広さを調整し、ユーザが指定した映像の範囲に合った音場を再現する技術もある(例えば特許文献1参照)。この技術によれば、複数のマイクで収音した音響信号の音場の方向、広さを調整し再生することができる。
また、作業中にディスプレイを見ていなくても、遠隔拠点のメンバの状況を知るために、その相手方の状況を合成音で伝える技術もある(例えば非特許文献4参照)。
更に、遠隔拠点間で互いに多様な環境音を認識し合う環境音認識装置の技術もある(例えば特許文献2参照)。
As another conventional technique, when the image is enlarged and displayed, the direction and width of the sound field of the acoustic signal picked up by a plurality of microphones are adjusted to obtain a sound field that matches the range of the image specified by the user. There is also a technique for reproducing (see, for example, Patent Document 1). According to this technology, it is possible to adjust and reproduce the direction and width of the sound field of the acoustic signal picked up by a plurality of microphones.
In addition, there is also a technique for transmitting the situation of the other party by synthetic sound in order to know the situation of the member of the remote base without looking at the display during the work (see, for example, Non-Patent Document 4).
Further, there is also a technology of an environmental sound recognition device that recognizes various environmental sounds from each other between remote bases (see, for example, Patent Document 2).

特開2019―068210号公報Japanese Unexamined Patent Publication No. 2019-066210 特許第6085538号公報Japanese Patent No. 6085538

総務省編、「テレワークの動向と生産性に関する調査研究報告書,総務省情報通信国際戦略局(2010)」、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.soumu.go.jp/johotsusintokei/linkdata/h22_06_houkoku.pdf>Ministry of Internal Affairs and Communications, "Research Report on Trends and Productivity of Telework, International Strategy Bureau for Information and Communication, Ministry of Internal Affairs and Communications (2010)", [online], [Search on March 10, 2nd year of Reiwa], Internet <URL: https //www.soumu.go.jp/johotsusintokei/linkdata/h22_06_houkoku.pdf > Telepresence: Integrating shared task and person spaces, W Buxton - Proceedings of graphics interface, 1992、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.billbuxton.com/TelepShrdSpce.pdf>Telepresence: Integrating shared task and person spaces, W Buxton --Proceedings of graphics interface, 1992, [online], [Search on March 10, 2nd year of Reiwa], Internet <URL: https://www.billbuxton.com/TelepShrdSpce .pdf > 日本人間工学会大会講演集 406-407, 2009:テレワーク向け常時接続型音声会議システムProceedings of the Japan Ergonomics Society Conference 406-407, 2009: Always-on audio conferencing system for telework HRI 2018: Fribo: A Social Networking Robot for Increasing Social Connectedness through Sharing Daily Home Activities from Living Noise Data.、[online]、[令和2年3月10日検索]、インターネット<URL:https://yonsei.pure.elsevier.com/en/publications/fribo-a-social-networking-robot-for-increasing-social-connectedne>HRI 2018: Fribo: A Social Networking Robot for Increasing Social Connectedness through Sharing Daily Home Activities from Living Noise Data., [Online], [Search on March 10, 2nd year of Reiwa], Internet <URL: https: // yonsei. pure.elsevier.com/en/publications/fribo-a-social-networking-robot-for-increasing-social-connectedne > 電子情報通信学会「知識の森」、2群(画像・音・言語)−6編(音響信号処理)−2章(音源分離)、[online]、[令和2年4月20日検索]、インターネット<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>Institute of Electronics, Information and Communication Engineers "Knowledge Forest", 2 groups (image / sound / language) -6 volumes (acoustic signal processing) -Chapter 2 (sound source separation), [online], [Search on April 20, 2nd year of Reiwa] , Internet <URL: http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf> 小野一穂、「マルチチャネルオーディオ」、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/itej/68/8/68_604/_pdf/-char/ja>Kazuho Ono, "Multi-channel audio", [online], [Search on March 10, 2nd year of Reiwa], Internet <URL: https://www.jstage.jst.go.jp/article/itej/68/8 / 68_604 / _pdf / -char / ja >

既存のテレプレゼンスシステムによれば、第1の拠点の収音装置によって収音された音響信号を、第2の拠点の再生装置で再生することができる。このとき、第1の拠点の環境音を単に録音し、第2の拠点ではその環境音をそのまま再生するだけである。 According to the existing telepresence system, the acoustic signal picked up by the sound pick-up device of the first base can be reproduced by the reproduction device of the second base. At this time, the environmental sound of the first base is simply recorded, and the environmental sound of the second base is simply reproduced as it is.

これに対し、本願の発明者らは、第2の拠点では、当該第1の拠点の音源位置に応じて第1の拠点の環境音を再生した方が、第2の拠点のユーザは、第1の拠点のユーザの存在を雰囲気的に感じることができる、と考えた。例えば、第1の拠点で水道の蛇口音が収音された場合、第2の拠点でも同じ音源位置から、第1の拠点の水道の蛇口音が到来するように再生することができないか、と考えた。 On the other hand, in the second base, the inventors of the present application reproduce the environmental sound of the first base according to the sound source position of the first base, and the user of the second base is the second. I thought that I could feel the existence of the user of one base in an atmosphere. For example, if the faucet sound of the water supply is picked up at the first base, can it be reproduced so that the faucet sound of the water supply of the first base arrives from the same sound source position at the second base? Thought.

そこで、本発明は、複数のマイクによって収音した環境音信号を、再生装置によって所定の到来方向から聞こえるべく再生できるように送信する収音装置、システム、プログラム及び方法を提供することを目的とする。 Therefore, an object of the present invention is to provide a sound collecting device, a system, a program, and a method for transmitting an environmental sound signal collected by a plurality of microphones so that the sound can be reproduced by a reproducing device so as to be heard from a predetermined arrival direction. do.

本発明によれば、複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置において、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ及び到来方向を、再生装置へ送信する音響タグ送信手段と
を有することを特徴とする。
According to the present invention, in a sound collecting device that transmits an environmental sound signal picked up by a plurality of microphones to a playback device that is reproduced by a plurality of speakers.
A first acoustic database that stores acoustic signals for each acoustic tag,
A sound source separation means that detects one or more acoustic signals inherent in the environmental sound signal from the environmental sound signal and estimates the arrival direction of each acoustic signal.
An acoustic tag estimation means for estimating an acoustic tag of an acoustic signal using the first acoustic database,
It is characterized by having an acoustic tag transmitting means for transmitting an acoustic tag and an arrival direction to a reproduction device.

本発明の収音装置における他の実施形態によれば、
到来方法推定手段は、複数のマイクを用いたブライン音源分離方式又はビームフォーミングによって、音響信号の到来方向を推定することも好ましい。
According to another embodiment of the sound collecting device of the present invention.
As the arrival method estimation means, it is also preferable to estimate the arrival direction of the acoustic signal by a brine sound source separation method using a plurality of microphones or beamforming.

本発明の収音装置における他の実施形態によれば、
音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ送信手段は、環境センサから所定信号を受信した際に、当該環境センサの音響タグ及び到来方向を、再生装置へ送信することも好ましい。
According to another embodiment of the sound collecting device of the present invention.
It is connected to the sound tag and the environment sensor associated with the direction of arrival.
When the acoustic tag transmitting means receives a predetermined signal from the environment sensor, it is also preferable to transmit the acoustic tag and the arrival direction of the environment sensor to the reproduction device.

本発明の収音装置における他の実施形態によれば、
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響タグ送信手段は、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響信号における到来方向を送信する
ことも好ましい。
According to another embodiment of the sound collecting device of the present invention.
It is connected to the camera and
An image database that stores image objects associated with acoustic tags, and
It further has an image object detection engine that detects one or more image objects inherent in the image captured by the camera using an image database and identifies the acoustic tag of the image object.
It is also preferable that the acoustic tag transmitting means transmits the arrival direction in the acoustic signal associated with the acoustic tag identified by the image object detection engine.

本発明によれば、前述した収音装置と、複数のスピーカを搭載した再生装置とがネットワークを介して接続されたシステムにおいて、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
を有することを特徴とする。
According to the present invention, in a system in which the above-mentioned sound collecting device and a playback device equipped with a plurality of speakers are connected via a network.
The playback device is
A second acoustic database that stores acoustic signals for each acoustic tag,
An acoustic tag receiving means for receiving an acoustic tag and an arrival direction from a sound collecting device,
Using the second acoustic database, the acoustic signal associated with the acoustic tag is characterized by having an environmental sound reproducing means for outputting an environmental sound synthesized so as to be heard from the direction of arrival of the acoustic tag from a plurality of speakers. And.

本発明のシステムにおける他の実施形態によれば、
収音装置における音響タグ送信手段は、音響タグ及び到来方向と共に、音響信号を更に送信し、
再生装置における環境音再生手段は、音響タグに紐付く音響信号に代えて、収音装置から受信した音響信号を再生することも好ましい。
According to other embodiments in the system of the present invention.
The acoustic tag transmitting means in the sound collecting device further transmits an acoustic signal together with the acoustic tag and the direction of arrival.
It is also preferable that the environmental sound reproducing means in the reproducing device reproduces the acoustic signal received from the sound collecting device instead of the acoustic signal associated with the acoustic tag.

本発明のシステムにおける他の実施形態によれば、
再生装置の第2の音響データベースに蓄積された音響タグ及び音響信号は、収音装置の第1の音響データベースに蓄積された音響タグ及び音響信号の一部又は全部であり、
再生装置の第2の音響データベースに蓄積された音響タグと、収音装置の第1の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響信号であることも好ましい。
According to other embodiments in the system of the present invention.
The acoustic tag and the acoustic signal stored in the second acoustic database of the reproduction device are a part or all of the acoustic tag and the acoustic signal stored in the first acoustic database of the sound pickup device.
Even if the acoustic tag stored in the second acoustic database of the reproducing device and the acoustic tag stored in the first acoustic database of the sound collecting device are the same, they may be acoustic signals based on different acoustic signals. preferable.

本発明によれば、複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎のび到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ及び到来方向を、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させることを特徴とする
According to the present invention, in a program for operating a computer mounted on a sound collecting device, which transmits an environmental sound signal picked up by a plurality of microphones to a playback device reproduced by a plurality of speakers.
A first acoustic database that stores acoustic signals for each acoustic tag,
A sound source separation means that detects one or more acoustic signals inherent in the environmental sound signal from the environmental sound signal and estimates the arrival direction of each acoustic signal.
An acoustic tag estimation means for estimating an acoustic tag of an acoustic signal using the first acoustic database,
It is characterized in that a computer functions as an acoustic tag transmitting means for transmitting an acoustic tag and an arrival direction to a playback device.

本発明によれば、前述した収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, in a program that receives an acoustic tag and an arrival direction from the above-mentioned sound collecting device and makes a computer mounted on a playback device equipped with a plurality of speakers function.
A second acoustic database that stores acoustic signals for each acoustic tag,
An acoustic tag receiving means for receiving an acoustic tag and an arrival direction from a sound collecting device,
Using the second acoustic database, the computer functions as an environmental sound reproduction means for outputting the environmental sound synthesized so that the acoustic signal associated with the acoustic tag can be heard from the direction of arrival of the acoustic tag from a plurality of speakers. It is characterized by.

本発明によれば、複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置の収音方法において、
収音装置は、
音響タグ毎に、音響信号を蓄積する第1の音響データベースを有し、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎のび到来方向を推定する第1のステップと、
第1の音響データベースを用いて、音響信号の音響タグを推定する第2のステップと、
音響タグ及び到来方向を、再生装置へ送信する第3のステップと
を実行することを特徴とする。
According to the present invention, in a sound collecting method of a sound collecting device, which transmits an environmental sound signal picked up by a plurality of microphones to a playback device reproduced by a plurality of speakers.
The sound collecting device is
Each acoustic tag has a first acoustic database that stores acoustic signals.
From the environmental sound signal, the first step of detecting one or more acoustic signals inherent in the environmental sound signal and estimating the arrival direction of each acoustic signal, and
The second step of estimating the acoustic tag of the acoustic signal using the first acoustic database,
It is characterized by performing a third step of transmitting the acoustic tag and the arrival direction to the reproduction device.

本発明によれば、前述した収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置の再生方法において、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースを有し、
収音装置から、音響タグ及び到来方向を受信する第1のステップと、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する第2のステップと
を実行することを特徴とする。
According to the present invention, in a reproduction method of a reproduction device equipped with a plurality of speakers by receiving an acoustic tag and an arrival direction from the sound collecting device described above.
The playback device is
Each acoustic tag has a second acoustic database that stores acoustic signals.
The first step of receiving the acoustic tag and the direction of arrival from the sound collector,
Using the second acoustic database, the second step of outputting the environmental sound synthesized so that the acoustic signal associated with the acoustic tag can be heard from the direction of arrival of the acoustic tag from the plurality of speakers is executed. It is a feature.

本発明の収音装置、システム、プログラム及び方法によれば、複数のマイクによって収音した環境音信号を、再生装置によって所定の到来方向から聞こえるべく再生できるように送信することができる。
本発明によれば、具体的には、収音側における各音源の音響信号を、再生側における各音源の位置に応じてその音響信号を再生することができる。収音装置と再生装置とが異なる拠点に配置された場合であっても、遠隔に滞在するメンバ同士で、互いの環境音を共有することができる。
According to the sound collecting device, the system, the program and the method of the present invention, the environmental sound signal picked up by a plurality of microphones can be transmitted so as to be reproduced by the reproducing device so as to be heard from a predetermined arrival direction.
According to the present invention, specifically, the acoustic signal of each sound source on the sound collecting side can be reproduced according to the position of each sound source on the reproducing side. Even when the sound collecting device and the reproducing device are located at different bases, the members staying remotely can share each other's environmental sounds.

収音装置が配置された拠点Aの環境音を表す外観図である。It is an external view which shows the environmental sound of the base A where the sound collecting device is arranged. 本発明における収音装置の機能構成図である。It is a functional block diagram of the sound collecting device in this invention. 収音装置における音源分離部及び音響タグ推定部の説明図である。It is explanatory drawing of the sound source separation part and the acoustic tag estimation part in a sound collecting apparatus. ブラインド音源分離方式を用いた到来方向の検出を表す説明図である。It is explanatory drawing which shows the detection of the arrival direction using the blind sound source separation method. ビームフォーミング方式を用いた到来方向の検出を表す説明図である。It is explanatory drawing which shows the detection of the arrival direction using the beamforming method. 本発明における再生装置の機能構成図である。It is a functional block diagram of the reproduction apparatus in this invention. 収音装置から再生装置へ送信されるデータを表す説明図である。It is explanatory drawing which shows the data which is transmitted from a sound collecting apparatus to a reproduction apparatus. パターン1における再生装置の環境音再生部の説明図である。It is explanatory drawing of the environmental sound reproduction part of the reproduction apparatus in pattern 1. FIG. パターン1によって再生された音響信号を表す外観図である。It is an external view which shows the acoustic signal reproduced by the pattern 1. FIG. パターン2における環境音再生部の説明図である。It is explanatory drawing of the environmental sound reproduction part in pattern 2. パターン2によって再生された音響信号を表す外観図である。It is an external view which shows the acoustic signal reproduced by the pattern 2. 環境センサに対応する音響タグを送信する収音装置の説明図である。It is explanatory drawing of the sound collecting device which transmits an acoustic tag corresponding to an environment sensor. カメラの映像から推定した音響タグを送信する収音装置の説明図である。It is explanatory drawing of the sound collecting device which transmits the acoustic tag estimated from the image of a camera.

以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<収音装置1>
図1は、収音装置が配置された拠点Aの環境音を表す外観図である。
<Sound collecting device 1>
FIG. 1 is an external view showing the environmental sound of the base A in which the sound collecting device is arranged.

本発明によれば、少なくとも、第1の拠点内に配置された収音装置1から構成される。
収音装置1は、第1の拠点内で、ユーザに聞こえる環境音から複数の音響信号の到来方向を検出し、その音響タグ及び到来方向を、再生装置へ送信する(パターン1)。また、収音した音響信号そのものを、再生装置へ送信するものであってもよい(パターン2)。
According to the present invention, it is composed of at least a sound collecting device 1 arranged in the first base.
The sound collecting device 1 detects the arrival direction of a plurality of acoustic signals from the environmental sound heard by the user in the first base, and transmits the acoustic tag and the arrival direction to the reproduction device (pattern 1). Further, the collected acoustic signal itself may be transmitted to the reproduction device (Pattern 2).

図1によれば、ユーザa1、a2の周辺環境の外観が表されており、水道や窓、洗濯機が配置されている。このとき、ユーザa1、a2には、以下のような音響信号が混在した環境音として聞こえている。
水道の蛇口音 「ジャー」
窓の開閉音 「バタッ」
洗濯機の駆動音「グルングルン」
収音装置1は、環境音を収音するための複数のマイクを搭載すると共に、ネットワークを介して遠隔の再生装置2と通信する。
According to FIG. 1, the appearance of the surrounding environment of the users a1 and a2 is shown, and a water supply, a window, and a washing machine are arranged. At this time, the users a1 and a2 hear the following acoustic signals as mixed environmental sounds.
Water faucet sound "jar"
Window opening and closing sound "fluttering"
Washing machine drive sound "Grungun"
The sound collecting device 1 is equipped with a plurality of microphones for collecting environmental sounds, and communicates with a remote reproducing device 2 via a network.

図2は、本発明における収音装置の機能構成図である。 FIG. 2 is a functional configuration diagram of the sound collecting device according to the present invention.

図2によれば、収音装置1は、複数のマイク101と、第1の音響データベース11と、音源分離部12と、音響タグ推定部13と、音響タグ送信部14と、映像送信部15とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、収音送信方法としても理解できる。 According to FIG. 2, the sound collecting device 1 includes a plurality of microphones 101, a first acoustic database 11, a sound source separation unit 12, an acoustic tag estimation unit 13, an acoustic tag transmission unit 14, and a video transmission unit 15. And have. These functional components can be realized by executing a program that makes the computer mounted on the device function. Further, the processing flow of these functional components can be understood as a sound collection transmission method.

[マイク101]
マイク101は、環境音を収音する複数のマイクロフォンからなる。例えばマイクロフォンアレイのようなものであってもよい。マイクロフォンアレイは、複数のマイクによって収音された環境音を信号処理することによって、音の空間的な情報を取得することができる。
[Microphone 101]
The microphone 101 is composed of a plurality of microphones that collect environmental sounds. For example, it may be something like a microphone array. The microphone array can acquire spatial information of sound by signal processing the environmental sound picked up by a plurality of microphones.

[第1の音響データベース11]
第1の音響データベース11は、音響タグ毎に音響信号を蓄積する。
音響タグ<->音響信号
「音響タグ」は、音響信号を特定するための識別子である。
「音響信号」は、音響信号そのものに限らず、時系列の周波数スペクトルのような音響的特徴量の標準パターンのようなものであってもよい。
[First acoustic database 11]
The first acoustic database 11 accumulates acoustic signals for each acoustic tag.
Acoustic tag <-> Acoustic signal An "acoustic tag" is an identifier for identifying an acoustic signal.
The "acoustic signal" is not limited to the acoustic signal itself, and may be something like a standard pattern of acoustic features such as a time-series frequency spectrum.

[音源分離部12]
音源分離部12は、環境音に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する。
[Sound source separation unit 12]
The sound source separation unit 12 detects one or more acoustic signals inherent in the environmental sound and estimates the arrival direction of each acoustic signal.

図3は、収音装置における音源分離部及び音響タグ推定部の説明図である。
図3によれば、音源分離部12には、マイク101によって収音された環境音が入力される。この環境音には、例えば以下のような様々な音響信号が内在している。
「バタッ」
「グ ル ン グ ル ン」
「ジ ャ ー」
音源分離部12は、音源毎に分離して検出した音響信号と、その到来方向とを出力する。
FIG. 3 is an explanatory diagram of a sound source separation unit and an acoustic tag estimation unit in the sound collecting device.
According to FIG. 3, the environmental sound picked up by the microphone 101 is input to the sound source separation unit 12. Various acoustic signals such as the following are inherent in this environmental sound.
"Battery"
"Grun Grun"
"Jar"
The sound source separation unit 12 outputs an acoustic signal separately detected for each sound source and its arrival direction.

音源分離部12には、音響信号の到来方向を推定するために、ブラインド音源分離方式又はビームフォーミング方式を採用することができる。これら方式によれば、環境音に混在する音響信号を検出し、各音響信号の到来方向も検出することができる。 A blind sound source separation method or a beamforming method can be adopted for the sound source separation unit 12 in order to estimate the arrival direction of the acoustic signal. According to these methods, acoustic signals mixed with environmental sounds can be detected, and the direction of arrival of each acoustic signal can also be detected.

(ブラインド音源分離方式)
図4は、ブラインド音源分離方式を用いた到来方向の検出を表す説明図である。
ブラインド音源分離方式とは、例えば独立成分分析に基づく場合(非特許文献5参照)、複数音源が未知であっても統計的に互いに独立であるとする仮定の下、分離信号が互いに独立となるようなフィルタを構成する。音響信号は、(マイクの数−1)個まで検出可能となる。尚、ブラインド音源分離方式は、音源の種類や空間的位置の知識、目的音の区間の切り出し、合成条件などの情報を原理的に必要とせず、音源信号の調波構造の仮定も用いない。
(Blind sound source separation method)
FIG. 4 is an explanatory diagram showing the detection of the arrival direction using the blind sound source separation method.
In the blind sound source separation method, for example, when based on independent component analysis (see Non-Patent Document 5), the separated signals are independent of each other under the assumption that even if a plurality of sound sources are unknown, they are statistically independent of each other. Configure such a filter. Up to (number of microphones-1) acoustic signals can be detected. In principle, the blind sound source separation method does not require information such as knowledge of the type and spatial position of the sound source, cutting out the section of the target sound, and synthesis conditions, and does not use the assumption of the tuning structure of the sound source signal.

(ビームフォーミング方式)
図5は、ビームフォーミング方式を用いた到来方向の検出を表す説明図である。
ビームフォーミング方式は、各マイクが目的方向の音源の音響信号を検出する方式をいう(例えば非特許文献5参照)。音源から各マイクロフォンへの音波伝搬がそれぞれ異なることに基づいて、遅延及びフィルタによって位相や振幅を制御する。これによって、目的方向以外の音響信号の感度を低下させて、目的方向の音響信号の感度(S/N比)を確保する。
具体的には、マイクロフォンアレイからの角度を複数に分割し(図5によれば8分割)、角度範囲毎に、目的方向として音響信号を収音する。
(Beamforming method)
FIG. 5 is an explanatory diagram showing detection of an arrival direction using a beamforming method.
The beamforming method refers to a method in which each microphone detects an acoustic signal of a sound source in a target direction (see, for example, Non-Patent Document 5). The phase and amplitude are controlled by delays and filters based on the different sound wave propagation from the sound source to each microphone. As a result, the sensitivity of the acoustic signal other than the target direction is lowered, and the sensitivity (S / N ratio) of the acoustic signal in the target direction is secured.
Specifically, the angle from the microphone array is divided into a plurality of parts (8 divisions according to FIG. 5), and the acoustic signal is picked up as the target direction for each angle range.

[音響タグ推定部13]
音響タグ推定部13は、第1の音響データベース11を用いて、音響信号の音響タグを推定する。
[Acoustic tag estimation unit 13]
The acoustic tag estimation unit 13 estimates the acoustic tag of the acoustic signal by using the first acoustic database 11.

音響タグ推定部13は、メル周波数ケプストラム係数(MFCC)を特徴量とし抽出し、深層学習に基づくニューラルネットワークを用いて音響信号を識別する(例えば非特許文献3、4参照)。これは、制約付きボルツマンマシン(RBM)に基づく自己符号化器によって事前学習された隠れ層を積み重ねて、多層の階層ネットワークを構築し、最終層の出力を使った識別ネットワークを追加して、全体として教師あり学習によって音響タグを検出している。
音響タグ推定部13は、学習段階として、第1の音響データベース11に蓄積された音響タグ及び音響信号を対応付けた教師データによって学習する。推定段階として、音源分離部12からの音響信号を入力し、当該音響信号に対応する音響タグを出力する。
The acoustic tag estimation unit 13 extracts the mel frequency cepstrum coefficient (MFCC) as a feature quantity, and identifies the acoustic signal using a neural network based on deep learning (see, for example, Non-Patent Documents 3 and 4). It builds a multi-layered hierarchical network by stacking hidden layers pre-learned by a self-encoder based on a constrained Boltzmann machine (RBM), adding an identification network using the output of the final layer, and the whole. The acoustic tag is detected by supervised learning.
As a learning step, the acoustic tag estimation unit 13 learns from the teacher data associated with the acoustic tags and acoustic signals stored in the first acoustic database 11. As an estimation step, an acoustic signal from the sound source separation unit 12 is input, and an acoustic tag corresponding to the acoustic signal is output.

図3によれば、音響タグ推定部13は、例えば以下のように音響タグを推定している。
音響タグ101(水道の蛇口音)
音響タグ167(洗濯機の駆動音)
音響タグ143(窓の開閉音)
According to FIG. 3, the acoustic tag estimation unit 13 estimates the acoustic tag as follows, for example.
Acoustic tag 101 (water faucet sound)
Acoustic tag 167 (washing machine drive sound)
Acoustic tag 143 (window opening and closing sound)

[音響タグ送信部14]
音響タグ送信部14は、音響タグ及び到来方向を、再生装置2へ送信する(パターン1)。
また、他の実施形態として、収音装置1で収音した音響信号をそのまま、再生装置2で再生する場合、音響タグ送信部14は、「音響信号」自体も再生装置2へ送信する(パターン2)。
[Acoustic tag transmitter 14]
The acoustic tag transmission unit 14 transmits the acoustic tag and the arrival direction to the reproduction device 2 (pattern 1).
Further, as another embodiment, when the acoustic signal picked up by the sound collecting device 1 is reproduced as it is by the reproducing device 2, the acoustic tag transmitting unit 14 also transmits the "acoustic signal" itself to the reproducing device 2 (pattern). 2).

[映像送信部15]
映像送信部15は、カメラによって撮影した映像を、再生装置2へ送信する。テレプレゼンスシステムとして、拠点Aの映像を、拠点Bへ送信するものである。
[Video transmitter 15]
The video transmission unit 15 transmits the video captured by the camera to the playback device 2. As a telepresence system, the image of the base A is transmitted to the base B.

<再生装置2>
再生装置2は、第2の拠点内に配置され、収音装置から音響タグ及び到来方向を受信する。そして、第1の拠点の収音装置から受信した複数の音響信号を、第2の拠点内の環境音として合成して再生する。このとき、各音響信号が、所定の到来方向から聞こえるように再生することができる。これには、マルチチャネル音響の技術が用いることができる(例えば非特許文献6参照)。
<Reproduction device 2>
The reproduction device 2 is arranged in the second base and receives the acoustic tag and the arrival direction from the sound collecting device. Then, a plurality of acoustic signals received from the sound collecting device of the first base are synthesized and reproduced as the environmental sound in the second base. At this time, each acoustic signal can be reproduced so as to be heard from a predetermined arrival direction. Multi-channel acoustic techniques can be used for this (see, eg, Non-Patent Document 6).

図6は、本発明における再生装置の機能構成図である。
図6によれば、再生装置2は、スピーカ201と、ディスプレイ202と、第2の音響データベース21と、音響タグ受信部22と、環境音再生部23と、映像再生部24とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、環境音再生方法としても理解できる。
FIG. 6 is a functional configuration diagram of the reproduction device according to the present invention.
According to FIG. 6, the reproduction device 2 includes a speaker 201, a display 202, a second acoustic database 21, an acoustic tag receiving unit 22, an environmental sound reproduction unit 23, and a video reproduction unit 24. These functional components can be realized by executing a program that makes the computer mounted on the device function. In addition, the processing flow of these functional components can be understood as an environmental sound reproduction method.

[第2の音響データベース21]
第2の音響データベース21は、音響タグ毎に、音響信号を蓄積する。基本的に、収音装置1の第1の音響データベース11は、再生装置2の第2の音響データベースと同じ機能のものである。音響タグに紐付く音響信号は、できる限り、原音に近い音響信号であることが好ましい。
[Second acoustic database 21]
The second acoustic database 21 accumulates acoustic signals for each acoustic tag. Basically, the first acoustic database 11 of the sound collecting device 1 has the same function as the second acoustic database of the reproducing device 2. The acoustic signal associated with the acoustic tag is preferably an acoustic signal as close to the original sound as possible.

ここで、再生装置2の第2の音響データベース21に蓄積された音響タグ及び音響信号は、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響信号の一部又は全部であってもよい。
例えば、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響信号が、再生装置2の第2の音響データベース21に蓄積されていない場合、その音響信号は再生されないだけである。
一方で、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響信号が、再生装置2の第2の音響データベース21にも蓄積されている場合、再生装置2における第2の音響データベース21の音響信号によって合成された環境音が再生される。即ち、再生装置2の第2の音響データベース21に蓄積された音響タグと、収音装置1の第1の音響データベース11に蓄積された音響タグとが、異なる音響信号である場合、第2の音響データベース21の音響信号によって変換された環境音が再生されることとなる。
Here, the acoustic tag and the acoustic signal stored in the second acoustic database 21 of the reproducing device 2 are a part or all of the acoustic tag and the acoustic signal stored in the first acoustic database 11 of the sound collecting device 1. There may be.
For example, if the acoustic tag and the acoustic signal stored in the first acoustic database 11 of the sound collecting device 1 are not stored in the second acoustic database 21 of the reproducing device 2, the acoustic signal is not reproduced. ..
On the other hand, when the acoustic tag and the acoustic signal stored in the first acoustic database 11 of the sound collecting device 1 are also stored in the second acoustic database 21 of the reproducing device 2, the second acoustic database in the reproducing device 2 is used. The environmental sound synthesized by the acoustic signal of the acoustic database 21 is reproduced. That is, when the acoustic tag stored in the second acoustic database 21 of the reproducing device 2 and the acoustic tag stored in the first acoustic database 11 of the sound collecting device 1 are different acoustic signals, the second The environmental sound converted by the acoustic signal of the acoustic database 21 will be reproduced.

[音響タグ受信部22]
音響タグ受信部22は、収音装置1から、音響タグ及び到来方向(及び音響信号)を受信する。受信した音響タグ及び到来方向(及び音響信号)は、環境音再生部23へ出力される。
[Acoustic tag receiver 22]
The acoustic tag receiving unit 22 receives the acoustic tag and the arrival direction (and the acoustic signal) from the sound collecting device 1. The received acoustic tag and the arrival direction (and the acoustic signal) are output to the environmental sound reproduction unit 23.

[環境音再生部23]
環境音再生部23は、受信した音響タグに紐付く音響信号を、受信した到来方向から聞こえるように合成し、環境音を再生する。環境音は、複数のスピーカ201へ出力される。
スピーカ201は、複数のスピーカからなり、ユーザに対して、収音装置1が配置された拠点Aにおける音源位置の到来方向から聞こえるように環境音を再生する。
[Environmental sound reproduction unit 23]
The environmental sound reproduction unit 23 synthesizes the acoustic signal associated with the received acoustic tag so that it can be heard from the received arrival direction, and reproduces the environmental sound. The ambient sound is output to the plurality of speakers 201.
The speaker 201 is composed of a plurality of speakers, and reproduces the environmental sound so that the user can hear it from the direction of arrival of the sound source position at the base A where the sound collecting device 1 is arranged.

[映像再生部24]
映像再生部は、収音装置1から映像を受信し、その映像をディスプレイ202へ出力する。
ディスプレイ202は、その映像を再生し、ユーザに対して視認させる。
[Video playback unit 24]
The video reproduction unit receives the video from the sound collecting device 1 and outputs the video to the display 202.
The display 202 reproduces the image and makes it visible to the user.

図7は、収音装置から再生装置へ送信されるデータを表す説明図である。 FIG. 7 is an explanatory diagram showing data transmitted from the sound collecting device to the reproducing device.

図7によれば、例えば以下の2つのパターンの実施例がある。
[パターン1]
収音装置1の音響タグ送信部14は、「音響タグ」「到来方向」を、再生装置2の音響タグ受信部25へ送信する。
(収音装置)
音響タグ101(水道の蛇口音) :到来方向1 ->
音響タグ167(洗濯機の駆動音):到来方向3 ->
音響タグ143(窓の開閉音) :到来方向8 ->
[パターン2]
収音装置1の音響タグ送信部14は、「音響タグ」「到来方向」「音響信号」を、再生装置2の音響タグ受信部25へ送信する。
(収音装置)
音響タグ101(水道の蛇口音) :到来方向1:音響信号「ジャー」 ->
音響タグ167(洗濯機の駆動音):到来方向3:音響信号「グルングルン」 ->
音響タグ143(窓の開閉音) :到来方向8:音響信号「バタッ」 ->
According to FIG. 7, for example, there are examples of the following two patterns.
[Pattern 1]
The acoustic tag transmitting unit 14 of the sound collecting device 1 transmits the “acoustic tag” and the “arrival direction” to the acoustic tag receiving unit 25 of the reproducing device 2.
(Sound collecting device)
Acoustic tag 101 (water faucet sound): Arrival direction 1->
Acoustic tag 167 (washing machine drive sound): Arrival direction 3->
Acoustic tag 143 (window opening / closing sound): Arrival direction 8->
[Pattern 2]
The acoustic tag transmitting unit 14 of the sound collecting device 1 transmits the “acoustic tag”, “arrival direction”, and “acoustic signal” to the acoustic tag receiving unit 25 of the reproducing device 2.
(Sound collecting device)
Acoustic tag 101 (water faucet sound): Arrival direction 1: Acoustic signal "jar"->
Acoustic tag 167 (driving sound of washing machine): Arrival direction 3: Acoustic signal "Grungun"->
Acoustic tag 143 (window opening / closing sound): Arrival direction 8: Acoustic signal "flutter"->

図8は、パターン1における再生装置の環境音再生部の説明図である。 FIG. 8 is an explanatory diagram of the environmental sound reproduction unit of the reproduction device in the pattern 1.

図8によれば、環境音再生部23は、環境音に内在する音響信号について、音響タグ受信部22から音響タグ及び到来方向を入力する。
音響タグ101(水道の蛇口音) :到来方向1
音響タグ167(洗濯機の駆動音):到来方向3
音響タグ143(窓の開閉音) :到来方向8
また、第2の音響データベース21によれば、音響タグ毎に、以下のような音響信号が対応付けられている。
音響タグ101(水道の蛇口音) :音響信号「シャー」
音響タグ167(洗濯機の駆動音):音響信号「クルンクルン」
音響タグ143(窓の開閉音) :音響信号「キーッ」
環境音再生部23は、第2の音響データベース21に登録された音響信号「シャー」「クルンクルン」「キーッ」を、拠点Aにおける各到来方向の音源から聞こえるように合成し、環境音を再生する。
音響信号「シャー」 :到来方向1
音響信号「クルンクルン」 :到来方向3
音響信号「キーッ」 :到来方向8
According to FIG. 8, the environmental sound reproduction unit 23 inputs an acoustic tag and an arrival direction from the acoustic tag receiving unit 22 for the acoustic signal inherent in the environmental sound.
Acoustic tag 101 (water faucet sound): Arrival direction 1
Acoustic tag 167 (washing machine drive sound): Arrival direction 3
Acoustic tag 143 (window opening / closing sound): Arrival direction 8
Further, according to the second acoustic database 21, the following acoustic signals are associated with each acoustic tag.
Acoustic tag 101 (water faucet sound): Acoustic signal "Shah"
Acoustic tag 167 (washing machine drive sound): Acoustic signal "Krun Krun"
Acoustic tag 143 (window opening / closing sound): Acoustic signal "key"
The environmental sound reproduction unit 23 synthesizes the acoustic signals "Shah", "Krunkrun", and "Kee" registered in the second acoustic database 21 so as to be heard from the sound sources in each arrival direction at the base A, and reproduces the environmental sound. ..
Acoustic signal "Shah": Arrival direction 1
Acoustic signal "Krun Krun": Arrival direction 3
Acoustic signal "key": arrival direction 8

図9は、パターン1によって再生された音響信号を表す外観図である。 FIG. 9 is an external view showing the acoustic signal reproduced by the pattern 1.

図9によれば、再生装置2が配置された拠点Bにおけるユーザbには、拠点Aの音源となる水道や窓、洗濯機の配置位置から、各音響信号が聞こえるようになる。
例えば拠点Bの環境音として、拠点Aの窓の方向から音響信号「キーッ」が再生されている。これは、拠点Aの環境音として、窓の開閉音「バタッ」を検出した際に、拠点Aの窓と同じ方向から到来するように再生対象の音響信号「キーッ」が再生されている。できる限り、原音に近い音を再生することが好ましい。
このように、第2の音響データベース21に登録された音響信号を、収音装置1で収音された音響信号の到来方向に応じた位置の音源から聞こえるような環境音として、再生することができる。
According to FIG. 9, the user b at the base B where the reproduction device 2 is arranged can hear each acoustic signal from the arrangement position of the water supply, the window, and the washing machine which are the sound sources of the base A.
For example, as the environmental sound of the base B, the acoustic signal "key" is reproduced from the direction of the window of the base A. This is because, when the window opening / closing sound "butter" is detected as the environmental sound of the base A, the acoustic signal "key" to be reproduced is reproduced so as to come from the same direction as the window of the base A. It is preferable to reproduce a sound as close to the original sound as possible.
In this way, the acoustic signal registered in the second acoustic database 21 can be reproduced as an environmental sound that can be heard from a sound source at a position corresponding to the arrival direction of the acoustic signal picked up by the sound collecting device 1. can.

図10は、パターン2における環境音再生部の説明図である。 FIG. 10 is an explanatory diagram of the environmental sound reproduction unit in the pattern 2.

図10によれば、環境音再生部23は、環境音に内在する音響信号について、音響タグ受信部22から、音響タグ及び到来方向と音響信号とを入力する。
音響タグ101(水道の蛇口音) :到来方向1:音響信号「ジャー」
音響タグ167(洗濯機の駆動音):到来方向3:音響信号「グルングルン」
音響タグ143(窓の開閉音) :到来方向8:音響信号「バタッ」
環境音再生部23は、受信した音響信号「ジャー」「グルングルン」「バタッ」を、拠点Aにおける各到来方向の音源から聞こえるように合成し、環境音を再生する。
音響信号「ジャー」 :到来方向1
音響信号「グルングルン」 :到来方向3
音響信号「バタッ」 :到来方向8
According to FIG. 10, the environmental sound reproduction unit 23 inputs the acoustic tag, the arrival direction, and the acoustic signal from the acoustic tag receiving unit 22 for the acoustic signal inherent in the environmental sound.
Acoustic tag 101 (water faucet sound): Arrival direction 1: Acoustic signal "jar"
Acoustic tag 167 (driving sound of washing machine): Arrival direction 3: Acoustic signal "Grungun"
Acoustic tag 143 (window opening / closing sound): Arrival direction 8: Acoustic signal "flutter"
The environmental sound reproduction unit 23 synthesizes the received acoustic signals "jar", "grungrun", and "batat" so as to be heard from the sound sources in each arrival direction at the base A, and reproduces the environmental sound.
Acoustic signal "jar": arrival direction 1
Acoustic signal "Grungun": Arrival direction 3
Acoustic signal "flutter": Arrival direction 8

図11は、パターン2によって再生された音響信号を表す外観図である。 FIG. 11 is an external view showing the acoustic signal reproduced by the pattern 2.

図11によれば、再生装置2が配置された拠点Bにおけるユーザbには、拠点Aの音源となる水道や窓、洗濯機の配置位置から、各音響信号が聞こえるようになる。
また、図11によれば、拠点Bには、ディスプレイ202が配置されており、収音装置1によって撮影された拠点Aの映像が再生されている。このとき、映像に「窓」が映り込んでいる。例えば拠点Bの環境音として、拠点Aの窓の方向から音響信号「バタッ」が再生されている。これは、拠点Aの映像における窓と同じ方向から到来するように再生対象の音響信号「バタッ」が再生されている。
このように、拠点Aの収音装置1によって収音された音響信号を、拠点Bではその到来方向に応じた位置の音源から聞こえるような環境音として、再生することができる。
According to FIG. 11, the user b at the base B where the reproduction device 2 is arranged can hear each acoustic signal from the arrangement position of the water supply, the window, and the washing machine which are the sound sources of the base A.
Further, according to FIG. 11, a display 202 is arranged at the base B, and the image of the base A taken by the sound collecting device 1 is reproduced. At this time, a "window" is reflected in the image. For example, as the environmental sound of the base B, the acoustic signal "bat" is reproduced from the direction of the window of the base A. This means that the acoustic signal "butter" to be reproduced is reproduced so as to come from the same direction as the window in the image of the base A.
In this way, the acoustic signal picked up by the sound collecting device 1 of the base A can be reproduced at the base B as an environmental sound that can be heard from the sound source at the position corresponding to the direction of arrival.

図12は、環境センサに対応する音響タグを送信する収音装置の説明図である。 FIG. 12 is an explanatory diagram of a sound collecting device that transmits an acoustic tag corresponding to an environment sensor.

図12によれば、収音装置1は、環境センサ17に接続されており、ON/OFF信号を受信する。環境センサとしては、例えば窓開閉センサのようなものであってもよい。環境センサは、いずれか1つの音響タグに紐付いている。環境センサのON/OFF信号は、音響タグ送信部14へ入力される。音響タグ送信部14は、環境センサ17から所定信号を受信した際に、その環境音信号に対応する音響タグ及び到来方向を再生装置2へ送信する。これによって、例えば窓開閉音のみを再生装置2へ送信することができる。 According to FIG. 12, the sound collecting device 1 is connected to the environment sensor 17 and receives an ON / OFF signal. The environment sensor may be, for example, a window open / close sensor. The environment sensor is associated with any one acoustic tag. The ON / OFF signal of the environment sensor is input to the acoustic tag transmission unit 14. When the acoustic tag transmission unit 14 receives a predetermined signal from the environment sensor 17, the acoustic tag transmission unit 14 transmits the acoustic tag corresponding to the environmental sound signal and the arrival direction to the reproduction device 2. Thereby, for example, only the window opening / closing sound can be transmitted to the reproduction device 2.

図13は、カメラの映像から推定した音響タグを送信する収音装置の説明図である。 FIG. 13 is an explanatory diagram of a sound collecting device that transmits an acoustic tag estimated from a camera image.

図13によれば、収音装置1は、カメラ102によって撮影された画像を入力する。
また、図13によれば、収音装置1は、画像データベース180及び画像オブジェクト検出エンジン181を更に有する。
画像データベース180は、音響タグが紐付けられた画像オブジェクトを蓄積する。
画像オブジェクト検出エンジン181は、画像データベース180を用いて、カメラ102によって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する。特定された音響タグは、音響タグ送信部14へ出力される。
According to FIG. 13, the sound collecting device 1 inputs an image taken by the camera 102.
Further, according to FIG. 13, the sound collecting device 1 further includes an image database 180 and an image object detection engine 181.
The image database 180 stores image objects associated with acoustic tags.
The image object detection engine 181 detects one or more image objects inherent in the image captured by the camera 102 using the image database 180, and identifies the acoustic tag of the image object. The specified acoustic tag is output to the acoustic tag transmission unit 14.

具体的には、画像オブジェクト検出エンジン181は、入力された画像又は映像から、物体(画像オブジェクト)を枠(バウンディングボックス)で囲み、その物体の種別(カテゴリ)を識別する。これは、例えばSSD(Single Shot Multibox Detector)のようなものであってもよい。SSDは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、1つの画像オブジェクトが収まる。
また、画像オブジェクト検出エンジン181としては、例えばRGB認識に基づくCNN(Convolutional Neural Network)のようなニューラルネットワークであって、YOLO(You Only Look Once)(登録商標)のようなものであってもよい。
Specifically, the image object detection engine 181 surrounds an object (image object) with a frame (bounding box) from the input image or video, and identifies the type (category) of the object. This may be something like an SSD (Single Shot Multibox Detector), for example. The SSD divides the image by a grid and detects the bounding box at that position from the fit of a plurality of bounding boxes fixed to each grid. One image object fits in the bounding box.
Further, the image object detection engine 181 may be a neural network such as a CNN (Convolutional Neural Network) based on RGB recognition, and may be a neural network such as YOLO (You Only Look Once) (registered trademark). ..

以上、詳細に説明したように、本発明の収音装置、システム、プログラム及び方法によれば、複数のマイクによって収音した環境音信号を、再生装置によって所定の到来方向から聞こえるべく再生できるように送信することができる。
本発明によれば、具体的には、収音側における各音源の音響信号を、再生側でも、収音側での音源位置に応じてその音響信号を再生することができる。収音装置と再生装置とが異なる拠点に配置された場合であっても、遠隔に滞在するメンバ同士で、互いの環境音を共有することができる。
As described in detail above, according to the sound collecting device, system, program and method of the present invention, the environmental sound signal collected by a plurality of microphones can be reproduced by the reproducing device so as to be heard from a predetermined arrival direction. Can be sent to.
According to the present invention, specifically, the acoustic signal of each sound source on the sound collecting side can be reproduced on the reproducing side according to the sound source position on the sound collecting side. Even when the sound collecting device and the reproducing device are located at different bases, the members staying remotely can share each other's environmental sounds.

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various modifications, modifications and omissions of the above-mentioned various embodiments of the present invention within the scope of the technical idea and viewpoint of the present invention can be easily made by those skilled in the art. The above explanation is just an example and does not attempt to limit anything. The present invention is limited only to the scope of claims and their equivalents.

1 収音装置
101 マイク
102 カメラ
11 第1の音響データベース
12 音源分離部
13 音響タグ推定部
14 音響タグ送信部
15 映像送信部
17 環境センサ
180 画像データベース
181 画像オブジェクト検出エンジン
2 再生装置
201 スピーカ
202 ディスプレイ
21 第2の音響データベース
22 音響タグ受信部
23 環境音再生部
24 映像再生部

1 Sound pickup device 101 Microphone 102 Camera 11 First sound database 12 Sound source separation unit 13 Sound tag estimation unit 14 Sound tag transmission unit 15 Video transmission unit 17 Environment sensor 180 Image database 181 Image object detection engine 2 Playback device 201 Speaker 202 Display 21 Second acoustic database 22 Acoustic tag receiver 23 Environmental sound reproduction unit 24 Video reproduction unit

Claims (11)

複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置において、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ及び到来方向を、再生装置へ送信する音響タグ送信手段と
を有することを特徴とする収音装置。
In a sound collecting device that transmits an environmental sound signal collected by a plurality of microphones to a playback device that is reproduced by a plurality of speakers.
A first acoustic database that stores acoustic signals for each acoustic tag,
A sound source separation means that detects one or more acoustic signals inherent in the environmental sound signal from the environmental sound signal and estimates the arrival direction of each acoustic signal.
An acoustic tag estimation means for estimating an acoustic tag of an acoustic signal using the first acoustic database,
A sound collecting device comprising an acoustic tag transmitting means for transmitting an acoustic tag and an arrival direction to a reproduction device.
到来方法推定手段は、複数のマイクを用いたブライン音源分離方式又はビームフォーミングによって、音響信号の到来方向を推定する
ことを特徴とする請求項1に記載の収音装置。
The sound collecting device according to claim 1, wherein the arrival method estimation means estimates the arrival direction of an acoustic signal by a brine sound source separation method using a plurality of microphones or beamforming.
音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ送信手段は、環境センサから所定信号を受信した際に、当該環境センサの音響タグ及び到来方向を、再生装置へ送信する
ことを特徴とする請求項1又は2に記載の収音装置。
It is connected to the sound tag and the environment sensor associated with the direction of arrival.
The sound collecting device according to claim 1 or 2, wherein the sound tag transmitting means transmits the sound tag and the arrival direction of the environment sensor to the reproduction device when a predetermined signal is received from the environment sensor.
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響タグ送信手段は、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響信号における到来方向を送信する
ことを特徴とする請求項1から3のいずれか1項に記載の収音装置。
It is connected to the camera and
An image database that stores image objects associated with acoustic tags, and
It further has an image object detection engine that detects one or more image objects inherent in the image captured by the camera using an image database and identifies the acoustic tag of the image object.
The sound collecting device according to any one of claims 1 to 3, wherein the acoustic tag transmitting means transmits an arrival direction in an acoustic signal associated with an acoustic tag identified by an image object detection engine.
請求項1から4のいずれか1項に記載の収音装置と、複数のスピーカを搭載した再生装置とがネットワークを介して接続されたシステムにおいて、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
を有することを特徴とするシステム。
In a system in which the sound collecting device according to any one of claims 1 to 4 and a playback device equipped with a plurality of speakers are connected via a network.
The playback device is
A second acoustic database that stores acoustic signals for each acoustic tag,
An acoustic tag receiving means for receiving an acoustic tag and an arrival direction from a sound collecting device,
Using the second acoustic database, the acoustic signal associated with the acoustic tag is characterized by having an environmental sound reproducing means for outputting an environmental sound synthesized so as to be heard from the direction of arrival of the acoustic tag from a plurality of speakers. System.
収音装置における音響タグ送信手段は、音響タグ及び到来方向と共に、音響信号を更に送信し、
再生装置における環境音再生手段は、音響タグに紐付く音響信号に代えて、収音装置から受信した音響信号を再生する
ことを特徴とする請求項5に記載のシステム。
The acoustic tag transmitting means in the sound collecting device further transmits an acoustic signal together with the acoustic tag and the direction of arrival.
The system according to claim 5, wherein the environmental sound reproducing means in the reproducing device reproduces an acoustic signal received from the sound collecting device instead of the acoustic signal associated with the acoustic tag.
再生装置の第2の音響データベースに蓄積された音響タグ及び音響信号は、収音装置の第1の音響データベースに蓄積された音響タグ及び音響信号の一部又は全部であり、
再生装置の第2の音響データベースに蓄積された音響タグと、収音装置の第1の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響信号である
ことを特徴とする請求項5に記載のシステム。
The acoustic tag and the acoustic signal stored in the second acoustic database of the reproduction device are a part or all of the acoustic tag and the acoustic signal stored in the first acoustic database of the sound pickup device.
Even if the acoustic tag stored in the second acoustic database of the reproducing device and the acoustic tag stored in the first acoustic database of the sound collecting device are the same, the acoustic signal is based on a different acoustic signal. The system according to claim 5.
複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎のび到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ及び到来方向を、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させることを特徴とする収音装置のプログラム。
In a program that functions a computer installed in a sound collecting device that transmits an environmental sound signal picked up by multiple microphones to a playback device that is played back by multiple speakers.
A first acoustic database that stores acoustic signals for each acoustic tag,
A sound source separation means that detects one or more acoustic signals inherent in the environmental sound signal from the environmental sound signal and estimates the arrival direction of each acoustic signal.
An acoustic tag estimation means for estimating an acoustic tag of an acoustic signal using the first acoustic database,
A program of a sound collecting device, characterized in that a computer functions as an acoustic tag transmitting means for transmitting an acoustic tag and an arrival direction to a reproduction device.
請求項1から4のいずれか1項に記載の収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
してコンピュータを機能させることを特徴とする再生装置のプログラム。
In a program for receiving an acoustic tag and an arrival direction from the sound collecting device according to any one of claims 1 to 4 and operating a computer mounted on a playback device equipped with a plurality of speakers.
A second acoustic database that stores acoustic signals for each acoustic tag,
An acoustic tag receiving means for receiving an acoustic tag and an arrival direction from a sound collecting device,
Using the second acoustic database, the computer functions as an environmental sound reproduction means for outputting the environmental sound synthesized so that the acoustic signal associated with the acoustic tag can be heard from the direction of arrival of the acoustic tag from a plurality of speakers. A program of a playback device characterized by.
複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置の収音方法において、
収音装置は、
音響タグ毎に、音響信号を蓄積する第1の音響データベースを有し、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎のび到来方向を推定する第1のステップと、
第1の音響データベースを用いて、音響信号の音響タグを推定する第2のステップと、
音響タグ及び到来方向を、再生装置へ送信する第3のステップと
を実行することを特徴とする収音方法。
In the sound collecting method of a sound collecting device, which transmits an environmental sound signal picked up by a plurality of microphones to a playback device reproduced by a plurality of speakers.
The sound collecting device is
Each acoustic tag has a first acoustic database that stores acoustic signals.
From the environmental sound signal, the first step of detecting one or more acoustic signals inherent in the environmental sound signal and estimating the arrival direction of each acoustic signal, and
The second step of estimating the acoustic tag of the acoustic signal using the first acoustic database,
A sound collecting method comprising performing a third step of transmitting an acoustic tag and an arrival direction to a reproduction device.
請求項1から4のいずれか1項に記載の収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置の再生方法において、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースを有し、
収音装置から、音響タグ及び到来方向を受信する第1のステップと、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する第2のステップと
を実行することを特徴とする再生方法。

In a method for reproducing an acoustic tag and a reproduction device equipped with a plurality of speakers by receiving an acoustic tag and an arrival direction from the sound collecting device according to any one of claims 1 to 4.
The playback device is
Each acoustic tag has a second acoustic database that stores acoustic signals.
The first step of receiving the acoustic tag and the direction of arrival from the sound collector,
Using the second acoustic database, the second step of outputting the environmental sound synthesized so that the acoustic signal associated with the acoustic tag can be heard from the direction of arrival of the acoustic tag from the plurality of speakers is executed. Characteristic playback method.

JP2020101320A 2020-06-11 2020-06-11 Sound collection device, system, program, and method for transmitting environmental sound signals collected by multiple microphones to a playback device Active JP7403392B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020101320A JP7403392B2 (en) 2020-06-11 2020-06-11 Sound collection device, system, program, and method for transmitting environmental sound signals collected by multiple microphones to a playback device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020101320A JP7403392B2 (en) 2020-06-11 2020-06-11 Sound collection device, system, program, and method for transmitting environmental sound signals collected by multiple microphones to a playback device

Publications (2)

Publication Number Publication Date
JP2021196433A true JP2021196433A (en) 2021-12-27
JP7403392B2 JP7403392B2 (en) 2023-12-22

Family

ID=79197863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020101320A Active JP7403392B2 (en) 2020-06-11 2020-06-11 Sound collection device, system, program, and method for transmitting environmental sound signals collected by multiple microphones to a playback device

Country Status (1)

Country Link
JP (1) JP7403392B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177628A (en) * 1997-12-15 1999-07-02 Mitsubishi Electric Corp Three-dimension virtual space common share system for broad area environment
WO2017098772A1 (en) * 2015-12-11 2017-06-15 ソニー株式会社 Information processing device, information processing method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11177628A (en) * 1997-12-15 1999-07-02 Mitsubishi Electric Corp Three-dimension virtual space common share system for broad area environment
WO2017098772A1 (en) * 2015-12-11 2017-06-15 ソニー株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
JP7403392B2 (en) 2023-12-22

Similar Documents

Publication Publication Date Title
US11354092B2 (en) Noise classification for event detection
US10943619B2 (en) Enhancing audio using multiple recording devices
US10613823B2 (en) System and method for differentially locating and modifying audio sources
US10455325B2 (en) Direction of arrival estimation for multiple audio content streams
US11941968B2 (en) Systems and methods for identifying an acoustic source based on observed sound
US20200184991A1 (en) Sound class identification using a neural network
Schmalenstroeer et al. Online diarization of streaming audio-visual data for smart environments
CN108109617A (en) A kind of remote pickup method
US11915687B1 (en) Systems and methods for generating labeled data to facilitate configuration of network microphone devices
CN107124647A (en) A kind of panoramic video automatically generates the method and device of subtitle file when recording
JP2020144574A (en) Program, device, and method, for mixing sound objects in accordance with images
US20140328486A1 (en) Analyzing and transmitting environmental sounds
CN113228710A (en) Sound source separation in hearing devices and related methods
JP2021196433A (en) Sound pickup device, system, program, and method for transmitting environmental sound signal picked up by plurality of microphones to reproduction device
JP2021197591A (en) Reproduction device, system, program, and method for reproducing acoustic signal from predetermined arrival direction
JP7316974B2 (en) SOUND COLLECTION DEVICE, SYSTEM, PROGRAM AND METHOD THAT TRANSMITS ENVIRONMENTAL SOUND IN WHICH SPECIAL SOUND SIGNAL IS SUPPRESSED
Chaudhary et al. Automatic recording environment identification using acoustic features
Schmalenstroeer et al. Online speaker change detection by combining BIC with microphone array beamforming.
Bian et al. Sound source localization in domestic environment
Ye et al. Audio-visual underdetermined blind source separation algorithm based on Gaussian potential function
Kinoshita et al. Analysis on Roles of DNNs in End-to-End Acoustic Scene Analysis Framework with Distributed Sound-to-Light Conversion Devices
CN116453537B (en) Method and system for improving audio information transmission effect
US20240135944A1 (en) Controlling local rendering of remote environmental audio
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
CN116052707A (en) Single-channel blind source separation method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231031

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231212

R150 Certificate of patent or registration of utility model

Ref document number: 7403392

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150