JP4245575B2 - COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM - Google Patents

COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM Download PDF

Info

Publication number
JP4245575B2
JP4245575B2 JP2005053540A JP2005053540A JP4245575B2 JP 4245575 B2 JP4245575 B2 JP 4245575B2 JP 2005053540 A JP2005053540 A JP 2005053540A JP 2005053540 A JP2005053540 A JP 2005053540A JP 4245575 B2 JP4245575 B2 JP 4245575B2
Authority
JP
Japan
Prior art keywords
sound
unit
voice
communication
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005053540A
Other languages
Japanese (ja)
Other versions
JP2006238344A (en
Inventor
篤信 木村
義弘 島田
稔 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005053540A priority Critical patent/JP4245575B2/en
Publication of JP2006238344A publication Critical patent/JP2006238344A/en
Application granted granted Critical
Publication of JP4245575B2 publication Critical patent/JP4245575B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、遠隔の通信装置において、相手側の空間での音伝播の様子を可視化する方法に関する。   The present invention relates to a method for visualizing the state of sound propagation in a partner's space in a remote communication device.

音声を含む通信において音量は重要であり、ユーザが音量を容易に把握することができるように可視化する手法が用いられることがある。例えば、映像音声通信装置において、自分側の装置に入力する音量を可視化する手法として、ピークメータを用いる手法がある。   The volume of sound is important in communication including voice, and a method of visualizing the volume so that the user can easily grasp the volume may be used. For example, in a video / audio communication apparatus, there is a technique using a peak meter as a technique for visualizing the volume input to the apparatus on its own side.

しかし、遠隔の相手側の音声提示部から再生される音量を可視化する手法はなかった。そのため、従来の映像音声通信装置では、遠隔の相手側の音声提示部から再生される音量が未知であるために、コミュニケーションの成立が阻害されることがあった(非特許文献1参照)。
Fish, R. S., Kraut, R. E., and Chalfonete, B. L., : The Video Window System in Informal Communications, Proceedings of the ACM1990 Conference on Computer Supported Cooperative Work(CSCW90), ACM, pp.1−11(1990).
However, there was no method for visualizing the volume reproduced from the remote voice presentation unit. Therefore, in the conventional video / audio communication device, since the volume reproduced from the remote voice presentation unit is unknown, establishment of communication may be hindered (see Non-Patent Document 1).
Fish, R.A. S. Kraut, R .; E. , and Chalfonete, B .; L. The Video Window in Information Communications, Proceedings of the ACM 1990 Conference on Computer Supported Work, CSCW90. 1-11 (1990).

従来の手法では、自分の声が相手側の装置でどの程度の音量で再生され、相手にどの程度の音量で伝わっているのかわからず、自分が望んでいる音量、相手が望んでいる音量で相手と会話をすることが難しい。   With the conventional method, you can't know how loud your voice is played on the other party's device, and how much is transmitted to the other party. It is difficult to talk with the other party.

本発明の目的は、相手側への音声がどの程度の音量となっているのかを把握することのできる通信装置を提供することである。   The objective of this invention is providing the communication apparatus which can grasp | ascertain how much the audio | voice to the other party's sound volume is.

上記目的を達成するために、本発明の通信装置は、少なくとも音声を相互に送受信して通信を行う通信装置であって、相手側装置から受信した音声を再生したときの音量レベルを測定する提示音声集音部と、音声をユーザに提示する空間内での音声の伝播モデルを予め求めておき、前記相手側装置からの音声が再生されたとき、前記提示音声集音部で測定された音量レベルと前記伝播モデルとから、前記相手側装置からの前記音声の前記空間内での伝播状態を算出し、該伝播状態の情報を前記相手側装置に送信する伝播状態情報生成部とを有している。   In order to achieve the above object, the communication device of the present invention is a communication device that performs communication by transmitting and receiving at least audio to and from each other, and presents a volume level measurement when reproducing the audio received from the counterpart device A sound collection unit and a sound volume measured by the presentation sound collection unit when a sound propagation model in a space where the sound is presented to the user is obtained in advance and the sound from the counterpart device is reproduced. A propagation state information generating unit that calculates a propagation state of the voice from the counterpart device in the space from the level and the propagation model, and transmits information of the propagation state to the counterpart device; ing.

本発明によれば、受話側の通信装置が予め音の伝播モデルを求めておき、通信時、その伝播モデルを用いて送話側の通信装置からの音声の伝播状態を求め、それを送話側の通信装置に送るので、送話側の通信装置のユーザは、自分の発した音声が、受話側の通信装置のユーザの周囲の空間にどのように提示されているかを把握することができる。   According to the present invention, the communication device on the receiving side obtains a sound propagation model in advance, and at the time of communication, the propagation state of the sound from the communication device on the transmitting side is obtained using the propagation model, and this is transmitted. The user of the transmitting communication device can grasp how the voice he / she is presenting in the space around the user of the receiving communication device. .

また、音声に加えて前記空間内の映像が相互に送受信されており、前記伝播状態情報生成部は、前記伝播状態の情報を前記空間内の映像にエフェクトとして付加して前記相手側装置に送信することとしてもよい。   In addition to audio, video in the space is mutually transmitted and received, and the propagation state information generation unit adds the information on the propagation state as an effect to the video in the space and transmits it to the counterpart device. It is good to do.

これによれば、受話側の通信装置が送話側の通信装置20からの音声の伝播状態をエフェクトとして映像に付加して送話側の通信装置に送るので、送話側の通信装置のユーザは、自分の発した音声が、受話側の通信装置のユーザの周囲の空間にどのように提示されているかを視覚的に把握することができる。   According to this, since the communication device on the receiving side adds the sound propagation state from the communication device 20 on the transmitting side to the video as an effect and sends it to the communication device on the transmitting side, the user of the communication device on the transmitting side Can visually grasp how the voice uttered by the user is presented in the space around the user of the communication device on the receiving side.

また、所定のテスト音が発生されたときの、前記空間内の複数箇所の音量レベルを測定する音場測定部をさらに有し、前記伝播状態情報生成部は、前記音場測定部で測定された複数の音量レベルを用いて前記伝播モデルを算出することとしてもよい。   And a sound field measuring unit that measures sound volume levels at a plurality of locations in the space when a predetermined test sound is generated, and the propagation state information generating unit is measured by the sound field measuring unit. The propagation model may be calculated using a plurality of volume levels.

これによれば、音場測定部の複数箇所の音量レベルにより伝播モデルを算出することができ、実際の音声の伝播状態の推定が可能である。   According to this, a propagation model can be calculated from the sound volume levels at a plurality of locations in the sound field measuring unit, and an actual sound propagation state can be estimated.

また、前記伝播モデルは、前記提示音声集音部で測定される音量レベルと前記空間内の任意点の音量レベルとの関係を示すn次近似関数であり、前記音場測定部は、前記n次近似関数の次数に応じた数の箇所の音量レベルを測定することとしてもよい。   The propagation model is an nth-order approximation function indicating a relationship between a volume level measured by the presentation sound collection unit and a volume level at an arbitrary point in the space, and the sound field measurement unit It is good also as measuring the volume level of the place of the number according to the order of the next approximation function.

これによれば、空間内にて複雑な伝播状態を示すような場合にも、必要に応じて高次数の伝播モデルを利用することにより実際の伝播状態を高い精度で把握することができる。   According to this, even when a complicated propagation state is shown in the space, the actual propagation state can be grasped with high accuracy by using a high-order propagation model as necessary.

また、前記相手側装置から受信した音声について、該相手側装置での波形と前記提示音声集音部での波形が一致するか否かを判定する波形一致判定部をさらに有し、前記伝播状態情報生成部は、前記波形一致判定部にて一致と判定された期間について、前記伝播状態の情報を前記相手側装置に送信することとしてもよい。   In addition, for the voice received from the counterpart device, it further includes a waveform match determination unit that determines whether the waveform at the counterpart device matches the waveform at the presentation voice collection unit, and the propagation state An information generation part is good also as transmitting the information of the said propagation state to the said other party apparatus about the period determined to be the coincidence in the said waveform coincidence determination part.

これによれば、受話側の通信装置は、送話側波形と受話側波形との一致を判定し、それらが一致したときに伝播状態の情報を送信するので、受話側の通信装置の周囲に大きな騒音が発生する場合にも、騒音の影響を除去し、送話側の通信装置から送った音声の伝播状態を送話側の通信装置のユーザに把握させることができる。   According to this, the communication device on the receiving side determines the match between the waveform on the transmitting side and the waveform on the receiving side, and transmits the propagation state information when they match, so that the communication device on the receiving side is surrounded by Even when a large amount of noise is generated, the influence of the noise can be removed, and the user of the transmitting communication device can be made aware of the propagation state of the voice transmitted from the transmitting communication device.

本発明によれば、受話側の通信装置が予め音の伝播モデルを求めておき、通信時、その伝播モデルを用いて送話側の通信装置からの音声の伝播状態を求め、それを送話側の通信装置に送るので、送話側の通信装置のユーザは、自分の発した音声が、受話側の通信装置のユーザの周囲の空間にどのように提示されているかを把握することができる。   According to the present invention, the communication device on the receiving side obtains a sound propagation model in advance, and at the time of communication, the propagation state of the sound from the communication device on the transmitting side is obtained using the propagation model, and this is transmitted. The user of the transmitting communication device can grasp how the voice he / she is presenting in the space around the user of the receiving communication device. .

本発明を実施するための形態について図面を参照して詳細に説明する。本実施形態では、双方向に映像および音声を送受信する通信システムを例示する。本実施形態の通信システムは、送話者から受話者に音声が送られるとき、受話者側での音量の情報を、送話者側に提示される受話者側の映像にエフェクトとして付加することにより、送話者に提示するものである。エフェクトとは、映像に対して付加される映像効果であり、例えば、映像に効果画像を重ね合わせて表示する(重畳)ものである。   Embodiments for carrying out the present invention will be described in detail with reference to the drawings. In this embodiment, a communication system that transmits and receives video and audio bidirectionally is illustrated. The communication system according to the present embodiment adds volume information on the receiver side as an effect to the video on the receiver side presented to the speaker side when sound is transmitted from the speaker to the receiver. Is presented to the sender. The effect is a video effect added to the video. For example, the effect is displayed by superimposing an effect image on the video (superimposition).

図1は、本実施形態による通信システムの概略構成を示すブロック図である。図1を参照すると、本実施形態の通信システムは、通信装置10と通信装置20が通信網30を介して相互に接続されている。ここでは2つの通信装置を有する構成を例示するが、本発明はこの構成に限定されるものではなく、通信装置が複数であればよい。   FIG. 1 is a block diagram showing a schematic configuration of a communication system according to the present embodiment. Referring to FIG. 1, in the communication system of the present embodiment, a communication device 10 and a communication device 20 are connected to each other via a communication network 30. Here, a configuration having two communication devices is illustrated, but the present invention is not limited to this configuration, and it is sufficient if there are a plurality of communication devices.

図2は、本実施形態による通信システムの各装置の構成および各部の配置を示す図である。図3は、本実施形態による通信装置の構成を示すブロック図である。通信装置10はユーザa109に使用され、通信装置20はユーザb110に使用されるものとする。また、ここではユーザa109とユーザb110の間の通信を想定する。   FIG. 2 is a diagram illustrating a configuration of each device and an arrangement of each unit of the communication system according to the present embodiment. FIG. 3 is a block diagram showing the configuration of the communication apparatus according to the present embodiment. The communication device 10 is used for the user a109, and the communication device 20 is used for the user b110. Here, communication between the user a109 and the user b110 is assumed.

図1および図2を参照すると、通信装置10、20は双方向の通信を可能にするために、同じ構成を有している。   Referring to FIGS. 1 and 2, the communication devices 10 and 20 have the same configuration in order to enable bidirectional communication.

通信装置10は、集音部101、音声提示部102、撮像部103、映像提示部104、提示音声集音部105、音場測定部106、およびエフェクト生成部108を有している。音場測定部106には、音声提示部102および映像提示部104の前に配置された複数のマイク入力部107が含まれている。   The communication device 10 includes a sound collection unit 101, a voice presentation unit 102, an imaging unit 103, a video presentation unit 104, a presentation voice sound collection unit 105, a sound field measurement unit 106, and an effect generation unit 108. The sound field measurement unit 106 includes a plurality of microphone input units 107 arranged in front of the audio presentation unit 102 and the video presentation unit 104.

同様に、通信装置20は、集音部201、音声提示部202、撮像部203、映像提示部204、提示音声集音部205、音場測定部206、およびエフェクト生成部208を有している。音場測定部206には複数のマイク入力部207が含まれている。集音部201、音声提示部202、撮像部203、映像提示部204、提示音声集音部205、音場測定部206、エフェクト生成部208の各々は、通信装置10における集音部101、音声提示部102、撮像部103、映像提示部104、提示音声集音部105、音場測定部106、エフェクト生成部108と同じものである。ここでは、通信装置10について説明する。   Similarly, the communication device 20 includes a sound collection unit 201, a sound presentation unit 202, an imaging unit 203, a video presentation unit 204, a presentation sound collection unit 205, a sound field measurement unit 206, and an effect generation unit 208. . The sound field measurement unit 206 includes a plurality of microphone input units 207. The sound collecting unit 201, the sound presenting unit 202, the image capturing unit 203, the video presenting unit 204, the presented sound collecting unit 205, the sound field measuring unit 206, and the effect generating unit 208 are the sound collecting unit 101 and sound in the communication device 10. This is the same as the presentation unit 102, the imaging unit 103, the video presentation unit 104, the presentation sound collection unit 105, the sound field measurement unit 106, and the effect generation unit 108. Here, the communication device 10 will be described.

集音部101は、ユーザa109の発話を集音し、音声を相手側の通信装置20に送る。   The sound collecting unit 101 collects the utterance of the user a 109 and sends the sound to the communication device 20 on the other side.

撮像部103は、ユーザa109の画像を撮影し、画像をエフェクト生成部108に送る。   The imaging unit 103 captures an image of the user a 109 and sends the image to the effect generation unit 108.

音声提示部102は、相手側の通信装置20から受信した音声を再生し、ユーザa109に提示する。   The voice presentation unit 102 plays back the voice received from the communication device 20 on the other side and presents it to the user a109.

映像提示部104は、相手側の通信装置20からの映像を再生し、ユーザa109に提示する。   The video presentation unit 104 plays back the video from the communication device 20 on the other side and presents it to the user a109.

提示音声集音部105は、音声提示部102の前に設置されており、音声提示部102による再生音の音量レベルを測定し、その音量レベルをエフェクト生成部108に通知する。   The presentation sound collection unit 105 is installed in front of the voice presentation unit 102, measures the volume level of the reproduced sound by the voice presentation unit 102, and notifies the effect generation unit 108 of the volume level.

音場測定部106は、撮像部103の画角内に平面的に配置した複数(本実施形態では10個)のマイク入力部107より構成されており、音声提示部102からの再生音の各マイク入力部107での音量レベルを測定し、その音量レベルをエフェクト生成部108に通知する。   The sound field measurement unit 106 includes a plurality of (10 in the present embodiment) microphone input units 107 arranged in a plane within the angle of view of the imaging unit 103, and each of the reproduced sounds from the audio presentation unit 102. The volume level at the microphone input unit 107 is measured, and the volume level is notified to the effect generation unit 108.

エフェクト生成部108は、本装置が通信に使用される前に、予め、音声提示部102から発せられる音の伝播状態を算出するための伝播モデルとなる空間伝播二次近似関数を算出しておく。空間伝播二次近似関数は、音声提示部102から所定のテスト音を発生させ、提示音声集音部105で得られる音量レベルと、音場測定部106で得られる音量レベルとに基づいて算出される。   The effect generation unit 108 calculates a spatial propagation quadratic approximation function that is a propagation model for calculating the propagation state of the sound emitted from the audio presentation unit 102 before the apparatus is used for communication. . The spatial propagation quadratic approximation function is calculated based on the sound volume level obtained by the sound collection unit 105 and the sound level obtained by the sound field measurement unit 106 by generating a predetermined test sound from the sound presentation unit 102. The

また、エフェクト生成部108は、本装置が通信に使用されるとき、音声提示部102で再生され、音声提示集音部105で測定される、相手側の通信装置20からの音声の音量レベルを、予め求めておいた空間伝播二次近似関数に代入し、空間の任意点での音量レベルを算出する。そして、エフェクト生成部108は、得られた空間内の音量レベルの情報をエフェクトとして、撮像部103で撮像された空間の映像に重畳して相手側の通信装置に送る。   Further, the effect generation unit 108 determines the volume level of the sound from the communication device 20 on the other side, which is reproduced by the voice presentation unit 102 and measured by the voice presentation sound collection unit 105 when the apparatus is used for communication. Then, the sound volume level at an arbitrary point in the space is calculated by substituting it into a spatial propagation quadratic approximation function obtained in advance. Then, the effect generation unit 108 superimposes the obtained volume level information in the space as an effect on the image of the space imaged by the imaging unit 103 and sends it to the communication device on the other side.

なお、撮像部103の設置位置および撮影方向は音場測定部106に対して固定されており、撮像部103による映像と音場測定部106の平面座標との対応関係は予め得られているものとしてもよい。また、撮像部103で撮像される映像と音場測定部106のマイク入力部107の配置などから、撮像された映像と音場測定部106の平面座標との対応関係を求めることとしてもよい。また、撮像部103の設置位置および撮影方向から、撮像された映像と音場測定部106の平面座標との対応関係を求めることとしてもよい。   Note that the installation position and shooting direction of the imaging unit 103 are fixed with respect to the sound field measuring unit 106, and the correspondence between the image by the imaging unit 103 and the plane coordinates of the sound field measuring unit 106 is obtained in advance. It is good. Alternatively, the correspondence between the captured image and the plane coordinates of the sound field measuring unit 106 may be obtained from the image captured by the image capturing unit 103 and the arrangement of the microphone input unit 107 of the sound field measuring unit 106. Further, the correspondence relationship between the captured image and the plane coordinates of the sound field measuring unit 106 may be obtained from the installation position and shooting direction of the imaging unit 103.

次に、空間伝播二次近似関数を算出する処理について説明する。   Next, processing for calculating a spatial propagation quadratic approximate function will be described.

図4は、本実施形態による通信装置の空間伝播二次近似関数算出処理を示すフローチャートである。ここでは音量の異なる複数のテスト音を用いるものとし、各テスト音を示す番号をmとする。   FIG. 4 is a flowchart showing a spatial propagation quadratic approximate function calculation process of the communication apparatus according to the present embodiment. Here, a plurality of test sounds having different volumes are used, and a number indicating each test sound is m.

空間伝播二次近似関数は、通信装置が通信に用いられる前に算出される。図4を参照すると、まず、本実施形態の通信装置は、音声提示部102より所定のテスト音を提示する(ステップA101)。その状態で、通信装置は、提示音声集音部105にてその音声を集音して音量レベルを測定するとともに(ステップA102)、音場測定部106の10個のマイク入力部107により、マイクの配置された位置(x,y)の音量レベル(V)を測定する(ステップA103)。   The spatial propagation quadratic approximation function is calculated before the communication device is used for communication. Referring to FIG. 4, first, the communication apparatus according to the present embodiment presents a predetermined test sound from the voice presentation unit 102 (step A101). In this state, the communication apparatus collects the voice by the presentation voice sound collection unit 105 and measures the volume level (step A102), and uses the ten microphone input units 107 of the sound field measurement unit 106 to set the microphone. The sound volume level (V) at the position (x, y) where is arranged is measured (step A103).

ここで用いるテスト音は、男性の発声時の平均基本周波数130Hz、あるいは女性の発声時の平均基本周波数245Hzのどちらかの音声であることが好ましい。また、このテスト音は、提示音声集音部105で測定される音量レベル(Wm)が人の発声時の主な音量帯である20、30、40、50、60、70、80dBのいずれかであることが好ましい。   The test sound used here is preferably a voice having either an average fundamental frequency of 130 Hz when a man speaks or an average fundamental frequency of 245 Hz when a woman speaks. In addition, this test sound is one of 20, 30, 40, 50, 60, 70, and 80 dB in which the volume level (Wm) measured by the presentation sound collecting unit 105 is a main volume range when a person speaks. It is preferable that

提示音声集音部105で測定されるテスト音(Wm)と、10個のマイク入力部107の座標位置(x,y)および音量レベル(V)の測定値とを式(1)に代入し、各係数(a,b,c)を求める(ステップA104)。音量(V)には、複数のテスト音により各周波数(130Hz、245Hz)に対して得られた音量の平均値を用いれば良い。   The test sound (Wm) measured by the presentation sound collection unit 105 and the measured values of the coordinate positions (x, y) and volume levels (V) of the ten microphone input units 107 are substituted into the equation (1). Each coefficient (a, b, c) is obtained (step A104). As the volume (V), an average value of volumes obtained for each frequency (130 Hz, 245 Hz) by a plurality of test sounds may be used.

Figure 0004245575
次に、通信装置は、得られた各係数に基づき、提示音声集音部105での音量レベルがWであるときの空間内の任意点(x,y)での音の伝播状態を近似する二次関数を式(2)として求める(ステップA105)。音の伝播状態は、音がどの領域に有効に到達するかを示すものである。例えば、平常時のノイズがある環境において、有意な音声が人間の聴覚により認識可能な程度で到達するか否かを基準とすることとしてもよい。
Figure 0004245575
Next, the communication apparatus approximates the sound propagation state at an arbitrary point (x, y) in the space when the volume level in the presentation sound collection unit 105 is W based on the obtained coefficients. A quadratic function is obtained as equation (2) (step A105). The sound propagation state indicates which region the sound effectively reaches. For example, in an environment where there is a normal noise, it may be based on whether or not a significant voice reaches a level that can be recognized by human hearing.

Figure 0004245575
なお、ここで通信装置10(ユーザa109側)における空間伝播二次近似関数の算出には通信装置20(ユーザb110)における集音部201での入力の音量レベルでなく、通信装置10の提示音声集音部105における音量レベルを用いている。これは、通信装置の使用に際し、通信装置20における集音部201のゲインなどのセッティングや、通信装置10における音声提示部102のボリュームなどのセッティングがユーザにより自由に変更される可能性があり、セッティングが変更された場合にも空間伝播二次近似関数が影響を受けないようにしておくためである。
Figure 0004245575
Here, the calculation of the spatial propagation quadratic approximation function in the communication device 10 (user a 109 side) is not the input sound volume level in the sound collection unit 201 in the communication device 20 (user b110), but the voice presented by the communication device 10. The volume level in the sound collection unit 105 is used. This is because the user may freely change settings such as the gain of the sound collection unit 201 in the communication device 20 and the volume of the voice presentation unit 102 in the communication device 10 when the communication device is used. This is to prevent the spatial propagation quadratic approximation function from being affected even when the setting is changed.

また、装置利用前に、音場測定部106の各マイク入力部107により装置を設置する環境の定常ノイズレベル(Vavg)を測定しておくこととしてもよい。この定常ノイズレベルの値は、提示音声集音部102の音量レベルからユーザb110の発話の有無を判定するのに用いることができる。   Moreover, it is good also as measuring the stationary noise level (Vavg) of the environment which installs an apparatus with each microphone input part 107 of the sound field measurement part 106 before using an apparatus. The value of the steady noise level can be used to determine the presence / absence of the utterance of the user b110 from the volume level of the presentation sound collection unit 102.

マイク入力部107で測定される音量レベル(V)が定常ノイズレベル(Vavg)より大きいとき、そのマイク入力部107で測定される音声が音声提示部102からの再生音であると考えられる。例えば、再生音が検出されていることを、エフェクト401を映像に重畳させる条件としてもよい。   When the volume level (V) measured by the microphone input unit 107 is larger than the stationary noise level (Vavg), it is considered that the sound measured by the microphone input unit 107 is a reproduced sound from the voice presentation unit 102. For example, the detection of the playback sound may be a condition for superimposing the effect 401 on the video.

また、本実施形態では、本装置を通信に利用するとき、音場測定部106でリアルタイムに測定される音量レベルからではなく、予め求めておいた空間二次近時関数と提示音声集音部105で得られたリアルタイムの音量とから任意点(x,y)での音量を求めている。そのため、音場測定部106は、空間二次近似関数を算出するときに必要とされるだけで、その後は必ずしも必要ではない。音場測定部106のマイク入力部107は、ユーザb110の発話以外の音声を集音する可能性もあるので、例えば、空間二次近似関数を求める処理が終了したら、音場測定部106を撤去することとしてもよい。   Further, in the present embodiment, when the apparatus is used for communication, the spatial second-order function and the presentation voice collecting unit that are obtained in advance, not from the volume level measured in real time by the sound field measuring unit 106. The volume at an arbitrary point (x, y) is obtained from the real-time volume obtained at 105. Therefore, the sound field measurement unit 106 is only required when calculating the spatial quadratic approximation function, and is not always necessary thereafter. Since the microphone input unit 107 of the sound field measurement unit 106 may collect sound other than the speech of the user b110, for example, when the process for obtaining the spatial quadratic approximation function is completed, the sound field measurement unit 106 is removed. It is good to do.

次に、エフェクト生成部108によるエフェクト重畳処理について説明する。   Next, effect superimposition processing by the effect generation unit 108 will be described.

図5は、本実施形態による通信装置のエフェクト重畳処理を示すフローチャートである。図5を参照すると、通信装置10と通信装置20の通信時、まず、通信装置20の集音部201にユーザb110の音声が入力されると(ステップB101)、通信装置10の音声提示部102はその音声を再生し、ユーザa109に提示する(ステップB102)。音声提示部102により再生された音声の音量レベルを提示音声集音部105が測定し(ステップB103)、エフェクト生成部108が式(2)の空間伝播二次近似関数を用いて任意点の音量レベル(V)を算出する(ステップB104)。   FIG. 5 is a flowchart showing the effect superimposing process of the communication device according to the present embodiment. Referring to FIG. 5, during communication between the communication device 10 and the communication device 20, first, when the voice of the user b 110 is input to the sound collection unit 201 of the communication device 20 (step B <b> 101), the voice presentation unit 102 of the communication device 10. Plays the voice and presents it to the user a109 (step B102). The presentation sound collection unit 105 measures the volume level of the voice reproduced by the voice presentation unit 102 (step B103), and the effect generation unit 108 uses the spatial propagation quadratic approximation function of Equation (2) to set the volume at any point. The level (V) is calculated (step B104).

一方、それと並行して、通信装置10の撮像部103では映像が取得される(ステップC101)。そして、エフェクト生成部108では、取得された映像と音場測定部106の平面座標との対応関係を求め、座標系を一致させる(ステップC102)。さらに、エフェクト生成部108は、式(2)においてV=Vavg(定常ノイズレベル)、W=W+5(Wの初期値は0であるとする)を満たす領域を求め、その領域の境界を識別するエフェクト401の1つの波を作成する(ステップC103)。エフェクト401は、所定の座標の領域を他の領域と識別可能にする画像効果をいい、ここでは一例として曲線で示された波により識別するものとする。   On the other hand, in parallel with this, an image is acquired by the imaging unit 103 of the communication device 10 (step C101). Then, the effect generation unit 108 obtains the correspondence between the acquired image and the plane coordinates of the sound field measurement unit 106, and matches the coordinate systems (step C102). Further, the effect generation unit 108 obtains a region satisfying V = Vavg (steady noise level) and W = W + 5 (assuming that the initial value of W is 0) in the expression (2), and identifies the boundary of the region. One wave of the effect 401 is created (step C103). The effect 401 refers to an image effect that makes it possible to distinguish a region of a predetermined coordinate from other regions. Here, as an example, the effect 401 is identified by a wave indicated by a curve.

次に、任意点での音量レベル(V)が定常ノイズレベル(Vavg)より大きいか否か判定し、大きくなければ透明度を0としエフェクト401を映像に重畳し(ステップD102)、大きければ透明度を100としてエフェクト401を映像に重畳する(ステップD103)。ここでは透明度0は透明であることを示し、透明度100は不透明であることを示すものとする。したがって、音声レベルが定常ノイズレベルより大きければ、音声がそこまで伝播するものとして不透明の曲線のエフェクト401を提示する。一方、音声レベルが定常ノイズレベルより大きくなければ、音声がそこまで伝播しないものとしてエフェクト401の曲線を透明にする。エフェクト401の重畳された映像は通信装置20に送られ、通信装置20の映像提示部203にて再生され、ユーザb110に提示される(ステップD104)。   Next, it is determined whether or not the volume level (V) at an arbitrary point is greater than the steady noise level (Vavg). If not, the transparency is set to 0 and the effect 401 is superimposed on the video (step D102). The effect 401 is superimposed on the video as 100 (step D103). Here, transparency 0 indicates that it is transparent, and transparency 100 indicates that it is opaque. Therefore, if the sound level is higher than the steady noise level, the effect 401 of an opaque curve is presented as the sound propagates there. On the other hand, if the sound level is not higher than the steady noise level, the curve of the effect 401 is made transparent so that the sound does not propagate so far. The video on which the effect 401 is superimposed is sent to the communication device 20, is played back by the video presentation unit 203 of the communication device 20, and is presented to the user b110 (step D104).

図6は、本実施形態における、通信装置10における音場測定部106の平面の座標軸と、通信装置20の映像提示部204に提示される映像の座標軸との対応の一例を示す図である。図7は、通信装置10における音場測定部106の平面の座標軸と対応付けられた、通信装置20の映像提示部204にて提示される映像の一例を示す図である。   FIG. 6 is a diagram illustrating an example of correspondence between the coordinate axes of the plane of the sound field measurement unit 106 in the communication device 10 and the coordinate axes of the video presented to the video presentation unit 204 of the communication device 20 in the present embodiment. FIG. 7 is a diagram illustrating an example of an image presented by the image presentation unit 204 of the communication device 20 that is associated with the plane coordinate axis of the sound field measurement unit 106 in the communication device 10.

図6および図7を参照すると、撮像部103の設置位置および撮像方向が固定されており、音場測定部106の各マイク入力部107が平面状に設置されている。撮像部103で撮像される映像から、画像認識により、平面状に設置されたマイク入力部107のうち、座標が既知な3つのマイク入力部107の位置を求め、撮像された映像の座標軸と音場測定部106の平面上の座標との対応付けを求める。これらの処理は、装置を通信に利用する前に予め行っておけばよい。これにより、通信装置20の映像提示部204にてユーザb110に提示される映像の座標と通信装置10の音場測定部106の座標を一致させることができる。エフェクト401を良好に重畳させることができる。   6 and 7, the installation position and the imaging direction of the imaging unit 103 are fixed, and each microphone input unit 107 of the sound field measuring unit 106 is installed in a planar shape. From the image captured by the image capturing unit 103, the positions of the three microphone input units 107 whose coordinates are known among the microphone input units 107 installed in a plane are obtained by image recognition, and the coordinate axes and sound of the captured image are obtained. The association with the coordinates on the plane of the field measurement unit 106 is obtained. These processes may be performed in advance before using the apparatus for communication. Thereby, the coordinates of the video presented to the user b110 by the video presentation unit 204 of the communication device 20 and the coordinates of the sound field measurement unit 106 of the communication device 10 can be matched. The effect 401 can be satisfactorily superimposed.

図8は、映像提示部にてユーザに提示されるエフェクト401の重畳された映像の、音量が小さいときの一例を示す図である。図9は、映像提示部にてユーザに提示されるエフェクトの重畳された映像の、音量が大きいときの一例を示す図である。   FIG. 8 is a diagram illustrating an example when the volume of the video on which the effect 401 presented to the user in the video presentation unit is superimposed is low. FIG. 9 is a diagram illustrating an example when the volume of the video on which the effect presented to the user is superimposed by the video presenting unit is high.

空間伝播二次近似関数を求めるときには、音声提示部102で複数のテスト音を発生させる。ここでは、テスト音は、提示音声集音部105で集音する音量レベルが0dBから、5dB間隔の音量レベル(Wm)となるような5段階の音量とする。   When obtaining the spatial propagation quadratic approximate function, the voice presentation unit 102 generates a plurality of test sounds. Here, the test sound is assumed to have five levels of sound volume at which the sound volume level collected by the presentation sound sound collecting unit 105 is from 0 dB to 5 dB intervals (Wm).

そして、エフェクト生成部108は、各テスト音について、各マイク入力部107で得られる音量から、音量レベル(V)が定常ノイズレベル(Vavg)を超えると推定される領域を求め、その領域に対応する映像提示部204で提示される映像領域を求める。
これを5段階の音量について行うことにより5つの領域(領域a501、領域b502、領域c503、領域d504、領域e505が得られる。
Then, for each test sound, the effect generation unit 108 obtains an area where the volume level (V) is estimated to exceed the steady noise level (Vavg) from the volume obtained by each microphone input unit 107, and corresponds to that area. The video area presented by the video presentation unit 204 is obtained.
By performing this for five levels of volume, five regions (region a501, region b502, region c503, region d504, and region e505 are obtained.

各音量レベルについて得られた領域は、その音量レベルの音声が再生されたときの音の伝播範囲とみなすことができる。そして、各領域の境界にエフェクト401の曲線を描くことにより、エフェクト401は波紋の形状になり、通信装置20の映像提示部
204では、通信装置10の音声提示部102から波紋が発生しているように見える。
The region obtained for each volume level can be regarded as the sound propagation range when the sound of that volume level is reproduced. Then, by drawing the curve of the effect 401 at the boundary of each region, the effect 401 has a ripple shape, and the video presentation unit 204 of the communication device 20 generates a ripple from the voice presentation unit 102 of the communication device 10. looks like.

これらの曲線を含むエフェクト401は、常に映像とともに映像提示部に204に提示可能なように、撮像部103で撮影された映像に予め重畳されている。そして、初期状態では、このエフェクト401の透明度設定は0にされており、エフェクト401は透明に描画されている。   The effect 401 including these curves is preliminarily superimposed on the video imaged by the imaging unit 103 so that it can always be presented to the video presentation unit 204 together with the video image. In the initial state, the transparency of the effect 401 is set to 0, and the effect 401 is drawn transparently.

通信装置20にてユーザb110が発話すると、通信装置10の提示音声集音部102における音量レベルに応じて、通信装置20の映像提示部204では、音の伝播範囲内のエフェクト401の波紋の透明度が100にされる。   When the user b110 speaks in the communication device 20, the video presentation unit 204 of the communication device 20 causes the ripples of the effect 401 within the sound propagation range to be transparent according to the volume level in the presentation sound collection unit 102 of the communication device 10. Is set to 100.

ユーザa109側の音声提示部102での音量レベルが小さければ、エフェクト401はあまり広がらずエフェクト401を形成する波の数は少なくなる(図8参照)。ユーザa109側の音声提示部102での音量レベルが大きければ、エフェクト401は大きく広がりエフェクト401を形成する波の数が多くなる(図9参照)。   If the volume level at the voice presentation unit 102 on the user a 109 side is small, the effect 401 does not spread so much and the number of waves forming the effect 401 decreases (see FIG. 8). If the volume level at the voice presentation unit 102 on the user a 109 side is high, the effect 401 spreads greatly and the number of waves forming the effect 401 increases (see FIG. 9).

以上説明したように、本実施形態によれば、予め受話側の通信装置10が音の空間伝播近似二次関数を求めておき、通信時、受話側の通信装置10が空間伝播近似二次関数を用いて送話側の通信装置20からの音声の伝播状態を求め、それをエフェクトとして、受話側の通信装置10の映像に重畳して送話側の通信装置20に送るので、通信装置20のユーザb110は、自分の発した音声が、通信装置10のユーザa109の周囲の空間にどのように提示されているかを視覚的に把握することができる。   As described above, according to the present embodiment, the communication device 10 on the reception side obtains a spatial propagation approximate quadratic function of sound in advance, and the communication device 10 on the reception side receives the spatial propagation approximation quadratic function during communication. Is used to determine the propagation state of the voice from the communication device 20 on the transmission side, and the result is superimposed on the video of the communication device 10 on the reception side and sent to the communication device 20 on the transmission side as an effect. The user b110 can visually grasp how the voice he / she uttered is presented in the space around the user a109 of the communication device 10.

なお、本実施形態では、空間内の複数箇所に設置したマイク入力部107により測定した音量レベルから得られた空間伝播二次近似関数を算出することにより、空間内での実際の音声の伝播状態を推定可能である。しかし、本発明は、空間伝播関数を二次関数として近似する構成に限定されるものではない。音場測定部106のマイク入力部107の数を増やすことによって、音の空間伝播関数算出時に、高次数の関数を算出することが可能となる。複雑な音の伝播を表現できる高次数の関数によって、より精度の高い音の伝播の推定が可能となる。空間内の音声の伝播が音声提示部102で再生される音量から単純に推定できないような複雑な伝播状態を示すような場合にも、必要に応じて高次数の伝播モデルを利用することにより実際の伝播状態を高い精度で把握することができる。   In the present embodiment, the actual sound propagation state in the space is calculated by calculating the spatial propagation quadratic approximation function obtained from the volume level measured by the microphone input units 107 installed in a plurality of places in the space. Can be estimated. However, the present invention is not limited to a configuration that approximates a spatial propagation function as a quadratic function. By increasing the number of microphone input units 107 of the sound field measuring unit 106, it is possible to calculate a high-order function when calculating the spatial propagation function of sound. High-order functions that can represent complex sound propagation enable more accurate sound propagation estimation. Even when the propagation of sound in the space shows a complicated propagation state that cannot be simply estimated from the volume reproduced by the speech presentation unit 102, it is actually possible to use a high-order propagation model as necessary. Can be grasped with high accuracy.

また、本実施形態では、映像上の音声の伝播状態を複数の曲線からなるエフェクト401として重畳する例を示したが、本発明はこれに限定されるものではない。受話側の音声の伝播状態を送話側にフィードバックするものであれば、どのような手段によってもよい。例えば、音声の伝播状態を、色の変化など他の態様のエフェクトとして映像上にマッピングし、フィードバックすることとしてもよい。また、音声の伝播状態をフィードバックする手段は映像によるものに限定されるものでもない。   In the present embodiment, an example in which the sound propagation state on the video is superimposed as the effect 401 composed of a plurality of curves has been shown, but the present invention is not limited to this. Any means may be used as long as the propagation state of the voice on the receiver side is fed back to the transmitter side. For example, the sound propagation state may be mapped on the video as another effect such as a color change and fed back. Also, the means for feeding back the sound propagation state is not limited to that by video.

また、本実施形態は、双方向の映像および音声を送受信する通信システムを例示したが、本発明はこれに限定されるものではない。少なくとも音声を送受信するものであれば、必ずしも映像の送受信は必要とされない。音声通信の場合、映像以外の手段により音声の伝播状態をフィードバックすればよく、例えば、音声の伝播状態のみを表示可能な簡易な表示装置があればよい。   Moreover, although this embodiment illustrated the communication system which transmits / receives a bidirectional | two-way image | video and audio | voice, this invention is not limited to this. Video transmission / reception is not necessarily required as long as audio transmission / reception is possible. In the case of voice communication, it is only necessary to feed back the voice propagation state by means other than video. For example, a simple display device that can display only the voice propagation state may be used.

また、本実施形態では、提示音声集音部105は、音声提示部102で再生された音声の音量レベルを測定することとしたが、本発明はこれに限定されるものではない。提示音声集音部105は音声提示部102のスピーカ(不図示)への入力信号のレベルを音量レベルとして測定することとし、伝播モデルの算出および実際の伝播状態の算出においてその入力信号レベルを用いることとしてもよい。   Moreover, in this embodiment, although the presentation audio | voice sound collection part 105 measured the volume level of the audio | voice reproduced | regenerated by the audio | voice presentation part 102, this invention is not limited to this. The presented voice collecting unit 105 measures the level of the input signal to the speaker (not shown) of the voice presenting unit 102 as the volume level, and uses the input signal level in the calculation of the propagation model and the actual propagation state. It is good as well.

次に、本発明の他の実施形態について説明する。   Next, another embodiment of the present invention will be described.

図10は、他の実施形態による通信装置の構成を示すブロック図である。   FIG. 10 is a block diagram illustrating a configuration of a communication device according to another embodiment.

図10を参照すると、本実施形態の通信装置60は、集音部101、音声提示部102、撮像部103、映像提示部104、提示音声集音部105、音場測定部106、エフェクト生成部108、および波形一致判定部601を有している。   Referring to FIG. 10, the communication device 60 according to the present embodiment includes a sound collection unit 101, a sound presentation unit 102, an imaging unit 103, a video presentation unit 104, a presentation sound collection unit 105, a sound field measurement unit 106, and an effect generation unit. 108 and a waveform match determination unit 601.

図10には、ユーザa109の使用する通信装置のみが示されているが、これと通信するユーザb110の使用する通信装置も同様の構成である。不図示であるが、ユーザb110の使用する通信装置70は、通信装置60の各部に対応する、集音部201、音声提示部202、撮像部203、映像提示部204、提示音声集音部205、音場測定部206、エフェクト生成部208、および波形一致判定部701を有しているものとする。   FIG. 10 shows only the communication device used by the user a109, but the communication device used by the user b110 communicating with the user a109 has the same configuration. Although not shown, the communication device 70 used by the user b110 includes a sound collection unit 201, a voice presentation unit 202, an imaging unit 203, a video presentation unit 204, and a presentation voice sound collection unit 205 corresponding to each unit of the communication device 60. Assume that a sound field measurement unit 206, an effect generation unit 208, and a waveform match determination unit 701 are included.

図10における集音部101、音声提示部102、撮像部103、映像提示部104、提示音声集音部105、音場測定部106は図3に示したものと同じものである。   The sound collecting unit 101, the sound presenting unit 102, the imaging unit 103, the video presenting unit 104, the presented sound collecting unit 105, and the sound field measuring unit 106 in FIG. 10 are the same as those shown in FIG.

波形一致判定部601は、送話側波形と受話側波形が一致するか否かの判定を行う。   The waveform coincidence determination unit 601 determines whether or not the transmission side waveform and the reception side waveform match.

ユーザb110が発話すると、その音声が通信装置70の集音部201で集音される。このときの集音部201での音量レベルを時系列で取得した波形を送話側波形1101とする。なお、送話側波形1101は、ユーザb110の使用する通信装置70で測定された波形であるが、この波形をユーザa109の使用する通信装置60に通知することとすればよい。また、通信装置10側で音声提示部102にて再生する音声データから送話側波形1101を求めることとしてもよい。   When the user b110 speaks, the sound is collected by the sound collection unit 201 of the communication device 70. A waveform obtained by chronologically acquiring the volume level at the sound collecting unit 201 at this time is defined as a transmission side waveform 1101. Note that the transmission side waveform 1101 is a waveform measured by the communication device 70 used by the user b110, and this waveform may be notified to the communication device 60 used by the user a109. Alternatively, the transmission-side waveform 1101 may be obtained from voice data reproduced by the voice presentation unit 102 on the communication device 10 side.

一方、通信装置60における提示音声集音部105での音量レベルを時系列で取得した波形を受話側波形1102とする。   On the other hand, a waveform obtained by chronologically obtaining the volume level in the presentation sound collection unit 105 in the communication device 60 is defined as a reception-side waveform 1102.

送話側波形1101は、ユーザb110が発話し、集音部201で音量レベルが変化したときに取得が開始され、集音部201で1秒間の無音時間帯が計測された時点で取得が終了する。その間の時間が入力時間(T)とされる。   The transmission side waveform 1101 is acquired when the user b110 speaks and the volume level is changed by the sound collection unit 201, and is acquired when the sound collection unit 201 measures a one-second silence period. To do. The time between them is the input time (T).

受話側波形1102は、ユーザa109側の通信装置60の音声提示部102で音声が再生されるとき、取得が開始され、ユーザb110側の通信装置70の集音部201で測定された入力時間(T)が経過すると、取得が終了する。   The reception-side waveform 1102 starts to be acquired when voice is reproduced by the voice presentation unit 102 of the communication device 60 on the user a 109 side, and the input time (measured by the sound collection unit 201 of the communication device 70 on the user b 110 side). When T) elapses, acquisition ends.

提示音声集音部105での集音には、音声提示部102での再生に対して遅延があり、入力時間(T)で波形の取得を終了することで、必要な音声波形を逃すことが考えられるが、ユーザb110側の集音部201の開始から終了までの時間には、1秒間の無音時間帯が含まれているため、ユーザb110の発話時の音声波形を逃すことはない。   The sound collection by the presentation sound collection unit 105 has a delay with respect to the reproduction by the sound presentation unit 102, and a necessary sound waveform can be missed by completing the waveform acquisition at the input time (T). Although it is conceivable, since the time from the start to the end of the sound collection unit 201 on the user b110 side includes a one-second silent period, the voice waveform at the time when the user b110 speaks is not missed.

波形一致判定部601は、切り出された送話側波形1101と受話側波形1102の一致を判定するため、一定の誤差範囲(ここでは3dB)で両波形の一致処理を行う。この一致処理では、2つの波形が一定誤差範囲内にあれば一致と判定する。一致していないと判定されれば、提示音声集音部105に入力された音は音声提示部102からの再生音以外の音であり、ユーザb110側の集音部201へ入力された音声ではないとみなされる。一方、2つの波形が一致していると判定されれば、音場測定部106のマイク入力部107に入力された音声であるとみなされる。   The waveform matching determination unit 601 performs matching processing of both waveforms within a certain error range (here, 3 dB) in order to determine the match between the cut-out transmitting-side waveform 1101 and the receiving-side waveform 1102. In this matching process, if the two waveforms are within a certain error range, it is determined that they match. If it is determined that they do not match, the sound input to the presentation sound collection unit 105 is a sound other than the reproduction sound from the sound presentation unit 102, and the sound input to the sound collection unit 201 on the user b 110 side It is considered not. On the other hand, if it is determined that the two waveforms match, it is considered that the sound is input to the microphone input unit 107 of the sound field measurement unit 106.

この判定結果は、波形一致判定部601からエフェクト生成部108に通知される。エフェクト生成部108は、波形が一致しないと通知された場合、エフェクト401の透明度を0に設定する。   This determination result is notified from the waveform match determination unit 601 to the effect generation unit 108. The effect generation unit 108 sets the transparency of the effect 401 to 0 when notified that the waveforms do not match.

図11は、波形一致判定部による波形一致判定処理を示すフローチャートである。図11を参照すると、ユーザb110が通信装置70の集音部201に音声を入力すると(ステップE101)、通信装置70の集音部201にて集音が開始される(ステップE102)。ここで集音される波形が送話側波形1101となる。   FIG. 11 is a flowchart showing a waveform match determination process by the waveform match determination unit. Referring to FIG. 11, when the user b110 inputs a sound to the sound collection unit 201 of the communication device 70 (step E101), sound collection is started by the sound collection unit 201 of the communication device 70 (step E102). The waveform collected here becomes the transmission side waveform 1101.

その音声は通信装置70から通信装置60に送られる。そして、通信装置60の音声提示部102にて音声が再生され、ユーザa109に提示される(ステップE103)。音声提示部102で再生された音声は、提示音声集音部105にて集音される(ステップE104)。そこで、波形一致判定部601は、送話側波形と受話側波形の一致判定を開始する(ステップE105)。   The sound is transmitted from the communication device 70 to the communication device 60. Then, the voice is reproduced by the voice presentation unit 102 of the communication device 60 and presented to the user a 109 (step E103). The voice reproduced by the voice presentation unit 102 is collected by the presentation voice collection unit 105 (step E104). Therefore, the waveform match determination unit 601 starts the match determination between the transmission side waveform and the reception side waveform (step E105).

通信装置70の集音部201にて1秒間の無音状態が検出されると、その時点で入力時間(T)が算出される(ステップE106)。そして、一致判定の開始から時間Tが経過すると、通信装置60の波形一致判定部601による一致判定が終了する(ステップE107)。   When the sound collecting unit 201 of the communication device 70 detects a one-second silence state, the input time (T) is calculated at that time (step E106). When time T elapses from the start of the match determination, the match determination by the waveform match determination unit 601 of the communication device 60 ends (step E107).

次に、通信装置60の波形一致判定部601は、送話側波形と受話側波形の一致処理の結果、それらが一致しているか否か判定する(ステップE108)。送話側波形と受話側波形が一致していれば、そのまま処理が繰り返される。また、送話側波形と受話側波形が類似していなければ、エフェクト生成部108は、エフェクト401の透明度を0に設定する(ステップE109)。   Next, the waveform matching determination unit 601 of the communication device 60 determines whether or not the transmission side waveform and the reception side waveform match as a result of the matching process (step E108). If the transmitting side waveform and the receiving side waveform match, the process is repeated as it is. If the transmitting side waveform and the receiving side waveform are not similar, the effect generating unit 108 sets the transparency of the effect 401 to 0 (step E109).

図12は、送話側波形と受話側波形の関係を示す図である。図12を参照すると、送話側波形1101と受話側波形1102が示されている。送話側波形と受話側波形の間にはt(ms)の遅延があるが、送話側波形の(a)の部分と受話側波形の(b)の部分とは類似している。波形一致判定部601は、この部分を一致すると判定し、エフェクト生成部108は、この部分にてエフェクト401を提示する。一方、受話側波形の(c)の部分や(d)の部分に現れている波形は、送話側波形1101にはない。波形一致判定部601は、この部分で一致しないと判定し、エフェクト生成部108はこの部分のエフェクト401の透明度を0にし、エフェクト401を透明にする。   FIG. 12 is a diagram showing the relationship between the transmitting side waveform and the receiving side waveform. Referring to FIG. 12, a transmission side waveform 1101 and a reception side waveform 1102 are shown. Although there is a delay of t (ms) between the transmission side waveform and the reception side waveform, the portion (a) of the transmission side waveform is similar to the portion (b) of the reception side waveform. The waveform match determination unit 601 determines that this part matches, and the effect generation unit 108 presents the effect 401 in this part. On the other hand, the waveform appearing in the portion (c) or the portion (d) of the reception side waveform is not in the transmission side waveform 1101. The waveform match determination unit 601 determines that there is no match in this part, and the effect generation unit 108 sets the transparency of the effect 401 in this part to 0 and makes the effect 401 transparent.

以上説明したように本実施形態によれば、受話側の通信装置10は、送話側波形と受話側波形との一致を判定し、それらが一致したときに不透明なエフェクト401を重畳するので、受話側の通信装置10の周囲に音声提示部102以外に大きな騒音が発生する場合にも、騒音の影響を除去し、送話側の通信装置10から送った音声の伝播状態を送話側の通信装置10のユーザb110に把握させることができる。   As described above, according to the present embodiment, the communication device 10 on the reception side determines whether the transmission side waveform and the reception side waveform match, and when they match, the opaque effect 401 is superimposed. Even when a large noise is generated around the communication device 10 on the receiving side other than the voice presentation unit 102, the influence of the noise is removed, and the propagation state of the voice transmitted from the communication device 10 on the transmitting side is determined. The user b110 of the communication device 10 can grasp this.

なお、上述した各実施形態における通信装置は、ソフトウェアプログラムおよびそれを実行するコンピュータにより実現することができる。また、そのソフトウェアプログラムは記録媒体に記録することができ、あるいはネットワークを通じて提供することもできる。   Note that the communication device in each of the embodiments described above can be realized by a software program and a computer that executes the software program. The software program can be recorded on a recording medium, or can be provided through a network.

本実施形態による通信システムの概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the communication system by this embodiment. 本実施形態による通信システムの各装置の構成および各部の配置を示す図である。It is a figure which shows the structure of each apparatus of the communication system by this embodiment, and arrangement | positioning of each part. 本実施形態による通信装置の構成を示すブロック図である。It is a block diagram which shows the structure of the communication apparatus by this embodiment. 本実施形態による通信装置の空間伝播二次近似関数算出処理を示すフローチャートである。It is a flowchart which shows the space propagation quadratic approximation function calculation process of the communication apparatus by this embodiment. 本実施形態による通信装置のエフェクト重畳処理を示すフローチャートである。It is a flowchart which shows the effect superimposition process of the communication apparatus by this embodiment. 受話側の通信装置における音場測定部の平面の座標軸と、送話側の通信装置の映像提示部に提示される映像の座標軸との対応の一例を示す図である。It is a figure which shows an example of a response | compatibility with the coordinate axis of the plane of the sound field measurement part in the communication apparatus of a receiving side, and the coordinate axis of the image | video presented to the video presentation part of the communication apparatus of a transmission side. 受話側の通信装置における音場測定部の平面の座標軸と対応付けられた、送話側の通信装置の映像提示部にて提示される映像の一例を示す図である。It is a figure which shows an example of the image | video shown in the image | video presentation part of the communication apparatus of a transmission side matched with the coordinate axis of the plane of the sound field measurement part in the communication apparatus of a reception side. 映像提示部にてユーザに提示されるエフェクトの重畳された映像の、音量が小さいときの一例を示す図である。It is a figure which shows an example when the sound volume of the image | video with which the effect shown to a user is superimposed by the image | video presentation part is low. 映像提示部にてユーザに提示されるエフェクトの重畳された映像の、音量が大きいときの一例を示す図である。It is a figure which shows an example when the sound volume of the image | video on which the effect shown to a user is superimposed by the image | video presentation part is large. 他の実施形態による通信装置の構成を示すブロック図である。It is a block diagram which shows the structure of the communication apparatus by other embodiment. 波形一致判定部による波形一致判定処理を示すフローチャートである。It is a flowchart which shows the waveform matching determination process by a waveform matching determination part. 送話側波形と受話側波形の関係を示す図である。It is a figure which shows the relationship between a transmission side waveform and a receiving side waveform.

符号の説明Explanation of symbols

10、60 通信装置
101 集音部
102 音声提示部
103 撮像部
104 映像提示部
105 提示音声集音部
106 音場測定部
107 マイク入力部
108 エフェクト生成部
109 ユーザa
110 ユーザb
20、70 通信装置
201 集音部
202 音声提示部
203 撮像部
204 映像提示部
205 提示音声集音部
206 音場測定部
207 マイク入力部
208 エフェクト生成部208
30 通信網
401 エフェクト
501 領域a
502 領域b
503 領域c
504 領域d
505 領域e
61 波形一致判定部
1101 送話側波形
1102 受話側波形
A101〜A105、B101〜B104、C101〜C103、D101〜D1041、E101〜E109 ステップ
DESCRIPTION OF SYMBOLS 10, 60 Communication apparatus 101 Sound collection part 102 Audio | voice presentation part 103 Image pick-up part 104 Image | video presentation part 105 Presented sound collection part 106 Sound field measurement part 107 Microphone input part 108 Effect generation part 109 User a
110 User b
20, 70 Communication device 201 Sound collection unit 202 Audio presentation unit 203 Imaging unit 204 Video presentation unit 205 Presented sound collection unit 206 Sound field measurement unit 207 Microphone input unit 208 Effect generation unit 208
30 communication network 401 effect 501 area a
502 Region b
503 region c
504 area d
505 area e
61 Waveform coincidence determination unit 1101 Transmission side waveform 1102 Reception side waveform A101 to A105, B101 to B104, C101 to C103, D101 to D1041, E101 to E109 Step

Claims (10)

少なくとも音声を相互に送受信して通信を行う通信装置であって、
相手側装置から受信した音声を再生したときの音量レベルを測定する提示音声集音部と、
音声をユーザに提示する空間内での音声の伝播モデルを予め求めておき、前記相手側装置からの音声が再生されたとき、前記提示音声集音部で測定された音量レベルと前記伝播モデルとから、前記相手側装置からの前記音声の前記空間内での伝播状態を算出し、該伝播状態の情報を前記相手側装置に送信する伝播状態情報生成部とを有する通信装置。
A communication device that performs communication by transmitting and receiving at least voice to each other,
A presentation sound collector that measures the volume level when the sound received from the other device is played,
A voice propagation model in a space where the voice is presented to the user is obtained in advance, and when the voice from the counterpart device is reproduced, the volume level measured by the presentation voice collecting unit and the propagation model A propagation state information generating unit that calculates a propagation state of the voice from the counterpart device in the space and transmits information on the propagation state to the counterpart device.
音声に加えて前記空間内の映像が相互に送受信されており、
前記伝播状態情報生成部は、前記伝播状態の情報を前記空間内の映像にエフェクトとして付加して前記相手側装置に送信する、請求項1記載の通信装置。
In addition to audio, video in the space is sent and received mutually,
The communication apparatus according to claim 1, wherein the propagation state information generation unit adds the propagation state information to the video in the space as an effect and transmits the effect to the counterpart apparatus.
所定のテスト音が発生されたときの、前記空間内の複数箇所の音量レベルを測定する音場測定部をさらに有し、
前記伝播状態情報生成部は、前記音場測定部で測定された複数の音量レベルを用いて前記伝播モデルを算出する、請求項1または2に記載の通信装置。
A sound field measuring unit that measures sound volume levels at a plurality of locations in the space when a predetermined test sound is generated;
The communication apparatus according to claim 1, wherein the propagation state information generation unit calculates the propagation model using a plurality of volume levels measured by the sound field measurement unit.
前記伝播モデルは、前記提示音声集音部で測定される音量レベルと前記空間内の任意点の音量レベルとの関係を示すn次近似関数であり、
前記音場測定部は、前記n次近似関数の次数に応じた数の箇所の音量レベルを測定する、請求項3に記載の通信装置。
The propagation model is an nth-order approximation function indicating a relationship between a volume level measured by the presentation sound collection unit and a volume level at an arbitrary point in the space;
The communication apparatus according to claim 3, wherein the sound field measurement unit measures a volume level at a number corresponding to an order of the n-order approximation function.
前記相手側装置から受信した音声について、該相手側装置での波形と前記提示音声集音部での波形が一致するか否かを判定する波形一致判定部をさらに有し、
前記伝播状態情報生成部は、前記波形一致判定部にて一致と判定された期間について、前記伝播状態の情報を前記相手側装置に送信する、請求項1〜4のいずれか1項に記載の通信装置。
For the voice received from the counterpart device, further includes a waveform match determination unit that determines whether the waveform at the counterpart device matches the waveform at the presentation voice collection unit,
5. The propagation state information generation unit according to claim 1, wherein the propagation state information is transmitted to the counterpart device for a period determined to be coincident by the waveform coincidence determination unit. Communication device.
通信装置にて少なくとも音声を相互に送受信して通信を行う通信方法であって、
音声をユーザに提示する空間内での音声の伝播モデルを予め求めておくステップと、
相手側装置から受信した音声を再生したときの音量レベルを測定するステップと、
前記相手側装置からの音声が再生されたときに測定された前記音量レベルと前記伝播モデルとから、前記相手側装置からの前記音声の前記空間内での伝播状態を算出し、該伝播状態の情報を前記相手側装置に送信するステップとを有する通信方法。
A communication method for performing communication by transmitting and receiving at least voice to and from each other in a communication device,
Obtaining a voice propagation model in advance in a space where the voice is presented to the user;
Measuring the volume level when the audio received from the other device is played back;
From the volume level measured when the sound from the counterpart device is reproduced and the propagation model, a propagation state of the sound from the counterpart device in the space is calculated, and the propagation state Transmitting information to the counterpart device.
音声に加えて前記空間内の映像が相互に送受信されており、
前記伝播状態の情報を前記空間内の映像にエフェクトとして付加して前記相手側装置に送信する、請求項6記載の通信方法。
In addition to audio, video in the space is sent and received mutually,
The communication method according to claim 6, wherein the propagation state information is added to an image in the space as an effect and transmitted to the counterpart device.
所定のテスト音を発声されたときの前記空間内の複数箇所の音量レベルを測定し、
前記空間内の複数箇所で測定された前記音量レベルを用いて前記伝播モデルを算出する、請求項6または7に記載の通信方法。
Measure the volume level of multiple places in the space when a predetermined test sound is uttered,
The communication method according to claim 6 or 7, wherein the propagation model is calculated using the sound volume levels measured at a plurality of locations in the space.
前記相手側装置から受信した音声について、該相手側装置での波形と自装置にて測定した波形とが一致するか否かを判定し、一致と判定された期間について、前記伝播状態の情報を前記相手側装置に送信する、請求項6〜8のいずれか1項に記載の通信方法。   For the voice received from the counterpart device, it is determined whether or not the waveform at the counterpart device matches the waveform measured by the own device, and the propagation state information is determined for the period determined to match. The communication method according to claim 6, wherein the communication method is transmitted to the counterpart device. 請求項6〜9のいずれか1項に記載の通信方法における各ステップの動作をコンピュータに実行させるための通信用プログラム。   The communication program for making a computer perform the operation | movement of each step in the communication method of any one of Claims 6-9.
JP2005053540A 2005-02-28 2005-02-28 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM Expired - Fee Related JP4245575B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005053540A JP4245575B2 (en) 2005-02-28 2005-02-28 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005053540A JP4245575B2 (en) 2005-02-28 2005-02-28 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM

Publications (2)

Publication Number Publication Date
JP2006238344A JP2006238344A (en) 2006-09-07
JP4245575B2 true JP4245575B2 (en) 2009-03-25

Family

ID=37045463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005053540A Expired - Fee Related JP4245575B2 (en) 2005-02-28 2005-02-28 COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM

Country Status (1)

Country Link
JP (1) JP4245575B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018088210A1 (en) * 2016-11-08 2018-05-17 ソニー株式会社 Information processing device and method, and program

Also Published As

Publication number Publication date
JP2006238344A (en) 2006-09-07

Similar Documents

Publication Publication Date Title
RU2595636C2 (en) System and method for audio signal generation
US10665250B2 (en) Real-time feedback during audio recording, and related devices and systems
KR101444100B1 (en) Noise cancelling method and apparatus from the mixed sound
RU2605522C2 (en) Device containing plurality of audio sensors and operation method thereof
JP4729927B2 (en) Voice detection device, automatic imaging device, and voice detection method
EP2278356B1 (en) Apparatus and method for detecting usage profiles of mobile devices
JP4745916B2 (en) Noise suppression speech quality estimation apparatus, method and program
CN110896509A (en) Earphone wearing state determining method, electronic equipment control method and electronic equipment
CN101242684A (en) Estimating own-voice activity in a hearing-instrument system from direct-to-reverberant ratio
CN110390953B (en) Method, device, terminal and storage medium for detecting howling voice signal
CN108766468B (en) Intelligent voice detection method, wireless earphone, TWS earphone and terminal
CN114040285B (en) Method and device for generating feedforward filter parameters of earphone, earphone and storage medium
KR101882423B1 (en) Apparatus and method for estimating an overall mixing time based on at least a first pair of room impulse responses, as well as corresponding computer program
JP2006523828A (en) Method and device for determining acoustic transfer impedance
CN113411726A (en) Audio processing method, device and system
CN110996238B (en) Binaural synchronous signal processing hearing aid system and method
CN111028838A (en) Voice wake-up method, device and computer readable storage medium
CN113314121B (en) Soundless voice recognition method, soundless voice recognition device, soundless voice recognition medium, soundless voice recognition earphone and electronic equipment
CN113409808B (en) Echo cancellation time delay estimation method and echo cancellation method
JP4245575B2 (en) COMMUNICATION DEVICE, COMMUNICATION METHOD, AND COMMUNICATION PROGRAM
JP2006313344A (en) Method for improving quality of acoustic signal containing noise, and system for improving quality of acoustic signal by acquiring acoustic signal
CN109979487B (en) Voice signal detection method and device
US20230011909A1 (en) Systems and methods for detecting state of bone conduction hearing device
CN108965562A (en) Voice data generation method and relevant apparatus
CN114885240A (en) Noise reduction method and device, earphone equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees