JP2011077649A - Sound collecting device, gain control method, and program - Google Patents

Sound collecting device, gain control method, and program Download PDF

Info

Publication number
JP2011077649A
JP2011077649A JP2009224668A JP2009224668A JP2011077649A JP 2011077649 A JP2011077649 A JP 2011077649A JP 2009224668 A JP2009224668 A JP 2009224668A JP 2009224668 A JP2009224668 A JP 2009224668A JP 2011077649 A JP2011077649 A JP 2011077649A
Authority
JP
Japan
Prior art keywords
signal
level
unit
audio
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009224668A
Other languages
Japanese (ja)
Other versions
JP5246120B2 (en
Inventor
Takashi Yato
隆 矢頭
Shinsuke Takada
真資 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2009224668A priority Critical patent/JP5246120B2/en
Publication of JP2011077649A publication Critical patent/JP2011077649A/en
Application granted granted Critical
Publication of JP5246120B2 publication Critical patent/JP5246120B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a sound collecting device, a gain control method, and a program. <P>SOLUTION: The sound collecting device includes: a signal acquisition part which forms directivity to acquire a signal for every orientation direction; a recording part in which the orientation direction and a signal threshold are recorded by being associated with each other; a voice detection part which detects a voice signal from the signal acquired by the signal acquisition part; a determination part which determines whether or not a signal level of the voice signal detected by the voice detection part exceeds a signal threshold corresponding to the orientation direction in which the voice signal is acquired; and a gain control part which performs gain adjustment of the voice signal exceeding the signal threshold to a first signal level based on a determination result by the determination part, wherein the gain control part does not perform the gain adjustment of a voice signal below the signal threshold, or performs the gain adjustment of the voice signal below the signal threshold to a second signal level lower than the first signal level. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、収音装置、利得制御方法、およびプログラムに関する。   The present invention relates to a sound collection device, a gain control method, and a program.

近日、ユーザが遠隔地に存在する他ユーザと会話するための遠隔通信システムの研究が盛んに行われている。この遠隔通信システムでは、ユーザの音声がマイクロホンなどを備える収音装置により収音され、収音装置により収音された音声が遠隔地に存在する他ユーザに送信される。   Recently, research on telecommunications systems for users to talk with other users in remote locations has been actively conducted. In this remote communication system, a user's voice is collected by a sound collection device including a microphone and the sound collected by the sound collection device is transmitted to another user existing in a remote place.

ここで、マイクロホンが無指向性である場合、ユーザの音声だけでなく、雑音や反響音も収音されるので、ユーザの音声を聞き取り難くなってしまう。この問題に対し、複数のマイクロホンを用いて複数方向に指向性を形成し、複数の指向方向のうちで音声が存在する方向に収音方向を限定する収音装置が提案されている。例えば、特許文献1には、マイクアレイを用いて指向性を形成し、信号レベルが所定レベル以上である指向方向から最大の方向を検出し、検出した方向に指向性の照準を合わせてユーザの音声を収音する方法が開示されている。   Here, when the microphone is omnidirectional, not only the user's voice but also noise and reverberation are collected, so that it becomes difficult to hear the user's voice. In order to solve this problem, there has been proposed a sound collecting device that forms directivity in a plurality of directions using a plurality of microphones and limits the sound collecting direction to a direction in which sound exists among the plurality of directional directions. For example, in Patent Document 1, directivity is formed using a microphone array, a maximum direction is detected from a directivity direction in which a signal level is equal to or higher than a predetermined level, and a directivity aim is aligned with the detected direction. A method for picking up sound is disclosed.

また、多地点間におけるテレビ会議や、3人以上のユーザが同時通話可能な電話会議を行う場合、場所ごとにマイクロホンの状態やマイクロホンとユーザとの距離が異なるので、収音により得られる音声信号の信号レベルも場所ごとに異なる。この問題に関し、特許文献2には、音声信号の信号レベルを適用的に制御する自動利得制御方法および自動利得制御装置が開示されている。   In addition, when performing a video conference between multiple points or a conference call in which three or more users can talk simultaneously, since the microphone state and the distance between the microphone and the user differ from place to place, an audio signal obtained by sound collection The signal level also varies from place to place. With respect to this problem, Patent Document 2 discloses an automatic gain control method and an automatic gain control apparatus that adaptively control the signal level of an audio signal.

さらに、特許文献3には、音源方向を検出する検出手段と、検出された音源方向から発せられた音を収音する収音手段と、指向方向が切り替わる度に出力レベルが一定になるように利得を自動調整する利得調整手段を備える装置が開示されている。   Further, Patent Document 3 discloses a detection unit that detects a sound source direction, a sound collection unit that collects sound emitted from the detected sound source direction, and an output level that is constant every time the directional direction is switched. An apparatus including gain adjusting means for automatically adjusting gain is disclosed.

なお、自動利得制御は、一般的に、低いレベルの信号を増幅し、過大なレベルの信号を適切なレベルに制限する制御である。この自動利得制御の適用に関し、特許文献2には、音声でない低いレベルの雑音が増幅されないよう、音声が検出された音声区間に自動利得制御を適用することが開示されている。   The automatic gain control is generally control for amplifying a low level signal and limiting an excessive level signal to an appropriate level. With regard to the application of this automatic gain control, Patent Document 2 discloses that automatic gain control is applied to a speech section in which speech is detected so that low-level noise that is not speech is not amplified.

特開2003−304589号公報JP 2003-304589 A 特開平8−250944号公報JP-A-8-250944 特開平9−140000号公報Japanese Patent Laid-Open No. 9-140000

ここで、ユーザが発する音声には、他ユーザに明確に伝えようとする発言としての音声と、つぶやき、独り言または近隣ユーザとの雑談などの小音量の音声とが含まれる。発言としての音声の信号レベルが小さい場合には遠隔地のユーザが聞きやすい音量に増幅することが望まれるが、その他の独り言や雑談などの音声も自動利得制御によって増幅することは適切でない。しかし、従来の装置では、発言としての音声だけでなく、他の音声も所定レベルに増幅されてしまうという問題があった。   Here, the voice uttered by the user includes a voice as an utterance to be clearly communicated to other users and a low-volume voice such as a tweet, singing or chatting with a neighboring user. When the signal level of speech as speech is low, it is desirable to amplify the volume to a level that is easy for a remote user to hear, but it is not appropriate to amplify other speech such as singing or chatting by automatic gain control. However, the conventional apparatus has a problem that not only the voice as a speech but also other voices are amplified to a predetermined level.

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、音声の種類に応じた利得制御を行うことが可能な、新規かつ改良された収音装置、利得制御方法、およびプログラムを提供することにある。   Therefore, the present invention has been made in view of the above problems, and the object of the present invention is to provide a new and improved sound collection device capable of performing gain control according to the type of sound, A gain control method and program are provided.

上記課題を解決するために、本発明のある観点によれば、指向性を形成して指向方向ごとに信号を取得する信号取得部と、指向方向と信号閾値が対応付けて記録される記録部と、前記信号取得部により取得された信号から音声信号を検出する音声検出部と、前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回るか否かを判断する判断部と、前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整を行う利得制御部とを備え、前記利得制御部は、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する、収音装置が提供される。   In order to solve the above-described problem, according to an aspect of the present invention, a signal acquisition unit that forms directivity and acquires a signal for each direction, and a recording unit that records the direction and signal threshold in association with each other A voice detection unit that detects a voice signal from the signal acquired by the signal acquisition unit, and a signal in which the signal level of the voice signal detected by the voice detection unit corresponds to the pointing direction in which the voice signal is acquired A determination unit configured to determine whether or not the threshold value is exceeded; and a gain control unit configured to adjust a gain of an audio signal exceeding the signal threshold value to a first signal level based on a determination result by the determination unit. The sound collection device is provided in which the unit does not adjust the gain of the audio signal below the signal threshold, or adjusts the gain to a second signal level lower than the first signal level.

前記収音装置は、前記記録部に指向方向と対応付けて記録される信号閾値を話者の事前発声に基づいて学習する学習部をさらに備え、前記学習部は、前記事前発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記事前発声により取得された前記音声信号の信号レベルに基づいて学習してもよい。   The sound collection device further includes a learning unit that learns a signal threshold recorded in the recording unit in association with a directivity direction based on a speaker's prior utterance, and the learning unit is based on the preliminary utterance. You may learn the signal threshold value corresponding to the directivity direction from which the audio | voice signal was acquired based on the signal level of the said audio | voice signal acquired by the said prior speech.

前記収音装置は、話者による発声に基づいて前記話者と前記収音装置との距離を検出する位置検出部と、前記発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記位置検出部により検出された前記話者と前記収音装置との距離に応じて設定する学習部と、をさらに備えてもよい。   The sound collection device includes a position detection unit that detects a distance between the speaker and the sound collection device based on utterance by the speaker, and a signal threshold value corresponding to a directivity direction in which an audio signal is acquired based on the utterance And a learning unit that sets the value according to the distance between the speaker detected by the position detection unit and the sound collection device.

前記学習部は、前記位置検出部により検出された前記話者と前記収音装置との距離が長いほど、信号閾値を小さなレベルに設定してもよい。   The learning unit may set the signal threshold to a smaller level as the distance between the speaker detected by the position detection unit and the sound collection device is longer.

前記収音装置は、離隔して配置された複数組のマイクロホンアレイをさらに備え、前記信号取得部は、前記複数組のマイクロホンアレイによる収音信号の各々から指向方向ごとの信号を取得し、前記位置検出部は、前記複数組のマイクロホンアレイによる収音信号の各々から前記発声に基づく音声信号が取得された指向方向、および前記複数組のマイクロホンアレイの配置間隔に基づいて前記話者と前記収音装置との距離を検出してもよい。   The sound collection device further includes a plurality of sets of microphone arrays arranged separately from each other, and the signal acquisition unit acquires a signal for each directivity direction from each of the sound collection signals by the plurality of sets of microphone arrays, The position detection unit is configured to detect the sound source and the speaker based on a directivity direction in which an audio signal based on the utterance is acquired from each of the sound pickup signals by the plurality of sets of microphone arrays and an arrangement interval of the plurality of sets of microphone arrays. You may detect the distance with a sound apparatus.

また、上記課題を解決するために、本発明の別の観点によれば、指向方向と信号閾値を対応付けて記録するステップと、指向性を形成して指向方向ごとに信号を取得するステップと、取得された信号から音声信号を検出するステップと、検出された取得された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断するステップと、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整するステップとを含み、前記信号閾値を下回る音声信号に対しては、利得調整が行われない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整されてもよい。   In order to solve the above problem, according to another aspect of the present invention, a step of associating and recording a directivity direction and a signal threshold value, a step of forming a directivity and acquiring a signal for each directivity direction, Detecting an audio signal from the acquired signal, and determining whether a signal level of the detected acquired audio signal is higher than a signal threshold corresponding to a directivity direction in which the audio signal is acquired. And adjusting the gain of an audio signal that exceeds the signal threshold to a first signal level, and no gain adjustment is performed for the audio signal that is below the signal threshold, or the first The gain may be adjusted to a second signal level lower than the signal level.

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、指向性を形成して指向方向ごとに信号を取得する信号取得部と、指向方向と信号閾値が対応付けて記録される記録部と、前記信号取得部により取得された信号から音声信号を検出する音声検出部と、前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断する判断部と、前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整し、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する利得制御部と、として機能させるためのプログラムが提供される。   In order to solve the above problem, according to another aspect of the present invention, a computer is configured to associate a directivity direction with a signal threshold value, a signal acquisition unit that forms a directivity and acquires a signal for each directivity direction. A recording unit that is recorded, a voice detection unit that detects a voice signal from the signal acquired by the signal acquisition unit, and a signal level of the voice signal detected by the voice detection unit is acquired from the voice signal. A determination unit configured to determine whether or not a signal threshold value corresponding to a directivity direction is exceeded; and based on a determination result by the determination unit, an audio signal that exceeds the signal threshold value is gain-adjusted to a first signal level, and the signal threshold value There is provided a program for functioning as a gain control unit that does not adjust the gain of an audio signal lower than or equal to a second signal level lower than the first signal level.

以上説明したように本発明によれば、音声の種類に応じた利得制御を行うことが可能である。   As described above, according to the present invention, it is possible to perform gain control according to the type of sound.

本発明の実施形態による遠隔通信システムの構成を示した説明図である。It is explanatory drawing which showed the structure of the telecommunication system by embodiment of this invention. 第1の実施形態による遠隔通信装置の構成を示した機能ブロック図である。It is a functional block diagram showing the configuration of the remote communication device according to the first embodiment. ビームフォーマーの原理を示した説明図である。It is explanatory drawing which showed the principle of the beam former. マイクロホンの配置を示した説明図である。It is explanatory drawing which showed arrangement | positioning of a microphone. 指向性形成部の具体的な構成を示した説明図である。It is explanatory drawing which showed the specific structure of the directivity formation part. 話者特性記録部への記録内容の具体例を示した説明図である。It is explanatory drawing which showed the specific example of the content recorded on a speaker characteristic recording part. 利得制御部による利得調整の具体例を示した説明図である。It is explanatory drawing which showed the specific example of the gain adjustment by a gain control part. 利得制御部による利得調整の具体例を示した説明図である。It is explanatory drawing which showed the specific example of the gain adjustment by a gain control part. 第1の実施形態による遠隔通信装置の動作を示したフローチャートである。It is the flowchart which showed operation | movement of the remote communication apparatus by 1st Embodiment. 第2の実施形態による遠隔通信装置の構成を示した機能ブロック図である。It is the functional block diagram which showed the structure of the remote communication apparatus by 2nd Embodiment. 音源位置(ユーザ位置)と、マイクロホンアレイとの位置関係を示した説明図である。It is explanatory drawing which showed the positional relationship of a sound source position (user position) and a microphone array. 第2の実施形態による遠隔通信装置の動作を示したフローチャートである。It is the flowchart which showed the operation | movement of the remote communication apparatus by 2nd Embodiment.

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。   Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In addition, in this specification and drawing, about the component which has the substantially same function structure, duplication description is abbreviate | omitted by attaching | subjecting the same code | symbol.

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて遠隔通信装置10A、および10Bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、遠隔通信装置10A、および10Bを特に区別する必要が無い場合には、単に遠隔通信装置10と称する。   In the present specification and drawings, a plurality of components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral. For example, a plurality of configurations having substantially the same functional configuration are differentiated as necessary, such as the remote communication devices 10A and 10B. However, when it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration, only the same reference numerals are given. For example, when it is not necessary to distinguish between the remote communication devices 10A and 10B, they are simply referred to as the remote communication device 10.

(遠隔通信システム)
まず、図1を参照し、本発明の実施形態による遠隔通信システム1について説明する。図1は、本発明の実施形態による遠隔通信システム1の構成を示した説明図である。図1に示したように、本発明の実施形態による遠隔通信システム1は、遠隔通信装置10Aおよび10Bと、通信網12と、を備える。
(Telecommunication system)
First, a telecommunications system 1 according to an embodiment of the present invention will be described with reference to FIG. FIG. 1 is an explanatory diagram showing the configuration of a telecommunications system 1 according to an embodiment of the present invention. As shown in FIG. 1, the remote communication system 1 according to the embodiment of the present invention includes remote communication devices 10 </ b> A and 10 </ b> B and a communication network 12.

遠隔通信装置10Aおよび遠隔通信装置10Bは、異なる建物、または異なる部屋などに遠隔して配置されており、通信網12を介して接続されている。この通信網12は、通信網12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網12は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。   The remote communication device 10 </ b> A and the remote communication device 10 </ b> B are remotely arranged in different buildings or different rooms and are connected via the communication network 12. The communication network 12 is a wired or wireless transmission path for information transmitted from a device connected to the communication network 12. For example, the communication network 12 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various local area networks (LANs) including the Ethernet (registered trademark), a wide area network (WAN), and the like. . Further, the communication network 12 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).

遠隔通信装置10は、収音装置および撮像装置としての機能を有し、収音した音声および撮像した映像を、通信網12を介して他の遠隔通信装置10へ送信する。また、遠隔通信装置10は、通信網12を介して他の遠隔通信装置10から音声および映像を受信し、受信した音声をスピーカなどから出力し、映像をディスプレイに表示する。   The remote communication device 10 has functions as a sound collection device and an image pickup device, and transmits the collected sound and the picked-up video to another remote communication device 10 via the communication network 12. Further, the remote communication device 10 receives audio and video from another remote communication device 10 via the communication network 12, outputs the received audio from a speaker or the like, and displays the video on a display.

これにより、遠隔通信装置10を利用するユーザは、遠隔地に存在するユーザと音声および映像を利用してコミュニケーションをとることが可能となる。具体的には、図1に示した例では、ユーザA〜Cは、遠隔通信装置10Aを利用することにより、遠隔通信装置10Bを利用するユーザDおよびEとコミュニケーションをとることができる。   As a result, a user who uses the remote communication device 10 can communicate with a user in a remote location using audio and video. Specifically, in the example shown in FIG. 1, the users A to C can communicate with the users D and E who use the remote communication device 10B by using the remote communication device 10A.

このように、遠隔通信装置10は、映像および音声の双方を処理することが可能であるが、本実施形態による遠隔通信装置10においては音声の利得制御が重要なポイントであるため、本明細書においては音声の利得制御に重きをおいて説明する。   As described above, the remote communication device 10 can process both video and audio. However, in the remote communication device 10 according to the present embodiment, voice gain control is an important point. Will be described with emphasis on voice gain control.

(背景の整理)
近日、ユーザが発した音声を収音して、収音した音声を自動的に一定レベルに増幅して伝送するテレビ会議用装置の研究が行われている。ここで、ユーザが発する音声には、他ユーザに明確に伝えようとする発言としての音声と、つぶやき、独り言または近隣ユーザとの雑談および相談などの小音量の音声とが含まれる。発言としての音声の信号レベルが小さい場合には遠隔地のユーザが聞きやすい音量に増幅することが望まれるが、その他の独り言や雑談などの音声も自動利得制御によって増幅することは適切でない。
(Organizing the background)
Recently, research on video conferencing apparatuses that collect voices uttered by users and automatically amplify the collected voices to a certain level and transmit them has been conducted. Here, the voice uttered by the user includes a voice as a speech to be clearly communicated to other users and a low-volume voice such as a tweet, a talk, a chat with a neighboring user, and a consultation. When the signal level of speech as speech is low, it is desirable to amplify the volume so that it is easy for a remote user to hear. However, it is not appropriate to amplify other speech such as singing or chatting by automatic gain control.

一方、独り言や雑談などの音声も、遠隔地の場の雰囲気や状況を知るためには有用な情報であるので、音声以外の雑音と同列に不要な情報として除去、あるいは抑圧してしまうことも得策ではない。   On the other hand, voices such as singing and chatting are also useful information for knowing the atmosphere and situation of a remote place, so they may be removed or suppressed as unnecessary information in the same way as noise other than voice. It's not a good idea.

そこで、上記の事情を背景にして本実施形態による遠隔通信装置10を創作するに至った。本実施形態による遠隔通信装置10によれば、発言としての音声を適切な音量で受聴でき、かつ、その他の音声も抑圧することなく取り出すことが可能である。以下、このような遠隔通信装置10について詳細に説明する。   Therefore, the remote communication device 10 according to the present embodiment has been created against the background of the above circumstances. According to the remote communication device 10 according to the present embodiment, it is possible to listen to speech as an utterance at an appropriate volume and to extract other speech without being suppressed. Hereinafter, the remote communication device 10 will be described in detail.

(第1の実施形態)
図2は、第1の実施形態による遠隔通信装置10の構成を示した機能ブロック図である。図2に示したように、遠隔通信装置10は、マイクロホン100−1〜100−mからなるマイクロホンアレイ100と、指向性形成部101と、音声検出部102と、発言レベル学習部103と、話者特性記録部104と、発言判定部105と、利得制御部106と、通信部107と、を備える。なお、図2に示した各機能ブロックは、一つの収容体に設けられている必要はなく、異なる収容体に分離して設けられていてもよい。
(First embodiment)
FIG. 2 is a functional block diagram showing the configuration of the remote communication device 10 according to the first embodiment. As shown in FIG. 2, the remote communication device 10 includes a microphone array 100 including microphones 100-1 to 100-m, a directivity forming unit 101, a voice detection unit 102, a speech level learning unit 103, and a speech. A person characteristic recording unit 104, a speech determination unit 105, a gain control unit 106, and a communication unit 107 are provided. Note that each functional block shown in FIG. 2 need not be provided in one container, and may be provided separately in different containers.

マイクロホン100−1〜100−mおよび指向性形成部101は、指向性を形成して、指向方向から発せられた音信号を指向方向ごとに取得する信号取得部として機能する。具体的には、マイクロホン100−1〜100−mおよび指向性形成部101は、ビームフォーマーの原理に基づく信号処理を行うことにより指向性を形成する。   The microphones 100-1 to 100-m and the directivity forming unit 101 function as a signal acquisition unit that forms directivity and acquires a sound signal emitted from the directivity direction for each directivity direction. Specifically, the microphones 100-1 to 100-m and the directivity forming unit 101 form directivity by performing signal processing based on the principle of the beam former.

なお、指向性の形成方法はかかる例に限定されず、例えば、指向性を有するi本のマイクロホンを、円周をi等分した各円弧の中心方向に各マイクロホンの指向性が向くように配置することにより指向性を形成してもよい。しかし、この形成方法では、必要方向分のマイクロホンが必要となるなどの制約が多いため、本実施形態においてはビームフォーマーの原理に基づく信号処理を行うことにより指向性を形成することとした。このビームフォーマーの原理によれば、2本以上の異なる位置に配置した無指向性マイクロホンを利用することにより、任意の方向に指向性を形成できる。以下、このようなビームフォーマーの原理と併せて、本実施形態による指向性の形成方法を説明する。   Note that the directivity forming method is not limited to this example. For example, i microphones having directivity are arranged so that the directivity of each microphone is directed in the center direction of each arc obtained by equally dividing the circumference into i. By doing so, the directivity may be formed. However, since this forming method has many restrictions such as the necessity of microphones for the necessary direction, in this embodiment, the directivity is formed by performing signal processing based on the principle of the beam former. According to the principle of this beam former, directivity can be formed in an arbitrary direction by using omnidirectional microphones arranged at two or more different positions. The directivity forming method according to this embodiment will be described below together with the principle of the beam former.

図3は、ビームフォーマーの原理を示した説明図である。図3に示した例では、2本のマイクロホンM1およびM2が距離Lだけ離れて設置されている。この場合、θ方向から到来する音波は、まず音源に近いマイクロホンM1に到達した後、距離dだけ進んでマイクロホンM2に到達する。ここで、距離dは、以下の数式1のように表わされる。   FIG. 3 is an explanatory diagram showing the principle of the beam former. In the example shown in FIG. 3, the two microphones M1 and M2 are installed with a distance L apart. In this case, the sound wave coming from the θ direction first reaches the microphone M1 close to the sound source, and then travels a distance d to reach the microphone M2. Here, the distance d is expressed as the following Equation 1.

Figure 2011077649
Figure 2011077649

したがって、マイクロホンM2の受音信号x(t)は、以下の数式2に示すように、マイクロホンM1の受音信号x(t)に対し、音波が距離dを進行するのに要した時間τだけ遅れた信号である。 Therefore, the sound reception signal x 2 (t) of the microphone M2 is the time required for the sound wave to travel the distance d with respect to the sound reception signal x 1 (t) of the microphone M1, as shown in Equation 2 below. This signal is delayed by τ.

Figure 2011077649
Figure 2011077649

数式2より、遅延部22がx(t)に時間τの遅延を与え、加算部24が以下の数式3に示すように遅延後のx(t)とx(t)を加算すれば、同相の信号同士が加算されるので、θ方向からの信号成分が強調される。なお、マイクロホンM2の方が音源に近い場合には、上記とは反対にマイクロホンM2の受音信号x(t)に対して遅延を与える。 From Equation 2, the delay unit 22 gives a delay of time τ to x 1 (t), and the adder 24 adds the delayed x 1 (t) and x 2 (t) as shown in Equation 3 below. For example, in-phase signals are added together, so that the signal component from the θ direction is emphasized. When the microphone M2 is closer to the sound source, a delay is given to the sound reception signal x 2 (t) of the microphone M2, contrary to the above.

Figure 2011077649
Figure 2011077649

このような時間領域での指向性を形成するための信号処理は、周波数領域でも同様に行うことができる。時間軸をτだけ遅延させた信号のフーリエ変換結果は、遅延前の信号をフーリエ変換した結果にe−jωτを乗じたものになる。したがって、b(t)、x(t)、およびx(t)の各々のフーリエ変換結果をB(ω)、X(ω)、X(ω)とすると、上記数式3は周波数領域上で以下のように表現される。 Signal processing for forming such directivity in the time domain can be similarly performed in the frequency domain. The Fourier transform result of the signal whose time axis is delayed by τ is obtained by multiplying the result of Fourier transform of the signal before the delay by e −jωτ . Therefore, when the Fourier transform results of b (t), x 1 (t), and x 2 (t) are B (ω), X 1 (ω), and X 2 (ω), the above Equation 3 is It is expressed as follows on the area.

Figure 2011077649
Figure 2011077649

なお、時間領域でビームフォーマーを形成する場合には、デジタル処理においては遅延時間τをサンプリング周期単位でしか選択できないが、周波数領域では遅延時間τを任意に選択できるため、遅延時間τを変えることで指向方向(強調方向)を任意に定めることが可能である。   When forming a beam former in the time domain, the delay time τ can be selected only in units of sampling periods in digital processing, but the delay time τ can be arbitrarily selected in the frequency domain, so the delay time τ is changed. Thus, it is possible to arbitrarily determine the directivity direction (enhancement direction).

以上、図3を参照してビームフォーマーの原理を説明した。続いて、図4および図5を参照し、ビームフォーマーの原理に基づいて周波数領域で指向性を形成するマイクロホン100−1〜100−mおよび指向性形成部101について具体的に説明する。   The principle of the beam former has been described above with reference to FIG. Next, with reference to FIGS. 4 and 5, the microphones 100-1 to 100-m and the directivity forming unit 101 that form directivity in the frequency domain based on the principle of the beam former will be described in detail.

図4は、マイクロホン100−1〜100−mの配置を示した説明図である。図4に示したように、マイクロホン100−1〜100−mは、直線状に等間隔(距離L間隔)に配置される。このマイクロホン100−1〜100−mによる受音信号x(n)〜x(n)は、AD変換部(図示せず。)によりデジタル信号に変換された後、指向性形成部101に入力される。 FIG. 4 is an explanatory diagram showing the arrangement of the microphones 100-1 to 100-m. As shown in FIG. 4, the microphones 100-1 to 100-m are linearly arranged at equal intervals (distance L intervals). The received sound signals x 1 (n) to x m (n) from the microphones 100-1 to 100 -m are converted into digital signals by an AD conversion unit (not shown), and then transmitted to the directivity forming unit 101. Entered.

図4に示した例では、マイクロホン100−1への音波到達に対し、マイクロホン100−2、100−3、・・・、100−m、への音波到達は、音源方向θに応じ、τ、2τ、・・・、(m−1)τ、遅れる。このため、マイクロホン100−1、100−2、・・・による受音信号x(n)、x(n)・・・に適切な遅延を与えることにより、全ての受音信号が同位相化される。さらに、同位相化された受音信号同士を加算することにより、θ方向から到来する信号のみを強調することができる。なお、マイクロホン100の数が増えれば、加算される受音信号の数も増えるので、指向方向に対する利得が向上する。本実施形態による指向性形成部101は、上記の原理を周波数領域で実現する。 In the example shown in FIG. 4, the arrival of sound waves to the microphones 100-2, 100-3,..., 100-m corresponds to τ, 2τ, ..., (m-1) τ, delayed. For this reason, the sound signals x 1 (n), x 2 (n),... Received by the microphones 100-1, 100-2,. It becomes. Furthermore, by adding the received sound signals in phase, only the signal coming from the θ direction can be emphasized. If the number of microphones 100 is increased, the number of received sound signals to be added is also increased, so that the gain with respect to the pointing direction is improved. The directivity forming unit 101 according to the present embodiment realizes the above principle in the frequency domain.

図5は、指向性形成部101の具体的な構成を示した説明図である。図5に示したように、指向性形成部101は、FFT(Fast Fourier Transform)301−1〜301−mと、遅延制御部302と、乗算部303−1〜303−mと、加算部304と、逆FFT305と、を備える。   FIG. 5 is an explanatory diagram showing a specific configuration of the directivity forming unit 101. As illustrated in FIG. 5, the directivity forming unit 101 includes an FFT (Fast Fourier Transform) 301-1 to 301-m, a delay control unit 302, multiplication units 303-1 to 303-m, and an addition unit 304. And an inverse FFT 305.

FFT301−1〜301−mは、デジタル信号に変換された受音信号x(n)〜x(n)が入力され、高速フーリエ変換を行うことにより、受音信号x(n)〜x(n)を周波数領域のスペクトルX(ω)〜X(ω)に変換する。 The FFTs 301-1 to 301 -m receive the received sound signals x 1 (n) to x m (n) converted into digital signals, and perform fast Fourier transform to receive the received sound signals x 1 (n) to x m (n) is converted into a frequency domain spectrum X 1 (ω) to X m (ω).

スペクトルX(ω)〜X(ω)は、乗算部303−1〜303−mに供給され、乗算部303−1〜303−mにより遅延係数が乗算される。この遅延係数は、遅延制御部302により、形成する指向性の方向に応じて各乗算部303−1〜303−mに与えられる。 The spectra X 1 (ω) to X m (ω) are supplied to the multipliers 303-1 to 303-m, and the multipliers 303-1 to 303-m multiply the delay coefficients. This delay coefficient is given to each of the multipliers 303-1 to 303-m by the delay controller 302 in accordance with the direction of directivity to be formed.

具体的には、図4に示したように、Lsinθで表現される距離差dによって生じる音波の到達時間差をτとすると、遅延制御部302は、乗算部303−1〜303−mに、e−jω(m−1)τ、e−jω(m−2)τ、・・・e−jωτ、1、を遅延係数として与える。なお、図4における下方向に指向性を形成する場合には、マイクロホン100−mが最も音源に近いので、遅延制御部302は、上記とは逆に乗算部303−mに最も大きな遅延係数を与える。 Specifically, as shown in FIG. 4, when the arrival time difference of the sound wave generated by the distance difference d expressed by Lsin θ is τ, the delay control unit 302 sends e to the multiplication units 303-1 to 303-m. −jω (m−1) τ , e− jω (m−2) τ ,..., E− jωτ , 1 are given as delay coefficients. In the case where directivity is formed in the downward direction in FIG. 4, the microphone 100-m is closest to the sound source, so that the delay control unit 302 has the largest delay coefficient in the multiplication unit 303-m, contrary to the above. give.

加算部304は、乗算部303−1〜303−mによるスペクトルX(ω)〜X(ω)と遅延係数の乗算結果を加算し、指向方向ごとの収音信号スペクトルB(ω)〜Bj(ω)を取得する。すなわち、本実施形態においてはj個の方向からの収音信号を取得することを想定しており、例えば、円周をj等分した各円弧の中心方向からの収音信号を取得することができる。 The adder 304 adds the multiplication results of the spectrums X 1 (ω) to X m (ω) and the delay coefficients by the multipliers 303-1 to 303-m, and collects the sound collection signal spectrum B 1 (ω) for each directivity direction. ~ Bj (ω) is acquired. That is, in the present embodiment, it is assumed that sound collected signals from j directions are acquired. For example, a sound collected signal from the center direction of each arc obtained by equally dividing the circumference into j can be acquired. it can.

逆FFT305は、加算部304により得られる収音信号スペクトルB(ω)〜Bj(ω)を逆フーリエ変換し、時間領域の収音信号b〜bを取得する。これにより、以降の処理は時間領域で行われることとなる。なお、指向性形成部101に逆FFT305を設けず、指向性形成部101から収音信号スペクトルB(ω)〜Bj(ω)を出力してもよい。この場合には、以降の処理が周波数領域で行われることとなる。 The inverse FFT 305 performs inverse Fourier transform on the collected sound signal spectrums B 1 (ω) to Bj (ω) obtained by the adding unit 304, and acquires sound collected signals b 0 to b j in the time domain. Thereby, the subsequent processing is performed in the time domain. Note that the directivity forming unit 101 may not be provided with the inverse FFT 305, and the collected sound signal spectra B 1 (ω) to Bj (ω) may be output from the directivity forming unit 101. In this case, the subsequent processing is performed in the frequency domain.

音声検出部102は、図2に示したように、指向性形成部101により取得された指向方向ごとの収音信号b〜bが入力される。そして、音声検出部102は、全ての指向方向に対応する収音信号b〜bに対して音声信号の有無を検出し、検出された音声信号、音声信号の信号レベル(例えば、平均振幅値)、および方向情報を発言判定部105に出力する。 As shown in FIG. 2, the sound detection unit 102 receives the sound collection signals b 1 to b j for each directivity direction acquired by the directivity forming unit 101. Then, the voice detection unit 102 detects the presence or absence of a voice signal with respect to the collected sound signals b 1 to b j corresponding to all directivity directions, and detects the detected voice signal and the signal level (for example, average amplitude) of the voice signal. Value) and direction information are output to the speech determination unit 105.

なお、音声検出部102による音声信号の検出方法は特に限定されない。例えば、音声検出部102は、収音信号の信号レベルが一定時間以上にわたって所定レベル以上であった場合に音声入力が始まったと判定し、その後、収音信号の信号レベルが一定時間以上にわたって所定レベルを下回った場合に音声入力が終了した判定してもよい。   Note that the detection method of the audio signal by the audio detection unit 102 is not particularly limited. For example, the voice detection unit 102 determines that voice input has started when the signal level of the collected sound signal is equal to or higher than a predetermined level for a predetermined time or more, and then the signal level of the collected sound signal is equal to or higher than a predetermined level for a predetermined time or longer It may be determined that the voice input is finished when the value is lower than.

発言レベル学習部103は、ユーザによる事前発声に基づき、音声信号が発言であるか否かを判定するための発言レベル(信号閾値)を指向方向ごとに学習し、話者特性記録部104に方向と発言レベルを対応付けて記録する。   The speech level learning unit 103 learns a speech level (signal threshold value) for determining whether or not a speech signal is a speech based on a user's prior speech for each pointing direction, and sends the direction to the speaker characteristic recording unit 104. And the speech level are recorded in association with each other.

具体的には、会議開始に先立って遠隔通信装置10を発言レベル登録モードに設定し、各ユーザが順次にマイクロホン100に向って規定の音声を発声する。ユーザが発声すると、マイクロホン100および指向性形成部101を介して指向方向ごとの収音信号が音声検出部102に供給され、音声検出部102が収音信号からユーザの音声信号を検出する。そして、音声検出部102は、検出した音声信号の信号レベルを、音声信号が検出された指向方向と併せて発言レベル学習部103に供給する。   Specifically, prior to the start of the conference, the remote communication device 10 is set to the speech level registration mode, and each user speaks a prescribed voice sequentially toward the microphone 100. When the user utters, a sound collection signal for each directional direction is supplied to the sound detection unit 102 via the microphone 100 and the directivity forming unit 101, and the sound detection unit 102 detects the user's sound signal from the sound collection signal. Then, the voice detection unit 102 supplies the signal level of the detected voice signal to the speech level learning unit 103 together with the directivity direction in which the voice signal is detected.

発言レベル学習部103は、ユーザごとの音声信号の信号レベルを発声時間で平均し、平均結果に応じた発言レベルを方向と対応付けて話者特性記録部104に記録する。   The speech level learning unit 103 averages the signal level of the voice signal for each user by the speech time, and records the speech level corresponding to the average result in the speaker characteristic recording unit 104 in association with the direction.

図6は、話者特性記録部104への記録内容の具体例を示した説明図である。図6に示したように、ユーザによる事前発声に基づき、各方向と対応付けて発言レベルが記録される。また、ユーザ音声が検出されなかった方向に対しても、「方向3」に示したように所定の初期値が対応付けて記録される。なお、発言レベルは、発言レベル学習部103による音声信号の信号レベルの平均結果そのものであってもよいが、マージンを持たせるために、平均結果の7割など平均結果より低い値であってもよい。   FIG. 6 is an explanatory diagram showing a specific example of the contents recorded in the speaker characteristic recording unit 104. As shown in FIG. 6, the speech level is recorded in association with each direction based on the prior speech by the user. In addition, a predetermined initial value is recorded in association with a direction in which no user voice is detected as shown in “direction 3”. The speech level may be the average result of the signal level of the audio signal by the speech level learning unit 103, or may be a value lower than the average result such as 70% of the average result in order to have a margin. Good.

発言判定部(判断部)105は、会議運用モードにおいて、音声検出部102により検出された音声信号、音声信号の信号レベル、および方向情報が供給される。発言判定部105は、供給された方向情報の示す方向に対応する発言レベルを話者特性記録部104から読み出し、読み出した発言レベルを音声信号の信号レベルが上回るか否かを判定する。ここで、発言レベルに達していると判定された音声信号は発言として扱われ、他の音声は独り言や雑談として扱われる。   The speech determination unit (determination unit) 105 is supplied with the audio signal detected by the audio detection unit 102, the signal level of the audio signal, and direction information in the conference operation mode. The speech determination unit 105 reads the speech level corresponding to the direction indicated by the supplied direction information from the speaker characteristic recording unit 104, and determines whether the signal level of the audio signal exceeds the read speech level. Here, the voice signal determined to have reached the speech level is treated as speech, and the other speech is treated as monologue or chat.

利得制御部106は、発言判定部105による判定結果に基づいて音声信号の利得調整を行う。具体的には、利得制御部106は、発言判定部105により発言レベルを上回ると判定された音声信号を、信号レベルが発言伝送レベル(第1の信号レベル)になるように利得調整する。   The gain control unit 106 adjusts the gain of the audio signal based on the determination result by the speech determination unit 105. Specifically, the gain control unit 106 adjusts the gain of the voice signal determined by the speech determination unit 105 to exceed the speech level so that the signal level becomes the speech transmission level (first signal level).

一方、利得制御部106は、発言判定部105により発言レベルを下回ると判定された音声信号を、発言伝送レベルより低い他音声伝送レベル(第2の信号レベル)に利得調整する。または、利得制御部106は、発言判定部105により発言レベルを下回ると判定された音声信号は利得調整せず、そのまま出力してもよい。利得制御部106によるこのような利得調整の具体例を図7および図8に示す。   On the other hand, the gain control unit 106 adjusts the gain of the audio signal determined by the speech determination unit 105 to be lower than the speech level to another speech transmission level (second signal level) lower than the speech transmission level. Alternatively, the gain control unit 106 may output the audio signal determined to be below the speech level by the speech determination unit 105 without adjusting the gain. Specific examples of such gain adjustment by the gain control unit 106 are shown in FIGS.

図7および図8は、利得制御部106による利得調整の具体例を示した説明図である。図7の左図に示したように、「方向1」から検出された音声信号の信号レベルが「発言レベル1」を上回っている場合、利得制御部106は、図7の右図に示したように、音声信号の信号レベルを発言伝送レベルに増幅する。   7 and 8 are explanatory diagrams showing specific examples of gain adjustment by the gain control unit 106. FIG. As shown in the left diagram of FIG. 7, when the signal level of the audio signal detected from “direction 1” exceeds “speech level 1”, the gain control unit 106 is illustrated in the right diagram of FIG. 7. Thus, the signal level of the audio signal is amplified to the speech transmission level.

一方、図8の左図に示したように、「方向1」から検出された音声信号の信号レベルが「発言レベル1」を下回っている場合、利得制御部106は、図8の右図に示したように、音声信号の信号レベルを発言伝送レベルより低い他音声伝送レベルに増幅する。   On the other hand, as shown in the left diagram of FIG. 8, when the signal level of the audio signal detected from “direction 1” is lower than “speech level 1”, the gain control unit 106 displays in the right diagram of FIG. 8. As shown, the signal level of the audio signal is amplified to another audio transmission level lower than the speech transmission level.

上記のように利得調整部106により利得調整された音声信号は、通信部107により他の遠隔通信装置10に伝送される。なお、通信部107は、他の遠隔通信装置10から送信された音声信号を受信し、遠隔通信装置10は、通信部107により受信された音声信号を出力するための構成を有する。   The audio signal gain-adjusted by the gain adjusting unit 106 as described above is transmitted to another remote communication device 10 by the communication unit 107. The communication unit 107 receives an audio signal transmitted from another remote communication device 10, and the remote communication device 10 has a configuration for outputting the audio signal received by the communication unit 107.

以上、第1の実施形態による遠隔通信装置10の構成を説明した。続いて、図9を参照し、第1の実施形態による遠隔通信装置10の動作を説明する。   The configuration of the remote communication device 10 according to the first embodiment has been described above. Next, the operation of the remote communication device 10 according to the first embodiment will be described with reference to FIG.

図9は、第1の実施形態による遠隔通信装置10の動作を示したフローチャートである。図9に示したように、まず、遠隔通信装置10を発言レベル登録モードに設定し、各ユーザが事前発声を行う(S404)。そして、事前発声に基づく音声信号を音声検出部102が検出し、発言レベル学習部103が、音声検出部102により検出された音声信号の信号レベルに基づいて指向方向ごとの発言レベルを学習する(S408)。   FIG. 9 is a flowchart showing the operation of the remote communication device 10 according to the first embodiment. As shown in FIG. 9, first, the remote communication device 10 is set to the speech level registration mode, and each user utters in advance (S404). Then, the voice detection unit 102 detects the voice signal based on the prior utterance, and the utterance level learning unit 103 learns the utterance level for each pointing direction based on the signal level of the voice signal detected by the voice detection unit 102 ( S408).

続いて、会議運用モードにおいて、音声検出部102により音声信号が検出されると(S412)、発言判定部105が、音声検出部102により検出された音声信号の信号レベルが、検出方向に対応する発言レベルを上回っているか否かを判定する(S416)。   Subsequently, when a voice signal is detected by the voice detection unit 102 in the conference operation mode (S412), the speech determination unit 105 determines that the signal level of the voice signal detected by the voice detection unit 102 corresponds to the detection direction. It is determined whether or not the speech level is exceeded (S416).

そして、音声信号の信号レベルが発言レベルを上回っていると判定された場合、利得制御部106は、音声信号の信号レベルを発言伝送レベルに利得調整する(S420)。一方、音声信号の信号レベルが発言レベルを下回っていると判定された場合、利得制御部106は、音声信号の信号レベルを他音声伝送レベルに利得調整する、または利得調整を行わない(S424)。   When it is determined that the signal level of the audio signal is higher than the speech level, the gain control unit 106 adjusts the gain of the signal level of the audio signal to the speech transmission level (S420). On the other hand, when it is determined that the signal level of the audio signal is lower than the speech level, the gain control unit 106 adjusts the signal level of the audio signal to another audio transmission level or does not perform gain adjustment (S424). .

続いて、通信部107が、利得制御部106による利得調整後の音声信号を他の遠隔通信装置10に伝送する(S428)。その後、S412からの処理が繰り返される。   Subsequently, the communication unit 107 transmits the audio signal after the gain adjustment by the gain control unit 106 to another remote communication device 10 (S428). Thereafter, the processing from S412 is repeated.

(第1の実施形態の効果)
以上説明したように、第1の実施形態による遠隔通信装置10は、複数の指向方向からの収音信号から音声信号を検出する音声検出部102、ユーザによる事前発声に基づき指向方向ごとの発言レベルを学習する発言レベル学習部103、音声検出部102により検出された音声信号が発言レベルを上回るか否かを判定する発言判定部105、および、発言レベルを上回る音声信号を発言伝送レベルに増幅し、他の音声信号を発言伝送レベルより低い他音声伝送レベルに利得調整する利得制御部106を備える。
(Effects of the first embodiment)
As described above, the remote communication device 10 according to the first embodiment includes the voice detection unit 102 that detects a voice signal from sound-collected signals from a plurality of directional directions, and the utterance level for each directional direction based on prior utterances by the user. The speech level learning unit 103 for learning the speech, the speech determination unit 105 for determining whether or not the speech signal detected by the speech detection unit 102 exceeds the speech level, and the speech signal exceeding the speech level is amplified to the speech transmission level. The gain control unit 106 adjusts the gain of another audio signal to another audio transmission level lower than the speech transmission level.

したがって、第1の実施形態による遠隔通信装置10によれば、各ユーザによる発言を、ユーザごとの声の大きさの個人差、またはユーザ位置による影響を受けることなく、受聴ユーザが適切な音量レベルで聴くことが可能である。さらに、第1の実施形態による遠隔通信装置10によれば、発言以外の小音量の音声が発言と同レベルに増幅されることを防止しつつ、発言より小音量で伝えることが可能である。これにより、例えば独り言や雑談などの音声も除去されずに伝送されるので、受聴ユーザが、独り言や雑談などの音声から遠隔地の場の雰囲気や状況を知ることが可能となる。   Therefore, according to the remote communication device 10 according to the first embodiment, a user who listens to an appropriate volume level is not affected by the individual difference of the loudness of each user or the user position. It is possible to listen at. Furthermore, according to the remote communication device 10 according to the first embodiment, it is possible to convey a sound with a smaller volume than a speech while preventing a sound with a small volume other than a speech from being amplified to the same level as the speech. As a result, for example, speech such as monologue and chat is transmitted without being removed, so that the listening user can know the atmosphere and situation of the remote place from the speech such as monologue and chat.

(第2の実施形態)
次に、本発明の第2の実施形態について説明する。第1の実施形態においては、発言レベルを学習するために、会議開始に先立って遠隔通信装置10が発言レベル登録モードに設定される例を説明した。一方、第2の実施形態による遠隔通信装置10’は、発言レベルの学習に際し、特別な動作モードを設けず、会議運用中に逐次学習する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. In the first embodiment, an example has been described in which the remote communication device 10 is set to the speech level registration mode prior to the start of the conference in order to learn the speech level. On the other hand, the remote communication device 10 ′ according to the second embodiment sequentially learns during the conference operation without providing a special operation mode when learning the speech level.

ここで、会議開始時点では、各ユーザの発言レベルが学習されていないので、初期的な基準値が必要である。しかし、各ユーザの発言レベルは、遠隔通信装置10’と各ユーザとの位置関係により大きく異なるため、一律の基準値を与えることは最適ではない。   Here, since the speech level of each user is not learned at the start of the conference, an initial reference value is required. However, since the speech level of each user varies greatly depending on the positional relationship between the remote communication device 10 'and each user, it is not optimal to give a uniform reference value.

そこで、第2の実施形態においては、各ユーザと遠隔通信装置10’との距離を検出し、検出した距離に応じた値を発言レベルの初期値として設定することとした。以下、このような機能を実現するための第2の実施形態による遠隔通信装置10’について具体的に説明する。   Therefore, in the second embodiment, the distance between each user and the remote communication device 10 'is detected, and a value corresponding to the detected distance is set as the initial value of the speech level. Hereinafter, the remote communication device 10 ′ according to the second embodiment for realizing such a function will be described in detail.

図10は、第2の実施形態による遠隔通信装置10’の構成を示した機能ブロック図である。図10に示したように、第2の実施形態による遠隔通信装置10’は、音声方向検出部620および621と、音源位置検出部607と、発言レベル学習部608と、話者特性記録部609と、利得制御部610と、通信部611と、を備える。   FIG. 10 is a functional block diagram showing the configuration of the remote communication device 10 ′ according to the second embodiment. As shown in FIG. 10, the remote communication device 10 ′ according to the second embodiment includes voice direction detection units 620 and 621, a sound source position detection unit 607, a speech level learning unit 608, and a speaker characteristic recording unit 609. And a gain control unit 610 and a communication unit 611.

また、音声方向検出部620は、マイクロホンアレイ601、指向性形成部603、および音声検出部605を備え、音声方向検出部621は、マイクロホンアレイ602、指向性形成部604、および音声検出部606を備える。   The voice direction detection unit 620 includes a microphone array 601, a directivity forming unit 603, and a voice detection unit 605. The voice direction detection unit 621 includes a microphone array 602, a directivity formation unit 604, and a voice detection unit 606. Prepare.

マイクロホンアレイ601およびマイクロホンアレイ602は、第1の実施形態と同様に、直線状に配置された複数のマイクロホンで構成されており、既知である距離Dを隔てて配置されている。   Similarly to the first embodiment, the microphone array 601 and the microphone array 602 are configured by a plurality of microphones arranged linearly, and are arranged with a known distance D therebetween.

指向性形成部603は、マイクロホンアレイ601による受音信号から指向方向ごとの収音信号を取得し、音声検出部605は、指向方向ごとの収音信号から音声信号を検出する。指向性形成部604も同様に、マイクロホンアレイ602による受音信号から指向方向ごとの収音信号を取得し、音声検出部606は、指向方向ごとの収音信号から音声信号を検出する。指向性の形成方法および音声信号の検出方法は第1の実施形態で説明したので、詳細な説明を省略する。   The directivity forming unit 603 acquires a sound collection signal for each directivity direction from a sound reception signal by the microphone array 601, and the sound detection unit 605 detects a sound signal from the sound collection signal for each directivity direction. Similarly, the directivity forming unit 604 acquires a sound collection signal for each directivity direction from the sound reception signal by the microphone array 602, and the sound detection unit 606 detects the sound signal from the sound collection signal for each directivity direction. Since the directivity formation method and the audio signal detection method have been described in the first embodiment, a detailed description thereof will be omitted.

音源位置検出部607は、音声検出部605により音声信号が検出された方向、音声検出部606により音声が検出された方向、および、マイクロホンアレイ601およびマイクロホンアレイ602間の距離Dに基づき、音源位置を検出する。以下、図11を参照して具体的に説明する。   The sound source position detection unit 607 is based on the direction in which the sound signal is detected by the sound detection unit 605, the direction in which the sound is detected by the sound detection unit 606, and the distance D between the microphone array 601 and the microphone array 602. Is detected. Hereinafter, a specific description will be given with reference to FIG.

図11は、音源位置(ユーザ位置)と、マイクロホンアレイ601およびマイクロホンアレイ602との位置関係を示した説明図である。マイクロホンアレイ601から見た音源方向θ1は音声検出部605により検出され、マイクロホンアレイ602から見た音源方向θ2は音声検出部606により検出される。また、マイクロホンアレイ601およびマイクロホンアレイ602間の距離Dは既知である。ここで、音源方向θ1、音源方向θ2、および距離Dは、マイクロホンアレイ601、マイクロホンアレイ602および音源を頂点に有する三角形の2角挟辺に相当する。   FIG. 11 is an explanatory diagram showing the positional relationship between the sound source position (user position) and the microphone array 601 and microphone array 602. The sound source direction θ1 viewed from the microphone array 601 is detected by the sound detection unit 605, and the sound source direction θ2 viewed from the microphone array 602 is detected by the sound detection unit 606. The distance D between the microphone array 601 and the microphone array 602 is known. Here, the sound source direction θ 1, the sound source direction θ 2, and the distance D correspond to a triangular sandwiched side of a triangle having the microphone array 601, the microphone array 602, and the sound source as vertices.

したがって、音源位置検出部607は、音源方向θ1、音源方向θ2、および距離Dに基づき、三角測量の原理に従って音源位置を特定することができる。例えば、音源位置検出部607は、所定の数式に音源方向θ1、音源方向θ2、および距離Dを代入することにより音源位置を特定してもよい。または、音源方向θ1、音源方向θ2、および音源位置の関係を示す事前に作成されたテーブルに基づいて音源位置を特定してもよい。   Therefore, the sound source position detection unit 607 can specify the sound source position according to the principle of triangulation based on the sound source direction θ1, the sound source direction θ2, and the distance D. For example, the sound source position detection unit 607 may specify the sound source position by substituting the sound source direction θ1, the sound source direction θ2, and the distance D into a predetermined mathematical expression. Alternatively, the sound source position may be specified based on a table created in advance showing the relationship between the sound source direction θ1, the sound source direction θ2, and the sound source position.

さらに、音源位置検出部607は、特定した音源位置から、音源位置と遠隔通信装置10’との距離を算出し、発言レベル学習部608に供給する。なお、音源位置と遠隔通信装置10’との距離は、音源位置とマイクロホンアレイ601との距離であってもよい。   Furthermore, the sound source position detection unit 607 calculates the distance between the sound source position and the remote communication device 10 ′ from the specified sound source position, and supplies it to the speech level learning unit 608. Note that the distance between the sound source position and the remote communication device 10 ′ may be the distance between the sound source position and the microphone array 601.

発言レベル学習部608は、音声検出部605により音声信号が検出された方向が初めての方向である場合、すなわち、新規ユーザの方向である場合、当該方向と、音源位置検出部607により算出された距離に応じた発言レベルとを対応付けて話者特性記録部609に設定する。   The speech level learning unit 608 calculates the direction and the sound source position detection unit 607 when the direction in which the audio signal is detected by the audio detection unit 605 is the first direction, that is, the direction of a new user. The speech level corresponding to the distance is set in the speaker characteristic recording unit 609 in association with the speech level.

具体的には、ユーザと遠隔通信装置10’との距離が遠いほど、ユーザが同じ音量で発言しても音声信号の遠隔通信装置10における信号レベルは減衰してしまう。したがって、発言レベル学習部608は、音源位置検出部607により算出された距離が長いほど、発言レベルを小さなレベルに設定する。より詳細には、音波の信号レベルは進行距離の2乗に反比例するので、発言レベル学習部608は、音源位置検出部607により算出された距離の2乗に反比例するように発言レベルを設定してもよい。   Specifically, as the distance between the user and the remote communication device 10 ′ increases, the signal level of the audio signal in the remote communication device 10 is attenuated even if the user speaks at the same volume. Therefore, the speech level learning unit 608 sets the speech level to a smaller level as the distance calculated by the sound source position detection unit 607 is longer. More specifically, since the signal level of the sound wave is inversely proportional to the square of the travel distance, the speech level learning unit 608 sets the speech level so that it is inversely proportional to the square of the distance calculated by the sound source position detection unit 607. May be.

また、発言レベル学習部608は、発言レベルが既設定である方向から音声信号が検出されると、音声信号の信号レベルに応じて発言レベルを逐次更新する。例えば、発言レベル学習部608は、音声信号の信号レベルが発言レベルを上回っている場合、音声信号の信号レベルと発言レベルの差分に比例するレベルだけ発言レベルを高めてもよい。   In addition, when a speech signal is detected from a direction in which the speech level is already set, the speech level learning unit 608 sequentially updates the speech level according to the signal level of the speech signal. For example, the speech level learning unit 608 may raise the speech level by a level proportional to the difference between the signal level of the speech signal and the speech level when the signal level of the speech signal exceeds the speech level.

また、本実施形態においては、発言レベル学習部608は、発言判定部としての機能を包含する。すなわち、発言レベル学習部608は、音声検出部605により検出された音声信号の信号レベルが、音声信号の検出方向に対応する発言レベルを上回っているか否かを判定する。   In the present embodiment, the speech level learning unit 608 includes a function as a speech determination unit. That is, the speech level learning unit 608 determines whether or not the signal level of the audio signal detected by the audio detection unit 605 is higher than the speech level corresponding to the detection direction of the audio signal.

利得制御部610は、第1の実施形態の利得制御部106と同様に、発言レベル学習部608により発言レベルを上回ると判定された音声信号を、信号レベルが発言伝送レベルになるように利得調整する。一方、利得制御部610は、発言レベル学習部608により発言レベルを下回ると判定された音声信号を、発言伝送レベルより低い他音声伝送レベルに利得調整する。または、利得制御部610は、発言レベル学習部608により発言レベルを下回ると判定された音声信号は利得調整せず、そのまま出力してもよい。上記のように利得調整部106により利得調整された音声信号は、通信部107により他の遠隔通信装置10’に伝送される。   Similarly to the gain control unit 106 of the first embodiment, the gain control unit 610 adjusts the gain of the audio signal determined by the speech level learning unit 608 to exceed the speech level so that the signal level becomes the speech transmission level. To do. On the other hand, the gain control unit 610 adjusts the gain of the audio signal determined to be below the speech level by the speech level learning unit 608 to another audio transmission level lower than the speech transmission level. Alternatively, the gain control unit 610 may output the speech signal determined to be below the speech level by the speech level learning unit 608 without adjusting the gain. The audio signal whose gain has been adjusted by the gain adjusting unit 106 as described above is transmitted to the other remote communication device 10 ′ by the communication unit 107.

以上、第2の実施形態による遠隔通信装置10’の構成を説明した。続いて、図12を参照し、第2の実施形態による遠隔通信装置10’の動作を説明する。   The configuration of the remote communication device 10 ′ according to the second embodiment has been described above. Next, the operation of the remote communication device 10 'according to the second embodiment will be described with reference to FIG.

図12は、第2の実施形態による遠隔通信装置10’の動作を示したフローチャートである。図12に示したように、音声検出部605および音声検出部606により音声信号が検出されると(S504)、音源位置検出部607は、音声検出部605および音声検出部606により音声信号が検出された方向に基づき、音源位置を検出する(S508)。   FIG. 12 is a flowchart showing the operation of the remote communication device 10 'according to the second embodiment. As shown in FIG. 12, when the audio signal is detected by the audio detection unit 605 and the audio detection unit 606 (S504), the sound source position detection unit 607 detects the audio signal by the audio detection unit 605 and the audio detection unit 606. Based on the determined direction, the sound source position is detected (S508).

また、発言レベル学習部608は、音声検出部605により音声信号が検出された方向が初めての方向である場合(S512)、音源位置検出部607により検出された音源位置と遠隔通信装置10’との距離に応じて発言レベルを設定する(S516)。   Also, the speech level learning unit 608, when the direction in which the audio signal is detected by the audio detection unit 605 is the first direction (S512), the sound source position detected by the sound source position detection unit 607, the remote communication device 10 ′, The speech level is set according to the distance (S516).

一方、発言レベルが既設定である方向から音声信号が検出された場合、発言レベル学習部608は、音声信号の信号レベルが発言レベルを上回るか否かを判定する(S520)。そして、音声信号の信号レベルが発言レベルを上回ると判定された場合、利得制御部610は、音声信号の信号レベルを発言伝送レベルに利得調整する(S524)。また、音声信号の信号レベルが発言レベルを下回ると判定された場合、利得制御部610は、音声信号の信号レベルを発言伝送レベルより低い他音声伝送レベルに利得調整する(S528)。   On the other hand, when a speech signal is detected from a direction in which the speech level is already set, the speech level learning unit 608 determines whether the signal level of the speech signal exceeds the speech level (S520). If it is determined that the signal level of the audio signal exceeds the speech level, the gain control unit 610 adjusts the gain of the signal level of the audio signal to the speech transmission level (S524). If it is determined that the signal level of the audio signal is lower than the speech level, the gain control unit 610 adjusts the gain of the signal level of the audio signal to another audio transmission level lower than the speech transmission level (S528).

続いて、通信部611が、利得制御部610による利得調整後の音声信号を他の遠隔通信装置10’に伝送する(S532)。その後、S504からの処理が繰り返される。   Subsequently, the communication unit 611 transmits the audio signal after the gain adjustment by the gain control unit 610 to another remote communication device 10 '(S532). Thereafter, the processing from S504 is repeated.

(第2の実施形態の効果)
以上説明したように、第2の実施形態によれば、発言レベル学習モードなどの動作モードを遠隔通信装置10’に設けずに、会議運用中に発言レベルを学習、設定することができる。より詳細には、各ユーザと遠隔通信装置10’との距離を検出し、検出した距離に応じた値を発言レベルの初期値として設定することが可能である。
(Effect of 2nd Embodiment)
As described above, according to the second embodiment, it is possible to learn and set a speech level during a conference operation without providing an operation mode such as a speech level learning mode in the remote communication device 10 ′. More specifically, it is possible to detect the distance between each user and the remote communication device 10 ′ and set a value corresponding to the detected distance as the initial value of the speech level.

なお、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。   Although the preferred embodiments of the present invention have been described in detail with reference to the accompanying drawings, the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.

例えば、本明細書の遠隔通信装置10および10’の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、遠隔通信装置10および10’の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。   For example, each step in the processing of the remote communication devices 10 and 10 ′ in this specification does not necessarily have to be processed in time series in the order described as the flowchart. For example, each step in the processing of the remote communication devices 10 and 10 ′ may be processed in an order different from the order described as the flowchart, or may be processed in parallel.

また、遠隔通信装置10および10’に内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上述した遠隔通信装置10および10’の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。   It is also possible to create a computer program for causing hardware such as CPU, ROM and RAM incorporated in the remote communication devices 10 and 10 'to perform the same functions as the components of the remote communication devices 10 and 10' described above. It is. A storage medium storing the computer program is also provided.

10、10’ 遠隔通信装置
12 通信網
100、601、602 マイクロホンアレイ
101、603、604 指向性形成部
102、605、606 音声検出部
103、608 発言レベル学習部
104、609 話者特性記録部
105 発言判定部
106、610 利得制御部
107、611 通信部
301−1、301−m FFT
302 遅延制御部
303−1、303−m 乗算部
304 加算部
305 逆FFT
607 音源位置検出部

10, 10 'Remote communication device 12 Communication network 100, 601, 602 Microphone array 101, 603, 604 Directivity forming unit 102, 605, 606 Voice detection unit 103, 608 Speech level learning unit 104, 609 Speaker characteristic recording unit 105 Statement determination unit 106, 610 Gain control unit 107, 611 Communication unit 301-1, 301-m FFT
302 Delay control unit 303-1, 303-m Multiplication unit 304 Addition unit 305 Inverse FFT
607 Sound source position detection unit

Claims (7)

指向性を形成して指向方向ごとに信号を取得する信号取得部と;
指向方向と信号閾値が対応付けて記録される記録部と;
前記信号取得部により取得された信号から音声信号を検出する音声検出部と;
前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回るか否かを判断する判断部と;
前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整を行う利得制御部と;
を備え、
前記利得制御部は、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する、収音装置。
A signal acquisition unit that forms directivity and acquires a signal for each direction;
A recording unit in which the pointing direction and the signal threshold are recorded in association with each other;
An audio detection unit for detecting an audio signal from the signal acquired by the signal acquisition unit;
A determination unit that determines whether a signal level of the audio signal detected by the audio detection unit exceeds a signal threshold value corresponding to a directivity direction in which the audio signal is acquired;
A gain control unit that adjusts a gain of an audio signal that exceeds the signal threshold to a first signal level based on a determination result by the determination unit;
With
The sound collection device, wherein the gain control unit does not perform gain adjustment of an audio signal that is lower than the signal threshold value, or performs gain adjustment to a second signal level lower than the first signal level.
前記収音装置は、
前記記録部に指向方向と対応付けて記録される信号閾値を話者の事前発声に基づいて学習する学習部をさらに備え、
前記学習部は、前記事前発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記事前発声により取得された前記音声信号の信号レベルに基づいて学習する、請求項1に記載の収音装置。
The sound collecting device includes:
A learning unit that learns a signal threshold value recorded in association with a directivity direction on the recording unit based on a speaker's prior utterance,
The learning unit learns a signal threshold corresponding to a directivity direction in which an audio signal is acquired based on the prior utterance based on a signal level of the audio signal acquired by the prior utterance. The sound collecting device described in 1.
前記収音装置は、
話者による発声に基づいて前記話者と前記収音装置との距離を検出する位置検出部と;
前記発声に基づいて音声信号が取得された指向方向に対応する信号閾値を、前記位置検出部により検出された前記話者と前記収音装置との距離に応じて設定する学習部と;
をさらに備える、請求項1に記載の収音装置。
The sound collecting device includes:
A position detection unit that detects a distance between the speaker and the sound collection device based on the utterance by the speaker;
A learning unit that sets a signal threshold corresponding to a directivity direction in which an audio signal is acquired based on the utterance according to a distance between the speaker detected by the position detection unit and the sound collection device;
The sound collection device according to claim 1, further comprising:
前記学習部は、前記位置検出部により検出された前記話者と前記収音装置との距離が長いほど、信号閾値を小さなレベルに設定する、請求項3に記載の収音装置。   The sound collection device according to claim 3, wherein the learning unit sets a signal threshold value to a smaller level as the distance between the speaker detected by the position detection unit and the sound collection device is longer. 前記収音装置は、
離隔して配置された複数組のマイクロホンアレイをさらに備え、
前記信号取得部は、前記複数組のマイクロホンアレイによる収音信号の各々から指向方向ごとの信号を取得し、
前記位置検出部は、前記複数組のマイクロホンアレイによる収音信号の各々から前記発声に基づく音声信号が取得された指向方向、および前記複数組のマイクロホンアレイの配置間隔に基づいて前記話者と前記収音装置との距離を検出する、請求項3に記載の収音装置。
The sound collecting device includes:
Further comprising a plurality of sets of microphone arrays spaced apart,
The signal acquisition unit acquires a signal for each directivity direction from each of the collected sound signals by the plurality of microphone arrays,
The position detection unit is configured to determine whether the voice signal based on the utterance is acquired from each of the collected signals from the plurality of sets of microphone arrays and the speaker and the position based on the arrangement interval of the plurality of sets of microphone arrays. The sound collection device according to claim 3, wherein a distance from the sound collection device is detected.
指向方向と信号閾値を対応付けて記録するステップと;
指向性を形成して指向方向ごとに信号を取得するステップと;
取得された信号から音声信号を検出するステップと;
検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断するステップと;
前記信号閾値を上回る音声信号を第1の信号レベルに利得調整するステップと;
を含み、
前記信号閾値を下回る音声信号に対しては、利得調整が行われない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整される、利得調整方法。
Recording the pointing direction and the signal threshold in association with each other;
Forming a directivity and acquiring a signal for each directivity direction;
Detecting an audio signal from the acquired signal;
Determining whether the signal level of the detected audio signal is above a signal threshold corresponding to the direction of orientation from which the audio signal was acquired;
Adjusting a gain of an audio signal that exceeds the signal threshold to a first signal level;
Including
A gain adjustment method in which gain adjustment is not performed for an audio signal that is less than the signal threshold, or the gain is adjusted to a second signal level lower than the first signal level.
コンピュータを、
指向性を形成して指向方向ごとに信号を取得する信号取得部と;
指向方向と信号閾値が対応付けて記録される記録部と;
前記信号取得部により取得された信号から音声信号を検出する音声検出部と;
前記音声検出部により検出された音声信号の信号レベルが、前記音声信号が取得された指向方向に対応する信号閾値を上回っているか否かを判断する判断部と;
前記判断部による判断結果に基づき、前記信号閾値を上回る音声信号を第1の信号レベルに利得調整し、前記信号閾値を下回る音声信号の利得調整を行わない、または、前記第1の信号レベルより低い第2の信号レベルに利得調整する利得制御部と;
として機能させるための、プログラム。


Computer
A signal acquisition unit that forms directivity and acquires a signal for each direction;
A recording unit in which the pointing direction and the signal threshold are recorded in association with each other;
An audio detection unit for detecting an audio signal from the signal acquired by the signal acquisition unit;
A determination unit that determines whether or not a signal level of the audio signal detected by the audio detection unit exceeds a signal threshold value corresponding to a directivity direction in which the audio signal is acquired;
Based on the determination result by the determination unit, the audio signal that exceeds the signal threshold is gain-adjusted to the first signal level, and the gain adjustment of the audio signal that is less than the signal threshold is not performed, or from the first signal level A gain controller for adjusting the gain to a low second signal level;
Program to function as


JP2009224668A 2009-09-29 2009-09-29 Sound collecting device, gain control method, and program Expired - Fee Related JP5246120B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009224668A JP5246120B2 (en) 2009-09-29 2009-09-29 Sound collecting device, gain control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009224668A JP5246120B2 (en) 2009-09-29 2009-09-29 Sound collecting device, gain control method, and program

Publications (2)

Publication Number Publication Date
JP2011077649A true JP2011077649A (en) 2011-04-14
JP5246120B2 JP5246120B2 (en) 2013-07-24

Family

ID=44021203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009224668A Expired - Fee Related JP5246120B2 (en) 2009-09-29 2009-09-29 Sound collecting device, gain control method, and program

Country Status (1)

Country Link
JP (1) JP5246120B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164164A (en) * 2013-02-26 2014-09-08 Fuji Xerox Co Ltd Voice analysis device, signal analyzer, voice analysis system and program
JP2014191201A (en) * 2013-03-27 2014-10-06 Fuji Xerox Co Ltd Voice analysis system, voice analysis device, and program
JP2015023508A (en) * 2013-07-22 2015-02-02 沖電気工業株式会社 Sound gathering device and program
JP2016111673A (en) * 2014-07-30 2016-06-20 株式会社タムラ製作所 Automatic voice adjustment device
EP3091753A1 (en) * 2015-05-06 2016-11-09 Xiaomi Inc. Method and device of optimizing sound signal
JP2017108240A (en) * 2015-12-08 2017-06-15 シャープ株式会社 Information processing apparatus and information processing method
US9959881B2 (en) 2016-08-03 2018-05-01 Ricoh Company, Ltd. Voice processing device, audio and video output apparatus, communication system, and sound processing method
CN112151058A (en) * 2019-06-28 2020-12-29 大众问问(北京)信息科技有限公司 Sound signal processing method, device and equipment
CN112669878A (en) * 2020-12-23 2021-04-16 北京声智科技有限公司 Method and device for calculating sound gain value and electronic equipment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241588A (en) * 1992-03-02 1993-09-21 Fujitsu Ltd Threshold value determining method
JP2009017343A (en) * 2007-07-06 2009-01-22 Yamaha Corp Sound pickup device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05241588A (en) * 1992-03-02 1993-09-21 Fujitsu Ltd Threshold value determining method
JP2009017343A (en) * 2007-07-06 2009-01-22 Yamaha Corp Sound pickup device

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164164A (en) * 2013-02-26 2014-09-08 Fuji Xerox Co Ltd Voice analysis device, signal analyzer, voice analysis system and program
JP2014191201A (en) * 2013-03-27 2014-10-06 Fuji Xerox Co Ltd Voice analysis system, voice analysis device, and program
JP2015023508A (en) * 2013-07-22 2015-02-02 沖電気工業株式会社 Sound gathering device and program
JP2016111673A (en) * 2014-07-30 2016-06-20 株式会社タムラ製作所 Automatic voice adjustment device
EP3091753A1 (en) * 2015-05-06 2016-11-09 Xiaomi Inc. Method and device of optimizing sound signal
US10499156B2 (en) 2015-05-06 2019-12-03 Xiaomi Inc. Method and device of optimizing sound signal
JP2017108240A (en) * 2015-12-08 2017-06-15 シャープ株式会社 Information processing apparatus and information processing method
US9959881B2 (en) 2016-08-03 2018-05-01 Ricoh Company, Ltd. Voice processing device, audio and video output apparatus, communication system, and sound processing method
CN112151058A (en) * 2019-06-28 2020-12-29 大众问问(北京)信息科技有限公司 Sound signal processing method, device and equipment
CN112151058B (en) * 2019-06-28 2023-09-15 大众问问(北京)信息科技有限公司 Sound signal processing method, device and equipment
CN112669878A (en) * 2020-12-23 2021-04-16 北京声智科技有限公司 Method and device for calculating sound gain value and electronic equipment
CN112669878B (en) * 2020-12-23 2024-04-19 北京声智科技有限公司 Sound gain value calculation method and device and electronic equipment

Also Published As

Publication number Publication date
JP5246120B2 (en) 2013-07-24

Similar Documents

Publication Publication Date Title
JP5246120B2 (en) Sound collecting device, gain control method, and program
US10553235B2 (en) Transparent near-end user control over far-end speech enhancement processing
US10149049B2 (en) Processing speech from distributed microphones
AU2016201028B2 (en) Signal enhancement using wireless streaming
CN106548783B (en) Voice enhancement method and device, intelligent sound box and intelligent television
US20120163624A1 (en) Directional sound source filtering apparatus using microphone array and control method thereof
DK2835986T3 (en) Hearing aid with input transducer and wireless receiver
CN108235181B (en) Method for noise reduction in an audio processing apparatus
US20120303363A1 (en) Processing Audio Signals
EP2732638B1 (en) Speech enhancement system and method
EP3189521A1 (en) Method and apparatus for enhancing sound sources
EP2715725A2 (en) Processing audio signals
CN110875056B (en) Speech transcription device, system, method and electronic device
US10529358B2 (en) Method and system for reducing background sounds in a noisy environment
JP2001309483A (en) Sound pickup method and sound pickup device
US11653156B2 (en) Source separation in hearing devices and related methods
US10602276B1 (en) Intelligent personal assistant
JPH1118192A (en) Sound pickup method and its device
JP2017522594A (en) Multi Auditory MMSE Analysis Technique for Clarifying Speech Signal
JPH1118193A (en) Reception state detection method and its system
JP2007329753A (en) Voice communication device and voice communication device
US10419851B2 (en) Retaining binaural cues when mixing microphone signals
JP2019537071A (en) Processing sound from distributed microphones
JP2008294600A (en) Sound emission and collection apparatus and sound emission and collection system
JP2009302983A (en) Sound processor, and sound processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Ref document number: 5246120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees