JP2009100372A - Call device - Google Patents

Call device Download PDF

Info

Publication number
JP2009100372A
JP2009100372A JP2007271640A JP2007271640A JP2009100372A JP 2009100372 A JP2009100372 A JP 2009100372A JP 2007271640 A JP2007271640 A JP 2007271640A JP 2007271640 A JP2007271640 A JP 2007271640A JP 2009100372 A JP2009100372 A JP 2009100372A
Authority
JP
Japan
Prior art keywords
sound
unit
dead point
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007271640A
Other languages
Japanese (ja)
Other versions
JP5086768B2 (en
Inventor
Minoru Fukushima
実 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Electric Works Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Electric Works Co Ltd filed Critical Panasonic Electric Works Co Ltd
Priority to JP2007271640A priority Critical patent/JP5086768B2/en
Publication of JP2009100372A publication Critical patent/JP2009100372A/en
Application granted granted Critical
Publication of JP5086768B2 publication Critical patent/JP5086768B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a call device capable of suppressing howling and improving the sound quality at the same time. <P>SOLUTION: The call device is equipped with a call receiver 1 for transducing into voices an audio signal which is an electric signal made by transducing voices, a call transmitter 2 for transducing voices into an audio signal, and an input/output portion 3 for amplifying the audio signal output by the call transmitter 2 and outputting the amplified signal to the outside while amplifying an audio signal input from the outside and inputting the amplified signal to the call receiver 1. The call transmitter 2 comprises a sound receiving portion 5 for outputting sound pressures of incoming voices, their time differential values, and spatial differential values of the sound pressures in respective axis directions of a two-dimensional Cartesian coordinate system and an audio signal generating portion 6 for performing a preset dead-point formation processing by a spatio-temporal gradient method by using the sound pressures, time differential values, and spatial differential values output by the sound receiving portion 5, creating an audio signal to form a sensitivity-minimizing dead point in the position of the call receiver 1, and outputting the signal to the input/output portion 3. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、通話装置に関するものである。   The present invention relates to a call device.

従来から、音声が変換された電気信号である音声信号を音声に変換する受話部と、音声を音声信号に変換する送話部と、送話部が出力した音声信号を増幅して外部に出力するとともに外部から入力された音声信号を増幅して受話部に入力する入出力部とを備える通話装置が、例えばインターホンシステムに用いられている。   Conventionally, a receiving unit that converts an audio signal, which is an electrical signal into which voice is converted, into a voice, a transmitting unit that converts voice into a voice signal, and an audio signal output from the transmitting unit is amplified and output to the outside. In addition, a call device including an input / output unit that amplifies an audio signal input from the outside and inputs the signal to a receiving unit is used in, for example, an intercom system.

この種の通話装置では、受話部から出力された音声が送話部に入力されて音声信号として入出力部で増幅され受話部から再び音声として出力されるというループで発生する発振により異常な音が発生する、いわゆるハウリングと呼ばれる現象を抑制する必要がある。   In this type of communication device, the sound output from the receiver unit is input to the transmitter unit, amplified as an audio signal at the input / output unit, and output again as speech from the receiver unit. It is necessary to suppress a so-called howling phenomenon.

そして、ハウリングの発生を抑えるために、図7に示すように、スピーカーからなる受話部1に近接配置され主に受話部1から出力された音が入力される第1のマイクロホンM1と、第1のマイクロホンよりも受話部1から離れた位置に配置され話者の音声が受話部1からの音とともに入力される第2のマイクロホンM2と、第2のマイクロホンの出力M2から第1のマイクロホンの出力M1と共通する成分を低減させることにより受話部1の出力の寄与を低減した音声信号を生成する音声処理部(図示せず)とで送話部を構成した通話装置が提案されている(例えば、特許文献1参照)。   Then, in order to suppress the occurrence of howling, as shown in FIG. 7, a first microphone M1 that is disposed in the vicinity of the reception unit 1 composed of a speaker and to which the sound mainly output from the reception unit 1 is input, The second microphone M2 is arranged at a position farther from the receiver 1 than the microphone of the first microphone, and the voice of the speaker is input together with the sound from the receiver 1, and the output of the first microphone from the output M2 of the second microphone. There has been proposed a communication device in which a transmitting unit is configured with a voice processing unit (not shown) that generates a voice signal in which the contribution of the output of the receiving unit 1 is reduced by reducing components common to M1 (for example, , See Patent Document 1).

上記の通話装置によれば、受話部1の出力した音声に対応する成分が音声信号から除去されることになるから、ハウリングの発生は抑制される。
特開2007−151135号公報
According to the above communication device, since the component corresponding to the voice output from the receiver 1 is removed from the voice signal, the occurrence of howling is suppressed.
JP 2007-151135 A

しかし、第1のマイクロホンM1の出力には、音声信号に含むべき話者の音声も含まれるため、上記の通話装置では受話部1で発生した音だけでなく話者の音声まで抑制されることになり、結果として通話の音質が低下してしまうという問題があった。   However, since the output of the first microphone M1 includes the voice of the speaker that should be included in the voice signal, the above-described call device suppresses not only the sound generated by the receiver 1 but also the voice of the speaker. As a result, there is a problem that the sound quality of the call is deteriorated.

また、本発明者の実験によれば、上記方法により音声信号において受話部1からの音に対応する成分が抑制される程度は、音の周波数に依存することが判明している。   Further, according to the experiment of the present inventor, it has been found that the degree to which the component corresponding to the sound from the receiver 1 is suppressed in the audio signal by the above method depends on the frequency of the sound.

本発明は、上記事由に鑑みて為されたものであり、その目的は、ハウリングを抑制しながらも音質を向上することができる通話装置を提供することにある。   The present invention has been made in view of the above reasons, and an object of the present invention is to provide a communication device capable of improving sound quality while suppressing howling.

請求項1の発明は、音声が変換された電気信号である音声信号を音声に変換する受話部と、音声を音声信号に変換する送話部と、送話部が出力した音声信号を増幅して外部に出力するとともに外部から入力された音声信号を増幅して受話部に入力する入出力部と、受話部と送話部とがそれぞれ固定されたハウジングとを備える通話装置であって、送話部は、入射した音の音圧と前記音圧の時間微分値と二次元直交座標系の各軸方向についての前記音圧の空間微分値とをそれぞれ出力する受音手段と、受音手段が出力した音圧と時間微分値と空間微分値とを用いて時空間勾配法による所定の不感点形成処理を行うことにより感度が最小となる不感点が受話部の位置に形成されるような音声信号を生成して入出力部へ出力する送話信号生成手段とを有することを特徴とする。   According to the first aspect of the present invention, there is provided a receiving unit that converts an audio signal, which is an electric signal obtained by converting a voice, into a voice, a transmitting unit that converts voice into a voice signal, and amplifies the voice signal output from the transmitting unit. A communication device comprising: an input / output unit for amplifying an audio signal input from the outside and inputting the amplified signal to the receiving unit; and a housing in which the receiving unit and the transmitting unit are respectively fixed. The speech unit includes a sound receiving unit that outputs a sound pressure of the incident sound, a time differential value of the sound pressure, and a spatial differential value of the sound pressure with respect to each axial direction of the two-dimensional orthogonal coordinate system, and a sound receiving unit By using the sound pressure, time differential value, and spatial differential value output from, a predetermined dead point formation process by the spatiotemporal gradient method is performed, so that a dead point with the lowest sensitivity is formed at the position of the receiver. Transmission signal generating means for generating a voice signal and outputting it to the input / output unit; Characterized in that it has.

この発明によれば、ハウリングを抑制しながらも、時空間勾配法を用いない場合に比べて音質を向上することができる。   According to the present invention, it is possible to improve sound quality as compared with the case where the spatiotemporal gradient method is not used while suppressing howling.

請求項2の発明は、請求項1の発明において、送話部は、送話部の受音手段の位置に対する受話部の相対的な位置が入力される位置入力手段と、位置入力手段に位置が入力されたときに、音声信号において形成される不感点の位置が位置入力手段に入力された位置となるように、送話信号生成手段が不感点形成処理に用いるべきパラメータを演算するとともに、送話信号生成手段が不感点形成処理に用いるパラメータを、前記演算によって得られたパラメータに更新させるパラメータ演算手段とを有することを特徴とする。   According to a second aspect of the present invention, in the first aspect of the present invention, the transmitter is provided with position input means for inputting a relative position of the receiver relative to the position of the sound receiver of the transmitter, and the position input means. When the voice signal is input, the transmission signal generating means calculates the parameter to be used for the dead point forming process so that the position of the dead point formed in the audio signal is the position input to the position input means. And a parameter calculation unit that updates a parameter used by the transmission signal generation unit for the dead point forming process to the parameter obtained by the calculation.

この発明によれば、位置入力手段に位置を入力することにより、送話部と受話部との位置関係が異なる複数種類の通話装置で送話部を共用可能となる。   According to the present invention, by inputting the position to the position input means, it is possible to share the transmitter with a plurality of types of communication devices having different positional relationships between the transmitter and receiver.

請求項3の発明は、請求項1又は請求項2の発明において、送話部は1個の半導体チップに構成されていることを特徴とする。   According to a third aspect of the present invention, in the first or second aspect of the present invention, the transmitter is configured as a single semiconductor chip.

この発明によれば、送話部を構成する受音手段や送話信号生成手段を個々の部品で構成する場合に比べて小型化が可能となる。   According to the present invention, it is possible to reduce the size as compared with the case where the sound receiving means and the transmission signal generating means constituting the transmitting section are configured by individual components.

請求項4の発明は、請求項1〜3のいずれかの発明において、送話部の少なくとも受音部と受話部とがそれぞれ固定されるとともにハウジングに固定されたケースを備えることを特徴とする。   According to a fourth aspect of the present invention, in any one of the first to third aspects of the present invention, at least the sound receiving section and the receiving section of the transmitting section are respectively fixed and provided with a case fixed to the housing. .

この発明によれば、製造時には、送話部の少なくとも受音部と受話部とがそれぞれケースに固定されたものを1個の通話モジュールとして扱うことにより、受話部と送話部の受音部との位置関係が共通する複数種類の通話装置で、通話モジュールを構成する部品や、通話モジュールの製造用の製造設備を共用とし、製造コストを低減することができる。   According to the present invention, at the time of manufacture, at least the sound receiving unit and the sound receiving unit of the transmitting unit are each fixed to the case as a single call module, so that the sound receiving unit and the sound receiving unit of the transmitting unit are used. With a plurality of types of communication devices having the same positional relationship, the components constituting the communication module and the manufacturing equipment for manufacturing the communication module can be shared, and the manufacturing cost can be reduced.

請求項5の発明は、請求項1〜4のいずれかの発明において、受音手段は、通話装置のハウジングに対して直接的又は間接的に固定される被支持部及び被支持部に対しジンバル構造を介して揺動可能に支持され音圧を受ける振動部とを有する振動板と、それぞれ振動板の互いに異なる箇所に設けられて振動板の振動部が入射した音の音圧により受けた力を電気信号に変換する複数個の音圧検出部と、複数個の音圧検出部の出力を用いて音圧と空間微分値と時間微分値とを得る時空間勾配測定処理部とを有することを特徴とする。   According to a fifth aspect of the present invention, in any one of the first to fourth aspects of the present invention, the sound receiving means includes a supported portion that is fixed directly or indirectly to the housing of the communication device and a gimbal with respect to the supported portion. The vibration received through the sound pressure of the sound incident on the diaphragm, which is provided at different locations of the diaphragm, and is provided with a diaphragm that is supported so as to be swingable through the structure and that receives the sound pressure. A plurality of sound pressure detectors for converting sound into an electrical signal, and a spatiotemporal gradient measurement processor for obtaining sound pressure, spatial differential values, and temporal differential values using outputs of the plurality of sound pressure detectors It is characterized by.

請求項6の発明は、請求項1〜4のいずれかの発明において、受音手段は、矩形の頂点の配置で設けられそれぞれ入射した音の音圧を電気信号に変換する4個のマイクロホンと、各マイクロホンの出力を用いた演算により音圧と空間微分値と時間微分値とを得る時空間勾配測定処理部とを有することを特徴とする。   According to a sixth aspect of the present invention, in any one of the first to fourth aspects of the present invention, the sound receiving means includes four microphones that are arranged in a rectangular apex and convert sound pressures of incident sounds into electric signals. And a spatiotemporal gradient measurement processing unit that obtains a sound pressure, a spatial differential value, and a temporal differential value by calculation using the output of each microphone.

請求項7の発明は、請求項1〜6のいずれかの発明において、送話部は、動作モードの切換の指示が入力される指示入力手段を有し、送話信号生成手段は、指示入力手段に入力された指示に応じて、受話部の位置に不感点を形成する不感点形成モードに加えて、不感点形成処理を行わず受音手段が出力した音圧のみに基いた音声信号を生成する無指向性モードにも、動作モードを切換可能であることを特徴とする。   The invention according to claim 7 is the invention according to any one of claims 1 to 6, wherein the transmitter has an instruction input means for inputting an instruction for switching the operation mode, and the transmission signal generating means is an instruction input. In response to an instruction input to the means, in addition to the dead point forming mode for forming a dead point at the position of the receiving part, an audio signal based only on the sound pressure output by the sound receiving means without performing the dead point forming process is generated. The operation mode can also be switched to the omnidirectional mode to be generated.

この発明によれば、ハウリングが発生するおそれがない場合には動作モードを無指向性モードに切り換えることにより、音源の位置に関わりなく受音手段に入力される全ての音声を出力可能とし、また、損失を低減して音質を向上することができる。   According to the present invention, when there is no possibility of occurrence of howling, by switching the operation mode to the omnidirectional mode, all sounds input to the sound receiving means can be output regardless of the position of the sound source. , The loss can be reduced and the sound quality can be improved.

請求項8の発明は、請求項1〜7のいずれかの発明において、送話部は、動作モードの切換の指示が入力される指示入力手段を有し、送話信号生成手段は、指示入力手段に入力された指示に応じて、受話部の位置に不感点を形成する不感点形成モードに加えて、受音手段が出力した音圧と時間微分値と空間微分値とを用いた時空間勾配法により予め設定された目標位置に不感点を形成するように生成された音声信号と、受音手段が出力した音圧のみに基いた音声信号とを用い、前記目標位置近傍の音源からの音による音圧を選択的に反映した音声信号を生成して出力する集音エリア形成モードにも、動作モードを切換可能であることを特徴とする。   The invention of claim 8 is the invention according to any one of claims 1 to 7, wherein the transmitter has an instruction input means for inputting an instruction to switch the operation mode, and the transmission signal generating means is an instruction input. A space-time using sound pressure, time differential value and space differential value output by the sound receiving means in addition to the dead point forming mode for forming the dead point at the position of the receiving part according to the instruction input to the means Using an audio signal generated so as to form a dead point at a target position set in advance by a gradient method and an audio signal based only on the sound pressure output by the sound receiving means, a sound source near the target position is used. The operation mode can also be switched to a sound collection area forming mode for generating and outputting a sound signal that selectively reflects sound pressure due to sound.

この発明によれば、話者の位置を目標位置として不感点形成モードで動作させることにより、話者の周囲の雑音が音声信号に与える影響を低減することができる。   According to the present invention, the influence of noise around the speaker on the voice signal can be reduced by operating in the dead point formation mode with the position of the speaker as the target position.

請求項1の発明によれば、送話部が、入射した音の音圧と前記音圧の時間微分値と二次元直交座標系の各軸方向についての前記音圧の空間微分値とをそれぞれ出力する受音手段と、受音手段が出力した音圧と時間微分値と空間微分値とを用いて時空間勾配法による所定の不感点形成処理を行うことにより感度が最小となる不感点が受話部の位置に形成されるような音声信号を生成して入出力部へ出力する送話信号生成手段とを有するので、ハウリングを抑制しながらも、時空間勾配法を用いない場合に比べて音質を向上することができる。   According to the first aspect of the present invention, the transmitting unit transmits the sound pressure of the incident sound, the time differential value of the sound pressure, and the spatial differential value of the sound pressure in each axial direction of the two-dimensional orthogonal coordinate system. There is a dead point where the sensitivity is minimized by performing a predetermined dead point forming process by a spatiotemporal gradient method using the sound receiving means to output, the sound pressure output by the sound receiving means, the time differential value, and the spatial differential value. Compared to the case where the spatio-temporal gradient method is not used while suppressing howling, since it has a transmission signal generation means for generating an audio signal formed at the position of the receiver and outputting it to the input / output unit. Sound quality can be improved.

請求項2の発明によれば、送話部は、送話部の受音手段の位置に対する受話部の相対的な位置が入力される位置入力手段と、位置入力手段に位置が入力されたときに、音声信号において形成される不感点の位置が位置入力手段に入力された位置となるように、送話信号生成手段が不感点形成処理に用いるべきパラメータを演算するとともに、送話信号生成手段が不感点形成処理に用いるパラメータを、前記演算によって得られたパラメータに更新させるパラメータ演算手段とを有するので、位置入力手段に位置を入力することにより、送話部と受話部との位置関係が異なる複数種類の通話装置で送話部を共用可能となる。   According to the invention of claim 2, the transmitter is configured to input the relative position of the receiver with respect to the position of the receiver of the transmitter, and when the position is input to the position input unit In addition, the transmission signal generation means calculates parameters to be used for the dead point formation processing so that the position of the dead point formed in the voice signal is the position input to the position input means, and the transmission signal generation means Has parameter calculation means for updating the parameter used for the dead point formation processing to the parameter obtained by the calculation, so that the positional relationship between the transmission part and the reception part is obtained by inputting the position to the position input means. The transmitter can be shared by a plurality of different types of communication devices.

請求項3の発明によれば、送話部は1個の半導体チップに構成されているので、送話部を構成する受音手段や送話信号生成手段を個々の部品で構成する場合に比べて小型化が可能となる。   According to the third aspect of the present invention, since the transmitter section is constituted by one semiconductor chip, compared to the case where the sound receiving means and the transmission signal generating means constituting the transmitter section are constituted by individual parts. And downsizing is possible.

請求項4の発明によれば、製造時には、送話部の少なくとも受音部と受話部とがそれぞれケースに固定されたものを1個の通話モジュールとして扱うことにより、受話部と送話部の受音部との位置関係が共通する複数種類の通話装置で、通話モジュールを構成する部品や、通話モジュールの製造用の製造設備を共用とし、製造コストを低減することができる。   According to the invention of claim 4, at the time of manufacture, at least the sound receiving unit and the receiving unit of the transmitting unit are each fixed to the case as one call module, so that the receiving unit and the transmitting unit are connected. A plurality of types of communication devices having a common positional relationship with the sound receiving unit can share parts constituting the communication module and manufacturing equipment for manufacturing the communication module, thereby reducing manufacturing costs.

請求項7の発明によれば、不感点形成処理を行わず受音手段が出力した音圧のみに基いた音声信号を生成する無指向性モードにも、動作モードを切換可能であるので、ハウリングが発生するおそれがない場合には動作モードを無指向性モードに切り換えることにより、音源の位置に関わりなく受音手段に入力される全ての音声を出力可能とし、また、損失を低減して音質を向上することができる。   According to the seventh aspect of the present invention, the operation mode can be switched to the omnidirectional mode in which the voice signal is generated only based on the sound pressure output from the sound receiving means without performing the dead point forming process. If there is no possibility of occurrence of noise, switching the operation mode to the omnidirectional mode enables output of all audio input to the sound receiving means regardless of the position of the sound source, and also reduces sound quality by reducing loss. Can be improved.

請求項8の発明によれば、受音手段が出力した音圧と時間微分値と空間微分値とを用いた時空間勾配法により予め設定された目標位置に不感点を形成するように生成された音声信号と、受音手段が出力した音圧のみに基いた音声信号とを用い、前記目標位置近傍の音源からの音による音圧を選択的に反映した音声信号を生成して出力する集音エリア形成モードにも、動作モードを切換可能であるので、話者の位置を目標位置として不感点形成モードで動作させることにより、話者の周囲の雑音が音声信号に与える影響を低減することができる。   According to invention of Claim 8, it is produced | generated so that a dead point may be formed in the target position preset by the spatiotemporal gradient method using the sound pressure which the sound receiving means output, the time differential value, and the space differential value. A sound signal that selectively reflects the sound pressure due to the sound from the sound source in the vicinity of the target position using the sound signal that is based on only the sound pressure output from the sound receiving means and the sound signal output from the sound receiving means. Since the operation mode can be switched to the sound area formation mode, the influence of noise around the speaker on the audio signal can be reduced by operating in the dead point formation mode with the speaker position as the target position. Can do.

以下、本発明を実施するための最良の形態について、図面を参照しながら説明する。   The best mode for carrying out the present invention will be described below with reference to the drawings.

本実施形態は、図1に示すように、音声が変換された電気信号である音声信号を音声に変換する受話部1と、音声を音声信号に変換する送話部2と、送話部2が出力した音声信号を増幅して外部に出力するとともに外部から入力された音声信号を増幅して受話部1に入力する入出力部3とを備える。受話部1と送話部2とはそれぞれハウジング4に固定されており、互いの位置関係が変化することはない。   In the present embodiment, as shown in FIG. 1, a receiving unit 1 that converts an audio signal, which is an electrical signal obtained by converting a voice, into a voice, a transmitting unit 2 that converts a voice into a voice signal, and a transmitting unit 2 And an input / output unit 3 that amplifies the audio signal input from the outside and inputs the amplified audio signal to the receiver unit 1. The receiver 1 and transmitter 2 are each fixed to the housing 4 so that the positional relationship between them does not change.

受話部1は、例えば周知のスピーカーからなる。   The receiver 1 is composed of, for example, a known speaker.

入出力部3は、例えば信号線(図示せず)を介して通話対象の機器に接続される通信部31と、送話部2が出力した音声信号を増幅して通信部31を介して外部に出力するとともに外部から通信部31に入力された音声信号を増幅して受話部1に入力する通話処理部32とからなる。本実施形態をインターホンシステムの子器として用いる場合には、通信部31が接続される通話対象の機器はインターホンシステムの親機となる。通話処理部32は、通信部31から入力された音声信号を増幅する第1の受話側増幅器32aと、第1の受話側増幅器32aが出力した音声信号を減衰させる受話側減衰器ILRと、受話側減衰器ILRが出力した音声信号を増幅して受話部1に入力する第2の受話側増幅器32bと、送話部2から入力された音声信号を増幅する第1の送話側増幅器32cと、第1の送話側増幅器32cが出力した音声信号を減衰させる送話側減衰器ILTと、送話側減衰器ILTが出力した音声信号を増幅して通信部31を介して外部へ出力する第2の送話側増幅器32dと、通話処理部32の各減衰器ILR,ILTの減衰率をそれぞれ制御する減衰制御部32eとからなる。減衰制御部32eは、受話側減衰器ILRを通過する音声信号(以下、「受話信号」と呼ぶ。)の強度と送話側減衰器ILTを通過する音声信号(以下、「送話信号」と呼ぶ。)の強度とを比較し、減衰器ILR,ILTのうち、より強度の低い音声信号が通過する一方の減衰器ILR,ILTの減衰率を、他方の減衰器ILR,ILTの減衰率よりも高くする。つまり、通話処理部32は、受話部1に入力される音声信号の音量(受話音量)と送話部2から出力される音声信号の音量(送話音量)とのうち小さい方をより小さくすることにより、ループゲインを低くしてハウリングを抑制するのであり、通話処理部32は全体としていわゆるボイススイッチとなっている。   The input / output unit 3 amplifies the voice signal output from the communication unit 31 connected to the device to be talked via, for example, a signal line (not shown) and the transmission unit 2, and is externally connected via the communication unit 31. And a call processing unit 32 that amplifies an audio signal input from the outside to the communication unit 31 and inputs the amplified signal to the receiver unit 1. When this embodiment is used as a slave unit of an interphone system, a device to be connected to which the communication unit 31 is connected is a master unit of the interphone system. The call processing unit 32 includes a first receiver-side amplifier 32a that amplifies a voice signal input from the communication unit 31, a receiver-side attenuator ILR that attenuates a voice signal output from the first receiver-side amplifier 32a, and a receiver. A second receiver amplifier 32b that amplifies the voice signal output from the side attenuator ILR and inputs the amplified signal to the receiver unit 1, and a first transmitter amplifier 32c that amplifies the voice signal input from the transmitter unit 2; The transmission side attenuator ILT for attenuating the audio signal output from the first transmission side amplifier 32c and the audio signal output from the transmission side attenuator ILT are amplified and output to the outside via the communication unit 31. It comprises a second transmitter amplifier 32d and an attenuation control unit 32e for controlling the attenuation rate of each attenuator ILR, ILT of the call processing unit 32. The attenuation control unit 32e includes the intensity of the voice signal passing through the receiving side attenuator ILR (hereinafter referred to as “receiving signal”) and the voice signal passing through the transmitting side attenuator ILT (hereinafter referred to as “transmission signal”). And the attenuation rate of one of the attenuators ILR and ILT through which the lower-intensity audio signal passes is determined from the attenuation rate of the other attenuator ILR and ILT. Also make it high. That is, the call processing unit 32 reduces the smaller one of the volume of the audio signal input to the receiver 1 (received volume) and the volume of the audio signal output from the transmitter 2 (transmitted volume). Thus, the loop gain is lowered to suppress howling, and the call processing unit 32 is a so-called voice switch as a whole.

送話部2は、図2に示すように、入射した音の音圧と前記音圧の時間微分値と二次元直交座標系の各軸方向についてそれぞれ前記音圧の空間微分値とを出力する受音部5と、受音部5が出力した音圧と時間微分値と空間微分値とを用いて時空間勾配法による所定の不感点形成処理を行うことにより感度が最小となる不感点が受話部1の位置に形成されるような音声信号を生成して入出力部3の通話処理部32へ出力する送話信号生成手段としての音声信号生成部6とを有する。   As shown in FIG. 2, the transmitter 2 outputs the sound pressure of the incident sound, the time differential value of the sound pressure, and the spatial differential value of the sound pressure for each axial direction of the two-dimensional orthogonal coordinate system. There is a dead point at which the sensitivity is minimized by performing the predetermined dead point forming process by the spatiotemporal gradient method using the sound receiving unit 5 and the sound pressure, the time differential value, and the spatial differential value output by the sound receiving unit 5. The voice signal generation unit 6 as a transmission signal generation unit that generates a voice signal formed at the position of the reception unit 1 and outputs the voice signal to the call processing unit 32 of the input / output unit 3.

詳しく説明すると、受音部5は、三次元直交座標系のx軸に平行な向きとy軸に平行な向きとにそれぞれ2列ずつ並ぶように正方形の頂点の配置で設けられた無指向性の4個のマイクロホン50A,50B,50C,50Dと、マイクロホン50A〜50Dの出力信号fA(t),fB(t),fC(t),fD(t)に対して時空間勾配測定処理を行う時空間勾配測定処理部51とを具備する。時空間勾配測定処理部51では、各マイクロホン50A〜50Dの出力信号fA(t),fB(t),fC(t),fD(t)から音圧の同相成分M(t)、時間微分値(時間勾配成分)Mt(t)、x軸方向空間微分値(x軸方向空間勾配成分)Mx(t)、y軸方向空間微分値(y軸方向空間勾配成分)My(t)をそれぞれ下式より求める。 More specifically, the sound receiving unit 5 is provided with an omnidirectional arrangement in which square vertices are arranged so that two rows are arranged in a direction parallel to the x-axis and a direction parallel to the y-axis in the three-dimensional orthogonal coordinate system. Of four microphones 50A, 50B, 50C, 50D and the output signals f A (t), f B (t), f C (t), f D (t) of the microphones 50A-50D And a spatiotemporal gradient measurement processing unit 51 for performing measurement processing. In the spatiotemporal gradient measurement processing unit 51, the in-phase component M (t) of the sound pressure is determined from the output signals f A (t), f B (t), f C (t), and f D (t) of the microphones 50A to 50D. , Time differential value (time gradient component) M t (t), x-axis direction spatial differential value (x-axis direction spatial gradient component) M x (t), y-axis direction spatial differential value (y-axis direction spatial gradient component) M Each y (t) is obtained from the following equation.

M(t)=fA(t)+fB(t)+fC(t)+fD(t)
t(t)=dfA(t)/dt+dfB(t)/dt+dfC(t)/dt+dfD(t)/dt
x(t)=fA(t)+fB(t)−fC(t)−fD(t)
y(t)=fA(t)−fB(t)+fC(t)−fD(t)
音声信号生成部6は、受音部5から出力される同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を用いて、時空間勾配法を応用することで不感点を形成するものである。
M (t) = f A (t) + f B (t) + f C (t) + f D (t)
M t (t) = df A (t) / dt + df B (t) / dt + df C (t) / dt + df D (t) / dt
M x (t) = f A (t) + f B (t) −f C (t) −f D (t)
M y (t) = f A (t) -f B (t) + f C (t) -f D (t)
The audio signal generation unit 6 outputs the in-phase component M (t), the time differential value M t (t), the x-axis direction spatial differential value M x (t), and the y-axis direction spatial differential value M output from the sound receiving unit 5. A dead point is formed by applying the spatiotemporal gradient method using y (t).

ここで、音声信号生成部6による不感点形成処理を説明するに当たって、初めに時空間勾配法について詳しく説明する。   Here, in describing the dead point formation processing by the audio signal generation unit 6, the space-time gradient method will be described in detail first.

時空間勾配法とは、そもそも動画像中の見かけの速度場であるオプティカルフローを決定する手法の一つとして提案されたものである(参考文献1参照)。動画像中の濃淡パターンの特徴を表す画像関数f(x,y,t)が、運動に際し不変に保たれるとの仮定(f(x,y,t)=f(x+δx,y+δy,t+δt))より、ある点(x,y)におけるオプティカルフローの速度と、動画像の濃淡分布の空間勾配および時間勾配を関係付ける式をもとにした解析手法である。以下、この手法について詳しく解説する。   The spatiotemporal gradient method was originally proposed as one of the methods for determining an optical flow that is an apparent velocity field in a moving image (see Reference 1). Assumption (f (x, y, t) = f (x + δx, y +) that the image function f (x, y, t) representing the characteristics of the light and shade pattern in the moving image is kept unchanged during the movement. δy, t + δt)), the analysis method is based on an equation that relates the velocity of the optical flow at a certain point (x, y) to the spatial gradient and temporal gradient of the gray-scale distribution of the moving image. The method will be explained in detail below.

時刻t+δtにおいて、座標(x+δx,y+δy)での濃淡パターンf(x+δx,y+δy,t+δt)を(x,y,t)のまわりでテーラー展開すると、
f(x+δx,y+δy,t+δt)=f(x,y,t)+fxδx+fyδy+ftδt+O(δx+δy+δt)…(1)
となる。ここで、O(δx+δy+δt)はδx,δy,δtの2次以上の項であるが、微小量であ
るために以降では無視する。この時、時刻tにおいて座標(x,y)にある濃淡パターンが、
δt時刻経過した後に座標(x+δx,y+δy)にその濃度値分布を一定に保ったまま移動した時、その対応付けから次式が成り立つ。
At time t + δt, when the density pattern f (x + δx, y + δy, t + δt) at coordinates (x + δx, y + δy) is tailored around (x, y, t),
f (x + δx, y + δy, t + δt) = f (x, y, t) + f x δx + f y δy + f t δt + O (δx + δy + δt) ... (1)
It becomes. Here, O (δx + δy + δt) is a second-order or higher term of δx, δy, δt, but is ignored in the following because it is a minute amount. At this time, the shading pattern at the coordinates (x, y) at time t is
When the density value distribution is moved to the coordinates (x + Δx, y + Δy) after the time Δt has elapsed, the following equation is established from the correspondence.

f(x,y,t)=f(x+δx,y+δy,t+δt)
=f(x,y,t)+fxδx+fyδy+ftδt …(2)
xδx+fyδy+ftδt=0 …(3)
式(3)の両辺をδtで割ると、
xδx/δt+fyδy/δt+ft=0 …(4)
を得る。ここで、δtが無限小であると仮定して、δt→0とすると次式を得る。
f (x, y, t) = f (x + δx, y + δy, t + δt)
= f (x, y, t ) + f x δx + f y δy + f t δt ... (2)
f x δx + f y δy + f t δt = 0 ... (3)
Dividing both sides of equation (3) by δt,
f x δx / δt + f y δy / δt + f t = 0 ... (4)
Get. Here, assuming that δt is infinitesimal, assuming that δt → 0, the following equation is obtained.

xdx/dt+fydy/dt+ft=0 …(5)
オプティカルフロー速度v=(u,v)=(dx/dt,dy/dt)を用いると、式(5)は、
ufx+vfy+ft=0 …(6)
となり、式(6)は動画像の濃淡値の時間、空間に関する勾配とオプティカルフロー速度vとを関係付ける式である。
f x dx / dt + f y dy / dt + f t = 0 ... (5)
Using optical flow velocity v = (u, v) = (dx / dt, dy / dt), equation (5) becomes
uf x + vf y + f t = 0 ... (6)
Equation (6) is an equation relating the gradient of time and space of the gray value of the moving image to the optical flow velocity v.

次に、「ある着目点の近傍領域Γにおいて速度場はほぼ一定であると近似できる」という仮定を行う。この時、領域Γ内のいたるところで式(6)が成立しなければならない。そこで、式(6)の左辺の2乗積分(下記の式(7))を用いて評価し、最小自乗法によって速度場を求める。   Next, an assumption is made that “the velocity field can be approximated to be almost constant in the vicinity region Γ of a certain point of interest”. At this time, Equation (6) must be established everywhere in the region Γ. Therefore, evaluation is performed using the square integral on the left side of equation (6) (the following equation (7)), and the velocity field is obtained by the method of least squares.

Figure 2009100372
Figure 2009100372

式(7)をu,vに関して微分し、0とおくと、
uSxx+vSxy+Sxt=0,uSxy+vSyy+Syt=0 …(8)
Differentiating equation (7) with respect to u and v and setting it to 0,
uS xx + vS xy + S xt = 0, uS xy + vS yy + S yt = 0… (8)

Figure 2009100372
Figure 2009100372

が得られる。式(8)を解くと速度ベクトル(u,v)は
u=(SytSxy-SxtSyy)/(SxxSyy-S2 xy),v=(SxtSxy-SytSxx)/(SxxSyy-S2 xy) …(10)
のように求められる。
Is obtained. Solving equation (8) gives the velocity vector (u, v)
u = (S yt S xy -S xt S yy ) / (S xx S yy -S 2 xy ), v = (S xt S xy -S yt S xx ) / (S xx S yy -S 2 xy )… (Ten)
It is required as follows.

次に、上述の動画像中のオプティカルフロー速度を求める時空間勾配法を応用して、音源が空間中に作る音場のある1点における音圧とその時空間勾配の間に成り立つ線形関係に基づいて、音源位置を定位する手法について説明する(参考文献2参照)。   Next, by applying the spatiotemporal gradient method for obtaining the optical flow velocity in the moving image described above, based on the linear relationship established between the sound pressure at one point in the sound field created by the sound source in the space and the spatiotemporal gradient. A method for localizing the sound source position will be described (see Reference 2).

図3に示すように観測点を原点とする三次元直交座標系を取り、その前方(z>0)に互いに無相関な点音源が複数個あるとする。音速をc、i番目の音源の座標を(xi,yi,zi)、音源と観測点との距離をRi=(xi 2+yi 2+zi 2)1/2、音源音をgi(t)、各音源が観測点に形成する音場をfi(t)とすると、観測点に形成される合成音場fはこれらからの球面波の和として、 As shown in FIG. 3, it is assumed that a three-dimensional orthogonal coordinate system having an observation point as an origin is taken, and there are a plurality of point sources that are uncorrelated with each other in front (z> 0). The speed of sound is c, the coordinates of the i-th sound source are (x i , y i , z i ), the distance between the sound source and the observation point is R i = (x i 2 + y i 2 + z i 2 ) 1/2 , the source sound g i (t), as the sum of the spherical waves of the sound field in which each sound source is formed at the observation point when the f i (t), the composite sound field f that is formed at the observation point from these,

Figure 2009100372
Figure 2009100372

と表される。これを偏微分することにより、観測点での音場のx,y微分、時間微分は下記
の式(12),(13),(14)で表される。
It is expressed. By performing partial differentiation, the x, y differentiation and time differentiation of the sound field at the observation point are expressed by the following equations (12), (13), (14).

Figure 2009100372
Figure 2009100372

ここで、
ξi x=xi/Ri 2i y=yi/Ri 2 …(15)
は強度勾配と呼ばれ、
τi x=xi/cRii y=yi/cRi …(16)
はx,y方向時間勾配と呼ばれる。
here,
ξ i x = x i / R i 2 , ξ i y = y i / R i 2 (15)
Is called the intensity gradient,
τ i x = x i / cR i , τ i y = y i / cR i (16)
Is called the time gradient in the x and y directions.

次に簡単のため、1音源の場合の音源定位手法について述べる。1音源の場合、式(12),(13)は
fx=-ξxf-τxft,fy=-ξyf-τyft …(17)
となり、式(1)と同様に最小自乗法を適用してτxyxyを求める。短時間の時間窓Γにおいて評価関数を
J=∫Γ{(fxxf+τxft)2+(fyyf+τyft)2}dt …(18)
とする。式(18)をτxyxyに関して偏微分し、0とおくと下式が得られる。
Next, for the sake of simplicity, a sound source localization method in the case of one sound source will be described. For one sound source, equations (12) and (13) are
f x = -ξ x f-τ x f t , f y = -ξ y f-τ y f t (17)
Thus, τ x , τ y , ξ x , ξ y are obtained by applying the method of least squares in the same manner as in equation (1). The evaluation function in the short time window Γ
J = ∫ Γ {(f x + ξ x f + τ x f t) 2 + (f y + ξ y f + τ y f t) 2} dt ... (18)
And When the equation (18) is partially differentiated with respect to τ x , τ y , ξ x , ξ y and set to 0, the following equation is obtained.

∂J/∂τx=∫Γ2(fxxf+τxft)・ftdt=0,∂J/∂τy=∫Γ2(fyyf+τyft)・ftdt=0
…(19)
∂J/∂ξx=∫Γ2(fxxf+τxft)・ftdt=0,∂J/∂ξy=∫Γ2(fyyf+τyft)・ftdt=0
…(20)
ここで、観測窓Γから推定される共分散行列を
∂J / ∂τ x = ∫ Γ 2 (f x + ξ x f + τ x f t ) ・ f t dt = 0, ∂J / ∂τ y = ∫ Γ 2 (f y + ξ y f + τ y f t ) ・ f t dt = 0
… (19)
∂J / ∂ξ x = ∫ Γ 2 (f x + ξ x f + τ x f t ) ・ f t dt = 0, ∂J / ∂ξ y = ∫ Γ 2 (f y + ξ y f + τ y f t ) ・ f t dt = 0
… (20)
Where the covariance matrix estimated from the observation window Γ is

Figure 2009100372
Figure 2009100372

とおくと、式(19),(20)は
SxtxStxStt=0,SytyStyStt=0 …(22)
SxxS+τxSt=0,SyyS+τySt=0 …(23)
と書き直される。式(22),(23)を解くことにより、τx,τy,ξx,ξyが次式のように求め
られる。
Then, equations (19) and (20) are
S xt + ξ x S t + τ x S tt = 0, S yt + ξ y S t + τ y S tt = 0… (22)
S x + ξ x S + τ x S t = 0, S y + ξ y S + τ y S t = 0… (23)
Rewritten. By solving Expressions (22) and (23), τx, τy, ξx, and ξy are obtained as follows.

τx=(SxSt-SSxt)/(SStt-St 2),τy=(SySt-SSyt)/(SStt-St 2) …(24)
ξx=(SxtSt-SxStt)/(SStt-St 2),ξy=(SytSt-SyStt)/(SStt-St 2) …(25)
音源の方位角(x/R,y/R)=(cτx,cτy)については式(21),(24)から求められる。音源までの距離Rについては、式(15),(16)から最小自乗法を適用することにより求められる。評価関数を
τ x = (S x S t -SS xt ) / (SS tt -S t 2 ) 、 τy = (S y S t -SS yt ) / (SS tt -S t 2 )… (24)
ξ x = (S xt S t -S x S tt) / (SS tt -S t 2), ξy = (S yt S t -S y S tt) / (SS tt -S t 2) ... (25)
The azimuth angle (x / R, y / R) = (cτ x , cτ y ) of the sound source can be obtained from equations (21) and (24). The distance R to the sound source can be obtained by applying the least square method from the equations (15) and (16). Evaluation function

Figure 2009100372
Figure 2009100372

とし、これを1/Rで偏微分して0とおくと And this is a partial differential with 1 / R and set to 0

Figure 2009100372
Figure 2009100372

となる。これを解くと
R=c(τx 2y 2)/(τxξxyξy) …(28)
のように音源までの距離が求められる。
It becomes. Solving this
R = c (τ x 2 + τ y 2 ) / (τ x ξ x + τ y ξ y )… (28)
The distance to the sound source is required.

次に、音場の時空間勾配を利用して、指向性制御を行う手法について解説する(参考文献3〜5参照)。今、1音源の場合を仮定すると、観測点における音圧信号f(t)のx,y方向の空間勾配は式(12),(13)より   Next, a method for directivity control using the spatiotemporal gradient of the sound field will be described (see References 3 to 5). Assuming the case of one sound source, the spatial gradient in the x and y directions of the sound pressure signal f (t) at the observation point is given by equations (12) and (13).

Figure 2009100372
Figure 2009100372

となる。この式を音源から観測点に向かうベクトルr=(x,y,z)を用いて書き直すと It becomes. When this equation is rewritten using the vector r = (x, y, z) from the sound source to the observation point,

Figure 2009100372
Figure 2009100372

となる。次にf(t),ft(t),∇f(t)が観測される時、これらの荷重和は It becomes. Then f (t), f t ( t), when ∇f (t) is observed, these weighted sum is

Figure 2009100372
Figure 2009100372

と表される。ただし、u,utは実数定数、w=(wx,wy,0)は観測点を原点とし、任意の方向を
向いている単位ベクトルである。式(30)を式(31)に代入すると、
It is expressed. Here, u and u t are real constants, and w = (w x , w y , 0) is a unit vector with the observation point as the origin and pointing in an arbitrary direction. Substituting equation (30) into equation (31),

Figure 2009100372
Figure 2009100372

となる。よって時空間勾配の荷重和は、f(t),ft(t)に対してそれぞれ異なる指向特性H(r),Ht(r)をもつフィルタの和として表される。H(r)=αのとき、式(33)は It becomes. Therefore, the load sum of the spatiotemporal gradient is expressed as the sum of filters having different directivity characteristics H (r) and H t (r) for f (t) and f t (t), respectively. When H (r) = α, equation (33) becomes

Figure 2009100372
Figure 2009100372

と変形できる。ここで、2つのベクトルa,bの成す角をθとすると以下の公式が成り立つ。 And can be transformed. Here, if the angle formed by the two vectors a and b is θ, the following formula holds.

Figure 2009100372
Figure 2009100372

式(38)の公式を用いると式(36)は次式のように書き換えられる。 Using the formula of equation (38), equation (36) can be rewritten as

Figure 2009100372
Figure 2009100372

ここで、|w|=1より、 Here, from | w | = 1,

Figure 2009100372
Figure 2009100372

という球の方程式で表される。u+α=0の場合には、式(35)は
r・w=0 …(42)
となる。また、Ht(r)=αの時には式(34)は
It is expressed by the sphere equation. When u + α = 0, equation (35) becomes r · w = 0 (42)
It becomes. Also, when H t (r) = α, equation (34) becomes

Figure 2009100372
Figure 2009100372

となるので、ベクトルrとwの成す角をθ(r)とすると|w|=1より Therefore, if the angle between vectors r and w is θ (r), | w | = 1

Figure 2009100372
Figure 2009100372

となる。よって、式(43)は It becomes. Therefore, equation (43) becomes

Figure 2009100372
Figure 2009100372

となる。 It becomes.

式(41)、(42)、(45)より、H(r),Ht(r)について次のような性質を得る。
1)2つの指向特性H(r),Ht(r)はwを軸とする回転対称体をもつ
2)H(r)=0の時、rの分布は直径1/u(u≠0)の球面または平面(u=0)を成す
3)Ht(r)=0の時、rの分布は頂角2cut(ut≠0)の円錐面または平面(ut=0)を成す
4)H(r)=0とHt(r)=0の時のrの分布の交わりは円または平面を成す
式(32)を周波数領域に変換すると、
From the equations (41), (42), and (45), the following properties are obtained for H (r) and H t (r).
1) The two directivity characteristics H (r) and H t (r) have a rotationally symmetric body with w as the axis. 2) When H (r) = 0, the distribution of r has a diameter 1 / u (u ≠ 0). ) To form a spherical surface or plane (u = 0) 3) When H t (r) = 0, the distribution of r forms a conical surface or plane (u t = 0) with apex angle 2cu t (ut ≠ 0) 4) The intersection of the distributions of r when H (r) = 0 and H t (r) = 0 is a circle or plane.

Figure 2009100372
Figure 2009100372

を得る。よって音源rからs(t)への周波数応答T(r,w)は、
T(r,w)=H(r)+jωHt(r) …(47)
となり、H(r),Ht(r)が実数であればT(r,w)=0となる場合には
H(r)=0,Ht(r)=0 …(48)
となる。故に、式(47)からS(ω)=0となる零点分布は、周波数ωに依存せず、音源位置rのみに依存することが分かる。したがって、観測点における音圧の時間勾配とx,y方向の空間勾配が得られる時に、零感度領域(不感点)を形成するには、ある瞬間においてf,ft,fx,fyの荷重和を取り、補償フィルタ処理(低域通過フィルタ処理)を施すだけでよい。
Get. Therefore, the frequency response T (r, w) from the sound source r to s (t) is
T (r, w) = H (r) + jωH t (r) (47)
If H (r) and H t (r) are real numbers, if T (r, w) = 0, H (r) = 0, H t (r) = 0 (48)
It becomes. Therefore, it can be seen from equation (47) that the zero distribution where S (ω) = 0 does not depend on the frequency ω, but only on the sound source position r. Therefore, the time slope and x of the sound pressure at the observation point, when the spatial gradient in the y-direction is obtained, to form the zero sensitivity region (dead point), at a certain moment f, f t, f x, the f y It is only necessary to take the load sum and perform compensation filter processing (low-pass filter processing).

本実施形態の音声信号生成部6は、受音部5から出力される同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を要素とするベクトルM=(M(t) Mt(t) Mx(t) My(t))Tを定義し、これらに対する荷重を要素とする係数ベクトルW=(W Wtxy)Tとの荷重和を演算した後、低域通過フィルタ61aを通すことによって、予め決められた任意位置に不感点を形成する不感点形成部61を有する。具体的には、上述の指向特性H(r),Ht(r)をそれぞれH1(ri),H2(ri)と置き換えて下記のように定義する(但し、riは音源iの位置ベクトル、nix,niyはそれぞれri/|ri|のx成分とy成分である。)。 The audio signal generation unit 6 of the present embodiment includes an in-phase component M (t), a time differential value M t (t), an x-axis direction spatial differential value M x (t), and a y-axis direction output from the sound receiving unit 5. coefficient vector defining the vector M = (M (t) M t (t) M x (t) M y (t)) T to the spatial differential value M y (t) components, the load for these as elements After calculating the load sum with W = (W W t W x W y ) T , it has a dead point forming unit 61 that forms a dead point at a predetermined arbitrary position by passing through the low-pass filter 61a. . Specifically, the directivity characteristics H (r) and H t (r) described above are replaced with H 1 (r i ) and H 2 (r i ), respectively, and defined as follows (where r i is a sound source) i's position vectors, n ix and n iy are the x and y components of r i / | r i |, respectively).

Figure 2009100372
Figure 2009100372

さらに、これらのH1(ri),H2(ri)に対して、下記の式(51),(52)のような2つの拘束条件をおく。
WHH1(ri)=p …(51)
WHH2(ri)=q …(52)
ここで、p,qはそれぞれ正の実数定数である。すると、係数ベクトルWを用いた荷重和によるゲインは係数ベクトルWには依存せずp+jωqとなるので、これを補償するために、図2の不感点形成部61においては、荷重和をとる段の後段に、(p+jωq)-1という1次の低域通過フィルタ61aを設けている。これにより、位置riにある音源iに対して不感点形成部61全体でのゲインは1となっている。さらに、送話部2の受音部5の位置に対し、想定される話者の位置を示すベクトルをr1とおき、p,qはそれぞれ例えばp=1/|r1|,q=1/cとする。
Further, two constraint conditions such as the following formulas (51) and (52) are set for these H 1 (r i ) and H 2 (r i ).
W H H 1 (r i ) = p… (51)
W H H 2 (r i ) = q… (52)
Here, p and q are positive real constants, respectively. Then, the gain due to the load sum using the coefficient vector W does not depend on the coefficient vector W and becomes p + jωq. In order to compensate for this, the dead point forming unit 61 in FIG. A first-order low-pass filter 61a of (p + jωq) −1 is provided after the stage. As a result, the gain of the dead point forming unit 61 as a whole is 1 with respect to the sound source i at the position r i . Furthermore, a vector indicating the position of the assumed speaker is set as r 1 with respect to the position of the sound receiving unit 5 of the transmitting unit 2, and p and q are, for example, p = 1 / | r 1 |, q = 1, respectively. / c.

すると、係数ベクトルWは、式(51),(52)の条件のもとで、観測時間区間Γにおける不感点形成部61の出力パワー   Then, the coefficient vector W is the output power of the dead point forming unit 61 in the observation time interval Γ under the conditions of the equations (51) and (52).

Figure 2009100372
Figure 2009100372

を最小化するというMinimum Variance Beamformer(MV法)を用いることにより得られる。この解は、下記の式(54),(55)のように表される。 Is obtained by using a Minimum Variance Beamformer (MV method) for minimizing. This solution is expressed by the following equations (54) and (55).

Figure 2009100372
Figure 2009100372

但し、式(55)のBij(i,j=a,x,y)は式(56)で表されるものであり、式(56)のba(t),bx(t),by(t)はそれぞれ式(57)〜(59)で表されるものである。 However, Bij (i, j = a, x, y) in equation (55) is expressed by equation (56), and b a (t), b x (t), b in equation (56) y (t) is represented by the equations (57) to (59), respectively.

なお、低域通過フィルタ61aを用いる代わりに、WHH1(ri)=0かつWHH2(ri)=0となるような係数ベクトルWを選択してもよい。この場合、音源iの位置riに、周波数に依存しない不感点が形成できる。つまり、不感点形成部61の出力O(t)には不感点に存在する音源から発せられる音の音圧が含まれない。 Instead of using the low-pass filter 61a, a coefficient vector W such that W H H 1 (r i ) = 0 and W H H 2 (r i ) = 0 may be selected. In this case, a dead point independent of the frequency can be formed at the position r i of the sound source i. That is, the output O (t) of the dead point forming unit 61 does not include the sound pressure of the sound emitted from the sound source existing at the dead point.

本実施形態は、不感点形成部61が、上記の不感点形成処理に用いる係数ベクトルW等のパラメータ(以下、単に「パラメータ」と呼ぶ。)として、受話部1において音が発生する範囲の中心の位置(以下、単に「受話部1の位置」と呼ぶ。)に不感点が形成されるように選択されたものを用い、音声信号生成部6が、不感点形成部61の出力O(t)を音声信号生成部6の出力として入出力部3の通話処理部32に入力する不感点形成モードでの動作が可能となっている。   In the present embodiment, the center of the range where sound is generated in the receiver 1 as a parameter (hereinafter simply referred to as “parameter”) such as the coefficient vector W used by the dead point forming unit 61 in the above-described dead point forming process. Is used so that a dead point is formed at the position (hereinafter simply referred to as “the position of the receiver 1”), and the audio signal generator 6 outputs the output O (t ) Is input to the call processing unit 32 of the input / output unit 3 as an output of the audio signal generation unit 6, and the operation in the dead point formation mode is possible.

すなわち、不感点形成モードでは、受話部1の位置に不感点が形成されることにより、全ての周波数にわたってループゲインが低減され、ハウリングが抑制される。また、従来例のように時空間勾配法を用いない場合に比べ、受話部1以外の音源からの音に関しては損失が低減されるから、音質を向上することが可能となっている。さらに、従来例と違い、受話部1で発生した音が周波数によらず除去されるから、従来例に比べてハウリングマージンが増加している。   That is, in the dead point formation mode, a dead point is formed at the position of the receiver 1, thereby reducing the loop gain over all frequencies and suppressing howling. Further, compared to the case where the spatio-temporal gradient method is not used as in the conventional example, since the loss is reduced with respect to the sound from the sound source other than the receiver 1, the sound quality can be improved. Furthermore, unlike the conventional example, since the sound generated in the receiver 1 is removed regardless of the frequency, the howling margin is increased compared to the conventional example.

また、上記のような不感点形成処理によりハウリングが抑制されるから、本実施形態では、通話処理部32の減衰器ILR,ILTでの減衰によるハウリングの抑制の必要性が薄くなっている。図4は、送話信号の強度に対する受話信号の強度の比を横軸にとり、縦軸に減衰器ILR,ILTのゲインをとったグラフであり、右上がりの実線及び破線がそれぞれ受話側減衰器ILRのゲインを示し、右下がりの実線及び破線がそれぞれ送話側減衰器ILTのゲインを示す。不感点形成部61を用いない場合には破線で示すように全体的に各減衰器ILR,ILTのゲインを低く(減衰率を高く)とる必要があるのに対し、本実施形態では上記のように通話処理部32の減衰器ILR,ILTでの減衰によるハウリングの抑制の必要性が薄くなっているから、実線で示すように全体的に各減衰器ILR,ILTのゲインを高くし(減衰率を低く抑え)、これによって音質の向上が可能となっているのである。また、本実施形態では、送話信号と受話信号とのうち強度がより低い音声信号についても通話処理部32での減衰率が比較的に低く抑えられていることにより、双方向同時通話が可能となっている。   In addition, since howling is suppressed by the dead point forming process as described above, in this embodiment, the necessity for suppressing howling due to attenuation by the attenuators ILR and ILT of the call processing unit 32 is reduced. FIG. 4 is a graph in which the ratio of the intensity of the received signal to the intensity of the transmitted signal is taken on the horizontal axis, and the gains of the attenuators ILR and ILT are taken on the vertical axis. The gain of the ILR is shown, and the solid line and the broken line on the lower right side show the gain of the transmitting side attenuator ILT. When the dead point forming unit 61 is not used, the gains of the respective attenuators ILR and ILT need to be set low (increase the attenuation rate) as shown by broken lines, whereas in the present embodiment, as described above. Since the necessity of suppressing howling due to attenuation by the attenuators ILR and ILT of the call processing unit 32 is reduced, the gains of the attenuators ILR and ILT are generally increased (attenuation rate) as shown by the solid line. Therefore, the sound quality can be improved. Further, in the present embodiment, a two-way simultaneous call is possible because the attenuation rate in the call processing unit 32 is suppressed to be relatively low even for a voice signal having a lower intensity among the transmission signal and the reception signal. It has become.

さらに、本実施形態は、上記の不感点形成モード以外の動作モードでの動作も可能となっている。詳しく説明すると、本実施形態の音声信号生成部6は、受音部5の出力M(t)と、不感点形成部61の出力O(t)とを用いて、不感点形成モードとは逆に、不感点形成部61において不感点とされる位置の音源からの音が主に反映され周囲の音源からの音の影響が低減された音声信号S(t)を抽出して出力する集音エリア形成部62と、入出力部3の通話処理部32への入力を、動作モードに応じて、不感点形成部61の出力O(t)と集音エリア形成部62の出力S(t)と受音部5の出力M(t)とのいずれかに択一的に切り換える切換部63とを有する。すなわち、不感点形成部61の出力O(t)が入出力部3に入力される状態が不感点形成モードである。また、以下では、集音エリア形成部62の出力S(t)が入出力部3に入力される状態を集音エリア形成モードと呼び、受音部5の出力M(t)が入出力部3に入力される状態を無指向性モードと呼ぶ。さらに、送話部2は、動作モードの切り換えの指示が入力される指示入力部81と、指示入力部81に入力された指示に従って切換部63を制御するとともに不感点形成部61に対しパラメータを指示する送話制御部7とを有する。指示入力部81は、例えば押釦スイッチを有して動作モードの切換を指示する操作入力を受け付けるものであってもよいし、他の機器(例えばインターホンシステムの親機)から周知の多重化通信技術によって音声信号に重畳して送信されてきた電気信号を受け付けるものであってもよい。   Furthermore, this embodiment can be operated in an operation mode other than the above-described dead point formation mode. More specifically, the audio signal generation unit 6 of the present embodiment uses the output M (t) of the sound receiving unit 5 and the output O (t) of the dead point forming unit 61 to reverse the dead point formation mode. In addition, the sound collection unit 61 extracts and outputs the sound signal S (t) in which the sound from the sound source at the position considered as the dead point is reflected in the dead point forming unit 61 and the influence of the sound from the surrounding sound sources is reduced. The inputs to the area forming unit 62 and the call processing unit 32 of the input / output unit 3 are output O (t) of the dead point forming unit 61 and output S (t) of the sound collection area forming unit 62 according to the operation mode. And a switching unit 63 that selectively switches to either one of the output M (t) of the sound receiving unit 5. That is, the state where the output O (t) of the dead point forming unit 61 is input to the input / output unit 3 is the dead point forming mode. Hereinafter, the state in which the output S (t) of the sound collection area forming unit 62 is input to the input / output unit 3 is referred to as a sound collection area forming mode, and the output M (t) of the sound receiving unit 5 is the input / output unit. The state input to 3 is called an omnidirectional mode. Furthermore, the transmission unit 2 controls the switching unit 63 according to the instruction input unit 81 to which an instruction for switching the operation mode is input, and the instruction input to the instruction input unit 81, and sets parameters to the dead point forming unit 61. And a transmission control unit 7 for instructing. The instruction input unit 81 may have, for example, a push button switch to receive an operation input for instructing switching of an operation mode, or a known multiplexed communication technique from another device (for example, a master unit of an interphone system). It is also possible to receive an electric signal transmitted by being superimposed on the audio signal.

不感点形成モード以外の動作モードについて説明する。まず、無指向性モードは、受音部5で得られた音声信号がそのまま入出力部3に出力されるモードであり、例えば、受音部5に入力された音声を、通信部31に接続された他の機器において録音する場合など、受話部1に音声信号が入力されず(別の言い方をすれば受話信号が存在せず)、不感点形成部61による処理を行わずともハウリングのおそれがない場合に用いられる。このような無指向性モードを用いれば、音源の位置に関わりなく受音部5に入力される全ての音声を出力可能であるほか、他の動作モードを用いる場合に比べて損失が少ないことにより、音質の向上が可能であるという利点がある。   An operation mode other than the dead point formation mode will be described. First, the omnidirectional mode is a mode in which the audio signal obtained by the sound receiving unit 5 is output to the input / output unit 3 as it is. For example, the sound input to the sound receiving unit 5 is connected to the communication unit 31. For example, when recording in another device, no audio signal is input to the receiver 1 (in other words, there is no received signal), and there is a risk of howling without processing by the dead point forming unit 61. Used when there is no. If such an omnidirectional mode is used, all sounds input to the sound receiving unit 5 can be output regardless of the position of the sound source, and the loss is less than when using other operation modes. There is an advantage that the sound quality can be improved.

次に、集音エリア形成モードについて説明する。集音エリア形成モードでの動作は、本発明者が特願2007−149570において提案したものである。具体的に説明すると、集音エリア形成モードでは、不感点形成部61が形成する不感点の位置が、受話部1の位置ではなく、受音部5に音声を入力すべき音源たる話者の位置として想定される所定の目標位置となるように、不感点形成部61に対し送話制御部7によってパラメータが指定される。   Next, the sound collection area formation mode will be described. The operation in the sound collection area forming mode was proposed by the present inventor in Japanese Patent Application No. 2007-149570. More specifically, in the sound collection area forming mode, the position of the dead point formed by the dead point forming unit 61 is not the position of the receiving unit 1 but the speaker as a sound source to which the sound is to be input to the receiving unit 5. A parameter is designated by the transmission control unit 7 to the dead point forming unit 61 so as to be a predetermined target position assumed as a position.

集音エリア形成部62は、目標位置の音源(話者)からの音(以下、「目的音」と呼ぶ。)と目標位置の周囲の音源からの雑音とがともに反映された音声信号である受音部5の出力の同相成分(以下、集音エリア形成モードの説明中では「全体音圧」と呼ぶ。)M(t)と、目標位置の周囲の音源からの雑音が主に反映された音声信号である不感点形成部61の出力(以下、集音エリア形成モードの説明中では「雑音成分」と呼ぶ。)O(t)とに対し、従来周知のスペクトル・サブトラクション法(参考文献6参照)を適用することにより、目的音が主に反映された音声信号S(t)を抽出する処理を行うものである。   The sound collection area forming unit 62 is an audio signal in which both sound from a sound source (speaker) at a target position (hereinafter referred to as “target sound”) and noise from sound sources around the target position are reflected. The in-phase component of the output of the sound receiving unit 5 (hereinafter referred to as “total sound pressure” in the description of the sound collection area forming mode) M (t) and noise from the sound source around the target position are mainly reflected. In contrast to the output of the dead point forming unit 61 (hereinafter referred to as “noise component” in the description of the sound collection area forming mode) O (t), which is a known audio signal, a conventionally known spectral subtraction method (references) 6) is applied to extract the audio signal S (t) mainly reflecting the target sound.

以下、集音エリア形成部62の動作を説明する。まず、用いられる各出力M(t),O(t)をそれぞれフレーム分割部62aにて単位時間(フレーム時間)毎に分割し、分割された各出力M(t,k),O(t,k)をそれぞれ高速フーリエ変換部(FFT)62bで時間領域から周波数領域に変換する(ここで、kはフレーム番号を示す)。そして、雑音成分O(f,k)の平均振幅μ(=E{|O(f,k|})を雑音平均振幅算出部62cで算出し、振幅算出部62dで算出した全体音圧M(f,k)の振幅値|M(f,k)|から雑音成分O(f,k)の平均振幅μを減算するとともに、減算した値(|M(f,k)|−μ)に、位相算出部62eで算出した全体音圧M(f,k)の位相(=exp{j∠M(f,k)})を乗算することで雑音が含まれていない出力S(f,k)=(|M(f,k)|−μ)・exp{j∠M(f,k)}を取り出し、この出力S(f,k)を高速フーリエ逆変換して周波数領域から時間領域に戻すことで、話者の周囲の雑音が抑制され目的音が強調された音声信号S(t)を得る。   Hereinafter, the operation of the sound collection area forming unit 62 will be described. First, each output M (t), O (t) to be used is divided for each unit time (frame time) by the frame dividing unit 62a, and each divided output M (t, k), O (t, k) is transformed from the time domain to the frequency domain by a fast Fourier transform unit (FFT) 62b (where k represents a frame number). The average amplitude μ (= E {| O (f, k |}) of the noise component O (f, k) is calculated by the noise average amplitude calculator 62c, and the total sound pressure M (( The average amplitude μ of the noise component O (f, k) is subtracted from the amplitude value | M (f, k) | of the f, k), and the subtracted value (| M (f, k) | −μ) Output S (f, k) that does not contain noise by multiplying the phase (= exp {j∠M (f, k)}) of the total sound pressure M (f, k) calculated by the phase calculation unit 62e. = (| M (f, k) | −μ) · exp {j∠M (f, k)} is extracted, and this output S (f, k) is inversely transformed by the fast Fourier transform to return from the frequency domain to the time domain. Thus, the speech signal S (t) in which the noise around the speaker is suppressed and the target sound is emphasized is obtained.

このように集音エリア形成モードでは、集音エリア形成部62によって目標位置(不感点)に存在する音源から発せられる目的音が強調された音声信号S(f,k)を生成するので、目標位置の方向に雑音の音源が存在する場合であっても、目標位置に存在する音源から発せられる音のみを強調して入出力部3へ出力することができる。図5は受音部5が出力する全体音圧M(f)、不感点形成部61が出力する雑音成分O(f)、集音エリア形成部62が出力する音声信号S(f)の振幅(音圧)の周波数特性の一例を示しており、集音エリア形成部62の出力S(f)では雑音成分が十分に抑圧されていることが判る。つまり、集音エリア形成モードを用いれば、周囲騒音の大きい環境下であっても話者の音声を抽出して通話することが可能となる。また、通常の使用状態ならば、目標位置は受話部1から十分に離れた位置とされるので、集音エリア形成モードでもハウリングを抑制する効果が得られる。さらに、集音エリア形成モードでは、受話部1から受音部5に直接到達した音だけでなく室内での反射を経た音も抑制されるから、残響音によるハウリングも抑制される。   As described above, in the sound collection area formation mode, the sound collection area formation unit 62 generates the audio signal S (f, k) in which the target sound emitted from the sound source existing at the target position (dead point) is emphasized. Even if a noise source exists in the direction of the position, only the sound emitted from the sound source existing at the target position can be emphasized and output to the input / output unit 3. FIG. 5 shows the total sound pressure M (f) output from the sound receiving unit 5, the noise component O (f) output from the dead point forming unit 61, and the amplitude of the audio signal S (f) output from the sound collection area forming unit 62. An example of the frequency characteristic of (sound pressure) is shown, and it can be seen that the noise component is sufficiently suppressed in the output S (f) of the sound collection area forming unit 62. That is, if the sound collection area formation mode is used, it is possible to make a call by extracting the voice of the speaker even in an environment with a large ambient noise. Further, in the normal use state, the target position is set to a position sufficiently away from the receiver 1, so that an effect of suppressing howling can be obtained even in the sound collection area forming mode. Furthermore, in the sound collection area formation mode, not only the sound that directly reaches the sound receiving unit 5 from the receiver 1 but also the sound that has passed through the room is suppressed, so that howling due to reverberant sound is also suppressed.

ここで、集音エリア形成部62において上記のように目標位置の周囲の雑音が低減された音声信号S(t)を得る方法としては、上記のようなスペクトル・サブトラクション法の代わりに、周知の独立成分分析(ICA:Independent Component Analysis)の手法を利用してもよい。さらに、集音エリア形成モードで不感点形成部61が用いるパラメータを一定とする代わりに、送話制御部7が、集音エリア形成モードでの動作中の所定のタイミングで、不感点形成部61を制御し、受音部5の出力する同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を用いた周知の音源定位方法により話者の位置を検出させるとともに、目標位置(不感点の位置)が検出された話者の位置となるようにパラメータを変更させることで、目標位置を話者の位置に自動的に調整するようにしてもよい。 Here, as a method of obtaining the sound signal S (t) in which the noise around the target position is reduced as described above in the sound collection area forming unit 62, a known method is used instead of the spectrum subtraction method as described above. An independent component analysis (ICA) method may be used. Further, instead of making the parameters used by the dead point forming unit 61 constant in the sound collection area forming mode, the transmission control unit 7 performs the dead point forming unit 61 at a predetermined timing during the operation in the sound collecting area forming mode. controls in-phase component M output by the sound receiving unit 5 (t), the time differential value M t (t), x-axis spatial differential value M x (t), y-axis spatial differential value M y (t) The position of the speaker is detected by a well-known sound source localization method using, and the target position is determined by changing the parameters so that the target position (the position of the dead point) becomes the position of the detected speaker. You may make it adjust automatically to the position of.

また、本実施形態は、受音部5の位置(厳密には例えばマイクロホン50A〜50Dに囲まれた範囲の中心の位置)に対する受話部1の位置が入力される位置入力部82を有する。送話制御部7は、位置入力部82に受話部1の位置が入力されたときに、位置入力部82に入力された受話部1の位置に不感点が形成されるようなパラメータを演算し、不感点形成モードでは該パラメータを用いるように不感点形成部61に指示する。つまり、送話制御部7が請求項におけるパラメータ演算手段である。位置入力部82は、例えば押釦スイッチを有して受話部1の位置を示す操作入力を受け付けるものであってもよいし、設定用の機器が接続される端子であってもよい。   In addition, the present embodiment includes a position input unit 82 for inputting the position of the receiver 1 with respect to the position of the sound receiver 5 (strictly, for example, the center position of the range surrounded by the microphones 50A to 50D). When the position of the receiver 1 is input to the position input unit 82, the transmission control unit 7 calculates parameters such that a dead point is formed at the position of the receiver 1 input to the position input unit 82. In the dead point forming mode, the dead point forming unit 61 is instructed to use the parameter. That is, the transmission control unit 7 is parameter calculation means in the claims. The position input unit 82 may be, for example, a push button switch that receives an operation input indicating the position of the receiver 1 or a terminal to which a setting device is connected.

ところで、受音部5において、上記のような4個のマイクロホン50A〜50Dによって音を受ける代わりに、図6(a)に示すような1枚の振動板52で音を受ける図6(b)に示すような1個のマイクロホン50Eを用いてもよい(参考文献7,8参照)。この振動板52は、全体として薄い円板からなり、ハウジング4に対して固定される被支持部52aと、被支持部52aの径方向の外向きであって互いに反対方向(図6(a)の上下両側)にそれぞれ突設された第1の連結部52bと、円環形状であって内周の直径方向の両端部がそれぞれ第1の連結部52bに連結された中間部52cと、中間部52cから径方向であって第1の連結部52bの突出方向に直交する方向(図6(a)の左右両側)にそれぞれ突設された第2の連結部52dと、円環形状であって内周の直径方向の両端部がそれぞれ第2の連結部52dに連結された振動部52eとを有する。また、図6(a)(b)に示すマイクロホン50Eは、振動板52が収納される収納凹部53aを有してハウジング4に固定されるパッケージ53と、パッケージ53の収納凹部53aの底面から突設され振動板52の厚さ方向を収納凹部53aの深さ方向に向ける形で振動板52の被支持部52に固定された支柱54とを有する。さらに、振動板52の各連結部52b,52dはそれぞれ捩れるような弾性変形が可能となっている。つまり、振動部52eは、いわゆる2軸直交型のジンバル構造を介して被支持部52aに対して支持されているのであり、被支持部52aに対し、図6(a)の左右方向については第1の連結部52bが捩れることによりシーソー動可能であり、図6(a)の上下方向については第2の連結部52dが捩れることによりシーソー動可能であることにより、全方向にシーソー動(揺動)可能となっている。また、振動部52eは、中央部に対して周縁部を厚さ方向に変位させるような弾性変形も可能となっている。このような振動版52を用いれば、振動部52eに入射した音の音圧により振動部52eが受けた力を電気信号に変換する(例えば振動部52eの振動に基いて音圧を検出する)音圧検出部を振動板52の複数箇所にそれぞれ設けることにより、同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を1枚の振動板52から得ることができる。この場合、上記のx軸とy軸との向きは、それぞれ、弾性復帰した状態の振動板52の厚さ方向に対し直交する向きとなる。音圧検出部としては、例えば、一方の電極が振動板52の振動部52eに設けられて他方の電極がパッケージ53の収納凹部53aの底面に設けられ振動部52eの変位に伴って静電容量が変化するコンデンサや、振動板52に生じたひずみを検出(つまり電気信号に変換)する圧電素子を用いることができる。また、音圧検出部の出力から同相成分M(t)、時間微分値Mt(t)、x軸方向空間微分値Mx(t)、y軸方向空間微分値My(t)を得る時空間勾配測定処理部については、周知技術で実現可能であるので説明を省略する。 By the way, in the sound receiving unit 5, instead of receiving sound by the four microphones 50A to 50D as described above, sound is received by one diaphragm 52 as shown in FIG. 6A. One microphone 50E as shown in FIG. 6 may be used (see References 7 and 8). The diaphragm 52 is composed of a thin disk as a whole, and is supported by a supported portion 52a fixed to the housing 4 and outward in the radial direction of the supported portion 52a (see FIG. 6A). A first connecting portion 52b projecting from both the upper and lower sides), an intermediate portion 52c having an annular shape and having both ends in the diameter direction of the inner periphery connected to the first connecting portion 52b, A second connecting portion 52d projecting from the portion 52c in a direction perpendicular to the protruding direction of the first connecting portion 52b (on the left and right sides in FIG. 6A), and an annular shape. In addition, both ends of the inner circumference in the diametrical direction each have a vibration part 52e connected to the second connection part 52d. A microphone 50E shown in FIGS. 6 (a) and 6 (b) projects from a package 53 having a housing recess 53a in which the diaphragm 52 is housed and fixed to the housing 4, and a bottom surface of the housing recess 53a of the package 53. And a column 54 fixed to the supported portion 52 of the diaphragm 52 so that the thickness direction of the diaphragm 52 is directed in the depth direction of the housing recess 53a. Further, the connecting portions 52b and 52d of the diaphragm 52 can be elastically deformed so as to be twisted. That is, the vibration part 52e is supported with respect to the supported part 52a via a so-called biaxial orthogonal gimbal structure, and the left and right directions in FIG. The seesaw movement is possible by twisting the first connecting part 52b, and the seesaw movement is possible in all directions in the vertical direction of FIG. 6A by being able to move the seesaw by twisting the second connecting part 52d. (Oscillation) is possible. Further, the vibration part 52e can be elastically deformed such that the peripheral part is displaced in the thickness direction with respect to the central part. If such a vibration plate 52 is used, the force received by the vibration part 52e is converted into an electric signal by the sound pressure of the sound incident on the vibration part 52e (for example, the sound pressure is detected based on the vibration of the vibration part 52e). By providing sound pressure detectors at a plurality of locations of the diaphragm 52, the in-phase component M (t), time differential value M t (t), x-axis direction spatial differential value M x (t), y-axis direction spatial differential it is possible to obtain a value M y (t) from one diaphragm 52. In this case, the directions of the x-axis and the y-axis are directions orthogonal to the thickness direction of the diaphragm 52 that has been elastically restored. As the sound pressure detection part, for example, one electrode is provided on the vibration part 52e of the diaphragm 52, and the other electrode is provided on the bottom surface of the housing recess 53a of the package 53. And a piezoelectric element that detects distortion (that is, converts into an electric signal) generated in the diaphragm 52 can be used. Further, in-phase component from the output of the sound pressure detector M (t), the time differential value M t (t), x-axis spatial differential value M x (t), obtaining a y-axis direction spatial differential value M y (t) Since the spatio-temporal gradient measurement processing unit can be realized by a well-known technique, a description thereof will be omitted.

上記のような送話部2の各構成は、周知の半導体プロセス技術を用いて1個の半導体チップに集積し、いわゆるMEMS (Micro Electro Mechanical Systems)と呼ばれる1個のデバイスとして構成することが可能であり、また、そのようにすることが小型化の観点からは望ましい。   Each configuration of the transmitter 2 as described above is integrated on one semiconductor chip using a well-known semiconductor process technology, and can be configured as one device called a so-called MEMS (Micro Electro Mechanical Systems). In addition, it is desirable to do so from the viewpoint of miniaturization.

さらに、受話部1と送話部2の少なくとも受音部5とをそれぞれ共通のケース(図示せず)に固定するとともに、製造時にはケースを介して一体化された受話部1と送話部2の受音部5とを全体として1個の通話モジュールとしてハウジング4に収納すれば、製造時には、受話部1と送話部2の受音部5との位置関係が共通する複数種類の通話装置で通話モジュール用の部品や製造設備を共用とし、製造コストを低減することができるから望ましい。
<参考文献一覧>
参考文献1:安藤 繁 「画像の時空間微分算法を用いた速度ベクトル分布計測システム」 計測自動制御学会論文集 22-12,1330/1336(1986)
参考文献2:安藤 繁・篠田 裕之・小川 勝也・光山 訓 「時空間勾配法に基づく3次元音源定位センサシステム」 計測自動制御学会論文集 第29巻第5号,p520~528,1993
参考文献3:N. Ono, T. Arita, Y. Senjo, and S. Ando, “Directivity steeringprinciple for biomimicry silicon microphone”, Proc. Int. Conf. Solid State Sensors,
Actuators, and Microsystems (Transducers'05), pp. 792-795, 2005.
参考文献4:小野, 安藤, “音場の計測と指向性制御, 第22回センシングフォーラム資料, pp. 305-310,2005.
参考文献5:小野, 有田, 千條, 安藤, “時空間勾配計測に基づく指向性制御と音源分離の理論, 日本音響学会2005年春季研究発表会講演論文集, 2-6-13, pp. 607-608, 2005.
参考文献6:S.F.Boll "Suppression of Acoustic Noise in Speech. usingSpectral Subtraction" IEEE Trans.on.Acoustics,Speech and Signal ProcessingVol.ASSP-27,No.2,pp.113-1,1979
参考文献7:小野 順貴,斎藤 章人,安藤 繁「ヤドリバエを模倣した超小型音源定位セン
サの理論と実験(第2報)」,第19回センシングフォーラム,pp.379-382,2002
参考文献8:小野 順貴,斎藤 章人,安藤 繁「ヤドリバエを模倣した微分検出型音源定位
センサの理論と実験」,聴覚研究会資料,pp.187-192,2002
Further, the receiver 1 and at least the sound receiver 5 of the transmitter 2 are fixed to a common case (not shown), and the receiver 1 and transmitter 2 are integrated through the case at the time of manufacture. If the sound receiving unit 5 is housed in the housing 4 as a single call module as a whole, a plurality of types of call devices in which the positional relationship between the sound receiving unit 1 and the sound receiving unit 5 of the transmitter unit 2 is common at the time of manufacture. Therefore, it is desirable that the communication module parts and manufacturing equipment can be shared, and the manufacturing cost can be reduced.
<List of references>
Reference 1: Shigeru Ando “Velocity vector distribution measurement system using spatio-temporal differential calculation of images” Transactions of the Society of Instrument and Control Engineers 22-12, 1330/1336 (1986)
Reference 2: Shigeru Ando, Hiroyuki Shinoda, Katsuya Ogawa, Satoshi Mitsuyama "Three-dimensional sound source localization sensor system based on spatiotemporal gradient method" Vol. 29, No. 5, p520-528, 1993
Reference 3: N. Ono, T. Arita, Y. Senjo, and S. Ando, “Directivity steeringprinciple for biomimicry silicon microphone”, Proc. Int. Conf. Solid State Sensors,
Actuators, and Microsystems (Transducers'05), pp. 792-795, 2005.
Reference 4: Ono, Ando, “Measurement of sound field and directivity control, 22nd Sensing Forum document, pp. 305-310, 2005.
Reference 5: Ono, Arita, Chiaki, Ando, “Theory of Directional Control and Sound Source Separation Based on Spatiotemporal Gradient Measurement, Proc. Of the Spring Meeting of the Acoustical Society of Japan 2005, 2-6-13, pp. 607-608, 2005.
Reference 6: SFBoll "Suppression of Acoustic Noise in Speech. UsingSpectral Subtraction" IEEE Trans.on. Acoustics, Speech and Signal Processing Vol. ASSP-27, No. 2, pp. 113-1, 1979
Reference 7: Junji Ono, Akihito Saito, Shigeru Ando “Theory and Experiments of Localization Sensors Simulating Ultra-Small Sound Sources (2nd Report)”, 19th Sensing Forum, pp.379-382,2002
Reference 8: Junji Ono, Akito Saito, Shigeru Ando, "Theory and Experiment of Differential Detection Type Sound Source Localization Sensor Imitating Drosophila", Auditory Society, pp.187-192,2002

本発明の実施形態を示すブロック図である。It is a block diagram which shows embodiment of this invention. 同上の送話部を示すブロック図である。It is a block diagram which shows a transmission part same as the above. 同上における時空間勾配法を説明するための説明図である。It is explanatory drawing for demonstrating the spatiotemporal gradient method in the same as the above. 同上の効果を示す説明図である。It is explanatory drawing which shows an effect same as the above. 同上の集音エリア形成モードの効果を示す説明図である。It is explanatory drawing which shows the effect of a sound collection area formation mode same as the above. (a)(b)はそれぞれ同上の別の形態におけるマイクロホンを示し、(a)は振動板の平面図、(b)は断面図である。(A) (b) shows the microphone in another form same as the above, (a) is a top view of a diaphragm, (b) is sectional drawing. 従来例を示す斜視図である。It is a perspective view which shows a prior art example.

符号の説明Explanation of symbols

1 受話部
2 送話部
3 入出力部
4 ハウジング
5 受音部
6 音声信号生成部(請求項における送話信号生成手段)
7 送話制御部(請求項におけるパラメータ演算手段)
50A〜50D マイクロホン
51 時空間勾配測定処理部
52 振動板
52a 被支持部
52e 振動部
81 指示入力部
82 位置入力部
DESCRIPTION OF SYMBOLS 1 Reception part 2 Transmission part 3 Input / output part 4 Housing 5 Sound reception part 6 Voice signal generation part (Transmission signal generation means in Claim)
7 Transmission control unit (parameter calculation means in claims)
50A-50D Microphone 51 Spatiotemporal gradient measurement processing unit 52 Diaphragm 52a Supported portion 52e Vibrating unit 81 Instruction input unit 82 Position input unit

Claims (8)

音声が変換された電気信号である音声信号を音声に変換する受話部と、音声を音声信号に変換する送話部と、送話部が出力した音声信号を増幅して外部に出力するとともに外部から入力された音声信号を増幅して受話部に入力する入出力部と、受話部と送話部とがそれぞれ固定されたハウジングとを備える通話装置であって、
送話部は、入射した音の音圧と前記音圧の時間微分値と二次元直交座標系の各軸方向についての前記音圧の空間微分値とをそれぞれ出力する受音手段と、受音手段が出力した音圧と時間微分値と空間微分値とを用いて時空間勾配法による所定の不感点形成処理を行うことにより感度が最小となる不感点が受話部の位置に形成されるような音声信号を生成して入出力部へ出力する送話信号生成手段とを有することを特徴とする通話装置。
A voice receiving unit that converts a voice signal, which is an electrical signal converted from voice, into a voice, a voice transmitting unit that converts voice into a voice signal, and amplifies the voice signal output from the voice transmitting unit and outputs the amplified signal to the outside A communication device comprising: an input / output unit that amplifies a voice signal input from the input unit and inputs it to the receiver unit; and a housing in which the receiver unit and the transmitter unit are fixed,
A transmitter unit that outputs a sound pressure of an incident sound, a time differential value of the sound pressure, and a spatial differential value of the sound pressure in each axial direction of a two-dimensional orthogonal coordinate system; By using a sound pressure, a temporal differential value, and a spatial differential value output by the means to perform a predetermined dead point forming process by a spatiotemporal gradient method, a dead point where sensitivity is minimized is formed at the position of the receiver. And a transmission signal generating means for generating a simple voice signal and outputting it to the input / output unit.
送話部は、送話部の受音手段の位置に対する受話部の相対的な位置が入力される位置入力手段と、
位置入力手段に位置が入力されたときに、音声信号において形成される不感点の位置が位置入力手段に入力された位置となるように、送話信号生成手段が不感点形成処理に用いるべきパラメータを演算するとともに、送話信号生成手段が不感点形成処理に用いるパラメータを、前記演算によって得られたパラメータに更新させるパラメータ演算手段とを有することを特徴とする請求項1記載の通話装置。
The transmitter is a position input means for inputting the relative position of the receiver relative to the position of the receiver of the transmitter;
Parameters that the transmission signal generation means should use for dead point formation processing so that when the position is input to the position input means, the position of the dead point formed in the audio signal becomes the position input to the position input means. The communication apparatus according to claim 1, further comprising: a parameter calculation unit that calculates a parameter used by the transmission signal generation unit for the dead point forming process to a parameter obtained by the calculation.
送話部は1個の半導体チップに構成されていることを特徴とする請求項1又は請求項2記載の通話装置。   3. The communication device according to claim 1 or 2, wherein the transmitter is configured on one semiconductor chip. 送話部の少なくとも受音部と受話部とがそれぞれ固定されるとともにハウジングに固定されたケースを備えることを特徴とする請求項1〜3のいずれか1項に記載の通話装置。   The communication device according to any one of claims 1 to 3, further comprising a case in which at least the sound receiving unit and the receiving unit of the transmitting unit are fixed to the housing, respectively. 受音手段は、通話装置のハウジングに対して直接的又は間接的に固定される被支持部及び被支持部に対しジンバル構造を介して揺動可能に支持され音圧を受ける振動部とを有する振動板と、それぞれ振動板の互いに異なる箇所に設けられて振動板の振動部が入射した音の音圧により受けた力を電気信号に変換する複数個の音圧検出部と、複数個の音圧検出部の出力を用いて音圧と空間微分値と時間微分値とを得る時空間勾配測定処理部とを有することを特徴とする請求項1〜4のいずれか1項に記載の通話装置。   The sound receiving means includes a supported portion that is directly or indirectly fixed to the housing of the communication device and a vibrating portion that is supported so as to be swingable with respect to the supported portion via a gimbal structure and receives sound pressure. A plurality of sound pressure detectors that convert the force received by the sound pressure of the sound incident on the diaphragm, the vibration portions of the diaphragm being incident on the diaphragm, and a plurality of sound 5. The communication device according to claim 1, further comprising: a spatiotemporal gradient measurement processing unit that obtains a sound pressure, a spatial differential value, and a temporal differential value by using an output of the pressure detection unit. . 受音手段は、矩形の頂点の配置で設けられそれぞれ入射した音の音圧を電気信号に変換する4個のマイクロホンと、各マイクロホンの出力を用いた演算により音圧と空間微分値と時間微分値とを得る時空間勾配測定処理部とを有することを特徴とする請求項1〜4のいずれか1項に記載の通話装置。   The sound receiving means is provided with a rectangular apex arrangement, each of the four microphones for converting the sound pressure of the incident sound into an electric signal, and the sound pressure, the spatial differential value, and the time differential by calculation using the output of each microphone. The communication apparatus according to claim 1, further comprising a spatiotemporal gradient measurement processing unit that obtains a value. 送話部は、動作モードの切換の指示が入力される指示入力手段を有し、
送話信号生成手段は、指示入力手段に入力された指示に応じて、受話部の位置に不感点を形成する不感点形成モードに加えて、不感点形成処理を行わず受音手段が出力した音圧のみに基いた音声信号を生成する無指向性モードにも、動作モードを切換可能であることを特徴とする請求項1〜6のいずれか1項に記載の通話装置。
The transmitter has an instruction input means for inputting an instruction for switching the operation mode,
In response to the instruction input to the instruction input unit, the transmission signal generation unit outputs the dead point forming process without performing the dead point formation process in addition to the dead point formation mode for forming the dead point at the position of the receiving unit. The call device according to any one of claims 1 to 6, wherein the operation mode can be switched to an omnidirectional mode that generates an audio signal based only on sound pressure.
送話部は、動作モードの切換の指示が入力される指示入力手段を有し、
送話信号生成手段は、指示入力手段に入力された指示に応じて、受話部の位置に不感点を形成する不感点形成モードに加えて、受音手段が出力した音圧と時間微分値と空間微分値とを用いた時空間勾配法により予め設定された目標位置に不感点を形成するように生成された音声信号と、受音手段が出力した音圧のみに基いた音声信号とを用い、前記目標位置近傍の音源からの音による音圧を選択的に反映した音声信号を生成して出力する集音エリア形成モードにも、動作モードを切換可能であることを特徴とする請求項1〜7のいずれか1項に記載の通話装置。
The transmitter has an instruction input means for inputting an instruction for switching the operation mode,
In response to the instruction input to the instruction input means, the transmission signal generating means, in addition to the dead point forming mode for forming a dead point at the position of the receiving part, the sound pressure and time differential value output by the sound receiving means Using a sound signal generated so as to form a dead point at a preset target position by a spatiotemporal gradient method using a spatial differential value and a sound signal based only on the sound pressure output by the sound receiving means 2. The operation mode can be switched to a sound collection area forming mode for generating and outputting an audio signal that selectively reflects sound pressure generated by sound from a sound source near the target position. The communication device according to any one of? 7.
JP2007271640A 2007-10-18 2007-10-18 Telephone device Expired - Fee Related JP5086768B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007271640A JP5086768B2 (en) 2007-10-18 2007-10-18 Telephone device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007271640A JP5086768B2 (en) 2007-10-18 2007-10-18 Telephone device

Publications (2)

Publication Number Publication Date
JP2009100372A true JP2009100372A (en) 2009-05-07
JP5086768B2 JP5086768B2 (en) 2012-11-28

Family

ID=40702925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007271640A Expired - Fee Related JP5086768B2 (en) 2007-10-18 2007-10-18 Telephone device

Country Status (1)

Country Link
JP (1) JP5086768B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066506A (en) * 2008-09-10 2010-03-25 Panasonic Electric Works Co Ltd Sound collecting device
JP2013098705A (en) * 2011-10-31 2013-05-20 Aiphone Co Ltd Sound feedback amount suppression device
JP2017034490A (en) * 2015-08-03 2017-02-09 パナソニックIpマネジメント株式会社 Intercom device
CN110189770A (en) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 Voice data processing method, device, terminal, server and medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1118191A (en) * 1997-06-23 1999-01-22 Nippon Telegr & Teleph Corp <Ntt> Sound pickup method and its device
JP2007005969A (en) * 2005-06-22 2007-01-11 Yamaha Corp Microphone array device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1118191A (en) * 1997-06-23 1999-01-22 Nippon Telegr & Teleph Corp <Ntt> Sound pickup method and its device
JP2007005969A (en) * 2005-06-22 2007-01-11 Yamaha Corp Microphone array device

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066506A (en) * 2008-09-10 2010-03-25 Panasonic Electric Works Co Ltd Sound collecting device
JP2013098705A (en) * 2011-10-31 2013-05-20 Aiphone Co Ltd Sound feedback amount suppression device
JP2017034490A (en) * 2015-08-03 2017-02-09 パナソニックIpマネジメント株式会社 Intercom device
CN110189770A (en) * 2019-06-18 2019-08-30 北京达佳互联信息技术有限公司 Voice data processing method, device, terminal, server and medium
CN110189770B (en) * 2019-06-18 2021-06-25 北京达佳互联信息技术有限公司 Voice data processing method, device, terminal, server and medium

Also Published As

Publication number Publication date
JP5086768B2 (en) 2012-11-28

Similar Documents

Publication Publication Date Title
US20220240045A1 (en) Audio Source Spatialization Relative to Orientation Sensor and Output
US7613310B2 (en) Audio input system
KR101761312B1 (en) Directonal sound source filtering apparatus using microphone array and controlling method thereof
JP4293377B2 (en) Voice input device, manufacturing method thereof, and information processing system
KR101456866B1 (en) Method and apparatus for extracting the target sound signal from the mixed sound
US20160165341A1 (en) Portable microphone array
US20160165350A1 (en) Audio source spatialization
JP5114106B2 (en) Voice input / output device and communication device
US9521486B1 (en) Frequency based beamforming
CN106872945B (en) Sound source positioning method and device and electronic equipment
JP5129024B2 (en) Audio input device and audio conference system
JP2010515335A (en) Sound source tracking microphone
CN113692750A (en) Sound transfer function personalization using sound scene analysis and beamforming
US20160165338A1 (en) Directional audio recording system
WO2021064468A1 (en) Sound source localization with co-located sensor elements
US20160161595A1 (en) Narrowcast messaging system
US20160161594A1 (en) Swarm mapping system
JP2009284110A (en) Voice input device and method of manufacturing the same, and information processing system
JP2009284109A (en) Voice input device and method of manufacturing the same, and information processing system
JP5086768B2 (en) Telephone device
JP2009239631A (en) Microphone unit, close-talking voice input device, information processing system, and manufacturing method for microphone unit
JP2008154224A (en) Integrated circuit device, voice input device and information processing system
JP7426512B2 (en) Method and system for obtaining vibration transfer function
Scola et al. Direction of arrival estimation: A two microphones approach
JP2009296517A (en) Voice input device, and voice remote control system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100518

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120815

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120907

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees