JP2005151042A - Sound source position specifying apparatus, and imaging apparatus and imaging method - Google Patents
Sound source position specifying apparatus, and imaging apparatus and imaging method Download PDFInfo
- Publication number
- JP2005151042A JP2005151042A JP2003383999A JP2003383999A JP2005151042A JP 2005151042 A JP2005151042 A JP 2005151042A JP 2003383999 A JP2003383999 A JP 2003383999A JP 2003383999 A JP2003383999 A JP 2003383999A JP 2005151042 A JP2005151042 A JP 2005151042A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- sound source
- sound
- imaging
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Studio Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、物体が発する音情報に基づいて物体位置を特定して撮像する音源位置特定装置および撮像装置並びに撮像方法に関するものである。 The present invention relates to a sound source position specifying device, an image pickup device, and an image pickup method for picking up an image by specifying an object position based on sound information emitted from an object.
近年、所定の空間を撮像対象として自動的に映像を取り込む撮像装置が一般に普及している。
たとえば、近年の犯罪の凶悪化に伴い、安全(セキュリティ)のため、監視対象の部屋の所定の場所に、撮像装置の撮像手段としてのカメラを取り付け、監視対象の部屋を長時間撮影して記録することが行われている。また、セキュリティ以外にも、たとえば、保育所に預けた子供を外部から監視するために、その子供のいる部屋を、部屋に設置された監視用のカメラにより撮影する等が行われている。
このような場合に、従来は、監視対象の部屋ができるだけ広範囲に撮影できる場所を選択して監視用カメラを設置し、監視用カメラにより得られた映像を記録・管理していた。
In recent years, an imaging apparatus that automatically captures an image with a predetermined space as an imaging target has been widely used.
For example, with the recent worsening of crimes, for safety (security), a camera as the imaging means of the imaging device is attached to a predetermined location in the monitored room, and the monitored room is photographed for a long time and recorded. To be done. In addition to security, for example, in order to monitor a child entrusted to a nursery school from the outside, the child's room is photographed by a surveillance camera installed in the room.
In such a case, conventionally, a monitoring camera is installed by selecting a place where the room to be monitored can be photographed in the widest possible range, and images obtained by the monitoring camera are recorded and managed.
ところで、従来の撮像装置において、監視用カメラとして、1つまたは少数のカメラを監視対象の部屋に設置する場合、その部屋を極力広範囲に撮影可能とするため、各カメラを常に広角で用いなければならず、明瞭な画像を得ることが難しいという問題がある。
一方、監視対象の部屋の広範囲に対して鮮明な画像を記録しようとする場合には、多数の監視用カメラが必要である場合があり、撮像装置全体として高価となるという問題がある。
また、通常、セキュリティ用の映像等には音声が記録されておらず、後に映像を再生する場合には、音声がないために記録情報として十分ではない。たとえば、監視対象においてどの程度の被害を受けたのかについて、音声に基づいて確認をすることができない。
By the way, in a conventional imaging apparatus, when one or a few cameras are installed in a room to be monitored as a surveillance camera, each camera must be always used at a wide angle so that the room can be photographed as widely as possible. However, there is a problem that it is difficult to obtain a clear image.
On the other hand, when a clear image is to be recorded over a wide range of a room to be monitored, a large number of monitoring cameras may be necessary, and there is a problem that the entire imaging apparatus is expensive.
Also, normally, no audio is recorded in the security video or the like, and when the video is reproduced later, there is no audio, so that the recorded information is not sufficient. For example, it is impossible to confirm how much damage has been received in the monitoring target based on voice.
本発明はかかる事情に鑑みてなされたものであり、その目的は、物体が発する音情報に基づいて物体位置を特定して撮像することで、少数の撮像手段により明瞭な画像を効率的に取得可能な音源位置特定装置および撮像装置並びに撮像方法を提供することにある。 The present invention has been made in view of such circumstances, and an object of the present invention is to efficiently acquire a clear image with a small number of imaging means by specifying and capturing an object position based on sound information emitted from the object. An object of the present invention is to provide a sound source position identification device, an imaging device, and an imaging method.
上記目的を達成するための本発明の第1の観点は、指向性を有する少なくとも2つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択する2以上のマイクロフォン選択手段と、前記2以上のマイクロフォン選択手段によりそれぞれ選択された複数のマイクロフォンのうち、少なくとも2つのマイクロフォンが指向する方向に基づいて、音源位置を特定する音源位置特定手段とを具備する音源位置特定装置である。 The first aspect of the present invention for achieving the above object is that at least two microphones having directivity are arranged so as to be directed in different sound collecting directions, and based on sound pressures collected by the microphones. Two or more microphone selection means for selecting one microphone and a plurality of microphones respectively selected by the two or more microphone selection means specify a sound source position based on directions directed by at least two microphones. A sound source position specifying device including sound source position specifying means.
上記目的を達成するための本発明の第2の観点は、指向性を有する少なくとも2つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択する2以上のマイクロフォン選択手段と、前記2以上のマイクロフォン選択手段によりそれぞれ選択された複数のマイクロフォンのうち、少なくとも2つのマイクロフォンが指向する方向に基づいて、音源位置を特定する音源位置特定手段と、回動により撮像方向を可変とする撮像手段と、前記音源位置特定手段により特定された音源位置を前記撮像手段が撮像するように、前記撮像手段を回動させて撮像方向を制御する撮像方向制御手段とを具備する撮像装置である。 According to a second aspect of the present invention for achieving the above object, at least two microphones having directivity are arranged so as to be directed in different sound collecting directions, and based on sound pressures collected by the microphones. Two or more microphone selection means for selecting one microphone and a plurality of microphones respectively selected by the two or more microphone selection means specify a sound source position based on directions directed by at least two microphones. Sound source position specifying means, imaging means for changing the imaging direction by rotation, and imaging direction by rotating the imaging means so that the imaging means images the sound source position specified by the sound source position specifying means. And an imaging direction control means for controlling the imaging device.
好適には、前記撮像装置は、前記撮像手段により得られた映像を表示する表示手段をさらに有し、前記音源特定位置により特定された音源位置を拡大して前記表示手段に表示させる。 Preferably, the imaging apparatus further includes display means for displaying the video obtained by the imaging means, and enlarges and displays the sound source position specified by the sound source specifying position on the display means.
好適には、前記撮像装置は、前記表示手段が表示する映像の中から、特定の対象を認識する画像認識手段をさらに有し、画像認識手段により認識された前記特定の対象を拡大して前記表示手段に表示させる。 Preferably, the imaging apparatus further includes image recognition means for recognizing a specific target from the video displayed by the display means, and enlarges the specific target recognized by the image recognition means and Display on the display means.
上記目的を達成するための本発明の第3の観点は、指向性を有する少なくとも2つのマイクロフォンを、それぞれ異なる集音方向を指向するように配し、前記マイクロフォンが集音する音圧に基づいて、1つのマイクロフォンを選択する2以上のマイクロフォン選択部と回動により撮像方向を可変とする撮像部とを有する監視方法であって、前記2以上のマイクロフォン選択部によりそれぞれ選択された複数のマイクロフォンのうち、少なくとも2つのマイクロフォンが指向する方向に基づいて、音源位置を特定するステップと、特定された音源位置を前記撮像部が撮像するように、前記撮像部を回動させるステップとを具備する。 According to a third aspect of the present invention for achieving the above object, at least two microphones having directivity are arranged so as to be directed in different sound collecting directions, and based on sound pressures collected by the microphones. A monitoring method comprising two or more microphone selection units for selecting one microphone and an imaging unit for changing an imaging direction by rotation, wherein a plurality of microphones respectively selected by the two or more microphone selection units is selected. Among these, the method includes a step of specifying a sound source position based on a direction in which at least two microphones are directed, and a step of rotating the imaging unit so that the imaging unit images the specified sound source position.
上記本発明の第1の観点に係る音源位置特定装置によれば、2以上のマイクロフォン選択手段において、指向性を有する少なくとも2つのマイクロフォンを、それぞれ異なる集音方向を指向するように配されており、各マイクロフォン選択手段が、それぞれのマイクロフォンからの集音信号を音圧レベルに基づいて主発音と判断するマイクロフォンを特定するため、特定されたマイクロフォンの指向方向に応じた発音方向を特定する。音源位置特定手段では、2以上のマイクロフォン選択手段がそれぞれ特定したマイクロフォンから、少なくとも2つのマイクロフォンが指向する方向に基づいて、幾何学的関係から音源位置を一意に定めることができる。 According to the sound source position specifying device according to the first aspect of the present invention, at least two microphones having directivity are arranged in two or more microphone selection means so as to direct different sound collection directions. Each microphone selection means specifies a sound generation direction corresponding to the direction of the specified microphone in order to specify a microphone that determines that the collected sound signal from each microphone is a main sound generation based on the sound pressure level. The sound source position specifying means can uniquely determine the sound source position from the geometric relationship based on the direction in which at least two microphones are directed from the microphones specified by the two or more microphone selection means.
本発明によれば、少数の撮像手段により明瞭な画像を効率的に取得可能であるため、撮像装置全体として安価となる利点がある。 According to the present invention, since a clear image can be efficiently acquired with a small number of imaging means, there is an advantage that the entire imaging apparatus is inexpensive.
以下、後述する本発明の第1〜3の実施形態の説明の便宜のため、はじめに、本発明の撮像装置のマイクロフォン選択手段としての通話装置(双方向通話装置)について述べる。
図1(A)〜(C)は本発明の通話装置が適用される1例を示す構成図である。
図1(A)に図解したように、遠隔に位置する2つの会議室901、902にそれぞれ通話装置1A、1Bが設置されており、これらの通話装置1A、1Bが電話回線920で接続されている。
図1(B)に図解したように、2つの会議室901、902において、双方向通話装置1A、1Bがそれぞれテーブル911、912の上に置かれている。ただし、図1(B)においては、図解の簡略化のため、会議室901内の双方向通話装置1Aについてのみ図解している。会議室902内の双方向通話装置1Bも同様である。双方向通話装置1A、1Bの外観斜視図を図2に示す。
図1(C)に図解したように、双方向通話装置1A、1Bの周囲にそれぞれ複数(本実施の形態においては6名)の会議参加者A1〜A6が位置している。ただし、図1(C)においては、図解の簡略化のため、会議室901内の双方向通話装置1Aの周囲の会議参加者のみ図解している。他方の会議室902内の双方向通話装置1Bの周囲に位置する会議参加者の配置も同様である。
Hereinafter, for convenience of description of first to third embodiments of the present invention to be described later, first, a communication device (bidirectional communication device) as a microphone selection unit of the imaging device of the present invention will be described.
FIGS. 1A to 1C are configuration diagrams showing an example to which the communication device of the present invention is applied.
As illustrated in FIG. 1A,
As illustrated in FIG. 1B, in the two
As illustrated in FIG. 1C, a plurality (six in this embodiment) of conference participants A1 to A6 are located around the two-
本発明の双方向通話装置は、たとえば、2つの会議室901、902との間で電話回線920を介して音声による応答が可能である。
通常、電話回線920を介しての会話は、一人の話者と一人の話者同士、すなわち、1対1で通話を行うが、本発明の双方向通話装置は1つの電話回線920を用いて複数の会議参加者A1〜A6同士が通話できる。ただし、詳細は後述するが、音声の混雑を回避するため、同時刻(同じ時間帯)の話者は、相互に一人に限定する。
本発明の双方向通話装置は音声(通話)を対象としているから、電話回線920を介して音声を伝送するだけである。換言すれば、テレビ会議システムのような多量の画像データは伝送しない。さらに、本発明の双方向通話装置は会議参加者の通話を圧縮して伝送しているので電話回線920の伝送負担は軽い。
The two-way communication device of the present invention can respond by voice via the
Normally, a conversation via the
Since the two-way communication device of the present invention is intended for voice (call), only voice is transmitted via the
双方向通話装置の構成
図2〜図4を参照して本発明の1実施の形態としての双方向通話装置の構成について述べる。
図2は本発明の1実施の形態としての双方向通話装置の斜視図である。
図3は図2に図解した双方向通話装置の断面図である。
図4は図1に図解した双方向通話装置のマイクロフォン・電子回路収容部の平面図であり、図3の線X−X−Yにおける平面図である。
Configuration of Interactive Communication Device The configuration of an interactive communication device as an embodiment of the present invention will be described with reference to FIGS.
FIG. 2 is a perspective view of a two-way communication device as an embodiment of the present invention.
FIG. 3 is a sectional view of the two-way communication apparatus illustrated in FIG.
4 is a plan view of the microphone / electronic circuit housing portion of the two-way communication apparatus illustrated in FIG. 1, and is a plan view taken along line X-XY in FIG.
図2に図解したように、双方向通話装置1は、上部カバー11と、音反射板12と、連結部材13と、スピーカ収容部14と、操作部15とを有する。
図3に図解したように、スピーカ収容部14は、音反射面14aと、底面14bと、上部音出力開口部14cとを有する。音反射面14aと底面14bで包囲された空間である内腔14dに受話再生スピーカ16が収容されている。スピーカ収容部14の上部に音反射板12が位置し、スピーカ収容部14と音反射板12とが連結部材13によって連結されている。
As illustrated in FIG. 2, the two-
As illustrated in FIG. 3, the
連結部材13内には拘束部材17が貫通しており、拘束部材17は、スピーカ収容部14の底面14bの拘束部材・下部固定部14eと、音反射板12の拘束部材固定部12bとの間を拘束している。ただし、拘束部材17はスピーカ収容部14の拘束部材・貫通部14fは貫通しているだけである。拘束部材17が拘束部材・貫通部14fを貫通してここで拘束していないのはスピーカ16の動作によってスピーカ収容部14が振動するが、その振動を上部音出力開口部14cの周囲においては拘束させないためである。
A constraining
スピーカ
相手会議室の話者が話した音声は、受話再生スピーカ16を介して上部音出力開口部14cから抜け、音反射板12の音反射面12aとスピーカ収容部14の音反射面14aとで規定される空間に沿って軸C−Cを中心として360度の全方位に拡散する。
音反射板12の音反射面12aの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面12aの断面は軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
同様にスピーカ収容部14の音反射面14aの断面も図解したように、ゆるやかな凸面を描いている。音反射面14aの断面も軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
The voice spoken by the speaker in the speaker partner conference room is removed from the upper
As illustrated, the cross section of the
Similarly, as illustrated in the cross section of the
受話再生スピーカ16から出た音Sは、上部音出力開口部14cを抜け、音反射面12aと音反射面14aとで規定される断面がラッパ状の音出力空間を経て、音声応答装置1が載置されているテーブル911の面に沿って、軸C−Cを中心として360度全方位に拡散していき、全ての会議参加者A1〜A6に等しい音量で聞き取られる。本実施の形態においては、テーブル911の面も音伝播手段の一部として利用している。
受話再生スピーカ16から出力された音Sの拡散状態を矢印で図示した。
The sound S emitted from the reception /
The diffusion state of the sound S output from the receiving / reproducing
音反射板12は、プリント基板21を支持している。
プリント基板21には、図4に平面を図解したように、マイクロフォン・電子回路収容部2のマイクロフォンMC1〜MC6、発光ダイオードLED1〜6、マイクロプロセッサ23、コーデック(CODEC)24、第1のディジタルシグナルプロセッサ(DSP1)DSP25、第2のディジタルシグナルプロセッサ(DSP2)DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29などの各種電子回路が搭載されており、音反射板12はマイクロフォン・電子回路収容部2を支持する部材としても機能している。
The
On the printed
プリント基板21には、受話再生スピーカ16からの振動が音反射板12を伝達してマイクロフォンMC1〜MC6などに進入して騒音とならないように、受話再生スピーカ16からの振動を吸収するダンパー18が取り付けられている。ダンパー18は、ネジと、このネジとプリント基板21との間に挿入された防振ゴムなどの緩衝材とからなり、緩衝材をネジでプリント基板21にネジ止めしている。すなわち、緩衝材によって受話再生スピーカ16からプリント基板21に伝達される振動が吸収される。これにより、マイクロフォンMC1〜MC6は、スピーカ16からの音の影響を受けない。
The printed
マイクロフォンの配置
図4に図解したように、プリント基板21の中心軸Cから放射状に等間隔(本実施の形態では60度間隔で)で6本のマイクロフォンMC1〜MC6が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンMC1〜MC6は、共に柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで、揺動自在に支持されており(図解を簡単にするため、マイクロフォンMC1の部分の第1のマイク支持部材22aと第2のマイク支持部材22bとについてのみ図解している)、上述した緩衝材を用いたダンパー18による受話再生スピーカ16からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで受話再生スピーカ16からの振動で振動するプリント基板21の振動を吸収して受話再生スピーカ16の振動の影響を受けないようにして、受話再生スピーカ16の騒音を回避している。
As shown in FIG. 4, six microphones MC <b> 1 to MC <b> 6 are located radially from the central axis C of the printed
Each of the microphones MC1 to MC6 is swingably supported by a first microphone support member 22a and a second microphone support member 22b, both of which are flexible or elastic (in order to simplify the illustration, the microphones Only the first microphone support member 22a and the second microphone support member 22b in the MC1 portion are illustrated), and is not affected by the vibration from the reception /
図3に図解したように、受話再生スピーカ16はマイクロフォンMC1〜MC6が位置する平面の中心軸C−Cに対して垂直に指向しており(本実施の形態においては上方向に向いている(指向している))、このような受話再生スピーカ16と6本のマイクロフォンMC1〜MC6の配置により、受話再生スピーカ16と各マイクロフォンMC1〜MC6との距離は等距離となり、受話再生スピーカ16からの音声は、各マイクロフォンMC1〜MC6に対しほとんど同音量、同位相で届く。ただし、上述した音反射板12の音反射面12aおよびスピーカ収容部14の音反射面14aの構成により、受話再生スピーカ16の音が直接マイクロフォンMC1〜MC6には直接入力されないようにしている。加えて、上述したように、緩衝材を用いたダンパー18と、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとを用いることにより、受話再生スピーカ16の振動の影響を低減している。
会議参加者A1〜A6は、通常、図1(C)に例示したように、音声応答装置1の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
As illustrated in FIG. 3, the reception /
As shown in FIG. 1C, the conference participants A1 to A6 are usually almost equal to the vicinity of the microphones MC1 to MC6 arranged at intervals of 60 degrees in the direction of 360 degrees around the
発光ダイオード
後述する話者を決定したことを通報する手段として発光ダイオードLED1〜6がマイクロフォンMC1〜MC6の近傍に配置されている。
発光ダイオードLED1〜6は上部カバー11を装着した状態でも、全ての会議参加者A1〜A6から視認可能に設けられている。したがって、上部カバー11は発光ダイオードLED1〜6の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー11に発光ダイオードLED1〜6の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部2への防塵の観点からは透光窓が好ましい。
Light- emitting diodes Light-emitting diodes LED1 to 6 are arranged in the vicinity of the microphones MC1 to MC6 as means for reporting that a speaker to be described later has been determined.
The light emitting diodes LED1 to 6 are provided so as to be visible from all the conference participants A1 to A6 even when the
プリント基板21には、後述する各種の信号処理を行うために、第1のディジタルシグナルプロセッサ(DSP1)25、第2のディジタルシグナルプロセッサ(DSP2)26、各種電子回路27〜29が、マイクロフォンMC1〜MC6が位置する部分以外の空間に配置されている。
本実施の形態においては、DSP25を各種電子回路27〜29とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、DSP26をエコーキャンセラーとして用いている。
The printed
In the present embodiment, the
図5は、マイクロプロセッサ23、コーデック24、DSP25、DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29、その他各種電子回路の概略構成図である。
マイクロプロセッサ23はマイクロフォン・電子回路収容部2の全体制御処理を行う。 コーデック24は相手方会議室に送信する音声を圧縮符号化する。
DSP25が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
DSP26はエコーキャンセラーとして機能する。
図5においては、A/D変換器ブロック27の1例として、4個のA/D変換器271〜274を例示し、D/A変換器ブロック28の1例として、2個のD/A変換器281〜282を例示し、増幅器ブロック29の1例として、2個の増幅器291〜292を例示している。
その他、マイクロフォン・電子回路収容部2としては電源回路など各種の回路がプリント基板21に搭載されている。
FIG. 5 is a schematic configuration diagram of the
The
The
The
In FIG. 5, four A /
In addition, as the microphone / electronic
図4においてプリント基板21の中心軸Cに対してそれぞれ対称(または対向する)位置に一直線上に配設された1対のマイクロフォンMC1−MC4:MC2−MC5:MC3−M6が、それぞれ2チャネルのアナログ信号をディジタル信号に変換するA/D変換器271〜273に入力されている。本実施の形態においては、1個のA/D変換器が2チャネルのアナログ入力信号をディジタル信号に変換する。そこで、中心軸Cを挟んで一直線上に位置する2個(1対)のマイクロフォン、たとえば、マイクロフォンMC1とMC4の検出信号を1個のA/D変換器に入力してディジタル信号に変換している。また、本実施の形態においては、相手の会議室に送出する音声の話者を特定するため、一直線上に位置する2個のマイクロフォンの音声の差、音声の大きさなどを参照するから、一直線上に位置する2個のマイクロフォンの信号を同じA/D変換器に入力すると、変換タイミングもほぼ同じになり、2個のマイクロフォンの音声出力の差をとるときにタイミング誤差が少ない、信号処理が容易になるなどの利点がある。
なお、A/D変換器271〜274は可変利得型増幅機能付きのA/D変換器271〜274として構成することもできる。
A/D変換器271〜274で変換したマイクロフォンMC1〜MC6の集音信号はDSP25に入力されて、後述する各種の信号処理が行われる。
DSP25の処理結果の1つとして、マイクロフォンMC1〜MC6のうちの1つを選択した結果が、発光ダイオードLED1〜6に出力される。
In FIG. 4, a pair of microphones MC1-MC4: MC2-MC5: MC3-M6 arranged in a straight line at symmetrical (or opposite) positions with respect to the central axis C of the printed
The A /
The collected sound signals of the microphones MC1 to MC6 converted by the A /
As one of the processing results of the
DSP25の処理結果が、DSP26に出力されてエコーキャンセル処理が行われる。DSP26は、たとえば、エコーキャンセル送話処理部とエコーキャンセル受話部とを有する。
DSP26の処理結果が、D/A変換器281〜282でアナログ信号に変換される。D/A変換器281からの出力が、必要に応じて、コーデック24で符号化されて、増幅器291を介して電話回線920(図1(A))のラインアウトに出力され、相手方会議室に設置された音声応答装置1の受話再生スピーカ16を介して音として出力される。
相手方の会議室に設置された双方向通話装置1からの音声が電話回線920(図1(A))のラインインを介して入力され、A/D変換器274においてディジタル信号に変換されて、DSP26に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された双方向通話装置1からの音声は図示しない経路でスピーカ16に印加されて音として出力される。
D/A変換器282からの出力が増幅器292を介してこの双方向通話装置1の受話再生スピーカ16から音として出力される。すなわち、会議参加者A1〜A6は、上述した受話再生スピーカ16から相手会議室の選択された話者の音声に加えて、その会議室のいる発言者が発した音声をも受話再生スピーカ16を介して聞くことが出来る。
The processing result of the
The processing result of the
Voice from the two-
The output from the D /
マイクロフォンMC1〜MC6
図6は各マイクロフォンMC1〜MC6の特性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図6に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、100Hz、150Hz、200Hz、300Hz、400Hz、500Hz、700Hz、1000Hz、1500Hz、2000Hz、3000Hz、4000Hz、5000Hz、7000Hzの時の指向性を示している。ただし、図解を簡単にするため、図6は代表的に、150Hz、500Hz、1500Hz、3000Hz、7000Hzについての指向性を図解している。
Microphones MC1 to MC6
FIG. 6 is a graph showing the characteristics of the microphones MC1 to MC6.
Each unidirectional characteristic microphone changes its frequency characteristic and level characteristic as illustrated in FIG. 6 depending on the arrival angle of sound from the speaker to the microphone. The plurality of curves indicate directivity when the frequency of the sound collection signal is 100 Hz, 150 Hz, 200 Hz, 300 Hz, 400 Hz, 500 Hz, 700 Hz, 1000 Hz, 1500 Hz, 2000 Hz, 3000 Hz, 4000 Hz, 5000 Hz, and 7000 Hz. However, in order to simplify the illustration, FIG. 6 typically illustrates the directivity for 150 Hz, 500 Hz, 1500 Hz, 3000 Hz, and 7000 Hz.
図7(A)〜(D)は音源の位置とマイクロフォンの集音レベルの分析結果を示すグラフであり、双方向通話装置1と所定距離、たとえば、1.5メートルの距離にスピーカを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示している。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。
図6の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、DSP25においてマイクロフォンの選定処理を行う。
7A to 7D are graphs showing the analysis results of the position of the sound source and the sound collection level of the microphone. A speaker is placed at a predetermined distance, for example, a distance of 1.5 meters, from the two-
When the microphone having directivity shown in FIG. 6 is used, strong directivity is shown in front of the microphone. In the present embodiment, using such characteristics, the
本発明のように指向性を持つマイクロフォンではなく無指向性のマイクロフォンを用いた場合、マイクロフォン周辺の全ての音を集音するので発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるため、本発明においては、指向性マイクロフォン1本で集音することによって周辺のノイズとのS/Nを改善している。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクアレイを用いることができるが、このような方法では、複数の信号の時間軸(位相)の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、DSPの信号処理系にも複雑な信号処理を必要とする。本発明は図6に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクアレイ信号を合成して指向性収音マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。
When a non-directional microphone is used instead of a directional microphone as in the present invention, since all sounds around the microphone are collected, the S / N between the voice of the speaker and the ambient noise is confused. Good sound cannot be collected. In order to avoid this, in the present invention, S / N with surrounding noise is improved by collecting sound with one directional microphone.
Furthermore, a microphone array using a plurality of omnidirectional microphones can be used as a method for obtaining the directivity of the microphone. However, in such a method, the time axis (phase) of a plurality of signals is complicated, and thus complicated. Since processing is required, it takes time and response is low, and the apparatus configuration is complicated. That is, the DSP signal processing system also requires complicated signal processing. The present invention solves such a problem by using the directional microphone illustrated in FIG.
Further, in order to synthesize a microphone array signal and use it as a directional sound pickup microphone, there is a disadvantage that the outer shape is restricted by the pass frequency characteristic and the outer shape becomes large. The present invention also solves this problem.
通話装置の装置構成の効果
上述した構成の通話装置は下記の利点を示す。
(1)等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンMC1〜MC6と受話再生スピーカ16との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ16から出た音が会議室(部屋)環境を経てマイクロフォンMC1〜MC6に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ16からマイクロフォンMC1〜MC6に音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、本発明の実施の形態における双方向通話装置1においてはいつも伝達関数が同じという利点がある。
(2)それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、本双方向通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
(3)上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー(DSP26)が一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板21に複数のDSPを配置する必要がなく、プリント基板21におけるDSPの配置するスペースも少なくてよい。その結果、プリント基板21、ひいては、本発明の通話装置を小型にできる。
(4)上述したように、受話再生スピーカ16とマイクロフォンMC1〜MC6間の伝達関数が一定であるため、たとえば、±3dBもあるマイクロフォン自体の感度差調整を双方向通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
(5)双方向通話装置1が搭載されるテーブルは、通常、円いテーブル(円卓)または多角テーブルを用いるが、双方向通話装置11内の一つの受話再生スピーカ16で均等な品質の音声を軸Cを中心として360度全方位に均等に分散(拡散)するスピーカシステムが可能になった。
(6)受話再生スピーカ16から出た音は円卓のテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカ16から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンMC1〜MC6に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
(8)偶数個、たとえば、6本のマイクロフォンを等角度で放射状かつ等間隔で、対向する1対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易に出来る。
(9)ダンパー18、マイクロフォン支持部材22などにより、受話再生スピーカ16の音による振動が、マイクロフォンMC1〜MC6の集音に与える影響を低減することができる。
(10)図3に図解したように、構造的に、受話再生スピーカ16の音が直接、マイクロフォンMC1〜MC6には伝搬しない。したがって、この双方向通話装置1においは受話再生スピーカ16からのノイズの影響が少ない。
Effects of the device configuration of the communication device The communication device configured as described above exhibits the following advantages.
(1) The positional relationship between the even number of microphones MC1 to MC6 arranged radially at equal angles and at equal intervals and the reception /
(2) Therefore, there is no change in the transfer function when the output of the microphone sent to the other party's conference room is switched when the speakers are different, and there is no need to adjust the gain of the microphone system every time the microphone is switched. Have advantages. In other words, there is an advantage that once the adjustment is made at the time of manufacturing the interactive communication apparatus, it is not necessary to redo the adjustment.
(3) Even if the microphones are switched when the speakers are different for the same reason as described above, only one echo canceller (DSP 26) is required. The DSP is expensive, and it is not necessary to arrange a plurality of DSPs on the printed
(4) As described above, since the transfer function between the reception and
(5) The table on which the two-
(6) The sound emitted from the receiving / reproducing
(7) Since the sound emitted from the reception /
(8) Even number, for example, six microphones are arranged at equal angles radially and at equal intervals, and a pair of opposing microphones are arranged in a straight line, so that level comparison for direction detection can be easily performed.
(9) By the
(10) As illustrated in FIG. 3, structurally, the sound of the reception /
変形例
図2〜図3を参照して述べた通話装置1は、下部に受話再生スピーカ16を配置させ、上部にマイクロフォンMC1〜MC6(および関連する電子回路)を配置させたが、受話再生スピーカ16とマイクロフォンMC1〜MC6(および関連する電子回路)の位置を、図8に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。
The
マイクロフォンの本数は6には限定されず、4本、8本などと任意の偶数本のマイクロフォンを等角度で放射状かつ等間隔で軸Cを複数対それぞれ一直線に(同方向に)、たとえば、マイクロフォンMC1とMC4のように一直線に配置する。2本のマイクロフォンMC1、MC4を対向させて一直線に配置する理由は、マイクロフォンの選定して話者を特定するためである。 The number of microphones is not limited to six, and any number of microphones such as four, eight, etc. may be arranged in a straight line (in the same direction) with a plurality of pairs of axes C radially and equally spaced at the same angle. They are arranged in a straight line like MC1 and MC4. The reason why the two microphones MC1 and MC4 are arranged to face each other is to select a microphone and specify a speaker.
信号処理内容
以下、主として第1のディジタルシグナルプロセッサ(DSP)25で行う処理内容について述べる。
図9はDSP25が行う処理の概要を図解した図である。以下、その概要を述べる。
Signal Processing Contents Hereinafter, processing contents mainly performed by the first digital signal processor (DSP) 25 will be described.
FIG. 9 is a diagram illustrating an outline of processing performed by the
(1)周囲のノイズの測定
初期動作として、好ましくは、双方向通話装置1が設置される周囲のノイズの測定する。
双方向通話装置1は種々の環境(会議室)で使用されうる。マイクロフォンの選択の正確さを期し、双方向通話装置1の性能を高めるために、本発明においては、初期段階において、双方向通話装置1が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、双方向通話装置1を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。
ノイズ測定の詳細は後述する。
(1) Measurement of ambient noise As an initial operation, preferably, ambient noise where the two-
The two-
Of course, when the two-
Note that noise measurement can also be performed in a normal state.
Details of the noise measurement will be described later.
(2)議長の選定
たとえば、双方向通話装置1を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の1態様としては、双方向通話装置1を使用する初期段階において、双方向通話装置1の操作部15から議長を設定する。議長の設定方法としては、たとえば、操作部15の近傍に位置する第1マイクロフォンMC1を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、双方向通話装置1を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。
議長選定の詳細は後述する。
(2) Selection of Chairperson For example, when the two-
Note that this processing can be omitted when the chairperson who repeatedly uses the
Of course, the selection of the chair is not limited to the initial state, and can be performed at any timing.
Details of the chairperson selection will be described later.
(3)マイクロフォンの感度差調整
初期動作として、好ましくは、受話再生スピーカ16とマイクロフォンMC1〜MC6との音響結合が等しくなるように、マイクロフォンMC1〜MC6の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。
感度差調整については後述する。
(3) Microphone sensitivity difference adjustment As an initial operation, preferably, the gain or attenuation unit of the amplification unit that amplifies the signals of the microphones MC1 to MC6 so that the acoustic coupling between the
The sensitivity difference adjustment will be described later.
通常処理として下記に例示する各種の処理を行う。
(4)マイクロフォン選択、切り替え処理
1つの会議室において同時に複数の会議参加者が通話すると、音声が入り交じり相手側会議室内の会議参加者A1〜A6にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には1人ずつ通話させる。そのため、DSP25においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、電話回線920を介して相手方会議室の音声応答装置1に伝送されてスピーカから出力される。もちろん、図5を参照して述べたように、選択された話者のマイクロフォンの近傍のLEDが点灯し、さらに、その部屋の双方向通話装置1のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にS/Nの良い信号を送ることを目的としている。
(5)選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議参加者のマイクロフォンがどれであるかを、会議参加者A1〜A6全員に容易に認識できるように、発光ダイオードLED1〜6の該当するものを点灯させる。
(6)上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
(a)マイクロフォンの集音信号の帯域分離と、レベル変換処理
(b)発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するた め。
(c)発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフ ォンを判定するため。
(d)発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。 (e)通常動作時のフロアノイズの測定
Various processes exemplified below are performed as normal processes.
(4) Microphone selection / switching process When a plurality of conference participants make a call at the same time in one conference room, voices are mixed and difficult for the conference participants A1 to A6 in the other conference room. Therefore, in the present invention, in principle, one person is allowed to talk at a time. For this reason, the
As a result, only the call from the selected microphone is transmitted to the
The purpose of this processing is to select a signal from a unidirectional microphone facing the speaker and send a signal having a good S / N to the other party as a transmission signal.
(5) Display of the selected microphone Lights so that all the conference participants A1 to A6 can easily recognize which conference participant's microphone is selected and allowed to speak. The corresponding ones of the
(6) As a background art of the microphone selection process described above, or in order to accurately perform the microphone selection process, various signal processes exemplified below are performed.
(A) Band separation and level conversion processing of microphone collected signal (b) Start / end determination processing of speech
To be used as a trigger to start selecting the microphone signal that faces the speaker direction.
(C) Speaker direction microphone detection processing
To analyze the collected sound signal of each microphone and determine the microphone used by the speaker.
(D) Speaker direction microphone switching timing determination processing, and microphone signal selection switching processing facing the detected speaker
An instruction to switch to the microphone selected from the above processing result is given. (E) Measurement of floor noise during normal operation
フロア(環境)ノイズの測定
この処理は双方向通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。
Measurement of floor (environment) noise This process is divided into an initial process and a normal process immediately after the two-way communication device is turned on.
This process is performed under the following exemplary preconditions.
双方向通話装置1の電源投入直後、DSP25は図10〜図12を参照して述べる下記のノイズ測定を行う。
双方向通話装置1の電源投入直後のDSP25の初期処理は、フロアノイズと基準信号レベルを測定し、その差を元に話者と本システムとの有効距離の目安と発言開始、終了判定閾値レベルの設定するために行う。
DSP25内の音圧レベル検出部でピークホールドしたレベル値を一定時間間隔、たとえば、10mSecで読み出し、単位時間の値の平均値を算出しフロアノイズとする。そして、DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
Immediately after turning on the power of the
The initial processing of the
The level value peak-held by the sound pressure level detection unit in the
図10、処理1:テストレベル測定
DSP25は、図10に図解した処理に従い、図5に図解した受話信号系のラインイン端子にテストトーンを出力し、受話再生スピーカ16からの音を各マイクロフォンMC1〜MC6で集音し、その信号を発言開始基準レベルとして平均値を求める。
FIG. 10, Process 1: Test Level Measurement The
図11、処理2:ノイズ測定1
DSP25は、図11に図解した処理に従い、各マイクロフォンMC1〜MC6からの集音信号のレベルをフロアノイズレベルとして一定時間収集し、平均値を求める。
FIG. 11, Process 2:
In accordance with the process illustrated in FIG. 11, the
図12、処理3:有効距離試算
DSP25は、図12に図解した処理に従い、発言開始基準レベルとフロアノイズレベルを比較し、双方向通話装置1の設置されている会議室などの部屋の騒音レベルを推定し、本双方向通話装置1が良好に働く発言者と本双方向通話装置1との有効距離を計算する。
FIG. 12, Process 3: Effective
マイク選択禁止判定
処理3の結果、フロアノイズの方が発言開始基準レベルより大きい(高い)場合、DSP25はそのマイクロフォンの方向に強大なノイズ源が有ると判定し、その方向のマイクロフォンの自動選択を禁止に設定し、それを、たとえば、発光ダイオードLED1〜6または操作部15に表示する。
As a result of the microphone selection
しきい値決定
DSP25は、図13に図解したように、発言開始基準レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
As illustrated in FIG. 13, the threshold
ノイズ測定に関する限り、次の処理は通常処理なので、DSP25は各タイマ(カウンタ)をセットして次処理の準備をする。
As far as noise measurement is concerned, the next process is a normal process, so the
ノイズ通常処理
DSP25は、双方向通話装置1の初期動作時の上記ノイズ測定の後も、通常動作状態において、図14に示す処理に従って、ノイズ処理を行い、6本のマイクロフォンMC1〜MC6に対しそれぞれ選択された発言者の音量レベル平均値と発言終了検出後のノイズレベルを測定し一定時間単位で、発言開始、終了判定閾値レベルを再設定する。
The noise
図14、処理1:DSP25は、発言中か発言終了かの判断で処理2か処理3への分岐を決定する。
FIG. 14, Process 1 : The
図14、処理2:発言者レベル測定
DSP25は、発言中の単位時間、たとえば、10秒分のレベルデータを複数回、たとえば、10回分平均して発言者レベルとして記録する。
単位時間内に発言終了になった場合、新たな発言開始まで時間計測及び発言レベル測定を中止し、新たな発言検出後、測定処理を再開する。
FIG. 14, Process 2 : Speaker Level Measurement The
If the utterance ends within the unit time, the time measurement and the utterance level measurement are stopped until a new utterance starts, and the measurement process is resumed after the new utterance is detected.
図14、処理3:フロアノイズ測定2
DSP25は、発言終了検出後から発言開始までの間の単位時間、たとえば、10秒分のノイズレベルデータを複数回、たとえば、10回分平均してフロアノイズレベルとして記録する。
単位時間内に新たな発言があった場合は、DSP25は途中で時間計測及びノイズ測定を中止し、新たな発言終了検出後、測定処理を再開する。
FIG. 14, Process 3 :
The
If there is a new message within the unit time, the
図14、処理4:閾値決定2
DSP25は、発言レベルとフロアノイズレベルを比較し、その差から発言開始、終了レベルの閾値を決定する。
なおこのほかに応用として、発言者の発言レベルの平均値が求められているのでそのマイクロフォンに対向した発言者固有の発言開始、終了検出閾値レベルを設定することもできる。
FIG. 14, Process 4 :
The
In addition to this, since the average value of the speaking level of the speaker is obtained, the speaking start and end detection threshold levels specific to the speaking party facing the microphone can be set.
フィルタ処理による各種周波数成分信号の生成
図15はマイクロフォンで集音した音信号を前処理として、DSP25で行うフィルタリング処理を示す構成図である。図15は1マイクロフォン(チャネル(1集音信号))分の処理について示す。
各マイクロフォンの集音信号は、たとえば、100Hzのカットオフ周波数を持つアナログ・ローカットフィルタ101で処理され、100Hz以下の周波数が除去されたフィルタ処理された音声信号がA/D変換器102に出力され、A/D変換器102でディジタル信号に変換された集音信号が、それぞれ7.5KHz、4KHz、1.5KHz、600Hz、250Hzのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ103a〜103e(総称して103)で高周波成分が除去される(ハイカット処理)。ディジタル・ハイカットフィルタ103a〜103eの結果はさらに、減算器104a〜104d(総称して104)において隣接するディジタル・ハイカットフィルタ103a〜103eのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ103a〜103eおよび減算器104a〜104dは、実際はDSP25において処理している。A/D変換器102はA/D変換器ブロック27の1つとして実現できる。
Generation of Various Frequency Component Signals by Filter Processing FIG. 15 is a configuration diagram showing filtering processing performed by the
The collected sound signal of each microphone is processed by an analog
In the embodiment of the present invention, the digital
図16は、図15を参照して述べたフィルタ処理結果を示す周波数特性図である。このように1つの指向性を持つマイクロフォンで集音した信号から、各種の周波数成分をもつ複数の信号が生成される。 FIG. 16 is a frequency characteristic diagram showing the filter processing result described with reference to FIG. Thus, a plurality of signals having various frequency components are generated from a signal collected by a microphone having one directivity.
バンドパス・フィルタ処理およびマイク信号レベル変換処理
マイクロフォン選択処理の開始のトリガの1つに発言の開始、終了の判定を行う。そのために使用する信号が、DSP25で行う図17に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図17はマイクロフォンMC1〜MC6で集音した6チャネル(CH)の入力信号処理中の1CHのみを示す。
DSP25内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ100〜600Hz、200〜250Hz、250〜600Hz、600〜1500Hz、1500〜4000Hz、4000〜7500Hzの帯域通過特性を持つバンドパス・フィルタ201a〜201a(総称してバンドパス・フィルタ・ブロック201)と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器202a〜202g(総称して、レベル変換ブロック202)を有する。
The start and end of speech is determined as one of the triggers for starting the band-pass filter processing and microphone signal level conversion processing microphone selection processing. A signal used for this purpose is obtained by the bandpass filter processing and level conversion processing illustrated in FIG. FIG. 17 shows only 1CH during input signal processing of 6 channels (CH) collected by the microphones MC1 to MC6.
The band-pass filter processing and level conversion processing unit in the
各レベル変換部202a〜202gは、信号絶対値処理部203とピークホールド処理部204を有する。したがって、波形図を例示したように、信号絶対値処理部203は破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。ピークホールド処理部204は、信号絶対値処理部203の出力信号の最大値を保持する。ただし、本実施の形態では、時間の経過により、保持した最大値は幾分低下していく。もちろん、ピークホールド処理部204を改良して、低下分を少なくして長時間最大値を保持可能にすることもできる。
Each
バンドパス・フィルタについて述べる。双方向通話装置1に使用するバンドパス・フィルタは、たとえば、2次IIRハイカット・フィルタと、マイク信号入力段のローカット・フィルタのみでバンドパス・フィルタを構成している。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、1バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数+1のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号1チャネル(CH)当りで下記6バンドのバンドパス・フィルタとなる。
A bandpass filter will be described. The band-pass filter used for the two-
In the present embodiment, it is utilized that if the signal that has passed through the high-cut filter is subtracted from the signal having a flat frequency characteristic, the rest is substantially equivalent to the signal that has passed through the low-cut filter.
In order to match the frequency-level characteristics, an extra band-pass bandpass filter is required for one band, but the band required by the number of filter stages equal to the number of bands of the required bandpass filter + 1 and the filter coefficient A pass is obtained. The band frequency of the hand pass filter required this time is the following 6 band pass filter per channel (CH) of the microphone signal.
この方法でDSP25における上記のIIR・フィルタの計算プログラムは、6CH(チャネル)×5(IIR・フィルタ) =30のみである。
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は2次IIRフィルタを使用するとして、本発明のように6本のマイク信号にそれぞれ6バンドのバンドパス・フィルタを用意すると、従来方法では、6×6×2=72回路のIIR・フィルタ処理が必要になる。この処理には、最新の優秀なDSPでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する2次IIRハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの5種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、IIRフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。
In this method, the calculation program of the above IIR filter in the
Contrast with the conventional band-pass filter configuration. Assuming that the band-pass filter uses a second-order IIR filter and a 6-band band-pass filter is prepared for each of six microphone signals as in the present invention, in the conventional method, 6 × 6 × 2 = 72. Circuit IIR / filtering is required. This processing requires considerable program processing even with the latest excellent DSP, and affects other processing.
In the embodiment of the present invention, the 100 Hz low cut filter is processed by an analog filter in the input stage. There are five types of cutoff frequencies of the prepared second-order IIR high cut filters: 250 Hz, 600 Hz, 1.5 KHz, 4 KHz, and 7.5 KHz. Of these, the high-cut filter with a cutoff frequency of 7.5 kHz is not necessary because the sampling frequency is actually 16 KHz. Deliberately rotate the phase of the attenuator to reduce the phenomenon.
図18は図17に図解した構成による処理をDSP25で処理したときのフローチャートである。
FIG. 18 is a flowchart when processing by the
図18に図解したDSP25におけるフィルタ処理は1段目の処理としてハイパス・フィルタ処理、2段目の処理として1段目のハイパス・フィルタ処理結果からの減算処理を行う。図16はその信号処理結果のイメージ周波数特性図である。下記、〔x〕は図16における各処理ケースを示す。
In the
第一段階
〔1〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。
First stage [1] The input signal is passed through a 7.5 kHz high cut filter for the whole band pass filter. This filter output signal becomes a bandpass filter output of [100Hz-7.5KHz] by matching the analog low cut of the input.
〔2〕入力信号を4KHzのハイカットフィルタに通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-4KHz] のバンドパス・フィルタ出力となる。 [2] Pass the input signal through a 4KHz high cut filter. This filter output signal becomes a bandpass filter output of [100Hz-4KHz] by combining with the input analog low cut filter.
〔3〕入力信号を1.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] 入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] のバンドパス・フィルタ出力となる。 [3] Pass the input signal through a 1.5 kHz high cut filter. This filter output signal is combined with the input analog low cut filter [100Hz-1.5KHz] is combined with the input analog low cut filter [100Hz-1.5KHz] When combined with the input analog low cut filter [100Hz -1.5KHz] bandpass filter output.
〔4〕入力信号を600KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-600Hz] のバンドパス・フィルタ出力となる。 [4] Pass the input signal through a 600 kHz high cut filter. This filter output signal becomes a bandpass filter output of [100Hz-600Hz] by combining with the input analog low cut filter.
〔5〕入力信号を250KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-250Hz] のバンドパス・フィルタ出力となる。 [5] The input signal is passed through a 250 kHz high cut filter. This filter output signal becomes a bandpass filter output of [100Hz-250Hz] by combining with the input analog low cut filter.
第二段階
〔1〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔2〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔3〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔4〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。 〔5〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔6〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記(4)の出力信号とする。
DSP25における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。
The second stage [1] band pass filter (BPF5 = [4KHz ~ 7.5KHz]) executes the process of filter output [1]-[2] ([100Hz ~ 7.5KHz]-[100Hz ~ 4KHz]) The signal output is [4KHz to 7.5KHz].
[2] The bandpass filter (BPF4 = [1.5KHz to 4KHz]) will perform the above processing when the filter output [2]-[3] ([100Hz to 4KHz]-[100Hz to 1.5KHz]) is executed. Output [1.5KHz ~ 4KHz].
[3] The bandpass filter (BPF3 = [600Hz to 1.5KHz]) performs the above processing when the filter output [3]-[4] ([100Hz to 1.5KHz]-[100Hz to 600Hz]) is executed. Output [600Hz ~ 1.5KHz].
[4] The bandpass filter (BPF2 = [250Hz to 600Hz]) performs the process of filter output [4]-[5] ([100Hz to 600Hz]-[100Hz to 250Hz]). ~ 600Hz]. [5] The bandpass filter (BPF1 = [100 Hz to 250 Hz]) uses the signal [5] as it is as the output signal [5].
[6] The bandpass filter (BPF6 = [100 Hz to 600 Hz]) uses the signal [4] as it is and outputs it as the output signal (4).
The bandpass filter output required by the above processing in the
入力されたマイクロフォンの集音信号MIC1〜MIC6は、DSP25において、全帯域の音圧レベル、バンドパス・フィルタを通過した6帯域の音圧レベルとして表5のように常時更新される。
The input microphone sound collection signals MIC1 to MIC6 are constantly updated in the
表5において、たとえば、L1-1はマイクロフォンMC1の集音信号が第1バンドパス・フィルタ201aを通過したときのピークレベルを示す。
発言の開始、終了判定は、図17に図示した100Hz〜600Hzのバンドパス・フィルタ201aを通過し、レベル変換部202bで音圧レベル変換されたマイクロフォン集音信号を用いる。
In Table 5, for example, L1-1 indicates a peak level when the collected sound signal of the microphone MC1 passes through the
The start and end of speech is determined using a microphone sound collection signal that has passed through the 100 Hz to 600 Hz
従来のバンドパス・フィルタの構成は、バンドパス・フィルタ1段当りにハイ・パスフィルタとロー・パスフィルタの組み合わせで行うので、本実施の形態で使用する仕様の36回路のバンドパス・フィルタを構築すると72回路のフィルタ処理が必要となる。これに対して本発明の実施の形態のフィルタ構成は上述したように簡単になる。 The conventional band-pass filter is configured by combining a high-pass filter and a low-pass filter for each stage of the band-pass filter. Therefore, a 36-band band-pass filter of the specification used in this embodiment is used. When constructed, 72 circuits of filter processing are required. In contrast, the filter configuration of the embodiment of the present invention is simplified as described above.
発言の開始・終了判定処理
第1のディジタルシグナルプロセッサ(DSP1)25は、音圧レベル検出部から出力される値を元に、図19に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言終了の閾値よりレベルが下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、0.5秒間継続した場合発言終了と判定する。
発言の開始、終了判定は、図17に図解したマイク信号変換処理部202bで音圧レベル変換された100Hz〜600Hzのバンドパス・フィルタを通過した音圧レベルデータ(マイク信号レベル(1))が図19に例示した閾値レベル以上になった時から発言開始と判定する。
DSP25は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間、たとえば、0.5秒間は次の発言開始を検出しないようにしている。
Sentence start / end determination processing The first digital signal processor (DSP1) 25, based on the value output from the sound pressure level detector, as shown in FIG. If it rises and exceeds the threshold of the speech start level, it is determined that the speech starts.If the level continues to be higher than the threshold of the start level, the floor noise is determined if the level is lower than the threshold of speech end during speech. The speech end determination time is determined, for example, when it is continued for 0.5 seconds, the speech end is determined.
The start and end of speech is determined based on sound pressure level data (microphone signal level (1)) that has passed through a 100 Hz to 600 Hz bandpass filter whose sound pressure level has been converted by the microphone signal
In order to avoid malfunction due to frequent microphone switching, the
マイクロフォン選択
DSP25は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図20は双方向通話装置1の動作形態を図解したグラフである。
図21は双方向通話装置1の通常処理を示すフローチャートである。
The
FIG. 20 is a graph illustrating the operation mode of the
FIG. 21 is a flowchart showing normal processing of the
双方向通話装置1は図20に図解したように、マイクロフォンMC1〜MC6からの集音信号に応じて音声信号監視処理を行い、発言開始・終了判定を行い、発言方向判定を行い、マイクロフォン選択を行い、その結果を発光ダイオードLED1〜6に表示する。
以下、図21のフローチャートを参照して双方向通話装置1におけるDSP25を主体として動作を述べる。なお、マイクロフォン・電子回路収容部2の全体制御はマイクロプロセッサ23によって行われるが、DSP25の処理を中心に述べる。
As illustrated in FIG. 20, the two-
The operation will be described below with the
ステップ1:レベル変換信号の監視
マイクロフォンMC1〜MC6で集音した信号はそれぞれ、図16〜図18、特に、図17を参照して述べた、バンドパス・フィルタ・ブロック201、レベル変換ブロック202において、7種類のレベルデータとして変換されているから、DSP25は各マイクロフォン集音信号についての7種類の信号を常時監視する。
その監視結果に基づいて、DSP25は、発言者方向検出処理1、発言者方向検出処理2、発言開始・終了判定処理のいずれかの処理に移行する。
Step 1: Level Conversion Signal Monitoring Signals collected by the microphones MC1 to MC6 are respectively obtained in the band-
Based on the monitoring result, the
ステップ2:発言開始・終了判定処理
DSP25は図19を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。DSP25が処理が発言開始を検出した場合、ステップ4の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ2における発言の開始、終了の判定処理が発言レベルが発言終了レベルより小さくなった時、発言終了判定時間(たとえば、0.5秒)のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。
Step 2: Speech Start / End Determination Processing The
When the speech start / end determination process in
If it becomes larger than the speech end level within the speech end determination time, it waits until it becomes smaller than the speech end level again.
ステップ3:発言者方向の検出処理
DSP25における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ4の発言者方向の判定処理へデータを供給する。
Step 3: Speaker Direction Detection Processing The speaker direction detection processing in the
ステップ4:発言者方向マイクの切り換え処理
DSP25に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ2の処理とステップ3の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ4のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部15から設定されていて、議長のマイクロフォンと他の会議参加者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報を発光ダイオードLED1〜6に表示する。
Step 4: Speaker direction microphone switching processing The timing determination processing in the speaker direction microphone switching processing in the
However, if the chairman's microphone is set from the
At this time, the selected microphone information is displayed on the light emitting diodes LED1 to LED6.
ステップ5:マイクロフォン集音信号の伝送
マイク信号切り換え処理は6本のマイク信号の中からステップ4処理により選択されたマイク信号のみを送話信号として、双方向通話装置1から電話回線920を介して相手側の双方向通話装置に伝送するため、図5に図解した電話回線920のラインアウトへ出力する。
Step 5: Transmission of microphone sound collecting signal In the microphone signal switching process, only the microphone signal selected by the process of
発言開始レベル閾値、発言終了閾値の設定
処理1:電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、1秒間分のフロアノイズを測定する。
DSP25は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、1分間の値の平均値を算出しフロアノイズとする。
DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル(フロアノイズ +9dB)、発言終了の検出レベルの閾値(フロアノイズ+6dB)を決定する。DSP25は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、DSP25は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。
Processing for setting a speech start level threshold and a speech end threshold 1: Immediately after turning on the power, the floor noise for a predetermined time, for example, 1 second, of each microphone is measured.
The
The
When it is determined that the speech has ended, the
この方法によれば、この閾値設定はマイクロフォンの置かれた位置のフロアノイズレベルがそれぞれ違うので各マイクロフォンにそれぞれ閾値が設定出来され、ノイズ音源によるマイクロフォンの選択における誤判定を防げる。 According to this method, since the floor noise level at the position where the microphone is placed is different in this threshold setting, a threshold can be set for each microphone, and erroneous determination in selection of the microphone by the noise source can be prevented.
処理2:周辺ノイズ(フロアノイズの大きい)部屋への対応
処理2は処理1ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
DSP25は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
DSP25は、発言開始閾値レベルは発言終了閾値レベルより大きく(たとえば、3dB以上の差)に設定する。
DSP25は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。
Process 2: Dealing with ambient noise (large floor noise)
The
The
The
この方法によれば、この閾値設定は閾値が全てのマイクロフォンに対して同じ値なので、ノイズ源を背にした人と、そうでない人とで声の大きさが同程度で発言開始が認識できる。 According to this method, since the threshold value is the same value for all microphones, the person who is behind the noise source and the person who is not so have the same voice volume and can recognize the start of speech.
発言開始判定
処理1:6個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
DSP25は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ16からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ16と全てのマイクロフォンMC1〜MC6との距離は同じであるから、受話再生スピーカ16からの音は全てのマイクロフォンMC1〜MC6にほぼ均等に到達するからである。
Talk start judgment
Process 1 : The output level of the sound pressure level detector corresponding to the six microphones is compared with the threshold value of the speech start level.
When the output level of the sound pressure level detector corresponding to all the microphones exceeds the threshold of the speech start level, the
処理2:図4に図解した6個のマイクロフォンについての60度の等角度で放射状かつ等間隔の配置で、指向性軸を反対方向に180度ずらした単一指向性マイク2本(マイクロフォンMC1とMC4、マイクロフォンMC2とMC5、マイクロフォンMC3とMC6)の3組構成し、マイク信号のレベル差を利用する。すなわち下記の演算を実行する。 Process 2 : Two unidirectional microphones (with microphones MC1 and MC1) with the directional axes shifted by 180 degrees in the opposite direction at an equal angle of 60 degrees with respect to the six microphones illustrated in FIG. Three sets of MC4, microphones MC2 and MC5, and microphones MC3 and MC6) are used, and the level difference of the microphone signal is used. That is, the following calculation is performed.
DSP25は上記絶対値[1],[2],[3]と発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
この処理の場合、処理1のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので(受話再生スピーカ16からの音が全てのマイクロフォンに等しく到達するから)、受話再生スピーカ16からの音か話者からの音声かの判定は不要になる。
The
In the case of this process, since all the absolute values do not become larger than the threshold value of the speech start level as in process 1 (because the sound from the reception /
発言者方向の検出処理
発言者方向の検出には図6に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図6に例示したように、周波数特性、レベル特性が変化する。その結果を図7(A)〜(D)に例示した。図7(A)〜(D)は、双方向通話装置1から所定距離、たとえば、1.5メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示す。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図15〜図18を参照して述べたマイク信号レベル変換処理からの5バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。
Speaker Direction Detection Processing For detecting the speaker direction, the characteristics of the unidirectional microphone illustrated in FIG. 6 are used. As illustrated in FIG. 6, the frequency characteristics and level characteristics of the unidirectional microphone change depending on the sound arrival angle from the speaker to the microphone. The results are illustrated in FIGS. 7 (A) to (D). FIGS. 7A to 7D show a fast Fourier transform (FFT) at a predetermined time interval for the sound collected by each microphone with a speaker placed at a predetermined distance from the two-
本発明の1実施の形態としての双方向通話装置1における発言者方向の検出のために実際の処理として適用した判定方法を述べる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理(1dBフルスパン(1dBFs)ステップなら0dBFsの時0、-3dBFsなら3というように、又はこの逆に)を行う。この重み付けのステップで処理の分解能が決まる。
1サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい(大きい)マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表7である。
A determination method applied as an actual process for detecting the direction of the speaker in the two-
Appropriate weighting processing is performed on the output level of each band-pass filter (0 for 1 dB full span (1 dBFs) step, 0 for 0 dBFs, 3 for -3 dBFs, or vice versa). This weighting step determines the processing resolution.
The above weighting process is executed for each sample clock, and the weighted score of each microphone is added and averaged with a fixed number of samples, and the microphone signal having a small (large) total score is determined as a microphone facing the speaker. To do. Table 7 below is an image of this result.
表7に例示したこの例では一番合計点が小さいのは第1マイクロフォンMC1なので、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定する。DSP25はその結果を音源方向マイク番号という形で保持する。
上述したように、DSP25は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい(または大きい)マイク信号順に順位をつけ、1位の順位が3つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)として、下記表8のような成績表を作成する。
In this example illustrated in Table 7, the smallest total point is the first microphone MC1, so the
As described above, the
実際には部屋の特性により音の反射や定在波の影響で、必ずしも第1マイクロフォンMC1の成績が全てのバンドパス・フィルタの出力で一番となるとは限らないが、5バンド中の過半数が1位であれば第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定することができる。DSP25はその結果を音源方向マイク番号という形で保持する。
Actually, the performance of the first microphone MC1 is not necessarily the best in the output of all bandpass filters due to the reflection of sound and the influence of standing waves depending on the characteristics of the room, but the majority in the 5 bands If it is 1st place, it can be determined that there is a sound source in the direction of the first microphone MC1 (there is a speaker). The
DSP25は各マイクロフォンの各帯域バンドパス・フィルタの出力レベルデータを下記表9に示した形態で合計し、レベルの大きいマイク信号を発言者に対向したマイクロフォンと判定し、その結果を音源方向マイク番号という形で保持する。
The
発言者方向マイクの切り換えタイミング判定処理
図21のステップ2の発言開始判定結果により起動し、ステップ3の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、DSP25は、ステップ5のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、発光ダイオードLED1〜6へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し本双方向通話装置1が応答した事を知らせる。
Talker direction microphone switching timing determination processing When activated by the speech start determination result of
反響の大きい部屋で、反射音や定在波の影響を除くため、DSP25は、マイクロフォンを切り換えてから発言終了判定時間(たとえば、0.5 秒)経過しないと、新しいマイク選択コマンドの発効は禁止する。
図21のステップ1のマイク信号レベル変換処理結果、および、ステップ3の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは2通りを準備する。
In order to eliminate the influence of reflected sound and standing waves in a room with high reverberation, the
In this embodiment, two microphone selection switching timings are prepared from the result of the microphone signal level conversion process in
第1の方法:発言開始が明らかに判定できる時
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、DSP25は、全てのマイク信号レベル(1)とマイク信号レベル(2)が発言終了閾値レベル以下になってから発言終了判定時間(たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(1)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を開始する。
First method : When it is possible to clearly determine the start of speech When speech from the direction of the selected microphone has ended and there is a new speech from another direction.
In this case, the
第2の方法:発言継続中に新たに別の方向からより大きな声の発言があった場合
この場合はDSP25は発言開始(マイク信号レベル(1)が閾値レベル以上になった時)から発言終了判定時間(たとえば、0.5 秒)以上経過してから判定処理を開始する。 発言終了検出前に、3の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、DSP25は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を起動する。
Second method : When there is a new louder voice from another direction while the voice is continuing In this case, the
検出された発言者に対向したマイク信号の選択切り替え処理
DSP25は図21のステップ4の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
DSP25のマイク信号の選択切り替え処理は、図22に図解したように、6回路の乗算器と6入力の加算器で構成する。マイク信号を選択する為には、DSP25は選択したいマイク信号が接続されている乗算器のチャネルゲイン(チャネル利得:CH Gain)を〔1〕に、その他の乗算器のCH Gainを〔0〕とする事で、加算器には選択された(マイク信号×〔1])の信号と(マイク信号×〔0])の処理結果が加算されて希望のマイク選択信号が出力に得られる。
The microphone signal selection
The microphone signal selection switching process of the
上記の様にチャネルゲインを[1]か[0]に切り換えると切り換えるマイク信号のレベル差によりクリック音が発生する可能性が有る。そこで、双方向通話装置1では、図23に図解したように、CH Gainの変化を[1]から[0]へ、[0]から[1]へ変化するのに、切替遷移時間、たとえば、10m秒の時間で連続的に変化させてクロスするようにして、マイク信号のレベル差によるクリック音の発生を避けている。
When the channel gain is switched between [1] and [0] as described above, there is a possibility that a click sound is generated due to the level difference of the microphone signal to be switched. Therefore, in the two-
また、チャネルゲインの最大を[1]以外、たとえば[0.5]の様にセットする事で後段のDSP25におけるエコーキャンセル処理動作の調整を行うこともできる。
Further, by setting the maximum channel gain to other than [1], for example, [0.5], the echo cancellation processing operation in the
上述したように、本発明の実施形態の通話装置は、ノイズの影響を受けず、有効に会議などの通話装置に適用できる。 As described above, the call device according to the embodiment of the present invention is not affected by noise, and can be effectively applied to a call device such as a conference.
本発明の実施形態の通話装置は構造面から下記の利点を有する。
(1)複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室(部屋)環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。
The communication device according to the embodiment of the present invention has the following advantages in terms of structure.
(1) The positional relationship between a plurality of microphones having a single directivity and the reception / reproduction speaker is constant, and furthermore, since the distance is very close, the sound emitted from the reception / reproduction speaker passes through the conference room (room) environment. The level that returns directly to the multiple microphones is overwhelmingly dominant. Therefore, the characteristics (signal level (intensity), frequency characteristics (f characteristic), phase) for sound to reach a plurality of microphones from the receiving / reproducing speaker are always the same. That is, there is an advantage that the transfer function is always the same in the communication device.
(2)それ故、マイクロフォンを切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をするとやり直す必要がないという利点がある。 (2) Therefore, there is no change in the transfer function when the microphone is switched, and there is an advantage that it is not necessary to adjust the gain of the microphone system every time the microphone is switched. In other words, there is an advantage that it is not necessary to start over once the adjustment is made at the time of manufacturing the communication device.
(3)上記と同じ理由でマイクロフォンを切り替えても、ディジタルシグナルプロセッサ(DSP)で構成するエコーキャンセラが一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板にDSPを配置するスペースも少なくてよい。 (3) Even if the microphone is switched for the same reason as described above, only one echo canceller configured by a digital signal processor (DSP) may be used. The DSP is expensive, and the space for placing the DSP on a printed circuit board on which various members are mounted and there is little space may be small.
(4)受話再生スピーカと複数のマイクロフォン間の伝達関数が一定であるため、±3dBもあるマイクロフォン自体の感度差調整をユニット単独で出来るという利点がある。 (5)通話装置が搭載されるテーブルは、通常、円卓を用いるが、通話装置内の一つの受話再生スピーカで均等な品質の音声を全方位に均等に分散(閑散)するスピーカシステムが可能になった。 (4) Since the transfer function between the receiving / reproducing speaker and the plurality of microphones is constant, there is an advantage that the sensitivity difference of the microphone itself having ± 3 dB can be adjusted by the unit alone. (5) The table on which the communication device is mounted normally uses a round table, but a speaker system that evenly distributes sound of equal quality in all directions with one reception / reproduction speaker in the communication device can be realized. became.
(6)受話再生スピーカから出た音はテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音 と位相キャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。 (6) The sound emitted from the receiving / reproducing speaker is transmitted to the table surface (boundary effect), and the sound is effectively and evenly delivered to the conference participants, and the sound on the opposite side to the ceiling of the conference room. The phase is canceled to produce a small sound, and there is an advantage that the conference participant has less reflected sound from the ceiling direction, and as a result, a clear sound is distributed to the participant.
(7)受話再生スピーカから出た音は複数の全てのマイクロフォンに同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。 (7) Since the sound emitted from the reception / reproduction speaker reaches all of the plurality of microphones at the same volume at the same time, it is easy to determine whether the sound is the speaker's voice or the reception voice. As a result, erroneous determination of microphone selection processing is reduced.
(8)偶数個のマイクロフォンを等間隔で配置したことで方向検出の為のレベル比較が容易に出来る。 (8) By arranging even number of microphones at equal intervals, level comparison for direction detection can be easily performed.
(9)緩衝材を用いたダンパー、柔軟性または弾力性を持つマイクロフォン支持部材などにより、マイクロフォンが搭載されているプリント基板を介して伝達され得る受話再生スピーカの音による振動が、マイクロフォンの集音に影響を低減することができる。 (9) Due to a damper using a cushioning material, a microphone support member having flexibility or elasticity, vibration due to the sound of the reception and reproduction speaker that can be transmitted through the printed circuit board on which the microphone is mounted is collected by the microphone. Can reduce the influence.
(10)受話再生スピーカの音が直接、マイクロフォンには進入しない。したがって、この双方向通話装置においは受話再生スピーカからのノイズの影響が少ない。 (10) The sound of the receiving / reproducing speaker does not directly enter the microphone. Therefore, in this two-way communication device, the influence of noise from the reception / reproduction speaker is small.
上述した通話装置は信号処理面から下記の利点を有する。
(a)複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてS/Nの良い音、クリアな音を集音(収音)して、相手方に送信することができる。
(b)周辺の発言者からの音声をS/N良く集音して、発言者に対向したマイクを自動選択できる。
(c)本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域事のレベルを比較する事で、信号分析を簡略化している。
(d)本発明のマイク信号切り換え処理をDSPの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
(e)マイク選択結果を、発光ダイオードなどの表示手段、または、外部への通知処理することができる。したがって、たとえば、テレビカメラへの発言者位置情報として活用することもできる。
The above communication device has the following advantages from the signal processing aspect.
(A) A plurality of unidirectional microphones are arranged radially at equal intervals so that the direction of the sound source can be detected, and the microphone signal is switched to collect (collect) sound with good S / N and clear sound. Can be sent to the other party.
(B) Sound from surrounding speakers can be collected with good S / N and a microphone facing the speaker can be automatically selected.
(C) In the present invention, signal analysis is simplified by dividing a passing voice frequency band as a method of microphone selection processing and comparing levels of the divided frequency bands.
(D) The microphone signal switching processing of the present invention is realized as DSP signal processing, and a plurality of signals are all cross-fade processed so as not to generate a clicking sound at the time of switching.
(E) The microphone selection result can be notified to display means such as a light emitting diode or to the outside. Therefore, for example, it can be used as speaker position information for a television camera.
以上、双方向通話装置1の構成、処理動作について詳述した。
本双方向通話装置1の上述した効果・特徴を応用した技術が、後述する本発明の実施形態である撮像装置である。
すなわち、本発明に係る撮像装置は、上述した双方向通話装置1の特徴点、つまり、偶数個のマイクロフォンが等間隔で配置され、発音方向の検出が可能である点を、撮像装置に応用した技術である。
The configuration and processing operation of the
A technique that applies the above-described effects and features of the
In other words, the imaging apparatus according to the present invention is applied to the imaging apparatus in that the characteristic point of the above-described two-
実施形態
図24は、本実施形態における撮像装置40の構成を説明するための図である。
図24に示すとおり、撮像装置40は、2以上のマイクロフォン検出手段としての音源方向検出部50a,50bと、撮像手段としての撮像部60a,60bと、音源位置特定手段としての音源位置推定部70と、画像認識手段としての画像認識部80とを有している。
撮像装置40の撮像対象は、図24において線で囲まれた範囲の部屋R1であり、撮像対象の部屋R1の中に、音源方向検出部50a,50bおよび撮像部60a,60bが配置される。
音源位置推定部70および画像認識部80についても、撮像対象の部屋R1の中に配置させてもよいが、必ずしもその必要はないので、図24においては、部屋R1の外に配置させている。
Embodiment FIG. 24 is a diagram for explaining a configuration of an
As shown in FIG. 24, the
The imaging target of the
The sound source
音源方向検出部50a,50bと音源位置推定部70は、それぞれ電気的に接続されており、また、撮像部60a,60bと音源位置推定部70は、それぞれ電気的に接続されている。さらに、撮像部60a,60bと画像認識部80が、それぞれ電気的に接続されている。
The sound source
撮像対象である部屋R1の中に、音源方向検出部50a,50bと撮像部60a,60bをどのように配置するかについては、自由に設定することが可能である。ただし、撮像部60a,60bは、撮像対象の部屋R1を極力広範囲に撮影可能とする観点から、図24に示すように、部屋R1の中の相対する位置に配置させることが望ましい。
また、音源方向検出部50a,50bは、音源方向を広範囲に特定するように、お互い極力離れた位置に配置することが望ましい。
It is possible to freely set how the sound source
Further, the sound source
以下、撮像装置40の各構成要素について説明する。
音源方向検出部50a,50b
音源方向検出部50a,50bは、それぞれすでに詳述した双方向通話装置1と同一である。すなわち、6本のマイクロフォンを60度間隔で全方位に均等に配置し、各マイクロフォンが入力する音声信号に基づいて、音源の方向検出のためのレベル比較を行い、レベルの大きいマイクロフォンを選択する。
選択されたマイクロフォンは、各音源方向検出部50a,50bに実装されたDSP25a,25bにおいて、音源方向マイク番号MC_a,MC_bとして保持される。
そして、各音源方向検出部50a,50bで選択された音源方向マイク番号MC_a,MC_bは、図24に示す信号S57a,S57bとして、後述する音源位置推定部70に供給される。
Hereinafter, each component of the
Sound source
The sound
The selected microphones are held as sound source direction microphone numbers MC_a and MC_b in the DSPs 25a and 25b mounted on the sound source
The sound source direction microphone numbers MC_a and MC_b selected by the sound source
撮像部60a,60b
撮像部60a,60bは、動画映像を撮影可能な撮像手段としてのズームレンズ付カメラを含んで構成される。たとえば、CCD等の撮像デバイスを備えたディジタルカメラを含み、撮影した動画を順次、それぞれ撮像信号S68a,S68bとして画像認識部80へ転送する。
撮像部60a,60bは、撮像対象である部屋R1の全域を撮影可能なように、図24の水平方向に回転運動が可能なように構成される。
そして、撮像部60a,60bは、たとえばステッピングモータ等の回動手段(図示しない)およびモータ制御回路を備えている。
The
The
And the
モータ制御回路は、後述する音源位置推定部70より、それぞれパン制御信号として供給されるS76a,S76bに基づいて、撮像部60a,60bの水平方向位置を決定すべくモータを制御する。
なお、本発明の撮像方向制御手段は、本実施形態における撮像部60a,60bのモータ制御回路に相当する。
モータ制御回路は、後述する画像認識部80より、ズーム制御信号として供給されるS86a,S86bに基づいて、それぞれ撮像部60a,60bのズーム制御を行う。
The motor control circuit controls the motor to determine the horizontal position of the
The imaging direction control means of the present invention corresponds to the motor control circuit of the
The motor control circuit performs zoom control of the
音源位置推定部70
音源位置推定部70は、各音源方向検出部50a,50bから供給される音源方向マイク番号MC_a,MC_b(信号S57a,S57b)に基づいて、音源位置の推定を行う。音源方向マイク番号MC_a,MC_bがそれぞれ指向する方向の交点は、図24で示す部屋R1の水平平面上で一意に定まり、その交点を音源位置と推定する。
Sound source
The sound source
なお、各音源方向検出部50a,50bは、前述したとおり、それぞれ複数のマイクロフォンから入力される音声信号の音圧レベル比較を行うことにより音源方向マイク番号MC_a,MC_bを選択するが、いわゆる星取表方式で最終的にマイク番号を決定しているため、音源方向については若干の誤差を含んでいる。しかしながら、後述するように、音源位置推定部70で推定された音源位置に基づいて、撮像部60a,60bのズーム制御を行うことにより、被写体を拡大して捉えるように調整されるため、音源位置推定部70で行われる音源位置の推定が若干の誤差を含んでいても、問題はない。
The sound source
また、音源位置推定部70は、書換可能な不揮発性メモリを内蔵している。このメモリには、部屋R1における音源方向検出部50a,50bおよび撮像部60a,60bの水平平面上に配置された位置情報があらかじめ記憶されており、音源位置推定部70は、算出した音源位置と、メモリに記憶された撮像部60a,60bの位置情報とから幾何学演算を行い、それぞれ撮像部60a,60bが音源位置を捉えるために必要な回転角度を算出する。
音源位置推定部70は、それぞれ撮像部60a,60bが音源位置を捉えるために必要な回転角度を含むパン制御信号S76a,S76bを、それぞれ撮像部60a,60bに対して出力する。
The sound source
The sound source
画像認識部80
画像認識部80は、撮像部60a,60bで取り込まれた動画データを、図24に示す信号S68a,S68bとして逐次入力する。実際には、撮像部60a,60bが取得したデータをフレーム単位で順次画像認識部80内のバッファに転送し、画像認識部80では、フレーム単位のデータを動画データとして保持する。
なお、撮像対象の部屋R1の外部から撮像部60a,S60bで撮影された映像を表示するする表示手段(たとえば、LCD等)を内蔵している。この表示手段は、本発明の表示手段に相当する。
また、表示手段は、画像認識部80と電気的に接続された外部に設置してもよい。
The
Note that display means (for example, an LCD or the like) for displaying images taken by the
Further, the display means may be installed outside that is electrically connected to the
また、画像認識部80は、上述した表示手段に表示された映像データの中から、被写体である人間を特定するために、画像認識処理を行う。
画像認識処理としては、すでに様々な公知の技術が知られており、これらの公知技術を適用することが可能である。一般に、画像認識処理では、下記の処理が行われる。
In addition, the
As the image recognition processing, various known techniques are already known, and these known techniques can be applied. In general, the following processing is performed in the image recognition processing.
すなわち、認識対象の画像の一部とテンプレート(検索形状)の相関係数を計算し、その相関係数に基づいてテンプレートと近い特徴を持った画像の一部の位置を特定する。
具体的には、以下のステップを実行する。
a.画像の正規化を行う。
b.最も一致する可能性のある複数の位置を粗くサーチ(検索)
c.検索された複数の位置について相関係数を計算する。
d.相関が最も高い位置を絞り込む。
その際、画像認識対象物の輪郭に着目し、テンプレートの画像の輪郭特徴を抽出することにより、その輪郭をモデルとして登録する手法もとられる。そして、そのテンプレートの輪郭特徴と対象画像の輪郭特徴から、上述の相関係数を計算する。すなわち、両者の輪郭がどの程度類似しているかについての計算を行う。
以上のステップにより、テンプレートに最も合致する可能性の高い画像の位置が特定される。
That is, a correlation coefficient between a part of an image to be recognized and a template (search shape) is calculated, and a position of a part of the image having a feature close to the template is specified based on the correlation coefficient.
Specifically, the following steps are executed.
a. Perform image normalization.
b. Coarse search for multiple locations that most likely match
c. A correlation coefficient is calculated for a plurality of searched positions.
d. Narrow down the position with the highest correlation.
At this time, focusing on the contour of the image recognition object and extracting the contour feature of the template image, the contour is registered as a model. Then, the above correlation coefficient is calculated from the contour feature of the template and the contour feature of the target image. That is, a calculation is made as to how similar the two contours are.
Through the above steps, the position of the image most likely to match the template is specified.
本実施形態では、人間の顔に相当するテンプレート(輪郭特徴)を画像認識部80が保持し、このテンプレートに基づいて、撮像部60a,60bから取得した動画データに現れる人間の顔の輪郭をサーチ(検索)する。そして、上述した画像認識処理により、画像認識部80は、サーチ(検索)対象である人間の顔の位置が、撮像部60a,60bの画面上のどの位置にあるのかを認識できる。
In this embodiment, the
撮像部60a,60bの画面上の顔の位置を認識すると、画像認識部80は、撮像部60a,60bが画像認識対象である顔を画面の中心領域に大きく撮影するように、撮像部60a,60bそれぞれのズーム制御量を算出し、ズーム制御信号S86a,S86bとして、撮像部60a,60bのモータ制御回路に出力する。
When recognizing the position of the face on the screen of the
以上、本実施形態における撮像装置40の各構成要素について説明した。
次に、図25〜図28に関連付けて、撮像装置40の動作について説明する。
In the above, each component of the
Next, the operation of the
撮像装置の動作
図25は、本実施形態における撮像装置40の処理動作の概要を説明するための図である。
図25においては、撮像対象である部屋R1に存在する物体OBJ1が音を発した場合に、撮像部60a,60bにより物体OBJ1の画像が取り込まれる動作を示している。 物体OBJ1が音を発すると、まず、音源方向検出部50a,50bにより音源方向が特定される。すなわち、音源方向検出部50a,50bは、図25で示す線L50a,L50bの方向が音源方向であることを特定する。
図25では、線L50a,L50bが示す方向と、音源方向検出部50a,50bのマイクロフォンが指向する方向とが一致しないが、図25は説明の便宜のための図であり、音源方向検出部50a,50bのマイクロフォンの数を6本より多い数にすれば、特定する音源方向の分解能が向上し、両者を一致させることが可能である。ここでは、音源方向検出部50a,50bの位置とそれらのマイクロフォンの数が適切に設定されて、音源検出方向が線L50a,L50bが示す方向と一致したものとして説明する。
Operation of Imaging Device FIG. 25 is a diagram for explaining the outline of the processing operation of the
FIG. 25 illustrates an operation in which an image of the object OBJ1 is captured by the
In FIG. 25, the direction indicated by the lines L50a and L50b does not coincide with the direction in which the microphones of the sound source
図26は、本実施形態における撮像装置40のメイン処理のフローチャートの1例である。メイン処理は、図24に図示しないCPUにより、音源位置推定部70および画像認識部80が制御されて実行される。
図26において、音を検出すると、一連の処理が開始される(ステップST10)。
すなわち、音を検出すると、音を検出した音源方向検出部50a,50bが特定した音源方向が前回検出したときと比較して変化があるか否かがチェックされる(ステップST11)。
音源方向検出部50a,50bのそれぞれが特定した音源方向が、前回特定した方向と同じであれば、前回と同じ位置で物体OBJ1が発音していると考えられるので、撮像部60a,60bの回転制御は必要なく、処理は終了する。
音源方向検出部50a,50bのそれぞれが特定した音源方向が、前回特定した方向と異なる場合には、前回と異なる位置で物体OBJ1が発音していると考えられるので、音源位置推定処理(ステップST12)および画像認識処理(ステップST13)を実行する。
FIG. 26 is an example of a flowchart of main processing of the
In FIG. 26, when a sound is detected, a series of processing is started (step ST10).
That is, when a sound is detected, it is checked whether or not the sound source direction specified by the sound source
If the sound source direction specified by each of the sound source
If the sound source direction specified by each of the sound source
図27は、本実施形態における撮像装置40の音源位置推定処理を示すフローチャートであり、図26で説明したメイン処理のステップST12で呼び出される。
図27に示すとおり、先ず、音源方向検出部50a,50bの音源方向検出データ(音源方向マイク番号)に変化があることを確認すると(ステップST20)、2つの音源方向検出部の検出データ(音源方向マイク番号)に基づいて、その交点を算出する(ステップST21)。
すなわち、音源位置推定部70では、音源方向検出部50aが設置された位置情報(座標情報)を記憶しているので、この位置情報に基づいて、図25に示す物体OBJ1の位置(音源位置)を線L50a,L50bの交点として算出する(ステップST22)。
さらに、音源位置推定部70は、それぞれ撮像部60a,60bが音源位置を捉えるために必要な回転角度を含むパン制御信号S76a,S76bを、それぞれ撮像部60a,60bに対して出力する。
パン制御信号S76a,S76bを受けて、撮像部60a,60bのモータ制御回路は、撮像部60a,60bを水平方向に回動させて(パンさせて)、音源位置を撮影対象とするようにモータを制御する(ステップST23)。
これにより、図25に示すように、撮像部60a,60bは、線L60a,L60bで示す方向にそれぞれ回動され、被写体として物体OBJ1を捉える。
FIG. 27 is a flowchart showing the sound source position estimation process of the
As shown in FIG. 27, first, when it is confirmed that there is a change in the sound source direction detection data (sound source direction microphone number) of the sound source
That is, since the sound source
Furthermore, the sound source
In response to the pan control signals S76a and S76b, the motor control circuits of the
Accordingly, as illustrated in FIG. 25, the
図28は、本実施形態における撮像装置40の画像認識処理を示すフローチャートであり、図26で説明したメイン処理のステップST13で呼び出される。
音源位置推定処理により、音源位置が撮影対象となるように撮像部60a,60bが回動されると、画像認識部80において、映像出力があるか否かが先ずチェックされ(ステップST30)、次に、画像認識処理アルゴリズムに従い、物体OBJ1の輪郭をサーチする(ステップST31)。
たとえば、画像認識のためのテンプレートとして人間の顔を登録していた場合には、画像データの一部の輪郭特徴と登録された顔の輪郭特徴の相関関係が計算され、相関関係が高い画像データの一部を人間の顔と認識する。
そして、画像認識部80は、被写体の顔と認識した画像データの部分が、画面に大きく表示されるようにズーム制御量を算出し、算出したズーム制御量を含むズーム制御信号S86a,S86bを撮像部60a,60bに対して送出する(ステップST32)。
ズーム制御信号S86a,S86bを受けた撮像部60a,60bのモータ制御回路は、それぞれ撮像部60a,60bのズーム制御を行う結果、たとえば被写体の顔が画面に大きく表示される。
FIG. 28 is a flowchart showing an image recognition process of the
When the
For example, when a human face is registered as a template for image recognition, the correlation between a part of the contour feature of the image data and the registered contour feature of the face is calculated, and the image data having a high correlation Is recognized as a human face.
Then, the
The motor control circuits of the
以上説明したように、本実施形態における撮像装置によれば、複数のマイクロフォンにより音源方向を特定する複数の音源方向検出部と、当該複数の音源方向検出部で特定されたマイク番号に基づいて音源位置を推定する音源位置推定部と、音源位置推定部で推定された音源位置に対して回動し動画撮影を行う撮像部と、撮像部で得られた動画データに基づいて画像認識処理を行い被写体を特定するとその被写体を拡大して捉えるように撮像部を制御する画像認識部80と、を備えているので、以下の効果を得ることができる。
As described above, according to the imaging apparatus of the present embodiment, a sound source based on a plurality of sound source direction detection units that specify a sound source direction using a plurality of microphones and a microphone number specified by the plurality of sound source direction detection units. A sound source position estimation unit that estimates a position, an imaging unit that rotates with respect to the sound source position estimated by the sound source position estimation unit, and shoots a moving image, and performs image recognition processing based on the moving image data obtained by the imaging unit When the subject is specified, the
すなわち、音源である人間を含む物体(被写体)の位置を把握することができるため、比較的少ない数の撮像手段により、被写体を明瞭に撮影することが可能となるとともに、撮像装置全体としてのシステムコストが抑制できる。 That is, since the position of an object (subject) including a human being as a sound source can be grasped, the subject can be clearly photographed by a relatively small number of imaging means, and the system as an entire imaging apparatus is provided. Cost can be suppressed.
撮像手段を撮像対象の部屋の両側に配置した場合には、被写体に対して相対する2方向からの撮影ができるため、特に物体が人間である場合には、顔などの身体的な特徴をより明瞭に捉えることが可能となる。 When the imaging means are arranged on both sides of the room to be imaged, it is possible to shoot from two directions opposite to the subject. Therefore, when the object is a human being, the physical characteristics such as the face are more improved. It becomes possible to grasp clearly.
なお、上述した実施形態の内容に拘泥せず、本発明の要旨を変更しない範囲で様々な実施形態の変更が可能である。 It should be noted that various embodiments can be changed without departing from the content of the above-described embodiment and without changing the gist of the present invention.
たとえば、上記実施形態においては、音源方向検出部50a,50bは、それぞれ6本の指向性マイクロフォンを有することとしたが、集音方向が互いに異なる少なくとも2本の指向性マイクロフォンを有する音源方向検出部が少なくとも2以上あり、少なくとも2以上ある音源方向検出部が互いに離れた位置にあれば、幾何学的に音源位置が一意に定まるため、上述した実施形態のように、必ずしも指向性マイクロフォンが6本均等に配置する必要はない。
For example, in the above embodiment, the sound source
もっとも、音源方向検出部が有する指向性マイクロフォンの数が多いほど、推定する音源位置の精度が向上するので、指向性マイクロフォンの数は多ければ多いほど望ましいということが言える。ただし、監視方向を限定すれば、少ないマイクロフォンの数でもある程度音源位置推定の精度を向上することが可能である。
たとえば、図24で明らかなように、音源方向検出部50a,50bの音源位置推定部70が配置される側は、監視領域が非常に少ないため、6本の指向性マイクロフォンをすべて撮像部60b側に指向するように配置すれば、マイクロフォンの数を増加させなくても、音源位置の推定精度が向上する。
However, since the accuracy of the estimated sound source position is improved as the number of directional microphones included in the sound source direction detection unit is increased, it can be said that the larger the number of directional microphones, the better. However, if the monitoring direction is limited, the accuracy of sound source position estimation can be improved to some extent even with a small number of microphones.
For example, as clearly shown in FIG. 24, the side where the sound source
また、上記実施形態の撮像装置においては、2個の音源方向検出部により構成したが、2個に限定されず、たとえば3個,4個の音源方向検出部により構成することで、音源位置推定部70で算出する音源位置の精度が向上すると同時に、部屋R1のより広い範囲が撮像部により撮影可能となる。これにより、撮影上のいわゆる死角になる領域が減少する。
In the imaging apparatus of the above embodiment, the two sound source direction detection units are configured. However, the number is not limited to two, and for example, by using three or four sound source direction detection units, sound source position estimation is performed. The accuracy of the sound source position calculated by the
また、音源方向検出部を3個以上有する場合には、3次元での音源位置の検出も可能となるため、その場合には、撮像部に対して、さらにチルト(上下方向の回動)機能を付加することで、撮像対象の部屋において、3次元の任意の位置における撮影を行うことも可能となる。 In addition, when there are three or more sound source direction detection units, it is possible to detect the sound source position in three dimensions. In this case, a tilt (up and down rotation) function is further provided for the imaging unit. By adding, it becomes possible to perform photographing at an arbitrary three-dimensional position in the room to be imaged.
また、画像認識部80は、撮像部60a,60bが画像認識対象である顔を画面の中心領域に大きく撮影するように、撮像部60a,60bそれぞれのズーム制御量を算出し、ズーム制御信号S86a,S86bとして、撮像部60a,60bのモータ制御回路に出力することとしたが、このようなフィードフォワード制御ではなく、フィーバックサーボによる制御系を構成してもよい。すなわち、画面上の顔の位置と目標値(本来画面中央に大きく映し出されるべき顔の位置)の差分を、画像認識部80から撮像部60a,60bへフィードバックし、撮像部60a,60bのモータ制御回路がズーム制御量を決定するように構成してもよい。
In addition, the
上述した実施形態では、画像認識部80が、画像認識処理により顔等の対象物を特定した後に、撮像部60a,60bに対して、必要なズーム制御量を算出することとしたが、音源位置の座標が音源位置推定部70により特定されているので、音源位置の座標から必要なズーム制御量を算出することもできる。この場合には、画像認識処理を実行した場合のように、対象物の大きさに応じた正確なズーム制御量を算出できないが、画像認識処理が必要ないので、ズーム制御の応答が早く、システム全体として安価となる利点がある。
In the embodiment described above, the
1…双方向通話装置、MC1〜MC6…マイクロフォン、16…受話スピーカ、23…マイクロプロセッサ、24…コーデック、25…第1のディジタルシグナルプロセッサ(DSP1)、26…第2のディジタルシグナルプロセッサ(DSP2)、27…A/D変換器ブロック、28…D/A変換器ブロック、29…増幅器ブロック、40…撮像装置、50a,50b…音源方向検出部、60a,60b…撮像部、70…音源位置推定部、80…画像認識部。
DESCRIPTION OF
Claims (7)
前記2以上のマイクロフォン選択手段によりそれぞれ選択された複数のマイクロフォンのうち、少なくとも2つのマイクロフォンが指向する方向に基づいて、音源位置を特定する音源位置特定手段と
を具備する音源位置特定装置。 Two or more microphone selecting means for arranging at least two microphones having directivity so as to be directed in different sound collecting directions, and selecting one microphone based on sound pressure collected by the microphone;
A sound source position specifying device comprising sound source position specifying means for specifying a sound source position based on a direction in which at least two microphones are directed among a plurality of microphones selected by the two or more microphone selection means.
前記2以上のマイクロフォン選択手段によりそれぞれ選択された複数のマイクロフォンのうち、少なくとも2つのマイクロフォンが指向する方向に基づいて、音源位置を特定する音源位置特定手段と、
回動により撮像方向を可変とする撮像手段と、
前記音源位置特定手段により特定された音源位置を前記撮像手段が撮像するように、前記撮像手段を回動させて撮像方向を制御する撮像方向制御手段と
を具備する撮像装置。 Two or more microphone selecting means for arranging at least two microphones having directivity so as to be directed in different sound collecting directions, and selecting one microphone based on sound pressure collected by the microphone;
Sound source position specifying means for specifying a sound source position based on a direction in which at least two microphones are directed among a plurality of microphones respectively selected by the two or more microphone selection means;
Imaging means for changing the imaging direction by rotation;
An imaging apparatus comprising: an imaging direction control unit that controls the imaging direction by rotating the imaging unit so that the imaging unit images the sound source position specified by the sound source position specifying unit.
をさらに有し、
前記音源特定位置により特定された音源位置を拡大して前記表示手段に表示させる
請求項2記載の撮像装置。 Display means for displaying the video obtained by the imaging means;
The imaging apparatus according to claim 2, wherein the sound source position specified by the sound source specifying position is enlarged and displayed on the display unit.
をさらに有し、
画像認識手段により認識された前記特定の対象を拡大して前記表示手段に表示させる
請求項3記載の撮像装置。 Image recognition means for recognizing a specific target from the video displayed by the display means,
The imaging apparatus according to claim 3, wherein the specific object recognized by the image recognition means is enlarged and displayed on the display means.
前記2以上のマイクロフォン選択部によりそれぞれ選択された複数のマイクロフォンのうち、少なくとも2つのマイクロフォンが指向する方向に基づいて、音源位置を特定するステップと、
特定された音源位置を前記撮像部が撮像するように、前記撮像部を回動させるステップと
を具備する撮像方法。 At least two microphones having directivity are arranged so as to be directed in different sound collection directions, and rotated with two or more microphone selection units that select one microphone based on the sound pressure collected by the microphone. And a monitoring method having an imaging unit that changes the imaging direction by:
Identifying a sound source position based on a direction in which at least two microphones are directed among a plurality of microphones respectively selected by the two or more microphone selection units;
Rotating the imaging unit so that the imaging unit images the identified sound source position.
をさらに具備する請求項5記載の撮像方法。 The imaging method according to claim 5, further comprising a step of enlarging and displaying the sound source position imaged by the imaging unit.
表示した映像の中から、特定の対象を認識するステップと、
認識された前記特定の対象を拡大して表示するステップと
をさらに具備する請求項5記載の撮像方法。
Displaying an image captured by the imaging unit;
Recognizing a specific target from the displayed video;
The imaging method according to claim 5, further comprising: enlarging and displaying the recognized specific object.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003383999A JP2005151042A (en) | 2003-11-13 | 2003-11-13 | Sound source position specifying apparatus, and imaging apparatus and imaging method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003383999A JP2005151042A (en) | 2003-11-13 | 2003-11-13 | Sound source position specifying apparatus, and imaging apparatus and imaging method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005151042A true JP2005151042A (en) | 2005-06-09 |
Family
ID=34692562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003383999A Pending JP2005151042A (en) | 2003-11-13 | 2003-11-13 | Sound source position specifying apparatus, and imaging apparatus and imaging method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005151042A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007201818A (en) * | 2006-01-26 | 2007-08-09 | Sony Corp | Apparatus, method and program for processing audio signal |
US8547416B2 (en) | 2005-06-28 | 2013-10-01 | Sony Corporation | Signal processing apparatus, signal processing method, program, and recording medium for enhancing voice |
JP2016048202A (en) * | 2014-08-27 | 2016-04-07 | 株式会社東芝 | Monitoring system and monitoring program |
JP2017092576A (en) * | 2015-11-04 | 2017-05-25 | 株式会社リコー | Communication device, control method, and control program |
CN107910015A (en) * | 2017-12-12 | 2018-04-13 | 上海与德科技有限公司 | A kind of terminal device noise-reduction method and terminal device |
-
2003
- 2003-11-13 JP JP2003383999A patent/JP2005151042A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8547416B2 (en) | 2005-06-28 | 2013-10-01 | Sony Corporation | Signal processing apparatus, signal processing method, program, and recording medium for enhancing voice |
JP2007201818A (en) * | 2006-01-26 | 2007-08-09 | Sony Corp | Apparatus, method and program for processing audio signal |
US8213648B2 (en) | 2006-01-26 | 2012-07-03 | Sony Corporation | Audio signal processing apparatus, audio signal processing method, and audio signal processing program |
JP2016048202A (en) * | 2014-08-27 | 2016-04-07 | 株式会社東芝 | Monitoring system and monitoring program |
JP2017092576A (en) * | 2015-11-04 | 2017-05-25 | 株式会社リコー | Communication device, control method, and control program |
CN107910015A (en) * | 2017-12-12 | 2018-04-13 | 上海与德科技有限公司 | A kind of terminal device noise-reduction method and terminal device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3891153B2 (en) | Telephone device | |
JP3972921B2 (en) | Voice collecting device and echo cancellation processing method | |
JP2004343262A (en) | Microphone-loudspeaker integral type two-way speech apparatus | |
JP2005086365A (en) | Talking unit, conference apparatus, and photographing condition adjustment method | |
JP4192800B2 (en) | Voice collecting apparatus and method | |
US6185152B1 (en) | Spatial sound steering system | |
JP4411959B2 (en) | Audio collection / video imaging equipment | |
JP4479227B2 (en) | Audio pickup / video imaging apparatus and imaging condition determination method | |
JPH06351015A (en) | Image pickup system for video conference system | |
JP4639639B2 (en) | Microphone signal generation method and communication apparatus | |
JP4281568B2 (en) | Telephone device | |
JP4225129B2 (en) | Microphone / speaker integrated type interactive communication device | |
JP2005151042A (en) | Sound source position specifying apparatus, and imaging apparatus and imaging method | |
JP2005181391A (en) | Device and method for speech processing | |
JP4453294B2 (en) | Microphone / speaker integrated configuration / communication device | |
JP4269854B2 (en) | Telephone device | |
JP4379105B2 (en) | Order receiving equipment at restaurants | |
JP4403370B2 (en) | Microphone / speaker integrated configuration / communication device | |
EP1266538B1 (en) | Spatial sound steering system | |
JP4470413B2 (en) | Microphone / speaker integrated configuration / communication device | |
JP2005148301A (en) | Speech processing system and speech processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090209 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090331 |